JP2005258226A

JP2005258226A - 広帯域音声復号化方式及び広帯域音声復号化装置

Info

Publication number: JP2005258226A
Application number: JP2004071740A
Authority: JP
Inventors: Kimio Miseki; 公生三関
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-03-12
Filing date: 2004-03-12
Publication date: 2005-09-22
Anticipated expiration: 2024-03-12
Also published as: JP4047296B2

Abstract

【課題】低ビットレートにおいて狭帯域音声信号が生成される符号化データであっても、良い音質を得ることができる広帯域音声復号化装置を提供する。
【解決手段】狭帯域音声信号が生成されることを識別する識別情報を帯域検出部１３が検出して、この識別情報を基に制御部１５が音声復号化部１６を制御する。
【選択図】図１

Description

本発明は、低ビットレートにおいて広帯域の音声信号だけでなく狭帯域の音声信号でも高性能に復号することができる広帯域音声復号化方法及び広帯域音声復号化装置に関する。

従来の携帯電話やＶｏＩＰ通信で使用される音声信号のディジタル伝送においては、音声信号は８ｋＨｚのサンプリング周波数（以降では、サンプリングレートと言うこともある）でサンプリングされ、このサンプリング周波数に適合した符号化方式によって符号化されて伝送される。サンプリング定理から知られているように、８ｋＨｚのサンプリング周波数でサンプリングされた信号には、サンプリング周波数の半分の周波数に相当する４ｋＨｚ以上の周波数は含まれない。音声符号化の分野では、このように４ｋＨｚ以上の周波数は含まれないような音声信号のことを狭帯域音声（もしくは電話帯域音声）と呼ぶ。狭帯域音声の符号化／復号化には、狭帯域音声に適合した方式が用いられる。例えば、ＩＴＵ−Ｔで国際標準になっているＧ．７２９や、３ＧＰＰ標準のＡＭＲ−ＮＢ（ＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ−ＮａｒｒｏｗＢａｎｄ）は狭帯域用の音声符号化／復号化の方式であり、入力音声信号のサンプリング周波数は８ｋＨｚと規定されている。

一方、１６ｋＨｚ程度のより高いサンプリング周波数の音声信号を用いることにより、５０Ｈｚ〜７ｋＨｚ程度までの広い周波数帯域を持つ音声を表現することが可能である。音声符号化の分野では、このように８ｋＨｚよりも十分高いサンプリング周波数（通常、１６ｋＨｚ程度、場合によっては、１２．８ｋＨｚ程度や１６ｋＨｚ以上のサンプリング周波数もある）を使用して表した音声信号のことを広帯域音声と呼ぶ。このような広帯域音声を符号化するためには、通常の狭帯域音声符号化方式とは異なる、広帯域音声に適合した広帯域音声符号化方式を用いる。例えば、ＩＴＵ−Ｔで国際標準になっているＧ．７２２．２（非特許文献１）は広帯域音声用の符号化／復号化の方式であり、符号化器に入力する入力音声信号のサンプリング周波数と、復号化器から出力される音声信号のサンプリング周波数は、どちらも１６ｋＨｚと規定されている。Ｇ．７２２．２に記載された広帯域音声符号化方式はＡＭＲ−ＷＢ（ＡｄａｐｔｉｖｅＭｕｌｔｉＲａｔｅ − ＷｉｄｅＢａｎｄ）方式と呼ばれ、サンプリング周波数が１６ｋＨｚの広帯域音声信号を高品質に符号化／復号化することを目的としている。ＡＭＲ−ＷＢでは９つのビットレートが使用可能である。一般に、高いビットレートで符号化と復号化を行って生成される音声の音質は比較的良いが、低いビットレートで符号化と復号化を行って生成される音声は符号化歪みが大きくなるために音質は劣化する傾向にある。

このようにＩＴＵ−Ｔ勧告Ｇ．７２２．２（ＡＭＲ−ＷＢ）に記載された広帯域音声符号化方式では、５０Ｈｚ〜７ｋＨｚの帯域幅を持つ広帯域な音声信号を扱うことを想定して符号化と復号化を行うため、符号化の入力信号と復号化の出力信号のサンプリング周波数は１６ｋＨｚに定められている。ところが、通常の電話音声のように４ｋＨｚ以上の周波数を持たない音声信号を扱う狭帯域音声通信システムと広帯域音声通信システムが共存するシステムにおいては、広帯域音声通信システムで狭帯域音声信号を扱うケースが生じる。この場合、狭帯域音声信号を広帯域音声符号化によって符号化し生成された符号化データが、広帯域音声符号化に対応した広帯域音声復号化により復号されることになる。このような場合に復号化される音声信号は、通常の広帯域音声信号と全く同じ処理で復号されるため、サンプリング周波数は広帯域信号用のものであるにも関わらず、元々が４ｋＨｚ以上の周波数を持たない狭帯域の音声信号を符号化したものであるため、復号化しても４ｋＨｚ以上の周波数成分を殆ど持たない狭帯域音声信号が再生されると予想される。ただし、符号化による歪みや、復号化処理で帯域拡張処理などがあると、狭帯域の音声信号でも符号化／復号化することで４ｋＨｚ以上の周波数成分をある程度は持つようになる。

このように、従来法では、４ｋＨｚ以上の周波数を持たない狭帯域音声信号を広帯域音声符号化により符号化して得られる符号化データが復号側に受信された場合でも、通常の広帯域音声復号化を用いて音声信号の復号化を行う。従来法のＡＭＲ−ＷＢに代表される方式では符号化と復号化は広帯域音声信号に特化したものとなっている。従って、従来法では４ｋＨｚ以上の周波数を殆ど持たない狭帯域の音声信号を生成するような符号化データであっても、広帯域の音声信号に特化した復号化が行われるために、生成される狭帯域音声の音質が劣化するという問題がある。このような傾向は、高い圧縮効率が求められる低ビットレートにおいて特に顕著となる。このため、狭帯域の通信路／蓄積系や、狭帯域のコーデックを介すなどして帯域制限されたような狭帯域の音声信号に対して広帯域音声符号化／復号化を用いると、６〜１０ｋｂｉｔ／ｓ程度の低ビットレートでは、狭帯域の音声符号化／復号化を用いた場合より、音質が極めて悪くなるという問題がある。また、狭帯域音声信号だけに限らず、４ｋＨｚ以上の周波数が非常に少ない音声信号を扱う場合についても同様の問題があり、従来の広帯域音声復号化では低ビットレートで高品質な音声を提供できなくなるという問題がある。

また、従来法のＡＭＲ−ＷＢ方式は、広帯域音声復号化部がＬｏｗｅｒ−Ｂａｎｄ部（約６ｋＨｚ以下の低域側の音声信号を生成する）と、Ｈｉｇｈｅｒ−Ｂａｎｄ部（約６ｋＨｚ〜７ｋＨｚの帯域の高域側の音声信号を生成する）から構成されている。Ｌｏｗｅｒ−Ｂａｎｄ部はＣＥＬＰ系の音声符号化方式であり、Ｌｏｗｅｒ−Ｂａｎｄ部内で復号して生成された低域側の音声信号に、Ｈｉｇｈｅｒ−Ｂａｎｄ部で生成される高域側の音声信号を常に付与することにより広帯域音声復号化部の出力信号が生成される。このように、ＡＭＲ−ＷＢ方式の復号化部は広帯域音声に特化したものとなっているため、狭帯域音声を生成するような符号化データが入力されたときでも、Ｈｉｇｈ−Ｂａｎｄ部で生成した不要な高域信号が音声復号化部からの音声出力に付与されてしまうという問題がある。

従来法として、低ビットレートに対応した符号化／復号化の効率を改善するための方法として、様々な手法があり、音源信号を表すパルスの位置の集合を複数セット準備して、入力音声信号との間のひずみが最小となる集合を選択してその判別情報を受信側に伝送することにより、低ビットレート化に対応するものが開示されている（例えば、特許文献１）。

一方、入力信号の音声／非音声の識別によって符号化及び復号化装置の構成を切り換える方法があり、符号器及び復号器の一部の機能ブロックについて音声信号の処理用に最適化された構成と非音声信号の処理用に最適化された構成とを設け、音声／非音声の識別情報に基づいてこれらの構成を切り換えるというものである（例えば、特許文献２）。

しかし、これらの従来技術はいずれも音声信号の帯域の違いに着目するものではないことは明白であり、上述したような、低ビットレートで広帯域符号化された狭帯域音声の符号化データを広帯域音声復号化で復号する場合に生ずる音質の劣化を改善することはできないという問題がある。
ＩＴＵ−Ｔ勧告Ｇ．７２２．２特開２００１−３１８６９８号公報（第２−４頁、図１）特開平１１−２５９０９９号公報（第２、５、６ページ、図１）

上述したような従来技術では、低ビットレートで広帯域符号化された狭帯域音声の符号化データを広帯域音声復号化で復号する場合に生ずる音質の劣化を改善することはできないという問題があった。

本発明は、上記問題を解決するためになされたもので、低ビットレートでも、狭帯域音声信号を広帯域音声符号化して得られる符号化データを高品質に復号化するための広帯域音声復号化方法及び広帯域音声復号化装置を提供することを目的とする。

上記目的を達成するために、本発明の広帯域音声復号化方法は、符号化データから音源信号と合成フィルタを生成し、音源信号と合成フィルタから音声信号を復号する復号処理を用いた広帯域音声復号化方法において、復号される音声信号が狭帯域であることを識別する識別情報を取得し、前記識別情報を基に復号処理を制御することを特徴とする。

また、本発明の広帯域音声復号化装置は、符号化データから音源信号を生成する手段、合成フィルタを生成する手段、音源信号と合成フィルタから音声信号を復号する手段を用いた広帯域音声復号化装置において、復号される音声信号が狭帯域であることを識別する識別情報を取得する手段、前記識別情報を基に復号手段を制御する手段とを備えたことを特徴とする。

本発明によれば、復号化して再生される音声信号が狭帯域信号であっても広帯域信号であっても、適切に復号処理を制御することができるので、低ビットレートにおいても復号化処理により再生される音質の劣化を防止することができる。

以下、図面を参照して本発明の実施例を説明する。

以下、図１及び図２を参照して、本発明の第１の実施形態を説明する。図１は、本発明の第１の実施形態に係る広帯域音声復号化装置の例を表したブロック図である。また、図２は、この広帯域音声復号化装置に入力する符号化音声データを生成する広帯域音声符号化装置の一例を表すブロックである。移動通信端末の場合には、広帯域音声復号化装置は受信系で、広帯域音声符号化装置は送信系で用いられる。また、広帯域音声復号化装置は、コンテンツとして記録された符号化データを再生する場合などにも用いられる。

まず初めに、広帯域音声復号化装置１０の入力となる符号化データを生成するための広帯域音声符号化装置の例について図２を用いて説明する。

図２において、広帯域音声符号化装置２０は、音声入力部２２、帯域検出部２３、制御部２５、サンプリングレート変換部２４、音声符号化部２６、および、符号化データ出力部２７から構成される。

図２を用いて音声符号化装置２０の動作を説明する。音声入力部２２は入力音声２１の情報を入力すると共に入力音声信号の帯域に関する識別情報を取得する。入力音声信号の帯域に関する識別情報として、入力音声信号の取得手段や取得経路、取得履歴などを用いることも可能であるが、ここでは、入力音声信号のサンプリングレート情報を取得する例で説明することにする。音声入力部２２は取得したサンプリングレート情報を帯域検出部２３に送ると共に、入力音声信号をサンプリングレート変換部２４に出力する。

音声入力部２２の実現例としては、マイクロホンから音声を入力してA/D変換するようなリアルタイム通信だけでなく、ディジタルデータとして音声情報が格納されたファイルから音声データを読み出して音声入力部に入力する場合も有り得る。このような場合、帯域に関する識別情報は当該音声情報ファイルに付属する属性情報をヘッダ部分などから読み出す等の方法が考えられる。

帯域検出部２３は、音声入力部２２から出力される入力音声信号のサンプリングレート情報を入力し、これに基づいて検出された帯域情報を制御部２５に出力する。帯域情報としては、サンプリングレート情報そのものでもよいし、これに対応して予め設定されたサンプリングレートのモード情報であってもよい。例えば、音声入力部２２で想定する音声信号のサンプリングレート情報が“１６ｋＨｚ”または“８ｋＨｚ”の２種類の場合、“１６ｋＨｚ”にモード“０”を対応させる。また、サンプリングレート情報が“８ｋＨｚ”を表す場合、モード“１”を対応させ、音声入力部２２で想定しないサンプリングレート情報が取得された場合（この例では“１６ｋＨｚ”でも“８ｋＨｚ”でもない場合に相当）には、これらと別のモード（例えばモード“unknown”）を用意しておくことにより、音声符号化部２６で想定しないサンプリングレートの音声信号が入力された場合に符号化動作を行わないなどの対策を行うことができる。

制御部２５は、帯域検出部２３からの帯域情報を基に、サンプリングレート変換部２４と音声符号化部２６を制御する。具体的には、入力音声信号が、音声符号化部２６で想定する入力音声信号のサンプリングレートに合致していなければ、これに合致するように入力音声信号のサンプリングレート変換を行ったものを音声符号化部２６への入力音声信号となるようにする。また、入力音声信号が、音声符号化部２６で想定する入力音声信号のサンプリングレートに合致していれば、入力音声信号のサンプリングレート変換は行わずに、入力信号をそのまま音声符号化部２６に出力する。例えば、音声符号化部２６で想定する入力音声信号のサンプリングレートが１６ｋＨｚで、音声入力部２２から出力される入力音声信号のサンプリングレートが８ｋＨｚの場合、音声符号化部２６で想定する入力音声信号のサンプリングレートに合致していないので、サンプリングレートが８ｋＨｚの入力音声信号を１６ｋＨｚのサンプリングレートにアップサンプリングしてから音声符号化部２６に出力する。一方、音声符号化部２６で想定する入力音声信号のサンプリングレートが１６ｋＨｚで、音声入力部２２から出力される入力音声信号のサンプリングレートが同じ１６ｋＨｚの場合は、音声符号化部２６で想定する入力音声信号のサンプリングレートと合致しているため、入力音声信号のサンプリングレートの変換をせずに、入力音声信号をそのまま音声符号化部２６に送る。

音声符号化部２６は、入力された音声信号を所定の広帯域音声符号化により符号化し、対応する符号化データは符号化データ出力部２７にて纏めて出力される。音声符号化部２６で用いられる符号化アルゴリズムの例としては、非特許文献１に示されているＡＭＲ−ＷＢなどのＣＥＬＰ系の広帯域音声符号化が考えられる。

この際、制御部２５は、帯域の識別情報に基づいて内蔵する符号化パラメータ用メモリから広帯域用又は狭帯域用符号化パラメータを選択して読み出し、選択された符号化パラメータを用いて音声符号化部２６で符号化を行う。帯域の識別情報は、符号化データ出力部２７で符号化データの一部に組み入れて出力する。なお、どのように組み入れるかは適宜設計すべき事項である。また、別な実現の方法においては、帯域の識別情報は、サイド情報として、符号化データと別系統のデータとして出力することも可能である。これも適宜設計すべき事項である。また、組み入れない場合もある。

以上説明した音声符号化装置２０の構成及び動作については、出願人の先の特許出願（特願２００３−１０１４２２）の願書に添付した明細書に記載した通りであるが、これも、符号化データを生成するための音声符号化装置の一実現例に過ぎず、これに限られるものではない。例えば、帯域の識別情報を用いて音声符号化部を制御しない従来の符号化である場合であっても、そこから生成される符号化データは、本発明の音声復号化装置および復号化方法を用いた音声復号化の入力に用いることは可能である。

次に、図１を用いて、本発明の第１の実施形態に係る音声復号化装置の詳細について説明する。

図１において、音声復号化装置１０は、符号化データ入力部１７、帯域検出部１３、制御部１５、音声復号化部１６、サンプリングレート変換部１４、および、音声出力部１２から構成される。

符号化データ入力部１７は、入力される符号化データを音声パラメータ符号の情報と帯域の識別情報に分離し、音声復号化部１６に音声パラメータ符号の情報が送られ、帯域の識別情報を帯域検出部１３に送られる。

帯域検出部１３は、帯域の識別情報に基づいて検出された帯域情報を制御部２５に出力する。帯域情報としては、サンプリングレート情報そのものでもよいし、これに対応して予め設定されたサンプリングレートのモード情報であってもよい。例えば、音声入力部２２で想定する音声信号のサンプリングレート情報が“１６ｋＨｚ”または“８ｋＨｚ”の２種類である場合、“１６ｋＨｚ”にモード“０”を対応させる。また、サンプリングレート情報が“８ｋＨｚ”を表す場合、モード“１”を対応させ、音声入力部２２で想定しないサンプリングレート情報が取得された場合（この例では“１６ｋＨｚ”でも“８ｋＨｚ”でもない場合に相当）には、これらと別のモード（例えばモード“unknown”）を用意しておくことにより、音声符号化部２６で想定しないサンプリングレートの音声信号が入力されることがある場合でも、復号化処理の不具合が生じることを防止することができる。

このように、符号化データの一部に組み入れるか、もしくは、符号化データに付随したデータとして送られた帯域の識別情報は、符号化データ入力部１７で抽出され、帯域検出部１３に送られる。符号化データのフォーマットは、例えば、帯域の識別情報が符号化データの一部として受信される形式のデータフォーマットであるか、もしくは、符号化データに付随して受信されるデータフォーマットになっていればよい。

別な実施形態においては、帯域の識別情報が符号化データの一部に組み入れられない場合が可能である。例えば、帯域の識別情報を図示しない入力手段によって音声符号化装置２３の外部から入力することができる。また、別な実施形態においては、音声復号化部の内部で再生される信号（例えば、音声信号や音源信号など）もしくは、音声信号のスペクトルの概形を表すスペクトルパラメータを基に、復号化により再生される音声信号の帯域を識別することも可能である。図９はその構成例であり、音声復号化部１６において、例えば、音声信号のスペクトルの概形を表すスペクトルパラメータが表す周波数の範囲を分析することにより、復号部で再生される音声信号の帯域を識別することが可能である。こうして抽出された帯域の識別情報を帯域検出部１３に送られ、帯域の識別情報そのものを明に伝送すること無しに帯域の識別情報を用いた制御が可能となる。このようにすると符号化データの一部に帯域の識別情報を組み入れるための情報が不要になる効果がある。

また、別な実現の方法においては、帯域の識別情報は、図１０に示すようにサイド情報として、符号化データとは別のデータとして送信側から伝送されたものを受信する復号化側の実施形態であってもよい。

また、帯域の識別情報を符号化側から送信する方法において、受信した帯域の識別情報Aと、音声信号もしくは音声信号のスペクトルの概形を表すスペクトルパラメータを分析して得られた帯域の識別情報Bとを比較することにより、識別情報Ａと識別情報Ｂが異なる結果を示す場合には、受信データに誤りがあることを検出することができるという効果もある。

制御部１５は、帯域検出部１３からの帯域情報を基に、音声復号化部１６とサンプリングレート変換部１４と、音声出力部１２を制御する。具体的な制御の方法については以下の音声復号化部１６、サンプリングレート変換部１４、および、音声出力部１２の説明の中で述べることにする。

音声復号化部１６は、符号化データ入力部１７からの音声パラメータ符号の情報を入力し、これらを用いて音声信号を再生するが、この際に、音声復号化部１６は、制御部１５からの帯域情報を基に制御される。以下で、図３を用いて帯域情報を基に音声復号化部１６を制御する方法の一例について詳細に説明する。

図３で音声復号化部３６は、適応符号帳３１、音源信号生成部３２、合成フィルタ部３３、パルス位置設定部３４、後処理フィルタ部３８から構成される。また制御部３５は、この実施形態においては、復号化部パラメータ用メモリを内蔵するものとする。

ここでは音声復号化部３６はＡＭＲ−ＷＢのようなＣＥＬＰ系の広帯域音声符号化方式に対応した音声復号化を用いる例で説明を行う。この場合、入力される音声パラメータ符号の情報は、スペクトルパラメータ符号Ａ、適応符号Ｌ、ゲイン符号Ｇ、雑音符号Ｋから構成されている。

適応符号帳３１は、後で述べる音源信号生成部３２からの音源信号を過去の音源信号として符号帳に格納し、適応符号Ｌに基づいて、適応符号Ｌに対応するピッチ周期だけ過去の音源信号を適応符号ベクトルとして出力する。

パルス位置設定部３４は、雑音符号Ｋに対応する雑音符号ベクトルを生成するもので、ここでは所定の代数符号帳（代数的符号帳とも言う）を用いて雑音符号ベクトルを生成することができる。雑音符号ベクトルは、小数のパルスから構成され、雑音符号ベクトルを構成するそれぞれのパルスについてのパルス振幅と極性、およびパルス位置が雑音符号Ｋに基づいて生成される。パルス数や、パルスを立てることができる位置の候補（パルス位置候補）や、その位置でのパルス振幅、およびパルスの極性は、代数符号帳を予めどのように設定しておくかによってきまるものであり、従来法では、ＡＭＲ−ＷＢのような可変ビットレートの符号化方式については、ビットレート毎に代数符号帳の構造の設定が一意に定められている。一方、本発明の第1の実施形態においては、同じビットレートであっても、帯域情報に応じて、代数符号帳の構造の設定が変わるようになっている。

すなわち、図３において、制御部３５は、内蔵する復号化部パラメータ用メモリに、２種類のパルス位置候補を持ち、帯域情報に応じたパルス位置候補をパルス位置設定部３４に与えることにより、パルス位置設定部３４の代数符号帳のパルス位置の設定を制御する。こうして設定されたパルス位置候補を用いて、雑音符号Ｋに応じたパルス位置にパルスが立てられて、雑音符号ベクトルがパルス位置設定部３４において生成され出力される。図３の例では、２種類のパルス位置候補として、「偶数サンプル位置のパルス位置候補」と、「整数サンプル位置のパルス位置候補」を切り替える構成を示している。帯域情報が広帯域を示す場合には、従来法と同様に、整数サンプル位置のパルス位置候補を設定する。一方、帯域情報が狭帯域を示す場合には、再生される音声信号の帯域は高い周波数を持たない狭帯域信号であるので、音源信号を生成する基となる雑音符号ベクトルを表すためのサンプリングレートは広帯域信号に対応したものよりも低いサンプリングレートで十分表現することができる。従って、帯域情報が狭帯域を示す場合には、間引かれたサンプル位置のパルス位置候補（図3の例では偶数サンプル位置のパルス位置候補）を設定するようにする。間引かれたサンプル位置のパルス位置候補としては、例えば奇数サンプル位置のパルス位置候補であってもよいし、これに限られるものではないことは言うまでもない。こうすることで、帯域情報が狭帯域を示す場合にパルスの位置情報を表すために必要なビット数を削減できるので、符号化側で送信するビット数を低減できる効果がある。もしくは、同じビットレートで符号化送信する場合には、他の情報を伝送することにより音質を改善することや、パルスの位置情報で削減できたビットを符号誤り耐性を上げるために使うことができる効果がある。あるいは、パルスの位置情報について削減したビットは、より多くの数のパルスを立てるためや、もしくは、パルス振幅の量子化の解像度を上げるために使うことが可能である。こうすることで、低ビットレートの広帯域復号化で、狭帯域信号を復号して再生する場合でも、音質を改善することができる。

音源信号生成部３２は、ゲイン符号Ｇを用いて、適応符号帳３１からの適応符号ベクトルに用いるゲインと、パルス位置設定部３４からの雑音符号ベクトルに用いるゲインを求め、ゲインを付与された適応符号ベクトルと雑音符号ベクトルを加算することにより音源信号を生成する。音源信号は合成フィルタ部３３と適応符号帳３１に入力される。

合成フィルタ３３は、スペクトルパラメータ符号Ａから音声信号のスペクトルの概形を表すスペクトルパラメータを復号し、これを用いて合成フィルタのフィルタ係数を求める。こうして求められたフィルタ係数を用いて構成された合成フィルタに、音源信号生成部３２からの音源信号を入力することにより、合成フィルタ３３の出力として音声信号が生成される。後処理フィルタ部３８は、合成フィルタ３３で生成された音声信号のスペクトルの形状を整形するもので、これにより、主観的な音質が改善された音声信号を音声復号化部の出力とすることができる。図３には明示していないが、典型的な後処理フィルタ部３８では、スペクトルパラメータまたは合成フィルタのフィルタ係数を用いることにより、音声信号のスペクトルの概形を整形することが行われる。音声信号のスペクトルの概形に基づき、スペクトルの形状の凹凸のうち、谷の部分の周波数に存在する符号化雑音を抑圧し、山の部分の周波数に存在する符号化雑音をある程度許容することで、符号化雑音が音声信号にマスクされて人間の耳に聞こえにくくするような整形が行われる。

こうして、音声復号化部３６から再生された音声信号が出力される。

図１に戻り、サンプリングレート変換部１４は、音声復号化部からの音声信号を入力し、制御部１５からの帯域情報に基づいて、帯域情報が広帯域を示す場合には、音声復号化部からの音声信号のサンプリングレート変換を行わずにそのまま音声出力部１２に出力する。

一方、制御部１５からの帯域情報が狭帯域を示す場合には、サンプリングレート変換部１４に入力される音声復号化部からの音声信号は、高い周波数を持たない狭帯域信号であることがわかる。この場合には、サンプリングレート変換部１４は、広帯域信号に対応したサンプリングレート（典型的には１６ｋＨｚサンプリング）で音声復号化部から入力された音声信号を、狭帯域信号用の低いサンプリングレート（典型的には８ｋＨｚサンプリング）に変換して出力するようにする。

このように検出した帯域情報に応じて、音声復号化部からの音声信号のサンプリングレートを変換（上記の例ではダウンサンプリング）することにより、音声信号に含まれる実質的な周波数帯域に見合っただけのサンプリングレートでの音声信号をデータとして獲得することができる。言い換えると、本来は狭帯域音声信号であるが、広帯域音声復号化をすることにより、広帯域音声用の過度に高いサンプリングレートで表されてしまうことで音声信号データが大きくなってしまうことを、本発明を用いることで回避することが可能になる効果がある。

音声出力部１２は、サンプリングレート変換部１４からの音声信号を入力し、制御部１５からの帯域情報に対応するサンプリングレートに応じたタイミングでサンプル毎に出力音声１１を出力する。音声出力部１２は、例えば、ＤＡ変換部とドライバであり、制御部１５からの帯域の広狭の識別情報に基づいてサンプリングレート変換部１４からの音声信号をアナログ電気信号に変換し、図1に図示しないスピーカを駆動して音声を出力する。なおこの他に、出力音声をディジタルでメモリ等に記録または転送する際には、狭帯域音声信号であるか広帯域音声信号であるかの情報を基に、狭帯域音声信号である場合には、音声信号を８ｋＨｚにダウンサンプリングすることによりデータ量を削減できるので、メモリの有効利用や転送時間の短縮を図ることができる。また、サンプリングレート等の帯域情報も音声信号と関連づけて記録または転送することで、記録または転送した音声信号を正しいサンプリングレートで正確に再生することができる。

図６は、本発明の第１の実施形態に係る音声復号化装置の骨子となる動作を示すフローチャートである。

以下、同図を用いて音声復号化装置の動作について説明する。

まず、処理を開始すると、帯域検出部１３において符号化データに組み入れて送られた帯域情報を取得し（ステップＳ１）、この帯域情報に基づいて、広帯域用または狭帯域用のいずれの処理を行うかを決定する（ステップＳ２）。

狭帯域用の処理を行うと決定した場合、制御部１５は、音声復号化部１６での復号化に用いる所定パラメータを狭帯域用に修正し、入力された符号化データから音声復号化部１６で音声信号を生成し（ステップＳ３）、処理をその後終了する。

一方、広帯域用の処理を行うと決定した場合は、制御部１５は、音声復号化部１６での復号化に用いる所定パラメータを広帯域用にし、入力された符号化データから音声復号化部１６で音声信号を生成し（ステップＳ４）、処理をその後終了する。

本発明の実施例１によれば、帯域情報に基づき適切な復号化パラメータを選択することにより、広帯域音声復号化処理で広帯域又は狭帯域のいずれの音声信号が生成される場合であっても、帯域情報に応じた音声信号を高品質に復号化することができる。

以下、図４を参照して、本発明の第２の実施形態を説明する。

第２の実施形態は、検出された帯域情報の広帯域又は狭帯域の区別に応じて、復号化において生成される音源信号を修正することが特徴である。音源信号の修正の方法の例としては、検出された帯域情報の広帯域又は狭帯域の区別に応じて、ピッチの周期性又はホルマントの強調の強弱又は有無を選択することができるようにする。図４は音声復号化部４６と、復号化において生成される音源信号を修正するために用いる制御部４５の構成を表すブロック図である。

図４における音声復号化部４６の構成は、音源信号生成部４２と合成フィルタ部４３との間に音源修正部４７を設けている点に特徴がある。第２の実施形態では、パルス位置設定部４４は従来法のパルス位置候補の設定とした。その他の構成は図３と同じである。ここで音源修正部４７は、音源信号生成部４２で生成された音源信号について、量子化に起因する聴感上の雑音感を軽減するため、ピッチの周期性又はホルマントの強調の強弱又は有無を調整するものである。

また、制御部４５に内蔵する復号化パラメータ用メモリ４５ａには、広帯域音声信号の復号化に用いる「音源修正用パラメータ（広帯域用）」と、狭帯域音声信号の復号化に用いる「音源修正用パラメータ（狭帯域用）」とが、選択して読み出せるように記憶されている。つまり、制御部４５は帯域の広狭の識別情報に基づいて、内蔵する復号化パラメータ用メモリ４５ａから「音源修正用パラメータ（広帯域用）」又は「音源修正用パラメータ（狭帯域用）」を選択して読み出し、音源修正部４７に送る。

音源修正部４７は、広帯域音声信号又は狭帯域音声信号を復号化する場合に、それぞれ対応するピッチの周期性又はホルマントの強調の強弱又は有無を設定することができる。その結果、それぞれ適切に量子化雑音の影響を低減させることができる。

より具体的には、帯域の識別情報により狭帯域音声信号が復号されることがわかる場合には、帯域の識別情報により広帯域音声信号が復号されることがわかる場合に比べ、広帯域音声復号化で生成される音源信号の劣化が大きいと推定されるので、音源信号の修正を比較的強く行うことが好ましい。

検出された帯域情報が広帯域を示すか狭帯域を示すかに応じて、復号化において生成される音源信号を修正する方法は図４の構成に限られるものではなく、例えば、図１１や図１２に示す構成であってもよい。

図１１は、音源修正部４７ａが適応符号帳４１からの適応符号ベクトルを修正し、この修正された適応符号ベクトルを用いることにより、修正された音源信号が生成される構成を表している。この場合、音源信号を構成する基となる適応符号ベクトルを帯域情報が広帯域を示すか狭帯域を示すかに応じて修正されるので、結果的に、帯域情報が広帯域か狭帯域かに応じて、音源信号が修正されることになる。

また、図１２は、音源修正部４７ｂがパルス位置設定部４４からの雑音符号ベクトル（この例では代数符号帳から生成される符号ベクトル）を修正し、この修正された雑音符号ベクトルを用いることにより、修正された音源信号が生成される構成を表している。この場合、音源信号を構成する基となる雑音符号ベクトルを帯域情報が広帯域を示すか狭帯域を示すかに応じて修正されるので、結果的に、帯域情報が広帯域か狭帯域かに応じて、音源信号が修正されることになる。

このように、様々な実現の方法があるが、本旨とするところは、帯域情報が広帯域か狭帯域かに応じ、音源信号が修正されるようになっていれば発明法に含まれることは言うまでも無い。

本発明の第２実施形態によれば、再生される音声信号の帯域の広狭に合わせて音源信号を適応的に修正することができるので、適切に量子化雑音の影響を低減させることができる。

以下、図５を参照して、本発明の第３の実施形態を説明する。第３の実施形態は、合成後の音声信号の後処理フィルタによるピッチの周期性又はホルマントの強調の強弱又は有無を、帯域の識別情報から得られる広帯域又は狭帯域の区別に応じて選択することができるように第２の実施形態における音声復号化部を構成したもので、図５は当該音声復号化部５６及びこれに関連のある復号化パラメータ用メモリ５５ａを含む制御部５５の構成を表すブロック図である。

図５における音声復号化部５６は、適応符号帳５１、音源信号生成部５２、合成フィルタ部５３、パルス位置設定部５４、後処理フィルタ部５８から構成される。

パルス位置設定部５４は図４のパルス位置設定部４４と同じであり、適応符号帳５１、音源信号生成部５２、合成フィルタ部５３は、それぞれ、図３の適応符号帳３１、音源信号生成部３２、合成フィルタ部３３と同じである。また、制御部５５に内蔵する復号化パラメータ用メモリ５５ａには、広帯域音声信号の復号化に用いる「後処理用パラメータ（広帯域用）」と、狭帯域音声信号の復号化に用いる「後処理用パラメータ（狭帯域用）」とが、選択して読み出せるように記憶されている。つまり、制御部５５は帯域の広狭の識別情報に基づいて、内蔵する復号化パラメータ用メモリ５５ａから「後処理用パラメータ（広帯域用）」又は「後処理用パラメータ（狭帯域用）」を選択して読み出し、後処理フィルタ部５８に送る。

後処理フィルタ部５８は、合成フィルタ部５３からの広帯域音声信号又は狭帯域音声信号を処理する場合に、それぞれ対応するピッチの周期性又はホルマントの強調の強弱又は有無を設定することができる。その結果、復号された音声信号が広帯域音声信号であっても狭帯域音声信号であっても、適切に量子化雑音の影響を低減させることができる。

具体的な例としては、帯域の識別情報により狭帯域音声信号が復号されることがわかる場合には、帯域の識別情報により広帯域音声信号が復号されることがわかる場合に比べ、広帯域音声復号化において合成フィルタから出力される音声信号の劣化が大きいと推定されるので、音声信号の修正を比較的強く行うように後処理フィルタで用いるパラメータを制御することが好ましい。

後処理フィルタ部５８の詳細な具体例として、ここでは適応ポストフィルタを用いて説明する。適応ポストフィルタは、例えば、図１３に示すように、フォルマントポストフィルタ９０、傾き補償フィルタ９１、ゲイン調整部９２から構成されるがこれに限られるものではない。適応ポストフィルタの構成としては、さらにピッチ強調フィルタを含む構成であってもよい。

適応ポストフィルタの処理は一例として、以下のように行われる。

最初に、合成フィルタからの音声信号をフォルマントポストフィルタ９０に通し、この出力信号を傾き補償フィルタ９１に通し、傾き補償フィルタからの出力信号をゲイン調整部９２に入力してゲイン調整を行うことにより適応ポストフィルタの出力となる音声信号が得られる。なお、適応ポストフィルタ内部の処理順についてはこれに限られるものではなく、合成フィルタからの音声信号を、まず初めに傾き補償フィルタに通過させる構成や、ゲイン補償処理を適応ポストフィルタの処理の初段または中段で行う構成など、様々な構成を採用することが可能である。

図１３の例は、帯域の識別情報に応じてフォルマントポストフィルタ９０で使用するパラメータが制御部５５によって制御されることにより、音声のスペクトルの概形を強調する度合いが制御される構成を示している。

ポストフィルタは、フレームを分割したサブフレームごとに更新される場合が多い。例えば音声復号化のフレームが２０ｍｓのときの典型的な例としては、サブフレーム長として５ｍｓや１０ｍｓを用いることが多い。

フォルマントポストフィルタ６０（Ｈｆ（ｚ））は、例えば次式で与えられる。

ここでＡ＾（ｚ）は、スペクトルパラメータＡから求められるＬＰＣ係数ａ＾ｉ（i=1,…,p；pはLPCの次数で典型的には８〜１６程度）を用いて次式で表される。

１／Ａ＾（ｚ）は再生された音声信号のスペクトルの概形（スペクトル包絡とも言う）を表しており、パラメータγｎおよびγｄによって、フォルマントポストフィルタＨｆ（ｚ）の特性が決まる。通常パラメータγｎおよびγｄは、０＜γｎ＜１、および、０＜γｄ＜１であり、特に、γｎ＜γｄとすることにより、フォルマントポストフィルタＨｆ（ｚ）は音声信号のスペクトルの概形を強調する特性となる。また、γｎとγｄの値に応じて、音声信号のスペクトルの概形を強調する度合いを変えることができる。

例えば、第１のパラメータセットとしてγｎ＝０．５、γｄ＝０．５５とし、第２のパラメータセットとしてγｎ＝０．５、γｄ＝０．７とすると、第２のパラメータセットの方が、第１のパラメータセットに比べて、音声信号のスペクトルの概形を強調する（修正する）度合いが大きいフォルマントポストフィルタとなる。このようにパラメータ（セット）を切り替えることにより、適応ポストフィルタの特性を修正する（変える）ことができる。本発明では、狭帯域信号であることが検出されたときには、適応ポストフィルタによる強調（修正）の度合いが大きくなるようにパラメータ（セット）を切り替えるようにする。上記の例では、狭帯域信号であることが検出されたときには、音声信号のスペクトルの概形を強調する（修正する）度合いが大きい第２のパラメータセット（例えばγｎ＝０．５、γｄ＝０．７）を用いるようにする。一方、広帯域信号であることが検出されたときには、音声信号のスペクトルの概形を強調する（修正する）度合いが比較的小さい第１のパラメータセット（例えば、γｎ＝０．５、γｄ＝０．５５）を用いるようにする。

このようにすることで、品質が劣化しやすい狭帯域の音声信号を復号化処理で生成する場合に、スペクトルの概形を適切な強さで強調して音質を改善することができるようになる。一方、広帯域の音声信号については、品質劣化が少ない傾向にあるので、スペクトルの概形をあまり強調する必要が少ない。このため、スペクトルの概形を強調する度合いのより少ないパラメータ（セット）を用いるようにする。こうすることで、狭帯域音声が生成されるか広帯域音声が生成されるかに応じて、スペクトルの概形を適切に強調できるので、低ビットレートでも、高品質な音声を安定して提供することができるようになる。

上記で説明した第１、第２のパラメータセットの数値はこれに限られるものでないことは言うまでもない。例えば、広帯域用の後処理フィルタに用いる第１のパラメータセットとしてγｎ＝０．５、γｄ＝０．５などとγｎとγｄを同じ値にしたものを使用することも可能であり、この場合には、実質的にスペクトルの概形を強調（修正）しないことと等しく、強調の度合いが小さいようにする方法として、このような使い方も有効である。

フォルマントポストフィルタ９０からの出力信号は傾き補償フィルタ９１に通される。傾き補償フィルタＨｔ（ｚ）はフォルマントポストフィルタＨｆ（ｚ）の傾きを補償するもので、一例としては、次の式で与えられる。

ここでμ＝γｔｋ１’であり、ｋ１’はフィルタＡ＾（ｚ／γｎ）／Ａ＾（ｚ／γｄ）のインパルス応答ｈｆ（ｎ）を用いて、次の式で求められる。

上記の例ではインパルス応答を長さＬｈ（例えば２０程度）で打ち切ったものからｋ１’を求めるが、これに限られるものではない。

ゲイン調整部９２は傾き補償フィルタからの出力信号を入力してゲイン調整を行う。ゲイン調整部９２は、ポストフィルタの入力信号である合成フィルタからの音声信号とポストフィルタで処理された後の出力信号の利得の違いを補償するためのゲイン値を計算し、ポストフィルタ自体のゲインを調整する。こうすることにより、ポストフィルタに入力される音声信号とポストフィルタから出力される音声信号の大きさが同じ程度になるようにすることができる。

上記の例では、後処理フィルタを用いた音声信号の修正として、フォルマントポストフィルタを用いたが、これに限られるものではなく、音声信号のピッチ周期性を強調するためのピッチ強調フィルタ、傾き補償フィルタ、または、ゲイン調整処理の何れかに関連するパラメータを帯域情報が広帯域か狭帯域かに応じて修正することにより音声信号が修正される構成によっても適応化は可能である。本発明の本旨とするところは、帯域情報が広帯域か狭帯域かに応じて、適応的に音声信号が修正されることが特徴であり、この本旨に従う適応的な後処理の構成であれば発明法に含まれることは言うまでも無い。

本発明の第３の実施形態によれば、検出される音声信号の帯域情報が広帯域であるか狭帯域であるかに応じて後処理フィルタにより音声信号のスペクトルの概形を適応的に整形するので、音声信号に含まれる量子化雑音の影響を適切に低減させることができる効果がある。

以下、図１４を参照して、本発明の第４の実施形態を説明する。

第４の実施形態における本発明の特徴は、音声復号化部６６がＬｏｗｅｒ−Ｂａｎｄ生成部６６ａ（低域側の音声信号を生成。典型的には約６ｋＨｚ以下の低域側の音声信号を生成する）と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部６６ｂ（高域信号を生成。典型的には約６ｋＨｚ〜７ｋＨｚの帯域の高域側の音声信号を生成する）から構成されており、検出された帯域情報の広帯域又は狭帯域の区別に応じて、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部を制御することにより、音声復号化部における高域信号を修正するか、もしくは、高域信号の生成処理を修正することにある。

高域信号を修正する方法としては、検出された帯域情報が狭帯域であることを示す場合に、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部からの高域信号がＬｏｗｅｒ−Ｂａｎｄ生成部からの信号に付与されないような修正を行うことを骨子とする。

以下、図１４を用いて第４の実施形態の特徴となる各部について説明する。

Ｌｏｗｅｒ−Ｂａｎｄ生成部６６ａは、適応符号帳６１、パルス位置設定部６４、音源信号生成部６２、合成フィルタ部６３、後処理フィルタ部６８、アップサンプリング部６９から構成される。Ｌｏｗｅｒ−Ｂａｎｄ生成部６６ａにおいて、適応符号帳６１、パルス位置設定部６４、音源信号生成部６２、合成フィルタ部６３を用いて音声信号を生成し、これを後処理フィルタ部６８で処理することにより、音声信号に含まれる符号化雑音の雑音整形がなされた低域側の音声信号を生成する。ここでの音声信号のサンプリングレート、典型的には、１２．８ｋＨｚ程度が用いられる。次に、この音声信号はアップサンプリング部６９に入力され、Ｈｉｇｈｅｒ−Ｂａｎｄ信号と同じサンプリングレート（典型的には、１６ｋＨｚ）にアップサンプリングされる。こうして１６ｋＨｚにアップサンプリングされた低域側の音声信号が、Ｌｏｗｅｒ−Ｂａｎｄ生成部６６ａから出力され、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部６６ｂに入力される。

Ｈｉｇｈｅｒ−Ｂａｎｄ生成部６６ｂはＨｉｇｈｅｒ−Ｂａｎｄ信号生成部６６ｂ１とＨｉｇｈｅｒ−Ｂａｎｄ信号付加部６６ｂ２から構成される。Ｈｉｇｈｅｒ−Ｂａｎｄ信号生成部６６ｂ１は、合成フィルタ部６３で使用した低域側の音声信号のスペクトル形状の概形を表す合成フィルタの情報を用いて、高域信号のスペクトルの形状を表す高域用の合成フィルタを生成し、これにゲインが調整された高域用の音源信号を入力して合成された信号を所定のバンドパスフィルタに通過させることにより高域信号を生成する。高域用の音源信号のゲインは、低域側の音源信号のエネルギと、低域側の音声信号のスペクトルの傾きを基に調整される。

Ｈｉｇｈｅｒ−Ｂａｎｄ信号付加部６６ｂ２は、Ｌｏｗｅｒ−Ｂａｎｄ生成部６６ａから入力された低域側の音声信号にＨｉｇｈｅｒ−Ｂａｎｄ信号生成部６６ｂ１で生成された高域信号を付加した信号を生成し、これを音声復号化部６６からの出力として、サンプリングレート変換部１０４に入力する。

サンプリングレート変換部１０４は、図１のサンプリングレート変換部１４と同様の機能を有するものであり、音声復号化部６６からの音声信号を入力し、制御部６５からの帯域情報に基づいて、帯域情報が広帯域を示す場合には、サンプリングレート変換を行わずに、音声復号化部からの音声信号をそのまま音声出力部に出力する。

一方、制御部６５からの帯域情報が狭帯域を示す場合には、サンプリングレート変換部１０４に入力される音声復号化部からの音声信号は、高い周波数を持たない狭帯域信号であることがわかる。この場合には、サンプリングレート変換部１０４は、音声復号化部から入力された音声信号（典型的には１６ｋＨｚサンプリング）を、狭帯域信号用の低いサンプリングレート（典型的には８ｋＨｚサンプリング）に変換して出力するようにする。

図１４の例を用いて、より具体的に発明法の動作について説明すると、次のようになる。制御部６５に入力された帯域情報が狭帯域であることを示す場合に、制御部６５はＨｉｇｈｅｒ−Ｂａｎｄ生成部６６ｂを制御して、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部からの高域信号がＬｏｗｅｒ−Ｂａｎｄ生成部からの信号に付与されないようにする。より具体的な方法としては、Ｈｉｇｈｅｒ−Ｂａｎｄ信号生成部６６ｂ１においてＨｉｇｈｅｒ−Ｂａｎｄ信号を生成するための処理を行わないか、もしくは、生成したＨｉｇｈｅｒ−Ｂａｎｄ信号を零か小さな値になるように修正して出力する。また、Ｈｉｇｈｅｒ−Ｂａｎｄ信号付加部６６ｂ２においてＬｏｗｅｒ−Ｂａｎｄ生成部からの信号にＨｉｇｈｅｒ−Ｂａｎｄ信号の付加を行わずに、Ｌｏｗｅｒ−Ｂａｎｄ生成部からの信号をそのまま出力する方法でもよい。

さらに、図１４の構成において、低域側の音声復号化部（図１４ではＬｏｗｅｒ−Ｂａｎｄ生成部６６ａ）に第１、第２、第３の実施形態で示したそれぞれの発明法を用いることが可能であることは言うまでも無い。すなわち、検出された帯域情報を基に、低域側の音声復号化部（図１４ではＬｏｗｅｒ−Ｂａｎｄ生成部６６ａ）を制御することにより、生成される狭帯域音声の音質を改善できる効果がある。この場合、制御部６５からの制御信号（図１４に点線矢印で表示）がＬｏｗｅｒ−Ｂａｎｄ部６６ａに入力される構成となる。Ｌｏｗｅｒ−Ｂａｎｄ部６６ａ内に入力された制御信号（点線矢印で図示）を表した例は、図１６（パルス位置設定部を制御）、図１７（音源信号を制御）、図１８（後処理フィルタ部を制御）となる。これらは、第１の実施形態における図３、第２の実施形態における図４、第３の実施形態における図５、にそれぞれ対応しているため、詳細な説明は省略する。

また、広帯域音声復号化部がＬｏｗｅｒ−Ｂａｎｄ生成部（低域側の音声信号を生成）と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部（高域信号を生成）から構成されている場合、Ｌｏｗｅｒ−Ｂａｎｄ生成部に第１、第２、第３の実施形態で示した発明法のいずれかを用いて、Ｈｉｇｈｅｒ−Ｂａｎｄ生成部の制御を行わない方法であってもよく、第１、第２、第３の実施形態で示した発明法の効果が得られる。このような場合の発明法の構成例は、図１４、図１６、図１７、図１８において制御部６５から出力される点線矢印で示した制御信号（Ｌｏｗｅｒ−Ｂａｎｄ生成部に対する制御）があって、実線矢印で示した制御信号（Ｈｉｇｈｅｒ−Ｂａｎｄ生成部に対する制御）が無いものとなる。

以下、図１５を参照して、本発明の第５の実施形態を説明する。第５の実施形態では、
帯域情報を基にサンプリングレート変換部における処理が制御される点は、上述したサンプリングレート変換部１４と同様であるが、本発明においては、サンプリングレート変換部におけるダウンサンプリング処理に特徴がある。この際、使用する帯域情報は帯域検出部からのものを用いる。

従来のダウンサンプリング処理では、ダウンサンプリングによる周波数折り返し（エイリアジング）を防止するために、帯域制限フィルタを用いて信号の帯域制限を行ってからダウンサンプリングすることが必要であることが知られている。このため、帯域制限フィルタがもたらす遅延により出力信号が遅延することや、帯域制限フィルタの処理で計算量が増加するという問題がある。また、フィルタで帯域制限を高性能に行うためには、高次の帯域制限フィルタが必要となり、フィルタ出力の遅延や計算量が増加するという問題がある。

一方、本発明では、帯域情報を基にサンプリングレート変換部を制御してダウンサンプリングを行うことが可能となるため、帯域情報が狭帯域を示す場合には、サンプリングレート変換部に入力される音声信号は狭帯域信号であることが保証されることを利用し、そのときには、フィルタによる帯域制限を行わないで信号を間引いてダウンサンプリングすることが特徴である。こうすることで、帯域制限フィルタを用いないため、ダウンサンプリング処理による出力信号の遅延が生じないという効果がある。また、帯域制限フィルタを用いないので計算量を低減できる効果がある。しかも、検出した帯域情報を基に、サンプリングレート変換部に入力される音声信号が狭帯域に帯域制限されていることを確認した上で、信号を間引いてダウンサンプリングするので、ダウンサンプリングによる周波数折り返し（エイリアジング）の影響を非常に小さいものにできる効果がある。

ここで、図１５を用いて、第５の実施形態の動作を説明する。

図１５は制御部６５とサンプリングレート変換部１０４の構成を示すものである。帯域検出部からの帯域情報は制御部６５に入力される。この帯域情報は復号化部で生成される音声信号（典型的には１６ｋＨｚサンプリングの音声信号）が狭帯域信号であるか広帯域信号であるかを示すものである。帯域情報は、帯域検出部において帯域の識別情報から求められたものを用いる。帯域の識別情報は、一例としては、図１０に示すように、符号化データとは別に、サイド情報としてとして送信側から伝送されたものを使用するが、これに限られるものではなく、帯域の識別情報が符号化データの一部に組み入れて送られたものを用いる構成でもよいし、もしくは、帯域の識別情報が符号化データに付随したデータとして送られたものを用いる構成でもよい。

あるいは、図９のように音声復号化部の内部で再生される信号（例えば、音声信号や音源信号など）もしくは、音声信号のスペクトルの概形を表すスペクトルパラメータを基に、帯域の識別情報を求めることも一方法であることは既に述べた通りである。

制御部６５に入力された帯域情報が狭帯域を示す場合には、制御部６５は、切り替え部１０７を制御して切り替え部内のスイッチをダウンサンプリング部１０６の側に接続することにより、サンプリングレート変換部１０４に入力された音声信号がダウンサンプリング部１０６に入力される。ダウンサンプリング部１０６は、入力された音声信号（典型的には１６ｋＨｚサンプリングの音声信号）を間引いてダウンサンプリングされた音声信号（典型的には８ｋＨｚサンプリングの音声信号）を生成し、音声出力部に出力する。このとき、ダウンサンプリング部１０６における信号の間引き処理は、帯域制限フィルタ処理を用いないで単純に信号の間引きを行う。例えば、１６ｋＨｚサンプリングの音声信号をダウンサンプリング部１０６で８ｋＨにダウンサンプリングする場合には、入力された１６ｋＨｚサンプリングの音声信号を２：１の割合で規則的に信号を間引くことで８ｋＨｚサンプリングの音声信号を生成することができる。言い換えると、１６ｋＨｚサンプリングの音声信号の奇数サンプル、もしくは偶数サンプルだけをそのまま用いて８ｋＨｚサンプリングの音声信号として出力する。

一方、制御部６５に入力された帯域情報が広帯域を示す場合には、制御部６５は、サンプリングレート変換部１０４に入力された音声信号（典型的には１６ｋＨｚサンプリングの音声信号）をそのまま音声出力部に出力するように切り替え部１０７のスイッチを制御する。

図８は、第５の実施形態に係る発明法の処理例をフローチャートに表したものである。

ステップＳ８１で、帯域情報を取得する。次に、ステップＳ８２で広帯域音声復号処理を行う。これと前後して、ステップＳ８３で帯域情報が狭帯域を示すかどうかを判定する。このとき、狭帯域と判定されると、広帯域音声復号処理により生成された音声信号に対し、ステップＳ８４で、帯域制限フィルタを用いないで信号の間引きを行いダウンサンプリングされた信号を生成し出力する。一方、ステップＳ８３で狭帯域でないと判定されると、広帯域音声復号処理により生成された音声信号をそのまま出力する。

なお、第５の実施形態は、上述した第１、第２、第３、第４の実施形態で示したそれぞれの方法と共に用いることが可能である。すなわち、それぞれの実施形態で示した方法はそれぞれ単独で用いることが可能であるし、あるいは、複数の方法を組み合わせて用いることも可能である。

図７は、第５の実施形態に係る方法と第１の実施形態に係る方法を併用したときの処理例をフローチャートに表したものである。ステップＳ７１で、帯域情報を取得する。次に、ステップＳ７２で帯域情報が狭帯域を示すかどうかを判定する。このとき、狭帯域でないと判定されると、ステップＳ７３で第１の広帯域音声復号化処理（広帯域用のパラメータを用いた通常の広帯域音声復号化処理）を行う。一方、ステップＳ７２で帯域情報が狭帯域でないと判定されると、ステップＳ７４で第２の広帯域音声復号化処理（狭帯域用にパラメータを修正した広帯域音声復号化処理）を行い、この処理により生成された音声信号に対し、ステップＳ７５で、帯域制限フィルタを用いない間引き処理によりダウンサンプリングされた音声信号を生成し出力する。

第５の実施形態における方法は、第４の実施形態における方法とあわせて用いると、より効果的である。すなわち、第４の実施形態における方法を用いると、検出した帯域情報を基に、復号化部で生成される音声信号が狭帯域信号であることがわかると、復号化部６６から出力される音声信号にＨｉｇｈｅｒ−Ｂａｎｄ生成部６６ｂからの高域信号（狭帯域音声信号が生成される場合でも完全にゼロの信号ではない）が混入しないように制御部が制御するので、高域信号成分が更に少ない狭帯域の音声信号を復号化部の出力として生成することができる。この狭帯域の音声信号をサンプリングレート変換部１０４に入力するので、帯域制限フィルタ処理をしないで間引いてダウンサンプリングしたときに生じる周波数折り返し（エイリアジング）は、第５の実施形態における方法を単独で用いた場合よりも、より小さくなるので、音質が改善されるという効果がある。

本発明の第１の実施形態に係る音声復号化装置を示すブロック図。符号化データを生成するための音声符号化装置の例を示すブロック図。本発明の第１の実施形態に係る帯域情報を基に音声復号化部を制御する方法の一例を示すブロック図。本発明の第２の実施形態に係る帯域情報を基に音声復号化部を制御する方法の一例を示すブロック図。本発明の第３の実施形態に係る帯域情報を基に音声復号化部を制御する方法の一例を示すブロック図。本発明の第１の実施形態に係る音声復号化の動作を示すフローチャート。本発明の第５の実施形態に係る音声復号化部を制御する方法と第１の実施形態に係る音声復号化部を制御する方法を併用したときの処理を表すフローチャート。本発明の第５の実施形態に係る音声復号化部を制御する方法の処理を表すフローチャート。本発明の実施形態に係る帯域の識別情報を音声復号化部から得る例を示すブロック図。本発明の実施形態に係る帯域の識別情報をサイド情報として受信する例を示すブロック図。本発明の第２の実施形態に係る帯域情報を基に音声復号化部を制御する方法の一例を示すブロック図。本発明の第２の実施形態に係る帯域情報を基に音声復号化部を制御する方法の一例を示すブロック図。本発明の第３の実施形態に係る後処理フィルタ部の構成例を示すブロック図。本発明の第４の実施形態に係る音声復号化部と制御部の構成を示すブロック図。本発明の第５の実施形態に係るサンプリングレート変換部と制御部の構成を示すブロック図。本発明の実施形態に係る音声復号化部と制御部の構成を示すブロック図。本発明の実施形態に係る音声復号化部と制御部の構成を示すブロック図。本発明の実施形態に係る音声復号化部と制御部の構成を示すブロック図。

符号の説明

１０・・・音声復号化装置
１１・・・出力音声
１２・・・音声出力部
１３，２３・・・帯域検出部
１４，２４，１０４・・・サンプリングレート変換部
１５，２５，６５・・・制御部
１６・・・音声復号化部
１７・・・符号化データ入力部
１８・・・復号化データ
２１・・・入力音声
２２・・・音声入力部
２６・・・音声符号化部
２７・・・符号化データ出力部
２８・・・符号化データ
３１，４１，５１，６１・・・適応符号帳
３２，４２，５２，６２・・・音源信号生成部
３３，４３，５３，６３・・・合成フィルタ部
３４，４４，５４，６４・・・パルス位置設定部
３５，４５・・・復号化部パラメータ用メモリ
３６，４６，５６，６６・・・音声復号化部
４７，４７ａ，４７ｂ・・・音源修正部
４８，５８・・・後処理フィルタ部
５５・・・符号化パラメータ用メモリ
６６ｂ・・・Ｈｉｇｈｅｒ−Ｂａｎｄ生成部
６６ｂ１・・・Ｈｉｇｈｅｒ−Ｂａｎｄ信号生成部
６６ｂ２・・・Ｈｉｇｈｅｒ−Ｂａｎｄ信号不可部
９０・・・ホルマウントポストフィルタ
９１・・・傾き補償フィルタ
９２・・・ゲイン調整部
１０６・・・ダウンサンプリング部
１０７・・・切り替え部

Claims

符号化データから音源信号と合成フィルタを生成し、音源信号と合成フィルタから音声信号を復号する復号処理を用いた広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報を基に復号処理を制御することを特徴とする広帯域音声復号化方法。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）処理と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）処理から構成される広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報を基にＬｏｗｅｒ−Ｂａｎｄ生成処理を制御することを特徴とする広帯域音声復号化方法。
前記識別情報を基に、前記音源信号の生成に関係する処理を制御することを特徴とする請求項１又は２に記載の広帯域音声復号化方法。
前記識別情報を基に、前記音源信号の生成に用いるパルスの位置に関係する処理を制御することを特徴とする請求項１乃至３に記載の広帯域音声復号化方法。
符号化データから音源信号と合成フィルタを生成し、音源信号と合成フィルタから音声信号を復号する広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報を基に、復号された音声信号または音源信号を修正することを特徴とする広帯域音声復号化方法。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）処理と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）処理から構成される広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報を基にＬｏｗｅｒ−Ｂａｎｄ生成処理で生成される音声信号または音源信号を修正することを特徴とする広帯域音声復号化方法。
前記識別情報を基に、ピッチ周期性又はホルマントの強調の強弱または有無を制御することにより復号された音声信号または音源信号を修正することを特徴とする請求項５又は６に記載の広帯域音声復号化方法。
前記識別情報は、符号化データと別に受信されることを特徴とする請求項１乃至７に記載の広帯域音声復号化方法。
前記識別情報は、符号化データまたは符号化データに付随されたデータから取得されることを特徴とする請求項１乃至７に記載の広帯域音声復号化方法。
前記識別情報は、合成フィルタを表すスペクトルパラメータ情報から取得されることを特徴とする請求項１乃至７に記載の広帯域音声復号化方法。
前記識別情報は、復号された音声信号から取得されることを特徴とする請求項１乃至７に記載の広帯域音声復号化方法。
前記識別情報は、復号側の所定の入力手段から取得されることを特徴とする請求項１乃至７に記載の広帯域音声復号化方法。
前記識別情報から狭帯域であると識別された場合に、復号された音声信号またはこれに由来する信号をダウンサンプリングすることを特徴とする請求項１乃至１２に記載の広帯域音声復号化方法。
符号化データから音源信号と合成フィルタを生成し、音源信号と合成フィルタから音声信号を復号する広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報から狭帯域と識別されて、かつ、復号された音声信号またはこれに由来する信号をダウンサンプリングする場合は、帯域制限フィルタを介さずに信号を間引くことによりダウンサンプリングを行うことを特徴とする広帯域音声復号化方法。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）処理と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）処理から構成される広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報から狭帯域と識別されて、かつ、復号された音声信号またはこれに由来する信号をダウンサンプリングする場合は、帯域制限フィルタを介さずに信号を間引くことによりダウンサンプリングを行うことを特徴とする広帯域音声復号化方法。
符号化データから音源信号を生成する手段、合成フィルタを生成する手段、音源信号と合成フィルタから音声信号を復号する手段を用いた広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報を取得する手段と、
前記識別情報を基に復号手段を制御する手段を有することを特徴とする広帯域音声復号化装置。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）手段と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）手段から構成される広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報をする手段と、
前記識別情報を基にＬｏｗｅｒ−Ｂａｎｄ生成手段を制御する手段を有することを特徴とする広帯域音声復号化装置。
前記識別情報を基に、前記音源信号の生成手段を制御することを特徴とする請求項１６乃至１７に記載の広帯域音声復号化装置。
前記識別情報を基に、前記音源信号の生成に用いるパルスの位置を制御することを特徴とする請求項１６乃至１８に記載の広帯域音声復号化装置。
符号化データから音源信号を生成する手段、合成フィルタを生成する手段、音源信号と合成フィルタから音声信号を復号する手段を用いた広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報を取得する手段と、
前記識別情報を基に、復号された音声信号または音源信号を修正する手段を有することを特徴とする広帯域音声復号化装置。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）手段と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）手段から構成される広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報をする手段と、
前記識別情報を基にＬｏｗｅｒ−Ｂａｎｄ生成手段で復号される音声信号または音源信号を修正する手段を有することを特徴とする広帯域音声復号化装置。
前記修正手段は、前記識別情報を基に、ピッチ周期性又はホルマントの強調の強弱または有無に影響を与える波形修正であることを特徴とする請求項２０乃至２１に記載の広帯域音声復号化装置。
前記識別情報は、符号化データと別に受信されることを特徴とする請求項１６乃至２２に記載の広帯域音声復号化装置。
前記識別情報は、符号化データまたは符号化データに付随されたデータから取得されることを特徴とする請求項１６乃至２２に記載の広帯域音声復号化装置。
前記識別情報は、合成フィルタを表すスペクトルパラメータ情報から取得されることを特徴とする請求項１６乃至２２に記載の広帯域音声復号化装置。
前記識別情報は、復号された音声信号から取得されることを特徴とする請求項１６乃至２２に記載の広帯域音声復号化装置。
前記識別情報は、復号側の所定の入力手段から取得されることを特徴とする請求項１６乃至２２に記載の広帯域音声復号化装置。
前記識別情報から狭帯域であると識別された場合に、復号された音声信号またはこれに由来する信号をダウンサンプリングする手段を有することを特徴とする請求項１６乃至か１２７に記載の広帯域音声復号化装置。
符号化データから音源信号を生成する手段、合成フィルタを生成する手段、音源信号と合成フィルタから音声信号を復号する手段を用いた広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報を取得する手段と、
前記識別情報から狭帯域と識別されて、かつ、復号された音声信号またはこれに由来する信号をダウンサンプリングする場合は、帯域制限フィルタを介さずに信号を間引くことによりダウンサンプリングを行う手段を有することを特徴とする広帯域音声復号化装置。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）手段と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）手段から構成される広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報を取得する手段と、
前記識別情報から狭帯域と識別されて、かつ、復号された音声信号またはこれに由来する信号をダウンサンプリングする場合は、帯域制限フィルタを介さずに信号を間引く手段によりダウンサンプリングを行うことを特徴とする広帯域音声復号化装置。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）処理と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）処理から構成される広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報を基にＨｉｇｈｅｒ−Ｂａｎｄ生成処理を制御することを特徴とする広帯域音声復号化方法。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）処理と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）処理から構成される広帯域音声復号化方法において、
復号される音声信号が狭帯域であることを識別する識別情報を取得し、
前記識別情報を基にＨｉｇｈｅｒ−Ｂａｎｄ生成処理からの信号を修正することを特徴とする広帯域音声復号化方法。
前記識別情報から狭帯域と識別されて、かつ、復号された音声信号またはこれに由来する信号をダウンサンプリングする場合は、帯域制限フィルタを介さずに信号を間引くことによりダウンサンプリングを行うことを特徴とする請求項３１又は３２に記載の広帯域音声復号化方法。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）手段と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）手段から構成される広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報を取得する手段と、
前記識別情報を基にＨｉｇｈｅｒ−Ｂａｎｄ生成手段を制御する手段を有することを特徴とする広帯域音声復号化装置。
Ｌｏｗｅｒ−Ｂａｎｄ生成（低域側の音声信号を生成する）手段と、Ｈｉｇｈｅｒ−Ｂａｎｄ生成（高域信号を生成する）手段から構成される広帯域音声復号化装置において、
復号される音声信号が狭帯域であることを識別する識別情報を取得する手段と、
前記識別情報を基にＨｉｇｈｅｒ−Ｂａｎｄ生成手段からの信号を修正する手段を有することを特徴とする広帯域音声復号化装置。
前記識別情報から狭帯域と識別されて、かつ、復号された音声信号またはこれに由来する信号をダウンサンプリングする場合は、帯域制限フィルタを介さずに信号を間引く手段によりダウンサンプリングを行うことを特徴とする請求項３４又は３５に記載の広帯域音声復号化装置。