JP3648931B2

JP3648931B2 - 反復変換音声符号化方法および装置

Info

Publication number: JP3648931B2
Application number: JP20064097A
Authority: JP
Inventors: 浩長谷川
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1996-07-25
Filing date: 1997-07-25
Publication date: 2005-05-18
Anticipated expiration: 2017-07-25
Also published as: JPH1097297A

Description

【０００１】
【発明の属する技術分野】
本発明は音声データを圧縮するために符号化を行う反復変換音声符号化方法および装置に関する。
【０００２】
【従来の技術】
従来の音声圧縮技術としては、マルチメディアの分野などにおける音声符号化方式として広く使われているＡＤＰＣＭ（Ａdaptive Ｄifferential Ｐulse Ｃode Ｍodulatioin) や、携帯電話などで用いられているＶＳＥＬＰ（Ｖector-Ｓum Ｅxcited Ｌinear Ｐrediction ）、ＭＰＣ（Ｍulti Ｐulse Ｃodec）などがある。
【０００３】
【発明が解決しようとする課題】
しかしながら、前記ＡＤＰＣＭは計算量が比較的少ないものの、データ圧縮率が１／２からせいぜい１／４と低いのが欠点である。また、ＶＳＥＬＰやＭＰＣなどの分析合成型の音声圧縮方式は人間の通常の会話などの音声に対しては、高い圧縮率が得られるが、音楽や擬音など人間の発する音声以外の音の圧縮は行えないという欠点があった。
【０００４】
また、最近では、フラクタル理論を用いた符号化方式の１つとしてＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）と呼ばれているものがあり、これを画像圧縮に利用した技術が提案されてきている。この技術は画像圧縮だけでなく音声圧縮に応用することもできると考えられるが、音声と画像とでは性質が異なるので、画像圧縮に用いたＩＦＳ符号化方式そのままを音声圧縮技術に適用することはできないため、ＩＦＳ符号化方式を用いた音声圧縮技術は今のところ実用化には至っていない。
【０００５】
そこで、本発明は、ＩＦＳ符号化方式を音声圧縮に適用できるようにし、高い圧縮率で人間の音声は勿論、それ以外の様々な音を符号化すること可能とすることを目的としている。
【０００６】
本発明の反復変換音声符号化方法は、ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化方法であって、符号化すべき元音声を複数のフレームに分割して１フレームずつ抽出し、直交関数系を用いた、周波数成分の異なる複数の変換規則から１つ１つの変換規則を選択して、選択された変換規則に基づいて前記抽出されたフレームに対し変換を施し、変換後のフレームを前記元音声と比較して元音声の中から類似部分を探索し、最大の類似度が得られた前記元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力することを特徴としている。
【０００７】
これにより、人間が聞いて意味のある情報を適切に残した圧縮が行え、人間の発する音声は勿論、それ以外の音楽や擬音など人間にとって意味のある様々な音を、高い圧縮率で効率的に符号化することができる。
【０００９】
また、直交関数系を用いることにより、音声の周波数成分を効率よく符号化でき、同じ圧縮率でもより高品質な音声の符号化が可能となり、それを復号化したとき高品質な音声を再生することができる。
【００１０】
さらに、その直交関数系として、ラデマッヘル直交関数系を用いることを特徴としている。
【００１１】
このように、直交関数系としてディジタル系の直交関数系であるラデマッヘル直交関数系を用いることにより、通常の電子計算機で扱いやすいものとすることができる。
【００１２】
さらにまた、前記直交関数系として、重み付けされた直交関数系を用いることを特徴としている。
【００１３】
このように、重み付けを行った変換を行うことにより、データ圧縮により失われた情報の中で人間の知覚に関係してくるような周波数成分を補うことができ、復号したときに高品質な音声を再生することができる。
【００１４】
また、本発明の反復変換音声符号化方法は、ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化方法であって、符号化すべき元音声を複数のフレームに分割して１フレームずつ抽出するとともに、直交関数系を用いた、周波数成分の異なる複数の変換規則から１つ１つの変換規則を選択して、選択された変換規則に基づいて前記元音声に対し縮小変換を施し、前記抽出されたフレームを前記変換後の元音声と比較して元音声の中から類似部分を探索し、最大の類似度が得られた元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力するような方法を用いてもよい。これにより、前述した反復変換音声符号化方法と同等の効果が得られる。
【００１５】
そして、この発明において、その直交関数として、ラデマッヘル直交関数系を用いることを特徴としている。
【００１６】
また、本発明の反復変換音声符号化装置は、ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化装置であって、符号化すべき所定の長さの元音声を記憶する元音声記憶手段と、前記記憶された元音声を分割して得られたフレームを１フレームずつ抽出し、抽出したフレームに対してそのフレームの情報をＩＦＳ符号として出力するＩＦＳ符号生成手段と、直交関数系を用いた、周波数成分の異なる変換規則が登録されている変換写像テーブルと、この変換写像テーブルに登録された変換規則を順次選択して読み出し、読み出された変換規則に基づいて前記ＩＦＳ符号生成手段が抽出したフレームに対して変換を施し、前記ＩＦＳ符号生成手段に対し、変換に使用した変換規則を示す情報を送るフレーム変換手段と、このフレーム変換手段により変換されたフレームを前記元音声と比較して元音声の中から類似部分を探索し、類似度情報と元音声の類似位置情報とを前記ＩＦＳ符号生成手段に送る近似領域探索手段と、を有し、前記ＩＦＳ符号生成手段は、前記変換に使用した変換規則を示す情報、類似度情報、元音声の類似位置情報を基に、最大の類似度が得られた元音声の類似位置情報と使用した変換規則を示す情報とを得て、この元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力することを特徴としている。
【００１８】
さらに、前記直交関数系として、ラデマッヘル直交関数系を用いることを特徴としている。
【００１９】
さらにまた、前記直交関数系として、重み付けされた直交関数系を用いることを特徴としている。
【００２０】
また、本発明の反復変換音声符号化装置は、ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化装置であって、符号化すべき所定の長さの元音声を記憶する元音声記憶手段と、前記元音声記憶手段記憶された元音声を分割して得られたフレームを１フレームずつ抽出し、抽出したフレームに対してそのフレームの情報を表すＩＦＳ符号を出力するＩＦＳ符号生成手段と、直交関数系を用いた、周波数成分の異なる複数の変換規則が登録されている変換写像テーブルと、この変換写像テーブルに登録された変換規則を順次選択して読み出し、読み出された変換規則に基づいて前記元音声記憶手段に記憶された元音声に対して縮小変換を施し、前記ＩＦＳ符号生成手段に対し、変換に使用した変換規則を示す情報を送るフレーム変換手段と、前記ＩＦＳ符号生成手段にて抽出されたフレームを前記縮小変換された元音声と比較して縮小変換された元音声の中から類似部分を探索し、類似度情報と縮小変換された元音声の類似位置情報とを前記ＩＦＳ符号生成手段に送る近似領域探索手段と、を有し、前記ＩＦＳ符号生成手段は、前記変換に使用した変換規則を示す情報、類似度情報、元音声の類似位置情報を基に、最大の類似度が得られた元音声の類似位置情報と使用した変換規則を示す情報とを得て、この元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力するような構成としてもよい。
【００２１】
そして、その直交関数系として、ラデマッヘル直交関数系を用いることを特徴としている。
【００２２】
【発明の実施の形態】
以下、本発明の実施の形態を図面を参照しながら説明する。
【００２３】
図１は本発明の実施の形態の構成を説明するブロック図であり、元音声記憶回路１、ＩＦＳ符号生成回路２、フレーム変換回路３、近似領域探索回路４、変換写像テーブル５、ＩＦＳ符号記憶回路６などから構成されている。以下、これらそれぞれの構成要素の機能などについて図２のフローチャートおよび図３を参照しながら説明する。
【００２４】
前記元音声記憶回路１は、圧縮しようとする音声データをたとえば１秒間ごとの長さで記憶するものであり、ここでは、図３（ａ）に示されるような元音声データが記憶されたとする。
【００２５】
ＩＦＳ符号生成回路２は、このような音声データから１フレーム分を抽出し（ステップｓ１）、その抽出した１フレームの音声データを、フレーム変換回路３に渡す。フレーム変換回路３では、変換写像テーブル５に登録されている予め定められた何種類かの変換規則のうち、或る１つの変換規則を読み出してその変換規則に基づいてフレーム変換する（ステップｓ２）。このとき、読み出された変換規則が１番目の変換規則（変換１という）であるとすれば、ＩＦＳ符号生成回路２から渡されたフレームの情報に対し「変換１」を行う。なお、この変換写像テーブル５に記憶されている内容の具体例については後述する。また、ここで行う変換方法としては、直交関数系を用い、具体的にはラデマッヘル（Ｒademacher ）直交関数系（参考文献：「ディジタル情報処理の基礎理論」斉藤正男他東海大学出版会１９８５年）を用いる。
【００２６】
そして、フレーム変換回路３は今現在変換を行った変換規則の番号（変換１）をＩＦＳ符号生成回路２に送るとともに、変換したフレーム情報を近似領域探索回路４に送る。
【００２７】
近似領域探索回路４は、フレーム変換回路３から渡された変換後のフレーム情報が元音声記憶回路１に記憶されている元音声データのどの部分に似ているかを探索し、最も似ている部分を抽出して、その位置と類似度を得る（ステップｓ３）。
【００２８】
以上のステップｓ１，ｓ２，ｓ３の処理を図３を参照して説明する。図３において、（ａ）は前記したように、元音声記憶回路１に記憶された元音声の一例を示すもので、（ｂ）はこの元音声から抽出された１フレームを示している。また、フレーム変換回路３により抽出されたフレーム情報に対して「変換１」を施した例を（ｃ）に示している。そして、この変換されたフレーム情報が元音声データのどの部分に似ているかを探索するが、この場合、（ｄ）に示すように、元音声データ中の領域Ｚ１が最も似ていると判定され、その類似度がＳ１であるとする。この最も似ていると判定された領域Ｚ１の先頭位置を類似位置情報Ｐ１とし、その類似位置情報Ｐ１とその類似度情報Ｓ１がＩＦＳ符号生成回路２に渡される。
【００２９】
再び図２のフローチャートに説明が戻って、ＩＦＳ符号生成回路２は、類似度情報Ｓ１が、それまでに近似領域探索回路４から渡された類似度の中で最大かどうかを判断する（ステップｓ４）。つまり、ＩＦＳ符号生成回路２に記憶されている類似度より大きいか否かを判断して、近似領域探索回路４から新たに渡された類似度の方が大きければ、その類似度を得た変換番号と類似位置情報を記憶する（ステップｓ５）。
【００３０】
そして次に、変換規則が残っているか否かを判断して（ステップｓ６）、残っていれば、ステップｓ２に戻り、次の変換規則に基づいてフレーム変換を行い、ステップｓ３〜ｓ６を行う。図３では、変換規則として、変換１、変換２、・・・、変換ＮというようにＮ種類の変換規則がある場合が示されており、今、変換１に基づいた変換がなされたので、今度は図３（ｅ）に示すように、変換２を用いたフレーム変換が施される。そして、前記同様、フレーム変換回路３はそのとき変換を行った変換規則の番号（変換２）をＩＦＳ符号生成回路２に送るとともに、変換したフレーム情報を近似領域探索回路４に送る。
【００３１】
近似領域探索回路４は、フレーム変換回路３から渡された変換後のフレーム情報が元音声記憶回路１に記憶されている音声データのどの部分に似ているかを探索し、最も似ている部分を抽出して、その位置と類似度を得る。この場合、図３（ｆ）に示すように、元音声データ中の領域Ｚ２が最も似ていると判定され、その類似度がＳ２であるとして、その領域Ｚ１の先頭位置（類似位置情報Ｐ２）とその類似度情報Ｓ２がＩＦＳ符号生成回路２に渡される。これにより、ＩＦＳ符号生成回路２は、類似度Ｓ２がＩＦＳ符号生成部２に記憶されている類似度より大きいか否かを判断して、新たに渡された類似度Ｓ２の方が大きければ、その変換番号（変換２）と類似位置情報Ｐ２を記憶する。
【００３２】
このような処理を、変換写像テーブル５に記憶されているすべての変換規則について処理が終了するまで行う。このすべての変換規則について処理が終了すると、ＩＦＳ符号生成回路２には処理対象のフレーム情報に対して最大の類似度が得られた変換番号とその類似位置情報が記録されることになる。たとえば、現在処理を行っているフレームにおいて、変換２を行って得られた類似度Ｓ２が、他の変換規則を行って得られたそれぞれの類似度に比べて最も大きかったとすれば、ＩＦＳ符号生成回路２には、最大の類似度が得られた変換番号として変換２とその類似位置情報としてＰ２が記録されることになる。そして、この変換番号と類似位置情報が現在処理されているフレームを表すＩＦＳ符号としてＩＦＳ符号記憶回路６で記憶される。
【００３３】
このようにして或る１つのフレームに対する処理が終了すると、次に、元音声記憶回路１に記憶されている音声データに未処理のフレームが存在するか否かを判断し（ステップｓ７）、未処理のフレームが存在すれば、ステップｓ１に戻って新たなフレームを抽出して、そのフレームに対して、前記同様の処理を行う。そして、元音声記憶回路１に記憶されている音声データの全てのフレームに対して前記した処理が終了すると、ＩＦＳ符号記憶回路６に記憶されたそれぞれのフレーム毎のＩＦＳ符号がＩＦＳ符号列として出力される。
【００３４】
このように本発明は、どの直交関数系を用いて変換したかを示す変換番号と類似位置情報との２つの情報を、当該フレームを表すＩＦＳ符号として出力するものである。
【００３５】
ちなみに、処理対象音声データが８ＫＨｚ、８ビットの音声データであるとすると、元音声記憶回路１には８０００サンプルのデータが記憶され、１つのフレームを３２サンプルとすれば、１フレーム分のデータ量は３２×８＝２５６ビットとなる。
【００３６】
これに対して、本発明においては、１フレームの情報を、変換番号と近似領域情報のみのＩＦＳ符号として表すことができる。すなわち、変換規則の種類を、たとえば、３０種類程度用意したとしても、どの変換規則を用いたかを表す変換番号は５ビットで表すことができる。また、近似領域情報は、元音声記憶回路１に記憶されている音声データの中の近似領域の先頭位置を特定し（たとえば、Ｚ２の領域においてはその領域の先頭位置Ｐ２）、その先頭位置から予め定めた或る長さを設定することで近似領域とすることができるので、ＩＦＳ符号生成回路２が記憶する近似領域情報としては、近似領域の先頭位置情報のみを記憶すればよい。この先頭位置情報は、１３ビットあれば１〜８０００のいずれかを先頭位置として表すことができる。
【００３７】
したがって、この実施の形態では、１フレーム分の音声データは、５ビット＋１３ビットの合計１８ビットのデータで表すことができ、約１／１４のデータ量とすることができ、きわめて高い圧縮率を得ることができる。
【００３８】
ところで、前記変換写像テーブル５に登録されるラデマッヘル直交関数系による変換規則は、具体的には、図４に示すようなものが一例として考えられる。この変換規則は元のデータをどのように変換するかを定めたもので、ここでは（１）〜（２４）の２４種類の変換規則が定められた例を示している。図４において、（１）〜（４）はここでは基本型と呼び、（５）〜（８）をここでは反転型と呼ぶことにする。また、（９）〜（２４）は前記基本型と反転型にそれぞれ重みづけを行ったものを示している。ただし、ここで示した例は一例であってこれに限られるものでないことは勿論である。
【００３９】
ここで今、図４の（２）で示されたラデマッヘル直交関数系を用いた変換規則について図５を用いて説明する。図５に示された変換規則は、１フレーム分の音声データ（この場合、３２サンプル）に対して、前半の１６サンプルに対しては１６個のデータに対してそれぞれ＋１を掛け算し、後半の１６サンプルに対しては１６個のデータに対してそれぞれ−１を掛け算するということを示している。したがって、この変換規則を用いて或る１フレームを変換すると、そのフレームは前半の１６サンプルは符号がそのままで、後半の１６サンプルは符号が逆になる。
【００４０】
同様に、図４の（３）で示される変換規則は、１フレーム分の音声データ（この場合、３２サンプル）に対して、最初から１／４までの８サンプルに対してはそれぞれ＋１掛け、次の８サンプルに対してはそれぞれ−１を掛け、さらに次の８サンプルに対してはそれぞれ＋１掛け、最後の８サンプルに対してはそれぞれ−１掛けるということを示している。したがって、この図４の（３）の変換規則を用いて或る１フレームを変換すると、そのフレームは８サンプルごとに符号が反転する。
【００４１】
さらに、図４の（１０）で示される変換規則は、重み付けを行った例であり、１フレーム分の音声データ（この場合、３２サンプル）に対して、前半の１６サンプルに対しては重みづけ係数を０〜0.4まで直線的に変化させ、後半の１６サンプルに対しては重みづけ係数を0.5 〜１まで直線的に変化させることを示している。このように、本発明の実施の形態では、フレームの変換にラデマッヘル直交関数系を用い、さらに、必要に応じて重み付けを行った変換を行うことにより、データ圧縮により失われた情報の中で人間の知覚に関係してくるような周波数成分を補うことができ、復号したときに高品質な音声とすることができる。
【００４２】
以上説明した実施の形態では、元音声を複数のフレームに分割し、各フレーム毎に前記した変換を施し、その変換されたフレームとよく似た部分を元音声の中から探索するようにしたが、たとえば、図６に示すような構成とし、図７のフローチャートに示すような処理により符号化を行うようにしてもよい。以下、図６および図７を参照して説明する。なお、図６において図１と同一部分には同一符号が付されている。
【００４３】
この場合の処理の流れは、元音声記憶回路１に記憶された音声データ（前記実施の形態同様、１秒間の音声データとする）を、まず、フレーム変換回路３が変換写像テーブル５から変換規則の１つを読み出し、その変換規則を用いて縮小変換する（ステップｓ１１）。この縮小変換は、前記実施の形態で説明したラデマッヘル直交変換による変換規則の或る１つの変換規則を用いて行われる。
【００４４】
一方、ＩＦＳ符号生成回路２は前記元音声データから１つのフレームを抽出し（ステップｓ１２）、その抽出されたフレームの情報を近似領域探索回路４に渡す。そして、近似領域探索回路４はＩＦＳ符号生成回路２から渡されたフレーム情報が、前記或る変換規則に基づいて縮小変換された元音声データのどの部分に似ているかを探索し（ステップｓ１３）、最も似ている部分を抽出して、その類似位置情報と類似度をＩＦＳ符号生成回路２に送る。
【００４５】
ＩＦＳ符号生成回路２は、類似度がそれまでに近似領域探索回路４から渡された類似度の中で最大かどうかを判断、つまり、ＩＦＳ符号生成回路２に記憶されている類似度より大きいか否かを判断して（ステップｓ１４）、近似領域探索回路４から新たに渡された類似度の方が大きければ、その変換番号と類似位置情報を記憶する（ステップｓ１５）。
【００４６】
そして次に、元音声データの中に抽出すべきフレームが残っているか否かを判断して（ステップｓ１６）、残っていれば、ステップｓ１２に戻り、そのフレームの抽出を行い、抽出されたフレームについてステップｓ１３〜ｓ１６を行う。そして、全てのフレームについてステップｓ１３〜ｓ１５の処理が終了すると、変換規則が残っているか否かの判断を行い（ステップｓ１７）、変換規則が残っていれば、新たな変換規則に基づいてステップｓ１１から順に前記同様の処理を行う。このような処理を、変換写像テーブル５に登録されているすべての変換規則について行う。このすべての変換規則について処理が終了すると、ＩＦＳ符号生成回路２には処理対象のフレーム情報に対する最大の類似度が得られた変換番号とその類似位置情報が記録されることになる。そして、この変換番号と類似位置情報が現在処理されているフレームを表すＩＦＳ符号としてＩＦＳ符号記憶回路６で記憶される。
【００４７】
この図６で示された構成においては、元音声をまず縮小変換し、この縮小変換された元音声データに対して、抽出された各フレーム毎にそのフレームが前記縮小変換された元音声データのどの部分に似ているかを探索して、最大の類似度が得られた類似位置情報と変換番号をＩＦＳ符号列として出力するものであり、このような方法によっても前記図１の構成のものと同様に、人間の音声は勿論、人間にとって意味のある様々な音を効率よく符号化することができる。
【００４８】
なお、以上説明した本発明を実施するためのプログラムはフロッピィディスクなどの記憶媒体に記憶させておくことができ、本発明はその記憶媒体をも含むものである。
【００４９】
【発明の効果】
以上説明したように、本発明によれば、人間が聞いて意味のある情報を適切に残した圧縮が行え、人間の発する音声は勿論、それ以外の音楽や擬音など人間にとって意味のある様々な音を、高い圧縮率で効率的に符号化することができる。また、音声データに対し、直交関数系を用いた変換規則による変換を施すことにより、音声の周波数成分を効率よく符号化でき、同じ圧縮率でもより高品質な音声の符号化が可能となり、それを復号化したとき高品質な音声を再生することができる。さらに、前記直交関数系として、重み付けされた直交関数系を用いることにより、データ圧縮により失われた情報の中で人間の知覚に関係してくるような周波数成分を補うことができ、復号したときにより一層高品質な音声とすることができる。
【図面の簡単な説明】
【図１】本発明の実施の形態の構成を説明するブロック図。
【図２】本発明の実施の形態の処理の流れを説明するフローチャート。
【図３】本発明の実施の形態の処理を音声データ例を用いて説明する図。
【図４】本発明の実施の形態における変換写像テーブルに登録された内容の一例を示す図。
【図５】ラデマッヘル直交関数系による変換例を説明する図。
【図６】本発明の実施の形態の変形例の構成を示すブロック図。
【図７】図６で示した構成の処理の流れを説明するフローチャート。
【符号の説明】
１元音声記憶回路
２ＩＦＳ符号生成回路
３フレーム変換回路
４近似領域探索回路
５変換写像テーブル
６ＩＦＳ符号記憶回路

Claims

ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化方法であって、
符号化すべき元音声を複数のフレームに分割して１フレームずつ抽出し、直交関数系を用いた、周波数成分の異なる複数の変換規則から１つ１つの変換規則を選択して、選択された変換規則に基づいて前記抽出されたフレームに対し変換を施し、変換後のフレームを前記元音声と比較して元音声の中から類似部分を探索し、最大の類似度が得られた前記元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力することを特徴とする反復変換音声符号化方法。
前記直交関数系として、ラデマッヘル直交関数系を用いることを特徴とする請求項１記載の反復変換音声符号化方法。
前記直交関数系として、重み付けされた直交関数系を用いることを特徴とする請求項１記載の反復変換音声符号化方法。
ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化方法であって、
符号化すべき元音声を複数のフレームに分割して１フレームずつ抽出するとともに、直交関数系を用いた、周波数成分の異なる複数の変換規則から１つ１つの変換規則を選択して、選択された変換規則に基づいて前記元音声に対し縮小変換を施し、前記抽出されたフレームを前記変換後の元音声と比較して元音声の中から類似部分を探索し、最大の類似度が得られた元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力することを特徴とする反復変換音声符号化方法。
前記直交関数系として、ラデマッヘル直交関数系を用いることを特徴とする請求項４記載の反復変換音声符号化方法。
ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化装置であって、
符号化すべき所定の長さの元音声を記憶する元音声記憶手段と、
前記記憶された元音声を分割して得られたフレームを１フレームずつ抽出し、抽出したフレームに対してそのフレームの情報をＩＦＳ符号として出力するＩＦＳ符号生成手段と、
直交関数系を用いた、周波数成分の異なる変換規則が登録されている変換写像テーブルと、
この変換写像テーブルに登録された変換規則を順次選択して読み出し、読み出された変換規則に基づいて前記ＩＦＳ符号生成手段が抽出したフレームに対して変換を施し、前記ＩＦＳ符号生成手段に対し、変換に使用した変換規則を示す情報を送るフレーム変換手段と、
このフレーム変換手段により変換されたフレームを前記元音声と比較して元音声の中から類似部分を探索し、類似度情報と元音声の類似位置情報とを前記ＩＦＳ符号生成手段に送る近似領域探索手段と、を有し、
前記ＩＦＳ符号生成手段は、前記変換に使用した変換規則を示す情報、類似度情報、元音声の類似位置情報を基に、最大の類似度が得られた元音声の類似位置情報と使用した変換規則を示す情報とを得て、この元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力することを特徴とする反復変換音声符号化装置。
前記直交関数系として、ラデマッヘル直交関数系を用いることを特徴とする請求項６記載の反復変換音声符号化装置。
前記直交関数系として、重み付けされた直交関数系を用いることを特徴とする請求項６記載の反復変換音声符号化装置。
ＩＦＳ（Ｉterated Ｆunction Ｓystem:反復写像関数系）を用いて音声データを符号化する符号化装置であって、
符号化すべき所定の長さの元音声を記憶する元音声記憶手段と、
前記元音声記憶手段記憶された元音声を分割して得られたフレームを１フレームずつ抽出し、抽出したフレームに対してそのフレームの情報を表すＩＦＳ符号を出力するＩＦＳ符号生成手段と、
直交関数系を用いた、周波数成分の異なる複数の変換規則が登録されている変換写像テーブルと、
この変換写像テーブルに登録された変換規則を順次選択して読み出し、読み出された変換規則に基づいて前記元音声記憶手段に記憶された元音声に対して縮小変換を施し、前記ＩＦＳ符号生成手段に対し、変換に使用した変換規則を示す情報を送るフレーム変換手段と、
前記ＩＦＳ符号生成手段にて抽出されたフレームを前記縮小変換された元音声と比較して縮小変換された元音声の中から類似部分を探索し、類似度情報と縮小変換された元音声の類似位置情報とを前記ＩＦＳ符号生成手段に送る近似領域探索手段と、
を有し、
前記ＩＦＳ符号生成手段は、前記変換に使用した変換規則を示す情報、類似度情報、元音声の類似位置情報を基に、最大の類似度が得られた元音声の類似位置情報と使用した変換規則を示す情報とを得て、この元音声の類似位置情報と使用した変換規則を示す情報とを当該フレームの情報を表すＩＦＳ符号として出力することを特徴とする反復変換音声符号化装置。
前記直交関数系として、ラデマッヘル直交関数系を用いることを特徴とする請求項９記載の反復変換音声符号化装置。