JP4547965B2

JP4547965B2 - 音声符号化装置、方法及びプログラム

Info

Publication number: JP4547965B2
Application number: JP2004110107A
Authority: JP
Inventors: 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2004-04-02
Filing date: 2004-04-02
Publication date: 2010-09-22
Anticipated expiration: 2024-04-02
Also published as: JP2005292640A

Description

本発明は、サンプリングされた音声信号を符号化する音声符号化装置、方法及びプログラムに関する。

例えば、引用文献１に記載されている音声符号化方法では、原デジタル音声信号に対して、過去の信号から現在の信号を複数予測し、これら予測値から予測残差（差分）が最小となるものを求めて、求めた予測残差を符号化する。

ここで、原デジタル音声信号とは、音声信号を所定の方式によりサンプリング及び量子化したサンプル値データを指し示す。
特開２００１−１８８５７１号公報（第３、４頁、図２）

特許文献１に記載された方法では、（サブ）フレーム単位で、注目している音声信号を、それより過去の時点の音声信号から予測するのみであって、未来の時点の音声信号から、注目している音声信号を予測することが無い。このため、音声信号を符号化した際に得られる符号の長さが十分に短くなっていなかった。なぜなら、もし、ある時点の音声信号が、それより過去の時点の音声信号よりも未来の時点の音声信号と類似していれば、未来側から音声信号を予測し、注目している音声信号波形との差分を符号化した方が、過去側から音声信号を予測し、注目している音声信号との差分を符号化するよりも、得られる符号の長さが短くなるからである。従来の方法では、このような予測を行っていなかった。

本発明は上記問題点に鑑みてなされたもので、本発明の目的は音声信号を時間的に過去及び未来の音声信号から予測してその差分の符号化を行う音声符号化装置、方法及びプログラムを提供することにある。

上記目的を達成するため、本発明の第１の観点にかかる音声符号化装置は、
予めサンプリングされている音声信号列を符号化する音声符号化装置であって、
音声信号列を所定のサンプル数からなる音声フレームに分割する分割手段と、
前記分割手段により分割された音声フレームを、連続する２つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御手段と、
独立フレームを構成する信号列を所定の方式で符号化して出力する第１の符号化手段と、
前後して現れる連続する２つの独立フレームに対応して、当該２つの独立フレームを構成する信号列を記憶する２つの倍長フレーム記憶手段と、
予測フレームを構成する信号列と最も類似する信号列部分を前記２つの倍長フレーム記憶手段に記憶された信号列から検索する検索手段と、
予測フレームを構成する信号列と前記検索手段で検索された最も類似する信号列部分との差分を計算する差分計算手段と、
前記差分計算手段で計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第２の符号化手段と、を具備することを特徴とする。

上記音声符号化装置は、
ある波形が繰り返されている状態である、定常状態にある信号列を、音声フレームを構成する信号列が含んでいるか否かを判別する定常状態判別手段と、
音声フレームを構成する信号列を所定の方式で符号化する第３の符号化手段と、
を具備し、
前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいると判別した場合は、前記順序制御手段の区分に従って、該部分信号列を前記第１の符号化手段あるいは前記第２の符号化手段で符号化し、
前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいないと判別した場合は、当該信号列を前記第３の符号化手段で符号化するようにしても良い。

本発明によれば、音声信号を効率よく符号化することができる。

以下図面を参照して、本発明にかかる実施形態を説明する。

（実施形態１）
図１は、本発明の実施形態にかかる音声処理装置の構成を示すブロック図である。

図１に示すように、音声処理装置１００は、例えば、コンピュータなどの情報処理装置から構成される。入力装置１２と出力装置１３と記録媒体１７とが音声処理装置１００に接続される。音声処理装置１００は、入力装置１２から指示を受けて、記録媒体１７から入力された音声波形データを符号化・圧縮し、圧縮データとして記録媒体１７に出力する。また、入力装置１２から指示を受けて、記録媒体１７から入力された、圧縮データを伸張・復号し、記録媒体１７に出力する。

ここで、音声波形データとは、アナログ音声が所定のサンプリング周波数（例えば、８ｋＨｚ）で量子化されているサンプル値データである。

記録媒体１７は、例えば、ＣＤ−ＲＷ（Compact Disk ReWritable）ディスクなどであり、音声波形データを格納する。

音声処理装置１００は、制御部１１０と、入力制御部１２０と、出力制御部１３０と、プログラム格納部１４０と、記憶部１５０と、外部記憶ＩＯ装置１７０とを備える。

制御部１１０は、例えば、ＣＰＵ（Central Processing Unit：中央演算処理装置）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）等から構成され、プログラム格納部１４０に格納されている所定の動作プログラムに基づいて、音声処理装置１００の各部を制御したり、外部記憶ＩＯ装置１７０を介して、記録媒体１７に格納されている音声波形データや圧縮データを読み出し、音声波形データや圧縮データを記録媒体１７に書き込んだりする。また、例えば図２に示すような、分割部２００、符号化処理部２１０、圧縮部２２０、伸張部２３０、復号処理部２４０等を実現し、後述する符号化処理や復号処理などを実行する。

図１に戻って、制御部１１０は、記憶部１５０に格納された音声波形データを予測符号化後、圧縮し、圧縮データを生成する。制御部１１０は、生成した圧縮データを記憶部１５０に格納する。また、記憶部１５０に格納された圧縮データを伸張し、復号する。制御部１１０は、復号した音声波形データを記憶部１５０に格納する。

入力制御部１２０は、例えば、キーボードやポインティングデバイス等の所定の入力装置１２を接続し、入力装置１２から入力された制御部１１０への指示などを受け付けて制御部１１０に伝達する。

出力制御部１３０は、例えば、ディスプレイなどの所定の出力装置１３を接続し、制御部１１０の処理結果などを必要に応じて出力装置１３に出力する。

プログラム格納部１４０は、ＲＯＭ（Read Only Memory）などの記憶装置から構成され、制御部１１０が実行するプログラムを記憶する。

記憶部１５０は、例えば、ハードディスク装置やＲＡＭ（Read Access Memory）などの記憶装置から構成され、外部記憶ＩＯ装置１７０から送られてきた音声波形データあるいは圧縮音声波形データ、及び圧縮後の圧縮データあるいは伸張後の音声波形データを格納する。記憶部１５０は、格納した音声波形データや圧縮データを外部記憶ＩＯ装置１７０又は制御部１１０に送り出す。

外部記憶ＩＯ装置１７０は、例えば、ＣＤ−ＲＷドライブなどであって、記録媒体１７に格納されている音声波形データあるいは圧縮データを読み出したり、音声波形データあるいは圧縮データを記録媒体１７に書き込んだりする。

図２を参照して、制御部１１０が実現する各機能について説明する。
分割部２００は、音声波形データを所定のサンプル数毎に分割して音声フレームとする。そして、音声フレームを符号化処理部２１０に送信する。なお、音声フレームのサンプル数は特に限定されるものではないが、音声の周期性を利用するため、音声フレーム内にアナログ音声の１周期分のサンプル値を含む程度の長さが必要である。例えば、人間の音声を圧縮・伸張の対象とした場合は、５０分の１秒に相当するサンプル数（１６０個）とする。

符号化処理部２１０は、分割部２００から送信された音声フレームをフレーム毎に符号化する。より詳細には、符号化処理部２１０は、音声フレームをそのまま符号化する「独立フレーム」と、「独立フレーム」から予測された「予測部分信号列」との差分（以下、「予測差分信号」と称する）をとった後にその差分を符号化する「予測フレーム」との２種類に分け、それぞれ符号化する。

音声信号は周期性を有するが、ある場所からあまりにも時間的に離れた場所の音声信号とその場所の音声信号とが類似していることは少ない。従って、予測フレームの近傍の音声フレームを元に予測すれば、「予測フレーム」と「予測差分信号」との差分が十分に小さくなることが見込まれる。そこで、本実施形態において符号化処理部２１０は、「予測フレーム」の直前直後の「独立フレーム」から「予測部分信号列」を予測する。

以下、「独立フレーム」から予測された「予測部分信号列」との差分をとった後にその差分を符号化することを「予測符号化」と称する。また、予測符号化するために用いられる「独立フレーム」を「予測元」と称する。

符号化処理部２１０の構成を図３に示す。図示するように、符号化処理部２１０は、順序部２１１と、符号化部２１２、２１７と、復号部２１３と、メモリ２１４、２１５と、予測差分出力部２１６とを備える。

順序部２１１は、所定の決定基準に基づいて、音声フレームを独立して符号化すべきか否かを判別し、独立して符号化すべきであると判別した場合には、当該音声フレームを符号化部２１２に送り、そうでない場合には、予測差分出力部２１６に送る。独立して符号化すべきか否かについての判別は、例えば、音声フレームの数をカウントしておき、所定の個数（例えば、１０個）毎に２個独立して符号化するものと決定する。ただし、最後の音声フレームは必ず独立フレームとする。この場合、順序部２１１は、音声フレームの数がＬ個のとき、フレーム０、１、フレーム１０、１１、・・・、フレームＬ−２、フレームＬ−１を独立フレームとする。

順序部２１１は、また、後述する予測差分出力部２１６で予測部分信号列を取り出せるように、また、復号処理部２４０で予測フレームを復号できるように、音声フレームの符号化（出力）順序を入れ換える。

符号化順序の入れ換えについて、図４を参照して説明する。図４の「符号化前」というのは、順序部２１１が、音声フレームを「独立フレーム」と「予測フレーム」との２種類に振り分けた直後の音声フレームの並びを図示したものである。「独立フレーム３」は、「予測フレーム１」から「予測フレーム８」の「予測元」となる。従って、「独立フレーム３」は、「予測フレーム１」から「予測フレーム８」に先立って符号化される。同様に、「独立フレーム４」も、「予測フレーム１」から「予測フレーム８」に先立って符号化される。

図３に戻り、符号化部２１２は、順序部２１１から送られてきた音声フレームを所定の符号化方法（例えば、ベクトル量子化、ＭＤＣＴ（Modified Discrete Cosine Transform）、ＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation）など）により符号化する。そして、符号化された音声フレーム（以下、音声符号と称する）と復号に必要なデータ（以下、ヘッダと称する）とをカプセル化して、圧縮部２２０及び復号部２１３に送信する。以下、符号化部が出力する符号を「中間符号」と称する。

以下、所定の符号化の例として、ＭＤＣＴの場合を説明する。符号化部２１２は、入力信号列に基づいてＭＤＣＴ係数を計算し、計算結果を音声符号とする。ここで、ＭＤＣＴの窓長（サンプル数）をＭ、入力信号列を｛ｘ_０，ｘ_１，・・・，ｘ_Ｍ−１｝としたとき、ＭＤＣＴ係数Ｘ_ｋは次の数１に従って計算される。

（ただし、ｋ＝０，１，・・・，Ｍ／２−１）

符号化部２１２は数１の式により得られた各ＭＤＣＴ係数Ｘ_ｋを音声符号とする。Ｘ_ｋを並べる順序は特に制限されないが、本実施形態では、Ｘ_０，Ｘ_１，・・・とする。なお、符号化部２１２はＸ_ｋをさらに量子化してもよいし、所定の閾値（例えば、０．００３９（おおよそ２のマイナス８乗））以下のＸ_ｋを０に置き換えたりしてもよい。また、さらにベクトル量子化してもよい。このような処理を行えば、圧縮部２２０でより圧縮がかかる。

図５に、符号化部２１２が出力する中間符号の例を示す。図５に示すように、符号化部２１２が出力する中間符号は、符号化された音声波形データである音声符号と、独立フラグ、順序フラグ、位相情報、符号サイズなどから構成されるヘッダとを含む。なお、復号時にフレーム単位で処理できるのであれば、ヘッダはどのような形態をとっても構わないが、本実施形態では、ヘッダの長さは固定長とする。

独立フラグは、音声符号が（他の音声フレームとの差分をとられることなく）独立して符号化されたものであるか否かを示す情報を格納したものである。符号化部２１２は独立フラグに独立して符号化されたものであることを示す情報（例えば、「１」）を格納する。

順序フラグは、中間符号に対応している「独立フレーム」が、時間的に当該「独立フレーム」より過去の音声フレーム（「予測フレーム」）の「予測元」として利用される可能性があるために、符号化順序が前倒しされたか否かを示す情報を格納したものである。符号化部２１２は、例えば、最初の２つの「独立フレーム」に対して、符号化順序が前倒しされていないことを意味する「０」を設定し、それ以外の「独立フレーム」に対しては、符号化順序が前倒しされていることを意味する「１」を設定する。

符号サイズは、この音声フレームにおける音声符号の長さを示す情報を格納する。特に制限されるものではないが、符号サイズには、音声符号のビット数、バイト数などを格納される。

位相情報は、「予測差分信号」が、「予測元」のどの場所に対応するのかを示す情報を格納する。例えば、「予測元」を示す情報と「予測部分信号列」の「予測元」での開始位置を示す情報とを格納する。より詳細には、「予測元」を示す情報とは、「予測元」となった「独立フレーム」が当該音声フレームの前か後かを示す情報である。なお、符号化部２１２は、独立フレームを符号化するので、位相情報を特に設定しなくてもよい。位相情報の設定例については、後述する。

図３に示す、復号部２１３は、符号化部２１２から送信された中間符号を復号し、２つ毎にペアにして、メモリ２１４に出力する（以下、ペアにされた独立フレームを倍長フレームと称する。）。復号は上記所定の符号化の逆演算（例えば、ＭＤＣＴの場合はＩＭＤＣＴ（Inverse MDCT））に相当する。すなわち、復号部２１３は上述の音声符号を所定の方式により音声フレーム（独立フレーム）に復号する。ＩＭＤＣＴの計算式を数２に示す。なお、入力数値列を｛Ｘ_０，Ｘ_１，・・・，Ｘ_{Ｍ／２−１}｝とする。

（ただし、ｉ＝０，１，・・・，Ｍ−１）

メモリ２１４は、復号部２１３が出力した倍長フレームを一時的に格納する。メモリ２１４は、復号部２１３から新たな倍長フレームが入力された場合には、格納している倍長フレームはメモリ２１５に転送され、新たな倍長フレームを格納する。メモリ２１４に格納された倍長フレームは、予測差分出力部２１６の「予測元」として採用される。

メモリ２１５は、メモリ２１４から転送された倍長フレームを順次上書きして格納する。メモリ２１５に格納された倍長フレームは、予測差分出力部２１６の「予測元」として採用される。

予測差分出力部２１６は、メモリ２１４、２１５に格納されている倍長フレームから、予測フレームの長さと等しい部分信号列を切り出し、そのうち、予測フレームと最も類似する部分信号列を抽出（検索）し、予測部分信号列｛ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１｝とする。ここで、メモリ２１４、２１５に格納されている倍長フレームは、この予測フレームの前後の独立フレームのペアの何れかである。

今、予測フレームのサンプル数をＮ個、予測部分信号列を検索しようとしている倍長フレームのサンプル数をＭ個としたとき（従って、倍長フレームのサンプル値列は｛ｐ_０，ｐ_１，・・・，ｐ_Ｍ−１｝とする。）、予測部分信号列｛ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１｝は（以下、｛ｓ_ｉ｝と略記する）、数３に示す式で求められるｅ_ｋが最小となるｋにより決定されるサンプル値列｛ｐ_ｋ，ｐ_ｋ＋１，・・・，ｐ_{ｋ＋Ｎ−１}｝である（ただし、０≦ｋ≦Ｍ−Ｎとする。）。

予測差分出力部２１６は、順序部２１１から送られてきた音声フレーム（予測フレーム）と、予測部分信号列との差分（予測差分信号）｛ｙ_０，ｙ_１，・・・，ｙ_Ｎ−１｝（以下、｛ｙ_ｉ｝と略記する）を、数４に示す式に従って計算する。
（数４）
ｙ_ｉ＝ｘ_ｉ−ｓ_ｉ
（ｉ＝０，１，・・・，Ｎ−１）

最後に、予測差分出力部２１６は、数３及び数４により求められた予測差分信号｛ｙ_ｉ｝を符号化部２１７に出力する。

予測差分出力部２１６は、過去の独立フレームと未来の独立フレームとから予測部分信号列を検索する。ここで、独立フレームの長さを予測フレームとの長さより長くとり（つまり、Ｍ≧Ｎ）、独立フレームから予測フレームの長さと一致する音声フレームを取り出して予測部分信号列を検索するようにすれば、より類似する予測部分信号列を検索できる。

符号化部２１７は、予測差分出力部２１６から出力された予測差分信号を所定の符号化方式により符号化し、中間符号へとカプセル化した上で圧縮部２２０に送信する。符号化部２１７が用いる符号化方式は、符号化部２１２が用いる符号化方式と同じであっても、異なってもよい。なお、本実施形態では、予測差分信号を単にカプセル化、すなわち、音声符号にヘッダを付加して、中間符号を出力する。

符号化部２１７は、符号化部２１２と同様に、図５に示した形式で音声符号をカプセル化する。符号化部２１７は予測差分信号を符号化するので、独立フラグの内容を独立して符号化されたものではないことを示す情報である「０」に設定する。符号化部２１７は同じ理由から、順序フラグについては特に設定する必要がないが、復号時に復号の順序が変更されることを防ぐため、符号化順序が変更されていないことを意味する「０」を設定することが望ましい。符号化部２１７は、位相情報のうち、「予測元」を示す情報を、「予測元」が当該音声フレームより前の「独立フレーム」であれば、そのことを示す情報（例えば「０」）に設定し、「予測元」が当該音声フレームより後の「独立フレーム」であれば、「１」に設定する。「予測部分信号列」の開始位置を示す情報とは、例えば、「予測差分信号」の先頭の、「予測元」における位置を示す情報である。なお、符号サイズの設定は、符号化部２１２の設定と同一とする。最後に、符号化部２１７はカプセル化した音声符号（すなわち、中間符号）を圧縮部２２０に送信する。

図２に示す圧縮部２２０は、中間符号の圧縮機能を有する。すなわち、符号化処理部２１０で生成された中間符号を、連長圧縮（ランレングス）、ハフマン（Huffman）符号化、レンジコーダ（RangeCoder）など既知の圧縮アルゴリズムを利用してさらに圧縮し、圧縮データに変換する。圧縮部２２０は変換した圧縮データを、制御部１１０を介して、記憶部１５０に格納する。圧縮部２２０は音声符号のみを圧縮の対象としてもよい。

伸張部２３０は記憶部１５０に一時記憶された圧縮データを上記圧縮部２２０で使用している圧縮アルゴリズムに対応する伸張アルゴリズムを利用して伸張し、復号処理部２４０に渡す。

復号処理部２４０は、音声フレーム単位で中間符号を受信し、音声符号を音声フレームの形式に復号する。そして、音声フレームの順序を元の順序に並べ替えて、音声波形データに復元し、記憶部１５０に出力する。

図６に復号処理部２４０の構成を示す。図示するように、復号処理部２４０は、符号判別部２４１と、復号部２４２、２４６と、順序部２４３と、メモリ２４４、２４５と、合成部２４７とを備える。

符号判別部２４１は、伸張部２３０から送られてきた伸張された圧縮データを走査し、中間符号単位に区切りながら、各中間符号に含まれる「独立フラグ」の内容を判別し、中間符号を復号部２４２あるいは復号部２４６に転送する。より詳細には、符号判別部２４１は、「独立フラグ」の内容を判別し、中間符号を復号部２４２あるいは復号部２４６の何れに転送するかを決定する。「独立フラグ」の内容が独立して符号化されたものであることを示す情報（「１」）である場合には、中間符号を復号部２４２に転送し、「独立フラグ」の内容が独立して符号化されたものではないことを示す情報（「０」）である場合には、中間符号を復号部２４６に転送する。符号判別部２４１は符号サイズに格納されている情報によって、中間符号の区切り位置を識別し、伸張された圧縮データを中間符号単位で切り出すことができる。

復号部２４２は、符号判別部２４１から送られてきた中間符号に含まれる音声符号を音声フレームに復号する。復号の方式は、符号化部２１２が用いている符号化方式の逆変換に相当する方式である。復号部２４２の復号処理については、復号部２１３ですでに説明したものと同一である。復号部２４２は、復号部２１３と同様に、２つ毎にペアにして、メモリ２４４に倍長フレームを出力する。

順序部２４３は、復号部２４２が復号した音声フレームと合成部２４７が出力した音声フレームとを、符号化前の音声信号の並びになるように、各中間符号に含まれる「順序フラグ」に格納されている情報に従って、音声フレームの順序を入れ換える。すなわち、順序部２１１が並び換えた順を元に戻す。順序部２１１が独立フレームと予測フレームとを決定する例に従って説明すれば、３つ目以降の各独立フレームを８個の予測フレームの後に配置する。ただし、最後２つの独立フレームは、予測フレームの個数に関係なく、最後に配置する。

メモリ２４４は、復号部２４２が出力した倍長フレームを一時的に格納する。メモリ２４４は、復号部２４２から新たな倍長フレームが入力された場合には、格納している倍長フレームはメモリ２４５に転送され、新たな倍長フレームを格納する。メモリ２４４に格納された倍長フレームは、合成部２４７の「合成元」として採用される。ここで、「合成元」とは、予測フレームを復元するために必要な音声フレームであることを意味する。

メモリ２４５は、メモリ２４４から転送された倍長フレームを順次上書きして格納する。メモリ２４５に格納された倍長フレームは、合成部２４７の「合成元」として採用される。

復号部２４６は、符号判別部２４１から送られてきた音声符号を予測差分信号列に復号する。復号の方式は、符号化部２１７が用いている符号化方式の逆変換に相当する方式である。復号部２４６は、復号した予測差分信号列と、音声符号に付加されていた「位相情報」とを合成部２４７に送信する。

合成部２４７は、復号部２４６から送信された予測差分信号列｛ｙ_ｉ｝と位相情報と、メモリ２４４、２４５に格納されている倍長フレームの信号列｛ｐ_ｉ｝とに基づいて、音声フレーム｛ｘ_０，ｘ_１，・・・，ｘ_Ｎ−１｝（以下、｛ｘ_ｉ｝と略記する）を合成（復元）する。まず、位相情報と信号列｛ｐ_ｉ｝とに基づいて、予測信号列｛ｓ_ｉ｝を特定する。すなわち、位相情報に従って、予測信号列の先頭のサンプル値ｓ_０を決定する。そして、それ以降のＮ−１個のサンプル値を｛ｓ_１，ｓ_２，・・・，ｓ_Ｎ−１｝とする。最後に、数５に示す式に従って、｛ｘ_ｉ｝を計算する。
（数５）
ｘ_ｉ＝ｓ_ｉ＋ｙ_ｉ
（ｉ＝０，１，・・・，Ｎ−１）

合成部２４７は、復元した音声フレームを順序部２４３に出力する。

上記のように構成された音声処理装置１００の動作を以下図面を参照して説明する。以下に示す各動作は、制御部１１０がプログラム格納部１４０に格納されている各プログラムの何れか又はすべてを適宜実行することで実現される。

音声処理装置１００は、入力装置１２から音声データを圧縮する旨の指示を受け付けたことを契機として、図７に示す符号化処理を開始する。なお、音声データは、予め記録媒体１７から読み出され、記憶部１５０に格納されているものとする。

音声処理装置１００（制御部１１０）は、まず音声データを記憶部１５０から読み出して、分割部２００に送信する。分割部２００は受信した音声データを音声フレームに分割する（ステップＳ１０１）。分割部２００は、音声フレームを符号化処理部２１０に渡す。

符号化処理部２１０内の順序部２１１は、音声フレームを受信すると、所定の基準に従って、各音声フレームを独立フレームとするか予測フレームとするかを判別する。そして、復号の際に予測フレームが復号できるように、また、独立フレームの符号化を「予測元」の対象となっている予測フレームの符号化よりも先に行うように、フレームの順序を入れ換える（ステップＳ１０２）。

以下、ステップＳ１０３からＳ１０７までは、音声フレーム毎に行われる処理である。ステップＳ１０３では、順序部２１１が、音声フレームが独立フレームであるか予測フレームであるかを判別して、符号化部２１２あるいは予測差分出力部２１６に出力することを決定する。音声フレームが独立フレームであると判別すれば（ステップＳ１０３：ＮＯ）、順序部２１１は、その音声フレームを符号化部２１２に出力する。音声フレームが予測フレームであると判別すれば（ステップＳ１０３：ＹＥＳ）、順序部２１１は、その音声フレームを予測差分出力部２１６に出力する。

符号化部２１２は、順序部２１１から出力された音声フレームを受信し、所定の符号化方式により、音声フレームを音声符号に符号化し（ステップＳ１０４）、さらにヘッダ情報を付加して復号部２１３と圧縮部２２０とに出力する。復号部２１３は、符号化部２１２から受け取った音声符号を復号し、２つペアにしてメモリ２１４に格納する。メモリ２１４は、格納していた倍長フレームをメモリ２１５に転送し、メモリ２１５は転送された倍長フレームを格納する。なお、メモリ２１５に格納されていた倍長フレームは上書きされ、消去される。

一方、予測差分出力部２１６は、順序部２１１から出力された音声フレームを受信し、メモリ２１４あるいはメモリ２１５に格納されている倍長フレームから予測フレームに最も類似している部分を、数３に示した式で求めた値のうち最小値をとるものを検索することで判別し（ステップＳ１０５）、予測フレームとその予測フレームに最も類似している部分との差分を数４に示した式により求めて、符号化部２１７に出力する。

予測差分出力部２１６から差分を受信した符号化部２１７は、所定の符号化方式に従って、差分を音声符号に符号化し（ステップＳ１０６）、さらにヘッダ情報を付加して圧縮部２２０に出力する。

ステップＳ１０７では、すべての音声フレームが符号化されたか否かを判別する。すべての音声フレームが符号化されていると判別すれば（ステップＳ１０７：ＹＥＳ）、符号化処理部２１０は、符号化処理を終了する。少なくとも１つの音声フレームが符号化されていないと判別すれば（ステップＳ１０７：ＮＯ）、符号化処理部２１０はステップＳ１０３に処理を戻し、残りの音声フレームの符号化を実行する。

以上の各ステップにより、符号化処理部２１０で生成された符号は次に、圧縮部２２０で既知の圧縮アルゴリズムを利用して圧縮され、記憶部１５０に格納される。

次に、復号処理について説明する。復号処理のフローチャートを図８に示す。

音声処理装置１００（制御部１１０）は、入力装置１２から圧縮された音声データを伸張・復元する旨の指示を受け付けたことを契機として、制御部１１０は記憶部１５０に格納されている圧縮された音声データを読み出し、伸張部２３０で圧縮された音声データを中間符号に伸張し、中間符号を復号処理部２４０に渡す。そして、復号処理部２４０に音声符号が渡されると、復号処理部２４０は復号処理を開始する。

伸張部２３０から音声符号を受け付けた符号判別部２４１は、復号すべき音声符号が残っているか否かを判別する（ステップＳ２０１）。復号すべき音声符号が無くなった場合に、符号判別部２４１はすべてが復号されたと判別し（ステップＳ２０１：ＹＥＳ）、ステップＳ２０９に処理を移す。

一方、処理すべき音声符号が残っている場合には（ステップＳ２０１：ＮＯ）、符号判別部２４１は、ヘッダ情報内のサイズ情報に格納されている情報に従って、中間符号の区切り位置を判別し、１フレーム分の中間符号を切り出す（ステップＳ２０２）。そして、中間符号に付加されている「独立フラグ」に格納されている情報を参照し、その音声符号が独立フレームを符号化したものであるか否かを判別する（ステップＳ２０３）。

符号判別部２４１が、その音声符号が独立フレームを符号化したものであると判別した場合には（ステップＳ２０３：ＹＥＳ）、符号判別部２４１は中間符号を復号部２４２に転送する。中間符号を受け取った復号部２４２は、符号化部２１２が生成した音声符号を復号する復号方式により、音声フレームに復号し（ステップＳ２０４）、順序部２４３に送信する。復号部２４２はさらに、復号した音声フレームを２つ単位でメモリ２４４にも送信する（ステップＳ２０５）。倍長フレームが復号部２４２からメモリ２４４に送信されると、メモリ２４４に格納されている倍長フレームはメモリ２４５に転送される。メモリ２４５は転送された倍長フレームを格納する。そして、処理はステップＳ２０１に戻される。

一方、符号判別部２４１が、その音声符号が予測フレームを符号化したものであると判別した場合には（ステップＳ２０３：ＮＯ）、符号判別部２４１は中間符号を復号部２４６に転送する。中間符号を受け取った復号部２４６は、符号化部２１７が生成した音声符号を復号する復号方式により、予測差分信号に復号し（ステップＳ２０６）、合成部２４７に送信する。

合成部２４７は、復号部２４６が復号した予測差分信号と、中間符号に付加されていた位相情報と、メモリ２４４、２４５に格納されている倍長フレームとに基づいて、倍長フレームから、予測信号列となる音声フレームを検索し（ステップＳ２０７）、予測差分信号列と予測信号列とを加算して音声フレームを復元する（ステップＳ２０８）。復元した音声フレームは順序部２４３に送信する。そして、処理はステップＳ２０１に戻される。

すべての中間符号が音声フレームに復号されると（ステップＳ２０１：ＹＥＳ）、順序部２４３は、各中間符号に付加されていた「独立フラグ」の内容に従って、音声フレームを符号化前の音声フレームの並びに並べ替え（ステップＳ２０９）、記憶部１５０に格納する。以上で、復号処理が終了する。

このように、本実施形態にかかる音声処理装置１００は、予測符号化において、過去の信号波形だけでなく、未来の信号波形からも信号波形を予測する。このため、信号波形の予測時に、より類似した信号波形を見いだすことができる。従って、得られる差分のデータサイズが小さくなり、予測符号化における圧縮率が向上する。さらに、「予測元」となる信号波形の長さを予測しようとする信号波形の長さより長くとり、「予測元」の信号波形の中からより類似する信号波形を検索するようにしたため、さらに類似した信号波形を見いだすことができる。

（実施形態２）
母音のような定常信号では、類似した波形が繰り返される。このため、予測が働きやすく、予測信号の波形と現実の信号波形との差分が小さくなり、圧縮率の向上に寄与する。しかし、子音は雑音信号に近いため、信号波形の予測を行うことは必ずしも圧縮率の向上に寄与しない。従って、実施形態２では、音声フレームが母音を含むか否か（すなわち定常信号を含むか否か）を判別し、母音を含む場合には予測差分信号を求めて符号化を行い、母音を含まない場合には予測差分信号を求めないで符号化を行う音声符号化処理について説明する。

本実施形態の音声処理装置１００は、実施形態１で説明した機能に加え、部分信号列に定常信号（母音）が含まれているか否かを判別し、母音が含まれていれば、その部分信号列に対し予測符号化を行い、母音が含まれていなければ、単なる符号化を行う機能を有する。

本実施形態にかかる音声処理装置１００は、実施形態１にかかる音声処理装置１００と同様の構成（図１、２参照）を有しているため、共通する機能構成については説明を省略し、相違点を中心に説明する。

図９は、実施形態２にかかる符号化処理部２１０のブロック図である。図３に示した符号化処理部２１０と比較すると分かるように、実施形態１の符号化処理部２１０に、母音判別部２１８と符号化部２１９とが追加されている構成が、本実施形態の符号化処理部２１０である。

母音判別部２１８は入力された音声フレーム群が母音を含んでいるか否かを判別し、母音を含んでいれば、その音声フレーム群を順序部２１１に送り、母音を含んでいなければ、その音声フレーム群を符号化部２１９に送る。母音判別部２１８は、判別結果を順序部２１１に送信する。

この音声フレーム群の信号列｛ｄ_ｉ｝（全サンプル数Ｊ、１フレームあたりのサンプル数Ｎ）としたとき、例えば、数６に示した式の計算結果が何れかのｋにおいて０．７以上である場合に、母音判別部２１８は、この音声フレーム群が母音を含んでいると判別する。ただし、このｋの下限（少なくとも１以上）は、周期性のない音声波形を誤って母音を含むと判別することのないよう、実験的に求めた値を適用する。また、０．７という閾値も、実際には、実験的に求めた値を適用する。

符号化処理部２１０は、音声フレーム群（例えば、連続した１０個の音声フレーム）が母音を含んでいるか否かを判別し、母音を含んでいると判別すれば、第１の実施形態と同様に、音声フレームを独立フレームか予測フレームかにするかを判別し、判別結果に従って単独で符号化あるいは予測符号化する。符号化処理部２１０は、音声フレーム群が母音を含んでいないと判別すれば、単独で符号化する。

順序部２１１は、上記実施形態１と比較して、基本的な機能（独立フレームの判別、音声フレームの並べ替え）では同一であるが、独立フレームの判別方法が実施形態１とは異なる。これは、上記実施形態１における独立フレームの判別方法では、独立フレームとして取り扱われるはずの音声フレームが、本実施形態において母音を含まない音声フレーム群に入っていると、順序部２１１に入力されないため、後方の独立フレームから予測符号化が行えないという理由からである。

従って、本実施形態の順序部２１１は、母音判別部２１８から音声フレーム群が母音を含んでいない旨の判別結果を受信し、着目している音声フレーム群の後の音声フレーム群が順序部２１１に入力されないことを判別する。順序部２１１は判別結果により独立フレームと判別する音声フレームを変更する。順序部２１１は、音声フレーム群が入力されたか否かを判別し、入力されたと判別すれば、実施形態１と同じように、独立フレームを決定する。順序部２１１に次の音声フレームが入力されないことを判別すれば、着目している音声フレーム群の最後の２フレームを独立フレームと判別する。

なお、次の音声フレーム群が入力されるか否かにかかわらず、順序部２１１は、入力された音声フレーム群の最初の２フレームを独立フレームと判別する。これは、実施形態１と同一である。

そして、順序部２１１は、音声フレーム毎に、音声フレームの符号化順序が本来の再生順序からどれだけずらされたかに関する数値情報である「順序情報」を符号化部２１２、２１７に送信する。

符号化部２１２、２１７は、音声フレームを所定の符号化方式により符号化する。そして、復号に必要な情報と共に音声符号を圧縮部２２０に出力する。実施形態２では、この復号に必要な情報が実施形態１と異なる。図１０に、実施形態２にかかる符号化部が出力する中間符号の例を示す。図５と比較すると分かるように、実施形態１の復号に必要な情報に「母音フラグ」が追加されている。「母音フラグ」とは、当該音声符号に母音（定常信号）が含まれているか否かを示す情報を格納するものである。符号化部２１２、２１７は「母音フラグ」の内容を母音が含まれていることを示す情報（例えば、「１」）に設定する。

また、「順序フラグ」の代わりに「順序情報」が含まれる。符号化部２１２及び符号化部２１７はこの「順序情報」に順序部２１１から送信された「順序情報」で指示された値を設定する。本実施形態では、符号化部２１２は「順序情報」に格納する値を「０」から「−８」（本来の８フレーム前を意味する値）の間に設定する。また、符号化部２１７は「順序情報」に格納する値を「２」（本来の２フレーム後を意味する値）に設定する。

符号化部２１９は、符号化部２１２や２１７と同様に、入力された音声フレームを所定の符号化方式に従って符号化し、圧縮部２２０に出力する。ただし、符号化部２１９の所定の符号化方式は、符号化部２１２や２１７の符号化方式と異なっていても、同一であってもよい。

図１０を参照して、符号化部２１９が出力する中間符号を説明する。音声符号及び符号サイズは、第実施形態１と同一である。符号化部２１９は、「母音フラグ」の内容を母音が含まれていないことを示す情報（例えば、「０」）に設定する。「独立フラグ」及び「位相情報」の内容は特に設定する必要はないが、復号処理との関係で、符号化部２１２が出力する内容と同一にしておくことが望ましい。「順序情報」は、順序が変更されていないことを示す情報である「０」に設定する。

図１１は、実施形態２にかかる復号処理部２４０のブロック図である。図６に示した復号処理部２４０と比較すると分かるように、実施形態１の復号処理部２４０に、復号部２４８が追加されている構成が、本実施形態の復号処理部２４０である。

符号判別部２４１は、入力された音声符号が、母音を含む音声フレームを符号化したものであるか否かを判別する。そして、母音を含む音声フレームでないと判別した場合には、その音声符号を復号部２４８に転送する。母音を含む音声フレームであると判別した場合には、さらに、実施形態１と同じく、独立して符号化されたか否かを判別し、判別結果に応じて、その音声符号を復号部２４２あるいは復号部２４６に転送する。

復号部２４８は、符号判別部２４１から転送された音声符号を所定の音声フレームに復号し、記憶部１５０に出力する。復号の方式は、符号化部２１９が用いている符号化方式の逆変換に相当する方式である。

順序部２４３は、復号部２４２が復号した音声フレームと合成部２４７が出力した音声フレームとを、元々の音声信号の並びになるように、音声フレームの順序を入れ換える。すなわち、順序部２１１が並び換えた順を元に戻す。順序部２４３は、各フレームデータに付加されていた順序情報に従って（正負を逆にする）、音声フレームを本来の再生順序に並び換える。

以下、図面を参照して、実施形態２にかかる動作例を説明する。図１２は、実施形態２の符号化処理を説明するためのフローチャートであり、図１３が復号処理を説明するためのフローチャートである。これらのフローチャートにおいて、実施形態１と共通する処理については説明を省略し、相違点を中心に説明する。

まず、符号化処理について説明する。ステップＳ１０１の処理が終了すると、符号化処理部２１０は、次にステップＳ３０８に処理を移す。ステップＳ３０８では、母音判別部２１８が、上述の数６の計算結果に従って、当該音声フレームが母音を含んでいるか否かを判別する。そして、母音判別部２１８が音声フレームが母音を含んでいると判別した場合は（ステップＳ３０８：ＹＥＳ）、その音声フレームを順序部２１１に転送する。以下、実施形態１と同様にステップＳ１０２からＳ１０６が実行される。母音判別部２１８が音声フレームに母音が含まれてないと判別した場合は（ステップＳ３０８：ＮＯ）、その音声フレームを符号化部２１９に送信する。

母音判別部２１８から音声フレームを受け取った符号化部２１９は、所定の符号化により音声フレームを符号化し（ステップＳ３０９）、復号に必要な情報を付加して、圧縮部２２０に送信する。

ステップＳ１０７では、すべての音声フレームが符号化されたか否かを判別する。すべての音声フレームが符号化されていると判別すれば（ステップＳ１０７：ＹＥＳ）、符号化処理部２１０は、符号化処理を終了する。少なくとも１つの音声フレームが符号化されていないと判別すれば（ステップＳ１０７：ＮＯ）、符号化処理部２１０はステップＳ３０８に処理を戻し、残りの音声フレームの符号化を実行する。

次に、図１３を参照して、復号処理について説明する。ステップＳ２０２の後、ステップＳ４１０に処理が移り、符号判別部２４１は、「母音フラグ」に格納されている情報に基づいて、当該中間符号内の音声符号に母音が含まれているか否かを判別する。符号判別部２４１は、音声符号に母音が含まれていると判別した場合には（ステップＳ４１０：ＹＥＳ）、さらに、符号判別部２４１は、「独立フラグ」に格納されている情報に基づいて、中間符号が独立フレームを符号化したものであるか否かを判別する（ステップＳ２０３）。以下、ステップＳ２０４からＳ２０８までを実行する。一方、音声符号に母音が含まれていないと判別した場合には（ステップＳ４１０：ＮＯ）、符号判別部２４１はその中間符号を復号部２４８に転送する。復号部２４８は、符号判別部２４１から転送された中間符号を所定の復号方式に従って復号し（ステップＳ４１１）、記憶部１５０に出力する。

上記実施形態２によれば、音声フレームが定常信号（母音）を含んでいるか否かを判別し、定常信号を含んでいる音声フレームに対してのみ、予測符号化を行う。一方、定常信号を含まない音声フレームは予測を省略し、単に符号化する。定常信号を含まない音声フレームに対して予測符号化を行っても、単に符号化した場合と比較して、圧縮率が大きくなるとは限らないため、上記実施形態１と比較して、十分な圧縮率を保ったままで、高速化を図ることができる。

なお、本実施形態では、定常信号の例として母音を取り上げたが、定常信号はこれに限られず、例えば、楽部が放音する、ある音階の音なども該当する。

（実施形態３）
上記実施形態１及び実施形態２において、音声フレーム毎に予測信号の振幅を調整することで、予測差分信号の波形をより小さくすることができる。ここで、振幅の調整とは、予測信号の各サンプル値に係数（ゲイン）Ｇを乗じることで、予測信号の波形を予測フレームの音声信号の波形に、より類似させようとすることをいう。

なお、本実施形態にかかる音声処理装置１００は、実施形態１にかかる音声処理装置１００あるいは実施形態２の音声処理装置１００と同様の構成（図１、２、３、６、９、１１参照）を有しているため、共通する機能構成については説明を省略し、相違点を中心に説明する。

予測差分出力部２１６は、予測信号を検索した後、予測信号の振幅を調整して、予測信号の波形を実際の音声信号の波形により類似するようにする。すなわち、予測差分出力部２１６は、音声フレームのデータサンプル数をＮ個とし、予測差分出力部２１６で検索した予測信号（音声フレーム）の各サンプルデータを｛ｓ_ｉ｝、実際の音声フレームの各サンプルデータを｛ｘ_ｉ｝としたとき、数７で示す式により、かかる数Ｇを算出する。ただし、｛ｓ_ｉ｝がすべて０である場合には、分子が０となり数７では算出できない。この場合、Ｇの値に何を設定してもよいが（後述する数８参照）、本実施形態ではＧ＝０とする。

従って、予測差分出力部２１６は、数４の代わりに数８で、各サンプル点での予測差分信号のサンプル値｛ｙ_ｉ｝を得る。
（数８）
ｙ_ｉ＝ｘ_ｉ−Ｇ×ｓ_ｉ

この場合、図５あるいは図１０に示したヘッダに数Ｇを格納するエリアが追加される。符号化部２１７は、予測差分出力部２１６で計算された数Ｇの値をこのエリアに格納し、出力する音声符号に付加して出力する。符号化部２１２及び符号化部２１９はこのエリアに関して、特に値を設定する必要はないが、ゲインの調整が無いことを示すようにするため、本実施形態では、Ｇ＝１として出力する。

また、合成部２４７は、予測信号の振幅を調整して予測フレームを復元する。すなわち、合成部２４７は、中間符号に含まれる数Ｇの値を取り出し、上記数５の代わりに数９を用いて、予測フレームの各サンプル値を算出する。
（数９）
ｘ_ｉ＝ｙ_ｉ＋Ｇ×ｓ_ｉ

上記実施形態３によれば、予測フレームの波形により類似するように、予測信号の振幅を調整する。従って、上記各実施形態と比較して、差分信号から生成される符号の長さをより小さくすることができる。

なお、本発明は上記実施形態に限定されず、種々の変形及び応用が可能である。

例えば、上記各実施形態では、１つの音声処置装置１００で符号化及び復号を行っていたが、符号化と復号とのうち一方の機能だけを有するようにしてもよい。

また、上記各実施形態にかかる音声処理装置は、インターネット等のネットワークを介して他の装置との通信を行う通信制御部をさらに備えてもよく、この通信制御部を介して、音声波形データや圧縮データを他の装置と送受信するようにしてもよい。

また、上記各実施形態では、符号化処理と圧縮処理とを一連の処理として行っているが、これは一例であり、符号化処理と圧縮処理とは異なるタイミングで実行してもよい。伸張処理と復号処理とにおいても同様である。

また、上記各実施形態では、一旦、符号化部２１２で符号化された独立フレームを復号部２１３で復号していたが、直接、順序部２１１からメモリ２１４に送るようにしてもよい。また、メモリ２１４と２１５、メモリ２４４と２４５は分離されている必要はなく、それぞれ１つのメモリであってもよい。さらに、復号部２１３あるいは順序部２１１から送られてきた独立フレームをメモリ２１４とメモリ２１５とに交互に上書きするようにしてもよい。同様に、復号部２４２から送られてきた復号した音声フレームをメモリ２４４とメモリ２４５とに交互に上書きするようにしてもよい。

また、予測差分出力部２１６において、２つの独立フレームから音声フレームを所定の方法により合成し、合成した音声フレームから差分をとる部分を検索するようにしてもよい。この場合、符号化部２１７は、「位相情報」は、当該部分の先頭の位置が合成した音声フレーム上のどの位置にあたるかを示す情報を格納する。

また、上記各実施形態では、予測部分信号列を検索する方法として数３に示した最小二乗誤差を利用したが、数１０に示す平均誤差ｖ_ｋや、数１１に示すベクトルの角度係数ｈ_ｋを使用するようにしてもよい。制御部１１０は、平均誤差ｖ_ｋを使用する場合は、平均誤差が最小となるｋ、角度係数ｈ_ｋを使用する場合は、角度係数が最大となるｋ、で定まるサンプル値列｛ｐ_ｋ，ｐ_ｋ＋１，・・・，ｐ_{ｋ＋Ｎ−１}｝を予測部分信号列｛ｓ_０，ｓ_１，・・・，ｓ_Ｎ−１｝とする。

また、上記各実施形態において、復号処理部２４０は復号部を複数備えているが、これらの復号部２４２、２４６、２４８が同一の復号方式を用いている場合には、１つの復号部に置き換えることができる。この場合、符号判別部２４１は、１つにまとめられた復号部の後に置くように構成する。符号化部２１２、２１７、２１９が同一の符号化方式を用いている場合も、同様に１つの符号化部に置き換えることができる。この場合、１つにまとめられた符号化部は、圧縮部２２０の前に置かれ、音声フレームが順序部２１１と、予測差分出力部２１６と、母音判別部２１８とのうち、いずれかから送信されたかに応じて、この符号化部はヘッダに格納する情報を設定する。

なお、上記各実施形態における音声処理装置１００は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、上述の動作を実行するためのプログラムをコンピュータ読み取り可能な記録媒体（ＦＤ、ＣＤ−ＲＯＭ、ＤＶＤ等）に格納して配布し、該プログラムをコンピュータにインストールすることにより、上述の処理を実行する、音声処理装置１００を構成してもよい。また、インターネット等のネットワーク上のサーバ装置が有するディスク装置に格納しておき、例えばコンピュータにダウンロード等するようにしてもよい。

また、上述の機能を、ＯＳが分担又はＯＳとアプリケーションの共同より実現する場合等には、ＯＳ以外の部分のみを媒体に格納して配布してもよく、また、コンピュータにダウンロード等してもよい。

本発明の実施形態にかかる音声処理装置のブロック図である。図１の制御部で実現される機能を示す機能ブロック図である。図２の符号化処理部で実現される機能を示す機能ブロック図である。図３の順序部の処理の概要を説明するための図である。図３の符号化部が出力するデータを説明するための図である。図２の復号処理部で実現される機能を示す機能ブロック図である。本発明の実施形態１にかかる符号化処理を説明するためのフローチャートである。本発明の実施形態１にかかる復号処理を説明するためのフローチャートである。本発明の実施形態２にかかる符号化処理部で実現される機能を示す機能ブロック図である。図９の符号化部が出力するデータを説明するための図である。本発明の実施形態２にかかる復号処理部で実現される機能を示す機能ブロック図である。本発明の実施形態２にかかる符号化処理を説明するためのフローチャートである。本発明の実施形態２にかかる復号処理を説明するためのフローチャートである。

符号の説明

１００…音声処理装置、１１０…制御部、１２０…入力制御部、１２…入力装置、１３０…出力制御部、１３…出力装置、１４０…プログラム格納部、１５０…記憶部、１７０…外部記憶ＩＯ装置、１７…記録媒体、２００…分割部、２１０…符号化処理部、２１１…順序部、２１２、２１７、２１９…符号化部、２１３…復号部、２１４、２１５…メモリ、２１６…予測差分出力部、２１８…母音判別部、２２０…圧縮部、２３０…伸張部、２４０…復号処理部、２４１…符号判別部、２４２、２４６、２４８…復号部、２４３…順序部、２４４、２４５…メモリ、２４７…合成部

Claims

予めサンプリングされている音声信号列を符号化する音声符号化装置であって、
音声信号列を所定のサンプル数からなる音声フレームに分割する分割手段と、
前記分割手段により分割された音声フレームを、連続する２つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御手段と、
独立フレームを構成する信号列を所定の方式で符号化して出力する第１の符号化手段と、
前後して現れる連続する２つの独立フレームに対応して、当該２つの独立フレームを構成する信号列を記憶する２つの倍長フレーム記憶手段と、
予測フレームを構成する信号列と最も類似する信号列部分を前記２つの倍長フレーム記憶手段に記憶された信号列から検索する検索手段と、
予測フレームを構成する信号列と前記検索手段で検索された最も類似する信号列部分との差分を計算する差分計算手段と、
前記差分計算手段で計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第２の符号化手段と、
を具備することを特徴とする音声符号化装置。
ある波形が繰り返されている状態である、定常状態にある信号列を、音声フレームを構成する信号列が含んでいるか否かを判別する定常状態判別手段と、
音声フレームを構成する信号列を所定の方式で符号化する第３の符号化手段と、
を具備し、
前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいると判別した場合は、前記順序制御手段の区分に従って、該部分信号列を前記第１の符号化手段あるいは前記第２の符号化手段で符号化し、
前記定常状態判別手段で、音声フレームを構成する信号列が定常状態にある信号列を含んでいないと判別した場合は、当該信号列を前記第３の符号化手段で符号化すること、
を特徴とする請求項１記載の音声符号化装置。
予めサンプリングされている音声信号列を所定のサンプル数からなる音声フレームに分割する分割ステップと、
前記分割ステップにより分割された音声フレームを、連続する２つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御ステップと、
独立フレームを構成する信号列を所定の方式で符号化して出力する第１の符号化ステップと、
前後して現れる連続する２つの独立フレームに対応して、当該２つの独立フレームを構成する信号列をそれぞれメモリに記憶する倍長フレーム記憶ステップと、
予測フレームを構成する信号列と最も類似する信号列部分を前記メモリに記憶された２つの独立フレームを構成するそれぞれの信号列から検索する検索ステップと、
予測フレームを構成する信号列と前記検索ステップで検索された最も類似する信号列部分との差分を計算する差分計算ステップと、
前記差分計算ステップで計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第２の符号化ステップと、
を具備することを特徴とする音声符号化方法。
コンピュータ装置を
予めサンプリングされている音声信号列を所定のサンプル数からなる音声フレームに分割する分割手段と、
前記分割手段により分割された音声フレームを、連続する２つの独立フレームが周期的に現れるように、予測フレームと独立フレームとに区分する順序制御手段と、
独立フレームを構成する信号列を所定の方式で符号化して出力する第１の符号化手段と、
前後して現れる連続する２つの独立フレームに対応して、当該２つの独立フレームを構成する信号列を記憶する２つの倍長フレーム記憶手段と、
予測フレームを構成する信号列と最も類似する信号列部分を前記２つの倍長フレーム記憶手段に記憶された信号列から検索する検索手段と、
予測フレームを構成する信号列と前記検索手段で検索された最も類似する信号列部分との差分を計算する差分計算手段と、
前記差分計算手段で計算された前記差分と前記最も類似する信号列部分が含まれる独立フレームを示す情報と前記最も類似する信号列部分が存在する位置を示す情報とを所定の方式で符号化して出力する第２の符号化手段と、
として機能させることを特徴とするプログラム。