JP4256189B2

JP4256189B2 - 音声信号圧縮装置、音声信号圧縮方法及びプログラム

Info

Publication number: JP4256189B2
Application number: JP2003090045A
Authority: JP
Inventors: 寧佐藤
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2003-03-28
Filing date: 2003-03-28
Publication date: 2009-04-22
Anticipated expiration: 2023-03-28
Also published as: JP2004294969A; CN1768375A; DE04723803T1; US20060167690A1; DE602004015753D1; CN100570709C; KR20050107763A; US7653540B2; EP1610300B1; EP1610300A4; KR101009799B1; EP1610300A1; WO2004088634A1

Description

【０００１】
【発明の属する技術分野】
この発明は、音声信号圧縮装置、音声信号圧縮方法及びプログラムに関する。
【０００２】
【従来の技術】
テキストデータなどを音声へと変換する音声合成の手法が、カーナビゲーション等の分野で近年行われるようになっている。
音声合成では、例えば、テキストデータが表す文に含まれる単語、文節及び文節相互の係り受け関係が特定され、特定された単語、文節及び係り受け関係に基づいて、文の読み方が特定される。そして、特定した読み方を表す表音文字列に基づき、音声を構成する音素の波形や継続時間やピッチ（基本周波数）のパターンが決定され、決定結果に基づいて漢字かな混じり文全体を表す音声の波形が決定され、決定された波形を有するような音声が出力される。
【０００３】
上述した音声合成の手法において、音声の波形を特定するためには、音声の波形あるいはスペクトル分布を表す音声データを集積した音声辞書を検索する。合成する音声を自然なものにするためには、音声辞書が膨大な数の音声データを集積していなければならない。
【０００４】
加えて、カーナビゲーション装置等、小型化が求められる装置にこの手法を応用する場合は、一般的に、装置が用いる音声辞書を記憶する記憶装置もサイズの小型化が必要になる。そして、記憶装置のサイズを小型化すれば、一般的にはその記憶容量の小容量化も避けられない。
【０００５】
そこで、記憶容量が小さな記憶装置にも十分な量の音声データを含んだ音素辞書を格納できるようにするため、音声データにデータ圧縮を施し、音声データ１個あたりのデータ容量を小さくすることが行われていた（例えば、特許文献１参照）。
【０００６】
【特許文献１】
特表２０００−５０２５３９号公報
【０００７】
【発明が解決しようとする課題】
しかし、データの規則性に着目してデータを圧縮する手法であるエントロピー符号化の手法（具体的には、算術符号化やハフマン符号化など）を用いて、人が発する音声を表す音声データを圧縮する場合、音声データが全体としては必ずしも明確な周期性を有していないため、圧縮の効率が低かった。
【０００８】
すなわち、人が発する音声の波形は、例えば図１１（ａ）に示すように、規則性のみられる様々な時間長の区間や、明確な規則性のない区間などからなっている。また、このような波形のスペクトル分布からも明確な規則性は見出しにくい。このため、人が発する音声を表す音声データ全体をエントロピー符号化した場合は圧縮の効率が低くなる。
【０００９】
また、音声データを一定の時間長毎に区切った場合、例えば図１１（ｂ）に示すように、区切りのタイミング（図１１（ｂ）において“Ｔ１”として示すタイミング）が、隣接する２個の音素の境界（図１１（ｂ）において“Ｔ０”として示すタイミング）と一致しないことが通常である。このため、区切られた個々の部分（例えば、図１１（ｂ）において“Ｐ１”あるいは“Ｐ２”として示す部分）について、その全体に共通する規則性を見出すことは困難であり、従ってこれらの各部分の圧縮の効率はやはり低い。
【００１０】
また、ピッチのゆらぎも問題になっていた。ピッチは、人間の感情や意識に影響されやすく、ある程度は一定とみなせる周期であるものの、現実には微妙にゆらぎを生じる。従って、同一話者が同じ言葉（音素）を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。従って、１個の音素を表す波形にも正確な規則性がみられない場合が多く、このためにエントロピー符号化による圧縮の効率が低くなる場合が多かった。
【００１１】
この発明は上記実状に鑑みてなされたものであり、音声を表すデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムを提供することを目的とする。
【００１２】
【課題を解決するための手段】
上記目的を達成すべく、この発明の第１の観点にかかる音声信号圧縮装置は、
圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段と、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする。
【００１３】
前記音素別圧縮手段は、
それぞれの音素を表すサブバンドデータに施すデータ圧縮の前記目標値を指定するテーブルを書き換え可能に記憶する手段と、
それぞれの音素を表すサブバンドデータを、前記記憶される目標値に従って圧縮する手段と、より構成されていてもよい。
【００１４】
前記音素別圧縮手段は、それぞれの音素を表すサブバンドデータを、当該音素に対応付けられる前記目標値に基づいて決定される圧縮率に達するように非線形量子化することにより、圧縮してもよい。
【００１５】
前記サブバンドデータのそれぞれのスペクトル成分には優先度が定められていてもよく、
前記音素別圧縮手段は、前記サブバンドデータのそれぞれのスペクトル成分を、前記優先度の高いスペクトル成分ほど高分解能で量子化することにより、圧縮してもよい。
【００１６】
前記音素別圧縮手段は、前記サブバンドデータを、所定のスペクトル成分が削除された後のスペクトル分布を表すように変更することにより、圧縮してもよい。
【００１７】
また、この発明の第２の観点にかかる音声信号圧縮装置は、
音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする。
【００１９】
また、この発明の第３の観点にかかる音声信号圧縮方法は、処理手段を有する音声信号圧縮装置において実行される音声信号圧縮方法であって、
前記処理手段が、圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割し、
前記処理手段が、分割された前記音声信号をフィルタリングしてピッチ信号を抽出し、
前記処理手段が、前記抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、
前記処理手段が、前記位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し、
前記処理手段が、前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工し、
前記処理手段が、前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成し、
前記処理手段が、前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する、
ことを特徴とする。
【００２０】
また、この発明の第４の観点にかかるプログラムは、
コンピュータを、
圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタ、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段、
として機能させるためのものであることを特徴とする。
【００２１】
【発明の実施の形態】
以下に、図面を参照して、この発明の実施の形態を説明する。
（第１の実施の形態）
図１は、この発明の第１の実施の形態に係る音声データ圧縮器の構成を示す図である。図示するように、この音声データ圧縮器は、記録媒体（例えば、フレキシブルディスクやＣＤ−Ｒ（Compact Disc-Recordable）など）に記録されたデータを読み取る記録媒体ドライバ（フレキシブルディスクドライブや、ＣＤ−ＲＯＭドライブなど）ＳＭＤと、記録媒体ドライバＳＭＤに接続されたコンピュータＣ１とより構成されている。
【００２２】
図示するように、コンピュータＣ１は、ＣＰＵ（Central Processing Unit）やＤＳＰ（Digital Signal Processor）等からなるプロセッサや、ＲＡＭ（Random Access Memory）等からなる揮発性メモリや、ハードディスク装置等からなる不揮発性メモリや、キーボード等からなる入力部や、液晶ディスプレイ等からなる表示部や、ＵＳＢ（Universal Serial Bus）インターフェース回路等からなっていて外部とのシリアル通信を制御するシリアル通信制御部などからなっている。
【００２３】
コンピュータＣ１は音声データ圧縮プログラムを予め記憶しており、この音声データ圧縮プログラムを実行することにより後述する処理を行う。
また、コンピュータＣ１は、操作者の操作に従って、圧縮用テーブルを書き換え可能に記憶している。圧縮用テーブルには、優先度データと、圧縮率データとが含まれている。
【００２４】
優先度データは、コンピュータＣ１が音声データ圧縮プログラムに従って処理する音声データのそれぞれのスペクトル成分に、量子化の分解能の高低を割り当てるデータである。
具体的には、優先度データは、例えば図２（ａ）に示すデータ構造を有していればよい。あるいは、例えば図２（ｂ）に示すグラフを表すデータからなっていてもよい。
【００２５】
図２（ａ）や（ｂ）に示す優先度データは、スペクトル成分の周波数と、当該スペクトル成分に割り当てられている優先度とを、互いに対応付けた形で含んでいる。そして、音声データ圧縮プログラムを実行するコンピュータＣ１は、後述するように、優先度の値が小さいスペクトル成分ほど高い分解能で（大きなビット数で）量子化する。
【００２６】
圧縮率データは、コンピュータＣ１が後述の処理により生成する後述のサブバンドデータの圧縮率の目標を、音素別に、音素間の相対的な値として指定するデータである。具体的には、圧縮率データは、例えば図３に示すデータ構造を有していればよい。
【００２７】
図３に示す圧縮率データは、音素を識別する符号と、当該音素の相対的な圧縮率の目標値とを、互いに対応付けた形で含んでいる。すなわち、例えば図３に示す圧縮率データは、音素"a"の相対的な圧縮率の目標値は"1.00"と指定しており、音素"ch"の相対的な圧縮率の目標値は"0.12"と指定している。このことは、音素"ch"を表すサブバンドデータの圧縮率は音素"a"を表すサブバンドデータの圧縮率の0.12倍とするよう指定していることを意味する。従って、図３に示す圧縮率データに従う場合、例えば音素"a"を表すサブバンドデータの圧縮率が0.5（つまり、圧縮後のサブバンドデータのデータ量が圧縮前の50%）となるように処理を行うならば、音素"ch"を表すサブバンドデータの圧縮率は0.06となるように処理を行うべきことになる。
【００２８】
なお、圧縮用テーブルは、コンピュータＣ１が音声データ圧縮プログラムに従って処理する音声データのうちどのスペクトル成分を削除すべきかを示すデータ（以下、削除帯域データと呼ぶ）を更に含んでいてもよい。
【００２９】
（第１の実施の形態：動作）
次に、この音声データ圧縮器の動作を、図４及び図５を参照して説明する。図４及び図５は、図１の音声データ圧縮器の動作の流れを示す図である。
【００３０】
ユーザが、音声の波形を表す音声データと後述の音素ラベリングデータとを記録した記録媒体を記録媒体ドライバＳＭＤにセットして、コンピュータＣ１に、音声データ圧縮プログラムの起動を指示すると、コンピュータＣ１は、音声データ圧縮プログラムの処理を開始する。すると、まず、コンピュータＣ１は、記録媒体ドライバＳＭＤを介し、記録媒体より音声データを読み出す（図４、ステップＳ１）。
【００３１】
なお、音声データは、例えばＰＣＭ（Pulse Code Modulation）変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【００３２】
一方、音素ラベリングデータは、音素データが表す波形のどの部分がどの音素を表しているかを示すデータであり、例えば図６に示すデータ構造を有する。
図６の音素ラベリングデータは、例えば、音声データが表す波形の始端から0.20秒分が無音状態を表し、0.21秒目から0.31秒目までは、音素"t"（ただし、後続する音素が"a"である場合のもの）の波形を表し、0.32秒目から0.39秒目までが音素"a"（ただし、先行する音素が"t"であり後続する音素が"k"である場合のもの）を表すこと、等を示している。
【００３３】
動作の説明に戻ると、次にコンピュータＣ１は、記録媒体より読み出された音声データを、１個の音素を表す部分へと分割する（ステップＳ２）。なお、コンピュータＣ１は、それぞれの音素を表す部分を、ステップＳ１で読み込んだ音素ラベリングデータを解釈することによって特定すればよい。
【００３４】
次に、コンピュータＣ１は、音素毎に分割して得られた各音声データをフィルタリングすることにより、フィルタリングされた音声データ（ピッチ信号）を生成する（ステップＳ３）。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
【００３５】
なお、コンピュータＣ１は、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）とに基づくフィードバック処理を行うことにより決定する。
【００３６】
すなわち、コンピュータＣ１は、それぞれの音声データに、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、それぞれの音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値（すなわち、ピッチ長）を求める（ステップＳ４）。（あるいは、コンピュータＣ１は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を２個特定し、これら２個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。）
【００３７】
なお、ケプストラム解析としては、具体的には、まず、音声データの強度を、元の値の対数（対数の底は任意）に実質的に等しい値へと変換し、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。
【００３８】
一方、自己相関関数に基づく解析としては、具体的には、読み出した音声データを用いてまず、数式１の右辺により表される自己相関関数ｒ（ｌ）を特定する。そして、自己相関関数ｒ（ｌ）をフーリエ変換した結果得られる関数（ピリオドグラム）の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。
【００３９】
【数１】

【００４０】
一方、コンピュータＣ１は、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する（ステップＳ５）。そして、コンピュータＣ１は、ピッチ長とピッチ信号のゼロクロスの周期とが互いに所定量以上異なっているか否かを判別し（ステップＳ６）、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップＳ７）。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする（ステップＳ８）。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような通過帯域幅であることが望ましい。
【００４１】
次に、コンピュータＣ１は、生成したピッチ信号の単位周期（例えば１周期）の境界が来るタイミング（具体的には、ピッチ信号がゼロクロスするタイミング）で、記録媒体から読み出した音声データを区切る（ステップＳ９）。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する（ステップＳ１０）。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する（ステップＳ１１）。
【００４２】
具体的には、コンピュータＣ１は、それぞれの区間毎に、例えば、数式２の右辺により表される値ｃｏｒを、位相を表すφ（ただし、φは０以上の整数）の値を種々変化させた場合それぞれについて求める。そして、値ｃｏｒが最大になるようなφの値Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュータＣ１は、この区間内の音声データを、（−Ψ）だけ移相する。
【００４３】
【数２】

【００４４】
音声データを上述の通り移相することにより得られるデータが表す波形の一例を図７（ｃ）に示す。図７（ａ）に示す位相前の音声データの波形のうち、「＃１」及び「＃２」として示す２個の区間は、図７（ｂ）に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、移相された音声データが表す波形の区間＃１及び＃２は、図７（ｃ）に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、図７（ａ）に示すように、各区間の始点の値は０に近い値となっている。
【００４５】
なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形データのデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。
【００４６】
次に、コンピュータＣ１は、移相された音声データをラグランジェ補間する（ステップＳ１２）。すなわち、移相された音声データのサンプル間をラグランジェ補間の手法により補間する値を表すデータを生成する。移相された音声データと、ラグランジェ補間データとが、補間後の音声データを構成する。
【００４７】
次に、コンピュータＣ１は、補間後の音声データの各区間をサンプリングし直す（リサンプリングする）。また、各区間の元のサンプル数を示すデータであるサンプル数情報も生成する（ステップＳ１３）。なお、コンピュータＣ１は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。
記録媒体より読み出した音声データのサンプリング間隔が既知であるものとすれば、サンプル数情報は、この音声データの単位ピッチ分の区間の元の時間長を表す情報として機能する。
【００４８】
次に、コンピュータＣ１は、ステップＳ１３で各区間の時間長を揃えられたそれぞれの音声データ（すなわち、ピッチ波形データ）について、互いに一定程度以上高い相関を示している１ピッチ分の区間の組み合わせがあれば、そのような組み合わせを特定する（ステップＳ１４）。そして、特定されたそれぞれの組み合わせについて、同じ組み合わせに属する各区間内のデータを、これらの区間のうちいずれか１区間のデータで置き換えることにより、これらの区間の波形を共通化する（ステップＳ１５）。
【００４９】
なお、１ピッチ分の区間相互間の相関の程度は、たとえば、１ピッチ分の区間２個の波形の相関係数を求め、求めた各相関係数の値に基づいて判別するようにすればよい。あるいは、１ピッチ分の区間２個の差分を求め、求めた差分の実効値あるいは平均値などに基づいて判別してもよい。
【００５０】
次に、コンピュータＣ１は、ステップＳ１５までの処理を経たピッチ波形データを用いて、ピッチ波形データが表す音声のスペクトルの時間変化を音素別に表すサブバンドデータを生成する（ステップＳ１６）。サブバンドデータは、具体的には、例えば、ピッチ波形データにＤＣＴ（Discrete Cosine Transform）等の直交変換を施すことにより生成すればよい。
【００５１】
次に、コンピュータＣ１は、自ら記憶している圧縮用テーブルに削除帯域データが含まれていれば、ステップＳ１５までの処理で生成した各サブバンドデータを、削除帯域テーブルが指定するスペクトル成分の強度が０となるように変更する（ステップＳ１７）。
【００５２】
次に、コンピュータＣ１は、各サブバンドデータに非線形量子化を施すことにより、各サブバンドをデータ圧縮する（ステップＳ１８）。すなわち、ステップＳ１６まで（あるいはＳ１７まで）の処理を経た各サブバンドデータが表す各周波数成分の瞬時値に非線形圧縮を施して得られる値（具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値）を量子化したものに相当するサブバンドデータを生成する。
【００５３】
ステップＳ１８でコンピュータＣ１は、サブバンドデータの圧縮率が、所定の全体目標値と当該サブバンドデータが表す音素について圧縮率データが指定する相対的な目標値との積により決まる値となるよう、圧縮特性（非線形量子化前のサブバンドデータの内容と非線形量子化後のサブバンドデータの内容との対応関係）を決定する。なお、コンピュータＣ１は、上述の全体目標値を、例えば予め記憶していてもよいし、操作者の操作に従って取得するようにしてもよい。
【００５４】
圧縮特性の決定は、例えば、非線形量子化を施される前の当該サブバンドデータと非線形量子化を経た当該サブバンドデータとに基づいての当該サブバンドデータの圧縮率を求め、求めた圧縮率に基づいてフィードバック処理を行うなどすることにより行えばよい。
【００５５】
すなわち、たとえば、ある音素を表すサブバンドデータについて求めた圧縮率が、当該音素についての圧縮率の相対的な目標値と全体目標値との積より大きいか否かを判別する。そして、求めた圧縮率がこの積より大きいと判別すると、圧縮率が現在より小さくなるように圧縮特性を決定し、一方、求めた圧縮率がこの積以下であると判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。
【００５６】
ただし、ステップＳ１８でコンピュータＣ１は、サブバンドデータに含まれる各スペクトル成分を、自ら記憶している優先度データが示す優先度の値が小さいスペクトル成分ほど高い分解能で量子化するようにする。
【００５７】
ステップＳ１４までの処理を行う結果、記録媒体から読み込まれた音声データは、この音声データが表す音声を構成するそれぞれの音素のスペクトル分布を非線形量子化した結果を表すサブバンドデータに変換される。コンピュータＣ１は、これらのサブバンドデータにエントロピー符号化（具体的には、例えば算術符号化やハフマン符号化など）を施し、エントロピー符号化されたサブバンドデータ（圧縮音声データ）と、ステップＳ１３で生成したサンプル数情報とを、自己のシリアル通信制御部を介して外部に出力する（ステップＳ１９）。
【００５８】
図１１（ａ）に示す波形を有する元の音声データを上述のステップＳ１６の処理で分割した結果得られる各音声データは、音素ラベリングデータの内容に誤りがない限り、元の音声データを、例えば図８（ａ）に示すように、異なる音素同士の境界（又は音声の端）であるタイミング“ｔ１”〜“ｔ１９”で分割したものとなる。
また、図１１（ｂ）に示す波形を有する音声データをステップＳ１６の処理により複数の部分へと分割した場合、音素ラベリングデータの内容に誤りがなければ、図１１（ｂ）に示す区切られ方とは異なり、図８（ｂ）に示すように、隣接する２個の音素の境界“Ｔ０”が区切りのタイミングとして正しく選択される。このため、この処理により得られる各部分の波形（例えば、図８（ｂ）において“Ｐ３”あるいは“Ｐ４”として示す部分の波形）には、複数の音素の波形が混入することが避けられる。
【００５９】
そして、分割された音声データはピッチ波形データへと加工された上でサブバンドデータへと変換される。ピッチ波形データは、単位ピッチ分の区間の時間長が規格化され、ピッチのゆらぎの影響が除去された音声データである。このため、ピッチ波形データを用いて生成された各サブバンドデータは、元の音声データが表す各音素のスペクトル分布の時間変化を正確に表す。
【００６０】
分割された音素データやピッチ波形データやサブバンドデータは以上説明した特徴を有するので、特定のスペクトル成分の削除や、音素毎及びスペクトル成分毎に異なった圧縮特性で非線形量子化を行う処理が、正確に行われる。また、非線形量子化されたサブバンドデータのエントロピー符号化も効率よく行われる。従って、元の音声データの音質を損ねることなく効率的にデータ圧縮を施すことが可能となる。
【００６１】
スペクトル成分の削除や非線形量子化は、圧縮用テーブルが音素毎あるいは周波数毎に示す条件に従って行われるので、圧縮用テーブルの内容を種々書き換えることにより、音素の特徴や人の聴覚の帯域特性などに応じたきめ細かく適切なデータ圧縮が可能になる。
例えば、摩擦音は、他の種類の音素に比べ、歪みが大きくても聴覚上は異常が認められにくい、という特徴を持っている。このため、摩擦音は、他の種類の音素に比べて高圧縮（小さな圧縮率でのデータ圧縮）を施しても差し支えない。
また、母音などであって波形が正弦波に近い音素は、当該正弦波以外のスペクトル成分を削除したり、あるいは、当該正弦波のスペクトル成分に比べて低い分解能で量子化したりしても、音質の劣化が少なくて済む。
また、人に聴き取られにくい数十ヘルツ程度以下の成分や、十数キロヘルツ程度以上の成分は、他の成分に比べて低い分解能で量子化したり、あるいは削除しても、人の聴覚上、音質の劣化が少なくて済む。
【００６２】
また、圧縮用テーブルの内容を種々書き換えることにより、複数の話者が発した音声について、それぞれの話者の音声の特徴に応じたきめ細かく適切なデータ圧縮が可能になる。
【００６３】
なお、サンプル数情報を用いてピッチ波形データの各区間の元の時間長を特定することができるため、圧縮音声データにＩＤＣＴ（Inverse DCT）を施すなどして音声の波形を表すデータを得た後、このデータの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。
【００６４】
なお、この音声データ圧縮器の構成は上述のものに限られない。
たとえば、コンピュータＣ１は、外部からシリアル伝送される音声データや音素ラベリングデータを、シリアル通信制御部を介して取得するようにしてもよい。また、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データや音素ラベリングデータを取得するようにしてもよく、この場合、コンピュータＣ１は、例えばモデムやＤＳＵ（Data Service Unit）等を備えていればよい。記録媒体ドライバＳＭＤ以外から音声データや音素ラベリングデータを取得するならば、コンピュータＣ１は必ずしも記録媒体ドライバＳＭＤを備えている必要はない。音声データ及び音素ラベリングデータは、互いに別個の経路を介して取得してもよい。
【００６５】
また、コンピュータＣ１は、圧縮用テーブルを通信回線などを介して外部より取得して記憶するようにしてよい。あるいは、圧縮用テーブルを記録した記録媒体を記録媒体ドライバＳＭＤにセットし、コンピュータＣ１の入力部を操作して、この記録媒体に記録された圧縮用テーブルを、記録媒体ドライバＳＭＤを介してコンピュータＣ１に読み取らせ、記憶させるようにしてよい。なお、圧縮用テーブルは、必ずしも優先度データを含んでいなくてもよい。
【００６６】
また、コンピュータＣ１は、マイクロフォン、ＡＦ増幅器、サンプラー、Ａ／Ｄ（Analog-to-Digital）コンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、コンピュータＣ１が取得する音声データは、必ずしもＰＣＭ信号である必要はない。
【００６７】
また、コンピュータＣ１は、圧縮音声データやサンプル数情報を、記録媒体ドライバＳＭＤにセットされた記録媒体に、記録媒体ドライバＳＭＤを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータＣ１は、記録媒体ドライバや、ハードディスクコントローラ等の制御回路を備えていればよい。
【００６８】
また、コンピュータＣ１は、ステップＳ１８の処理でサブバンドデータの各スペクトル成分をどのような分解能で量子化したかを示すデータを、シリアル通信制御部を介して出力したり、記録媒体ドライバＳＭＤにセットされた記録媒体に、記録媒体ドライバＳＭＤを介して書き込んだりするようにしてもよい。
【００６９】
また、元の音声データを個々の音素を表す部分へと分割する手法は任意であり、例えば、元の音声データが予め音素毎に分割されていてもよいし、ピッチ波形データへと加工してから分割してもよいし、サブバンドデータに変換してから分割してもよい。また、音声データ、ピッチ波形データ又はサブバンドデータに分析を加えて各音素を表す区間を特定し、特定した区間を切り出すようにしてもよい。
また、コンピュータＣ１は、ステップＳ１６やＳ１７の処理を省略してもよい。この場合、ステップＳ１８では、ピッチ波形データを、個々の音素を表す部分毎に非線形量子化することにより、ピッチ波形データをデータ圧縮すればよい。そしてステップＳ１９では、圧縮されたサブバンドデータの代わりに圧縮されたピッチ波形データをエントロピー符号化して出力するようにすればよい。
【００７０】
また、コンピュータＣ１は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。
【００７１】
また、コンピュータＣ１が音声データの各区間内の音声データを移相する量は（−Ψ）である必要はなく、例えば、コンピュータＣ１は、初期位相を表す各区間に共通な実数をδとして、それぞれの区間につき、（−Ψ＋δ）だけ、音声データを移相するようにしてもよい。また、コンピュータＣ１が音声データの音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が０でない所定の値となるタイミングであってもよい。
しかし、初期位相αを０とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は０に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。
【００７２】
また、圧縮率データは、それぞれの音素を表すサブバンドデータの圧縮率を、相対的な値（例えば、上述したような、全体目標値に乗ずる係数）の形に代えて、絶対的な値として指定するものであってもよい。
【００７３】
なお、コンピュータＣ１は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音声データ圧縮プログラムは、音声データ圧縮プログラムを格納した媒体（ＣＤ−ＲＯＭ、ＭＯ、フレキシブルディスク等）からコンピュータＣ１へとインストールするようにしてもよいし、通信回線の掲示板（ＢＢＳ）にピッチ波形抽出プログラムをアップロードし、これを通信回線を介して配信してもよい。また、音声データ圧縮プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音声データ圧縮プログラムを復元するようにしてもよい。
【００７４】
また、音声データ圧縮プログラムは、ＯＳの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータＣ１に実行させることにより、上述の処理を実行することができる。なお、ＯＳが上述の処理の一部を分担する場合、記録媒体に格納される音声データ圧縮プログラムは、当該処理を制御する部分を除いたものであってもよい。
【００７５】
（第２の実施の形態）
次に、この発明の第２の実施の形態を説明する。
図９は、この発明の第２の実施の形態に係る音声データ圧縮器の構成を示す図である。図示するように、この音声データ圧縮器は、音声入力部１と、音声データ分割部２と、ピッチ波形抽出部３と、類似波形検出部４と、波形共通化部５と、直交変換部６と、圧縮用テーブル記憶部７と、帯域制限部８と、非線形量子化部９と、エントロピー符号化部１０と、ビットストリーム形成部１１とより構成されている。
【００７６】
音声入力部１は、例えば、第１の実施の形態における記録媒体ドライバＳＭＤと同様の記録媒体ドライバ等より構成されている。
音声入力部１は、音声の波形を表す音声データ及び上述の音素ラベリングデータを、これらのデータが記録された記録媒体から読み取る等して取得し、音声データ分割部２に供給する。なお、音声データは、ＰＣＭ変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【００７７】
音声データ分割部２、ピッチ波形抽出部３、類似波形検出部４、波形共通化部５、直交変換部６、帯域制限部８、非線形量子化部９及びエントロピー符号化部１０は、いずれも、ＤＳＰやＣＰＵ等のプロセッサより構成されている。
なお、ピッチ波形抽出部３、類似波形検出部４、波形共通化部５、直交変換部６、帯域制限部８、非線形量子化部９及びエントロピー符号化部１０の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
【００７８】
音声データ分割部２は、音声入力部１より音声データ及び音素ラベリングデータを供給されると、供給された音声データを、この音声データが表す音声を構成するそれぞれの音素を表す部分へと分割し、ピッチ波形抽出部３へと供給する。ただし、音声データ分割部２は、それぞれの音素を表す部分を、音声入力部１より供給された音素ラベリングデータの内容に基づいて特定するものとする。
【００７９】
ピッチ波形抽出部３は、音声データ分割部２より供給されたそれぞれの音声データを、この音声データが表す音声の単位ピッチ分（たとえば、１ピッチ分）にあたる区間へと更に区切る。そして、これらの区間を移相及びリサンプリングすることにより、各区間の時間長及び位相を互いに実質的に同一になるように揃える。
そして、各区間の時間長及び位相を揃えられた音声データ（ピッチ波形データ）を、類似波形検出部４及び波形共通化部５に供給する。
また、ピッチ波形抽出部３は、これらの音声データの各区間の元のサンプル数を示すサンプル数情報を生成し、エントロピー符号化部１０へと供給する。
【００８０】
ピッチ波形抽出部３は、機能的には、たとえば図１０に示すように、ケプストラム解析部３０１と、自己相関解析部３０２と、重み計算部３０３と、ＢＰＦ（バンドパスフィルタ）係数計算部３０４と、バンドパスフィルタ３０５と、ゼロクロス解析部３０６と、波形相関解析部３０７と、位相調整部３０８と、補間部３０９と、ピッチ長調整部３１０とより構成されている。
【００８１】
なお、ケプストラム解析部３０１、自己相関解析部３０２、重み計算部３０３、ＢＰＦ係数計算部３０４、バンドパスフィルタ３０５、ゼロクロス解析部３０６、波形相関解析部３０７、位相調整部３０８、補間部３０９及びピッチ長調整部３１０の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
【００８２】
ピッチ波形抽出部３は、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。
すなわち、まず、ケプストラム解析部３０１は、音声データ分割部２より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部３０３へと供給する。
【００８３】
具体的には、ケプストラム解析部３０１は、音声データ分割部２より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。（対数の底は任意である。）
次に、ケプストラム解析部３０１は、値が変換された音声データのスペクトル（すなわち、ケプストラム）を、高速フーリエ変換の手法（あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法）により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部３０３へと供給する。
【００８４】
一方、自己相関解析部３０２は、音声データ分割部２より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部３０３へと供給する。
【００８５】
具体的には、自己相関解析部３０２は、音声データ分割部２より音声データを供給されるとまず、上述した自己相関関数ｒ（ｌ）を特定する。そして、特定した自己相関関数ｒ（ｌ）をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部３０３へと供給する。
【００８６】
重み計算部３０３は、ケプストラム解析部３０１及び自己相関解析部３０２より基本周波数を示すデータを１個ずつ合計２個供給されると、これら２個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値（すなわち、平均ピッチ長）を示すデータを生成し、ＢＰＦ係数計算部３０４へと供給する。
【００８７】
ＢＰＦ係数計算部３０４は、平均ピッチ長を示すデータを重み計算部３０３より供給され、ゼロクロス解析部３０６より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数（バンドパスフィルタ３０５の通過帯域の中央の周波数）とするように、バンドパスフィルタ３０５の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、バンドパスフィルタ３０５の周波数特性を制御する。
【００８８】
バンドパスフィルタ３０５は、中心周波数が可変なＦＩＲ（Finite Impulse Response）型のフィルタの機能を行う。
具体的には、バンドパスフィルタ３０５は、自己の中心周波数を、ＢＰＦ係数計算部３０４の制御に従った値に設定する。そして、音声データ分割部２より供給される音声データをフィルタリングして、フィルタリングされた音声データ（ピッチ信号）を、ゼロクロス解析部３０６及び波形相関解析部３０７へと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、バンドパスフィルタ３０５の帯域幅は、バンドパスフィルタ３０５の通過帯域の上限が音声データの表す音声の基本周波数の２倍以内に常に収まるような帯域幅であることが望ましい。
【００８９】
ゼロクロス解析部３０６は、バンドパスフィルタ３０５から供給されたピッチ信号の瞬時値が０となる時刻（ゼロクロスする時刻）が来るタイミングを特定し、特定したタイミングを表す信号（ゼロクロス信号）を、ＢＰＦ係数計算部３０４へと供給する。このようにして、音声データのピッチの長さが特定される。
ただし、ゼロクロス解析部３０６は、ピッチ信号の瞬時値が０でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてＢＰＦ係数計算部３０４へと供給するようにしてもよい。
【００９０】
波形相関解析部３０７は、音声データ分割部２より音声データを供給され、バンドパスフィルタ３０５よりピッチ信号を供給されると、ピッチ信号の単位周期（例えば１周期）の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。
【００９１】
具体的には、波形相関解析部３０７は、例えば、それぞれの区間毎に、上述した値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部３０８に供給する。なお、区間の時間的な長さは、１ピッチ分程度であることが望ましい。
【００９２】
位相調整部３０８は、音声データ分割部２より音声データを供給され、波形相関解析部３０７より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を（−Ψ）だけ移相することにより、各区間の位相を揃える。そして、移相された音声データを補間部３０９へと供給する。
【００９３】
補間部３０９は、位相調整部３０８より供給された音声データ（移相された音声データ）にラグランジェ補間を施して、ピッチ長調整部３１０へと供給する。
【００９４】
ピッチ長調整部３１０は、ラグランジェ補間を施された音声データを補間部Ｑ１より供給されると、供給された音声データの各区間をリサンプリングすることにより、各区間の時間長を互いに実質的に同一になるように揃える。そして、各区間の時間長を揃えられた音声データ（すなわち、ピッチ波形データ）を類似波形検出部４及び波形共通化部５へと供給する。
【００９５】
また、ピッチ長調整部３１０は、この音声データの各区間の元のサンプル数（音声データ分割部２からピッチ長調整部３１０へと供給された時点におけるこの音声データの各区間のサンプル数）を示すサンプル数情報を生成し、エントロピー符号化部１０へと供給する。
【００９６】
類似波形検出部４は、ピッチ波形抽出部３より各区間の時間長を揃えられたそれぞれの音声データ（すなわち、ピッチ波形データ）を供給されると、このピッチ波形データ内の１ピッチ分の区間のうちに、互いに一定程度以上高い相関を示している１ピッチ分の区間の組み合わせがあれば、そのような組み合わせを特定する。そして、特定した組み合わせを波形共通化部５に通知する。
なお、１ピッチ分の区間相互間の相関の程度は、たとえば、１ピッチ分の区間２個の波形の相関係数を求め、求めた各相関係数の値に基づいて判別するようにすればよい。あるいは、１ピッチ分の区間２個の差分を求め、求めた差分の実効値あるいは平均値などに基づいて判別してもよい。
【００９７】
波形共通化部５は、ピッチ波形抽出部３よりピッチ波形データを供給され、互いに一定程度以上高い相関を示している１ピッチ分の区間の組み合わせを類似波形検出部４より通知されると、供給されたピッチ波形データのうち、類似波形検出部４より通知された組み合わせに属する区間内の波形を共通化する。つまり、通知されたそれぞれの組み合わせについて、同じ組み合わせに属する各区間内のデータを、これらの区間のうちいずれか１区間のデータで置き換える。そして、波形を共通化されたピッチ波形データを、直交変換部６に供給する。
【００９８】
直交変換部６は、波形共通化部５より供給されたピッチ波形データにＤＣＴ等の直交変換を施すことにより、上述したサブバンドデータを生成する。そして、生成したサブバンドデータを帯域制限部８へと供給する。
【００９９】
圧縮用テーブル記憶部７は、ＲＡＭなどの揮発性メモリや、あるいは、ＥＥＰＲＯＭ（Electrically Esasable/Programmable Read Only Memory）やハードディスク装置やフラッシュメモリなどの不揮発性メモリなどより構成されている。
圧縮用テーブル記憶部７は、操作者の操作に従い、上述の圧縮用テーブルを書き換え可能に記憶し、帯域制限部８及び非線形量子化部９からのアクセスに応答して、自己が記憶する圧縮用テーブルの少なくとも一部を帯域制限部８や非線形量子化部９に読み出させる。
【０１００】
帯域制限部８は、圧縮用テーブル記憶部７にアクセスして、圧縮用テーブル記憶部７が記憶している圧縮用テーブルに削除帯域データが含まれているか否かを判別する。そして、含まれていないと判別すると、直交変換部６より供給されたサブバンドデータを、そのまま非線形量子化部９へと供給する。一方、削除帯域データが含まれていると判別すると、この削除帯域データを読み出し、直交変換部６より供給されたサブバンドデータを、削除帯域データが指定するスペクトル成分の強度が０となるように変更してから、非線形量子化部９へと供給する。
【０１０１】
非線形量子化部９は、帯域制限部８よりサブバンドデータを供給されると、このサブバンドデータが表す各周波数成分の瞬時値に非線形圧縮を施して得られる値を量子化したものに相当するサブバンドデータを生成し、生成したサブバンドデータ（非線形量子化されたサブバンドデータ）をエントロピー符号化部１０へと供給する。
【０１０２】
非線形量子化部９は、サブバンドデータの非線形量子化を、圧縮用テーブル記憶部７が記憶する圧縮用テーブルが指定する条件に従って行う。すなわち、非線形量子化部９は、サブバンドデータの圧縮率が、所定の全体目標値と当該サブバンドデータが表す音素について、圧縮用テーブルに含まれる圧縮率データが指定する相対的な目標値との積により決まる値となるような圧縮特性で、非線形量子化を行う。ただし、非線形量子化部９は、サブバンドデータに含まれる各スペクトル成分を、圧縮用テーブルに含まれる優先度データが示す優先度の値が小さいスペクトル成分ほど高い分解能で量子化するようにする。
なお、全体目標値は、例えば予め圧縮用テーブル記憶部７などが記憶していてもよいし、非線形量子化部９が操作者の操作に従って取得するようにしてもよい。
【０１０３】
エントロピー符号化部１０は、非線形量子化部９より供給された、非線形量子化されたサブバンドデータと、ピッチ波形抽出部３より供給されたサンプル数情報とを、エントロピー符号（例えば、算術符号やハフマン符号など）へと変換し、互いに対応付けてビットストリーム形成部１１へと供給する。
【０１０４】
ビットストリーム形成部１１は、たとえば、ＵＳＢ等の規格に準拠して外部とのシリアル通信を制御するシリアルインターフェース回路と、ＣＰＵ等のプロセッサとより構成されている。
ビットストリーム形成部１１は、エントロピー符号化部１０より供給された、エントロピー符号化されたサブバンドデータ（圧縮音声データ）及びエントロピー符号化されたサンプル数情報とを表すビットストリームを生成して出力する。
【０１０５】
図９の音声データ圧縮器が出力する圧縮音声データも、音声データが表す音声を構成するそれぞれの音素のスペクトル分布を非線形量子化した結果を表すものである。この圧縮音声データも、単位ピッチ分の区間の時間長が規格化され、ピッチのゆらぎの影響が除去された音声データであるピッチ波形データに基づいて生成されている。このため、音声の各周波数成分の強度の時間変化を正確に表すものとなる。
【０１０６】
また、この音声データ圧縮器の音声データ分割部２も、音素ラベリングデータの内容に誤りがなければ、図１１（ａ）に示す波形を有する音声データを図８（ａ）に示すタイミング“ｔ１”〜“ｔ１９”で区切る。また、図１１（ｂ）に示す波形を有する音声データの場合は、音素ラベリングデータの内容に誤りがなければ、図８（ｂ）に示すように、隣接する２個の音素の境界“Ｔ０”を区切りのタイミングとして正しく選択する。このため、音声データ分割部２が行う処理により得られる各部分の波形には、複数の音素の波形が混入することが避けられる。
【０１０７】
従って、この音声データ圧縮器も、特定のスペクトル成分の削除や、音素毎及びスペクトル成分毎に異なった圧縮特性で非線形量子化を行う処理を正確に行う。また、非線形量子化されたサブバンドデータのエントロピー符号化も効率よく実行する。従って、元の音声データの音質を損ねることなく効率的にデータ圧縮を施すことが可能となる。
【０１０８】
また、この音声データ圧縮器においても、圧縮用テーブル記憶部７が記憶する圧縮用テーブルの内容を種々書き換えることにより、音素の特徴や人の聴覚の帯域特性などに応じたきめ細かく適切なデータ圧縮が可能になり、また、複数の話者が発した音声について、それぞれの話者の音声の特徴に応じたなデータ圧縮をすることも可能になる。
【０１０９】
なお、サンプル数情報を用いてピッチ波形データの各区間の元の時間長を特定することができるため、圧縮音声データにＩＤＣＴを施すなどして音声の波形を表すデータを得た後、このデータの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。
【０１１０】
なお、この音声データ圧縮器の構成も上述のものに限られない。
たとえば、音声入力部１は、電話回線、専用回線、衛星回線等の通信回線やその他のシリアル伝送路を介して、外部より音声データや音素ラベリングデータを取得するようにしてもよい。この場合、音声入力部１は、例えばモデムやＤＳＵあるいはその他のシリアルインターフェース回路からなる通信制御部を備えていればよい。また、音声入力部１は、音声データ及び音素ラベリングデータを互いに別個の経路を介して取得してもよい。
【０１１１】
また、音声入力部１は、マイクロフォン、ＡＦ増幅器、サンプラー、Ａ／Ｄコンバータ及びＰＣＭエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてＡ／Ｄ変換した後、サンプリングされた音声信号にＰＣＭ変調を施すことにより、音声データを取得すればよい。なお、音声入力部１が取得する音声データは、必ずしもＰＣＭ信号である必要はない。
【０１１２】
また、音声データ分割部２が元の音声データを個々の音素を表す部分へと分割する手法は任意である。従って、例えば、元の音声データが予め音素毎に分割されていてもよいし、ピッチ波形抽出部３が生成したピッチ波形データを個々の音素を表す部分へと分割して類似波形検出部４や波形共通化部５へと供給するようにしてもよい。また、直交変換部６が生成したサブバンドデータを個々の音素を表す部分へと分割して帯域制限部８に供給するようにしてもよい。また、音声データ、ピッチ波形データ又はサブバンドデータに分析を加えて各音素を表す区間を特定し、特定した区間を切り出すようにしてもよい。
また、波形共通化部５は、波形を共通化されたピッチ波形データを非線形量子化部９に供給し、非線形量子化部９は、このピッチ波形データを、個々の音素を表す部分毎に非線形量子化してエントロピー符号化部１０へと供給してもよい。この場合、エントロピー符号化部１０は、非線形量子化されたピッチ波形データとサンプル数情報とをエントロピー符号化し、互いに対応付けてビットストリーム形成部１１へと供給し、ビットストリーム形成部１１は、エントロピー符号化されたピッチ波形データを圧縮音声データとして扱うようにすればよい。
【０１１３】
また、このピッチ波形抽出部３は、ケプストラム解析部３０１（又は自己相関解析部３０２）を備えていなくてもよく、この場合、重み計算部３０３は、ケプストラム解析部３０１（又は自己相関解析部３０２）が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
【０１１４】
また、ゼロクロス解析部３０６は、バンドパスフィルタ３０５から供給されたピッチ信号を、そのままゼロクロス信号としてＢＰＦ係数計算部３０４へと供給するようにしてもよい。
【０１１５】
また、圧縮用テーブル記憶部７は、圧縮用テーブルを通信回線などを介して外部より取得して記憶するようにしてもよい。この場合、圧縮用テーブル記憶部７は、モデム、ＤＳＵあるいはその他のシリアルインターフェース回路からなる通信制御部を備えていればよい。
あるいは、圧縮用テーブル記憶部７は、圧縮用テーブルを記録した記録媒体から圧縮用テーブルを読み出して記憶するようにしてもよい。この場合、圧縮用テーブル記憶部７は、記録媒体ドライバを備えていればよい。
また、圧縮率データは、それぞれの音素を表すサブバンドデータの圧縮率を、相対的な値の形に代えて、絶対的な値として指定するものであってもよい。また、圧縮用テーブルは、必ずしも優先度データを含んでいなくてもよい。
【０１１６】
また、ビットストリーム形成部１１は、圧縮音声データやサンプル数情報を、通信回線等を介して外部に出力するようにしてもよい。通信回線を介してデータを出力する場合、ビットストリーム形成部１１は、例えばモデムやＤＳＵ等からなる通信制御部を備えていればよい。
また、ビットストリーム形成部１１は、記録媒体ドライバを備えていてもよく、この場合、ビットストリーム形成部１１は、圧縮音声データやサンプル数情報を、この記録媒体ドライバにセットされた記録媒体の記憶領域に書き込むようにしてもよい。
【０１１７】
また、非線形量子化部９は、サブバンドデータの各スペクトル成分をどのような分解能で量子化したかを示すデータを生成してもよい。このデータは、例えばビットストリーム形成部１１が取得して、ビットストリームの形で外部に出力したり、記録媒体の記憶領域に書き込んだりするようにしてもよい。
【０１１８】
なお、単一のシリアルインターフェース回路や記録媒体ドライバが、音声入力部１や圧縮用テーブル記憶部７やビットストリーム形成部１１の通信制御部や記録媒体ドライバの機能を兼ねていてもよい。
【０１１９】
【発明の効果】
以上説明したように、この発明によれば、音声を表すデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムが実現される。
【図面の簡単な説明】
【図１】この発明の第１の実施の形態に係る音声データ圧縮器の構成を示すブロック図である。
【図２】（ａ）は優先度データのデータ構造を示す図であり、（ｂ）は、優先度データをグラフの形で表す図である。
【図３】圧縮率データのデータ構造を示す図である。
【図４】図１の音声データ圧縮器の動作の流れの前半を示す図である。
【図５】図１の音声データ圧縮器の動作の流れの後半を示す図である。
【図６】音素ラベリングデータのデータ構造を示す図である。
【図７】（ａ）及び（ｂ）は、移相される前の音声データの波形を示すグラフであり、（ｃ）は、移相された後の音声データの波形を表すグラフである。
【図８】（ａ）は、図１又は図９のピッチ波形データ分割器が図１１（ａ）の波形を区切るタイミングを示すグラフであり、（ｂ）は、図１又は図９のピッチ波形データ分割器が図１１（ｂ）の波形を区切るタイミングを示すグラフである。
【図９】この発明の第２の実施の形態に係る音声データ圧縮器の構成を示すブロック図である。
【図１０】図９のピッチ波形抽出部の構成を示すブロック図である。
【図１１】（ａ）は、人が発する音声の波形の一例を示すグラフであり、（ｂ）は、従来の技術において波形を区切るタイミングを説明するためのグラフである。
【符号の説明】
Ｃ１コンピュータ
ＳＭＤ記録媒体ドライバ
１音声入力部
２音声データ分割部
３ピッチ波形抽出部
３０１ケプストラム解析部
３０２自己相関解析部
３０３重み計算部
３０４ＢＰＦ係数計算部
３０５バンドパスフィルタ
３０６ゼロクロス解析部
３０７波形相関解析部
３０８位相調整部
３０９補間部
３１０ピッチ長調整部
４類似波形検出部
５波形共通化部
６直交変換部
７圧縮用テーブル記憶部
８帯域制限部
９非線形量子化部
１０エントロピー符号化部
１１ビットストリーム形成部

Claims

圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段と、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする音声信号圧縮装置。
前記音素別圧縮手段は、
それぞれの音素を表すサブバンドデータに施すデータ圧縮の前記目標値を指定するテーブルを書き換え可能に記憶する手段と、
それぞれの音素を表すサブバンドデータを、前記記憶される目標値に従って圧縮する手段と、より構成されている、
ことを特徴とする請求項１に記載の音声信号圧縮装置。
前記音素別圧縮手段は、それぞれの音素を表すサブバンドデータを、当該音素に対応付けられる前記目標値に基づいて決定される圧縮率に達するように非線形量子化することにより、圧縮する、
ことを特徴とする請求項１又は２に記載の音声信号圧縮装置。
前記サブバンドデータのそれぞれのスペクトル成分には優先度が定められており、
前記音素別圧縮手段は、前記サブバンドデータのそれぞれのスペクトル成分を、前記優先度の高いスペクトル成分ほど高分解能で量子化することにより、圧縮する、
ことを特徴とする請求項１乃至３のいずれか１項に記載の音声信号圧縮装置。
前記音素別圧縮手段は、前記サブバンドデータを、所定のスペクトル成分が削除された後のスペクトル分布を表すように変更することにより、圧縮する、
ことを特徴とする請求項１乃至４のいずれか１項に記載の音声信号圧縮装置。
音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする音声信号圧縮装置。
処理手段を有する音声信号圧縮装置において実行される音声信号圧縮方法であって、
前記処理手段が、圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割し、
前記処理手段が、分割された前記音声信号をフィルタリングしてピッチ信号を抽出し、
前記処理手段が、前記抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、
前記処理手段が、前記位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し、
前記処理手段が、前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工し、
前記処理手段が、前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成し、
前記処理手段が、前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する、
ことを特徴とする音声信号圧縮方法。
コンピュータを、
圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタ、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段、
として機能させることを特徴とするプログラム。