JP4256189B2 - 音声信号圧縮装置、音声信号圧縮方法及びプログラム - Google Patents
音声信号圧縮装置、音声信号圧縮方法及びプログラム Download PDFInfo
- Publication number
- JP4256189B2 JP4256189B2 JP2003090045A JP2003090045A JP4256189B2 JP 4256189 B2 JP4256189 B2 JP 4256189B2 JP 2003090045 A JP2003090045 A JP 2003090045A JP 2003090045 A JP2003090045 A JP 2003090045A JP 4256189 B2 JP4256189 B2 JP 4256189B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- signal
- pitch
- compression
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000007906 compression Methods 0.000 title claims description 143
- 230000006835 compression Effects 0.000 title claims description 143
- 230000005236 sound signal Effects 0.000 title claims description 52
- 238000000034 method Methods 0.000 title claims description 25
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000005070 sampling Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 46
- 230000003595 spectral effect Effects 0.000 claims description 28
- 238000001228 spectrum Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- 238000013144 data compression Methods 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 abstract description 6
- 230000002238 attenuated effect Effects 0.000 abstract 1
- 230000008030 elimination Effects 0.000 abstract 1
- 238000003379 elimination reaction Methods 0.000 abstract 1
- 239000011295 pitch Substances 0.000 description 137
- 238000013139 quantization Methods 0.000 description 28
- 238000004891 communication Methods 0.000 description 18
- 238000002372 labelling Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000000605 extraction Methods 0.000 description 11
- 238000005311 autocorrelation function Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010219 correlation analysis Methods 0.000 description 7
- 238000012217 deletion Methods 0.000 description 6
- 230000037430 deletion Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 238000012952 Resampling Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
この発明は、音声信号圧縮装置、音声信号圧縮方法及びプログラムに関する。
【0002】
【従来の技術】
テキストデータなどを音声へと変換する音声合成の手法が、カーナビゲーション等の分野で近年行われるようになっている。
音声合成では、例えば、テキストデータが表す文に含まれる単語、文節及び文節相互の係り受け関係が特定され、特定された単語、文節及び係り受け関係に基づいて、文の読み方が特定される。そして、特定した読み方を表す表音文字列に基づき、音声を構成する音素の波形や継続時間やピッチ(基本周波数)のパターンが決定され、決定結果に基づいて漢字かな混じり文全体を表す音声の波形が決定され、決定された波形を有するような音声が出力される。
【0003】
上述した音声合成の手法において、音声の波形を特定するためには、音声の波形あるいはスペクトル分布を表す音声データを集積した音声辞書を検索する。合成する音声を自然なものにするためには、音声辞書が膨大な数の音声データを集積していなければならない。
【0004】
加えて、カーナビゲーション装置等、小型化が求められる装置にこの手法を応用する場合は、一般的に、装置が用いる音声辞書を記憶する記憶装置もサイズの小型化が必要になる。そして、記憶装置のサイズを小型化すれば、一般的にはその記憶容量の小容量化も避けられない。
【0005】
そこで、記憶容量が小さな記憶装置にも十分な量の音声データを含んだ音素辞書を格納できるようにするため、音声データにデータ圧縮を施し、音声データ1個あたりのデータ容量を小さくすることが行われていた(例えば、特許文献1参照)。
【0006】
【特許文献1】
特表2000−502539号公報
【0007】
【発明が解決しようとする課題】
しかし、データの規則性に着目してデータを圧縮する手法であるエントロピー符号化の手法(具体的には、算術符号化やハフマン符号化など)を用いて、人が発する音声を表す音声データを圧縮する場合、音声データが全体としては必ずしも明確な周期性を有していないため、圧縮の効率が低かった。
【0008】
すなわち、人が発する音声の波形は、例えば図11(a)に示すように、規則性のみられる様々な時間長の区間や、明確な規則性のない区間などからなっている。また、このような波形のスペクトル分布からも明確な規則性は見出しにくい。このため、人が発する音声を表す音声データ全体をエントロピー符号化した場合は圧縮の効率が低くなる。
【0009】
また、音声データを一定の時間長毎に区切った場合、例えば図11(b)に示すように、区切りのタイミング(図11(b)において“T1”として示すタイミング)が、隣接する2個の音素の境界(図11(b)において“T0”として示すタイミング)と一致しないことが通常である。このため、区切られた個々の部分(例えば、図11(b)において“P1”あるいは“P2”として示す部分)について、その全体に共通する規則性を見出すことは困難であり、従ってこれらの各部分の圧縮の効率はやはり低い。
【0010】
また、ピッチのゆらぎも問題になっていた。ピッチは、人間の感情や意識に影響されやすく、ある程度は一定とみなせる周期であるものの、現実には微妙にゆらぎを生じる。従って、同一話者が同じ言葉(音素)を複数ピッチ分発声した場合、ピッチの間隔は通常、一定しない。従って、1個の音素を表す波形にも正確な規則性がみられない場合が多く、このためにエントロピー符号化による圧縮の効率が低くなる場合が多かった。
【0011】
この発明は上記実状に鑑みてなされたものであり、音声を表すデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムを提供することを目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成すべく、この発明の第1の観点にかかる音声信号圧縮装置は、
圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段と、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする。
【0013】
前記音素別圧縮手段は、
それぞれの音素を表すサブバンドデータに施すデータ圧縮の前記目標値を指定するテーブルを書き換え可能に記憶する手段と、
それぞれの音素を表すサブバンドデータを、前記記憶される目標値に従って圧縮する手段と、より構成されていてもよい。
【0014】
前記音素別圧縮手段は、それぞれの音素を表すサブバンドデータを、当該音素に対応付けられる前記目標値に基づいて決定される圧縮率に達するように非線形量子化することにより、圧縮してもよい。
【0015】
前記サブバンドデータのそれぞれのスペクトル成分には優先度が定められていてもよく、
前記音素別圧縮手段は、前記サブバンドデータのそれぞれのスペクトル成分を、前記優先度の高いスペクトル成分ほど高分解能で量子化することにより、圧縮してもよい。
【0016】
前記音素別圧縮手段は、前記サブバンドデータを、所定のスペクトル成分が削除された後のスペクトル分布を表すように変更することにより、圧縮してもよい。
【0017】
また、この発明の第2の観点にかかる音声信号圧縮装置は、
音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする。
【0019】
また、この発明の第3の観点にかかる音声信号圧縮方法は、処理手段を有する音声信号圧縮装置において実行される音声信号圧縮方法であって、
前記処理手段が、圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割し、
前記処理手段が、分割された前記音声信号をフィルタリングしてピッチ信号を抽出し、
前記処理手段が、前記抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、
前記処理手段が、前記位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し、
前記処理手段が、前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工し、
前記処理手段が、前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成し、
前記処理手段が、前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する、
ことを特徴とする。
【0020】
また、この発明の第4の観点にかかるプログラムは、
コンピュータを、
圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタ、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段、
として機能させるためのものであることを特徴とする。
【0021】
【発明の実施の形態】
以下に、図面を参照して、この発明の実施の形態を説明する。
(第1の実施の形態)
図1は、この発明の第1の実施の形態に係る音声データ圧縮器の構成を示す図である。図示するように、この音声データ圧縮器は、記録媒体(例えば、フレキシブルディスクやCD−R(Compact Disc-Recordable)など)に記録されたデータを読み取る記録媒体ドライバ(フレキシブルディスクドライブや、CD−ROMドライブなど)SMDと、記録媒体ドライバSMDに接続されたコンピュータC1とより構成されている。
【0022】
図示するように、コンピュータC1は、CPU(Central Processing Unit)やDSP(Digital Signal Processor)等からなるプロセッサや、RAM(Random Access Memory)等からなる揮発性メモリや、ハードディスク装置等からなる不揮発性メモリや、キーボード等からなる入力部や、液晶ディスプレイ等からなる表示部や、USB(Universal Serial Bus)インターフェース回路等からなっていて外部とのシリアル通信を制御するシリアル通信制御部などからなっている。
【0023】
コンピュータC1は音声データ圧縮プログラムを予め記憶しており、この音声データ圧縮プログラムを実行することにより後述する処理を行う。
また、コンピュータC1は、操作者の操作に従って、圧縮用テーブルを書き換え可能に記憶している。圧縮用テーブルには、優先度データと、圧縮率データとが含まれている。
【0024】
優先度データは、コンピュータC1が音声データ圧縮プログラムに従って処理する音声データのそれぞれのスペクトル成分に、量子化の分解能の高低を割り当てるデータである。
具体的には、優先度データは、例えば図2(a)に示すデータ構造を有していればよい。あるいは、例えば図2(b)に示すグラフを表すデータからなっていてもよい。
【0025】
図2(a)や(b)に示す優先度データは、スペクトル成分の周波数と、当該スペクトル成分に割り当てられている優先度とを、互いに対応付けた形で含んでいる。そして、音声データ圧縮プログラムを実行するコンピュータC1は、後述するように、優先度の値が小さいスペクトル成分ほど高い分解能で(大きなビット数で)量子化する。
【0026】
圧縮率データは、コンピュータC1が後述の処理により生成する後述のサブバンドデータの圧縮率の目標を、音素別に、音素間の相対的な値として指定するデータである。具体的には、圧縮率データは、例えば図3に示すデータ構造を有していればよい。
【0027】
図3に示す圧縮率データは、音素を識別する符号と、当該音素の相対的な圧縮率の目標値とを、互いに対応付けた形で含んでいる。すなわち、例えば図3に示す圧縮率データは、音素"a"の相対的な圧縮率の目標値は"1.00"と指定しており、音素"ch"の相対的な圧縮率の目標値は"0.12"と指定している。このことは、音素"ch"を表すサブバンドデータの圧縮率は音素"a"を表すサブバンドデータの圧縮率の0.12倍とするよう指定していることを意味する。従って、図3に示す圧縮率データに従う場合、例えば音素"a"を表すサブバンドデータの圧縮率が0.5(つまり、圧縮後のサブバンドデータのデータ量が圧縮前の50%)となるように処理を行うならば、音素"ch"を表すサブバンドデータの圧縮率は0.06となるように処理を行うべきことになる。
【0028】
なお、圧縮用テーブルは、コンピュータC1が音声データ圧縮プログラムに従って処理する音声データのうちどのスペクトル成分を削除すべきかを示すデータ(以下、削除帯域データと呼ぶ)を更に含んでいてもよい。
【0029】
(第1の実施の形態:動作)
次に、この音声データ圧縮器の動作を、図4及び図5を参照して説明する。図4及び図5は、図1の音声データ圧縮器の動作の流れを示す図である。
【0030】
ユーザが、音声の波形を表す音声データと後述の音素ラベリングデータとを記録した記録媒体を記録媒体ドライバSMDにセットして、コンピュータC1に、音声データ圧縮プログラムの起動を指示すると、コンピュータC1は、音声データ圧縮プログラムの処理を開始する。すると、まず、コンピュータC1は、記録媒体ドライバSMDを介し、記録媒体より音声データを読み出す(図4、ステップS1)。
【0031】
なお、音声データは、例えばPCM(Pulse Code Modulation)変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【0032】
一方、音素ラベリングデータは、音素データが表す波形のどの部分がどの音素を表しているかを示すデータであり、例えば図6に示すデータ構造を有する。
図6の音素ラベリングデータは、例えば、音声データが表す波形の始端から0.20秒分が無音状態を表し、0.21秒目から0.31秒目までは、音素"t"(ただし、後続する音素が"a"である場合のもの)の波形を表し、0.32秒目から0.39秒目までが音素"a"(ただし、先行する音素が"t"であり後続する音素が"k"である場合のもの)を表すこと、等を示している。
【0033】
動作の説明に戻ると、次にコンピュータC1は、記録媒体より読み出された音声データを、1個の音素を表す部分へと分割する(ステップS2)。なお、コンピュータC1は、それぞれの音素を表す部分を、ステップS1で読み込んだ音素ラベリングデータを解釈することによって特定すればよい。
【0034】
次に、コンピュータC1は、音素毎に分割して得られた各音声データをフィルタリングすることにより、フィルタリングされた音声データ(ピッチ信号)を生成する(ステップS3)。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
【0035】
なお、コンピュータC1は、ピッチ信号を生成するために行うフィルタリングの特性を、後述するピッチ長と、ピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)とに基づくフィードバック処理を行うことにより決定する。
【0036】
すなわち、コンピュータC1は、それぞれの音声データに、例えば、ケプストラム解析や、自己相関関数に基づく解析を施すことにより、それぞれの音声データが表す音声の基本周波数を特定し、この基本周波数の逆数の絶対値(すなわち、ピッチ長)を求める(ステップS4)。(あるいは、コンピュータC1は、ケプストラム解析及び自己相関関数に基づく解析の両方を行うことにより基本周波数を2個特定し、これら2個の基本周波数の逆数の絶対値の平均をピッチ長として求めるようにしてもよい。)
【0037】
なお、ケプストラム解析としては、具体的には、まず、音声データの強度を、元の値の対数(対数の底は任意)に実質的に等しい値へと変換し、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定する。
【0038】
一方、自己相関関数に基づく解析としては、具体的には、読み出した音声データを用いてまず、数式1の右辺により表される自己相関関数r(l)を特定する。そして、自己相関関数r(l)をフーリエ変換した結果得られる関数(ピリオドグラム)の極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定する。
【0039】
【数1】
【0040】
一方、コンピュータC1は、ピッチ信号がゼロクロスする時刻が来るタイミングを特定する(ステップS5)。そして、コンピュータC1は、ピッチ長とピッチ信号のゼロクロスの周期とが互いに所定量以上異なっているか否かを判別し(ステップS6)、異なっていないと判別した場合は、ゼロクロスの周期の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS7)。一方、所定量以上異なっていると判別した場合は、ピッチ長の逆数を中心周波数とするようなバンドパスフィルタの特性で上述のフィルタリングを行うこととする(ステップS8)。なお、いずれの場合も、フィルタリングの通過帯域幅は、通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような通過帯域幅であることが望ましい。
【0041】
次に、コンピュータC1は、生成したピッチ信号の単位周期(例えば1周期)の境界が来るタイミング(具体的には、ピッチ信号がゼロクロスするタイミング)で、記録媒体から読み出した音声データを区切る(ステップS9)。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する(ステップS10)。そして、音声データのそれぞれの区間を、互いが実質的に同じ位相になるように移相する(ステップS11)。
【0042】
具体的には、コンピュータC1は、それぞれの区間毎に、例えば、数式2の右辺により表される値corを、位相を表すφ(ただし、φは0以上の整数)の値を種々変化させた場合それぞれについて求める。そして、値corが最大になるようなφの値Ψを、この区間内の音声データの位相を表す値として特定する。この結果、この区間につき、ピッチ信号との相関が最も高くなる位相の値が定まる。そして、コンピュータC1は、この区間内の音声データを、(−Ψ)だけ移相する。
【0043】
【数2】
【0044】
音声データを上述の通り移相することにより得られるデータが表す波形の一例を図7(c)に示す。図7(a)に示す位相前の音声データの波形のうち、「#1」及び「#2」として示す2個の区間は、図7(b)に示すように、ピッチのゆらぎの影響により互いに異なる位相を有している。これに対し、移相された音声データが表す波形の区間#1及び#2は、図7(c)に示すように、ピッチのゆらぎの影響が除去されて位相が揃っている。また、図7(a)に示すように、各区間の始点の値は0に近い値となっている。
【0045】
なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。区間が長いほど、区間内のサンプル数が増えて、ピッチ波形データのデータ量が増大し、あるいは、サンプリング間隔が増大してピッチ波形データが表す音声が不正確になる、という問題が生じる。
【0046】
次に、コンピュータC1は、移相された音声データをラグランジェ補間する(ステップS12)。すなわち、移相された音声データのサンプル間をラグランジェ補間の手法により補間する値を表すデータを生成する。移相された音声データと、ラグランジェ補間データとが、補間後の音声データを構成する。
【0047】
次に、コンピュータC1は、補間後の音声データの各区間をサンプリングし直す(リサンプリングする)。また、各区間の元のサンプル数を示すデータであるサンプル数情報も生成する(ステップS13)。なお、コンピュータC1は、ピッチ波形データの各区間のサンプル数が互いにほぼ等しくなるようにして、同一区間内では等間隔になるようリサンプリングするものとする。
記録媒体より読み出した音声データのサンプリング間隔が既知であるものとすれば、サンプル数情報は、この音声データの単位ピッチ分の区間の元の時間長を表す情報として機能する。
【0048】
次に、コンピュータC1は、ステップS13で各区間の時間長を揃えられたそれぞれの音声データ(すなわち、ピッチ波形データ)について、互いに一定程度以上高い相関を示している1ピッチ分の区間の組み合わせがあれば、そのような組み合わせを特定する(ステップS14)。そして、特定されたそれぞれの組み合わせについて、同じ組み合わせに属する各区間内のデータを、これらの区間のうちいずれか1区間のデータで置き換えることにより、これらの区間の波形を共通化する(ステップS15)。
【0049】
なお、1ピッチ分の区間相互間の相関の程度は、たとえば、1ピッチ分の区間2個の波形の相関係数を求め、求めた各相関係数の値に基づいて判別するようにすればよい。あるいは、1ピッチ分の区間2個の差分を求め、求めた差分の実効値あるいは平均値などに基づいて判別してもよい。
【0050】
次に、コンピュータC1は、ステップS15までの処理を経たピッチ波形データを用いて、ピッチ波形データが表す音声のスペクトルの時間変化を音素別に表すサブバンドデータを生成する(ステップS16)。サブバンドデータは、具体的には、例えば、ピッチ波形データにDCT(Discrete Cosine Transform)等の直交変換を施すことにより生成すればよい。
【0051】
次に、コンピュータC1は、自ら記憶している圧縮用テーブルに削除帯域データが含まれていれば、ステップS15までの処理で生成した各サブバンドデータを、削除帯域テーブルが指定するスペクトル成分の強度が0となるように変更する(ステップS17)。
【0052】
次に、コンピュータC1は、各サブバンドデータに非線形量子化を施すことにより、各サブバンドをデータ圧縮する(ステップS18)。すなわち、ステップS16まで(あるいはS17まで)の処理を経た各サブバンドデータが表す各周波数成分の瞬時値に非線形圧縮を施して得られる値(具体的には、たとえば、瞬時値を上に凸な関数に代入して得られる値)を量子化したものに相当するサブバンドデータを生成する。
【0053】
ステップS18でコンピュータC1は、サブバンドデータの圧縮率が、所定の全体目標値と当該サブバンドデータが表す音素について圧縮率データが指定する相対的な目標値との積により決まる値となるよう、圧縮特性(非線形量子化前のサブバンドデータの内容と非線形量子化後のサブバンドデータの内容との対応関係)を決定する。なお、コンピュータC1は、上述の全体目標値を、例えば予め記憶していてもよいし、操作者の操作に従って取得するようにしてもよい。
【0054】
圧縮特性の決定は、例えば、非線形量子化を施される前の当該サブバンドデータと非線形量子化を経た当該サブバンドデータとに基づいての当該サブバンドデータの圧縮率を求め、求めた圧縮率に基づいてフィードバック処理を行うなどすることにより行えばよい。
【0055】
すなわち、たとえば、ある音素を表すサブバンドデータについて求めた圧縮率が、当該音素についての圧縮率の相対的な目標値と全体目標値との積より大きいか否かを判別する。そして、求めた圧縮率がこの積より大きいと判別すると、圧縮率が現在より小さくなるように圧縮特性を決定し、一方、求めた圧縮率がこの積以下であると判別すると、圧縮率が現在より大きくなるように、圧縮特性を決定する。
【0056】
ただし、ステップS18でコンピュータC1は、サブバンドデータに含まれる各スペクトル成分を、自ら記憶している優先度データが示す優先度の値が小さいスペクトル成分ほど高い分解能で量子化するようにする。
【0057】
ステップS14までの処理を行う結果、記録媒体から読み込まれた音声データは、この音声データが表す音声を構成するそれぞれの音素のスペクトル分布を非線形量子化した結果を表すサブバンドデータに変換される。コンピュータC1は、これらのサブバンドデータにエントロピー符号化(具体的には、例えば算術符号化やハフマン符号化など)を施し、エントロピー符号化されたサブバンドデータ(圧縮音声データ)と、ステップS13で生成したサンプル数情報とを、自己のシリアル通信制御部を介して外部に出力する(ステップS19)。
【0058】
図11(a)に示す波形を有する元の音声データを上述のステップS16の処理で分割した結果得られる各音声データは、音素ラベリングデータの内容に誤りがない限り、元の音声データを、例えば図8(a)に示すように、異なる音素同士の境界(又は音声の端)であるタイミング“t1”〜“t19”で分割したものとなる。
また、図11(b)に示す波形を有する音声データをステップS16の処理により複数の部分へと分割した場合、音素ラベリングデータの内容に誤りがなければ、図11(b)に示す区切られ方とは異なり、図8(b)に示すように、隣接する2個の音素の境界“T0”が区切りのタイミングとして正しく選択される。このため、この処理により得られる各部分の波形(例えば、図8(b)において“P3”あるいは“P4”として示す部分の波形)には、複数の音素の波形が混入することが避けられる。
【0059】
そして、分割された音声データはピッチ波形データへと加工された上でサブバンドデータへと変換される。ピッチ波形データは、単位ピッチ分の区間の時間長が規格化され、ピッチのゆらぎの影響が除去された音声データである。このため、ピッチ波形データを用いて生成された各サブバンドデータは、元の音声データが表す各音素のスペクトル分布の時間変化を正確に表す。
【0060】
分割された音素データやピッチ波形データやサブバンドデータは以上説明した特徴を有するので、特定のスペクトル成分の削除や、音素毎及びスペクトル成分毎に異なった圧縮特性で非線形量子化を行う処理が、正確に行われる。また、非線形量子化されたサブバンドデータのエントロピー符号化も効率よく行われる。従って、元の音声データの音質を損ねることなく効率的にデータ圧縮を施すことが可能となる。
【0061】
スペクトル成分の削除や非線形量子化は、圧縮用テーブルが音素毎あるいは周波数毎に示す条件に従って行われるので、圧縮用テーブルの内容を種々書き換えることにより、音素の特徴や人の聴覚の帯域特性などに応じたきめ細かく適切なデータ圧縮が可能になる。
例えば、摩擦音は、他の種類の音素に比べ、歪みが大きくても聴覚上は異常が認められにくい、という特徴を持っている。このため、摩擦音は、他の種類の音素に比べて高圧縮(小さな圧縮率でのデータ圧縮)を施しても差し支えない。
また、母音などであって波形が正弦波に近い音素は、当該正弦波以外のスペクトル成分を削除したり、あるいは、当該正弦波のスペクトル成分に比べて低い分解能で量子化したりしても、音質の劣化が少なくて済む。
また、人に聴き取られにくい数十ヘルツ程度以下の成分や、十数キロヘルツ程度以上の成分は、他の成分に比べて低い分解能で量子化したり、あるいは削除しても、人の聴覚上、音質の劣化が少なくて済む。
【0062】
また、圧縮用テーブルの内容を種々書き換えることにより、複数の話者が発した音声について、それぞれの話者の音声の特徴に応じたきめ細かく適切なデータ圧縮が可能になる。
【0063】
なお、サンプル数情報を用いてピッチ波形データの各区間の元の時間長を特定することができるため、圧縮音声データにIDCT(Inverse DCT)を施すなどして音声の波形を表すデータを得た後、このデータの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。
【0064】
なお、この音声データ圧縮器の構成は上述のものに限られない。
たとえば、コンピュータC1は、外部からシリアル伝送される音声データや音素ラベリングデータを、シリアル通信制御部を介して取得するようにしてもよい。また、電話回線、専用回線、衛星回線等の通信回線を介して外部より音声データや音素ラベリングデータを取得するようにしてもよく、この場合、コンピュータC1は、例えばモデムやDSU(Data Service Unit)等を備えていればよい。記録媒体ドライバSMD以外から音声データや音素ラベリングデータを取得するならば、コンピュータC1は必ずしも記録媒体ドライバSMDを備えている必要はない。音声データ及び音素ラベリングデータは、互いに別個の経路を介して取得してもよい。
【0065】
また、コンピュータC1は、圧縮用テーブルを通信回線などを介して外部より取得して記憶するようにしてよい。あるいは、圧縮用テーブルを記録した記録媒体を記録媒体ドライバSMDにセットし、コンピュータC1の入力部を操作して、この記録媒体に記録された圧縮用テーブルを、記録媒体ドライバSMDを介してコンピュータC1に読み取らせ、記憶させるようにしてよい。なお、圧縮用テーブルは、必ずしも優先度データを含んでいなくてもよい。
【0066】
また、コンピュータC1は、マイクロフォン、AF増幅器、サンプラー、A/D(Analog-to-Digital)コンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、コンピュータC1が取得する音声データは、必ずしもPCM信号である必要はない。
【0067】
また、コンピュータC1は、圧縮音声データやサンプル数情報を、記録媒体ドライバSMDにセットされた記録媒体に、記録媒体ドライバSMDを介して書き込むようにしてもよい。あるいは、ハードディスク装置等からなる外部の記憶装置に書き込むようにしてもよい。これらの場合、コンピュータC1は、記録媒体ドライバや、ハードディスクコントローラ等の制御回路を備えていればよい。
【0068】
また、コンピュータC1は、ステップS18の処理でサブバンドデータの各スペクトル成分をどのような分解能で量子化したかを示すデータを、シリアル通信制御部を介して出力したり、記録媒体ドライバSMDにセットされた記録媒体に、記録媒体ドライバSMDを介して書き込んだりするようにしてもよい。
【0069】
また、元の音声データを個々の音素を表す部分へと分割する手法は任意であり、例えば、元の音声データが予め音素毎に分割されていてもよいし、ピッチ波形データへと加工してから分割してもよいし、サブバンドデータに変換してから分割してもよい。また、音声データ、ピッチ波形データ又はサブバンドデータに分析を加えて各音素を表す区間を特定し、特定した区間を切り出すようにしてもよい。
また、コンピュータC1は、ステップS16やS17の処理を省略してもよい。この場合、ステップS18では、ピッチ波形データを、個々の音素を表す部分毎に非線形量子化することにより、ピッチ波形データをデータ圧縮すればよい。そしてステップS19では、圧縮されたサブバンドデータの代わりに圧縮されたピッチ波形データをエントロピー符号化して出力するようにすればよい。
【0070】
また、コンピュータC1は、ケプストラム解析又は自己相関係数に基づく解析のいずれかを行わなくてもよく、この場合は、ケプストラム解析又は自己相関係数に基づく解析のうち一方の手法で求めた基本周波数の逆数をそのままピッチ長として扱うようにすればよい。
【0071】
また、コンピュータC1が音声データの各区間内の音声データを移相する量は(−Ψ)である必要はなく、例えば、コンピュータC1は、初期位相を表す各区間に共通な実数をδとして、それぞれの区間につき、(−Ψ+δ)だけ、音声データを移相するようにしてもよい。また、コンピュータC1が音声データの音声データを区切る位置は、必ずしもピッチ信号がゼロクロスするタイミングである必要はなく、例えば、ピッチ信号が0でない所定の値となるタイミングであってもよい。
しかし、初期位相αを0とし、且つ、ピッチ信号がゼロクロスするタイミングで音声データを区切るようにすれば、各区間の始点の値は0に近い値になるので、音声データを各区間へと区切ることに各区間が含むようになるノイズの量が少なくなる。
【0072】
また、圧縮率データは、それぞれの音素を表すサブバンドデータの圧縮率を、相対的な値(例えば、上述したような、全体目標値に乗ずる係数)の形に代えて、絶対的な値として指定するものであってもよい。
【0073】
なお、コンピュータC1は専用のシステムである必要はなく、パーソナルコンピュータ等であってよい。また、音声データ圧縮プログラムは、音声データ圧縮プログラムを格納した媒体(CD−ROM、MO、フレキシブルディスク等)からコンピュータC1へとインストールするようにしてもよいし、通信回線の掲示板(BBS)にピッチ波形抽出プログラムをアップロードし、これを通信回線を介して配信してもよい。また、音声データ圧縮プログラムを表す信号により搬送波を変調し、得られた変調波を伝送し、この変調波を受信した装置が変調波を復調して音声データ圧縮プログラムを復元するようにしてもよい。
【0074】
また、音声データ圧縮プログラムは、OSの制御下に、他のアプリケーションプログラムと同様に起動してコンピュータC1に実行させることにより、上述の処理を実行することができる。なお、OSが上述の処理の一部を分担する場合、記録媒体に格納される音声データ圧縮プログラムは、当該処理を制御する部分を除いたものであってもよい。
【0075】
(第2の実施の形態)
次に、この発明の第2の実施の形態を説明する。
図9は、この発明の第2の実施の形態に係る音声データ圧縮器の構成を示す図である。図示するように、この音声データ圧縮器は、音声入力部1と、音声データ分割部2と、ピッチ波形抽出部3と、類似波形検出部4と、波形共通化部5と、直交変換部6と、圧縮用テーブル記憶部7と、帯域制限部8と、非線形量子化部9と、エントロピー符号化部10と、ビットストリーム形成部11とより構成されている。
【0076】
音声入力部1は、例えば、第1の実施の形態における記録媒体ドライバSMDと同様の記録媒体ドライバ等より構成されている。
音声入力部1は、音声の波形を表す音声データ及び上述の音素ラベリングデータを、これらのデータが記録された記録媒体から読み取る等して取得し、音声データ分割部2に供給する。なお、音声データは、PCM変調されたディジタル信号の形式を有しており、音声のピッチより十分短い一定の周期でサンプリングされた音声を表しているものとする。
【0077】
音声データ分割部2、ピッチ波形抽出部3、類似波形検出部4、波形共通化部5、直交変換部6、帯域制限部8、非線形量子化部9及びエントロピー符号化部10は、いずれも、DSPやCPU等のプロセッサより構成されている。
なお、ピッチ波形抽出部3、類似波形検出部4、波形共通化部5、直交変換部6、帯域制限部8、非線形量子化部9及びエントロピー符号化部10の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
【0078】
音声データ分割部2は、音声入力部1より音声データ及び音素ラベリングデータを供給されると、供給された音声データを、この音声データが表す音声を構成するそれぞれの音素を表す部分へと分割し、ピッチ波形抽出部3へと供給する。ただし、音声データ分割部2は、それぞれの音素を表す部分を、音声入力部1より供給された音素ラベリングデータの内容に基づいて特定するものとする。
【0079】
ピッチ波形抽出部3は、音声データ分割部2より供給されたそれぞれの音声データを、この音声データが表す音声の単位ピッチ分(たとえば、1ピッチ分)にあたる区間へと更に区切る。そして、これらの区間を移相及びリサンプリングすることにより、各区間の時間長及び位相を互いに実質的に同一になるように揃える。
そして、各区間の時間長及び位相を揃えられた音声データ(ピッチ波形データ)を、類似波形検出部4及び波形共通化部5に供給する。
また、ピッチ波形抽出部3は、これらの音声データの各区間の元のサンプル数を示すサンプル数情報を生成し、エントロピー符号化部10へと供給する。
【0080】
ピッチ波形抽出部3は、機能的には、たとえば図10に示すように、ケプストラム解析部301と、自己相関解析部302と、重み計算部303と、BPF(バンドパスフィルタ)係数計算部304と、バンドパスフィルタ305と、ゼロクロス解析部306と、波形相関解析部307と、位相調整部308と、補間部309と、ピッチ長調整部310とより構成されている。
【0081】
なお、ケプストラム解析部301、自己相関解析部302、重み計算部303、BPF係数計算部304、バンドパスフィルタ305、ゼロクロス解析部306、波形相関解析部307、位相調整部308、補間部309及びピッチ長調整部310の一部又は全部の機能を単一のプロセッサが行うようにしてもよい。
【0082】
ピッチ波形抽出部3は、ケプストラム解析と、自己相関関数に基づく解析とを併用して、ピッチの長さを特定する。
すなわち、まず、ケプストラム解析部301は、音声データ分割部2より供給される音声データにケプストラム解析を施すことにより、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部303へと供給する。
【0083】
具体的には、ケプストラム解析部301は、音声データ分割部2より音声データを供給されると、まず、この音声データの強度を、元の値の対数に実質的に等しい値へと変換する。(対数の底は任意である。)
次に、ケプストラム解析部301は、値が変換された音声データのスペクトル(すなわち、ケプストラム)を、高速フーリエ変換の手法(あるいは、離散的変数をフーリエ変換した結果を表すデータを生成する他の任意の手法)により求める。
そして、このケプストラムの極大値を与える周波数のうちの最小値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部303へと供給する。
【0084】
一方、自己相関解析部302は、音声データ分割部2より音声データを供給されると、音声データの波形の自己相関関数に基づいて、この音声データが表す音声の基本周波数を特定し、特定した基本周波数を示すデータを生成して重み計算部303へと供給する。
【0085】
具体的には、自己相関解析部302は、音声データ分割部2より音声データを供給されるとまず、上述した自己相関関数r(l)を特定する。そして、特定した自己相関関数r(l)をフーリエ変換した結果得られるピリオドグラムの極大値を与える周波数のうち、所定の下限値を超える最小の値を基本周波数として特定し、特定した基本周波数を示すデータを生成して重み計算部303へと供給する。
【0086】
重み計算部303は、ケプストラム解析部301及び自己相関解析部302より基本周波数を示すデータを1個ずつ合計2個供給されると、これら2個のデータが示す基本周波数の逆数の絶対値の平均を求める。そして、求めた値(すなわち、平均ピッチ長)を示すデータを生成し、BPF係数計算部304へと供給する。
【0087】
BPF係数計算部304は、平均ピッチ長を示すデータを重み計算部303より供給され、ゼロクロス解析部306より後述のゼロクロス信号を供給されると、供給されたデータやゼロクロス信号に基づき、平均ピッチ長とピッチ信号とゼロクロスの周期とが互いに所定量以上異なっているか否かを判別する。そして、異なっていないと判別したときは、ゼロクロスの周期の逆数を中心周波数(バンドパスフィルタ305の通過帯域の中央の周波数)とするように、バンドパスフィルタ305の周波数特性を制御する。一方、所定量以上異なっていると判別したときは、平均ピッチ長の逆数を中心周波数とするように、バンドパスフィルタ305の周波数特性を制御する。
【0088】
バンドパスフィルタ305は、中心周波数が可変なFIR(Finite Impulse Response)型のフィルタの機能を行う。
具体的には、バンドパスフィルタ305は、自己の中心周波数を、BPF係数計算部304の制御に従った値に設定する。そして、音声データ分割部2より供給される音声データをフィルタリングして、フィルタリングされた音声データ(ピッチ信号)を、ゼロクロス解析部306及び波形相関解析部307へと供給する。ピッチ信号は、音声データのサンプルリング間隔と実質的に同一のサンプリング間隔を有するディジタル形式のデータからなるものとする。
なお、バンドパスフィルタ305の帯域幅は、バンドパスフィルタ305の通過帯域の上限が音声データの表す音声の基本周波数の2倍以内に常に収まるような帯域幅であることが望ましい。
【0089】
ゼロクロス解析部306は、バンドパスフィルタ305から供給されたピッチ信号の瞬時値が0となる時刻(ゼロクロスする時刻)が来るタイミングを特定し、特定したタイミングを表す信号(ゼロクロス信号)を、BPF係数計算部304へと供給する。このようにして、音声データのピッチの長さが特定される。
ただし、ゼロクロス解析部306は、ピッチ信号の瞬時値が0でない所定の値となる時刻が来るタイミングを特定し、特定したタイミングを表す信号を、ゼロクロス信号に代えてBPF係数計算部304へと供給するようにしてもよい。
【0090】
波形相関解析部307は、音声データ分割部2より音声データを供給され、バンドパスフィルタ305よりピッチ信号を供給されると、ピッチ信号の単位周期(例えば1周期)の境界が来るタイミングで音声データを区切る。そして、区切られてできる区間のそれぞれについて、この区間内の音声データの位相を種々変化させたものとこの区間内のピッチ信号との相関を求め、最も相関が高くなるときの音声データの位相を、この区間内の音声データの位相として特定する。このようにして、各区間につき音声データの位相が特定される。
【0091】
具体的には、波形相関解析部307は、例えば、それぞれの区間毎に、上述した値Ψを特定し、値Ψを示すデータを生成して、この区間内の音声データの位相を表す位相データとして位相調整部308に供給する。なお、区間の時間的な長さは、1ピッチ分程度であることが望ましい。
【0092】
位相調整部308は、音声データ分割部2より音声データを供給され、波形相関解析部307より音声データの各区間の位相Ψを示すデータを供給されると、それぞれの区間の音声データの位相を(−Ψ)だけ移相することにより、各区間の位相を揃える。そして、移相された音声データを補間部309へと供給する。
【0093】
補間部309は、位相調整部308より供給された音声データ(移相された音声データ)にラグランジェ補間を施して、ピッチ長調整部310へと供給する。
【0094】
ピッチ長調整部310は、ラグランジェ補間を施された音声データを補間部Q1より供給されると、供給された音声データの各区間をリサンプリングすることにより、各区間の時間長を互いに実質的に同一になるように揃える。そして、各区間の時間長を揃えられた音声データ(すなわち、ピッチ波形データ)を類似波形検出部4及び波形共通化部5へと供給する。
【0095】
また、ピッチ長調整部310は、この音声データの各区間の元のサンプル数(音声データ分割部2からピッチ長調整部310へと供給された時点におけるこの音声データの各区間のサンプル数)を示すサンプル数情報を生成し、エントロピー符号化部10へと供給する。
【0096】
類似波形検出部4は、ピッチ波形抽出部3より各区間の時間長を揃えられたそれぞれの音声データ(すなわち、ピッチ波形データ)を供給されると、このピッチ波形データ内の1ピッチ分の区間のうちに、互いに一定程度以上高い相関を示している1ピッチ分の区間の組み合わせがあれば、そのような組み合わせを特定する。そして、特定した組み合わせを波形共通化部5に通知する。
なお、1ピッチ分の区間相互間の相関の程度は、たとえば、1ピッチ分の区間2個の波形の相関係数を求め、求めた各相関係数の値に基づいて判別するようにすればよい。あるいは、1ピッチ分の区間2個の差分を求め、求めた差分の実効値あるいは平均値などに基づいて判別してもよい。
【0097】
波形共通化部5は、ピッチ波形抽出部3よりピッチ波形データを供給され、互いに一定程度以上高い相関を示している1ピッチ分の区間の組み合わせを類似波形検出部4より通知されると、供給されたピッチ波形データのうち、類似波形検出部4より通知された組み合わせに属する区間内の波形を共通化する。つまり、通知されたそれぞれの組み合わせについて、同じ組み合わせに属する各区間内のデータを、これらの区間のうちいずれか1区間のデータで置き換える。そして、波形を共通化されたピッチ波形データを、直交変換部6に供給する。
【0098】
直交変換部6は、波形共通化部5より供給されたピッチ波形データにDCT等の直交変換を施すことにより、上述したサブバンドデータを生成する。そして、生成したサブバンドデータを帯域制限部8へと供給する。
【0099】
圧縮用テーブル記憶部7は、RAMなどの揮発性メモリや、あるいは、EEPROM(Electrically Esasable/Programmable Read Only Memory)やハードディスク装置やフラッシュメモリなどの不揮発性メモリなどより構成されている。
圧縮用テーブル記憶部7は、操作者の操作に従い、上述の圧縮用テーブルを書き換え可能に記憶し、帯域制限部8及び非線形量子化部9からのアクセスに応答して、自己が記憶する圧縮用テーブルの少なくとも一部を帯域制限部8や非線形量子化部9に読み出させる。
【0100】
帯域制限部8は、圧縮用テーブル記憶部7にアクセスして、圧縮用テーブル記憶部7が記憶している圧縮用テーブルに削除帯域データが含まれているか否かを判別する。そして、含まれていないと判別すると、直交変換部6より供給されたサブバンドデータを、そのまま非線形量子化部9へと供給する。一方、削除帯域データが含まれていると判別すると、この削除帯域データを読み出し、直交変換部6より供給されたサブバンドデータを、削除帯域データが指定するスペクトル成分の強度が0となるように変更してから、非線形量子化部9へと供給する。
【0101】
非線形量子化部9は、帯域制限部8よりサブバンドデータを供給されると、このサブバンドデータが表す各周波数成分の瞬時値に非線形圧縮を施して得られる値を量子化したものに相当するサブバンドデータを生成し、生成したサブバンドデータ(非線形量子化されたサブバンドデータ)をエントロピー符号化部10へと供給する。
【0102】
非線形量子化部9は、サブバンドデータの非線形量子化を、圧縮用テーブル記憶部7が記憶する圧縮用テーブルが指定する条件に従って行う。すなわち、非線形量子化部9は、サブバンドデータの圧縮率が、所定の全体目標値と当該サブバンドデータが表す音素について、圧縮用テーブルに含まれる圧縮率データが指定する相対的な目標値との積により決まる値となるような圧縮特性で、非線形量子化を行う。ただし、非線形量子化部9は、サブバンドデータに含まれる各スペクトル成分を、圧縮用テーブルに含まれる優先度データが示す優先度の値が小さいスペクトル成分ほど高い分解能で量子化するようにする。
なお、全体目標値は、例えば予め圧縮用テーブル記憶部7などが記憶していてもよいし、非線形量子化部9が操作者の操作に従って取得するようにしてもよい。
【0103】
エントロピー符号化部10は、非線形量子化部9より供給された、非線形量子化されたサブバンドデータと、ピッチ波形抽出部3より供給されたサンプル数情報とを、エントロピー符号(例えば、算術符号やハフマン符号など)へと変換し、互いに対応付けてビットストリーム形成部11へと供給する。
【0104】
ビットストリーム形成部11は、たとえば、USB等の規格に準拠して外部とのシリアル通信を制御するシリアルインターフェース回路と、CPU等のプロセッサとより構成されている。
ビットストリーム形成部11は、エントロピー符号化部10より供給された、エントロピー符号化されたサブバンドデータ(圧縮音声データ)及びエントロピー符号化されたサンプル数情報とを表すビットストリームを生成して出力する。
【0105】
図9の音声データ圧縮器が出力する圧縮音声データも、音声データが表す音声を構成するそれぞれの音素のスペクトル分布を非線形量子化した結果を表すものである。この圧縮音声データも、単位ピッチ分の区間の時間長が規格化され、ピッチのゆらぎの影響が除去された音声データであるピッチ波形データに基づいて生成されている。このため、音声の各周波数成分の強度の時間変化を正確に表すものとなる。
【0106】
また、この音声データ圧縮器の音声データ分割部2も、音素ラベリングデータの内容に誤りがなければ、図11(a)に示す波形を有する音声データを図8(a)に示すタイミング“t1”〜“t19”で区切る。また、図11(b)に示す波形を有する音声データの場合は、音素ラベリングデータの内容に誤りがなければ、図8(b)に示すように、隣接する2個の音素の境界“T0”を区切りのタイミングとして正しく選択する。このため、音声データ分割部2が行う処理により得られる各部分の波形には、複数の音素の波形が混入することが避けられる。
【0107】
従って、この音声データ圧縮器も、特定のスペクトル成分の削除や、音素毎及びスペクトル成分毎に異なった圧縮特性で非線形量子化を行う処理を正確に行う。また、非線形量子化されたサブバンドデータのエントロピー符号化も効率よく実行する。従って、元の音声データの音質を損ねることなく効率的にデータ圧縮を施すことが可能となる。
【0108】
また、この音声データ圧縮器においても、圧縮用テーブル記憶部7が記憶する圧縮用テーブルの内容を種々書き換えることにより、音素の特徴や人の聴覚の帯域特性などに応じたきめ細かく適切なデータ圧縮が可能になり、また、複数の話者が発した音声について、それぞれの話者の音声の特徴に応じたなデータ圧縮をすることも可能になる。
【0109】
なお、サンプル数情報を用いてピッチ波形データの各区間の元の時間長を特定することができるため、圧縮音声データにIDCTを施すなどして音声の波形を表すデータを得た後、このデータの各区間の時間長を元の音声データにおける時間長へと復元することにより、元の音声データを容易に復元できる。
【0110】
なお、この音声データ圧縮器の構成も上述のものに限られない。
たとえば、音声入力部1は、電話回線、専用回線、衛星回線等の通信回線やその他のシリアル伝送路を介して、外部より音声データや音素ラベリングデータを取得するようにしてもよい。この場合、音声入力部1は、例えばモデムやDSUあるいはその他のシリアルインターフェース回路からなる通信制御部を備えていればよい。また、音声入力部1は、音声データ及び音素ラベリングデータを互いに別個の経路を介して取得してもよい。
【0111】
また、音声入力部1は、マイクロフォン、AF増幅器、サンプラー、A/Dコンバータ及びPCMエンコーダなどからなる集音装置を備えていてもよい。集音装置は、自己のマイクロフォンが集音した音声を表す音声信号を増幅し、サンプリングしてA/D変換した後、サンプリングされた音声信号にPCM変調を施すことにより、音声データを取得すればよい。なお、音声入力部1が取得する音声データは、必ずしもPCM信号である必要はない。
【0112】
また、音声データ分割部2が元の音声データを個々の音素を表す部分へと分割する手法は任意である。従って、例えば、元の音声データが予め音素毎に分割されていてもよいし、ピッチ波形抽出部3が生成したピッチ波形データを個々の音素を表す部分へと分割して類似波形検出部4や波形共通化部5へと供給するようにしてもよい。また、直交変換部6が生成したサブバンドデータを個々の音素を表す部分へと分割して帯域制限部8に供給するようにしてもよい。また、音声データ、ピッチ波形データ又はサブバンドデータに分析を加えて各音素を表す区間を特定し、特定した区間を切り出すようにしてもよい。
また、波形共通化部5は、波形を共通化されたピッチ波形データを非線形量子化部9に供給し、非線形量子化部9は、このピッチ波形データを、個々の音素を表す部分毎に非線形量子化してエントロピー符号化部10へと供給してもよい。この場合、エントロピー符号化部10は、非線形量子化されたピッチ波形データとサンプル数情報とをエントロピー符号化し、互いに対応付けてビットストリーム形成部11へと供給し、ビットストリーム形成部11は、エントロピー符号化されたピッチ波形データを圧縮音声データとして扱うようにすればよい。
【0113】
また、このピッチ波形抽出部3は、ケプストラム解析部301(又は自己相関解析部302)を備えていなくてもよく、この場合、重み計算部303は、ケプストラム解析部301(又は自己相関解析部302)が求めた基本周波数の逆数をそのまま平均ピッチ長として扱うようにすればよい。
【0114】
また、ゼロクロス解析部306は、バンドパスフィルタ305から供給されたピッチ信号を、そのままゼロクロス信号としてBPF係数計算部304へと供給するようにしてもよい。
【0115】
また、圧縮用テーブル記憶部7は、圧縮用テーブルを通信回線などを介して外部より取得して記憶するようにしてもよい。この場合、圧縮用テーブル記憶部7は、モデム、DSUあるいはその他のシリアルインターフェース回路からなる通信制御部を備えていればよい。
あるいは、圧縮用テーブル記憶部7は、圧縮用テーブルを記録した記録媒体から圧縮用テーブルを読み出して記憶するようにしてもよい。この場合、圧縮用テーブル記憶部7は、記録媒体ドライバを備えていればよい。
また、圧縮率データは、それぞれの音素を表すサブバンドデータの圧縮率を、相対的な値の形に代えて、絶対的な値として指定するものであってもよい。また、圧縮用テーブルは、必ずしも優先度データを含んでいなくてもよい。
【0116】
また、ビットストリーム形成部11は、圧縮音声データやサンプル数情報を、通信回線等を介して外部に出力するようにしてもよい。通信回線を介してデータを出力する場合、ビットストリーム形成部11は、例えばモデムやDSU等からなる通信制御部を備えていればよい。
また、ビットストリーム形成部11は、記録媒体ドライバを備えていてもよく、この場合、ビットストリーム形成部11は、圧縮音声データやサンプル数情報を、この記録媒体ドライバにセットされた記録媒体の記憶領域に書き込むようにしてもよい。
【0117】
また、非線形量子化部9は、サブバンドデータの各スペクトル成分をどのような分解能で量子化したかを示すデータを生成してもよい。このデータは、例えばビットストリーム形成部11が取得して、ビットストリームの形で外部に出力したり、記録媒体の記憶領域に書き込んだりするようにしてもよい。
【0118】
なお、単一のシリアルインターフェース回路や記録媒体ドライバが、音声入力部1や圧縮用テーブル記憶部7やビットストリーム形成部11の通信制御部や記録媒体ドライバの機能を兼ねていてもよい。
【0119】
【発明の効果】
以上説明したように、この発明によれば、音声を表すデータのデータ容量を効率よく圧縮することを可能にするための音声信号圧縮装置、音声信号圧縮方法及びプログラムが実現される。
【図面の簡単な説明】
【図1】この発明の第1の実施の形態に係る音声データ圧縮器の構成を示すブロック図である。
【図2】(a)は優先度データのデータ構造を示す図であり、(b)は、優先度データをグラフの形で表す図である。
【図3】圧縮率データのデータ構造を示す図である。
【図4】図1の音声データ圧縮器の動作の流れの前半を示す図である。
【図5】図1の音声データ圧縮器の動作の流れの後半を示す図である。
【図6】音素ラベリングデータのデータ構造を示す図である。
【図7】(a)及び(b)は、移相される前の音声データの波形を示すグラフであり、(c)は、移相された後の音声データの波形を表すグラフである。
【図8】(a)は、図1又は図9のピッチ波形データ分割器が図11(a)の波形を区切るタイミングを示すグラフであり、(b)は、図1又は図9のピッチ波形データ分割器が図11(b)の波形を区切るタイミングを示すグラフである。
【図9】この発明の第2の実施の形態に係る音声データ圧縮器の構成を示すブロック図である。
【図10】図9のピッチ波形抽出部の構成を示すブロック図である。
【図11】(a)は、人が発する音声の波形の一例を示すグラフであり、(b)は、従来の技術において波形を区切るタイミングを説明するためのグラフである。
【符号の説明】
C1 コンピュータ
SMD 記録媒体ドライバ
1 音声入力部
2 音声データ分割部
3 ピッチ波形抽出部
301 ケプストラム解析部
302 自己相関解析部
303 重み計算部
304 BPF係数計算部
305 バンドパスフィルタ
306 ゼロクロス解析部
307 波形相関解析部
308 位相調整部
309 補間部
310 ピッチ長調整部
4 類似波形検出部
5 波形共通化部
6 直交変換部
7 圧縮用テーブル記憶部
8 帯域制限部
9 非線形量子化部
10 エントロピー符号化部
11 ビットストリーム形成部
Claims (8)
- 圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段と、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタと、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段と、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段と、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする音声信号圧縮装置。 - 前記音素別圧縮手段は、
それぞれの音素を表すサブバンドデータに施すデータ圧縮の前記目標値を指定するテーブルを書き換え可能に記憶する手段と、
それぞれの音素を表すサブバンドデータを、前記記憶される目標値に従って圧縮する手段と、より構成されている、
ことを特徴とする請求項1に記載の音声信号圧縮装置。 - 前記音素別圧縮手段は、それぞれの音素を表すサブバンドデータを、当該音素に対応付けられる前記目標値に基づいて決定される圧縮率に達するように非線形量子化することにより、圧縮する、
ことを特徴とする請求項1又は2に記載の音声信号圧縮装置。 - 前記サブバンドデータのそれぞれのスペクトル成分には優先度が定められており、
前記音素別圧縮手段は、前記サブバンドデータのそれぞれのスペクトル成分を、前記優先度の高いスペクトル成分ほど高分解能で量子化することにより、圧縮する、
ことを特徴とする請求項1乃至3のいずれか1項に記載の音声信号圧縮装置。 - 前記音素別圧縮手段は、前記サブバンドデータを、所定のスペクトル成分が削除された後のスペクトル分布を表すように変更することにより、圧縮する、
ことを特徴とする請求項1乃至4のいずれか1項に記載の音声信号圧縮装置。 - 音声の波形を表す音声信号を取得し、当該音声信号を当該音声の単位ピッチ分の複数の区間に区切った場合におけるこれらの区間の位相を実質的に同一に揃えることによって、当該音声信号をピッチ波形信号へと加工する音声信号加工手段と、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段と、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段と、
を備えることを特徴とする音声信号圧縮装置。 - 処理手段を有する音声信号圧縮装置において実行される音声信号圧縮方法であって、
前記処理手段が、圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割し、
前記処理手段が、分割された前記音声信号をフィルタリングしてピッチ信号を抽出し、
前記処理手段が、前記抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整し、
前記処理手段が、前記位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成し、
前記処理手段が、前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工し、
前記処理手段が、前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成し、
前記処理手段が、前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する、
ことを特徴とする音声信号圧縮方法。 - コンピュータを、
圧縮する対象である音声の波形を表す音声信号を取得して、個々の音素の波形を表す部分へと分割する音素別分割手段、
分割された前記音声信号をフィルタリングしてピッチ信号を抽出するフィルタ、
前記フィルタにより抽出されたピッチ信号に基づいて前記音声信号を区間に区切り、各該区間について、当該ピッチ信号との相関関係に基づいて位相を調整する位相調整手段、
前記位相調整手段により位相を調整された各区間について、該位相に基づいてサンプリング長を定め、当該サンプリング長に従ってサンプリングを行うことによりサンプリング信号を生成するサンプリング手段、
前記位相調整手段による前記調整の結果と前記サンプリング長の値とに基づいて、前記サンプリング信号をピッチ波形信号へと加工する音声信号加工手段、
前記ピッチ波形信号に基づいて、各前記音素のスペクトル分布の時間変化を表すサブバンドデータを生成するサブバンドデータ生成手段、
前記サブバンドデータが表す音素に対応付けられる圧縮率の目標値に基づいて圧縮特性を決定し、前記サブバンドデータを当該決定された圧縮特性を用いて圧縮する音素別圧縮手段、
として機能させることを特徴とするプログラム。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003090045A JP4256189B2 (ja) | 2003-03-28 | 2003-03-28 | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
KR1020057015569A KR101009799B1 (ko) | 2003-03-28 | 2004-03-26 | 음성 신호 압축 장치, 음성 신호 압축 방법 및 프로그램 |
DE04723803T DE04723803T1 (de) | 2003-03-28 | 2004-03-26 | Sprachsignalkomprimierungseinrichtung |
US10/545,427 US7653540B2 (en) | 2003-03-28 | 2004-03-26 | Speech signal compression device, speech signal compression method, and program |
EP04723803A EP1610300B1 (en) | 2003-03-28 | 2004-03-26 | Speech signal compression device, speech signal compression method, and program |
DE602004015753T DE602004015753D1 (de) | 2003-03-28 | 2004-03-26 | Sprachsignalkomprimierungseinrichtung, sprachsignalkomprimierungsverfahren und programm |
PCT/JP2004/004304 WO2004088634A1 (ja) | 2003-03-28 | 2004-03-26 | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
CNB2004800086632A CN100570709C (zh) | 2003-03-28 | 2004-03-26 | 语音信号压缩设备、语音信号压缩方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003090045A JP4256189B2 (ja) | 2003-03-28 | 2003-03-28 | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004294969A JP2004294969A (ja) | 2004-10-21 |
JP4256189B2 true JP4256189B2 (ja) | 2009-04-22 |
Family
ID=33127254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003090045A Expired - Lifetime JP4256189B2 (ja) | 2003-03-28 | 2003-03-28 | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
Country Status (7)
Country | Link |
---|---|
US (1) | US7653540B2 (ja) |
EP (1) | EP1610300B1 (ja) |
JP (1) | JP4256189B2 (ja) |
KR (1) | KR101009799B1 (ja) |
CN (1) | CN100570709C (ja) |
DE (2) | DE602004015753D1 (ja) |
WO (1) | WO2004088634A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1895511B1 (en) | 2005-06-23 | 2011-09-07 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus |
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
JP4736699B2 (ja) * | 2005-10-13 | 2011-07-27 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム |
US8694318B2 (en) * | 2006-09-19 | 2014-04-08 | At&T Intellectual Property I, L. P. | Methods, systems, and products for indexing content |
CN108369804A (zh) * | 2015-12-07 | 2018-08-03 | 雅马哈株式会社 | 语音交互设备和语音交互方法 |
CN109817196B (zh) * | 2019-01-11 | 2021-06-08 | 安克创新科技股份有限公司 | 一种噪音消除方法、装置、系统、设备及存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3946167A (en) * | 1973-11-20 | 1976-03-23 | Ted Bildplatten Aktiengesellschaft Aeg-Telefunken-Teldec | High density recording playback element construction |
GR58359B (en) * | 1977-08-09 | 1977-10-03 | Of Scient And Applied Res Ltd | Voice codification system |
JPS5667899A (en) * | 1979-11-09 | 1981-06-08 | Canon Kk | Voice storage system |
US4661915A (en) * | 1981-08-03 | 1987-04-28 | Texas Instruments Incorporated | Allophone vocoder |
JPH01244499A (ja) * | 1988-03-25 | 1989-09-28 | Toshiba Corp | 音声素片ファイル作成装置 |
JPH03136100A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 音声処理方法及び装置 |
JP2931059B2 (ja) * | 1989-12-22 | 1999-08-09 | 沖電気工業株式会社 | 音声合成方式およびこれに用いる装置 |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
JP3233500B2 (ja) * | 1993-07-21 | 2001-11-26 | 富士重工業株式会社 | 自動車エンジンの燃料ポンプ制御装置 |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
JP2002244688A (ja) * | 2001-02-15 | 2002-08-30 | Sony Computer Entertainment Inc | 情報処理方法及び装置、情報伝送システム、情報処理プログラムを情報処理装置に実行させる媒体、情報処理プログラム |
JP2002251196A (ja) * | 2001-02-26 | 2002-09-06 | Kenwood Corp | 音素データ処理装置、音素データ処理方法及びプログラム |
US7089184B2 (en) * | 2001-03-22 | 2006-08-08 | Nurv Center Technologies, Inc. | Speech recognition for recognizing speaker-independent, continuous speech |
JP4867076B2 (ja) * | 2001-03-28 | 2012-02-01 | 日本電気株式会社 | 音声合成用圧縮素片作成装置、音声規則合成装置及びそれらに用いる方法 |
EP1422693B1 (en) * | 2001-08-31 | 2008-11-05 | Kenwood Corporation | Pitch waveform signal generation apparatus; pitch waveform signal generation method; and program |
CA2359771A1 (en) * | 2001-10-22 | 2003-04-22 | Dspfactory Ltd. | Low-resource real-time audio synthesis system and method |
-
2003
- 2003-03-28 JP JP2003090045A patent/JP4256189B2/ja not_active Expired - Lifetime
-
2004
- 2004-03-26 WO PCT/JP2004/004304 patent/WO2004088634A1/ja active IP Right Grant
- 2004-03-26 EP EP04723803A patent/EP1610300B1/en not_active Expired - Lifetime
- 2004-03-26 CN CNB2004800086632A patent/CN100570709C/zh not_active Expired - Lifetime
- 2004-03-26 DE DE602004015753T patent/DE602004015753D1/de not_active Expired - Lifetime
- 2004-03-26 KR KR1020057015569A patent/KR101009799B1/ko active IP Right Grant
- 2004-03-26 DE DE04723803T patent/DE04723803T1/de active Pending
- 2004-03-26 US US10/545,427 patent/US7653540B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN100570709C (zh) | 2009-12-16 |
CN1768375A (zh) | 2006-05-03 |
KR101009799B1 (ko) | 2011-01-19 |
JP2004294969A (ja) | 2004-10-21 |
KR20050107763A (ko) | 2005-11-15 |
US20060167690A1 (en) | 2006-07-27 |
US7653540B2 (en) | 2010-01-26 |
EP1610300A1 (en) | 2005-12-28 |
WO2004088634A1 (ja) | 2004-10-14 |
EP1610300B1 (en) | 2008-08-13 |
DE602004015753D1 (de) | 2008-09-25 |
EP1610300A4 (en) | 2007-02-21 |
DE04723803T1 (de) | 2006-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1440300B1 (en) | Encoding device, decoding device and audio data distribution system | |
JP4170217B2 (ja) | ピッチ波形信号生成装置、ピッチ波形信号生成方法及びプログラム | |
EP1422690A1 (en) | Apparatus and method for generating pitch waveform signal and apparatus and method for compressing/decompressing and synthesizing speech signal using the same | |
US7676361B2 (en) | Apparatus, method and program for voice signal interpolation | |
JP4256189B2 (ja) | 音声信号圧縮装置、音声信号圧縮方法及びプログラム | |
JP4736699B2 (ja) | 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム | |
JP4639966B2 (ja) | オーディオデータ圧縮方法およびオーディオデータ圧縮回路並びにオーディオデータ伸張回路 | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP4407305B2 (ja) | ピッチ波形信号分割装置、音声信号圧縮装置、音声合成装置、ピッチ波形信号分割方法、音声信号圧縮方法、音声合成方法、記録媒体及びプログラム | |
JP3875890B2 (ja) | 音声信号加工装置、音声信号加工方法及びプログラム | |
JP3994332B2 (ja) | 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム | |
JP3976169B2 (ja) | 音声信号加工装置、音声信号加工方法及びプログラム | |
JP2002049399A (ja) | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 | |
JP3994333B2 (ja) | 音声辞書作成装置、音声辞書作成方法、及び、プログラム | |
US5899974A (en) | Compressing speech into a digital format | |
JP2000132195A (ja) | 信号符号化装置及び方法 | |
JP2003216171A (ja) | 音声信号加工装置、信号復元装置、音声信号加工方法、信号復元方法及びプログラム | |
JP2003195898A (ja) | 音声データ処理装置、方法及びプログラム | |
JPS60501076A (ja) | 音声パタ−ン圧縮を用いた音声パタ−ン処理 | |
JPH0816193A (ja) | 音声信号デコーダ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090120 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090129 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4256189 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120206 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130206 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140206 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |