JP3483513B2 - 音声録音再生装置 - Google Patents
音声録音再生装置Info
- Publication number
- JP3483513B2 JP3483513B2 JP2000057087A JP2000057087A JP3483513B2 JP 3483513 B2 JP3483513 B2 JP 3483513B2 JP 2000057087 A JP2000057087 A JP 2000057087A JP 2000057087 A JP2000057087 A JP 2000057087A JP 3483513 B2 JP3483513 B2 JP 3483513B2
- Authority
- JP
- Japan
- Prior art keywords
- code
- codebook
- waveform
- frame
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005070 sampling Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 4
- 238000000034 method Methods 0.000 description 49
- 238000012545 processing Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000013139 quantization Methods 0.000 description 8
- 238000007796 conventional method Methods 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
アナログフラッシュメモリを組合わせて符号化効率の向
上を図る音声録音再生装置に関する。
常に活発化・急成長してきている。これは、音声データ
の録音再生技術が、ICレコーダ等のビジネスツールと
して、あるいはラジオ等の付加機能の一つとして、録音
再生時間の長時間化、録音再生装置の低価格化を理由
に、ユーザーニーズを満足しつつあることによる。
しての録音再生装置の場合は、録音時間の長時間化・音
質の高品質化が必須のキーワードとなり、近年の高能率
圧縮符号化技術の急速な進歩により実現可能となった。
この高能率圧縮符号化技術は、音声データの複雑で高度
なデジタル信号処理を大量に必要とするため、高速かつ
高性能な信号処理専用LSIが必須条件となり、その結
果、装置全体のコストも高価になりがちである。
音再生装置の場合は、商品自体の価格を抑えるために、
録音再生装置の低コスト化が必須の要件となり、次い
で、録音再生時間の長時間化・音質の高品質化という課
題が残る。このため、複雑で高度なデジタル信号処理を
可能な限り避け、簡単な回路・構成による音声の録音再
生技術が必要となる。
て、音声データをアナログフラッシュメモリに記録し、
必要に応じて、これを再生する音声録音再生装置がある
(以下、第1の従来技術とする)。
て、低価格録音再生装置であるアナログフラッシュメモ
リを用いた音声録音装置を挙げ、その構成・動作・特徴
について説明する(図12、図13参照)。
再生装置の構成を示しており、エイリアンジング防止の
ためのローパスフィルタ(100、103)と、フィル
タ通過後の入力信号を記録するためのアナログフラッシ
ュメモリ(101)と、それらを制御するためのコント
ローラ(102)から成る。
(1)音声信号をマイク等の音声データ入力機器から入
力し、(2)入力された音声データを、ローパスフィル
タ100に通す。このフィルタは、録音する音声帯域を
制限して、エイリアシングを防止するためフィルタであ
る。図13において波形200が、音声データに相当す
る。(3)フィルタ100を通過した音声データを、コ
ントローラ102が、予め設定されている周期(標本化
周波数)に従ってサンプリングし、音声データ値を取得
する。(4)次にコントローラ102は、取得した音声
データ値に相当するだけの電荷を、アナログフラッシュ
メモリ101に記録する。このステップにより、入力音
声データの1サンプル値が、1個のアナログフラッシュ
に記録されることになる。
入力音声データが終了するまで繰り返し、全サンプリン
グデータをアナログフラッシュに記録する。
(1)コントローラ102は、アナログフラッシュに記
録された電荷量を取得し、(2)録音時と同様に標本化
周波数にしたがって、この値を音声波形としてローパス
フィルタ103へ転送する。この段階では、音声波形
は、階段状になっている。そこで、このローパスフィル
タを通すことで、元の滑らかな波形に戻される。
を用いた音声録音再生装置の動作概略である。
れば、 (1)アナログフラッシュを利用することで、1サンプ
ル値をアナログフラッシュメモリ1セルで記録できる。
デジタルメモリを使用する場合は、量子化ビット数だけ
のメモリが必要であるのだから、アナログフラッシュメ
モリの使用により実装面積を小さくすることができる。 (2)符号化処理を行わず、音声データをそのままメモ
リに記録するだけなので、非常に単純な回路構成で実現
することができる。 以上の理由により、装置全体のコストを小さく抑え、低
価格な音声録音再生装置を実現することができる。
従来技術において、録音時間の長時間化を考える場合、
まずメモリを増やす方法が考えられる。これは、「録音
時間の増分×標本化周波数のデータ」を記録するための
メモリを追加し、さらに「該追加メモリをコントロール
するためのコントローラ」を追加すること、つまり構造
上の変更により、録音時間の長時間化を達成する方法で
ある。しかし、この方法では、上記2つの構造上の変更
により実装面積が増加してしまうため、装置のコスト増
加につながってしまう。
さずに長時間録音する手段、つまり符号化技術を用いて
音声データを圧縮する方法が考えられる。これは、音声
データをそのまま記録するのではなく、効率良く符号化
すること、つまり、元の音声データの質を損なうことな
く別のデータに変換することでデータ容量を小さくし、
録音時間の長時間化を達成する方法である。しかし、C
ELP等に代表される高能率圧縮符号化方式では、メモ
リ増加を防ぐことはできるが、反面、符号復号化に大量
の演算処理を必要とするため、処理能力の高いLSIが
必要となり、やはりコスト大につながってしまう。
符号化方式で、前述の第1の従来技術と組合わせること
が考えられる符号化方式として、ベクトル量子化(以下
VQとする)方式がある。以下、図14と図15を使用
して、VQ方式の構成・動作・特徴、および、第1の従
来技術と組合わせることの効果について説明する。
生装置の構成図である。この装置は、エイリアジング防
止のためのローパスフィルタ(300,305)、全体
を制御するためのコントローラ(303)、および、録
音データを記録するためのメモリ(304)、音声デー
タを符号化するためのVQ処理部(301)とコードブ
ック(302)を備えている。
ム波形の標準パタンを登録したフレーム波形辞書のこと
であり、その作成方法について説明する。
方法の一つとして「LBGアルゴリズム」がある。この
LBGアルゴリズムは、実際の音声データからフレーム
波形辞書を容易に作成することができるアルゴリズムで
あり、大きく2つの処理『セントロイド(波形パタンに
相当する)の二分割処理と最適化処理』に分けられる。
簡単に言えば、学習データから1個の初期セントロイド
を作成することからスタートして、必要とするセントロ
イド数に達するまで、上記2つの処理を交互に繰り返す
ことでフレーム波形辞書を作成する方法であ。
ムの動作フローについて簡単に説明する。 (1)学習させる実際の音声データと共に、必要とする
セントロイド数(=波形パタン数)、制御パラメータを
与える。 (2)初期セントロイドC1を作成する。C1は、学習
波形xの平均値で計算する。(ステップ501) (3)現在のセントロイド数を2倍にする(セントロイ
ドの分割処理)。具体的には、セントロイドCkに対し
て、乱数ベクトルrと、制御パラメータSを用いて、2
つのセントロイドCkとCk+nを作成する。(ステッ
プ503) (4)全セントロイドについて、上記(3)の処理を施
す。 (5)次に、上記(3)、(4)の処理によって、2倍
に増えたセントロイドを最適な状態の配置にする。具体
的には、学習データを、現在のセントロイドでVQ処理
し、その際の量子化誤差Ei(ステップ504)が小さ
くなるように、セントロイドの配置を繰り返し修正する
(ステップ506)。最終的に、ステップ505の条件
を満足したとき、現在のセントロイドが最適な状態に配
置されたと判断する。 (6)判定処理505を通過したセントロイドは、制御
パラメータであるNend(目標とするセントロイド
数)に達していれば、処理終了とし、そうでなければ、
(3)に戻りセントロイドの分割処理に戻る。
て説明する。なお、ここでは説明を簡潔にするため、入
力音声信号はローパスフィルタを既に通過したものと
し、入力音声信号400をVQにより符号化する場合を
考える。
の信号値を、既に設定されている標本化周波数に従って
取得する。 (2)次に、前記サンプリングされたデータを、数点
(図15では連続する4点となっている)を、1個のフ
レーム波形(401)にまとめる。 (3)次に、予め用意しておいたフレーム波形辞書(4
03)に登録されている多くのフレーム波形の中から、
前記フレーム波形(401)に最も類似したものを選択
(402)する。図15ではフレーム波形辞書に256
個の波形パタンが登録されている。 (4)さらに、フレーム波形辞書(403)に登録され
ているコードパタンには、パタン番号がユニークに割当
てられており、選択されたフレーム波形にも、ユニーク
なパタン番号が割当てられている。図15では、選択さ
れた波形パタンには、パタン番号Kが割当てられてい
る。この仕組みにより、複数のサンプルデータを1個の
パタン番号に符号化(=変換)していることに相当す
る。図15では、4個のサンプルデータを1個のパタン
番号データに変換しているので、データ容量を1/4倍
に圧縮している。 (5)選択されたフレーム波形に対応するコード番号K
を、メモリに格納することで、符号化された音声データ
がメモリに上に記録される。再生時は、これとは逆順の
動作になる。
号に変換、つまり符号化することにより、データ容量を
小さくすることができる(圧縮効果)。 (2)複数のサンプルデータを1つのフレーム波形とし
て扱うための手段と、波形辞書に登録された波形パタン
の中からフレーム波形に類似したパタンを検索するため
の手段を設けるだけで、比較的容易に実現できる。
わせることは、(2)の理由により、実装上比較的容易
であると共に、それに伴うコストも小さく抑えることが
できる。また、(1)の理由により、メモリ増加をせず
に録音時間の長時間化が可能になる。
1の従来技術に第2の従来技術を組合わせることによ
り、録音時間の長時間化の実現可能性が高くなる。しか
し、各従来技術には以下の問題点があり、容易に組合わ
せることはできない。
て、高品質の録音再生を行うためには、大量のフレーム
波形をフレーム波形辞書に登録しておく必要がある。 (2)第1の従来技術において、アナログフラッシュメ
モリの性質上、1セルで記憶できる値に上限がある(つ
まり解像度に上限がある)。そのため、1セルに記憶す
ることのできる符号値が制限される(フレーム波形辞書
に登録できる波形パタン数を制限される)。
を単に組合わせるだけでは、長時間録音を可能にするこ
とはできるものの、記録する音声データの音質が劣化す
るという問題が生じる。この問題を解決する方法とし
て、フレーム波形辞書に登録する波形パタン数を大量に
すると同時に、その波形番号を1セルで記憶するのでは
なく、複数セルを使って記憶することが考えられる。例
えば、フレーム波形辞書を複数個用意する方法である。
つまり、1つのフレーム波形辞書には、少数の波形パタ
ンを登録しておき、VQにより、入力音声データをフレ
ーム波形辞書の番号と波形パタン番号の2つに符号化す
ることで、音質劣化を抑えようとする方法である。
に登録できる波形パタン数をクリアすることはできる
が、1サンプルデータを符号化するにあたり、コード番
号とコードブック番号という複数の符号データに変換し
なければならず、データ圧縮率が低下する。
リを組合わせるときに生じる上記問題点を解決し、符号
化効率を低下させることのない音声録音再生装置を提供
することを目的とする。
発明に係る音声録音再生装置においては、コードブック
にコードパタンをパワー順にソートして登録しておき、
コードパタンの選択範囲の大きさ(アナログフラッシュ
メモリで記録できる値以下)を示す固定パラメータと、
この選択範囲のコードブック始端からのオフセット量を
示す変動パラメータを用意する。波形選択時には、現在
の選択範囲内にあるコードパタンの中から選択すると
し、この選択範囲は、先行フレームの符号化結果である
コード番号を元に、前記オフセット量を逐次更新するこ
とで最適位置にシフトして決定するように構成される。
装置においては、学習データをパワーの大きさに応じた
複数のサブクラスに分割した上でコードブックを作成
し、さらに各コードブックの上下端にはフラグを設定
し、また登録パタンの平均パワー順にコードブック番号
を割当てておく。波形選択時においては、カレントコー
ドブックに登録されているコードパタンの中から選択す
るとし、該カレントコードブックは、先行フレームのコ
ード番号が、該カレントコードブックに設定されたフラ
グを上回った/下回った場合に、コードブック番号を加
算/減算することで、後続フレームに最適なカレントコ
ードブックに切替えるように構成される。
て、図面を参照して詳細に説明する。 <第1の実施形態>第1の実施形態においては、まず、
1枚のコードブックに大量のコードパタンをパワー順に
ソートした上で登録作成しておき、かつ、コードパタン
の選択範囲の大きさ(アナログフラッシュメモリで記録
できる値以下)を示す固定パラメータと、該選択範囲の
コードブック始端からのオフセット量を示す変動パラメ
ータを用意する。
コードパタンの中から選択するとし、該選択範囲は、先
行フレームの符号化結果であるコード番号を元に、前記
オフセット量を逐次更新することで最適位置にシフトす
る。これにより、アナログフラッシュメモリの制限内で
の符号化が行え、かつ、コード番号以外の符号量を使用
しないので、符号化効率を向上させることできる。
音声録音再生装置の構成図を示したものである。この実
施形態においては、エイリアジング防止のためのローパ
スフィルタ600と、予め設定しておいた標本化周波数
に従い音声信号をサンプリングし、予め設定しておいた
フレーム長の連続するサンプルデータをフレーム波形と
して一時格納するためのフレーム波形格納部601と、
フレーム波形の標準パタンとしてコードパタンが大量に
登録されているコードブック格納部604と、前記フレ
ーム波形と前記コードブックに登録されているコードパ
タンの中から、前記フレーム波形に最も類似したコード
パタンを選択するための波形選択部602と、前記波形
選択部で選択されたコードパタンに対応するコード番号
を記録するためのアナログフラッシュメモリ603と、
先行フレームの符号結果を要因として、前記コードブッ
クにおける選択範囲を変更するためのコードパタン選択
範囲変更部605から構成されている。
のコードパタンが登録された1個のコードブックと選択
範囲のサイズWと選択範囲のコードブック始端からのオ
フセット量Bを格納するためのバッファとで構成され
る。このコードブックは、N個のコード番号(デジタル
値)とN個のコードパタン(1個のコードパタンはL個
のデジタル値から成る)から構成されており、コード番
号とコードパタンは一対一に対応している。選択範囲の
サイズWは、対象フレームを符号化するときの、コード
パタン検索可能範囲幅を示すパラメータであり、オフセ
ット量Bは、現在の選択範囲が、コードブックのどの位
置から開始するかを示すためのパラメータである。さら
に、コードブックに登録されているコードパタンは、予
めそのパワー順にソートされていて、内部コード番号
は、最小パワーのコードパタンを1とし、その他は、パ
ワーの順に1ずつ大きくなるよう割当てておく(図4参
照)。
する。 (1)入力音声信号は、フレーム波形格納部601にお
いて、設定された時間間隔(標本化周波数の逆数)で、
サンプリングデータに変換される。 (2)さらに、同フレーム波形格納部において、連続す
るサンプリングデータを、予め設定されているフレーム
長Lと同じ個数になるまでバッファリングし、L個に達
したらフレーム波形として、波形選択部602へ転送す
る。 (3)波形選択部602は、コードブック格納部604
の中で、コードパタン選択範囲変更部により設定された
選択範囲中にある複数のコードパタンから、フレーム波
形に最も類似したコードパタンを選択し、そのコードパ
タンに割当てられたコード番号を取得する。 (4)取得されたコード番号は、図示しないD/A変換
器を介してそのコード番号に相当するアナログ値(電荷
量)に変換されてアナログフラッシュメモリ603へ書
込まれる。これにより、アナログフラッシュメモリにL
個分の音声サンプルデータが圧縮されて記録される。 (5)波形選択部602は、後続コード用にコードパタ
ン選択範囲を更新するために、コード番号(デジタル
値)をコードパタン選択範囲変更部605へも転送す
る。 (6)コードパタン選択範囲変更部605は、入力され
たコード番号を元に、コードパタン選択範囲を変更す
る。本処理ステップは、本実施形態における中心部分で
あるため、後で詳細な説明を行う。 (7)上記(1)から(6)までの処理を、入力音声信
号が終るまで繰り返す。 以上の処理で、録音が完了する。
603から第1フレーム目のコード番号を取得する。な
お、このコード番号は、アナログフラッシュメモリ上で
は、電荷の形(アナログ値)で記録されているため、こ
の電荷量に相当するデジタルのコード番号に変換した上
で取得する。 (2)波形選択部602は、取得したコード番号が割当
てられたコードパタンを、コードブック格納部604か
ら取得する。ただし、コード番号は選択範囲内における
番号であるため、選択範囲のオフセット量と選択範囲幅
を使って、コードブック内における番号に変換した上で
取得する。 (3)波形選択部602は、取得したコードパタンをフ
レーム波形として、フレーム波形格納部601へ送出す
る。 (4)フレーム波形格納部601は、フレーム波形を、
予め設定された時間間隔でフレーム内部にある各データ
をローパスフィルタへ送出する。 (5)音声データを滑らかにするためにローパスフィル
タ600に通して、音声信号を出力する。 以上(1)から(5)までの処理を、アナログフラッシ
ュメモリに記録した最後の符号データになるまで繰り返
す。以上が、再生時の処理手順である。
の詳細について、図4と図5を用いて説明する。 (1)コードブック格納部にあるオフセット量パラメー
タBを初期値0に設定する(図4−、図5−100
0)。 (2)波形選択部602は、オフセット量Bを取得する
(図4−、図5−1001)。 (3)波形選択部602は、波形選択処理に必要となる
ループカウンタkをB+1に設定する(図5−100
2)。 (4)波形選択部602は、波形選択処理に必要となる
距離dminを初期化する(図5−1003)。距離dmin
は、複数あるコードパタンとフレーム波形との最小距離
を一時的に格納しておくためのバッファである。また、
図5においては初期値が無限大となっているが、実際に
は、取りうる距離値よりも十分に大きな値であればよ
い。 (5)コードパタン(ベクトルCk)とフレーム波形
(ベクトルxt)との波形距離dkを次式により計算する
(図5−1004)。ここでLは、フレーム波形長であ
り、本実施形態においてはL=4である。 (6)計算した波形距離dkと最小距離dminを比較し、
dkの方が小さい場合は、最小距離dminを更新し、この
時のループカウンタkをバッファkminに設定する(図
5−1005)。 (7)ループカウンタkをカウントアップし、(5)と
(6)の処理を繰り返し、カウンタkが選択可能範囲の
上限値B+Wに達したときループ終了とする。なお、本
実施形態ではW=256である。 (8)バッファkminの値から、オフセット量Bを減算
し、これを選択波形のコード番号とする(図5−100
6、また、(3)−(7)までの処理が図4−に相
当)。 (9)求められたコード番号kminを図示しないD/A
変換器によりアナログ値(電荷量)に変換してアナログ
フラッシュメモリへ書込む(図4−、図5−100
7)。(10)同コード番号kmin(デジタル値)を選
択範囲変更部へ送出する(図4−)。 (11)コードパタン選択範囲変更部605において、
コードブック格納部604よりオフセット量Bを取得す
る(図4−、図5−1008)。 (12)オフセット量Bをコード番号kminを用いて更
新する(図4−、図5−1007)。 (13)(12)の処理により、後続フレーム用の選択
範囲が、kmin−W/2+1だけシフトして更新され、
選択範囲が変更される。
先行フレームの結果を用いて、選択範囲を変更すること
ができる。
コードブックの作成手順について説明する。 (1)LBGアルゴリズムを用いて、コードブックを作
成する(700)。 (2)作成したコードブックをソートする。具体的に
は、(3)〜(6)の処理で実現する。 (3)ループカウンタkを初期値1に設定する。 (4)コードブックのコードパタン(ベクトルCk)の
パワーPkを計算し、バッファに格納する(701)。 (5)ループカウンタkをカウントアップし、コードパ
タン数nになるまで、(4)の処理を繰り返す。 (6)コードパタンを計算したパワーPk順にソートす
る(702)。
れば、予めコードブックをコードパタンのパワーによっ
てソートしておき、現在どの範囲を選択可能としている
かを示すための2つのパラメータ(選択範囲幅とオフセ
ット量)をコードブック格納部に設け、先行フレームの
符号化結果であるコード番号が、選択範囲の中心になる
ようにオフセットパラメータを更新させることで、先行
フレームのパワー周辺のコードパタンを、後続フレーム
用のコードブックとして用いることができるので、フレ
ーム波形選択範囲の自動切替えが可能となる。
可能となったことにより、大量のコードパタンの中か
ら、対象フレームの符号化に必要なコードパタンを、効
率よく抽出することが可能となり、コスト増を抑えなが
ら、録音時間の長時間化が可能となる。
ては、まず、学習データをパワーの大きさに応じた複数
のサブクラスに分割した上でコードブックを作成し、さ
らに各コードブックの上下端にはフラグを設定し、また
登録パタンの平均パワー順にコードブック番号を割当て
ておく。波形選択時には、カレントコードブックに登録
されているコードパタンの中から選択し、このカレント
コードブックは、先行フレームのコード番号が、カレン
トコードブックに設定されたフラグを上回った/下回っ
た場合に、コードブック番号を加算/減算することで、
後続フレームに最適なカレントコードブックに切替え
る。これにより、これにより、アナログフラッシュメモ
リの制限内での符号化が行え、かつ、コード番号以外の
符号量を使用しないので、前述の問題点を解決できる。
データを複数のサブクラスに分割した上で、コードブッ
クを設計するため、パワーの小さな箇所にはサブクラス
をより多く割当て、パワーの大きな箇所にはサブクラス
を少なく割当てることが可能となるため、聴感上の音質
向上にも効果がある。
音声録音再生装置の構成図を示している。図示のよう
に、この実施形態においては、予め設定しておいた標本
化周波数に従ってエイリアジングを防止するためのロー
パスフィルタ1100と、同標本化周波数に従って音声
信号をサンプリングし、予め設定しておいたフレーム長
の連続するサンプルデータをフレーム波形として一時格
納するためのフレーム波形格納部1101と、フレーム
波形の標準パタンを登録したコードブックが複数格納さ
れているコードブック格納部1104と、コードブック
に登録されているコードパタンの中から、フレーム波形
に最も類似したコードパタンを選択するための波形選択
部1102と、波形選択部で選択されたコードパタンに
対応するコード番号をアナログ値で記録するためのアナ
ログフラッシュメモリ1103と、先行フレームの符号
結果を元に、コードブック格納部1104の中から、後
続用のコードブックを選択するためのコードブック切替
え部1105から構成されている。
ードブックと切替え条件パラメータ格納部から構成され
ており、切替え条件パラメータ格納部には、現在使用中
のコードブック番号(以下カレントコードブック番号)
と、カレントコードブックの切替え条件パラメータが格
納される。さらに、各コードブックは、登録されるコー
ドパタンをパワー順にソートしてコード番号が割り当て
られ、コードブック番号Uiと切替え条件パラメータL
iとが設定されている。このコードブック番号は、カレ
ントコードブック番号からコードブックを参照するため
のID番号であり、1番から順に、コードブック格納部
に格納された数まで割当てられる番号である。一方、切
替え条件パラメータは、カレントコードブック番号更新
のための判定パラメータである。具体的には、カレント
コードブックとなった時に、切替え条件パラメータ格納
部にロードされ、先行フレームのコード番号が、Ui以
上の場合は、カレントコードブック番号を1だけ加算
し、以下の場合は、1だけ減算するためのパラメータで
ある(図7参照)。また、第1の実施形態と同様に、こ
のコードブックは、N個のコード番号(デジタル値)と
N個のコードパタン(1個のコードパタンはL個のデジ
タル値から成る)から構成されており、コード番号とコ
ードパタンは一対一に対応している。
する。 (1)入力音声信号は、エイリアジング防止のために設
けたローパスフィルタ1100により、予め設定された
通過帯域だけが通過するように制限される。 (2)フレーム波形格納部1101において、設定され
た時間間隔(標本化周波数の逆数)で、波形データをサ
ンプリングする。以下このデータをサンプルデータとす
る。 (3)フレーム波形格納部1101において、連続する
サンプリングデータを、予め設定されているフレーム長
Lと同じ個数になるまでバッファリングする。L個に達
した時、フレーム波形として、波形選択部1102へ送
出される。 (4)波形選択部1102は、コードブック格納部11
04の中で、コードブック切替え部1105により設定
されたカレントコードブックに登録されているコードパ
タンの中から、フレーム波形に最も類似したコードパタ
ンを選択し、このコードパタンに割当てられたコード番
号を取得する。 (5)波形選択部1102は、取得したコード番号を図
示しないD/A変換器によりアナログ値(電荷量)に変
換し、アナログフラッシュメモリ1103へ書込む。こ
れにより、アナログフラッシュメモリにL個分の音声サ
ンプルデータが圧縮されて記録されたことになる。 (6)波形選択部1102は、後続コード用にコードブ
ックを変更するために、コード番号(デジタル値)をコ
ードブック切替部1105へも転送する。 (7)コードブック切替部1105は、入力されたコー
ド番号を元に、コードブックを変更する。本処理ステッ
プは、本実施形態における中心箇所であるため、後で詳
細に説明する。 (8)(1)から(7)までの処理を、入力音声信号が
終るまで繰り返す。以上の処理で、録音が完了する。
リ1103から第1フレーム目のコード番号を取得す
る。なお、このコード番号は、アナログフラッシュメモ
リ上では、電荷の形で記録されているため、図示しない
A/D変換器を用いてこの電荷量に相当するデジタルの
コード番号に変換した上で取得する。 (2)波形選択部1102は、取得したコード番号が割
当てられたコードパタンを、コードブック格納部のカレ
ントコードブックの中から取得する。 (3)波形選択部1102は、取得したコードパタンを
フレーム波形として、フレーム波形格納部1101へ送
出する。 (4)フレーム波形格納部1102は、フレーム波形
を、予め設定された時間間隔でフレーム内部の各データ
をローパスフィルタ1100へ送出する。 (5)音声データを滑らかにするためにローパスフィル
タに通して、音声信号を出力する。 (6)(1)から(5)までの処理を、アナログフラッ
シュメモリに記録した最後の符号データになるまで繰り
返す。以上が、再生時の処理手順である。
コードブックの作成手順について説明する。コードブッ
クの作成手順は、大きく3段階に別れる。 (第1段階)学習データの分割 (第2段階)LBGアルゴリズムを用いたコードブック
の学習 (第3段階)切替え条件パラメータの設定 以下では、図8のフローチャートにしたがって、上記3
段階の作成手順について説明する。
を、学習データとして準備する(1300)。 (2)フレーム波形を1単位として、全フレーム波形
(ベクトルxt)のパワーPtを計算する(1301)。 (3)学習データXを、フレーム波形のパワーに応じて
M個の学習データに分割する。ただし、隣接する学習デ
ータ集合XiとXi+1は、要素に重複があるように分割す
る。具体的には、図9のように、学習データを、経験的
に設定した値を閾値として5分割し、学習データに含ま
れるフレーム波形のパワーが1401の範囲内であれ
ば、このフレーム波形をX1に分類し、1402の範囲
であれば、フレーム波形をX2に分類し、X3からX5に
ついても同様に分類する(1302)。
コードブックの学習 (4)LBGアルゴリズムを用いて、M個の各学習デー
タを元にcodebookiを作成する。本実施形態で
は、図9のX1からcodebook1を、X2からco
debook2を、X3からcodebook3を、X4か
らcodebook4を、X5からcodebook5を
順に作成する。したがって、格納しているコードパタン
のパワー範囲が、コードブック番号の順に、大きくなっ
ていくことになる(1303)。 (5)作成したコードブックに登録されたコードパタン
を、コードパタンのパワーをキーとしてソーティングす
る。パワーをキーとしたソート手順は、第1の実施形態
における方法と同様である(1304)。
え条件パラメータUiとLiを設定する。具体的には、パ
ラメーLiには、先行フレームのコード番号がパラメー
タLi以下の場合に、コードブックcodebookiよ
りもcodebooki ー 1の方が量子化ノイズを抑える
ことができるという閾値を設定し、パラメータUiに
は、先行フレームのコード番号が、Ui以上の場合、コ
ードブックcodebookiよりもcodebook
i+1の方が量子化ノイズを抑えることができるという閾
値を設定する。本実施形態においては、図7のように、
実際に作成されたコードブックのコードブックパタンと
パワーのヒストグラムを考慮して、経験的に設定した
(1305)。
ドブック切り替え部」の処理について、図10と図11
を用いて詳細に説明する。まず、はじめに、コードブッ
ク格納部について説明する。現在使用中のコードブック
(以下、カレントコードブック)を自動的に切替えるよ
うにするため、該格納部には、以下のような構造上の工
夫がある。 (1)コードブック格納部は、複数のコードブック(コ
ードパタンと内部コードパタン番号の組)と、カレント
コードブック番号Nと、カレントコードブックの切替え
番号U、Lを格納するためのバッファとで構成される。 (2)コードブックに登録されている各コードパタン
は、前述した通り、予めそのパワー順にソートされてい
る。内部コード番号は、最小パワーのコードパタンを1
とし、その他は、パワーの順に1ずつ大きくなるよう割
当てておく。 (3)各コードブックは、パワー順に並んでおり、コー
ドブックの上下端においては、隣接コードブックとパワ
ー空間上での重複がある。そして、その領域を切替え領
域として設定している。
番号Nを初期値0に、切替え番号U、Lをカレントコー
ドブックの切替え番号U0、L0に設定する(図10−
)。 (2)波形選択部は1102、カレントコードブック番
号Nを取得する(図10−、図11−1500)。 (3)波形選択部1102は、波形選択処理に必要とな
る距離dminを初期化する(図11−1501)。距離
dminは、複数あるコードパタンとフレーム波形との最
小距離を一時的に格納しておくためのバッファである。
図11においては初期値を無限大としているが、実際に
は、取りうる距離値よりも十分に大きな値であればよ
い。 (4)波形選択部1102は、波形選択処理に必要とな
るループカウンタkを1に設定する(図11−150
2)。 (5)カレントコードブックのコードパタン(ベクトル
Ck)とフレーム波形(ベクトルxt)との波形距離dk
を計算する(図11−1503)。この波形距離d
kは、第1の実施形態と同様にユークリド距離で計算す
る。ここでLは、フレーム波形長であり、本実施形態に
おいてはL=4である。 (6)計算した波形距離dkと最小距離dminを比較し、
dkの方が小さい場合は、最小距離dminを更新し、この
時のループカウンタkをバッファkminに設定する(図
11−1504)。 (7)ループカウンタkをカウントアップし、(5)と
(6)の処理を繰り返し、カウンタkがカレントコード
ブックのコードパタン数Wに達したときループ終了とす
る。なお、本実施形態ではW=256である。 (8)求められたコード番号kminをD/A変換器によ
りアナログ値に変換してアナログフラッシュメモリへ書
込む(図10−、図11−1505)。 (10)コード番号kmin(デジタル値)をコードブッ
ク切替え部へ送出する(図10−)。 (11)コードブック切替部1105において、コード
ブック格納部1104よりカレントコードブック番号N
と上方向切替え番号Uと下方向切替え番号Lを取得する
(図10−、図11−1506)。 (12)先行フレームのコード番号kminと、取得した
下方向切替え番号Lの大小比較を行い、Lよりも小さい
コード番号である時、カレントコードブック番号Nを1
減じて、コードブック格納部へ設定する(図10−、
図11−1507)。 (13)先行フレームのコード番号kminと、取得した
上方向切替え番号Uの大小比較を行い、Uよりも大きい
コード番号である時、カレントコードブック番号Nに1
加えて、コードブック格納部へ設定する(図10−、
図11−1509)。 (14)(12)、(13)のどちらでもない場合は、
カレントコードブック番号の更新を行わない(図11−
1508)。 以上の処理により、1フレーム毎に先行フレームの符号
結果を参照して、コードブックを自動的に切り替えるこ
とができる。
れば、複数のコードブックをコードパタンのパワーによ
ってソートしておき、かつ、隣接するコードブック同士
は、一部分重複する領域を持たせ、これを切替え範囲と
設定し、この領域に先行フレームの符号結果が含まれる
場合は、隣接コードブックを後続フレーム用のコードブ
ックとすることで、コードブックの自動切替えが可能と
なる。
とにより、大量のコードパタンの中から、対象フレーム
の符号化に必要なコードパタンを、効率よく抽出するこ
とが出来、コスト増を抑えながら、録音時間の長時間化
が可能となる。
クを複数に分割することで、各コードブックの範疇を自
在に設計することができる。つまり、音の小さい箇所で
は、コードブックの学習範囲を小さくし、音の大きな箇
所では、コードブックの学習範囲を大きくすることがで
きる。これにより、聴感上ノイズが認識されやすい小さ
な箇所ほど、詳細に学習することができるので、コード
パタンを多く用意することができ、聴感上の音質が向上
するという効果がある。
によれば、予め設定した標本化周波数に基づいてサンプ
リングした音声信号をアナログフラッシュメモリに記録
する音声録音再生装置において、連続する複数個のサン
プルデータを1個のフレーム波形として格納するフレー
ム波形格納手段と、フレーム波形の標準パタンをパワー
順にソートし、ソートされた標準パタンとパタン番号の
組が登録されたコードブックと、フレーム波形をコード
ブックから選択するための選択範囲サイズと、選択範囲
のコードブック始端からのオフセット量とを格納してい
るコードブック格納手段と、コードブック格納手段に登
録されたコードパタンの中から、入力フレーム波形に最
も類似したコードパタンを選択する波形選択手段と、波
形選択手段で選択したコードパタンに対応するコード番
号をアナログ値に変換してアナログフラッシュメモリに
記録する手段と、先行フレームの符号化結果であるコー
ド番号に基づいて、前記選択範囲のオフセット量を逐次
更新するコードパタン選択範囲変更部と、を設けたの
で、フレーム波形選択範囲の自動切替えが可能となり、
コード番号以外の符号量を使用しないで済むようになる
ので符号化効率が大幅に向上する。また、フレーム波形
選択範囲の自動切替えが可能となったことにより、大量
のコードパタンの中から、対象フレームの符号化に必要
なコードパタンを、効率よく抽出することが可能とな
り、コスト増を抑えながら、録音時間の長時間化が可能
となる。
標本化周波数に基づいてサンプリングした音声信号をア
ナログフラッシュメモリに記録する音声録音再生装置に
おいて、連続する複数個のサンプルデータを1個のフレ
ーム波形として格納するフレーム波形格納部手段と、登
録されたパタンの平均パワーがその大きさの順にソート
されているフレーム波形の標準パタンを登録した複数の
コードブックと、現在使用中のコードブック番号とコー
ドブックの切替え条件パラメータとを格納しているコー
ドブック格納手段と、コードブック格納手段に登録され
たコードパタンの中から、入力フレーム波形に最も類似
したコードパタンを選択する波形選択手段と、波形選択
手段で選択したコードパタンに対応するコード番号をア
ナログ値に変換してアナログフラッシュメモリに記録す
る手段と、先行フレームの符号化結果であるコード番号
とコードブック切替え条件パラメータとを比較すること
によりコードブック番号を逐次更新するためのコードパ
タン選択範囲変更部と、を設けた構成としたので、コー
ドブックの自動切替えが可能となる。そして、この自動
切替えが可能となったことにより、大量のコードパタン
の中から、対象フレームの符号化に必要なコードパタン
を、効率よく抽出することが出来、コスト増を抑えなが
ら、録音時間の長時間化が可能となる。
とで、各コードブックの範疇を自在に設計することがで
きる。つまり、音の小さい箇所では、コードブックの学
習範囲を小さくし、音の大きな箇所では、コードブック
の学習範囲を大きくすることができる。これにより、聴
感上ノイズが認識されやすい小さな箇所ほど、詳細に学
習することができるので、コードパタンを多く用意する
ことができ、聴感上の音質が向上するという効果があ
る。
を示すフローチャートである。
えの一例を示す図である。
選択範囲切り替え処理の概要を説明するための図であ
る。
パタン選択範囲の切り替え処理手順を示すフローチャー
トである。
示す図である。
を示すフローチャートである。
示す図である。
え手順の概要説明図である。
ドブック切り替えフローチャートである。
である。
順の概略を説明する図である。
いた符号化装置の構成図である。
る音声データの圧縮を示す図である。
ーチャートである。
Claims (2)
- 【請求項1】 予め設定した標本化周波数に基づいてサ
ンプリングした音声信号をアナログフラッシュメモリに
記録する音声録音再生装置において、 連続する複数個のサンプルデータを1個のフレーム波形
として格納するフレーム波形格納手段と、 フレーム波形の標準パタンをパワー順にソートし、ソー
トされた標準パタンとパタン番号の組が登録されたコー
ドブックと、フレーム波形をコードブックから選択する
ための選択範囲サイズと、選択範囲のコードブック始端
からのオフセット量とを格納しているコードブック格納
手段と、 コードブック格納手段に登録されたコードパタンの中か
ら、入力フレーム波形に最も類似したコードパタンを選
択する波形選択手段と、 波形選択手段で選択したコードパタンに対応するコード
番号をアナログ値に変換してアナログフラッシュメモリ
に記録する手段と、 先行フレームの符号化結果であるコード番号に基づい
て、前記選択範囲のオフセット量を逐次更新するコード
パタン選択範囲変更部と、を設けたことを特徴とする音
声録音再生装置。 - 【請求項2】 予め設定した標本化周波数に基づいてサ
ンプリングした音声信号をアナログフラッシュメモリに
記録する音声録音再生装置において、 連続する複数個のサンプルデータを1個のフレーム波形
として格納するフレーム波形格納部手段と、 登録されたパタンの平均パワーがその大きさの順にソー
トされているフレーム波形の標準パタンを登録した複数
のコードブックと、現在使用中のコードブック番号とコ
ードブックの切替え条件パラメータとを格納しているコ
ードブック格納手段と、 コードブック格納手段に登録されたコードパタンの中か
ら、入力フレーム波形に最も類似したコードパタンを選
択する波形選択手段と、 波形選択手段で選択したコードパタンに対応するコード
番号をアナログ値に変換してアナログフラッシュメモリ
に記録する手段と、 先行フレームの符号化結果であるコード番号とコードブ
ック切替え条件パラメータとを比較することによりコー
ドブック番号を逐次更新するためのコードパタン選択範
囲変更部と、を設けたことを特徴とする音声録音再生装
置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000057087A JP3483513B2 (ja) | 2000-03-02 | 2000-03-02 | 音声録音再生装置 |
US09/688,139 US6778956B1 (en) | 2000-03-02 | 2000-10-16 | Voice recording-reproducing system and voice recording-reproducing method using the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000057087A JP3483513B2 (ja) | 2000-03-02 | 2000-03-02 | 音声録音再生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001249690A JP2001249690A (ja) | 2001-09-14 |
JP3483513B2 true JP3483513B2 (ja) | 2004-01-06 |
Family
ID=18577940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000057087A Expired - Fee Related JP3483513B2 (ja) | 2000-03-02 | 2000-03-02 | 音声録音再生装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6778956B1 (ja) |
JP (1) | JP3483513B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602004026645D1 (de) * | 2004-07-23 | 2010-05-27 | Telecom Italia Spa | Verfahren zum erzeugen und verwenden eines vektorcodebuchs, verfahren und einrichtung zum komprimieren von daten und verteiltes spracherkennungssystem |
KR101370018B1 (ko) * | 2006-03-21 | 2014-03-06 | 오렌지 | 제한된 벡터 양자화 |
JP5098458B2 (ja) * | 2007-06-20 | 2012-12-12 | カシオ計算機株式会社 | 音声符号化装置、音声符号化方法、及び、プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0590966B1 (en) * | 1992-09-30 | 2000-04-19 | Hudson Soft Co., Ltd. | Sound data processing |
US5845240A (en) * | 1996-07-24 | 1998-12-01 | Fielder; Mark | Selective recall and preservation of continuously recorded data |
JP3157116B2 (ja) * | 1996-03-29 | 2001-04-16 | 三菱電機株式会社 | 音声符号化伝送システム |
JP2002530703A (ja) * | 1998-11-13 | 2002-09-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 音声波形の連結を用いる音声合成 |
JP2001175283A (ja) * | 1999-12-14 | 2001-06-29 | Oki Micro Design Co Ltd | 適応差分パルス符号変調方式による録音再生装置 |
-
2000
- 2000-03-02 JP JP2000057087A patent/JP3483513B2/ja not_active Expired - Fee Related
- 2000-10-16 US US09/688,139 patent/US6778956B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2001249690A (ja) | 2001-09-14 |
US6778956B1 (en) | 2004-08-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4634387B2 (ja) | インプレース(in−place)データのデインタリービング(deinterleaving) | |
CN1734632A (zh) | 改变音频文件的再现模式的设备和方法 | |
CN1675686A (zh) | 特技模式的音频播放 | |
JP3483513B2 (ja) | 音声録音再生装置 | |
WO2020090457A1 (ja) | 記録装置、記録方法、再生装置、再生方法、記録媒体、符号化装置、及び、復号装置 | |
US7236837B2 (en) | Reproducing apparatus | |
US20010029456A1 (en) | Play back apparatus | |
TWI242180B (en) | Music data compression method and program for executing the same | |
JPH0573089A (ja) | 音声再生方法 | |
JP2001265393A (ja) | 音声録音再生装置 | |
JP2001175283A (ja) | 適応差分パルス符号変調方式による録音再生装置 | |
JP3236758B2 (ja) | 可変長データのcrc演算装置 | |
JPH11243341A (ja) | 音声符号化復号化方法 | |
JP6125808B2 (ja) | データ圧縮装置、データ圧縮プログラム、データ圧縮システム、およびデータ圧縮方法 | |
JP3523827B2 (ja) | 音声データ録音再生装置 | |
US20020004722A1 (en) | Voice speed converting apparatus | |
JPH0962294A (ja) | ピッチシフト回路およびそれを備えた音声信号処理装置 | |
JP4139697B2 (ja) | 時系列信号の符号化方法および装置 | |
JP3944992B2 (ja) | 再生装置および再生方法 | |
JPH02149171A (ja) | 音声蓄積装置 | |
JPH05265500A (ja) | 情報信号記録装置 | |
CN118737207A (zh) | 录音数据压缩方法和可计算幅度的录音数据解压方法 | |
JP3210165B2 (ja) | 音声符号化復号化方法および装置 | |
JPH07199998A (ja) | 音声信号圧縮伸張装置 | |
JP2004279906A (ja) | データ再生方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030930 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081017 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081017 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101017 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 9 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 9 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |