JP2007199337A - デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 - Google Patents
デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 Download PDFInfo
- Publication number
- JP2007199337A JP2007199337A JP2006017312A JP2006017312A JP2007199337A JP 2007199337 A JP2007199337 A JP 2007199337A JP 2006017312 A JP2006017312 A JP 2006017312A JP 2006017312 A JP2006017312 A JP 2006017312A JP 2007199337 A JP2007199337 A JP 2007199337A
- Authority
- JP
- Japan
- Prior art keywords
- sound signal
- digital
- statistical data
- memory
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
【課題】 録音完了した音声ファイルの正規化に要する処理を簡略化する。
【解決手段】 本発明によるデジタル録音装置100は,集音した音響をアナログ音信号に変換するマイクロホン110と,上記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するAD変換器202と,上記AD変換器からデジタル音信号を取り込む制御部150と,上記取り込まれたデジタル音信号を記憶するメモリ204とを備え,上記制御部は,上記デジタル音信号をメモリに記憶する音信号記憶部210と,リアルタイムに,該デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成部212と,を含み,デジタル音信号をメモリに記憶すると同タイミングでそのデジタル音信号を形成する特徴値に基づく統計データをリアルタイムに生成する。
【選択図】 図3
【解決手段】 本発明によるデジタル録音装置100は,集音した音響をアナログ音信号に変換するマイクロホン110と,上記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するAD変換器202と,上記AD変換器からデジタル音信号を取り込む制御部150と,上記取り込まれたデジタル音信号を記憶するメモリ204とを備え,上記制御部は,上記デジタル音信号をメモリに記憶する音信号記憶部210と,リアルタイムに,該デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成部212と,を含み,デジタル音信号をメモリに記憶すると同タイミングでそのデジタル音信号を形成する特徴値に基づく統計データをリアルタイムに生成する。
【選択図】 図3
Description
本発明は,デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体にかかり,例えば,録音完了したデジタル音信号の加工を簡略化できるデジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体に関する。
近年,汎用メモリの記憶容量は凄まじい勢いで増大している。このようにメモリ容量の制限が無くなりつつある背景を受けて,従来,アナログで処理していたものが日々デジタル化されている。例えば,音声等の音信号をアナログ信号のまま録音していたものが,音信号を一旦デジタル化して大容量のメモリに記憶する録音方式に移行してきている。このようにデジタル信号を用いて録音されたデジタル音信号は,記憶媒体の経年による音質の劣化が無く,複製を作る際にも高速のデジタル転送を利用することができる。
ところで,上記デジタル録音装置においては,ダイナミックレンジの許容範囲内で録音レベルが大きく異なる場合が存在する。従って,録音の機会毎に様々な録音レベルの音声ファイルが生成される。このように生成された音声ファイルは,音量が小さすぎて録音された音声が聞こえ難かったり,複数の音声ファイルを連続して再生するとその音量(録音レベル)の違いが目立ったりしていた。
上記の問題に対する解決策として,録音完了後の音声ファイルを一旦スキャンし直し,例えば,その音量の最大値が音量許容範囲に収まるように補正する技術が知られている(例えば,特許文献1)。かかる技術では,音声ファイル全ての音量を確認し直しているため,確実に音量の最大値を抽出でき,録音レベルが相違する音声ファイルを適切な音量で再生することが可能となる。
しかし,上記の技術では,何れの音声ファイルに対しても,少なくとも一回,全体の信号レベルをスキャンする必要があり,その音声ファイルの再生時には,実際に音声を聞くまでに少なくともそのスキャンの時間分待機しなくてはならなかった。特に,メモリ容量の増加に追従して,音声ファイルそのものの情報量も増えつつある近年では,膨大な音声ファイルのスキャンに多大な時間が費やされることが予測される。
本発明は,従来の上記問題点に鑑みてなされたものであり,本発明の目的は,録音完了した音声ファイルの適切な音量への加工に要する処理を簡略化し,再生までの時間を短縮することが可能な,新規かつ改良されたデジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体を提供することである。
上記課題を解決するために,本発明のある観点によれば,集音した音響をアナログ音信号に変換するマイクロホンと;上記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するAD(Analog to Digital)変換器と;上記AD変換器からデジタル音信号を取り込む制御部と;上記取り込まれたデジタル音信号を記憶するメモリと;を備え,上記制御部は,上記デジタル音信号をメモリに記憶する音信号記憶部と,リアルタイムに,該デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成部と,を含むことを特徴とする,デジタル録音装置が提供される。
上記デジタル録音装置は,マイクロホンにより集音された音響をデジタル音信号としてメモリに記憶し,その際,同じタイミングで,該デジタル音信号を形成する特徴値をリアルタイムに抽出し,抽出後直ぐに,その特徴値に基づく統計データを生成(更新)している。かかる構成では,メモリに記憶すると同時に(同タイミングで)統計データが生成されるので,録音完了時にはこの統計データも完成しており,録音完了後はいつでも完成された統計データを参照することができる。
上記特徴値は,デジタル音信号の絶対値であり,上記統計データは,抽出された全ての絶対値の最大値であっても良い。
音信号記憶部がデジタル音信号をメモリに記憶している間,即ち録音中に,上記統計データ生成部はデジタル音信号の絶対値が最大となる最大値を抽出する。かかる最大値の抽出は,統計データ生成部が,デジタル音信号の絶対値と前回サンプリングまでの最大値とを比較し,絶対値が最大値以上であるとき,該最大値に該絶対値を上書き(更新)することによって可能となる。また,上記最大値のみでは無く,絶対値が大きい順に複数個の値を保持するとしても良い。
上記統計データは,さらに上記最大値が発生した発生時間も含むとしても良い。
例えば,録音開始時や録音終了時には,比較的絶対値の大きい音信号が録音されがちであり,そのときの音信号に合わせて他の音信号のレベルも一律に上げることができないとするのは適当ではない。上記発生時間も統計データとして保持することによって,例えば,予め音量が大きくなると予測されている時間帯にある最大値を無視することができ,全体として最適な音量に調整することが可能となる。
上記特徴値は,デジタル音信号のピーク値であり,上記統計データは,抽出された全てのピーク値の平均値であっても良い。
音信号記憶部がデジタル音信号をメモリに記憶している間,上記統計データ生成部は,デジタル音信号のサンプリングした値からピーク値を抽出し,その平均値(平均ピーク値)をリアルタイムに演算する。現在サンプリングしたデジタル音信号から所定時間前までの平均ピーク値を求めることによって,全体的な録音レベルを把握することができる。
上記特徴値は,デジタル音信号の周波数成分のうち占有率が最大の周波数であるとしても良い。
音信号記憶部がデジタル音信号をメモリに記憶している間,上記統計データ生成部は,そのデジタル音信号の周波数成分を抽出し,その中で占有率の高い周波数成分を統計データとして随時保持する。この周波数は,占有率が一番高い周波数一つであっても良いし,占有率が高いものから複数個の周波数であっても良い。かかる録音完了後,特定の周波数成分を抜き出す,もしくは,削除するとき,その周波数成分を含む統計データを参照することにより,該当する周波数を含む部分のみを処理して目的を達成することができる。
上記音信号記憶部および統計データ生成部は,毎サンプリング実行されるとしても良い。かかる構成により,特徴値を確実に抽出することができ,漏れのない処理が可能となる。
上記統計データ生成部は,分割された所定期間毎に独立して統計データを生成するとしても良い。当該デジタル録音装置による録音時間が長い場合,録音開始時と録音終了時との間で録音状況が変化することがある。統計データ生成部は,分割された所定期間,例えば5分毎に新たな統計データを生成して,その所定時間毎に統計データを採取することができる。また,その所定期間と次の所定期間との補正レベルが相違する場合,その所定期間同士を滑らかに接続するとしても良い。
上記統計データは,絶対値の最大値等,単数で構成されるとしても良いし,上述した様々な統計データを複数同時に保持するとしても良い。
上記統計データは,録音が完了したデジタル音信号の正規化(Normalize)に利用されるとしても良い。例えば,統計データが最大値で表される場合,音声ファイル全体の録音レベルの最大値が,再生時の音量許容範囲の90%になるように補正(増幅もしくは減衰)する。このとき,全体の録音レベルをスキャンし直すことなく,予め求められている統計データを直接参照することのみで正規化を実行できる。
分割された所定期間毎に独立して統計データが生成されている場合,上記正規化は,該所定期間毎に独立して実行されるとしても良い。
当該デジタル録音装置による録音時間が長い場合,録音開始時と録音終了時との間で録音状況が変化することがある。このとき,各所定期間の録音状況を絶対値の最大値や平均ピーク値によって把握し,例えば,各所定期間の間で,その値があまりに相違するようであれば,その所定期間毎の絶対値の最大値や平均ピーク値を正規化に適用することができる。
上記課題を解決するために,本発明の他の観点によれば,デジタル録音装置における制御部が,集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し,メモリに記憶するメモリ記憶工程と;リアルタイムに,上記デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成工程と;を含むことを特徴とする,デジタル録音方法が提供される。
また,コンピュータに上記デジタル録音方法を行わせるプログラムやそのプログラムを記憶した記憶媒体が提供される。
以上説明したように本発明によれば,録音完了した音声ファイルの正規化に要する処理を簡略化し,再生までの時間を短縮することが可能となる。
以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書および図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。
音声等の音信号を録音,再生する技術として,集音した音信号を一旦デジタル信号に変換し,かつ大容量のメモリに記憶するデジタル録音方式がある。かかるデジタル録音方式では,その音の録音時に一旦デジタル化された音信号を再度アナログ信号に戻して出力している。
デジタル録音装置においては,その録音状況により,録音レベルが小さすぎて音声全体が聞こえ難かったり,複数の音声ファイルを連続して再生するとその録音レベルの違いが目立ったりしていた。従って,録音完了後の音声ファイルを一旦スキャンし直し,例えば,その音量の最大値が音量許容範囲に収まるように補正するといった処理を行っていた。
このような処理では,音声ファイル全ての録音レベルを確認し直しているので,確実に録音レベルの最大値を抽出できる反面,何れの音声ファイルに対しても,少なくとも一回,全体の信号レベルをスキャンする必要があり,その音声ファイルの再生時には,実際に音声を聞くまでにそのスキャン時間分待機しなくてはならなかった。
また,録音レベルを調整する方法として,デジタル録音装置におけるマイクロホンからのアナログ音信号がAD変換器に入力される前に,利得制御(ゲインコントロール)によって録音レベルを調整する技術も知られている。
しかし,かかる技術では,アナログ音信号をフィードバックする構成により補正の時間遅延が生じ,また,その都度,信号の振幅調整を行っているので,録音状況の変化による全体的な音量の大小を把握することができず,音の遠近感,立体感が無くなっていた。また,利得制御されたデジタル音信号によってオリジナルの音声ファイルが生成されてしまうので,実際の音響を表す真のオリジナル音声ファイルはどこにも存在しないことになり,オリジナル音声ファイルを元にした加工もできなくなっている。かかる構成では,大きな音は大きく,小さい音は小さく聴きたいというユーザのニーズを満足させることができない。
図9は,このような従来のデジタル録音装置の録音機能に関する概略的な回路構成を示したブロック図である。かかるデジタル録音装置では,マイクロホンにおいて集音した音響がアナログ音信号に変換され,そのアナログ音信号をデジタル変換し,一旦RAMに記憶した後,そのデジタル音信号をメインメモリに転送している。以下で,このような電気信号の流れを具体的に説明する。
先ず,デジタル録音装置のマイクロホン10は,そのマイクロホン10周辺の音を集音し,アナログの電気信号(アナログ音信号)に変換する。上記マイクロホン10としては,振動板とボイスコイルを利用したダイナミックマイクロホンや,振動板とコンデンサを一体形成したコンデンサマイクロホン等が適用され,特にデジタル録音装置のような小型機器にはコンデンサマイクロホンが利用される傾向にある。
マイクロホン10から出力されたアナログ音信号は,AGC(Auto Gain Controller)12を通じてAD変換器14に入力される。このAD変換器14の分解能は,任意に選択することが可能であるが,一般に2の累乗で表され,ここでは32bitが適用される。
AD変換器14においてサンプリングされたアナログ音信号は,32bitのデジタル音信号に変換され,データ処理部20内のDSP(Digital Signal Processor)22に伝達される。このときAD変換器14は,変換処理と並行して,そのアナログ音信号の絶対量を,アナログもしくはデジタルの信号でレベル検出器16に伝達する。
レベル検出器16がその音信号の大きさに応じてAGC12の利得を調整するので,AD変換器14は,適切なレベルのアナログ音信号を得ることができる。このように適切なレベルに調整されたデジタル音信号がDSP22に伝達され,DSP22は,さらにフィルタリング等の加工を行って,音信号をRAM24に記憶する。
当該デジタル録音装置は,図9に示すように右方向の音を集音するマイクロホンと左方向の音を集音するマイクロホンとを備え,その両方向の音から生成されたデジタル音信号はお互いに独立してRAM24に記憶される。従って,RAM24は,左方向のデジタル音信号を記憶する領域26と,右方向のデジタル音信号を記憶する領域28とを有することとなる。そして,上記記憶されたデジタル音信号は,最終的にメインメモリ30に転送される。
また,音信号の録音開始や録音終了等の指令,および記憶先のフォルダ等の指示を,key32を利用して行い,その指示が正しくデジタル録音装置に認識されているかどうかをLCD(Liquid Crystal Display)34で確認することができる。
また,上記デジタル録音装置への録音が完了した後,その録音された音を再生しようと試みたとき,その録音レベルを所定の再生レベルに補正する,所謂正規化を行うことができる。
図10は,音声ファイルを正規化する手順を説明した説明図である。先ず,図10の(a)に示したデジタル録音装置50は,音声を録音し,図10(b)に示すような音声が圧縮された圧縮音声ファイル52を生成する。このようにデジタル録音装置50で生成された圧縮音声ファイル52は,デジタル録音装置50からUSBインターフェース等を介して直接的に,もしくは,メモリカードにより間接的に,パーソナルコンピュータ(PC)にダウンロードされる。
パーソナルコンピュータでは,対応するPCアプリケーションで圧縮音声ファイル52をデコードし,図10(c)に示すリニアPCM(Pulse Code Modulation)データ54を取り出す。上記取り出されたリニアPCMデータ54だけでも音声として聴くことはできるが,録音感度のバラツキを補正するため正規化を行う。
上記正規化は,例えば,再生信号の最大値を飽和させることなく音質を維持したままで,全体的な再生レベルを上げることによって実行される。このような正規化では,先ず,リニアPCMデータ54全てをスキャンし,その絶対値の最大値Amaxを抽出する。従って,図10(c)に示したリニアPCMデータ54全体を少なくとも1回スキャンし,最大値Amaxを導出しなくてはならない。
続いて,導出した最大値Amaxを利用して正規化を行う。具体的には,この最大値Amaxが音量許容範囲FSの所定比率N%に収まるように,デジタル音信号全体を補正する。従って,正規化されたデジタル音信号は,元のデジタル音信号に(FS×N%/Amax)を乗算して生成される。
図10(d)に示す,新たに生成されたリニアPCMデータ56は,リニアPCMデータ54の振幅を増幅したものである。このように振幅が増幅されたリニアPCMデータ56は,音量許容範囲FS以内に収まり,かつ,十分に大きな音量を表現する。最後に,生成されたリニアPCMデータ56を再エンコードし,図10(e)に示すような圧縮音声ファイル58を生成する。
このとき,最終的な目的が音声ファイルの再生のみであれば,絶対値の最大値Amaxを利用して,図10(c)の状態のリニアPCMデータ54をリアルタイムに正規化しつつ再生を行うこともできる。
上述した図10の(b)圧縮音声ファイルのデコード,(c)音声ファイル全体のスキャニング,(d)正規化演算,(e)再エンコードには,通常,かなりの時間を要し,特に,メモリ容量の増加に追従して音声ファイルそのものの情報量も増えつつある近年では,膨大な音声ファイルのスキャンに多大な時間が費やされる。また,上記再エンコードにおいては,圧縮アルゴリズムによる音質の劣化も生じる。
本発明の実施形態では,上述したデジタル音信号の正規化処理,特に,正規化に用いる統計データの抽出時間を削除し,録音完了した音声ファイルの適切な音量への加工に要する処理時間を短縮可能なデジタル録音装置を提供する。以下に,本発明の実施形態によるデジタル録音装置を詳細に説明する。
(第1の実施形態:デジタル録音装置100)
図1は,デジタル録音装置100の外観を示した外観図である。図1に示された,通称IC(Integrated Circuit)レコーダと呼ばれるデジタル録音装置100は,ユーザが様々な場所に持ち運ぶことができるように小型,軽量に形成され,様々な音を録音することができる。
図1は,デジタル録音装置100の外観を示した外観図である。図1に示された,通称IC(Integrated Circuit)レコーダと呼ばれるデジタル録音装置100は,ユーザが様々な場所に持ち運ぶことができるように小型,軽量に形成され,様々な音を録音することができる。
ここで,デジタル録音装置100は,筐体102の表面に,筐体102上部から,右チャンネル用マイクロホン110と,左チャンネル用マイクロホン112と,金属カバー114と,左チャンネル用のVU(Volume Unit)メーター116と,右チャンネル用のVUメーター118と,ヘッドホン端子120と,ボリューム調整摘み122と,録音レベル調整摘み124と,LCD126と,操作ボタン群130とを含んで構成される。
上記右チャンネル用マイクロホン110および左チャンネル用マイクロホン112は,当該デジタル録音装置100の周辺の,各マイクロホンが指向する方向の音をそれぞれ独立して集音する。上記金属カバー114は,弧状の金属材料で,右チャンネル用マイクロホン110および左チャンネル用マイクロホン112を覆うように形成され,両マイクロホン110,112を保護する。
左チャンネル用のVUメーター116および右チャンネル用のVUメーター118は,左右それぞれのチャンネル用マイクロホン110,112で集音した音の音量を表示する。上記ヘッドホン端子120は,録音された音信号の出力端子であり,ボリューム調整摘み122は,その音信号の出力音量を調整できる。
また,上記録音レベル調整摘み124は,デジタル録音装置100の音信号の入力レベルを調整する摘みであり,ユーザが,その録音状況に応じて自由に調整することが可能である。例えば,ユーザは,大音量入力が予想される場合,その入力レベル(感度)を下げ,小さい音の集音を所望する場合,その入力レベルを上げる。通常は,入力レベルのフルスケールに対して−12dB程度に設定することが多い。
また,上記LCD126は,録音機能を含む各機能を遂行するための案内や,上記ボリューム調整摘み122により調整された音量の絶対値等を表示する。
上記操作ボタン群130は,再生ボタン130A,停止ボタン130B,録音ボタン130C,一時停止ボタン130D,早送りボタン130E,早戻しボタン130F,メニューボタン130G,ファイル分割ボタン130Hおよび照明ボタン130Iに分けられ,ユーザの所望する操作を受け付ける。
デジタル録音装置100は,例えば,サンプリングレート96[kHz],量子化ビット数32ビットの能力を有するAD変換器を利用して,音声等の音をステレオ(2チャンネル)入力し,さらに4.6[Mbps]といった高ビットレートのデータに符号化し非圧縮または圧縮した音声ファイルとして保存することができる。かかる構成により,楽器の演奏や人の歌声等のように品質が要求される音声を高音質に録音し得る。
次に,デジタル録音装置100の全体的な電気的な流れを説明する。
図2は,デジタル録音装置100の全体的な回路構成を示したブロック図である。上記デジタル録音装置100は,制御部150と,操作ボタン群130と,右チャンネル用マイクロホン110と,左チャンネル用マイクロホン112と,フラッシュメモリ152と,マイクロホンアンプ154と,AD/DA変換器156と,LCD126と,ヘッドホンアンプ158と,USBインターフェース160とを含んで構成される。
上記制御部150は,CPU(Central Processing Unit)162およびDSP(Digital Signal Processor)164を含んで形成され,デジタル録音装置100全体を制御する。上記CPU162は,ユーザが押圧した操作ボタン群130の各種ボタン130A〜130Iを認識し,その操作に応じた処理を行う。
例えば,録音ボタン130Cがユーザによって押圧されると,CPU162は,その時の日付や時刻等に対応したファイル名からなる音声ファイルをフラッシュメモリ152に作成し,デジタル音信号を格納するために当該音声ファイルを開く。
また,CPU162は,ユーザの録音開始指示に従って,右チャンネル用マイクロホン110および左チャンネル用マイクロホン112に対して電力の供給を開始し,周囲の音声(音声や楽器の音等)を集音する。このように集音された音はアナログ音信号に変換され,さらにマイクロホンアンプ154を介してAD/DA(Analog to Digital/Digital to Analog)変換器156に入力され,デジタル音信号としてDSP164に伝達される。
DSP164は,入力されたデジタル音信号を,所定の時間単位毎に線形符号化処理を施し,非圧縮の場合には2チャンネル分のデータを1つにまとめることによって,リニアPCM(Pulse Code Modulation)方式の符号化データを生成,圧縮時にはDSP164で音声圧縮を行い,これらをフラッシュメモリ152に順次記憶する。このときCPU162は,上記符号化データをフラッシュメモリ152の音声ファイルに格納して,当該音声ファイルのファイルサイズを増加させる。
また,録音中のもしくは録音された音信号を再生する際には,ユーザはLCD126を参照しつつ再生ボタン130Aを押圧し,DSP164が,かかるユーザの操作に応じてフラッシュメモリ152に記憶された音声ファイルからデジタル音信号をロードし,AD/DA変換器156が,そのデジタル音信号をアナログ音信号に変換する。こうして生成されたアナログ音信号は,ヘッドホンアンプ158およびヘッドホン端子120を通じて,外部のヘッドホン170に伝達される。ユーザは,かかるヘッドホン170から上記音信号を聴くことが可能となる。
また,CPU162は,USBインターフェース160がUSBケーブル(図示せず)によりパーソナルコンピュータと接続されたことを認識すると,動作モードを,上述した録音処理等をデジタル録音装置100単体で行い得る「単独動作モード」から「ストレージモード」に自動的に変更する。この様にして,フラッシュメモリ152は当該パーソナルコンピュータの外部ストレージとして利用できるようになり,OS(Operating System)から1つのドライブとして認識され得る。
このときパーソナルコンピュータは,フラッシュメモリ152に格納されている音声ファイルとして認識することができる。
その後,USBインターフェース160からUSBケーブル(図示せず)が取り外されたことをCPU162が認識すると,CPU162は,動作モードを「ストレージモード」から「単独動作モード」に自動的に戻し,再度,上述した録音処理等の各種処理をデジタル録音装置100単体で行い得るようになる。
図3は,第1の実施形態におけるデジタル録音装置100の特徴部分を詳細に示した機能ブロック図である。上記デジタル録音装置100の録音処理に関する録音ブロックは,マイクロホン110と,マイクロホンアンプ154と,AD変換器202と,制御部150と,メモリ204とを含んで構成される。
上記マイクロホン110は,集音した音響をアナログ音信号に変換する。また,上記マイクロホンアンプ154は,マイクロホン110から得られるアナログ音信号を,A/D変換器202がサンプリングするのに十分な電圧または電流になるように増幅する。
上記AD変換器202は,例えば,ΔΣ(デルタシグマ)方式による32bitの分解能を有するAnalog to Digital Converter等から形成され,マイクロホン110で変換されマイクロホンアンプ154を介して入力されたアナログ音信号をデジタル音信号に変換する。また,かかるAD変換器202のサンプリングレートは,例えば,44.1kHzや96kHzとしても良く,サンプリング周期は10〜23μsec程度となる。
このような32bitのAD変換器202は,193dBのダイナミックレンジを有しており,人間が音と感ずる音圧レベルである0〜120dBの音を拾うには十分な分解能である。
上記制御部150は,音信号記憶部210と,統計データ生成部212とを含んで形成される。上記音信号記憶部210は,AD変換器202からデジタル音信号を取り込み,デジタル音信号をメモリ204に記憶する。また,上記統計データ生成部212は,取り込まれたデジタル音信号の特徴値をリアルタイムに抽出し,該特徴値に応じて統計データを生成する。特徴値および統計データに関しては後で詳細に説明する。このような音信号記憶部210および統計データ生成部212は,サンプリング毎に実行することができ,特徴値を確実に抽出することで漏れのない処理が可能となる。
図4は,上記統計データ生成部212の処理を説明するためのタイミングチャートである。図4を参照すると,マイクロホン110から入力されたアナログ信号の絶対値が最初に最大となる点300において最大値が登録される。次に,アナログ音信号の絶対値がこの最大値以上になる点302において,当該絶対値を新たな最大値として上書きする。その後,さらにアナログ音信号の絶対値が,上記上書きされた最大値を超える点304で,最大値がさらにその絶対値に書き換えられる。この最大値の更新と同時に,その発生時間も記憶することができる。かかるタイミングチャートで示したデジタル音信号は,理解を容易にするため正弦波を利用しているが,実際の音信号はかかる場合に限られず,様々な周波数の信号が混在した波形で表される。
上記メモリ204は,RAM,E2PROM,不揮発性RAM,フラッシュメモリ,カードメモリ,USBメモリ,HDD(Hard Disk Drive)等の記憶媒体から形成され,AD変換器202から制御部150を介して取り込まれたデジタル音信号を記憶する。
このようにメモリ204に記憶されたデジタル音信号および統計データ生成部212によって生成(更新)された統計データは,録音が完了した後に行われるデジタル音信号の正規化に利用される。
例えば,統計データがデジタル音信号の最大値で表される場合,音声ファイル全体の音量(録音レベル)の最大値Amaxが音量許容範囲FSの所定比率N%に収まるように,デジタル音信号全体を補正する。従って,正規化されたデジタル音信号は,元のデジタル音信号に(FS×N%/Amax)を乗算することとなる。かかる所定比率は例えば90%とすることができる。
このとき,全体の信号レベルをスキャンすることなく,録音時に予め求められている統計データを参照することができるので,少なくとも,音声ファイル全体のスキャニング処理を省略することが可能となる。
このようにデジタル録音装置100は,マイクロホン110により集音された音響をデジタル音信号としてメモリ204に記憶し,同じタイミングで,そのデジタル音信号を形成する特徴値を抽出し,その特徴値に基づく統計データをリアルタイムに生成している。
かかる構成では,メモリ204に記憶すると同時に統計データが生成されるので,録音完了時にはこの統計データも完成しており,録音完了後はいつでも完成された統計データを参照することができる。また,上記統計データの生成時には,デジタル音信号そのものを加工していないので,オリジナルのデジタル音信号は保持されたままであり,正規化を含む様々な加工を事後的に行うことが可能となる。
上記統計データは,デジタル音信号と同じファイルに記憶されるとしても良く,また,上記メモリに独立して格納され,かつ随時参照されるとしても良い。
図5は,本実施形態における圧縮音声ファイルのデータ構成を示した説明図である。図5を参照すると,圧縮音声ファイル350は,上記統計データ360と,デジタル音信号としての圧縮音声データ362とからなる。このとき統計データ360中には,図に示したようなデジタル音信号の最大値や平均ピーク値364等が含まれる。
また,統計データ360は,上記最大値や平均ピーク値以外にも様々なデータを適用することができる。例えば,他の統計データとして,最大値が生じた発生時間,占有率の高い周波数成分等を挙げることができる。また,統計データは,このような複数のデータを一度に有することも可能である。統計データに関する詳細は以下で説明する。
(絶対値の最大値,発生時間)
例えば,特徴値をデジタル音信号の絶対値とすると,図4を参照して説明したように,統計データ生成部212は,デジタル音信号の絶対値が,それまでサンプリングした中の最大値以上であるとき,最大値を更新する。ここでは最大値が統計データである。
例えば,特徴値をデジタル音信号の絶対値とすると,図4を参照して説明したように,統計データ生成部212は,デジタル音信号の絶対値が,それまでサンプリングした中の最大値以上であるとき,最大値を更新する。ここでは最大値が統計データである。
音信号記憶部210がデジタル音信号をメモリに記憶している間,即ち録音中に,統計データ生成部212はデジタル音信号の絶対値の最大値を抽出する。データ生成部212は,現在サンプリングした絶対値と前回サンプリングまでの最大値とを比較し,その値が大きい方を新たな最大値として更新する。こうして最大値をリアルタイムに導出することが可能となる。
また,統計データ生成部212は,絶対値の最大値のみでは無く,絶対値が大きい順に複数個の値を保持するとしても良い。例えば,絶対値が最大から5点採取される場合を考えると,最大値が妥当性の見地から誤っている可能性があると判断される場合,2番目の値を採用したり,また,最大値と他の4つの値がかけ離れている場合,最大値の点を特異点として無視し,2番目の値により正規化したりすることができる。
さらに統計データ生成部212は,デジタル音信号の最大値に加えて,その最大値が発生した発生時間を更新するとしても良い。
例えば,録音開始時や録音終了時には,比較的絶対値の大きい音信号が録音されがちであり,そのときの音信号を基準に正規化を行うと,増幅率を高くとることができず,他の音信号のレベルが小さいままとなってしまう。上記発生時間も統計データとして保持することによって,例えば,予め音量が大きくなると予測されている時間帯にある最大値を無視するとすることができ,全体として最適な音量に調整することが可能となる。
このような録音開始時や録音終了時の最大値を無視することは,音声ファイルを正規化する時点で行っても良いし,録音開始時や録音終了時の一定期間,最大値の更新を中断(停止)することによって行うとしても良い。
また,統計データ生成部212は,分割された所定期間毎に独立して統計データを生成するとしても良い。これは,例えば,5分置きに新たに統計データを採り直すことであり,統計データは,5分単位で生成されることとなる。
図6は,所定期間毎に独立して統計データを生成する例を示したタイミングチャートである。かかるタイミングチャートは,5分毎に統計データを確定し,次の5分では前回の統計データとは別に新たな統計データを生成する。例えば,最初のフレーム1では,絶対値の最大はピーク点402となり,続くフレーム2ではピーク点404,フレーム3ではピーク点406,フレーム4ではピーク点408となる。
当該デジタル録音装置100による録音時間が長い場合,録音開始時と録音終了時との間で録音状況が変化することがある。統計データ生成部212は,例えば5分毎に新たな統計データを生成するので,音声ファイルの正規化においても,5分毎に最適な再生レベルを提供することができる。
従って,図6の例においては,フレーム1やフレーム4のデジタル音信号が,フレーム2やフレーム3のデジタル音信号より高い倍率で増幅され,再生レベルを全体的に均等にすることができる。
図7は,録音時間を所定期間に分割した場合の圧縮音声ファイルのデータ構成を示した説明図である。図7を参照すると,圧縮音声ファイル450は,上記統計データ460と,デジタル音信号としての圧縮音声データ462とからなる。このとき統計データ460中には,フレーム464,466,468,470毎にデジタル音信号の最大値や平均ピーク値等が含まれている。
また,そのフレームと次のフレームとの補正レベルが相違する場合,例えば,前の5分の最大値と比較して,次の最大値が2倍になった場合に,各フレームにおける増幅率の比が2:1となり,フレームの繋ぎ目で再生レベルが不自然に変化する。本実施形態では,そのフレーム同士の信号を滑らかに変化させて接続するとしても良い。この接続は,線形および非線形の関数を利用し,値を漸増もしくは漸減することで成される。
(平均ピーク値)
例えば,特徴値はデジタル音信号のピーク値であり,上記統計データは,抽出された全てのピーク値の平均値であっても良い。
例えば,特徴値はデジタル音信号のピーク値であり,上記統計データは,抽出された全てのピーク値の平均値であっても良い。
音信号記憶部210がデジタル音信号をメモリに記憶している間,統計データ生成部212は,デジタル音信号のサンプリングした値からピーク値を抽出し,その平均値(平均ピーク値)をリアルタイムに演算する。現在サンプリングしたデジタル音信号から所定時間前までの平均ピーク値を求めることによって,全体的な録音レベルを把握することができる。ここで,上記ピーク値は,デジタル音信号に生じる個々の波形の最大値もしくは最小値の絶対値と定義しても良い。
(占有率の高い周波数成分)
例えば,特徴値はデジタル音信号の周波数成分のうち占有率が最大の周波数であるとしても良い。
例えば,特徴値はデジタル音信号の周波数成分のうち占有率が最大の周波数であるとしても良い。
音信号記憶部210がデジタル音信号をメモリに記憶している間,統計データ生成部212は,そのデジタル音信号の周波数成分を抽出し,その中で占有率の高い周波数成分を統計データとして保持する。この周波数は,占有率が一番高い周波数一つであっても良いし,占有率が高いものから複数個の周波数であっても良い。かかる録音完了後,特定の周波数成分を抜き出す,もしくは,削除するとき,その周波数成分を含む統計データを参照することにより,該当する周波数を含まない部分は処理することなく,即ち,該当する周波数を含む部分のみを抜き出すもしくは削除する処理を行うことができる。
上述したデジタル録音装置においては,再生時に正規化等の補正はされるものの,録音時の録音レベルを的確に表現したオリジナル音声ファイルが残されるため,録音状況の変化による全体的な音量の大小を把握することができ,音の遠近感,立体感も確認することが可能となる。
(第2の実施形態:デジタル録音方法)
続いて,音声等の音を連続して記憶することが可能なデジタル録音装置100を利用してデジタル録音を行うと共に統計データを生成するデジタル録音方法の詳細な動作を説明する。
続いて,音声等の音を連続して記憶することが可能なデジタル録音装置100を利用してデジタル録音を行うと共に統計データを生成するデジタル録音方法の詳細な動作を説明する。
図8は,第2の実施形態におけるデジタル録音方法の流れを示したフローチャート図である。本実施形態では,制御部150に入力されたデジタル音信号をメモリ204に記憶し,そのデジタル音信号に統計データを付与する。
先ず,制御部150は,集音した音響をアナログ音信号に変換するマイクロホン110からの該アナログ音信号がAD変換器202によって変換されたデジタル音信号を取り出し(S500),メモリ204に記憶する(S502)。
続いて,最大値やその発生時間を取得するため,制御部150によって取り出されたデジタル信号の絶対値と,それまでの最大値とを比較し(S504),絶対値が最大値より大きい場合,その絶対値を新たな最大値として上書きし,その絶対値が発生した時間を発生時間として記憶する(S506)。
次に,平均ピーク値を取得するため,統計データ生成部212は,現時点で採取した上記デジタル音信号までの所定時間におけるデジタル音信号の平均ピーク値を計算し(S508),この平均ピーク値をデジタル音信号と共にメモリ204に記憶する(S510)。
続いて,占有率の高い周波数成分を取得するため,統計データ生成部212は,上記デジタル音信号の周波数成分を抽出し(S512),その中で占有率の高い周波数成分を統計データとして,デジタル音信号と共にメモリ204に記憶する(S514)。
上記デジタル録音方法により,統計データとしての絶対値の最大値,発生時間,平均ピーク値,占有率の高い周波数成分等を生成および記憶することができる。このような統計データが予め生成される構成により,録音完了した音声ファイルの適切な音量への加工に要する処理を簡略化でき,再生までの時間を短縮することが可能となる。
また,コンピュータに上述したデジタル録音方法を行わせるプログラムやそのプログラムを記憶した記憶媒体も提供される。
以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。
なお,本明細書のデジタル録音方法における各工程は,必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく,並列的あるいは個別に実行される処理(例えば,並列処理あるいはオブジェクトによる処理)も含むとしても良い。
10,110,112 マイクロホン
14,202 AD変換器
30,204 メモリ
50,100 デジタル録音装置
150 制御部
210 音信号記憶部
212 統計データ生成部
14,202 AD変換器
30,204 メモリ
50,100 デジタル録音装置
150 制御部
210 音信号記憶部
212 統計データ生成部
Claims (12)
- 集音した音響をアナログ音信号に変換するマイクロホンと;
前記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するAD変換器と;
前記AD変換器からデジタル音信号を取り込む制御部と;
前記取り込まれたデジタル音信号を記憶するメモリと;
を備え,
前記制御部は,前記デジタル音信号をメモリに記憶する音信号記憶部と,リアルタイムに,該デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成部と,を含むことを特徴とする,デジタル録音装置。 - 前記特徴値は,デジタル音信号の絶対値であり,
前記統計データは,抽出された全ての絶対値の最大値であることを特徴とする,請求項1に記載のデジタル録音装置。 - 前記統計データは,さらに前記最大値が発生した発生時間も含むことを特徴とする,請求項2に記載のデジタル録音装置。
- 前記特徴値は,デジタル音信号のピーク値であり,
前記統計データは,抽出された全てのピーク値の平均値であることを特徴とする,請求項1に記載のデジタル録音装置。 - 前記特徴値は,デジタル音信号の周波数成分のうち占有率が最大の周波数であることを特徴とする,請求項1に記載のデジタル録音装置。
- 前記音信号記憶部および統計データ生成部は,毎サンプリング実行されることを特徴とする,請求項1に記載のデジタル録音装置。
- 前記統計データ生成部は,分割された所定期間毎に独立して統計データを生成することを特徴とする,請求項1に記載のデジタル録音装置。
- 前記統計データは,録音が完了したデジタル音信号の正規化に利用されることを特徴とする,請求項1に記載のデジタル録音装置。
- 分割された所定期間毎に独立して統計データが生成されている場合,前記正規化は,該所定期間毎に独立して実行されることを特徴とする,請求項8に記載のデジタル録音装置。
- デジタル録音装置における制御部が,
集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し,メモリに記憶するメモリ記憶工程と;
リアルタイムに,前記デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成工程と;
を含むことを特徴とする,デジタル録音方法。 - コンピュータに,
集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し,メモリに記憶するメモリ記憶工程と;
リアルタイムに,前記デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データを生成する統計データ生成工程と;
を実行させることを特徴とする,プログラム。 - コンピュータに,
集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し,メモリに記憶するメモリ記憶工程と;
前記デジタル音信号の特徴値を抽出し,該特徴値に応じて統計データをリアルタイムに生成する統計データ生成工程と;
を実行させるプログラムを記憶した,記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006017312A JP2007199337A (ja) | 2006-01-26 | 2006-01-26 | デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006017312A JP2007199337A (ja) | 2006-01-26 | 2006-01-26 | デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007199337A true JP2007199337A (ja) | 2007-08-09 |
Family
ID=38454015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006017312A Pending JP2007199337A (ja) | 2006-01-26 | 2006-01-26 | デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007199337A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010251937A (ja) * | 2009-04-14 | 2010-11-04 | Alpine Electronics Inc | 音声処理装置 |
JP2015206928A (ja) * | 2014-04-22 | 2015-11-19 | 富士通株式会社 | 音声処理装置、音声処理プログラムおよび音声処理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0335475A (ja) * | 1989-06-30 | 1991-02-15 | Sharp Corp | ディスク記録再生装置 |
JPH07283756A (ja) * | 1994-04-05 | 1995-10-27 | Sony Corp | 信号処理方法及び装置、並びに信号記録媒体 |
JP2004079112A (ja) * | 2002-08-21 | 2004-03-11 | Yamaha Corp | 録音再生方法及び録音再生装置 |
-
2006
- 2006-01-26 JP JP2006017312A patent/JP2007199337A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0335475A (ja) * | 1989-06-30 | 1991-02-15 | Sharp Corp | ディスク記録再生装置 |
JPH07283756A (ja) * | 1994-04-05 | 1995-10-27 | Sony Corp | 信号処理方法及び装置、並びに信号記録媒体 |
JP2004079112A (ja) * | 2002-08-21 | 2004-03-11 | Yamaha Corp | 録音再生方法及び録音再生装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010251937A (ja) * | 2009-04-14 | 2010-11-04 | Alpine Electronics Inc | 音声処理装置 |
JP2015206928A (ja) * | 2014-04-22 | 2015-11-19 | 富士通株式会社 | 音声処理装置、音声処理プログラムおよび音声処理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5917518B2 (ja) | 知覚スペクトルアンバランス改善のための音声信号動的補正 | |
JP2007133035A (ja) | デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 | |
US20060159283A1 (en) | Method and apparatus for audio bass enhancement | |
US20080292114A1 (en) | Audio reproducing apparatus | |
US9148104B2 (en) | Reproduction apparatus, reproduction method, provision apparatus, and reproduction system | |
WO2009055281A2 (en) | Hearing aid apparatus | |
US20150365061A1 (en) | System and method for modifying an audio signal | |
US6839675B2 (en) | Real-time monitoring system for codec-effect sampling during digital processing of a sound source | |
JP2007199337A (ja) | デジタル録音装置,デジタル録音方法,そのプログラムおよび記憶媒体 | |
JP2010081523A (ja) | 携帯端末、携帯端末の制御方法、及びプログラム | |
US9666196B2 (en) | Recording apparatus with mastering function | |
JP4311541B2 (ja) | オーディオ信号圧縮装置 | |
JPWO2007116755A1 (ja) | デジタル信号処理装置及び倍音生成方法 | |
US9240208B2 (en) | Recording apparatus with mastering function | |
JP2006173918A (ja) | 音声処理装置及び撮像装置 | |
JP2006350132A (ja) | オーディオ再生装置、オーディオ再生方法及びオーディオ再生プログラム | |
US20080225680A1 (en) | Data reproduction apparatus and data reproduction method | |
US8086448B1 (en) | Dynamic modification of a high-order perceptual attribute of an audio signal | |
JP6603725B2 (ja) | 音声信号生成装置、音声信号生成方法、及び、プログラム | |
JP2008065962A (ja) | データ記録装置 | |
JP4276716B2 (ja) | 音声データ記録再生装置 | |
JP6226166B2 (ja) | 音響再生装置 | |
JP2019161333A (ja) | 音声処理装置 | |
CN116964964A (zh) | 音频信号处理系统、扬声器和电子设备 | |
JP2007089029A (ja) | 音響信号圧縮装置および音響信号圧縮プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110301 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110913 |