JP2007199337A

JP2007199337A - デジタル録音装置，デジタル録音方法，そのプログラムおよび記憶媒体

Info

Publication number: JP2007199337A
Application number: JP2006017312A
Authority: JP
Inventors: Eiichi Yamada; 榮一山田
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-01-26
Filing date: 2006-01-26
Publication date: 2007-08-09

Abstract

【課題】録音完了した音声ファイルの正規化に要する処理を簡略化する。
【解決手段】本発明によるデジタル録音装置１００は，集音した音響をアナログ音信号に変換するマイクロホン１１０と，上記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するＡＤ変換器２０２と，上記ＡＤ変換器からデジタル音信号を取り込む制御部１５０と，上記取り込まれたデジタル音信号を記憶するメモリ２０４とを備え，上記制御部は，上記デジタル音信号をメモリに記憶する音信号記憶部２１０と，リアルタイムに，該デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データを生成する統計データ生成部２１２と，を含み，デジタル音信号をメモリに記憶すると同タイミングでそのデジタル音信号を形成する特徴値に基づく統計データをリアルタイムに生成する。
【選択図】図３

Description

本発明は，デジタル録音装置，デジタル録音方法，そのプログラムおよび記憶媒体にかかり，例えば，録音完了したデジタル音信号の加工を簡略化できるデジタル録音装置，デジタル録音方法，そのプログラムおよび記憶媒体に関する。

近年，汎用メモリの記憶容量は凄まじい勢いで増大している。このようにメモリ容量の制限が無くなりつつある背景を受けて，従来，アナログで処理していたものが日々デジタル化されている。例えば，音声等の音信号をアナログ信号のまま録音していたものが，音信号を一旦デジタル化して大容量のメモリに記憶する録音方式に移行してきている。このようにデジタル信号を用いて録音されたデジタル音信号は，記憶媒体の経年による音質の劣化が無く，複製を作る際にも高速のデジタル転送を利用することができる。

ところで，上記デジタル録音装置においては，ダイナミックレンジの許容範囲内で録音レベルが大きく異なる場合が存在する。従って，録音の機会毎に様々な録音レベルの音声ファイルが生成される。このように生成された音声ファイルは，音量が小さすぎて録音された音声が聞こえ難かったり，複数の音声ファイルを連続して再生するとその音量（録音レベル）の違いが目立ったりしていた。

上記の問題に対する解決策として，録音完了後の音声ファイルを一旦スキャンし直し，例えば，その音量の最大値が音量許容範囲に収まるように補正する技術が知られている（例えば，特許文献１）。かかる技術では，音声ファイル全ての音量を確認し直しているため，確実に音量の最大値を抽出でき，録音レベルが相違する音声ファイルを適切な音量で再生することが可能となる。

特開平２００３−７０３８号公報

しかし，上記の技術では，何れの音声ファイルに対しても，少なくとも一回，全体の信号レベルをスキャンする必要があり，その音声ファイルの再生時には，実際に音声を聞くまでに少なくともそのスキャンの時間分待機しなくてはならなかった。特に，メモリ容量の増加に追従して，音声ファイルそのものの情報量も増えつつある近年では，膨大な音声ファイルのスキャンに多大な時間が費やされることが予測される。

本発明は，従来の上記問題点に鑑みてなされたものであり，本発明の目的は，録音完了した音声ファイルの適切な音量への加工に要する処理を簡略化し，再生までの時間を短縮することが可能な，新規かつ改良されたデジタル録音装置，デジタル録音方法，そのプログラムおよび記憶媒体を提供することである。

上記課題を解決するために，本発明のある観点によれば，集音した音響をアナログ音信号に変換するマイクロホンと；上記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するＡＤ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌ）変換器と；上記ＡＤ変換器からデジタル音信号を取り込む制御部と；上記取り込まれたデジタル音信号を記憶するメモリと；を備え，上記制御部は，上記デジタル音信号をメモリに記憶する音信号記憶部と，リアルタイムに，該デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データを生成する統計データ生成部と，を含むことを特徴とする，デジタル録音装置が提供される。

上記デジタル録音装置は，マイクロホンにより集音された音響をデジタル音信号としてメモリに記憶し，その際，同じタイミングで，該デジタル音信号を形成する特徴値をリアルタイムに抽出し，抽出後直ぐに，その特徴値に基づく統計データを生成（更新）している。かかる構成では，メモリに記憶すると同時に（同タイミングで）統計データが生成されるので，録音完了時にはこの統計データも完成しており，録音完了後はいつでも完成された統計データを参照することができる。

上記特徴値は，デジタル音信号の絶対値であり，上記統計データは，抽出された全ての絶対値の最大値であっても良い。

音信号記憶部がデジタル音信号をメモリに記憶している間，即ち録音中に，上記統計データ生成部はデジタル音信号の絶対値が最大となる最大値を抽出する。かかる最大値の抽出は，統計データ生成部が，デジタル音信号の絶対値と前回サンプリングまでの最大値とを比較し，絶対値が最大値以上であるとき，該最大値に該絶対値を上書き（更新）することによって可能となる。また，上記最大値のみでは無く，絶対値が大きい順に複数個の値を保持するとしても良い。

上記統計データは，さらに上記最大値が発生した発生時間も含むとしても良い。

例えば，録音開始時や録音終了時には，比較的絶対値の大きい音信号が録音されがちであり，そのときの音信号に合わせて他の音信号のレベルも一律に上げることができないとするのは適当ではない。上記発生時間も統計データとして保持することによって，例えば，予め音量が大きくなると予測されている時間帯にある最大値を無視することができ，全体として最適な音量に調整することが可能となる。

上記特徴値は，デジタル音信号のピーク値であり，上記統計データは，抽出された全てのピーク値の平均値であっても良い。

音信号記憶部がデジタル音信号をメモリに記憶している間，上記統計データ生成部は，デジタル音信号のサンプリングした値からピーク値を抽出し，その平均値（平均ピーク値）をリアルタイムに演算する。現在サンプリングしたデジタル音信号から所定時間前までの平均ピーク値を求めることによって，全体的な録音レベルを把握することができる。

上記特徴値は，デジタル音信号の周波数成分のうち占有率が最大の周波数であるとしても良い。

音信号記憶部がデジタル音信号をメモリに記憶している間，上記統計データ生成部は，そのデジタル音信号の周波数成分を抽出し，その中で占有率の高い周波数成分を統計データとして随時保持する。この周波数は，占有率が一番高い周波数一つであっても良いし，占有率が高いものから複数個の周波数であっても良い。かかる録音完了後，特定の周波数成分を抜き出す，もしくは，削除するとき，その周波数成分を含む統計データを参照することにより，該当する周波数を含む部分のみを処理して目的を達成することができる。

上記音信号記憶部および統計データ生成部は，毎サンプリング実行されるとしても良い。かかる構成により，特徴値を確実に抽出することができ，漏れのない処理が可能となる。

上記統計データ生成部は，分割された所定期間毎に独立して統計データを生成するとしても良い。当該デジタル録音装置による録音時間が長い場合，録音開始時と録音終了時との間で録音状況が変化することがある。統計データ生成部は，分割された所定期間，例えば５分毎に新たな統計データを生成して，その所定時間毎に統計データを採取することができる。また，その所定期間と次の所定期間との補正レベルが相違する場合，その所定期間同士を滑らかに接続するとしても良い。

上記統計データは，絶対値の最大値等，単数で構成されるとしても良いし，上述した様々な統計データを複数同時に保持するとしても良い。

上記統計データは，録音が完了したデジタル音信号の正規化（Ｎｏｒｍａｌｉｚｅ）に利用されるとしても良い。例えば，統計データが最大値で表される場合，音声ファイル全体の録音レベルの最大値が，再生時の音量許容範囲の９０％になるように補正（増幅もしくは減衰）する。このとき，全体の録音レベルをスキャンし直すことなく，予め求められている統計データを直接参照することのみで正規化を実行できる。

分割された所定期間毎に独立して統計データが生成されている場合，上記正規化は，該所定期間毎に独立して実行されるとしても良い。

当該デジタル録音装置による録音時間が長い場合，録音開始時と録音終了時との間で録音状況が変化することがある。このとき，各所定期間の録音状況を絶対値の最大値や平均ピーク値によって把握し，例えば，各所定期間の間で，その値があまりに相違するようであれば，その所定期間毎の絶対値の最大値や平均ピーク値を正規化に適用することができる。

上記課題を解決するために，本発明の他の観点によれば，デジタル録音装置における制御部が，集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し，メモリに記憶するメモリ記憶工程と；リアルタイムに，上記デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データを生成する統計データ生成工程と；を含むことを特徴とする，デジタル録音方法が提供される。

また，コンピュータに上記デジタル録音方法を行わせるプログラムやそのプログラムを記憶した記憶媒体が提供される。

以上説明したように本発明によれば，録音完了した音声ファイルの正規化に要する処理を簡略化し，再生までの時間を短縮することが可能となる。

以下に添付図面を参照しながら，本発明の好適な実施の形態について詳細に説明する。なお，本明細書および図面において，実質的に同一の機能構成を有する構成要素については，同一の符号を付することにより重複説明を省略する。

音声等の音信号を録音，再生する技術として，集音した音信号を一旦デジタル信号に変換し，かつ大容量のメモリに記憶するデジタル録音方式がある。かかるデジタル録音方式では，その音の録音時に一旦デジタル化された音信号を再度アナログ信号に戻して出力している。

デジタル録音装置においては，その録音状況により，録音レベルが小さすぎて音声全体が聞こえ難かったり，複数の音声ファイルを連続して再生するとその録音レベルの違いが目立ったりしていた。従って，録音完了後の音声ファイルを一旦スキャンし直し，例えば，その音量の最大値が音量許容範囲に収まるように補正するといった処理を行っていた。

このような処理では，音声ファイル全ての録音レベルを確認し直しているので，確実に録音レベルの最大値を抽出できる反面，何れの音声ファイルに対しても，少なくとも一回，全体の信号レベルをスキャンする必要があり，その音声ファイルの再生時には，実際に音声を聞くまでにそのスキャン時間分待機しなくてはならなかった。

また，録音レベルを調整する方法として，デジタル録音装置におけるマイクロホンからのアナログ音信号がＡＤ変換器に入力される前に，利得制御（ゲインコントロール）によって録音レベルを調整する技術も知られている。

しかし，かかる技術では，アナログ音信号をフィードバックする構成により補正の時間遅延が生じ，また，その都度，信号の振幅調整を行っているので，録音状況の変化による全体的な音量の大小を把握することができず，音の遠近感，立体感が無くなっていた。また，利得制御されたデジタル音信号によってオリジナルの音声ファイルが生成されてしまうので，実際の音響を表す真のオリジナル音声ファイルはどこにも存在しないことになり，オリジナル音声ファイルを元にした加工もできなくなっている。かかる構成では，大きな音は大きく，小さい音は小さく聴きたいというユーザのニーズを満足させることができない。

図９は，このような従来のデジタル録音装置の録音機能に関する概略的な回路構成を示したブロック図である。かかるデジタル録音装置では，マイクロホンにおいて集音した音響がアナログ音信号に変換され，そのアナログ音信号をデジタル変換し，一旦ＲＡＭに記憶した後，そのデジタル音信号をメインメモリに転送している。以下で，このような電気信号の流れを具体的に説明する。

先ず，デジタル録音装置のマイクロホン１０は，そのマイクロホン１０周辺の音を集音し，アナログの電気信号（アナログ音信号）に変換する。上記マイクロホン１０としては，振動板とボイスコイルを利用したダイナミックマイクロホンや，振動板とコンデンサを一体形成したコンデンサマイクロホン等が適用され，特にデジタル録音装置のような小型機器にはコンデンサマイクロホンが利用される傾向にある。

マイクロホン１０から出力されたアナログ音信号は，ＡＧＣ（ＡｕｔｏＧａｉｎＣｏｎｔｒｏｌｌｅｒ）１２を通じてＡＤ変換器１４に入力される。このＡＤ変換器１４の分解能は，任意に選択することが可能であるが，一般に２の累乗で表され，ここでは３２ｂｉｔが適用される。

ＡＤ変換器１４においてサンプリングされたアナログ音信号は，３２ｂｉｔのデジタル音信号に変換され，データ処理部２０内のＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）２２に伝達される。このときＡＤ変換器１４は，変換処理と並行して，そのアナログ音信号の絶対量を，アナログもしくはデジタルの信号でレベル検出器１６に伝達する。

レベル検出器１６がその音信号の大きさに応じてＡＧＣ１２の利得を調整するので，ＡＤ変換器１４は，適切なレベルのアナログ音信号を得ることができる。このように適切なレベルに調整されたデジタル音信号がＤＳＰ２２に伝達され，ＤＳＰ２２は，さらにフィルタリング等の加工を行って，音信号をＲＡＭ２４に記憶する。

当該デジタル録音装置は，図９に示すように右方向の音を集音するマイクロホンと左方向の音を集音するマイクロホンとを備え，その両方向の音から生成されたデジタル音信号はお互いに独立してＲＡＭ２４に記憶される。従って，ＲＡＭ２４は，左方向のデジタル音信号を記憶する領域２６と，右方向のデジタル音信号を記憶する領域２８とを有することとなる。そして，上記記憶されたデジタル音信号は，最終的にメインメモリ３０に転送される。

また，音信号の録音開始や録音終了等の指令，および記憶先のフォルダ等の指示を，ｋｅｙ３２を利用して行い，その指示が正しくデジタル録音装置に認識されているかどうかをＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）３４で確認することができる。

また，上記デジタル録音装置への録音が完了した後，その録音された音を再生しようと試みたとき，その録音レベルを所定の再生レベルに補正する，所謂正規化を行うことができる。

図１０は，音声ファイルを正規化する手順を説明した説明図である。先ず，図１０の（ａ）に示したデジタル録音装置５０は，音声を録音し，図１０（ｂ）に示すような音声が圧縮された圧縮音声ファイル５２を生成する。このようにデジタル録音装置５０で生成された圧縮音声ファイル５２は，デジタル録音装置５０からＵＳＢインターフェース等を介して直接的に，もしくは，メモリカードにより間接的に，パーソナルコンピュータ（ＰＣ）にダウンロードされる。

パーソナルコンピュータでは，対応するＰＣアプリケーションで圧縮音声ファイル５２をデコードし，図１０（ｃ）に示すリニアＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データ５４を取り出す。上記取り出されたリニアＰＣＭデータ５４だけでも音声として聴くことはできるが，録音感度のバラツキを補正するため正規化を行う。

上記正規化は，例えば，再生信号の最大値を飽和させることなく音質を維持したままで，全体的な再生レベルを上げることによって実行される。このような正規化では，先ず，リニアＰＣＭデータ５４全てをスキャンし，その絶対値の最大値Ａ_ｍａｘを抽出する。従って，図１０（ｃ）に示したリニアＰＣＭデータ５４全体を少なくとも１回スキャンし，最大値Ａ_ｍａｘを導出しなくてはならない。

続いて，導出した最大値Ａ_ｍａｘを利用して正規化を行う。具体的には，この最大値Ａ_ｍａｘが音量許容範囲ＦＳの所定比率Ｎ％に収まるように，デジタル音信号全体を補正する。従って，正規化されたデジタル音信号は，元のデジタル音信号に（ＦＳ×Ｎ％／Ａ_ｍａｘ）を乗算して生成される。

図１０（ｄ）に示す，新たに生成されたリニアＰＣＭデータ５６は，リニアＰＣＭデータ５４の振幅を増幅したものである。このように振幅が増幅されたリニアＰＣＭデータ５６は，音量許容範囲ＦＳ以内に収まり，かつ，十分に大きな音量を表現する。最後に，生成されたリニアＰＣＭデータ５６を再エンコードし，図１０（ｅ）に示すような圧縮音声ファイル５８を生成する。

このとき，最終的な目的が音声ファイルの再生のみであれば，絶対値の最大値Ａ_ｍａｘを利用して，図１０（ｃ）の状態のリニアＰＣＭデータ５４をリアルタイムに正規化しつつ再生を行うこともできる。

上述した図１０の（ｂ）圧縮音声ファイルのデコード，（ｃ）音声ファイル全体のスキャニング，（ｄ）正規化演算，（ｅ）再エンコードには，通常，かなりの時間を要し，特に，メモリ容量の増加に追従して音声ファイルそのものの情報量も増えつつある近年では，膨大な音声ファイルのスキャンに多大な時間が費やされる。また，上記再エンコードにおいては，圧縮アルゴリズムによる音質の劣化も生じる。

本発明の実施形態では，上述したデジタル音信号の正規化処理，特に，正規化に用いる統計データの抽出時間を削除し，録音完了した音声ファイルの適切な音量への加工に要する処理時間を短縮可能なデジタル録音装置を提供する。以下に，本発明の実施形態によるデジタル録音装置を詳細に説明する。

（第１の実施形態：デジタル録音装置１００）
図１は，デジタル録音装置１００の外観を示した外観図である。図１に示された，通称ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）レコーダと呼ばれるデジタル録音装置１００は，ユーザが様々な場所に持ち運ぶことができるように小型，軽量に形成され，様々な音を録音することができる。

ここで，デジタル録音装置１００は，筐体１０２の表面に，筐体１０２上部から，右チャンネル用マイクロホン１１０と，左チャンネル用マイクロホン１１２と，金属カバー１１４と，左チャンネル用のＶＵ（ＶｏｌｕｍｅＵｎｉｔ）メーター１１６と，右チャンネル用のＶＵメーター１１８と，ヘッドホン端子１２０と，ボリューム調整摘み１２２と，録音レベル調整摘み１２４と，ＬＣＤ１２６と，操作ボタン群１３０とを含んで構成される。

上記右チャンネル用マイクロホン１１０および左チャンネル用マイクロホン１１２は，当該デジタル録音装置１００の周辺の，各マイクロホンが指向する方向の音をそれぞれ独立して集音する。上記金属カバー１１４は，弧状の金属材料で，右チャンネル用マイクロホン１１０および左チャンネル用マイクロホン１１２を覆うように形成され，両マイクロホン１１０，１１２を保護する。

左チャンネル用のＶＵメーター１１６および右チャンネル用のＶＵメーター１１８は，左右それぞれのチャンネル用マイクロホン１１０，１１２で集音した音の音量を表示する。上記ヘッドホン端子１２０は，録音された音信号の出力端子であり，ボリューム調整摘み１２２は，その音信号の出力音量を調整できる。

また，上記録音レベル調整摘み１２４は，デジタル録音装置１００の音信号の入力レベルを調整する摘みであり，ユーザが，その録音状況に応じて自由に調整することが可能である。例えば，ユーザは，大音量入力が予想される場合，その入力レベル（感度）を下げ，小さい音の集音を所望する場合，その入力レベルを上げる。通常は，入力レベルのフルスケールに対して−１２ｄＢ程度に設定することが多い。

また，上記ＬＣＤ１２６は，録音機能を含む各機能を遂行するための案内や，上記ボリューム調整摘み１２２により調整された音量の絶対値等を表示する。

上記操作ボタン群１３０は，再生ボタン１３０Ａ，停止ボタン１３０Ｂ，録音ボタン１３０Ｃ，一時停止ボタン１３０Ｄ，早送りボタン１３０Ｅ，早戻しボタン１３０Ｆ，メニューボタン１３０Ｇ，ファイル分割ボタン１３０Ｈおよび照明ボタン１３０Ｉに分けられ，ユーザの所望する操作を受け付ける。

デジタル録音装置１００は，例えば，サンプリングレート９６［ｋＨｚ］，量子化ビット数３２ビットの能力を有するＡＤ変換器を利用して，音声等の音をステレオ（２チャンネル）入力し，さらに４．６［Ｍｂｐｓ］といった高ビットレートのデータに符号化し非圧縮または圧縮した音声ファイルとして保存することができる。かかる構成により，楽器の演奏や人の歌声等のように品質が要求される音声を高音質に録音し得る。

次に，デジタル録音装置１００の全体的な電気的な流れを説明する。

図２は，デジタル録音装置１００の全体的な回路構成を示したブロック図である。上記デジタル録音装置１００は，制御部１５０と，操作ボタン群１３０と，右チャンネル用マイクロホン１１０と，左チャンネル用マイクロホン１１２と，フラッシュメモリ１５２と，マイクロホンアンプ１５４と，ＡＤ／ＤＡ変換器１５６と，ＬＣＤ１２６と，ヘッドホンアンプ１５８と，ＵＳＢインターフェース１６０とを含んで構成される。

上記制御部１５０は，ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１６２およびＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）１６４を含んで形成され，デジタル録音装置１００全体を制御する。上記ＣＰＵ１６２は，ユーザが押圧した操作ボタン群１３０の各種ボタン１３０Ａ〜１３０Ｉを認識し，その操作に応じた処理を行う。

例えば，録音ボタン１３０Ｃがユーザによって押圧されると，ＣＰＵ１６２は，その時の日付や時刻等に対応したファイル名からなる音声ファイルをフラッシュメモリ１５２に作成し，デジタル音信号を格納するために当該音声ファイルを開く。

また，ＣＰＵ１６２は，ユーザの録音開始指示に従って，右チャンネル用マイクロホン１１０および左チャンネル用マイクロホン１１２に対して電力の供給を開始し，周囲の音声（音声や楽器の音等）を集音する。このように集音された音はアナログ音信号に変換され，さらにマイクロホンアンプ１５４を介してＡＤ／ＤＡ（ＡｎａｌｏｇｔｏＤｉｇｉｔａｌ／ＤｉｇｉｔａｌｔｏＡｎａｌｏｇ）変換器１５６に入力され，デジタル音信号としてＤＳＰ１６４に伝達される。

ＤＳＰ１６４は，入力されたデジタル音信号を，所定の時間単位毎に線形符号化処理を施し，非圧縮の場合には２チャンネル分のデータを１つにまとめることによって，リニアＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）方式の符号化データを生成，圧縮時にはＤＳＰ１６４で音声圧縮を行い，これらをフラッシュメモリ１５２に順次記憶する。このときＣＰＵ１６２は，上記符号化データをフラッシュメモリ１５２の音声ファイルに格納して，当該音声ファイルのファイルサイズを増加させる。

また，録音中のもしくは録音された音信号を再生する際には，ユーザはＬＣＤ１２６を参照しつつ再生ボタン１３０Ａを押圧し，ＤＳＰ１６４が，かかるユーザの操作に応じてフラッシュメモリ１５２に記憶された音声ファイルからデジタル音信号をロードし，ＡＤ／ＤＡ変換器１５６が，そのデジタル音信号をアナログ音信号に変換する。こうして生成されたアナログ音信号は，ヘッドホンアンプ１５８およびヘッドホン端子１２０を通じて，外部のヘッドホン１７０に伝達される。ユーザは，かかるヘッドホン１７０から上記音信号を聴くことが可能となる。

また，ＣＰＵ１６２は，ＵＳＢインターフェース１６０がＵＳＢケーブル（図示せず）によりパーソナルコンピュータと接続されたことを認識すると，動作モードを，上述した録音処理等をデジタル録音装置１００単体で行い得る「単独動作モード」から「ストレージモード」に自動的に変更する。この様にして，フラッシュメモリ１５２は当該パーソナルコンピュータの外部ストレージとして利用できるようになり，ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）から１つのドライブとして認識され得る。

このときパーソナルコンピュータは，フラッシュメモリ１５２に格納されている音声ファイルとして認識することができる。

その後，ＵＳＢインターフェース１６０からＵＳＢケーブル（図示せず）が取り外されたことをＣＰＵ１６２が認識すると，ＣＰＵ１６２は，動作モードを「ストレージモード」から「単独動作モード」に自動的に戻し，再度，上述した録音処理等の各種処理をデジタル録音装置１００単体で行い得るようになる。

図３は，第１の実施形態におけるデジタル録音装置１００の特徴部分を詳細に示した機能ブロック図である。上記デジタル録音装置１００の録音処理に関する録音ブロックは，マイクロホン１１０と，マイクロホンアンプ１５４と，ＡＤ変換器２０２と，制御部１５０と，メモリ２０４とを含んで構成される。

上記マイクロホン１１０は，集音した音響をアナログ音信号に変換する。また，上記マイクロホンアンプ１５４は，マイクロホン１１０から得られるアナログ音信号を，Ａ／Ｄ変換器２０２がサンプリングするのに十分な電圧または電流になるように増幅する。

上記ＡＤ変換器２０２は，例えば，ΔΣ（デルタシグマ）方式による３２ｂｉｔの分解能を有するＡｎａｌｏｇｔｏＤｉｇｉｔａｌＣｏｎｖｅｒｔｅｒ等から形成され，マイクロホン１１０で変換されマイクロホンアンプ１５４を介して入力されたアナログ音信号をデジタル音信号に変換する。また，かかるＡＤ変換器２０２のサンプリングレートは，例えば，４４．１ｋＨｚや９６ｋＨｚとしても良く，サンプリング周期は１０〜２３μｓｅｃ程度となる。

このような３２ｂｉｔのＡＤ変換器２０２は，１９３ｄＢのダイナミックレンジを有しており，人間が音と感ずる音圧レベルである０〜１２０ｄＢの音を拾うには十分な分解能である。

上記制御部１５０は，音信号記憶部２１０と，統計データ生成部２１２とを含んで形成される。上記音信号記憶部２１０は，ＡＤ変換器２０２からデジタル音信号を取り込み，デジタル音信号をメモリ２０４に記憶する。また，上記統計データ生成部２１２は，取り込まれたデジタル音信号の特徴値をリアルタイムに抽出し，該特徴値に応じて統計データを生成する。特徴値および統計データに関しては後で詳細に説明する。このような音信号記憶部２１０および統計データ生成部２１２は，サンプリング毎に実行することができ，特徴値を確実に抽出することで漏れのない処理が可能となる。

図４は，上記統計データ生成部２１２の処理を説明するためのタイミングチャートである。図４を参照すると，マイクロホン１１０から入力されたアナログ信号の絶対値が最初に最大となる点３００において最大値が登録される。次に，アナログ音信号の絶対値がこの最大値以上になる点３０２において，当該絶対値を新たな最大値として上書きする。その後，さらにアナログ音信号の絶対値が，上記上書きされた最大値を超える点３０４で，最大値がさらにその絶対値に書き換えられる。この最大値の更新と同時に，その発生時間も記憶することができる。かかるタイミングチャートで示したデジタル音信号は，理解を容易にするため正弦波を利用しているが，実際の音信号はかかる場合に限られず，様々な周波数の信号が混在した波形で表される。

上記メモリ２０４は，ＲＡＭ，Ｅ^２ＰＲＯＭ，不揮発性ＲＡＭ，フラッシュメモリ，カードメモリ，ＵＳＢメモリ，ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶媒体から形成され，ＡＤ変換器２０２から制御部１５０を介して取り込まれたデジタル音信号を記憶する。

このようにメモリ２０４に記憶されたデジタル音信号および統計データ生成部２１２によって生成（更新）された統計データは，録音が完了した後に行われるデジタル音信号の正規化に利用される。

例えば，統計データがデジタル音信号の最大値で表される場合，音声ファイル全体の音量（録音レベル）の最大値Ａ_ｍａｘが音量許容範囲ＦＳの所定比率Ｎ％に収まるように，デジタル音信号全体を補正する。従って，正規化されたデジタル音信号は，元のデジタル音信号に（ＦＳ×Ｎ％／Ａ_ｍａｘ）を乗算することとなる。かかる所定比率は例えば９０％とすることができる。

このとき，全体の信号レベルをスキャンすることなく，録音時に予め求められている統計データを参照することができるので，少なくとも，音声ファイル全体のスキャニング処理を省略することが可能となる。

このようにデジタル録音装置１００は，マイクロホン１１０により集音された音響をデジタル音信号としてメモリ２０４に記憶し，同じタイミングで，そのデジタル音信号を形成する特徴値を抽出し，その特徴値に基づく統計データをリアルタイムに生成している。

かかる構成では，メモリ２０４に記憶すると同時に統計データが生成されるので，録音完了時にはこの統計データも完成しており，録音完了後はいつでも完成された統計データを参照することができる。また，上記統計データの生成時には，デジタル音信号そのものを加工していないので，オリジナルのデジタル音信号は保持されたままであり，正規化を含む様々な加工を事後的に行うことが可能となる。

上記統計データは，デジタル音信号と同じファイルに記憶されるとしても良く，また，上記メモリに独立して格納され，かつ随時参照されるとしても良い。

図５は，本実施形態における圧縮音声ファイルのデータ構成を示した説明図である。図５を参照すると，圧縮音声ファイル３５０は，上記統計データ３６０と，デジタル音信号としての圧縮音声データ３６２とからなる。このとき統計データ３６０中には，図に示したようなデジタル音信号の最大値や平均ピーク値３６４等が含まれる。

また，統計データ３６０は，上記最大値や平均ピーク値以外にも様々なデータを適用することができる。例えば，他の統計データとして，最大値が生じた発生時間，占有率の高い周波数成分等を挙げることができる。また，統計データは，このような複数のデータを一度に有することも可能である。統計データに関する詳細は以下で説明する。

（絶対値の最大値，発生時間）
例えば，特徴値をデジタル音信号の絶対値とすると，図４を参照して説明したように，統計データ生成部２１２は，デジタル音信号の絶対値が，それまでサンプリングした中の最大値以上であるとき，最大値を更新する。ここでは最大値が統計データである。

音信号記憶部２１０がデジタル音信号をメモリに記憶している間，即ち録音中に，統計データ生成部２１２はデジタル音信号の絶対値の最大値を抽出する。データ生成部２１２は，現在サンプリングした絶対値と前回サンプリングまでの最大値とを比較し，その値が大きい方を新たな最大値として更新する。こうして最大値をリアルタイムに導出することが可能となる。

また，統計データ生成部２１２は，絶対値の最大値のみでは無く，絶対値が大きい順に複数個の値を保持するとしても良い。例えば，絶対値が最大から５点採取される場合を考えると，最大値が妥当性の見地から誤っている可能性があると判断される場合，２番目の値を採用したり，また，最大値と他の４つの値がかけ離れている場合，最大値の点を特異点として無視し，２番目の値により正規化したりすることができる。

さらに統計データ生成部２１２は，デジタル音信号の最大値に加えて，その最大値が発生した発生時間を更新するとしても良い。

例えば，録音開始時や録音終了時には，比較的絶対値の大きい音信号が録音されがちであり，そのときの音信号を基準に正規化を行うと，増幅率を高くとることができず，他の音信号のレベルが小さいままとなってしまう。上記発生時間も統計データとして保持することによって，例えば，予め音量が大きくなると予測されている時間帯にある最大値を無視するとすることができ，全体として最適な音量に調整することが可能となる。

このような録音開始時や録音終了時の最大値を無視することは，音声ファイルを正規化する時点で行っても良いし，録音開始時や録音終了時の一定期間，最大値の更新を中断（停止）することによって行うとしても良い。

また，統計データ生成部２１２は，分割された所定期間毎に独立して統計データを生成するとしても良い。これは，例えば，５分置きに新たに統計データを採り直すことであり，統計データは，５分単位で生成されることとなる。

図６は，所定期間毎に独立して統計データを生成する例を示したタイミングチャートである。かかるタイミングチャートは，５分毎に統計データを確定し，次の５分では前回の統計データとは別に新たな統計データを生成する。例えば，最初のフレーム１では，絶対値の最大はピーク点４０２となり，続くフレーム２ではピーク点４０４，フレーム３ではピーク点４０６，フレーム４ではピーク点４０８となる。

当該デジタル録音装置１００による録音時間が長い場合，録音開始時と録音終了時との間で録音状況が変化することがある。統計データ生成部２１２は，例えば５分毎に新たな統計データを生成するので，音声ファイルの正規化においても，５分毎に最適な再生レベルを提供することができる。

従って，図６の例においては，フレーム１やフレーム４のデジタル音信号が，フレーム２やフレーム３のデジタル音信号より高い倍率で増幅され，再生レベルを全体的に均等にすることができる。

図７は，録音時間を所定期間に分割した場合の圧縮音声ファイルのデータ構成を示した説明図である。図７を参照すると，圧縮音声ファイル４５０は，上記統計データ４６０と，デジタル音信号としての圧縮音声データ４６２とからなる。このとき統計データ４６０中には，フレーム４６４，４６６，４６８，４７０毎にデジタル音信号の最大値や平均ピーク値等が含まれている。

また，そのフレームと次のフレームとの補正レベルが相違する場合，例えば，前の５分の最大値と比較して，次の最大値が２倍になった場合に，各フレームにおける増幅率の比が２：１となり，フレームの繋ぎ目で再生レベルが不自然に変化する。本実施形態では，そのフレーム同士の信号を滑らかに変化させて接続するとしても良い。この接続は，線形および非線形の関数を利用し，値を漸増もしくは漸減することで成される。

（平均ピーク値）
例えば，特徴値はデジタル音信号のピーク値であり，上記統計データは，抽出された全てのピーク値の平均値であっても良い。

音信号記憶部２１０がデジタル音信号をメモリに記憶している間，統計データ生成部２１２は，デジタル音信号のサンプリングした値からピーク値を抽出し，その平均値（平均ピーク値）をリアルタイムに演算する。現在サンプリングしたデジタル音信号から所定時間前までの平均ピーク値を求めることによって，全体的な録音レベルを把握することができる。ここで，上記ピーク値は，デジタル音信号に生じる個々の波形の最大値もしくは最小値の絶対値と定義しても良い。

（占有率の高い周波数成分）
例えば，特徴値はデジタル音信号の周波数成分のうち占有率が最大の周波数であるとしても良い。

音信号記憶部２１０がデジタル音信号をメモリに記憶している間，統計データ生成部２１２は，そのデジタル音信号の周波数成分を抽出し，その中で占有率の高い周波数成分を統計データとして保持する。この周波数は，占有率が一番高い周波数一つであっても良いし，占有率が高いものから複数個の周波数であっても良い。かかる録音完了後，特定の周波数成分を抜き出す，もしくは，削除するとき，その周波数成分を含む統計データを参照することにより，該当する周波数を含まない部分は処理することなく，即ち，該当する周波数を含む部分のみを抜き出すもしくは削除する処理を行うことができる。

上述したデジタル録音装置においては，再生時に正規化等の補正はされるものの，録音時の録音レベルを的確に表現したオリジナル音声ファイルが残されるため，録音状況の変化による全体的な音量の大小を把握することができ，音の遠近感，立体感も確認することが可能となる。

（第２の実施形態：デジタル録音方法）
続いて，音声等の音を連続して記憶することが可能なデジタル録音装置１００を利用してデジタル録音を行うと共に統計データを生成するデジタル録音方法の詳細な動作を説明する。

図８は，第２の実施形態におけるデジタル録音方法の流れを示したフローチャート図である。本実施形態では，制御部１５０に入力されたデジタル音信号をメモリ２０４に記憶し，そのデジタル音信号に統計データを付与する。

先ず，制御部１５０は，集音した音響をアナログ音信号に変換するマイクロホン１１０からの該アナログ音信号がＡＤ変換器２０２によって変換されたデジタル音信号を取り出し（Ｓ５００），メモリ２０４に記憶する（Ｓ５０２）。

続いて，最大値やその発生時間を取得するため，制御部１５０によって取り出されたデジタル信号の絶対値と，それまでの最大値とを比較し（Ｓ５０４），絶対値が最大値より大きい場合，その絶対値を新たな最大値として上書きし，その絶対値が発生した時間を発生時間として記憶する（Ｓ５０６）。

次に，平均ピーク値を取得するため，統計データ生成部２１２は，現時点で採取した上記デジタル音信号までの所定時間におけるデジタル音信号の平均ピーク値を計算し（Ｓ５０８），この平均ピーク値をデジタル音信号と共にメモリ２０４に記憶する（Ｓ５１０）。

続いて，占有率の高い周波数成分を取得するため，統計データ生成部２１２は，上記デジタル音信号の周波数成分を抽出し（Ｓ５１２），その中で占有率の高い周波数成分を統計データとして，デジタル音信号と共にメモリ２０４に記憶する（Ｓ５１４）。

上記デジタル録音方法により，統計データとしての絶対値の最大値，発生時間，平均ピーク値，占有率の高い周波数成分等を生成および記憶することができる。このような統計データが予め生成される構成により，録音完了した音声ファイルの適切な音量への加工に要する処理を簡略化でき，再生までの時間を短縮することが可能となる。

また，コンピュータに上述したデジタル録音方法を行わせるプログラムやそのプログラムを記憶した記憶媒体も提供される。

以上，添付図面を参照しながら本発明の好適な実施形態について説明したが，本発明は係る例に限定されないことは言うまでもない。当業者であれば，特許請求の範囲に記載された範疇内において，各種の変更例または修正例に想到し得ることは明らかであり，それらについても当然に本発明の技術的範囲に属するものと了解される。

なお，本明細書のデジタル録音方法における各工程は，必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく，並列的あるいは個別に実行される処理（例えば，並列処理あるいはオブジェクトによる処理）も含むとしても良い。

デジタル録音装置の外観を示した外観図である。デジタル録音装置の全体的な回路構成を示したブロック図である。第１の実施形態におけるデジタル録音装置の特徴部分を詳細に示した機能ブロック図である。統計データ生成部の処理を説明するためのタイミングチャートである。第１の実施形態における圧縮音声ファイルのデータ構成を示した説明図である。である。所定期間毎に独立して統計データを生成する例を示したタイミングチャートである。録音時間を所定期間に分割した場合の圧縮音声ファイルのデータ構成を示した説明図である。第２の実施形態におけるデジタル録音方法の流れを示したフローチャート図従来のデジタル録音装置の録音機能に関する概略的な回路構成を示したブロック図である。音声ファイルを正規化する手順を説明した説明図である。

符号の説明

１０，１１０，１１２マイクロホン
１４，２０２ＡＤ変換器
３０，２０４メモリ
５０，１００デジタル録音装置
１５０制御部
２１０音信号記憶部
２１２統計データ生成部

Claims

集音した音響をアナログ音信号に変換するマイクロホンと；
前記マイクロホンが変換したアナログ音信号をデジタル音信号に変換するＡＤ変換器と；
前記ＡＤ変換器からデジタル音信号を取り込む制御部と；
前記取り込まれたデジタル音信号を記憶するメモリと；
を備え，
前記制御部は，前記デジタル音信号をメモリに記憶する音信号記憶部と，リアルタイムに，該デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データを生成する統計データ生成部と，を含むことを特徴とする，デジタル録音装置。
前記特徴値は，デジタル音信号の絶対値であり，
前記統計データは，抽出された全ての絶対値の最大値であることを特徴とする，請求項１に記載のデジタル録音装置。
前記統計データは，さらに前記最大値が発生した発生時間も含むことを特徴とする，請求項２に記載のデジタル録音装置。
前記特徴値は，デジタル音信号のピーク値であり，
前記統計データは，抽出された全てのピーク値の平均値であることを特徴とする，請求項１に記載のデジタル録音装置。
前記特徴値は，デジタル音信号の周波数成分のうち占有率が最大の周波数であることを特徴とする，請求項１に記載のデジタル録音装置。
前記音信号記憶部および統計データ生成部は，毎サンプリング実行されることを特徴とする，請求項１に記載のデジタル録音装置。
前記統計データ生成部は，分割された所定期間毎に独立して統計データを生成することを特徴とする，請求項１に記載のデジタル録音装置。
前記統計データは，録音が完了したデジタル音信号の正規化に利用されることを特徴とする，請求項１に記載のデジタル録音装置。
分割された所定期間毎に独立して統計データが生成されている場合，前記正規化は，該所定期間毎に独立して実行されることを特徴とする，請求項８に記載のデジタル録音装置。
デジタル録音装置における制御部が，
集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し，メモリに記憶するメモリ記憶工程と；
リアルタイムに，前記デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データを生成する統計データ生成工程と；
を含むことを特徴とする，デジタル録音方法。
コンピュータに，
集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し，メモリに記憶するメモリ記憶工程と；
リアルタイムに，前記デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データを生成する統計データ生成工程と；
を実行させることを特徴とする，プログラム。
コンピュータに，
集音した音響をアナログ音信号に変換するマイクロホンからの該アナログ音信号をデジタル音信号に変換し，メモリに記憶するメモリ記憶工程と；
前記デジタル音信号の特徴値を抽出し，該特徴値に応じて統計データをリアルタイムに生成する統計データ生成工程と；
を実行させるプログラムを記憶した，記憶媒体。