JP2011119783A - 音声信号処理装置 - Google Patents

音声信号処理装置 Download PDF

Info

Publication number
JP2011119783A
JP2011119783A JP2009272576A JP2009272576A JP2011119783A JP 2011119783 A JP2011119783 A JP 2011119783A JP 2009272576 A JP2009272576 A JP 2009272576A JP 2009272576 A JP2009272576 A JP 2009272576A JP 2011119783 A JP2011119783 A JP 2011119783A
Authority
JP
Japan
Prior art keywords
audio
audio signal
unit
audio signals
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009272576A
Other languages
English (en)
Other versions
JP5645393B2 (ja
JP2011119783A5 (ja
Inventor
Tomohito Inoue
友仁 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2009272576A priority Critical patent/JP5645393B2/ja
Publication of JP2011119783A publication Critical patent/JP2011119783A/ja
Publication of JP2011119783A5 publication Critical patent/JP2011119783A5/ja
Application granted granted Critical
Publication of JP5645393B2 publication Critical patent/JP5645393B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 マイクにより入力された音声信号のレベルの調整処理を、ユーザ使用環境下でも最適に実行できるようにする。
【解決手段】 複数の音声信号の極性が同じである期間を検出し、検出された期間における、前記増幅された複数の音声信号それぞれのピーク値を検出し、複数の音声信号のピーク値が相互に近づくように、各音声信号のレベルを制御する。
【選択図】 図2

Description

本発明は、音声信号処理装置に関し、特に、装置に入力された音声信号のレベルを補正する装置に関する。
従来、音声信号を処理する装置として、画像信号を記録すると共に音声信号を記録する撮像装置が知られている。これらの撮像装置では、外部の音声を集音し音声信号を生成するための複数のマイクエレメントからなる内蔵マイクユニットが備えられている。また、外部の音声を集音し音声信号を生成するための複数のマイクエレメントからなる外部マイクユニットを装着するためのマイク端子が備えられている。しかし、これらのマイクユニットに含まれている複数のマイクエレメントは、個体差があり感度が相互にずれてしまうことがあった。この様な感度のずれは、マイクエレメントにより得られた音声信号を演算させて、仮想的な音声信号を生成する際に、指向性がずれてしまう原因になってしまうことがあった。また、この様に感度のずれた音声は、耳障りな音声となってしまうこともあった。
このような問題に対し、従来、マイクエレメントから入力された音声信号を増幅することで、感度を仮想的に合わせていた。そのために、複数のマイクエレメントから入力された音声信号の絶対値を常に比較し、差が0に近づくように音声信号のレベルを補正し続けるものがあった(例えば特許文献1)。
特開平7−131886号公報
しかし、従来の方式では、例えば、音声の到来方向が不明な環境下では、比較する音声信号同士の位相が合わず、正確に補正量を決定することができなくなってしまう場合があった。
そこで、本発明は、ユーザが通常に撮影(集音)する環境下でも、音声信号のレベル調整の正確性を向上させることができる音声処理装置を提供することを目的とする。
本発明の音声処理装置は、かかる目的を達成するために、複数の音声信号を入力する入力手段と、前記入力手段により入力された複数の音声信号を処理する音声処理手段であって、前記入力手段により入力された音声信号のレベルを調整値に基づいて調整する調整手段を有する音声処理手段と、前記音声処理手段から出力された複数の音声信号が同じ極性である期間を検出する検出手段と、前記検出手段により検出された期間における、前記音声処理手段から出力された複数の音声信号それぞれのピーク値を検出するピーク検出手段と、前記ピーク検出手段の検出結果に基づいて、前記音声処理手段から出力された複数の音声信号のピーク値が相互に近づくように、前記調整手段における調整値を制御する制御手段とを有することを特徴とする。
本発明によれば、ユーザが通常に撮影(集音)する環境下でも、音声信号のレベル調整の正確性を向上させることができる。
実施例1の撮像装置のブロック図である。 実施例1の音声入力部102のブロック図である。 音声信号の遅延とピーク値について説明するための図である。
以下、図面を参照して本発明の実施例を詳細に説明する。
音声信号を処理、録音することができる音声信号処理装置として、撮像装置について説明する。
図1は、実施例1の撮像装置100の構成を示すブロック図である。
図1において、撮像部101は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。音声入力部102は、内蔵または音声端子を介して接続された複数のマイクにより、撮像装置100の周辺の音声を集音し、アナログデジタル変換、音声処理などを行い音声データを生成する。メモリ103は、撮像部101により得られた画像データや、音声入力部102により得られた音声データを一時的に記憶する。表示制御部104は、撮像部101により得られた画像データに係る映像や、撮像装置100の操作画面、メニュー画面等を表示部105や、不図示の映像端子を介して外部のディスプレイに表示させる。符号化処理部106は、メモリ103に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。記録再生部107は、記録媒体108に対して、符号化処理部106で生成された圧縮画像データ、圧縮音声データ等を記録したり、記録媒体108に記録された圧縮画像データ、圧縮音声データ、各種データ、プログラムを読み出す。ここで、記録媒体108は、圧縮画像データ、圧縮音声データ、等を記録することができれば、磁気ディスク、光学式ディスク、半導体メモリなどのあらゆる方式の記録媒体を含む。
制御部109は、撮像装置100の各ブロックに制御信号を送信することで撮像装置100の各ブロックを制御することができ、各種制御を実行するためのCPUやメモリなどからなる。操作部110は、ボタンやダイヤルなどからなり、ユーザの操作に応じて、指示信号を制御部109に送信する。音声出力部111は、記録再生部107により再生された圧縮音声データや、制御部109により出力される音声データをスピーカ112や音声端子などに出力する。外部出力部113は、記録再生部107により再生された圧縮映像データや圧縮音声データなどを外部機器に出力する。データバス114は、音声データや画像データ等の各種データ、各種制御信号を撮像装置100の各ブロックに供給する。
ここで、本実施例の撮像装置100の通常の動作について説明する。
本実施例の撮像装置100は、ユーザが操作部110を操作して電源を投入する指示が出されたことに応じて、付図示の電源供給部から、撮像装置の各ブロックに電源を供給する。
電源が供給されると、制御部109は、例えば、操作部110のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードであるかを操作部110からの指示信号により確認する。動画記録モードでは、撮像部101により得られた画像データと音声入力部102により得られた音声データとを1つのファイルとして保存することができる。再生モードでは、記録媒体108に記録された圧縮画像データを記録再生部107により再生して表示部105に表示させることができる。
動画記録モードでは、まず、制御部109は、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送信し、以下のような動作をさせる。
撮像部101は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示処理部104に送信し、表示部105に表示させる。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。
音声入力部102は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部111に送信し、接続されたスピーカ112や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。
次に、ユーザが操作部110の記録ボタンを操作することにより撮影開始の指示信号が制御部109に送信されると、制御部109は、撮像装置100の各ブロックに撮影開始の指示信号を送信し、以下のような動作をさせる。
撮像部101は、撮影レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。そして、得られた画像データを表示処理部104に送信し、表示部105に表示させる。また、得られた画像データをメモリ103送信する。
音声入力部102は、複数のマイクにより得られたアナログ音声信号をデジタル変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ103に送信する。
符号化処理部106は、メモリ103に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。
そして、制御部109は、これらの圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部107に出力する。
記録再生部107は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体108に書き込んでいく。
以上の動作を撮影中は継続する。
そして、ユーザが操作部110の記録ボタンを操作することにより撮影終了の指示信号が制御部109に送信されると、制御部109は、撮像装置100の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。
撮像部101、音声入力部102は、それぞれ画像データ、音声データの生成を停止する。
符号化処理部106は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成し終えたら動作を停止する。
そして、制御部109は、これらの最後の圧縮画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部107に出力する。
記録再生部107は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体108に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。
制御部109は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送信して、撮影待機状態に戻る。
次に、再生モードでは、制御部109は、再生状態に移行させるように制御信号を撮像装置100の各ブロックに送信し、以下のような動作をさせる。
記録媒体108に記録された圧縮画像データと圧縮音声データとからなる動画ファイルを記録再生部107が読出して、読出された圧縮画像データ、圧縮音声データは、符号化処理部106に送る。
符号化処理部106は、圧縮画像データ、圧縮音声データを復号してそれぞれ、表示制御部104、音声出力部111に送信する。
表示制御部104は、復号された画像データを表示部105に表示させる。
音声出力部111は、復号された音声データを内蔵または、取付けられた外部スピーカから出力させる。
本実施例の撮像装置は以上のように、画像、音声の記録再生を行うことができる。
ところで、本実施例の音声入力部102は、複数のマイクにより得られた複数のアナログ音声信号に対応する複数のデジタル音声信号の相互レベルを調整する処理を実行している。すなわち、マイク同士の個体差によってマイクから出力される音声信号のレベルに差が出ないようにするために、デジタル音声信号のレベルを調整している。例えば、同じ音量の音声がマイクに入力されたときに、個々のマイクから出力される音声信号の示す音量が同じレベルになるようにデジタル音声信号のレベルを調整する処理を実行している。本実施例では、それぞれのマイクに対応するデジタル音声信号のピーク値が同じレベルになるように調整する処理を実行する。この処理を以降、「レベル調整処理」という。
通常、人の発した声などの通常の音声は、左右のマイクで検出すると、ほぼ同様の波形の音声信号、音声の到来方向やマイクの個体差に依存する遅延時間を持って、現れることが知られている。一方、風などがマイクに当たると、左右のマイクから出力される音声信号に相関がなくなってしまうため、異なる波形の音声信号が現れることも知られている。
本実施例では、相関が高い音声信号がそれぞれのマイクに入力されている期間を検出し、その期間の音声信号に基づいて、「レベル調整処理」を行うことで、デジタル音声信号のレベルを調整することを特徴としている。相関が高い音声信号が入力されている期間か否かを検出するためには、マイク間距離、マイクの個体差の差分を考慮して、所定時間以内に、相関性ある信号が出力されているか否かを検出することが望ましい。そこで、本実施例では、複数のマイクに対応する音声信号の極性が同じ期間を検出し、その期間のピーク値が所定の時間差以内にある場合を通常音声が入力されているとすることとした。例えば、マイクより出力される音声信号の電圧値がプラスのときは正極性、電圧値がマイナスのときは負極性とする。ここで、極性が同じ期間とは、複数の音声信号が同時に正極性または、同時に負極性の期間である。
以下に、本実施例の「レベル調整処理」について説明する。図2は、図1の音声入力部102の詳細な機能を示すブロック図である。本実施例では、簡単のためマイクが2つの例について説明するが、3つ以上のマイクであっても適用可能な技術である。
まず、音声データの生成されるまでの音声信号の流れについて説明する。マイク201は第1の無指向性のマイクであり、マイク202は第2の無指向性のマイクである。前述したようにこれらのマイク201、202は、撮像装置100本体に内蔵されていても、不図示のマイク端子に接続されたマイクでもよい。この2つのマイクにより入力されたアナログ音声信号は、ADC203で、1秒間に48000回サンプリング(つまりサンプリング周波数48kHz)され、デジタル信号に変換される。
そして、ADC203で変換されたデジタル音声信号は、調整用増幅部204で、レベルが調整される。ここでは、2つのマイクに入力された同じレベルの音声に対して、デジタル音声信号のレベルが同じレベルになるように調整される。すなわち、この調整用増幅部204は、マイク201および/または202のデジタル音声信号を増幅/減衰させることで、同じ程度レベルのデジタル音声信号になるようにするのである。この増幅率、減衰率などは、後述のゲイン更新部212により送信される調整値によって設定される。そして、同程度のレベルに調整されたデジタル音声信号は、指向性生成部205に入力される。指向性生成部205では、入力されたデジタル音声信号に基づいて、ステレオ音声データなどの指向性のある音声データを生成して順次、メモリ103に送信する。
このように、本実施例では、音声入力部102は、複数のマイクから入力された音声信号のレベルを調整する「レベル調整処理」を行いながら音声データを生成している。
なお、2つの音声信号からステレオ音声データを生成する処理、複数の音声信号から5.1チャンネル音声データを生成する処理などは、公知の技術であるので説明を省略する。
ここで、「レベル調整処理」の詳細についてさらに、図2、図3を用いて説明する。
前述したように、48kHzでサンプリングされた、複数のマイクに対応するデジタル音声信号は、調整用増幅部204でレベルが調整される。しかし、常にレベルを比較し、同程度のレベルが出力されるように、調整用増幅部204の増幅率、減衰率を設定するようにしている。
そのため、調整用増幅部204で調整されたデジタル音声信号は、それぞれ帯域制減部206に入力される。
帯域制限部206では、入力された音声信号の特定の周波数帯域の信号を通過させる。例えば、300Hzから500Hz程度の周波数帯域の信号を通過させるようになっており、例えば、ローパスフィルタとハイパスフィルタの組み合わせやバンドパスフィルタにより実現される。この周波数の信号を通過させるようにしたのは、本実施例のマイク同士の距離、マイク201、202の個体差による特性、などの理由による。ここで通過した特定の周波数の複数のデジタル音声信号は、極性検出部207、ピーク検出部208に送られる。
極性検出部207では、入力された複数のデジタル音声信号それぞれについて、1サンプル毎に極性を判定していく。そして、複数のデジタル音声信号それぞれの極性判定結果を、ピーク検出部208、調整サンプル数検出部215、制御部109に送信する。
ピーク検出部208では、極性検出部207により入力された極性判定結果に基づいて、複数のデジタル音声信号の極性が、同時に同じ極性を示している期間を検出する。言い換えれば、複数のデジタル音声信号の極性が、異ならない期間を検出する。この期間を本実施例では、「ピーク検出期間」という。そして、この期間における、複数のデジタル音声信号それぞれのピーク値を以下の方法で検出する。
ピーク検出部208では、各デジタル音声信号について、各々、入力されたデジタル音声信号を絶対値に変換する。そして、絶対値変換されたデジタル音声信号の値が大きくなるうちは1サンプル毎にピーク値をそのデジタル音声信号の値として更新し続ける。一方、デジタル音声信号のピーク値が小さくなる場合は、最も大きい値を示した1サンプルのピーク値をホールドしつづける。そして、「ピーク検出期間」が経過するとピーク値の値を初期化して、次の期間に備える。ここで検出した、複数のデジタル音声信号のピーク値の検出結果の情報は、比較部210に送信される。
また、ピーク検出部208は、複数のデジタル音声信号それぞれについて、ピーク値を更新しているか、ホールドしているかのフラグを作成し、位相差検出部209に送信する。
図3は、ピーク検出部208に入力されたデジタル音声信号を絶対値変換した状態の信号を示す図である。図3において、縦軸は、振幅レベル、横軸は時間を示している。マイク201に対応するデジタル音声信号を絶対値変換した信号は、実線301で示されており、マイク202に対応するデジタル音声信号を絶対値変換した信号は、波線302で示されている。図3において、上述した、同時に同じ極性を示している期間(複数のデジタル音声信号の極性が異ならない期間)は、303に示される。そして、その区間における、マイク201に対応するデジタル音声信号のピーク値は、点304であり、マイク202に対応するデジタル音声信号のピーク値は、点305である。
位相差検出部209では、ピーク検出部208から送信された複数のデジタル音声信号について、それぞれのピーク更新中か、ホールド中かを示すフラグの情報に基づいて、ピーク同士の時間差を求める。すなわち、複数のデジタル音声信号のうち一つの信号がピーク値を迎えてから、全ての信号がピーク値を迎えるまでの時間差(図3の時間差306)が、どのくらいの時間であるかを求める。本実施例では、一つの信号がピーク値を迎えてから、全ての信号がピーク値を迎えるまでの間が何サンプルであるかを求め、比較部210、エラー検出部209に送信する。
ここで、本実施例では、サンプリングレート48000Hz、すなわち、1秒間に48000個のサンプリングを行うこととしている。よって、nサンプルから(n+1)サンプルの間は、1/48000秒である。例えば10サンプルの間は、1/4800秒となる。
比較部210では、複数のデジタル音声信号のピーク同士の時間差が所定期間内(所定サンプル数以内)における、複数のデジタル音声信号のピーク値同士を比較する。本実施例では、10サンプル以内とする。比較部210では、マイク201に対応するデジタル音声信号を基準として、マイク202に対応するデジタル音声信号が大きいか小さいかを比較する。そのために、本実施例では、各マイクに対応するデジタル音声信号のピーク値同士を比較する。そして、マイク202に対応するデジタル音声信号のピーク値が小さい場合には、+1、大きい場合には−1、同じ場合には0の値を生成する。そして、制御部109により指定された係数kをかけた制御値を積分部211に送信する。
ここで、10サンプル以内にピーク値がある場合としたのは、先述したように、マイクの個体差、マイクの配置、音声の到来方向を考慮して、通常の音声が入力されている可能性が高い期間の値を使用するためである。
積分部211では、比較部210から入力された制御値を積算していき、所定の値(+64や−64)になると、ゲイン更新部212にゲインを変更するためのゲイン更新信号を送信する。具体的には、積分値が、+64になれば+1の信号をゲイン更新部212に送信し、−64になれば−1の信号をゲイン更新部に送信する。ここで、比較部210では制御部109により指示された係数をかけた値を出力しているので、例えば、係数kを8とすると、積分値+64や−64になるまでのサンプル数が少なくなる。そうすると、そのたびにゲイン更新信号を出力することになるので、ゲインの更新する頻度を早くする(変更する)ことができるようになる。反面では精度が落ちるため、マイクの出力レベルが大きくずれている状況では係数kを大きくし、出力レベルのズレが小さいときや、信頼性の低い状況では係数kを小さくすることが好ましい。
積分値が+方向に積算されていく状況では、マイク202に対応するデジタル音声信号のピーク値が、マイク201に対応するデジタル音声信号のピーク値よりも小さいことを示している。逆に、積分値が−方向に積算されていく状況では、マイク202に対応するデジタル音声信号のピーク値が、マイク201に対応するデジタル音声信号のピーク値よりも大きいことを示している。
ゲイン更新部212は、送信されたゲイン更新信号に基づいて、調整用増幅部204における、マイク201および/または202のデジタル音声信号を増幅/減衰させるための係数を決定する。そして、決定し調整値を調整用増幅部204に送信する。例えば、0.5dBずつマイク202に対応するデジタル音声信号のレベルを増幅、減衰刺せるようにした場合について説明する。そうすると、積分部211から送信されたゲイン更新信号が+1であった場合には、マイク202に対応するデジタル音声信号のレベルをさらに0.5dB増幅するように増幅用調整部204に調整値を送信する。逆に、−1であった場合には、マイク202に対応するデジタル音声信号のレベルを0.5dB減衰するように増幅用調整部204に調整値を送信する。
この様にすることで、マイク202に対応するデジタル音声信号のピーク値が大きい場合には、その増幅率を小さくして、ピーク値が小さい場合には、その増幅率を大きくするように制御している。
この増幅/減衰させるための係数は、任意の瞬間に調整用増幅部204に送信しても良いが、増幅/減衰させるデジタル音声信号の振幅がゼロに近いタイミングで、変更することが望ましい。なぜなら、音声信号に大きな変化が発生して、ノイズが発生してしまうのを抑制することができるからである。
そのために、本実施例では、ゼロクロス検出部213を備えている。ゼロクロス検出部213は、入力されたデジタル音声信号の振幅がゼロ点を通過する(ゼロクロスする)タイミングを検出することができる。本実施例では、ゼロクロス検出部213がマイク202に対応するデジタル音声信号のゼロクロスを検出したタイミングで、マイク202に対応するデジタル音声信号の振幅を調整するための増幅率を設定している。
本実施例では、通常の音声が入力されている場合にはこの様な動作により、「レベル調整処理」を行っている。しかし、風などがマイクに当り、雑音が発生している状況では、レベル調整処理をしても逆に補正されてしまうことがある。そこで、本実施例ではこの様な場合には調整を行わない(比較部210に送信する係数を0)、または、調整時間を長くする(比較部210n送信する係数の値を小さくする)ことで対応している。こうすることで、逆にレベルがずれていく方向に調整されてしまうことを防止している。
図2では、エラー検出部214を備えている。このエラー検出部214は、複数のデジタル音声信号のうち、一つの信号がピーク値を迎えてから、全ての信号がピーク値を迎えるまでの間が何サンプルであるかを示す情報が位相検出部209より送信されている。エラー検出部214では、一つの信号がピーク値を迎えてから、全ての信号がピーク値を迎えるまでの間が10サンプルより多い場合に、エラー信号を制御部109に出力する。この状況では、風による雑音などが発生している可能性があるのでエラーとしている。
また、調整サンプル数検出部215には、極性検出部207からの複数のデジタル音声信号それぞれの極性判定結果が入力されている。調整サンプル数検出部215では、複数のデジタル音声信号の極性が同じ極性を示す期間(すなわち「ピーク検出期間」)の数をカウントしていく。この回数は、通常の音声が入力されているときであれば、調整用に使用するピーク値がカウントされる回数と同様である。または、比較部210から積分部211へ制御値が送信される回数と同様である。そして、カウントした期間の数を制御部109に送信していく。
制御部109では、エラー検出部214により検出されたエラーの数と、調整サンプル数検出部215により検出された「ピーク検出期間」の数とに基づいて比較部210で使用する係数を変更する。
例えば、「レベル調整処理」が開始してから「ピーク検出期間」が30回、カウントされるまでは、係数kを16として早く音声レベルを近づけるように調整しておく。また、1000回カウントされると、係数kを1として、調整処理に時間がかかるようにする。また、定期的に係数を高く設定したり、モードが変更される度に係数を高く設定したりすることができる。すなわち、「レベル調整処理」が開始してからの経過時間に応じて、調整処理の頻度を変更するようにすることができる。また、モード変更に応じて、調整処理の頻度を変更することができる。
また、1000回カウントされる間に、エラーの数が30を超えた場合には、係数を0.5や0とすることもできる。これは風雑音が混入している可能性が高い場合には、たとえ、10サンプル以内に複数のデジタル音声信号のピーク値が合ったとしても信頼性が低いからである。この様にすることで、調整処理にかかる時間を長くすることができ、信頼性の低い値で調整がされてしまうことを防ぐことができます。つまり、所定期間内にピークが有ると検出された場合、すなわちエラーではないときの方が、所定期間内にピークが無いと検出された場合の方が、調整用増幅部204における増幅率の変更する頻度を高くすることになる。
ここで、帯域制限部206において、300Hzから500Hzの周波数を通過(抽出)させた理由について説明する。
まず、低周波数成分のカットオフを300Hzとした理由について説明する。マイクの個体差に依存する遅延が大きいのが100Hz以下の周波数であり、その周波数を十分に減衰できるようにするために、300Hzをカットオフ周波数としたフィルタとしている。
ちなみに、上述した、マイクの個体差に依存する遅延、マイクの位置と音声の到来方向に依存する遅延との最大値にマージンを持たせる。例えば、マイクの個体差に依存する遅延が、3.5サンプル分の時間、すなわち3.5/48000秒であり、2倍のマージンを持たせたとした場合、7サンプル分の時間を許容することになる。また、マイク間距離を16mmとして、音速を320m/sとすると、最大で、16/320000秒の遅延が生じる。これは2.4サンプル分の時間に相当する。そのため、300Hzにおいては、通常の音声であれば10サンプル以内に相関性のある信号がほぼ入力されることになる。本実施例では、このように、10サンプル以内に音声のピークが収まっていれば、通常の音声が入力されているものと検出する。そして、10サンプル以内に音声のピーク値が検出されない場合にはエラーとして検出するようにしている。
次に、高周波数成分のカットオフを500Hzとし理由について説明する。
上述したように10サンプル以内に複数の音声のピーク値が検出されれば良いが、周波数が上がってくると、10サンプル以内に計測されるピーク値が本来のピーク値を示さなくなる可能性が出てくる。具体的には、90度以上の位相差が発生すると、ピーク値が正確に計測できない。10サンプルで90度以上の位相差が発生するのは、1200Hzである。これは10/480000秒で位相が90度変化する周波数である。
本実施例では、10サンプル以内に計測されたピーク値を利用して「レベル調整処理」を行う。そのため、この周波数の音声を十分に減衰できるように、高周波成分のカットオフを500Hzとしている。
このカットオフ周波数は、マイク間距離、マイクの個体差の平均値などに応じて、変更することができる。また、同様に、通常の音声として見なすためのピーク値同士の時間差を本実施例では、10サンプルとしたが、この値もマイク間距離、マイクの個体差の平均値などに応じて、変更することができる。
以上説明してきたように、本実施例では、互いの極性が同時に同じ極性を示している期間を検出し、その期間における複数の音声信号のピーク値のレベルが同じになるように調整するようにした。この様な構成としたことで、本実施例では、ユーザの使用環境下であっても、マイクの出力音声信号のレベルを調整することができるようになるのである。
本実施例では、マイク201に対応するデジタル音声信号と、マイク202に対応するデジタル音声信号とが同じレベルの音声に対して同じ程度のレベルの信号になるように調整することについて説明した。具体的には、2つのマイクのうち一方のマイク202に対応するデジタル音声信号をマイク201に対応するデジタル音声信号のレベルにあわせるために調整用増幅部215の増幅率を決定する例について説明した。しかし、マイク201に対応するデジタル音声信号をマイク202に対応するデジタル音声信号をのレベルにあわせるために調整用増幅部215の増幅率を決定してもよい。さらには、マイク201、202のデジタル音声信号のレベルをあわせるために両方のデジタル音声信号の増幅率を決定しても良い。
また、本実施例では、マイクが2つの場合について説明したが、マイクが3つの場合には、調整用増幅部215は少なくとも2つ以上のマイクに対応するデジタル音声信号の増幅率を決定する。同様に、マイクが4つの場合には、調整用増幅部215は少なくとも3つ以上のマイクに対応するデジタル音声信号の増幅率を決定する。
また、本実施例の「レベル調整処理」は、撮像装置100が起動してから終了するまで常に実行されても良い。また、撮像装置100が撮影モードで動作している間にのみ実行されても良い。また、撮像装置100が撮影を開始してから終了するまでの間のみ実行されても良い。また、撮像装置100が音声を記録することが可能なモードで動作している間にのみ実行されてもよい。
また、本実施例においては、撮像装置について説明したが、本実施例の音声入力部102にの音声処理は、外部の音声を記録、または入力するような装置であればどのような装置であっても適用することができる。例えば、ICレコーダ、携帯電話等に適用しても良い。

Claims (7)

  1. 複数の音声信号を入力する入力手段と、
    前記入力手段により入力された複数の音声信号を処理する音声処理手段であって、前記入力手段により入力された音声信号のレベルを調整値に基づいて調整する調整手段を有する音声処理手段と、
    前記音声処理手段から出力された複数の音声信号が同じ極性である期間を検出する検出手段と、
    前記検出手段により検出された期間における、前記音声処理手段から出力された複数の音声信号それぞれのピーク値を検出するピーク検出手段と、
    前記ピーク検出手段の検出結果に基づいて、前記音声処理手段から出力された複数の音声信号のピーク値が相互に近づくように、前記調整手段における調整値を制御する制御手段とを有することを特徴とする音声信号処理装置。
  2. 前記音声処理手段から出力された複数の音声信号の特定の周波数の信号を抽出する抽出手段を有し、
    前記検出手段は、前記抽出された複数の音声信号の特定の周波数の信号の極性が同じである期間を検出し、
    前記ピーク検出手段は、前記検出手段により検出された期間における、前記抽出された複数の音声信号の特定の周波数の信号のそれぞれのピーク値を検出することを特徴とする請求項1記載の音声信号処理装置。
  3. 前記制御手段は、前記増幅率を更新する頻度を変更することを特徴とする請求項1または2記載の音声信号処理装置。
  4. 前記ピーク検出手段により検出された、前記音声信号それぞれのピーク値が所定期間内に有るか否かを検出する位相検出手段を有し、
    前記制御手段は、前記音声信号それぞれのピーク値が所定期間内に有ると検出された場合より、所定期間内に無いと検出された場合の方が前記増幅率の更新する頻度を高くすることを特徴とする請求項1から3のいずれか1項記載の音声信号処理装置。
  5. 前記入力された音声信号の振幅がゼロクロスするタイミングを検出するゼロクロス検出手段を有し、
    前記制御手段は、前記音声信号の振幅がゼロになったタイミングで前記増幅部における増幅率を変更することを特徴とする請求項1から4のいずれか1項記載の音声信号処理装置。
  6. 前記制御手段は、前記増幅率を更新する頻度を経過時間に応じて変更することを特徴とする請求項1から5のいずれか1項記載の音声信号処理装置。
  7. 前記制御手段は、前記音声信号処理装置のモードが変更されたことに応じて、前記増幅率を更新する頻度を変更することを特徴とする請求項1から6のいずれか1項記載の音声信号処理装置。
JP2009272576A 2009-11-30 2009-11-30 音声信号処理装置 Expired - Fee Related JP5645393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009272576A JP5645393B2 (ja) 2009-11-30 2009-11-30 音声信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009272576A JP5645393B2 (ja) 2009-11-30 2009-11-30 音声信号処理装置

Publications (3)

Publication Number Publication Date
JP2011119783A true JP2011119783A (ja) 2011-06-16
JP2011119783A5 JP2011119783A5 (ja) 2013-01-24
JP5645393B2 JP5645393B2 (ja) 2014-12-24

Family

ID=44284621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009272576A Expired - Fee Related JP5645393B2 (ja) 2009-11-30 2009-11-30 音声信号処理装置

Country Status (1)

Country Link
JP (1) JP5645393B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013046140A (ja) * 2011-08-23 2013-03-04 Rohm Co Ltd オーディオ信号処理回路およびそれを用いた電子機器
WO2017033260A1 (ja) * 2015-08-24 2017-03-02 ヤマハ株式会社 収音装置および収音方法
JP2018031897A (ja) * 2016-08-24 2018-03-01 富士通株式会社 利得調整装置、利得調整方法および利得調整プログラム
WO2018142503A1 (ja) * 2017-02-01 2018-08-09 三菱電機エンジニアリング株式会社 超指向性音響装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004129038A (ja) * 2002-10-04 2004-04-22 Sony Corp マイクロホンのレベル調整方法及びマイクロホンのレベル調整装置及び電子機器

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004129038A (ja) * 2002-10-04 2004-04-22 Sony Corp マイクロホンのレベル調整方法及びマイクロホンのレベル調整装置及び電子機器

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013046140A (ja) * 2011-08-23 2013-03-04 Rohm Co Ltd オーディオ信号処理回路およびそれを用いた電子機器
WO2017033260A1 (ja) * 2015-08-24 2017-03-02 ヤマハ株式会社 収音装置および収音方法
JPWO2017033260A1 (ja) * 2015-08-24 2018-06-14 ヤマハ株式会社 収音装置および収音方法
US10312875B2 (en) 2015-08-24 2019-06-04 Yamaha Corporation Sound pickup device and sound pickup method
JP2018031897A (ja) * 2016-08-24 2018-03-01 富士通株式会社 利得調整装置、利得調整方法および利得調整プログラム
WO2018142503A1 (ja) * 2017-02-01 2018-08-09 三菱電機エンジニアリング株式会社 超指向性音響装置

Also Published As

Publication number Publication date
JP5645393B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
US9495950B2 (en) Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
US9756437B2 (en) System and method for transmitting environmental acoustical information in digital audio signals
JP5645393B2 (ja) 音声信号処理装置
US20110002481A1 (en) Audio signal amplitude adjusting device and method
CN102098436A (zh) 摄像设备和其控制方法
TWI633795B (zh) 一種訊號處理系統及其方法
JP2009036831A (ja) 情報処理装置、情報処理方法
JP2019161334A (ja) 音声処理装置
JP2018074220A (ja) 音声処理装置
JP5645373B2 (ja) 音声処理装置、音声処理方法
JP5340127B2 (ja) 音声信号処理装置、音声信号処理装置の制御方法
JP2009130820A (ja) 情報処理装置
JP5495753B2 (ja) 撮像装置
JP5317936B2 (ja) 音声信号処理装置
JP2019091988A (ja) 音声処理装置および音声処理方法
JP2013047710A (ja) 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP2019016851A (ja) 音声処理装置、音声処理方法、及びプログラム
JP2012216924A (ja) 信号処理装置及び信号処理方法
JP5171370B2 (ja) 音声処理装置及び電子機器並びに音声処理方法
JP2019161333A (ja) 音声処理装置
JP2018074219A (ja) 音声処理装置
JP2018078459A (ja) 撮像装置
JP2016009952A (ja) 音声信号処理装置
JP6103803B2 (ja) 音声信号処理装置
JP2011035708A (ja) 音響信号処理装置、及び撮像装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121130

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141104

R151 Written notification of patent or utility model registration

Ref document number: 5645393

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees