JP2011114406A - Imaging apparatus, imaging method, and program - Google Patents
Imaging apparatus, imaging method, and program Download PDFInfo
- Publication number
- JP2011114406A JP2011114406A JP2009266703A JP2009266703A JP2011114406A JP 2011114406 A JP2011114406 A JP 2011114406A JP 2009266703 A JP2009266703 A JP 2009266703A JP 2009266703 A JP2009266703 A JP 2009266703A JP 2011114406 A JP2011114406 A JP 2011114406A
- Authority
- JP
- Japan
- Prior art keywords
- zoom
- input
- signal
- section
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Studio Devices (AREA)
Abstract
Description
本発明は、撮像装置、撮像方法およびプログラムに関する。 The present invention relates to an imaging apparatus, an imaging method, and a program.
スチルカメラ、ビデオカメラ、監視カメラ等の撮像装置では、光学ズーム動作に伴うモータ音等がノイズ(以下、ズームノイズとも称する。)としてマイクロホンに収音され、記録および/または出力されてしまう場合がある。 In an imaging apparatus such as a still camera, a video camera, or a surveillance camera, motor sound or the like accompanying an optical zoom operation may be collected by a microphone as noise (hereinafter also referred to as zoom noise) and recorded and / or output. is there.
このため、光学ズームの代わりにデジタルズームを利用したり、光学ズームの動作速度を遅くしてノイズの発生を低減したりすることが行われている。また、ズームノイズを予め記録しておき、記録および/または出力すべき対象音声に重畳されたノイズを信号処理で除去して、ズームノイズを目立たなくさせることも行われている(下記特許文献1、2参照)。 For this reason, digital zoom is used instead of optical zoom, or the operation speed of optical zoom is slowed to reduce the generation of noise. In addition, zoom noise is recorded in advance, and noise superimposed on the target sound to be recorded and / or output is removed by signal processing to make the zoom noise inconspicuous (Patent Document 1 below). 2).
しかし、一般に、対象音声に重畳されたノイズを信号処理で除去すると、対象音声に歪みが生じ、記録品質および/または出力品質が低下してしまうことが知られている。 However, it is generally known that if noise superimposed on the target voice is removed by signal processing, the target voice is distorted and the recording quality and / or output quality is reduced.
そこで、本発明は、光学ズーム動作に伴うノイズを記録音声および/または出力音声から除去可能な、撮像装置、撮像方法およびプログラムを提供しようとするものである。 Therefore, the present invention is intended to provide an imaging apparatus, an imaging method, and a program capable of removing noise associated with an optical zoom operation from recorded audio and / or output audio.
本発明の第1の観点によれば、ユーザからのズーム指示に応じて、光学ズーム動作を行う撮像部と、マイクロホンから入力される音声信号を、記録装置および/または出力装置に供給する音声信号供給部と、音声信号の入力状況を判定する音声信号判定部と、ズーム指示の操作信号が入力されるかを判定する操作信号判定部と、ズーム指示の操作信号が入力されると、音声信号の入力状況に応じて、光学ズームの作動時点を調節するズーム作動調節部と、を備える撮像装置が提供される。 According to the first aspect of the present invention, in response to a zoom instruction from a user, an imaging unit that performs an optical zoom operation, and an audio signal that supplies an audio signal input from a microphone to a recording device and / or an output device A supply unit, an audio signal determination unit that determines an input state of an audio signal, an operation signal determination unit that determines whether an operation signal for zoom instruction is input, and an audio signal when an operation signal for zoom instruction is input An image pickup apparatus is provided that includes a zoom operation adjustment unit that adjusts the operation time point of the optical zoom in accordance with the input state.
かかる構成によれば、ズーム指示の操作信号が入力されると、音声信号の入力状況に応じて、光学ズームの作動時点が調節される。これにより、光学ズームの作動時点を対象音声が入力されていない時点に調節することで、ノイズ除去に伴う対象音声の歪みによる記録品質および/または出力品質の低下を防止することができる。 According to this configuration, when the zoom instruction operation signal is input, the operation time point of the optical zoom is adjusted according to the input state of the audio signal. Accordingly, by adjusting the operation time point of the optical zoom to the time point when the target sound is not input, it is possible to prevent the recording quality and / or the output quality from being deteriorated due to the distortion of the target sound due to noise removal.
また、音声信号判定部は、音声信号の入力状況から有音区間または発話区間を判定し、ズーム作動調節部は、有音区間または発話区間にズーム指示の操作信号が入力されると、有音区間または発話区間の終了後に撮像部が光学ズーム動作を行うように、光学ズームの作動時点を調節してもよい。 The voice signal determination unit determines a voiced segment or a speech segment from the input state of the voice signal, and the zoom operation adjustment unit detects a voice when a zoom instruction operation signal is input to the voiced segment or the speech segment. The operation time point of the optical zoom may be adjusted so that the imaging unit performs the optical zoom operation after the section or the speech section ends.
また、撮像部から入力される撮像信号をデジタルズーム処理するズーム処理部をさらに備え、ズーム処理部は、有音区間または発話区間にズーム指示の操作信号が入力されると、有音区間または発話区間にデジタルズーム処理を行ってもよい。 In addition, the zoom processing unit further includes a zoom processing unit that performs digital zoom processing on an imaging signal input from the imaging unit, and the zoom processing unit receives a zooming operation signal when the zoom instruction operation signal is input to the sounding period or the speaking period. Alternatively, digital zoom processing may be performed.
また、光学ズームの作動時点を調節する場合に、音声信号供給部は、光学ズーム動作時に、マイクロホンから入力される音声信号を記録装置および/または出力装置に供給しなくてもよく、マイクロホンから入力される音声信号に代えて、コンフォートノイズを記録装置および/または出力装置に供給してもよい。 Further, when adjusting the operation time of the optical zoom, the audio signal supply unit does not need to supply the audio signal input from the microphone to the recording device and / or the output device at the time of the optical zoom operation. Instead of the audio signal, comfort noise may be supplied to the recording device and / or the output device.
また、音声信号判定部は、光学ズーム動作に伴うノイズを考慮して、有音区間または発話区間を判定し、ズーム作動調節部は、光学ズーム動作時に有音区間または発話区間が判定されると、撮像部が光学ズーム動作を一時的に停止するように、光学ズームの作動を調節してもよい。また、ズーム作動調節部は、さらに、有音区間または発話区間の終了後に撮像部が光学ズーム動作を行うように、光学ズームの作動を調節してもよい。 In addition, the audio signal determination unit determines a voiced section or a speech section in consideration of noise associated with the optical zoom operation, and the zoom operation adjustment unit determines that the voiced section or the speech section is determined during the optical zoom operation. The operation of the optical zoom may be adjusted so that the imaging unit temporarily stops the optical zoom operation. Further, the zoom operation adjustment unit may further adjust the operation of the optical zoom so that the imaging unit performs the optical zoom operation after the end of the sound period or the speech period.
また、音声信号判定部は、音声信号の信号ノイズ比が閾値以上の区間を有音区間または発話区間として判定してもよく、音声信号の音声検出値が閾値以上の区間を有音区間または発話区間として判定してもよい。 The voice signal determination unit may determine a section in which the signal-to-noise ratio of the voice signal is greater than or equal to a threshold as a voiced section or an utterance section, and a section in which the voice detection value of the voice signal is greater than or equal to the threshold. You may determine as an area.
また、本発明の第2の観点によれば、マイクロホンから入力される音声信号を、記録装置および/または出力装置に供給するステップを含み、上記ステップは、音声信号の入力状況を判定するステップと、ズーム指示の操作信号が入力されるかを判定するステップと、ズーム指示の操作信号が入力されると、音声信号の入力状況に応じて、光学ズームの作動時点を調節するステップと、を含む撮像方法が提供される。 According to a second aspect of the present invention, the method includes a step of supplying an audio signal input from a microphone to a recording device and / or an output device, wherein the step includes a step of determining an input state of the audio signal. Determining whether an operation signal for zoom instruction is input, and adjusting an operation time point of the optical zoom according to an input state of the audio signal when the operation signal for zoom instruction is input. An imaging method is provided.
また、本発明の第3の観点によれば、第2の観点による撮像方法をコンピュータに実行させるためのプログラムが提供される。ここで、プログラムは、コンピュータ読取り可能な記録媒体を用いて提供されてもよく、通信手段を介して提供されてもよい。 According to the third aspect of the present invention, there is provided a program for causing a computer to execute the imaging method according to the second aspect. Here, the program may be provided using a computer-readable recording medium or may be provided via communication means.
以上説明したように本発明によれば、光学ズーム動作に伴うノイズを記録音声および/または出力音声から除去可能な、撮像装置、撮像方法およびプログラムを提供することができる。 As described above, according to the present invention, it is possible to provide an imaging apparatus, an imaging method, and a program capable of removing noise associated with an optical zoom operation from recorded audio and / or output audio.
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。 Exemplary embodiments of the present invention will be described below in detail with reference to the accompanying drawings. In the present specification and drawings, components having substantially the same functional configuration are denoted by the same reference numerals, and redundant description is omitted.
[1.スチルカメラの構成]
まず、本発明の実施形態に係るスチルカメラ10について説明する。図1は、本発明の実施形態に係るスチルカメラ10の主要な機能構成を示すブロック図である。なお、以下では、本発明をスチルカメラ10に適用する場合を例として説明するが、本発明は、ビデオカメラ、監視カメラ等、他の撮像装置にも同様に適用することができる。
[1. Still camera configuration]
First, the still
図1に示すように、スチルカメラ10は、主制御部11、操作部13、撮像部15、レンズ制御部17、シャッタ制御部19、アイリス制御部21、タイミング生成部23、撮像信号変換部25、撮像信号処理部27、画像処理部29、表示制御部31、表示部33を備える。また、スチルカメラ10は、マイクロホン35、音声信号変換部37、音声信号処理部39、音声処理部41、スピーカ43、メモリ制御部45、メモリ47、カード制御部49、メモリカード51を備える。
As shown in FIG. 1, the
主制御部11は、メモリ47に格納されているプログラムを実行し、スチルカメラ10の各部を制御する。操作部13は、不図示の記録開始ボタン、ズームボタン等を通じてユーザから入力される指示を、操作信号に変換して主制御部11に供給する。撮像部15は、レンズ群15a(ズームレンズを含む。)、シャッタ15b、アイリス15c、CCD等の撮像素子15dを備える。撮像部15は、被写体の光像をレンズ群15a、シャッタ15b、アイリス15cを通じて撮像素子15dに結像し、撮像信号に変換して撮像信号変換部25に供給する。
The
レンズ制御部17、シャッタ制御部19、アイリス制御部21は、レンズ群15a、シャッタ15b、アイリス15cを各々に制御する。タイミング生成部23は、撮像素子15dおよび撮像信号変換部25にタイミング信号を供給し、撮像のタイミングを制御する。撮像信号変換部25は、撮像素子15dから供給される撮像信号に対して信号増幅、A/D変換、ホワイトバランス調整等を行い、撮像信号処理部27に供給する。
The
撮像信号処理部27は、撮像信号に対して色空間変換、ノイズ除去等を行い、画像データを生成してメインバス61に供給する。画像処理部29は、画像データに対して拡大、縮小、符号化、復号化等を行う。表示制御部31は、画像データを出力信号に変換し、液晶ディスプレイ等の表示部33による画像の出力を制御する。また、表示制御部31は、メモリ47内のフレームメモリに展開された画像データ、ライブ動画像データ、主制御部11により生成されたGUI領域の画像データを合成する。
The imaging
マイクロホン35は、スチルカメラ10周辺の音声を収音し、音声信号に変換して音声信号変換部37に供給する。音声信号変換部37は、音声信号に対して信号増幅、A/D変換等を行い、音声信号処理部39に供給する。音声信号処理部39は、音声信号に対して各種の信号処理を行い、音声データを生成してメインバス61に供給する。音声処理部41は、音声データに対して符号化、復号化等を行い、メインバス61に供給する。スピーカ43は、音声データを出力信号に変換し、音声を外部に出力する。
The
メモリ制御部45は、画像データおよび音声データを一時記憶するために、主制御部11の制御の下で、メモリ47に対するデータの書込み/読出しを制御する。カード制御部49は、画像データおよび音声データを格納するために、主制御部11の制御の下で、メモリカード51に対するデータの書込み/読出しを制御する。画像データ、音声データについては、画像処理部29、音声処理部41により符号化/復号化されて、メモリ47、メモリカード51に対して書込み/読出しが行われる。
The
スチルカメラ10は、光学ズーム機能およびデジタルズーム機能を有する。主制御部11は、光学ズーム動作の開始に際して、レンズ群15aの光学ズームの目標倍率、シャッタ15bのスピード(撮像素子15dの露光時間)、アイリス15cの絞り量等の動作条件を設定する。そして、主制御部11は、撮像部15が動作条件に従って駆動するように、レンズ制御部17、シャッタ制御部19、アイリス制御部21を制御する。また、主制御部11は、デジタルズーム動作の開始に際して、デジタルズームの目標倍率、撮像素子15dの撮像範囲等の動作条件を設定する。そして、主制御部11は、動作条件に従って画像データが拡大されるように、画像処理部29を制御する。
The still
主制御部11は、音声信号処理部39に供給される音声信号に基づいて、音声信号の入力状況、特に、有音区間または発話区間を判定する。ここで、有音区間または発話区間とは、記録および/または出力すべき対象音声が収音される区間を意味する。主制御部11は、詳細は後述するが、光学ズーム動作およびデジタルズーム動作を制御し、特に、音声信号の入力状況に応じて、光学ズームの作動時点を調節する。
Based on the audio signal supplied to the audio
スチルカメラ10が起動されると、主制御部11は、操作部13を通じた操作信号の入力を待機する。ユーザが記録開始ボタンを操作すると、主制御部11は、記録開始を示す操作信号を入力され、各部を制御して画像データおよび音声データの記録動作を開始する。スチルカメラ10では、ユーザが記録終了ボタンを操作するまで、画像データおよび音声データの記録動作が継続される。つまり、スチルカメラ10では、ライブ動画像およびライブ音声が記録される。
When the still
撮像部15では、被写体の光像が撮像素子15dに結像され、撮像信号に変換される。撮像信号は、一定周期で処理されて画像データとしてメインバス61に供給される。そして、画像データは、符号化されてメモリ47に書き込まれるとともに、画像として表示部33に表示される。
In the
マイクロホン35では、スチルカメラ10周辺の音声が収音され、音声信号に変換される。音声信号は、一定周期で処理されて音声データとしてメインバス61に供給される。そして、音声データは、符号化されてメモリ47に書き込まれる。
The
また、ユーザがデータ保存ボタンを操作すると、主制御部11は、メモリ47に一時記憶されているデータをメモリカード51に格納するように、メモリ制御部45およびカード制御部49を制御する。
When the user operates the data save button, the
なお、以下では、画像データおよび音声データを記録(格納)する場合について説明する。しかし、画像データおよび音声データは、記録に代えて/記録と併せて、不図示の出力ポート等を通じて、外部装置に出力されてもよい。 In the following, a case where image data and audio data are recorded (stored) will be described. However, image data and audio data may be output to an external device through an output port (not shown) instead of recording / in combination with recording.
[2.スチルカメラの動作]
つぎに、本発明のスチルカメラ10の動作に係る第1〜第5の実施形態について説明する。なお、各実施形態で重複する説明は省略する。
[2. Still camera operation]
Next, first to fifth embodiments relating to the operation of the still
<第1の実施形態>
まず、図2および図3を参照しながら、本発明の第1の実施形態について説明する。図2は、スチルカメラ10の動作を示すフロー図である。図3は、第1の実施形態に係るスチルカメラ10による処理結果を示す模式図である。
<First Embodiment>
First, a first embodiment of the present invention will be described with reference to FIGS. FIG. 2 is a flowchart showing the operation of the still
データの記録動作中、主制御部11は、マイクロホン35から入力される音声信号の入力状況を判定している。ユーザがズームボタンを操作すると、主制御部11は、操作信号の入力状況に応じて、ズーム目標倍率等の動作条件を設定する。そして、主制御部11は、音声信号の入力状況に応じて、光学ズーム動作の可否を判定する。
During the data recording operation, the
ここで、光学ズーム動作が可能であると判定した場合、主制御部11は、動作条件に従って撮像部15に光学ズーム動作を行わせる。一方、光学ズーム動作が不能であると判定した場合、主制御部11は、光学ズームの作動時点を調節するとともに、動作条件に従って画像処理部29にデジタルズーム動作を行わせる。
Here, when it is determined that the optical zoom operation is possible, the
以下では、第1の実施形態に係るスチルカメラ10の動作について詳細に説明する。図2に示すように、データの記録動作中、主制御部11は、音声信号処理部39に供給される音声信号に基づいて、音声信号の入力状況を判定する。音声信号の入力状況は、サンプリング周波数(例えば16kHz)の1サンプル毎に判定されてもよく、1フレーム(例えば512サンプル)毎に判定されてもよい。
Below, operation | movement of the still
音声信号の入力状況を判定するために、主制御部11は、以下に示す式1〜式3により音声信号のノイズレベルn(t)および信号レベルs(t)を推定して、音声信号の信号ノイズ比SNRを算出する(ステップS101)。なお、ノイズレベルn(t)および信号レベルs(t)は、式1〜式3を用いる手法に限らず、音声検出を利用する手法、入力信号の最小値に基づく手法等により推定されてもよい。
In order to determine the input state of the audio signal, the
ここで、n(t)、s(t)が時刻tのノイズレベルおよび信号レベルの推定値であり、m(t)が時刻tにマイクロホン35から入力される音声信号の振幅である。また、α、βが0<β<α<1の関係を満たす定数であり、γ、δが0<γ<δ<1の関係を満たす定数である。
Here, n (t) and s (t) are the noise level and signal level estimates at time t, and m (t) is the amplitude of the audio signal input from the
β<αの関係から、ノイズレベルn(t)には、ノイズレベルが増加傾向にある場合に現時点の振幅m(t)が反映され難くなり、ノイズレベルが減少傾向にある場合に現時点の振幅m(t)が反映され易くなる。また、γ<δの関係から、信号レベルs(t)には、信号レベルが増加傾向にある場合に現時点の振幅m(t)が反映され難くなり、信号レベルが減少傾向にある場合に現時点の振幅m(t)が反映され易くなる。これにより、非定常的な音声の影響を受け難い状態で、ノイズレベルn(t)および信号レベルs(t)を推定することができる。 From the relationship β <α, the noise level n (t) is less likely to reflect the current amplitude m (t) when the noise level tends to increase, and the current amplitude when the noise level tends to decrease. m (t) is easily reflected. Further, from the relationship of γ <δ, the signal level s (t) is less likely to reflect the current amplitude m (t) when the signal level tends to increase, and the current level when the signal level tends to decrease. The amplitude m (t) is easily reflected. As a result, the noise level n (t) and the signal level s (t) can be estimated in a state where the influence of the non-stationary sound is difficult.
主制御部11は、操作部13から入力される操作信号に基づいて、ズームボタンの操作状況を判定する(ステップS103)。ズームボタンが操作されている場合、主制御部11は、操作状況に応じて光学ズームの目標倍率を更新する(ステップS105)。
The
主制御部11は、光学ズームの現時点の倍率が目標倍率未満であるかを判定する(ステップS107)。そして、条件に該当する場合にステップS109の処理を行い、条件に該当しない場合にステップS115の処理を行う。
The
光学ズームの現時点の倍率が目標倍率未満である場合、主制御部11は、ステップS101で算出したSNRが所定の閾値T未満であるかを判定する(ステップS109)。ここで、閾値Tは、有音区間または発話区間を判定可能な値として予め設定されている。そして、主制御部11は、条件に該当する場合、撮像部15に光学ズーム動作(望遠側)を行わせ(ステップS111)、条件に該当しない場合、画像処理部29にデジタルズーム動作(望遠側)を行わせる(ステップS113)。
When the current magnification of the optical zoom is less than the target magnification, the
ステップS107の処理で条件に該当しない場合(光学ズームの現時点の倍率が目標倍率以上である場合)、主制御部11は、光学ズームの現時点の倍率が目標倍率と等しいかを判定する(ステップS115)。そして、条件に該当する場合(光学ズームが目標倍率に達している場合)、ズーム動作を行わず(ステップS117)、条件に該当しない場合(光学ズームが目標倍率を超えている場合)、撮像部15に光学ズーム動作(広角側)を行わせる(ステップS119)。
If the condition is not met in the process of step S107 (when the current magnification of the optical zoom is equal to or greater than the target magnification), the
上記フローによれば、有音区間または発話区間でズーム指示が入力されると、光学ズームの作動時点が調節され、光学ズーム動作に代えて、デジタルズーム動作が行われる(ステップS113)。そして、有音区間または発話区間の終了後に、作動時点を調節された光学ズーム動作が行われる(ステップS111)。なお、作動時点を調節された光学ズーム動作を行う場合、先に行われたデジタルズーム動作が解除される。 According to the above flow, when a zoom instruction is input in a voiced section or a speech section, the operation time point of the optical zoom is adjusted, and a digital zoom operation is performed instead of the optical zoom operation (step S113). Then, after the end of the voiced section or the speech section, an optical zoom operation in which the operation time is adjusted is performed (step S111). In addition, when performing the optical zoom operation in which the operation time is adjusted, the previously performed digital zoom operation is cancelled.
図3には、第1の実施形態による処理が従来の処理と対比して示されている。なお、図中、記録対象となる音声データに対応する音声信号がVrとして示されている。従来、状態ST−0に示すように、対象音声の入力時に光学ズーム動作が行われると、ズームノイズNzが収音されて、対象音声に重畳されてズームノイズNzが記録されてしまう。そして、対象音声に重畳されたノイズを信号処理で除去しようとすると、対象音声に歪みが生じ、記録品質が低下してしまう。 FIG. 3 shows the processing according to the first embodiment in contrast to the conventional processing. In the figure, an audio signal corresponding to audio data to be recorded is shown as Vr. Conventionally, as shown in the state ST-0, when an optical zoom operation is performed at the time of inputting a target sound, the zoom noise Nz is picked up and superimposed on the target sound, and the zoom noise Nz is recorded. If the noise superimposed on the target voice is to be removed by signal processing, the target voice is distorted and the recording quality is deteriorated.
一方、本実施形態によれば、状態ST−1に示すように、対象音声が入力されていない時点(但し、定常雑音は入力されている。)に光学ズーム動作が行われるように、光学ズームの作動時点が調節される。また、光学ズーム動作に代えて、デジタルズーム動作が行われる。 On the other hand, according to the present embodiment, as shown in the state ST-1, the optical zoom operation is performed so that the optical zoom operation is performed when the target sound is not input (however, stationary noise is input). The operating time of is adjusted. In addition, a digital zoom operation is performed instead of the optical zoom operation.
これにより、ノイズ除去に伴う対象音声の歪みによる記録品質の低下を防止することができる。また、デジタルズーム動作を行うことで、画像データの記録品質の低下も防止することができる。 As a result, it is possible to prevent the recording quality from being deteriorated due to distortion of the target sound accompanying noise removal. Also, by performing the digital zoom operation, it is possible to prevent the recording quality of the image data from being lowered.
<第2の実施形態>
つぎに、図4を参照しながら、本発明の第2の実施形態について説明する。図4は、第2の実施形態に係るスチルカメラ10による処理結果を示す模式図である。
<Second Embodiment>
Next, a second embodiment of the present invention will be described with reference to FIG. FIG. 4 is a schematic diagram illustrating a processing result by the still
図4には、第2の実施形態による処理が第1の実施形態による処理と対比して示されている。第1の実施形態によれば、状態ST−1に示すように、無音区間または非発話区間に光学ズーム動作が行われることで、ズームノイズNzの発生時点を対象音声が入力されていない時点に移動することができる。ところで、無音区間または非発話区間には、ズームノイズNz以外とともに定常雑音のみがマイクロホン35に収音されていると考えられる。
FIG. 4 shows the processing according to the second embodiment in contrast to the processing according to the first embodiment. According to the first embodiment, as shown in the state ST-1, an optical zoom operation is performed in a silent section or a non-speech section, so that the time point when the zoom noise Nz is generated is the time point when the target voice is not input. Can move. By the way, it is considered that only stationary noise is collected by the
このため、状態ST−2に示すように、光学ズームの作動時点を調節するとともに、無音区間または非発話区間(但し、定常雑音が存在する。)のうちズームノイズNzが収音される期間に亘って、マイクロホン35から入力される音声信号を無音化してもよい。具体的には、例えば、音声信号処理部39からメインバス61への音声データの供給を制限したり、音声データを無音時のデータに変換したりすればよい。これにより、無音区間または非発話区間においても、ズームノイズNzを含まない音声データを記録することができる。
For this reason, as shown in the state ST-2, the operation time point of the optical zoom is adjusted, and the zoom noise Nz is picked up during the silent interval or the non-speech interval (where stationary noise exists). The sound signal input from the
<第3の実施形態>
つぎに、図5を参照しながら、本発明の第3の実施形態について説明する。図5は、第3の実施形態に係るスチルカメラ10による処理結果を示す模式図である。
<Third Embodiment>
Next, a third embodiment of the present invention will be described with reference to FIG. FIG. 5 is a schematic diagram illustrating a processing result by the still
図5には、第3の実施形態による処理が第2の実施形態による処理と対比して示されている。第2の実施形態によれば、状態ST−2に示すように、音声信号を無音化することで、ズームノイズNzを抑制することができるが、定常雑音も抑制されてしまう。よって、定常雑音が記録されている区間と記録されていない区間が生じてしまい、音声データの再生時にユーザに違和感を持たせてしまう場合がある。 FIG. 5 shows the processing according to the third embodiment in contrast to the processing according to the second embodiment. According to the second embodiment, as shown in the state ST-2, the sound noise is silenced to suppress the zoom noise Nz, but the stationary noise is also suppressed. As a result, a section in which stationary noise is recorded and a section in which no stationary noise is recorded are generated, which may make the user feel uncomfortable when reproducing audio data.
このため、状態ST−3に示すように、音声信号を無音化する期間に亘って、コンフォートノイズNcのデータを記録してもよい。ここで、コンフォートノイズNcは、スチルカメラ10の使用環境における定常雑音の特性を反映して生成される。定常雑音の特性としては、例えば式1を用いて、周波数帯域毎にノイズレベルを推定した結果が適用される。
For this reason, as shown in the state ST-3, data of the comfort noise Nc may be recorded over a period during which the sound signal is silenced. Here, the comfort noise Nc is generated by reflecting the characteristics of stationary noise in the usage environment of the still
具体的には、スチルカメラ10の起動中、定期的にコンフォートノイズNcのデータを生成し、直近のデータが利用可能となるようにデータを更新しておけばよい。そして、音声信号処理部39からメインバス61へ供給される音声データをコンフォートノイズNcのデータに変換すればよい。これにより、ズームノイズNzを抑制するとともに、定常雑音のレベル変動を抑制することができる。
Specifically, while the still
<第4の実施形態>
つぎに、図6を参照しながら、本発明の第4の実施形態について説明する。図6は、第4の実施形態に係るスチルカメラ10による処理結果を示す模式図である。
<Fourth Embodiment>
Next, a fourth embodiment of the present invention will be described with reference to FIG. FIG. 6 is a schematic diagram illustrating a processing result by the still
図6には、第4の実施形態による処理が第1の実施形態による処理と対比して示されている。第1の実施形態によれば、状態ST−1´に示すように、光学ズーム動作時に対象音声Vtが入力されると、対象音声Vtに重畳してズームノイズNzが収音されてしまう。そして、対象音声Vtにノイズが重畳されているので、音声信号の入力状況から有音区間または発話区間を適切に判定することができない。 FIG. 6 shows the processing according to the fourth embodiment in contrast to the processing according to the first embodiment. According to the first embodiment, as shown in the state ST-1 ′, when the target sound Vt is input during the optical zoom operation, the zoom noise Nz is collected so as to be superimposed on the target sound Vt. Since noise is superimposed on the target voice Vt, it is not possible to appropriately determine a voiced section or an utterance section from the input state of the voice signal.
このため、光学ズーム動作時のノイズレベルn0(t)を予め記録しておき、有音区間または発話区間の判定に利用することが考えられる。つまり、主制御部11は、光学ズーム動作時以外に前述した式3を用いてSNRを算出し、光学ズーム動作時に以下に示す式4を用いてSNRを算出する。これにより、光学ズーム動作時でも、音声信号の入力状況から有音区間または発話区間を適切に判定することができる。
For this reason, it is conceivable that the noise level n 0 (t) at the time of the optical zoom operation is recorded in advance and used for determination of a voiced section or a speech section. That is, the
なお、光学ズーム動作時の有音区間または発話区間は、光学ズーム動作時のノイズレベルを用いる手法に限らず、例えば、光学ズームの動作時と非動作時の間で異なる閾値Tを用いる手法、SNRを周波数帯域毎に求めて加重平均する手法等により判定されてもよい。 Note that the voiced section or speech section at the time of the optical zoom operation is not limited to the method using the noise level at the time of the optical zoom operation. For example, the method using the threshold T that is different between the operation time and the non-operation time of the optical zoom, SNR It may be determined by a method of obtaining and weighted average for each frequency band.
そして、図2に示すステップS111の処理において、光学ズーム動作時に有音区間または発話区間を判定し、有音区間または発話区間が判定されると、状態ST−4に示すように、光学ズーム動作を一時的に停止してもよい。さらに、有音区間または発話区間の終了後に、光学ズーム動作を行うように、光学ズームの作動時点を調節してもよい。これにより、光学ズーム動作時に対象音声が入力されても、音声データの記録品質の低下を防止することができる。 Then, in the process of step S111 shown in FIG. 2, the voiced section or the speech section is determined during the optical zoom operation, and when the voiced section or the speech section is determined, as shown in the state ST-4, the optical zoom operation is performed. May be temporarily stopped. Furthermore, the operation time point of the optical zoom may be adjusted so that the optical zoom operation is performed after the end of the voiced section or the speech section. Thereby, even if the target sound is input during the optical zoom operation, it is possible to prevent the recording quality of the sound data from being deteriorated.
<第5の実施形態>
つぎに、本発明の第5の実施形態について説明する。
<Fifth Embodiment>
Next, a fifth embodiment of the present invention will be described.
第5の実施形態による処理では、音声信号のSNRを用いて有音区間または発話区間を判定し、光学ズーム動作の可否を判定した。しかし、有音区間または発話区間は、SNRを用いる代わりに、音声検出により判定されてもよい。 In the processing according to the fifth embodiment, a voiced section or an utterance section is determined using the SNR of the voice signal, and the propriety of the optical zoom operation is determined. However, the voiced section or the speech section may be determined by voice detection instead of using the SNR.
具体的に、主制御部11は、以下に示す式4によりスペクトルフラックスを算出する。なお、音声検出は、スペクトルフラックスを用いる手法に限らず、自己相関を用いる手法、LPCを用いる手法等により行われてもよい。
Specifically, the
ここで、X(t、f)は、時刻tのフレームにおける周波数fのスペクトル成分の発生頻度を表している。スペクトルフラックスF(t)は、式5に示すように、時刻tのフレームと時刻t−1のフレームのスペクトル成分の発生頻度の差分の二乗和の平方根として定義される。 Here, X (t, f) represents the frequency of occurrence of the spectral component of frequency f in the frame at time t. As shown in Equation 5, the spectral flux F (t) is defined as the square root of the square sum of the difference in the frequency of occurrence of spectral components between the frame at time t and the frame at time t−1.
スペクトルフラックスF(t)は、対象音声の場合、スペクトル成分の時間変動が大きいので大きくなり、定常雑音の場合、スペクトル成分の時間変動が小さいので小さくなることが知られている。このため、図2に示すステップS101の処理でスペクトルフラックスF(t)を算出し、ステップS109の処理で閾値処理することで、SNRを用いる代わりに音声検出により有音区間または発話区間を判定することができる。 It is known that the spectrum flux F (t) is large because the time variation of the spectrum component is large in the case of the target speech, and is small because the time variation of the spectrum component is small in the case of stationary noise. Therefore, the spectral flux F (t) is calculated in the process of step S101 shown in FIG. 2, and the threshold value is processed in the process of step S109, so that the voiced section or the utterance section is determined by voice detection instead of using the SNR. be able to.
[3.まとめ]
以上説明したように、本発明の実施形態に係るスチルカメラ10によれば、ズーム指示の操作信号が入力されると、音声信号の入力状況に応じて、光学ズームの作動時点が調節される。これにより、光学ズームの作動時点を対象音声が入力されていない時点に調節することで、ノイズ除去に伴う対象音声の歪みによる記録品質および/または出力品質の低下を防止することができる。
[3. Summary]
As described above, according to the still
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。 The preferred embodiments of the present invention have been described in detail above with reference to the accompanying drawings, but the present invention is not limited to such examples. It is obvious that a person having ordinary knowledge in the technical field to which the present invention pertains can come up with various changes or modifications within the scope of the technical idea described in the claims. Of course, it is understood that these also belong to the technical scope of the present invention.
例えば、上記実施形態の説明では、音声データをカードメモリに供給する場合について説明した。しかし、音声データは、カードメモリの代わりに、ハードディスク等の外部記録装置に供給されてもよい。また、音声データは、記録装置による記録に代えて、または記録と併せて、外部のスピーカ等の出力装置に供給されてもよい。 For example, in the description of the above embodiment, the case where audio data is supplied to the card memory has been described. However, the audio data may be supplied to an external recording device such as a hard disk instead of the card memory. Further, the audio data may be supplied to an output device such as an external speaker instead of or in addition to recording by the recording device.
10 スチルカメラ
11 主制御部
13 操作部
15 撮像部
17 レンズ制御部
19 シャッタ制御部
21 アイリス制御部
23 タイミング生成部
25 撮像信号変換部
27 撮像信号処理部
29 画像処理部
31 表示制御部
33 表示部
35 マイクロホン
37 音声信号変換部
39 音声信号処理部
41 音声処理部
43 スピーカ
45 メモリ制御部
47 メモリ
49 カード制御部
51 メモリカード
DESCRIPTION OF
Claims (11)
マイクロホンから入力される音声信号を、記録装置および/または出力装置に供給する音声信号供給部と、
前記音声信号の入力状況を判定する音声信号判定部と、
前記ズーム指示の操作信号が入力されるかを判定する操作信号判定部と、
前記ズーム指示の操作信号が入力されると、前記音声信号の入力状況に応じて、光学ズームの作動時点を調節するズーム作動調節部と、
を備える撮像装置。 In response to a zoom instruction from a user, an imaging unit that performs an optical zoom operation;
An audio signal supply unit for supplying an audio signal input from a microphone to a recording device and / or an output device;
An audio signal determination unit for determining an input state of the audio signal;
An operation signal determination unit that determines whether an operation signal for the zoom instruction is input;
When an operation signal of the zoom instruction is input, a zoom operation adjustment unit that adjusts an operation time point of the optical zoom according to an input state of the audio signal
An imaging apparatus comprising:
前記ズーム作動調節部は、前記有音区間または発話区間に前記ズーム指示の操作信号が入力されると、前記有音区間または発話区間の終了後に前記撮像部が光学ズーム動作を行うように、前記光学ズームの作動時点を調節する、請求項1に記載の撮像装置。 The voice signal determination unit determines a voiced section or a speech section from the input state of the voice signal,
The zoom operation adjusting unit is configured so that, when an operation signal for the zoom instruction is input to the sounding section or the utterance section, the imaging unit performs an optical zoom operation after the end of the sounding section or the utterance section. The imaging apparatus according to claim 1, wherein an operation time point of the optical zoom is adjusted.
前記ズーム処理部は、前記有音区間または発話区間に前記ズーム指示の操作信号が入力されると、前記有音区間または発話区間にデジタルズーム処理を行う、請求項2に記載の撮像装置。 A zoom processing unit that performs digital zoom processing on an image pickup signal input from the image pickup unit;
The imaging apparatus according to claim 2, wherein the zoom processing unit performs a digital zoom process on the sounding section or the utterance section when an operation signal for the zoom instruction is input to the sounding section or the utterance section.
前記ズーム作動調節部は、光学ズーム動作時に前記有音区間または発話区間が判定されると、前記撮像部が光学ズーム動作を一時的に停止するように、前記光学ズームの作動を調節する、請求項1〜5のいずれか1項に記載の撮像装置。 The audio signal determination unit determines the voiced section or the utterance section in consideration of noise associated with the optical zoom operation,
The zoom operation adjusting unit adjusts the operation of the optical zoom so that the imaging unit temporarily stops the optical zoom operation when the sound section or the speech section is determined during the optical zoom operation. Item 6. The imaging device according to any one of Items 1 to 5.
前記ステップは、
前記音声信号の入力状況を判定するステップと、
前記ズーム指示の操作信号が入力されるかを判定するステップと、
前記ズーム指示の操作信号が入力されると、前記音声信号の入力状況に応じて、光学ズームの作動時点を調節するステップと、
を含む撮像方法。 Supplying an audio signal input from a microphone to a recording device and / or an output device;
The step includes
Determining the input status of the audio signal;
Determining whether an operation signal for the zoom instruction is input;
When an operation signal for the zoom instruction is input, adjusting an operation time point of the optical zoom according to an input state of the audio signal;
An imaging method including:
前記ステップは、
前記音声信号の入力状況を判定するステップと、
前記ズーム指示の操作信号が入力されるかを判定するステップと、
前記ズーム指示の操作信号が入力されると、前記音声信号の入力状況に応じて、光学ズームの作動時点を調節するステップと、
を含む撮像方法をコンピュータに実行させるためのプログラム。 Supplying an audio signal input from a microphone to a recording device and / or an output device;
The step includes
Determining the input status of the audio signal;
Determining whether an operation signal for the zoom instruction is input;
When an operation signal for the zoom instruction is input, adjusting an operation time point of the optical zoom according to an input state of the audio signal;
A program for causing a computer to execute an imaging method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009266703A JP2011114406A (en) | 2009-11-24 | 2009-11-24 | Imaging apparatus, imaging method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009266703A JP2011114406A (en) | 2009-11-24 | 2009-11-24 | Imaging apparatus, imaging method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011114406A true JP2011114406A (en) | 2011-06-09 |
Family
ID=44236450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009266703A Withdrawn JP2011114406A (en) | 2009-11-24 | 2009-11-24 | Imaging apparatus, imaging method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011114406A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5936174B2 (en) * | 2012-07-26 | 2016-06-15 | 村田機械株式会社 | Overhead traveling vehicle system and transfer control method in overhead traveling vehicle system |
-
2009
- 2009-11-24 JP JP2009266703A patent/JP2011114406A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5936174B2 (en) * | 2012-07-26 | 2016-06-15 | 村田機械株式会社 | Overhead traveling vehicle system and transfer control method in overhead traveling vehicle system |
JPWO2014017221A1 (en) * | 2012-07-26 | 2016-07-07 | 村田機械株式会社 | Overhead traveling vehicle system and transfer control method in overhead traveling vehicle system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5351644B2 (en) | Audio recording apparatus and method, and imaging apparatus | |
US9153243B2 (en) | Imaging device, program, memory medium, and noise reduction method | |
US9495950B2 (en) | Audio signal processing device, imaging device, audio signal processing method, program, and recording medium | |
JP5247384B2 (en) | Imaging apparatus, information processing method, program, and storage medium | |
US8698911B2 (en) | Sound recording device, imaging device, photographing device, optical device, and program | |
JP4816334B2 (en) | Noise reduction device, imaging device, noise reduction method, and program | |
JP5279629B2 (en) | Imaging device | |
JP5538918B2 (en) | Audio signal processing apparatus and audio signal processing system | |
US20110254979A1 (en) | Imaging apparatus, signal processing apparatus, and program | |
US8860822B2 (en) | Imaging device | |
US9282229B2 (en) | Audio processing apparatus, audio processing method and imaging apparatus | |
JP5361398B2 (en) | Imaging device | |
KR101457392B1 (en) | Imaging apparatus and audio processing apparatus | |
JP2011114406A (en) | Imaging apparatus, imaging method, and program | |
JP5278477B2 (en) | Signal processing apparatus, imaging apparatus, and signal processing program | |
JP2013179585A (en) | Sound processing device and sound processing program | |
JP5158054B2 (en) | Recording device, imaging device, and program | |
US9294835B2 (en) | Image capturing apparatus, signal processing apparatus and method | |
JP6061476B2 (en) | Audio processing device | |
JP2012185445A (en) | Signal processor, imaging apparatus and program | |
JP2009276528A (en) | Sound processor and recording device | |
JP6381366B2 (en) | Audio processing apparatus, audio processing method, and program | |
JP2013178458A (en) | Signal processing device and signal processing program | |
JP5736839B2 (en) | Signal processing apparatus, imaging apparatus, and program | |
JP2013047710A (en) | Sound signal processing apparatus, imaging apparatus, sound signal processing method, program, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20130205 |