JP2012118317A - Signal processor, imaging apparatus and signal processing program - Google Patents

Signal processor, imaging apparatus and signal processing program Download PDF

Info

Publication number
JP2012118317A
JP2012118317A JP2010268234A JP2010268234A JP2012118317A JP 2012118317 A JP2012118317 A JP 2012118317A JP 2010268234 A JP2010268234 A JP 2010268234A JP 2010268234 A JP2010268234 A JP 2010268234A JP 2012118317 A JP2012118317 A JP 2012118317A
Authority
JP
Japan
Prior art keywords
sound
signal processing
unit
processing device
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010268234A
Other languages
Japanese (ja)
Inventor
Kosuke Okano
康介 岡野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nikon Corp
Original Assignee
Nikon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nikon Corp filed Critical Nikon Corp
Priority to JP2010268234A priority Critical patent/JP2012118317A/en
Publication of JP2012118317A publication Critical patent/JP2012118317A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a technique which enables acquisition of a sound signal with inconspicuous non-steady sound without deterioration in the sound quality of the sound signal.SOLUTION: A signal processor includes: a storage unit for storing information on drive noise generated from an imaging apparatus; an operation unit for calculating similarity showing the degree of similarity between recorded sound and the drive noise by using the information on the drive noise; and a control unit for determining whether the sound and the drive noise are similar or not based on the similarity and instructing control on drive operation with the drive noise according to the determination result.

Description

本発明は、信号処理装置、撮像装置および信号処理プログラムに関する。   The present invention relates to a signal processing device, an imaging device, and a signal processing program.

従来、デジタルカメラやデジタルビデオカメラ等による音声記録や動画撮像において、周囲の音声だけでなく、背景ノイズやデジタルカメラやデジタルビデオカメラ自身が発する駆動音まで記録される。そこで、そうした背景ノイズや駆動音を除去して、必要な音声のみを記録する様々な技術が開発されている。   2. Description of the Related Art Conventionally, in audio recording and moving image capturing by a digital camera, a digital video camera, or the like, not only ambient sounds but also background noise and driving sounds emitted by the digital camera and digital video camera itself are recorded. Therefore, various techniques for removing only such background noise and driving sound and recording only necessary sound have been developed.

例えば、非特許文献1は、スペクトル減算法を用いて音声信号に重畳した背景ノイズを除去する技術を開示している。   For example, Non-Patent Document 1 discloses a technique for removing background noise superimposed on an audio signal using a spectral subtraction method.

S. F. Boll, 'Suppression of Acoustic Noise in Speech Using Spectral Subtraction', IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Vol. ASSP-27, No. 2, pp.113-120, April 1979S. F. Boll, 'Suppression of Acoustic Noise in Speech Using Spectral Subtraction', IEEE TRANSACTIONS ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, Vol.ASSP-27, No. 2, pp.113-120, April 1979

しかしながら、特許文献1のような従来技術では、音声信号の音質を劣化させることなく、背景ノイズとともに駆動音等の非定常音を除去することは非常に困難である。   However, with the conventional technology such as Patent Document 1, it is very difficult to remove non-stationary sounds such as driving sounds as well as background noise without deteriorating the sound quality of the audio signal.

上記従来技術が有する問題に鑑み、本発明の目的は、音声信号の音質を劣化させることなく、非定常音の目立たない音声信号を取得することができる技術を提供することにある。   SUMMARY OF THE INVENTION In view of the above-described problems of the prior art, an object of the present invention is to provide a technique that can acquire an audio signal in which unsteady sound is not noticeable without deteriorating the sound quality of the audio signal.

上記課題を解決するために、本発明の信号処理装置は、撮像装置が発する駆動音の情報を記憶する記憶部と、録音した音声と駆動音との類似の度合いを示す類似度を駆動音の情報を用いて算出する演算部と、類似度に基づいて音声と駆動音とが類似するか否かを判定し、判定結果に応じて駆動音を伴う駆動動作を制御指示する制御部と、を備える。   In order to solve the above-described problem, the signal processing device of the present invention has a storage unit that stores information on the driving sound emitted by the imaging device, and a degree of similarity indicating the degree of similarity between the recorded sound and the driving sound. A calculation unit that calculates using information, and a control unit that determines whether the sound and the driving sound are similar based on the degree of similarity, and that controls the driving operation with the driving sound according to the determination result, Prepare.

また、制御部は、音声と駆動音とが類似すると判定した場合、駆動動作を行うと制御指示してもよい。   Further, the control unit may instruct the control to perform the driving operation when it is determined that the sound and the driving sound are similar.

また、制御部は、音声と駆動音とが類似しないと判定した場合、駆動動作を見合わすと制御指示してもよい。   In addition, when it is determined that the sound and the driving sound are not similar, the control unit may instruct the control to cancel the driving operation.

また、演算部は、音声の周波数特性から取得した複数の特徴量からなる第1の特徴量データを生成する解析部をさらに備え、駆動音の情報は、駆動音の周波数特性から取得した複数の特徴量からなる第2の特徴量データであり、演算部は、第1の特徴量データおよび第2の特徴量データを用いた内積の演算に基づいて類似度を算出してもよい。   The calculation unit further includes an analysis unit that generates first feature value data including a plurality of feature values acquired from the frequency characteristics of the sound, and the drive sound information includes a plurality of information acquired from the frequency characteristics of the drive sound. It is 2nd feature-value data which consist of feature-values, Comprising: A calculating part may calculate a similarity based on the calculation of the inner product using 1st feature-value data and 2nd feature-value data.

また、第1の特徴量データおよび第2の特徴量データを正規化する正規化部を備え、演算部は、正規化された第1の特徴量データおよび第2の特徴量データを用いて内積の演算を行ってもよい。   In addition, a normalization unit that normalizes the first feature amount data and the second feature amount data is provided, and the arithmetic unit uses the first feature amount data and the second feature amount data that have been normalized to perform an inner product. May be performed.

また、駆動動作は、撮像装置によるフォーカス動作若しくはズーム動作、または、ユーザによるダイヤル操作若しくはボタン操作であってもよい。   The driving operation may be a focus operation or a zoom operation by the imaging device, or a dial operation or a button operation by the user.

また、類似度または制御部による判定結果を表示する表示部を備えてもよい。   Moreover, you may provide the display part which displays the similarity or the determination result by a control part.

本発明の撮像装置は、被写体像を撮像して画像を生成する撮像部と、外部からの音声を音声信号として出力するマイクロホンと、本発明の信号処理装置と、を備える。   An imaging apparatus of the present invention includes an imaging unit that captures a subject image and generates an image, a microphone that outputs an external sound as an audio signal, and the signal processing apparatus of the present invention.

また、類似度または制御部による判定結果とともに、画像を表示する表示部を備えてもよい。   Moreover, you may provide the display part which displays an image with the similarity or the determination result by a control part.

本発明の信号処理プログラムは、コンピュータを本発明の信号処理装置として機能させる。   The signal processing program of the present invention causes a computer to function as the signal processing device of the present invention.

本発明によれば、音声信号の音質を劣化させることなく、非定常音の目立たない音声信号を取得することができる。   According to the present invention, it is possible to acquire an audio signal in which unsteady sound is not noticeable without deteriorating the sound quality of the audio signal.

一の実施形態に係るデジタルカメラ1の構成の一例を示すブロック図The block diagram which shows an example of a structure of the digital camera 1 which concerns on one Embodiment. デジタルカメラ1の動作例を示す流れ図Flow chart showing an operation example of the digital camera 1 モニタ17の表示の一例を示す図The figure which shows an example of the display of the monitor 17 モニタ17の表示の他の例を示す図The figure which shows the other example of a display of the monitor 17

図1は、一の実施形態に係るデジタルカメラ1の構成の一例を示すブロック図である。   FIG. 1 is a block diagram illustrating an example of a configuration of a digital camera 1 according to an embodiment.

本実施形態のデジタルカメラ1は、撮像光学系11、撮像素子12、DFE13、CPU14、メモリ15、操作部ン16、モニタ17、メディアI/F18およびマイクロホ20を有する。ここで、DFE13、メモリ15、操作部16、モニタ17、メディアI/F18およびマイクロホン20は、それぞれCPU14に接続されている。   The digital camera 1 of the present embodiment includes an imaging optical system 11, an imaging device 12, a DFE 13, a CPU 14, a memory 15, an operation unit 16, a monitor 17, a media I / F 18, and a microphone 20. Here, the DFE 13, the memory 15, the operation unit 16, the monitor 17, the media I / F 18, and the microphone 20 are each connected to the CPU 14.

撮像素子12は、撮像光学系11を通過した光束による被写体の結像を撮像するデバイスである。この撮像素子12の出力はDFE13に接続されている。なお、本実施形態の撮像素子12は、順次走査方式の固体撮像素子(CCDなど)であってもよく、XYアドレス方式の固体撮像素子(CMOSなど)であってもよい。   The image pickup device 12 is a device that picks up an image of an object formed by a light beam that has passed through the image pickup optical system 11. The output of the image sensor 12 is connected to the DFE 13. Note that the image sensor 12 of the present embodiment may be a progressive scanning solid-state image sensor (CCD or the like) or an XY address type solid-state image sensor (CMOS or the like).

撮像素子12の受光面には、複数の受光素子がマトリックス状に配列されている。撮像素子12の各受光素子には、赤色(R)、緑色(G)、青色(B)のカラーフィルタが公知のベイヤ配列にしたがって配置されている。そのため、撮像素子12の各受光素子は、カラーフィルタでの色分解によってそれぞれの色に対応する画像信号を出力する。これにより、撮像素子12は、撮像時にカラーの画像を取得できる。撮像素子12は、全受光素子に画像信号を出力させて静止画像等を撮像し、間引いた一部の受光素子に画像信号を出力させて動画や構図確認用の低解像画像(スルー画)等を撮像する。   A plurality of light receiving elements are arranged in a matrix on the light receiving surface of the imaging element 12. In each light receiving element of the image sensor 12, red (R), green (G), and blue (B) color filters are arranged according to a known Bayer array. Therefore, each light receiving element of the imaging element 12 outputs an image signal corresponding to each color by color separation in the color filter. Thereby, the image sensor 12 can acquire a color image at the time of imaging. The image sensor 12 outputs an image signal to all the light receiving elements to pick up a still image or the like, and outputs an image signal to a part of the thinned light receiving elements to output a low resolution image (through image) for checking a moving image or a composition. And so on.

DFE13は、撮像素子12から入力される画像信号のA/D変換や、欠陥画素補正などの信号処理を行うデジタルフロントエンド回路である。このDFE13は、本実施形態において撮像素子12とともに撮像部を構成し、撮像素子12より入力される画像信号を画像のデータとしてCPU14に出力する。   The DFE 13 is a digital front-end circuit that performs signal processing such as A / D conversion of image signals input from the image sensor 12 and correction of defective pixels. In this embodiment, the DFE 13 constitutes an image pickup unit together with the image pickup device 12 and outputs an image signal input from the image pickup device 12 to the CPU 14 as image data.

CPU14は、デジタルカメラ1の各部を統括的に制御するプロセッサである。例えば、CPU14は、撮像素子12の出力に基づいて、公知のコントラスト検出によるオートフォーカス(AF)制御や公知の自動露出(AE)演算などをそれぞれ実行する。また、CPU14は、DEF13からの画像データに対して、デジタル処理を施す。一例として、デジタル処理には、補間処理、ホワイトバランス処理、階調変換処理、輪郭強調処理、色変換処理などが含まれる。さらに、CPU14は、プログラムの実行により、スペクトル解析部21、演算部22、正規化部23として動作する。   The CPU 14 is a processor that comprehensively controls each unit of the digital camera 1. For example, the CPU 14 performs autofocus (AF) control by known contrast detection, known automatic exposure (AE) calculation, and the like based on the output of the image sensor 12. Further, the CPU 14 performs digital processing on the image data from the DEF 13. As an example, digital processing includes interpolation processing, white balance processing, gradation conversion processing, contour enhancement processing, color conversion processing, and the like. Further, the CPU 14 operates as a spectrum analysis unit 21, a calculation unit 22, and a normalization unit 23 by executing the program.

スペクトル解析部21は、デジタルカメラ1による動画等の撮像時において、後述するマイクロホン20によって取得される周囲の音声の時系列信号をスペクトル解析する。本実施形態のスペクトル解析は、高速フーリエ変換、Z変換、または離散コサイン変換等の公知の手法を用いて行われる。スペクトル解析部21は、そのスペクトル解析から求めた音声信号の周波数スペクトルの複数の特徴量、すなわち複数の周波数成分の振幅をベクトルの成分とする特徴ベクトルVを生成する。 The spectrum analysis unit 21 performs spectrum analysis on a time-series signal of surrounding sounds acquired by the microphone 20 described later when a digital camera 1 captures a moving image or the like. The spectrum analysis of the present embodiment is performed using a known method such as fast Fourier transform, Z transform, or discrete cosine transform. The spectrum analysis unit 21 generates a plurality of feature amounts of the frequency spectrum of the speech signal obtained from the spectrum analysis, that is, a feature vector V S having the vector components of the amplitudes of the plurality of frequency components.

また、本実施形態では、CPU14が、デジタルカメラ1による撮像を行う前に、周囲の音声が無い無音状態で、ユーザにより操作部16の操作(例えば、レリーズ釦の半押し操作等)に応じて、マイクロホン20を介しデジタルカメラ1が発する駆動音の時系列信号を取得する。スペクトル解析部21は、取得した駆動音信号をスペクトル解析して、特徴ベクトルVを生成する。スペクトル解析部21は、その特徴ベクトルVをメモリ15に記録する。なお、駆動音は、AF制御や撮像光学系11のズーミング動作に伴って発せられる非定常音であり、あるいはユーザによる手動フォーカス動作や操作部16の操作(例えば、釦操作やダイヤル操作等)に伴って発せられる非定常音である。なお、駆動音信号の特徴ベクトルVは、一度求められたら他の撮像において何度も用いられてもよいし、撮像を行う度に駆動音を取得して更新されてもよい。 Further, in the present embodiment, the CPU 14 responds to the operation of the operation unit 16 by the user (for example, a half-press operation of the release button) in a silent state without surrounding sound before the digital camera 1 performs imaging. Then, a time series signal of the driving sound emitted from the digital camera 1 is acquired via the microphone 20. The spectrum analysis unit 21 performs spectrum analysis on the acquired drive sound signal to generate a feature vector V N. The spectrum analysis unit 21 records the feature vector V N in the memory 15. Note that the drive sound is an unsteady sound that is emitted in association with AF control or the zooming operation of the imaging optical system 11, or is used for manual focus operation or operation of the operation unit 16 (for example, button operation or dial operation) by the user. It is an unsteady sound that is accompanied. The feature vector V N of the driving sound signals may be used several times in other imaging Once prompted, it may be updated by acquiring the driving sound each time for imaging.

演算部22は、正規化部23で正規化された特徴ベクトルVおよびVの単位特徴ベクトルeおよびeを用い内積値を求める。本実施形態の内積値は、取得した音声信号とデジタルカメラ1の駆動音信号との類似している度合いを示す類似度とする。内積値(類似度)は0から1までの値であり、大きな値ほど音声信号と駆動音信号とは類似していることを示す。すなわち、内積値=0の場合、音声信号は駆動音信号と完全に異なることを示し、内積値=1の場合、音声信号=駆動音信号であることを示す。 The calculation unit 22 obtains an inner product value using the unit feature vectors e S and e N of the feature vectors V S and V N normalized by the normalization unit 23. The inner product value of the present embodiment is a similarity indicating the degree of similarity between the acquired audio signal and the driving sound signal of the digital camera 1. The inner product value (similarity) is a value from 0 to 1, and a larger value indicates that the audio signal and the drive sound signal are similar. That is, when the inner product value = 0, the sound signal is completely different from the drive sound signal, and when the inner product value = 1, the sound signal = the drive sound signal.

メモリ15は、CPU14によって実行される各種のプログラムや画像ファイルなどとともに、上記駆動音信号の特徴ベクトルVを記憶する不揮発性のフラッシュメモリである。 Memory 15, such as with various programs and image files to be executed by the CPU 14, a nonvolatile flash memory for storing a feature vector V N of the drive sound signal.

操作部16は、例えば、記録モードの切換入力や、後述する記憶媒体19への記録を伴う静止画や動画の撮像指示等をユーザから受け付ける。   The operation unit 16 receives, for example, a recording mode switching input, an instruction to capture a still image or a moving image that accompanies recording in a storage medium 19 described later, and the like from the user.

モニタ17は、CPU14の制御によって各種画像を表示する。例えば、動画の撮像後において、CPU14の制御指示に応じて、モニタ17は、撮像された動画を再生表示する。また、本実施形態のモニタ17は、上記類似度に基づいたCPU14による音声信号と駆動音信号とが類似しているか否かの判定結果等を表示する。モニタ17には、液晶モニタ等のモニタや、電子ビューファインダ等を適宜選択して用いることができる。   The monitor 17 displays various images under the control of the CPU 14. For example, after capturing a moving image, the monitor 17 reproduces and displays the captured moving image in response to a control instruction from the CPU 14. In addition, the monitor 17 of the present embodiment displays a determination result of whether or not the audio signal and the driving sound signal by the CPU 14 are similar based on the similarity. As the monitor 17, a monitor such as a liquid crystal monitor, an electronic viewfinder, or the like can be appropriately selected and used.

メディアI/F18には、不揮発性の記憶媒体19を着脱可能に接続できる。そして、メディアI/F18は、記憶媒体19に対してデータの書き込み/読み込みを実行する。上記の記憶媒体19は、ハードディスクや、半導体メモリを内蔵したメモリカードなどで構成される。なお、図1では記憶媒体19の一例としてメモリカードを図示する。   A non-volatile storage medium 19 can be detachably connected to the media I / F 18. The media I / F 18 executes data writing / reading with respect to the storage medium 19. The storage medium 19 includes a hard disk, a memory card incorporating a semiconductor memory, or the like. In FIG. 1, a memory card is illustrated as an example of the storage medium 19.

マイクロホン20は、周囲の音声だけでなく、デジタルカメラ1が発する駆動音を受信して音声信号や駆動音信号の電気信号を出力する。また、マイクロホン20は、動画再生時等の場合、記録された音声信号を音波として出力するスピーカである。   The microphone 20 receives not only the surrounding sound but also the driving sound emitted by the digital camera 1 and outputs the sound signal and the electric signal of the driving sound signal. The microphone 20 is a speaker that outputs a recorded audio signal as a sound wave when reproducing a moving image or the like.

次に、図2の流れ図を参照しつつ、本実施形態でのデジタルカメラ1の動作例について説明する。なお、以下の説明では、駆動音信号としてAF制御動作時の駆動音とする。   Next, an operation example of the digital camera 1 in this embodiment will be described with reference to the flowchart of FIG. In the following description, the driving sound signal is a driving sound during the AF control operation.

具体的には、CPU14が、ユーザからの動画撮像指示(例えば、操作部16に含まれるレリーズ釦の全押し操作など)を受け付ける。CPU14は、撮像素子12に間引いた一部の受光素子から画像信号を出力させて被写体の動画撮像を開始する。CPU14は、図3に示すように、上記動画の構図を示すスルー画40をモニタ17に表示させる。同時に、CPU14は、マイクロホン20に被写体およびその周囲の音声を取得させ音声信号を出力させる。CPU14は、ステップS101〜ステップS105の処理を開始する。   Specifically, the CPU 14 accepts a moving image capturing instruction from the user (for example, full pressing operation of a release button included in the operation unit 16). The CPU 14 outputs an image signal from a part of the light receiving elements thinned out by the imaging element 12 and starts capturing a moving image of the subject. As shown in FIG. 3, the CPU 14 displays a through image 40 showing the composition of the moving image on the monitor 17. At the same time, the CPU 14 causes the microphone 20 to acquire the subject and surrounding sounds and output a sound signal. CPU14 starts the process of step S101-step S105.

ステップS101:スペクトル解析部21は、マイクロホン20から出力される音声信号を、所定の時間間隔(例えば10m秒等)毎に所定の窓関数を適用して高速フーリエ変換、Z変換、または離散コサイン変換等の公知の手法を用いスペクトル解析する。スペクトル解析部21は、そのスペクトル解析によって求まる音声信号の周波数スペクトルから特徴ベクトルVを生成する。 Step S101: The spectrum analysis unit 21 applies a predetermined window function to the audio signal output from the microphone 20 at predetermined time intervals (for example, 10 milliseconds), and performs fast Fourier transform, Z transform, or discrete cosine transform. The spectrum is analyzed using a known method such as the above. The spectrum analysis unit 21 generates a feature vector V S from the frequency spectrum of the speech signal obtained by the spectrum analysis.

ステップS102:演算部22は、メモリ15から駆動音信号の特徴ベクトルVを読み込む。正規化部24は、音声信号の特徴ベクトルVおよび駆動音信号の特徴ベクトルVを正規化して、単位ベクトルeおよびeを求める。 Step S102: calculating section 22 reads the feature vector V N of the drive sound signal from the memory 15. The normalizing unit 24 normalizes the feature vector V S of the audio signal and the feature vector V N of the driving sound signal to obtain unit vectors e S and e N.

ステップS103:演算部22は、類似度として、単位ベクトルeとeとの内積値e×eを求める。 Step S103: The calculation unit 22 obtains an inner product value e S × e N of the unit vectors e S and e N as the similarity.

ステップS104:CPU14は、演算部22が求めた内積値e×eに基づいて、音声信号と駆動音信号とが類似しているか否かを判定する。CPU14は、その判定結果をモニタ17に表示してユーザに通知する(図3)。 Step S104: The CPU 14 determines whether or not the sound signal and the drive sound signal are similar based on the inner product value e S × e N obtained by the calculation unit 22. The CPU 14 displays the determination result on the monitor 17 and notifies the user (FIG. 3).

図3は、モニタ17に表示される判定結果の表示の一例を示す。本実施形態では、スルー画40とともに、判定結果である音声信号の駆動音信号に対する類似度をインジケータ30で表示してユーザに通知する。図3(a)は、音声信号とAF制御動作の駆動音信号との類似度の値が小さい例として高原で撮像する場合を示し、図3(b)は、音声信号と駆動音信号との類似度の値が大きい例として交通量の多い道路脇で撮像する場合を示す。なお、図4に示すように、駆動音の音源毎の判定結果をインジケータ35のように表示してもよい。インジケータ35は、AF制御動作の駆動音とともに、手動フォーカス動作(MF)およびズーミング動作(ZM)の駆動音それぞれの音声信号に対する類似の度合いの結果を示す。また、インジケータ30の代わりに、文字、色または記号等で表示してもよい。文字、色または記号等で表示する場合、メモリ15にあらかじめ閾値が記憶され、CPU14は、内積値e×eと上記閾値とに基づいて、音声信号と駆動音信号とが類似しているか否かを判定することが好ましい。 FIG. 3 shows an example of the determination result displayed on the monitor 17. In the present embodiment, together with the through image 40, the similarity of the determination result of the audio signal to the driving sound signal is displayed on the indicator 30 and notified to the user. FIG. 3A shows a case where an image is picked up on a plateau as an example in which the similarity between the audio signal and the driving sound signal of the AF control operation is small, and FIG. As an example of a large similarity value, a case where an image is taken on the side of a road with a large amount of traffic is shown. In addition, as shown in FIG. 4, you may display the determination result for every sound source of a drive sound like the indicator 35. FIG. The indicator 35 shows the result of the similarity degree with respect to each sound signal of the driving sound of the manual focus operation (MF) and the zooming operation (ZM) together with the driving sound of the AF control operation. Further, instead of the indicator 30, characters, colors, symbols, or the like may be displayed. When displaying in characters, colors, symbols, or the like, a threshold value is stored in the memory 15 in advance, and the CPU 14 determines whether the sound signal and the drive sound signal are similar based on the inner product value e S × e N and the threshold value. It is preferable to determine whether or not.

図3(a)に示すような類似度の値が小さく、音声信号と駆動音信号とが類似しない場合、動画撮像時にデジタルカメラ1がAF制御動作を行うと、動画の再生時において重畳した駆動音信号が目立ってしまう。そこで、CPU14がモニタ17にインジケータ30で判定結果を表示することにより、ユーザは、インジケータ30の表示に基づいて、デジタルカメラ1によるAF制御動作を見合わせるか否かを判断する。これにより、AF制御動作による駆動音信号が重畳していない音声信号を取得することができる。   When the similarity value is small as shown in FIG. 3A and the audio signal and the drive sound signal are not similar, if the digital camera 1 performs the AF control operation during moving image shooting, the superimposed drive during reproduction of the moving image is performed. The sound signal is noticeable. Therefore, the CPU 14 displays the determination result on the monitor 17 with the indicator 30, so that the user determines whether to postpone the AF control operation by the digital camera 1 based on the display of the indicator 30. As a result, it is possible to acquire an audio signal on which the driving sound signal by the AF control operation is not superimposed.

一方、図3(b)に示すような類似度が大きく、音声信号と駆動音信号とが類似する場合、動画の撮像時にデジタルカメラ1がAF制御動作を行ったとしても、動画の再生時において駆動音信号が目立つことはない。そこで、CPU14がモニタ17にインジケータ30で判定結果を表示することにより、ユーザは、インジケータ30に基づいてデジタルカメラ1によるAF制御動作を行うか否かを判断する。これにより、AF制御動作による駆動音信号が目立たない音声信号を取得することができる。   On the other hand, when the similarity as shown in FIG. 3B is large and the audio signal and the drive sound signal are similar, even when the digital camera 1 performs the AF control operation when capturing the moving image, The drive sound signal does not stand out. Accordingly, the CPU 14 displays the determination result on the monitor 17 with the indicator 30, so that the user determines whether or not to perform the AF control operation by the digital camera 1 based on the indicator 30. Thereby, it is possible to acquire an audio signal in which the driving sound signal by the AF control operation is not conspicuous.

ステップS105:CPU14は、Audio Video Interleave(AVI)やMotion JPEG等の所定の動画形式に応じて、画像データと取得した音声信号とを動画データとしてメモリ15に一時的に記録する。CPU14は、ユーザによるレリーズ釦の全押しが解除されたか否かを判定する。CPU14は、レリーズ釦の全押しが解除されたと判定した場合(YES側)、メモリ15に一時的に記録された動画データの動画ファイルを生成して、メモリ15や記憶媒体19に記録する。CPU14は、一連の処理を終了する。一方、CPU14は、レリーズ釦の全押しが解除されていないと判定した場合、ステップS101(NO側)へ移行する。CPU14は、ステップS101〜ステップS104の処理を、レリーズ釦の全押しが解除されるまで行う。   Step S105: The CPU 14 temporarily records the image data and the acquired audio signal in the memory 15 as moving image data in accordance with a predetermined moving image format such as Audio Video Interleave (AVI) or Motion JPEG. The CPU 14 determines whether or not the user has fully released the release button. When the CPU 14 determines that the release button has been fully pressed (YES side), the CPU 14 generates a moving image file of the moving image data temporarily recorded in the memory 15 and records it in the memory 15 or the storage medium 19. The CPU 14 ends a series of processes. On the other hand, if the CPU 14 determines that the release button has not been fully pressed, the process proceeds to step S101 (NO side). CPU14 performs the process of step S101-step S104 until the full press of a release button is cancelled | released.

このように、本実施形態は、取得した音声信号の特徴ベクトルVと、メモリ15に記憶された駆動音信号の特徴ベクトルVとの内積値(類似度)に基づいて、音声信号が駆動音信号に類似しているか否かを判定しデジタルカメラ1による動作を制限することにより、音声信号の音質を劣化させることなく、駆動音信号の重畳が目立たない音声信号を取得することができる。
《実施形態の補足事項》
(1)本発明の信号処理装置は、上記実施形態のデジタルカメラ1の例に限定されない。例えば、コンピュータを本発明の信号処理装置として機能させてもよい。
Thus, in the present embodiment, the sound signal is driven based on the inner product value (similarity) between the acquired feature vector V S of the sound signal and the feature vector V N of the drive sound signal stored in the memory 15. By determining whether or not it is similar to the sound signal and restricting the operation of the digital camera 1, it is possible to obtain a sound signal in which the superimposition of the drive sound signal is not noticeable without deteriorating the sound quality of the sound signal.
<< Additional items of embodiment >>
(1) The signal processing apparatus of the present invention is not limited to the example of the digital camera 1 of the above embodiment. For example, a computer may function as the signal processing apparatus of the present invention.

(2)上記実施形態では、類似度として、内積値e×eとしたが、単位ベクトルeとeとの相関値であってもよい。 (2) In the above embodiment, the inner product value e S × e N is used as the similarity, but a correlation value between the unit vectors e S and e N may be used.

(3)上記実施形態では、デジタルカメラ1のスペクトル解析部21、演算部22、正規化部23の各処理を、CPU14がソフトウエア的に実現する例を説明したが、ASICを用いてこれらの各処理をハードウエア的に実現しても勿論かまわない。   (3) In the above-described embodiment, an example in which the CPU 14 implements each process of the spectrum analysis unit 21, the calculation unit 22, and the normalization unit 23 of the digital camera 1 by software has been described. Of course, each processing may be realized by hardware.

(4)上記実施形態では、図3(a)に示すような音声信号と駆動音信号との類似度が小さい場合、CPU14がモニタ17にインジケータ30で判定結果を表示することにより、ユーザに駆動音の伴うデジタルカメラ1の動作を制限するとしたが、次のようにしてもよい。例えば、一般的に音声信号と駆動音信号との周波数スペクトルは、周波数空間において互いに重なる部分が少ない。したがって、デジタルカメラ1の動作に伴う駆動音信号が重畳した音声信号を取得したとしても、後の処理において音質を劣化させることなく音声信号から重畳した駆動音信号を除去することが容易にできる。   (4) In the above embodiment, when the similarity between the audio signal and the drive sound signal as shown in FIG. 3A is small, the CPU 14 displays the determination result on the monitor 17 with the indicator 30 to drive the user. Although the operation of the digital camera 1 with sound is limited, the following may be performed. For example, in general, the frequency spectrum of an audio signal and a drive sound signal has few overlapping portions in the frequency space. Therefore, even if an audio signal on which a drive sound signal accompanying the operation of the digital camera 1 is acquired, it is possible to easily remove the drive sound signal superimposed from the audio signal without degrading the sound quality in subsequent processing.

(5)上記実施形態では、動画撮像時において音声信号が駆動音信号と類似しているか否かの判定処理を行ったが、静止画像に付加される音声信号に対しても駆動音信号との判定処理を行ってもよい。   (5) In the above embodiment, the determination process is performed to determine whether or not the audio signal is similar to the drive sound signal at the time of moving image capturing. A determination process may be performed.

(6)上記実施形態では、ステップS103において、演算部22が求めた内積値e×eは、音声信号と駆動音信号との類似の判定のみに用いられたが、内積値e×eを類似度データとして動画ファイルに付加してもよい。これにより、再生時等において、類似度データに基づいて駆動音信号の除去処理等を行うことができ、音質の劣化を回避することができる。 (6) In the above embodiment, the inner product value e S × e N obtained by the calculation unit 22 in step S103 is used only for the similar determination between the audio signal and the driving sound signal, but the inner product value e S × e N may be added to the moving image file as similarity data. Thereby, at the time of reproduction or the like, it is possible to perform a drive sound signal removal process or the like based on the similarity data, and avoid deterioration of sound quality.

(7)上記実施形態では、1つの駆動音信号から1つの特徴ベクトルVを求めたが、1つの駆動音信号から複数の特徴ベクトルVを求めてもよい。例えば、AF制御動作の駆動音の場合、一般的に、撮像光学系11が不図示のレンズ駆動部によって停止状態から定常の駆動動作になるまでの区間、定常の駆動動作の区間、定常の駆動動作から停止状態になるまでの区間での駆動音信号は互いに異なる周波数スペクトルを有する。そこで、スペクトル解析部21は、各区間の駆動音信号をスペクトル解析して、各区間の特徴ベクトルVを生成する。スペクトル解析部21は、それらの特徴ベクトルVをメモリ15に記録する。これにより、CPU14は、演算部22が求める音声信号の特徴ベクトルVと各区間の特徴ベクトルVとの内積値に基づいて、音声信号が駆動音信号に類似するか否かの判定をより正確に行うことができる。 (7) In the above embodiment, one feature vector V N is obtained from one drive sound signal, but a plurality of feature vectors V N may be obtained from one drive sound signal. For example, in the case of driving sound of an AF control operation, generally, a period until the imaging optical system 11 is brought into a steady driving operation from a stop state by a lens driving unit (not shown), a steady driving operation section, a steady driving. The driving sound signals in the section from the operation to the stop state have different frequency spectra. Therefore, the spectrum analysis unit 21 performs spectrum analysis on the driving sound signal in each section, and generates a feature vector V N in each section. The spectrum analysis unit 21 records these feature vectors V N in the memory 15. As a result, the CPU 14 determines whether or not the sound signal is similar to the drive sound signal based on the inner product value of the feature vector V S of the sound signal and the feature vector V N of each section obtained by the calculation unit 22. Can be done accurately.

以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲が、その精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図する。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずであり、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物によることも可能である。   From the above detailed description, features and advantages of the embodiments will become apparent. It is intended that the scope of the claims extend to the features and advantages of the embodiments as described above without departing from the spirit and scope of the right. Further, any person having ordinary knowledge in the technical field should be able to easily come up with any improvements and modifications, and there is no intention to limit the scope of the embodiments having the invention to those described above. It is also possible to use appropriate improvements and equivalents within the scope disclosed in.

1…デジタルカメラ、11…撮像光学系、12…撮像素子、13…DEF、14…CPU、15…メモリ、16…操作部、17…モニタ、18…メディアI/F、19…記憶媒体、20…マイクロホン、21…スペクトル解析部、22…演算部、23…正規化部 DESCRIPTION OF SYMBOLS 1 ... Digital camera, 11 ... Imaging optical system, 12 ... Imaging device, 13 ... DEF, 14 ... CPU, 15 ... Memory, 16 ... Operation part, 17 ... Monitor, 18 ... Media I / F, 19 ... Storage medium, 20 ... Microphone, 21 ... Spectrum analysis unit, 22 ... Calculation unit, 23 ... Normalization unit

Claims (10)

撮像装置が発する駆動音の情報を記憶する記憶部と、
録音した音声と前記駆動音との類似の度合いを示す類似度を前記駆動音の情報を用いて算出する演算部と、
前記類似度に基づいて前記音声と前記駆動音とが類似するか否かを判定し、前記判定結果に応じて前記駆動音を伴う駆動動作を制御指示する制御部と、
を備えることを特徴とする信号処理装置。
A storage unit for storing information on driving sound emitted by the imaging device;
A calculation unit that calculates a degree of similarity indicating the degree of similarity between the recorded sound and the driving sound using the information of the driving sound;
A control unit that determines whether the sound and the driving sound are similar based on the similarity, and that controls the driving operation with the driving sound according to the determination result;
A signal processing apparatus comprising:
請求項1に記載の信号処理装置において、
前記制御部は、前記音声と前記駆動音とが類似すると判定した場合、前記駆動動作を行うと制御指示することを特徴とする信号処理装置。
The signal processing device according to claim 1,
The signal processing device according to claim 1, wherein the control unit issues a control instruction to perform the driving operation when it is determined that the sound and the driving sound are similar.
請求項1または請求項2に記載の信号処理装置において、
前記制御部は、前記音声と前記駆動音とが類似しないと判定した場合、前記駆動動作を見合わすと制御指示することを特徴とする信号処理装置。
The signal processing device according to claim 1 or 2,
The signal processing apparatus according to claim 1, wherein when the control unit determines that the sound and the drive sound are not similar, the control unit issues a control instruction when the drive operation is delayed.
請求項1ないし請求項3のいずれか1項に記載の信号処理装置において、
前記演算部は、
前記音声の周波数特性から取得した複数の特徴量からなる第1の特徴量データを生成する解析部をさらに備え、
前記駆動音の情報は、前記駆動音の周波数特性から取得した複数の特徴量からなる第2の特徴量データであり、
前記演算部は、前記第1の特徴量データおよび前記第2の特徴量データを用いた内積の演算に基づいて前記類似度を算出する
ことを特徴とする信号処理装置。
The signal processing apparatus according to any one of claims 1 to 3,
The computing unit is
An analysis unit that generates first feature amount data including a plurality of feature amounts acquired from the frequency characteristics of the voice;
The drive sound information is second feature value data including a plurality of feature values acquired from the frequency characteristics of the drive sound,
The signal processing device, wherein the calculation unit calculates the similarity based on an inner product calculation using the first feature value data and the second feature value data.
請求項4に記載の信号処理装置において、
前記第1の特徴量データおよび前記第2の特徴量データを正規化する正規化部を備え、
前記演算部は、
正規化された前記第1の特徴量データおよび前記第2の特徴量データを用いて前記内積の演算を行う
ことを特徴とする信号処理装置。
The signal processing device according to claim 4,
A normalization unit that normalizes the first feature amount data and the second feature amount data;
The computing unit is
The signal processing device, wherein the inner product is calculated using the normalized first feature value data and the second feature value data.
請求項1ないし請求項5のいずれか1項に記載の信号処理装置において、
前記駆動動作は、前記撮像装置によるフォーカス動作若しくはズーム動作、または、ユーザによるダイヤル操作若しくはボタン操作である
ことを特徴とする信号処理装置。
The signal processing device according to any one of claims 1 to 5,
The signal processing device, wherein the driving operation is a focus operation or a zoom operation by the imaging device, or a dial operation or a button operation by a user.
請求項1ないし請求項6のいずれか1項に記載の信号処理装置において、
前記類似度または前記制御部による前記判定結果を表示する表示部を備えることを特徴とする信号処理装置。
The signal processing device according to any one of claims 1 to 6,
A signal processing apparatus comprising: a display unit configured to display the similarity or the determination result by the control unit.
被写体像を撮像して画像を生成する撮像部と、
外部からの音声を音声信号として出力するマイクロホンと、
請求項1ないし請求項6のいずれか1項に記載の信号処理装置と、
を備えることを特徴とする撮像装置。
An imaging unit that captures a subject image and generates an image;
A microphone that outputs external audio as an audio signal;
A signal processing device according to any one of claims 1 to 6,
An imaging apparatus comprising:
請求項7に記載の撮像装置において、
前記類似度または前記制御部による前記判定結果とともに、前記画像を表示する表示部を備えることを特徴とする撮像装置。
The imaging apparatus according to claim 7,
An image pickup apparatus comprising: a display unit that displays the image together with the similarity or the determination result by the control unit.
コンピュータを請求項1ないし請求項7のいずれか1項に記載の信号処理装置として機能させることを特徴とする信号処理プログラム。   A signal processing program for causing a computer to function as the signal processing device according to any one of claims 1 to 7.
JP2010268234A 2010-12-01 2010-12-01 Signal processor, imaging apparatus and signal processing program Withdrawn JP2012118317A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010268234A JP2012118317A (en) 2010-12-01 2010-12-01 Signal processor, imaging apparatus and signal processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010268234A JP2012118317A (en) 2010-12-01 2010-12-01 Signal processor, imaging apparatus and signal processing program

Publications (1)

Publication Number Publication Date
JP2012118317A true JP2012118317A (en) 2012-06-21

Family

ID=46501195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010268234A Withdrawn JP2012118317A (en) 2010-12-01 2010-12-01 Signal processor, imaging apparatus and signal processing program

Country Status (1)

Country Link
JP (1) JP2012118317A (en)

Similar Documents

Publication Publication Date Title
JP4656216B2 (en) Imaging apparatus, image processing apparatus, image processing method, program, and recording medium
US9495950B2 (en) Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
US8712207B2 (en) Digital photographing apparatus, method of controlling the same, and recording medium for the method
KR20130031572A (en) Image processing method and image processing apparatus
WO2016011872A1 (en) Image photographing method and apparatus and computer storage medium
JP4958806B2 (en) Blur detection device, blur correction device, and imaging device
JP5949559B2 (en) Image processing apparatus, imaging apparatus, and image processing program
JP4753856B2 (en) Motion detection apparatus and method, and imaging apparatus
JP2009260603A (en) Electronic camera
KR101499548B1 (en) Image processing apparatus, method for processing image, and recording medium storing program to implement the method
JP2013225779A (en) Image processing device, imaging device, and image processing program
JP2009171341A (en) Blur correcting device and imaging apparatus
JP2012118317A (en) Signal processor, imaging apparatus and signal processing program
US20110205385A1 (en) Signal processing apparatus and imaging apparatus
JP2012118316A (en) Signal processor, imaging apparatus, and signal processing program
JP5099210B2 (en) Imaging apparatus, imaging method, image processing apparatus, image processing method, program, and recording medium
JP2017175584A (en) Imaging apparatus and voice recording device
JP5018860B2 (en) Signal processing apparatus and imaging apparatus
US20120060614A1 (en) Image sensing device
JP5736839B2 (en) Signal processing apparatus, imaging apparatus, and program
US20200267338A1 (en) Image capturing apparatus, image processing apparatus, control method, image processing method, and storage medium
JP5473786B2 (en) Audio signal processing apparatus and control method thereof
JP2011151577A (en) Imaging device
JP2009088933A (en) Image recording apparatus, image correcting apparatus and image pickup apparatus
JP2006319465A (en) Imaging device

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140204