JP6931296B2 - Speech processing device and its control method - Google Patents

Speech processing device and its control method Download PDF

Info

Publication number
JP6931296B2
JP6931296B2 JP2017111163A JP2017111163A JP6931296B2 JP 6931296 B2 JP6931296 B2 JP 6931296B2 JP 2017111163 A JP2017111163 A JP 2017111163A JP 2017111163 A JP2017111163 A JP 2017111163A JP 6931296 B2 JP6931296 B2 JP 6931296B2
Authority
JP
Japan
Prior art keywords
microphone
gain
frequency spectrum
unit
spectrum data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017111163A
Other languages
Japanese (ja)
Other versions
JP2018207314A (en
JP2018207314A5 (en
Inventor
悠貴 辻本
悠貴 辻本
啓太 園田
啓太 園田
佐藤 龍介
龍介 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017111163A priority Critical patent/JP6931296B2/en
Publication of JP2018207314A publication Critical patent/JP2018207314A/en
Publication of JP2018207314A5 publication Critical patent/JP2018207314A5/ja
Application granted granted Critical
Publication of JP6931296B2 publication Critical patent/JP6931296B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic Arrangements (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、記録音声のステレオ感を強調する技術に関するものである。 The present invention relates to a technique for emphasizing the stereo feeling of recorded voice.

デジタルカメラやビデオカメラに代表される撮像装置は、動被写体を撮像して、その結果得られる動画像のデータを記録すると共に、被写体の周囲の音声も併せて記録することができる。以降、記録の目的となる被写体の周囲の音声を、以下、「周囲環境音」と称する。 An imaging device represented by a digital camera or a video camera can image a moving subject, record the data of the moving image obtained as a result, and also record the sound around the subject. Hereinafter, the sound around the subject to be recorded is hereinafter referred to as "ambient environment sound".

特開2010−173062号公報Japanese Unexamined Patent Publication No. 2010-173062

録音された音声のステレオ感を表現する方法として、例えた特許文献1に開示されるステレオ感強調という方法が知られている。この特許文献1によると、左右のマイクから入力された音声から音源の位置を想定し、その位置に応じて、左右の音声のレベルや時間を制御する方法によりステレオ感強調を行っている。まず、左右のマイクから入力される音声に対し、周波数帯域ごとに位相差を算出し、想定される音源の位置を求めている。例えば、音源が右側にあると判定されれば、右のマイクから入力された音声レベルを大きくする制御を行う。または、左のマイクから入力された音声を遅延させることで、ステレオ感を強調することが可能である。しかしながら、特許文献1であらわされるようなステレオ感を強調させる方法では、左右のマイクの保持構成が異なるなど、左右のマイクで録音される音声のレベルに差がある場合、適切なステレオ音声を生成することが出来ない。 As a method of expressing the stereo feeling of the recorded voice, a method of enhancing the stereo feeling disclosed in Patent Document 1 is known. According to Patent Document 1, the position of the sound source is assumed from the sounds input from the left and right microphones, and the stereo feeling is emphasized by a method of controlling the level and time of the left and right sounds according to the positions. First, the phase difference is calculated for each frequency band with respect to the voice input from the left and right microphones, and the expected position of the sound source is obtained. For example, if it is determined that the sound source is on the right side, control is performed to increase the sound level input from the microphone on the right side. Alternatively, it is possible to emphasize the stereo feeling by delaying the sound input from the left microphone. However, in the method of emphasizing the stereo feeling as shown in Patent Document 1, when there is a difference in the level of the sound recorded by the left and right microphones such as the holding configuration of the left and right microphones is different, an appropriate stereo sound is generated. I can't.

本発明は、かかる問題に鑑みんされたものであり、ステレオマイクとして機能する左右のマイクで録音される音に差がある場合でも、適切にステレオ感を強調したステレオ音声信号を得る技術を提供しようとするものである。 The present invention has been made in view of such a problem, and provides a technique for obtaining a stereo audio signal that appropriately emphasizes the stereo feeling even when there is a difference in sound recorded by the left and right microphones that function as stereo microphones. It is something to try.

この課題を解決するため、例えば本発明の音声処理装置は以下の構成を備える。すなわち、
音声処理装置であって、
第1のマイクと、
第2のマイクと、
前記第1のマイクから得られた時系列の音声データを第1の周波数スペクトルデータに変換し、前記第2のマイクから得られた時系列の音声データを第2の周波数スペクトルデータに変換する変換手段と、
前記変換手段で得た前記第1の周波数スペクトルデータに対する前記第2の周波数スペクトルデータの位相のずれを求め、前記位相のずれに基づいて右チャネルのゲイン及び左チャネルのゲインを決定する決定手段と、
前記第1の周波数スペクトルデータを前記決定手段により決定された前記右チャネルのゲインにより制御して右チャネルの周波数スペクトルデータを生成し、前記第1の周波数スペクトルデータを前記決定手段により決定された前記左チャネルのゲインにより制御して左チャネルの周波数スペクトルデータを生成する生成手段と、
前記生成手段で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換手段と
を有し、
前記決定手段は、所定の雑音が検出された場合には前記位相のずれに基づくことなく右チャネルのゲイン及び左チャネルのゲインを決定することを特徴とする
In order to solve this problem, for example, the voice processing device of the present invention has the following configuration. That is,
It is a voice processing device
With the first microphone
With the second microphone
Conversion that converts the time-series audio data obtained from the first microphone into the first frequency spectrum data and converts the time-series audio data obtained from the second microphone into the second frequency spectrum data. Means and
As a determination means for obtaining the phase shift of the second frequency spectrum data with respect to the first frequency spectrum data obtained by the conversion means and determining the gain of the right channel and the gain of the left channel based on the phase shift. ,
The first frequency spectrum data is controlled by the gain of the right channel determined by the determination means to generate the frequency spectrum data of the right channel, and the first frequency spectrum data is determined by the determination means. A generation means that is controlled by the gain of the left channel to generate frequency spectrum data of the left channel,
It has an inverse transformation means for inversely converting the frequency spectrum data of each of the left and right channels generated by the generation means into the audio data of each of the left and right channels in the time series.
The determining means is characterized in that when a predetermined noise is detected, the gain of the right channel and the gain of the left channel are determined without being based on the phase shift .

本発明によれば、左右のマイクで録音される音声に差がある場合でも、適切にステレオ感を強調したステレオ音声を得ることができる。 According to the present invention, it is possible to obtain a stereo sound that appropriately emphasizes the stereo feeling even when there is a difference in the sound recorded by the left and right microphones.

実施形態の撮像装置のブロック構成図。The block block diagram of the image pickup apparatus of an embodiment. 実施形態の撮像装置の撮像部、音声入力部の詳細なブロック構成図。A detailed block configuration diagram of an image pickup unit and an audio input unit of the image pickup apparatus of the embodiment. 実施形態の撮像装置の音声入力部のメカ構成図。The mechanical block diagram of the audio input part of the image pickup apparatus of embodiment. 実施形態の撮像装置のRECのシーケンスを示すフローチャート。The flowchart which shows the REC sequence of the image pickup apparatus of embodiment. 実施形態の撮像装置のL/Rch生成部のタイミングチャート。The timing chart of the L / Rch generation part of the image pickup apparatus of embodiment. 実施形態の撮像装置の音声入力部の詳細な構成を示すブロック図。The block diagram which shows the detailed structure of the audio input part of the image pickup apparatus of embodiment. 周囲環境音の撮像装置への伝搬する系を示す図。The figure which shows the system which propagates the ambient sound to an image pickup apparatus. 実施形態の撮像装置のメインマイクaからの周波数スペクトルとサブマイクbからの周波数スペクトルの位相の関係を示す図。The figure which shows the phase relationship of the frequency spectrum from the main microphone a and the frequency spectrum from a sub microphone b of the image pickup apparatus of an embodiment. 実施形態のステレオ感の強調係数と周波数の関係を示す図。The figure which shows the relationship between the emphasis coefficient of the stereo feeling of embodiment, and a frequency. 実施形態の撮像装置のメインマイクaとサブマイクb其々の各周波数毎の振幅スペクトルを示す図。The figure which shows the amplitude spectrum for each frequency of each of the main microphone a and the sub microphone b of the image pickup apparatus of an embodiment. 実施形態の撮像装置のサブマイクbの周波数Nポイント目の時系列の振幅スペクトルを示す図。The figure which shows the amplitude spectrum of the time series of the frequency N point of the sub microphone b of the image pickup apparatus of an embodiment. 実施形態の撮像装置のメインマイクaとサブマイクb其々の時系列の位相を示す図である。It is a figure which shows the phase of each of the main microphone a and the sub microphone b of the image pickup apparatus of an embodiment in time series. 実施形態の撮像装置のMch−Sch演算部の動作タイミングチャート。The operation timing chart of the Mch-Sch calculation unit of the image pickup apparatus of the embodiment. 実施形態の撮像装置の感度差補正部の動作タイミングチャート。The operation timing chart of the sensitivity difference correction part of the image pickup apparatus of embodiment. 実施形態の撮像装置の音声入力部のメカ構成図。The mechanical block diagram of the audio input part of the image pickup apparatus of embodiment. 実施形態の撮像装置のメインマイクaからの周波数スペクトルとサブマイクbからの周波数スペクトルを示す図。The figure which shows the frequency spectrum from the main microphone a and the frequency spectrum from a sub microphone b of the image pickup apparatus of an embodiment. 実施形態の風雑音レベルに対する風雑音ゲインの周波数関係を示す図。The figure which shows the frequency relation of the wind noise gain with respect to the wind noise level of an embodiment. 実施形態の撮像装置のメインマイクaからの周波数スペクトルとサブマイクbからの周波数スペクトルの合成される比率と周波数の関係を示す図。The figure which shows the relationship between the combined ratio and the frequency of the frequency spectrum from the main microphone a and the frequency spectrum from a sub microphone b of the image pickup apparatus of an embodiment. 実施形態の撮像装置のステレオ抑制部について、駆動騒音検出時と風雑音検出時に応じて、ステレオ効果の強調に用いる強調係数を変更するタイミングチャート。A timing chart for changing the emphasis coefficient used for enhancing the stereo effect according to the drive noise detection and the wind noise detection for the stereo suppression unit of the image pickup apparatus of the embodiment. 実施形態の風雑音検出時における、合成比率と周波数とステレオ効果の強調に用いる強調係数の関係を示す図。The figure which shows the relationship between the synthesis ratio, the frequency, and the emphasis coefficient used for the enhancement of a stereo effect at the time of the wind noise detection of an embodiment. 実施形態の駆動騒音除去ゲインと風雑音減算量とLch生成用ステレオゲインとRch生成用ステレオゲインの時定数を示す図。The figure which shows the time constant of the driving noise removal gain, the wind noise subtraction amount, the stereo gain for Lch generation, and the stereo gain for Rch generation of an embodiment.

以下図面に従って本発明に係る実施形態を詳細に説明する。本実施形態では、撮像装置に収容される音声処理装置ついて説明する。 Hereinafter, embodiments according to the present invention will be described in detail with reference to the drawings. In the present embodiment, the audio processing device accommodated in the image pickup device will be described.

図1は実施形態の撮像装置100の構成を示すブロック図である。撮像装置100は、撮像部101、音声入力部102、メモリ103、表示制御部104、表示部105を有する。また、撮像装置100は、符号化処理部106、記録再生部107、記録媒体108、制御部109、操作部110、音声出力部111、スピーカ112、外部出力部113、並びに、これらを接続するバス114を有する。 FIG. 1 is a block diagram showing the configuration of the image pickup apparatus 100 of the embodiment. The image pickup apparatus 100 includes an image pickup unit 101, an audio input unit 102, a memory 103, a display control unit 104, and a display unit 105. Further, the image pickup apparatus 100 includes a coding processing unit 106, a recording / playback unit 107, a recording medium 108, a control unit 109, an operation unit 110, an audio output unit 111, a speaker 112, an external output unit 113, and a bus connecting them. It has 114.

撮像部101は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、画像データを生成する。撮影光学レンズは、内蔵型の光学レンズであっても、着脱式の光学レンズであっても良い。また、撮像素子は、CCD、CMOS等に代表される光電変換素子であればよい。 The image pickup unit 101 converts the optical image of the subject captured by the photographing optical lens into an image signal by the image pickup element, performs analog-digital conversion, image adjustment processing, and the like to generate image data. The photographing optical lens may be a built-in optical lens or a detachable optical lens. The image sensor may be a photoelectric conversion element typified by a CCD, CMOS, or the like.

音声入力部102は、内蔵または音声端子を介して接続されたマイクにより、音声処理装置外(実施形態では撮像装置外)からの周辺の音声を集音し、電気信号を生成する。また、音声入力部102は、アナログデジタル変換、音声処理などを行い音声データを生成する。マイクは、指向性、無指向性を問わないが、本実施形態では無指向性のマイクを使用するものとする。 The voice input unit 102 collects peripheral sounds from outside the voice processing device (outside the imaging device in the embodiment) by a built-in microphone or a microphone connected via a voice terminal, and generates an electric signal. In addition, the voice input unit 102 performs analog-to-digital conversion, voice processing, and the like to generate voice data. The microphone may be directional or omnidirectional, but in the present embodiment, an omnidirectional microphone is used.

メモリ103は、撮像部101により得られた画像データや、音声入力部102により得られた音声データを一時的に記憶するために利用される。 The memory 103 is used to temporarily store the image data obtained by the imaging unit 101 and the voice data obtained by the voice input unit 102.

表示制御部104は、撮像部101により得られた画像データに係る画像や、撮像装置100の操作画面、メニュー画面等を表示部105や、不図示の映像端子を介して外部のディスプレイに表示する。表示部105の種類は問わないが、例えば液晶表示器である。 The display control unit 104 displays an image related to the image data obtained by the image pickup unit 101, an operation screen of the image pickup device 100, a menu screen, and the like on an external display via the display unit 105 and a video terminal (not shown). .. The type of the display unit 105 is not limited, but is, for example, a liquid crystal display.

符号化処理部106は、メモリ103に一時的に記憶された画像データや音声データを読み出して所定の符号化を行い、圧縮画像データ、圧縮音声データ等を生成する。また、音声データに関しては圧縮しないようにしてもよい。圧縮画像データは、例えば、MPEG2やH.264/MPEG4−AVCなど、どのような圧縮方式で圧縮されたものであってもよい。また、圧縮音声データも、AC3(A)AC、ATRAC、ADPCMなどのような圧縮方式で圧縮されたものであってもよい。また、符号化処理部106は、上記の符号化データ(圧縮画像データ、圧縮音声データ)の復号処理も行う。 The coding processing unit 106 reads out the image data and audio data temporarily stored in the memory 103, performs predetermined coding, and generates compressed image data, compressed audio data, and the like. Further, the audio data may not be compressed. The compressed image data can be, for example, MPEG2 or H.M. It may be compressed by any compression method such as 264 / MPEG4-AVC. Further, the compressed audio data may also be compressed by a compression method such as AC3 (A) AC, ATRAC, ADPCM, or the like. The coding processing unit 106 also performs decoding processing of the above-mentioned coded data (compressed image data, compressed audio data).

記録再生部107は、記録媒体108に対して、符号化処理部106で生成された圧縮画像データ、圧縮音声データまたは音声データ、各種データを記録したり、記録媒体108から読出したりする。ここで、記録媒体108は、画像データ、音声データ等を記録する不揮発性の記録媒体である。例えば、磁気ディスク、光学式ディスク、半導体メモリなどであり、その種類は問わない。また、記録媒体108は、本装置100に対して固定であっても、脱着可能であっても構わない。 The recording / playback unit 107 records compressed image data, compressed audio data or audio data, and various types of data generated by the coding processing unit 106 on the recording medium 108, and reads the data from the recording medium 108. Here, the recording medium 108 is a non-volatile recording medium for recording image data, audio data, and the like. For example, it may be a magnetic disk, an optical disk, a semiconductor memory, or the like, and the type thereof does not matter. Further, the recording medium 108 may be fixed to or detachable from the device 100.

制御部109は、バス114を介して、撮像装置100の各ブロックに制御信号を送信することで撮像装置100の各ブロックを制御するものであり、各種制御を実行するためのCPUやメモリなどから構成される。制御部109で使用するメモリは、各種制御プログラムを格納するROM、演算処理のためのワークエリアとして利用するRAM等であり、制御部109の外付けのメモリも含む。 The control unit 109 controls each block of the image pickup apparatus 100 by transmitting a control signal to each block of the image pickup apparatus 100 via the bus 114, from a CPU, a memory, or the like for executing various controls. It is composed. The memory used by the control unit 109 is a ROM for storing various control programs, a RAM used as a work area for arithmetic processing, and the like, and also includes an external memory of the control unit 109.

操作部110は、ボタン、ダイヤル、タッチパネル、或いはそれらの組み合わせであり、ユーザの操作に応じて、指示信号を制御部109に送信する。操作部110は、具体的には、動画記録開始、終了を指示するための撮影ボタン、光学的もしくは電子的に画像に対してズーム動作する指示するためのズームレバー、各種調整をするための十字キー、決定キーなどを有する。 The operation unit 110 is a button, a dial, a touch panel, or a combination thereof, and transmits an instruction signal to the control unit 109 in response to a user operation. Specifically, the operation unit 110 has a shooting button for instructing the start and end of moving image recording, a zoom lever for instructing an optical or electronic zoom operation on the image, and a cross for making various adjustments. It has a key, a decision key, and so on.

音声出力部111は、記録再生部107により再生された音声データや圧縮音声データ、または制御部109により出力される音声データをスピーカ112や音声端子などに出力する。外部出力部113は、記録再生部107により再生された圧縮映像データや圧縮音声データ、音声データなどを外部機器に出力する。データバス114は、音声データや画像データ等の各種データ、各種制御信号を撮像装置100の各ブロックに供給する。 The audio output unit 111 outputs the audio data or compressed audio data reproduced by the recording / reproduction unit 107, or the audio data output by the control unit 109 to the speaker 112, the audio terminal, or the like. The external output unit 113 outputs compressed video data, compressed audio data, audio data, etc. reproduced by the recording / playback unit 107 to an external device. The data bus 114 supplies various data such as voice data and image data, and various control signals to each block of the image pickup apparatus 100.

以上が実施形態における撮像装置100の構成の説明である。次に、実施形態における撮像装置の通常の動作について説明する。 The above is the description of the configuration of the image pickup apparatus 100 in the embodiment. Next, the normal operation of the image pickup apparatus in the embodiment will be described.

本実施形態の撮像装置100は、ユーザが操作部110を操作して電源を投入する指示が出されたことに応じて、不図示の電源供給部からの電力が、撮像装置の各ブロックに供給される。 In the image pickup apparatus 100 of the present embodiment, power from a power supply unit (not shown) is supplied to each block of the image pickup apparatus in response to an instruction to turn on the power by operating the operation unit 110 by the user. Will be done.

電源が供給されると、制御部109は、操作部110のモード切り換えスイッチが、例えば、撮影モード、再生モード等のどのモードを指定しているかを、操作部110からの指示信号により確認する。撮影モードにおける動画記録モードでは、撮像部101により得られた画像データと音声入力部102により得られた音声データとを1つの画像ファイルとして保存する。再生モードでは、記録媒体108に記録された画像ファイルを記録再生部107により再生して表示部105に表示させ、スピーカ112より出力することになる。 When the power is supplied, the control unit 109 confirms which mode the mode changeover switch of the operation unit 110 specifies, for example, a shooting mode or a reproduction mode, by an instruction signal from the operation unit 110. In the moving image recording mode in the shooting mode, the image data obtained by the imaging unit 101 and the audio data obtained by the audio input unit 102 are stored as one image file. In the reproduction mode, the image file recorded on the recording medium 108 is reproduced by the recording / reproduction unit 107, displayed on the display unit 105, and output from the speaker 112.

撮影モードでは、まず、制御部109は、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送信し、以下のような動作をさせる。 In the shooting mode, first, the control unit 109 transmits a control signal to each block of the image pickup apparatus 100 so as to shift to the shooting standby state, and performs the following operations.

撮像部101は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により動画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、動画像データを生成する。そして、撮像部101は、得られた動画像データを表示処理部104に送信し、表示部105に表示させる。なお、撮像部101は、1フレームが水平1920画素×垂直1080画素、フレームレートが30フレーム/秒の動画像信号を出力する。ユーザはこの様にして表示された画面を見ながら撮影の準備を行う。 The image pickup unit 101 converts the optical image of the subject captured by the photographing optical lens into a moving image signal by the image pickup element, performs analog-digital conversion, image adjustment processing, and the like to generate moving image data. Then, the imaging unit 101 transmits the obtained moving image data to the display processing unit 104 and causes the display unit 105 to display it. The imaging unit 101 outputs a moving image signal in which one frame is horizontal 1920 pixels × vertical 1080 pixels and the frame rate is 30 frames / sec. The user prepares for shooting while looking at the screen displayed in this way.

音声入力部102は、複数のマイクにより得られたアナログ音声信号をデジタル信号に変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データを音声出力部111に送信し、接続されたスピーカ112や不図示のイヤホンから音声として出力させる。ユーザは、この様にして出力された音声を聞きながら記録音量を決定するためのマニュアルボリュームの調整をすることもできる。 The voice input unit 102 converts analog voice signals obtained by a plurality of microphones into digital signals, processes the obtained digital voice signals, and generates multi-channel voice data. Then, the obtained voice data is transmitted to the voice output unit 111, and is output as voice from the connected speaker 112 or an earphone (not shown). The user can also adjust the manual volume for determining the recording volume while listening to the sound output in this way.

次に、ユーザが操作部110の記録ボタンを操作することにより撮影開始の指示信号が制御部109に送信されると、制御部109は、撮像装置100の各ブロックに撮影開始の指示信号を送信し、撮影モードにおける動画像記録モードに移行する。具体的な、制御部109の処理は以下の通りである。 Next, when the user operates the record button of the operation unit 110 to transmit the shooting start instruction signal to the control unit 109, the control unit 109 transmits the shooting start instruction signal to each block of the imaging device 100. Then, the mode shifts to the moving image recording mode in the shooting mode. The specific processing of the control unit 109 is as follows.

撮像部101は、撮影光学レンズにより取り込まれた被写体の光学像を撮像素子により動画像信号に変換し、アナログデジタル変換、画像調整処理などを行い、動画像データを生成する。そして、得られた動画像データを表示処理部104に送信し、表示部105に表示させる。また、撮像部101は、得られた画像データをメモリ103へ送信する。 The image pickup unit 101 converts the optical image of the subject captured by the photographing optical lens into a moving image signal by the image pickup element, performs analog-digital conversion, image adjustment processing, and the like to generate moving image data. Then, the obtained moving image data is transmitted to the display processing unit 104 and displayed on the display unit 105. Further, the image pickup unit 101 transmits the obtained image data to the memory 103.

音声入力部102は、複数のマイクにより得られたアナログ音声信号をデジタル信号に変換し、得られた複数のデジタル音声信号を処理して、マルチチャンネルの音声データを生成する。そして、得られた音声データをメモリ103に送信する。また、マイクが一つの場合には、得られたアナログ音声信号をデジタル変換し音声データを生成し、音声データをメモリ103に送信する。 The voice input unit 102 converts analog voice signals obtained by a plurality of microphones into digital signals, processes the obtained digital voice signals, and generates multi-channel voice data. Then, the obtained voice data is transmitted to the memory 103. When there is only one microphone, the obtained analog voice signal is digitally converted to generate voice data, and the voice data is transmitted to the memory 103.

符号化処理部106は、メモリ103に一時的に記憶された動画像データや音声データを読み出して所定の符号化を行い、圧縮動画像データ、圧縮音声データ等を生成し、再びメモリ103に格納する。 The coding processing unit 106 reads the moving image data and audio data temporarily stored in the memory 103, performs predetermined coding, generates compressed moving image data, compressed audio data, and the like, and stores the compressed moving image data, compressed audio data, and the like in the memory 103 again. do.

制御部109は、メモリ103に格納された圧縮動画像データ、圧縮音声データを合成し、データストリームを形成し、記録再生部107に出力する。音声データを圧縮しない場合には、制御部109は、メモリ103に格納された音声データと圧縮動画像データとを合成し、データストリームを形成して記録再生部107に出力する。 The control unit 109 synthesizes the compressed moving image data and the compressed audio data stored in the memory 103, forms a data stream, and outputs the data stream to the recording / reproducing unit 107. When the audio data is not compressed, the control unit 109 synthesizes the audio data stored in the memory 103 and the compressed moving image data, forms a data stream, and outputs the data stream to the recording / reproducing unit 107.

記録再生部107は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体108に書き込んでいく。 The recording / playback unit 107 writes the data stream as one moving image file to the recording medium 108 under the control of a file system such as UDF or FAT.

撮像装置100は、上記の処理を動画記録状態中、継続することになる。そして、ユーザが操作部110の記録ボタンを操作することにより撮影終了の指示信号が制御部109に送信されると、制御部109は、撮像装置100の各ブロックに撮影終了の指示信号を送信し、以下のような動作をさせる。 The image pickup apparatus 100 will continue the above processing during the moving image recording state. Then, when the user operates the record button of the operation unit 110 to transmit the shooting end instruction signal to the control unit 109, the control unit 109 transmits the shooting end instruction signal to each block of the imaging device 100. , Operate as follows.

撮像部101、音声入力部102は、それぞれ動画像データ、音声データの生成を停止する。符号化処理部106は、メモリに記憶されている残りの画像データと音声データとを読出して所定の符号化を行い、圧縮動画像データ、圧縮音声データ等を生成し終えたら動作を停止する。音声データを圧縮しない場合には、当然、圧縮動画像データの生成が終わったら動作を停止する。 The imaging unit 101 and the audio input unit 102 stop generating moving image data and audio data, respectively. The coding processing unit 106 reads out the remaining image data and audio data stored in the memory, performs predetermined coding, and stops the operation when the compressed moving image data, the compressed audio data, and the like are generated. When the audio data is not compressed, the operation is naturally stopped when the generation of the compressed moving image data is completed.

そして、制御部109は、これらの最後の圧縮動画像データと、圧縮音声データまたは音声データとを合成し、データストリームを形成し、記録再生部107に出力する。 Then, the control unit 109 synthesizes the last compressed moving image data and the compressed audio data or the audio data to form a data stream, and outputs the data stream to the recording / reproducing unit 107.

記録再生部107は、UDF、FAT等のファイルシステム管理のもとに、データストリームを一つの動画ファイルとして記録媒体108に書き込んでいく。そして、データストリームの供給が停止したら、動画ファイルを完成させて、記録動作を停止させる。 The recording / playback unit 107 writes the data stream as one moving image file to the recording medium 108 under the control of a file system such as UDF or FAT. Then, when the supply of the data stream is stopped, the moving image file is completed and the recording operation is stopped.

制御部109は、記録動作が停止すると、撮影待機状態に移行させるように制御信号を撮像装置100の各ブロックに送信して、撮影待機状態に戻る。 When the recording operation is stopped, the control unit 109 transmits a control signal to each block of the image pickup apparatus 100 so as to shift to the shooting standby state, and returns to the shooting standby state.

次に、再生モードについて説明する。ユーザが操作部110を操作して再生モードにした場合、制御部109は、再生状態に移行させるように制御信号を撮像装置100の各ブロックに送信し、以下のような動作をさせる。 Next, the reproduction mode will be described. When the user operates the operation unit 110 to enter the reproduction mode, the control unit 109 transmits a control signal to each block of the image pickup apparatus 100 so as to shift to the reproduction state, and performs the following operations.

記録媒体108に記録された圧縮動画像データと圧縮音声データとからなる動画ファイルを記録再生部107が読出して、読出された圧縮動画像データ、圧縮音声データを符号化処理部106に送る。 The recording / playback unit 107 reads a moving image file composed of the compressed moving image data and the compressed audio data recorded on the recording medium 108, and sends the read compressed moving image data and compressed audio data to the coding processing unit 106.

符号化処理部106は、圧縮動画像データ、圧縮音声データを復号し、それぞれを表示制御部104、音声出力部111に送信する。表示制御部104は、復号された動画像データを表示部105に表示させる。音声出力部111は、復号された音声データを内蔵のスピーカ112、または、取付けられた外部スピーカに出力して、音響として再生させる。 The coding processing unit 106 decodes the compressed moving image data and the compressed audio data, and transmits each of them to the display control unit 104 and the audio output unit 111. The display control unit 104 causes the display unit 105 to display the decoded moving image data. The audio output unit 111 outputs the decoded audio data to the built-in speaker 112 or an attached external speaker, and reproduces the decoded audio data as sound.

本実施形態の撮像装置100は以上のように、動画像、音声の記録再生を行うことができる。 As described above, the image pickup apparatus 100 of the present embodiment can record and reproduce moving images and sounds.

本実施形態では、音声入力部102において、音声信号を得る際に、マイクにより得られた音声信号のレベル調整処理等の処理をしている。この処理は、装置が起動してから常に行われてもよいし、撮影モードが選択されてから行われてもよい。或いは、音声の記録に関連するモードが選択されてから行われても良い。また、音声の記録に関連するモードにおいて、音声の記録が開始したことに応じて上記の処理を行ってもよい。本実施形態では、動画像撮影の開始されたタイミングで上記の処理を行うものとして説明する。 In the present embodiment, when the voice signal is obtained, the voice input unit 102 performs processing such as level adjustment processing of the voice signal obtained by the microphone. This process may always be performed after the device is started, or may be performed after the shooting mode is selected. Alternatively, it may be performed after the mode related to voice recording is selected. Further, in the mode related to voice recording, the above processing may be performed according to the start of voice recording. In the present embodiment, it is assumed that the above processing is performed at the timing when the moving image shooting is started.

図2は本実施形態の撮像装置100の撮像部101、音声入力部102のブロック構成図である。 FIG. 2 is a block configuration diagram of an imaging unit 101 and an audio input unit 102 of the imaging device 100 of the present embodiment.

撮像部101は、被写体の光学像を取り込む光学レンズ201、光学レンズ201により取り込まれた被写体の光学像を電気信号(画像信号)に変換させる撮像素子202を有する。さらに、撮像部101は、撮像素子202により得られたアナログ画像信号をデジタル画像信号に変換し、画質調整処理をして画像データを形成し、メモリに送信する画像処理部203を有している。さらに、撮像部101は、光学レンズ201を移動させるための位置センサ、モータ等の公知の駆動メカニズムを有する光学レンズ制御部204を有している。本実施形態では、撮像部101に光学レンズ201、光学レンズ制御部204が内蔵されているように記載しているが、光学レンズ201は、レンズマウントを介して撮像装置100に着脱自在な交換レンズであっても良い。また、光学レンズ制御部204は、交換レンズ内に設けられるようにしても良い。 The image pickup unit 101 includes an optical lens 201 that captures an optical image of the subject, and an image pickup element 202 that converts the optical image of the subject captured by the optical lens 201 into an electric signal (image signal). Further, the image pickup unit 101 has an image processing section 203 that converts the analog image signal obtained by the image pickup element 202 into a digital image signal, performs image quality adjustment processing to form image data, and transmits the image data to the memory. .. Further, the imaging unit 101 has an optical lens control unit 204 having a known driving mechanism such as a position sensor and a motor for moving the optical lens 201. In the present embodiment, it is described that the optical lens 201 and the optical lens control unit 204 are built in the image pickup unit 101, but the optical lens 201 is an interchangeable lens that can be attached to and detached from the image pickup device 100 via a lens mount. It may be. Further, the optical lens control unit 204 may be provided in the interchangeable lens.

ここで、ズーム動作、フォーカス調整などの指示を、ユーザが操作部110を操作して入力すると、制御部109は、光学レンズ制御部204に光学レンズ201を移動させるための制御信号(駆動信号)を送信する。光学レンズ制御部204は、この制御信号に応じて、不図示の位置センサで光学レンズ201の位置を確認し、不図示のモータ等で光学レンズ201の移動を行う。また、画像処理部203により得られた画像や被写体との距離を制御部109が確認し、自動的に調整する場合は、光学レンズを駆動させる制御信号を送信することになる。また、画像のブレを防止する、いわゆる防振機能を備えている場合には、制御部109は、不図示の振動センサにより検出された振動に基づいて、光学レンズ201を移動させるための制御信号を光学レンズ制御部204に送信することになる。 Here, when the user operates the operation unit 110 to input instructions such as zoom operation and focus adjustment, the control unit 109 controls the optical lens 201 to move the optical lens 201 to the optical lens control unit 204 (drive signal). To send. In response to this control signal, the optical lens control unit 204 confirms the position of the optical lens 201 with a position sensor (not shown) and moves the optical lens 201 with a motor or the like (not shown). Further, when the control unit 109 confirms the distance to the image or the subject obtained by the image processing unit 203 and automatically adjusts the distance, the control signal for driving the optical lens is transmitted. Further, when a so-called vibration isolation function for preventing image blurring is provided, the control unit 109 has a control signal for moving the optical lens 201 based on the vibration detected by a vibration sensor (not shown). Will be transmitted to the optical lens control unit 204.

このときに、光学レンズ201の移動による駆動騒音や光学レンズ201を移動させるためのモータの駆動騒音が発生することになる。制御部109からの光学レンズ201を駆動させる制御信号に応じて、光学レンズ制御部204が光学レンズ201を駆動させる。従って、制御部109は、駆動騒音が発生するタイミングを知る(検出するまたは、決定する)ことができる。 At this time, driving noise due to the movement of the optical lens 201 and driving noise of the motor for moving the optical lens 201 are generated. The optical lens control unit 204 drives the optical lens 201 in response to a control signal for driving the optical lens 201 from the control unit 109. Therefore, the control unit 109 can know (detect or determine) the timing at which the driving noise is generated.

本実施形態において、光学レンズ201の制御により、例えば最大で50倍、最小で1倍のズーミングを光学的に行うことができる。これを本実施形態では光学ズームと言う。勿論、光学ズームの倍率は前記以上でも前記以下でも構わないものとする。光学ズームは、制御部109からの指示で、光学レンズ制御部204が、光学レンズ201の光学レンズを移動させることで、被写体の光学像をズーミングさせるものである。また、画像処理部203は、撮像素子202により得られた画像信号の一部をズームインした画像信号を出力する電子ズーム機能を備えている。また、撮像素子202により得る画像の範囲を広くし、画像処理部203で画像サイズをズームアウトした画像信号を出力する電子ズーム機能を備えている。 In the present embodiment, by controlling the optical lens 201, for example, zooming of up to 50 times and at least 1 times can be optically performed. This is referred to as an optical zoom in this embodiment. Of course, the magnification of the optical zoom may be greater than or equal to the above or less than or equal to the above. In the optical zoom, the optical lens control unit 204 zooms the optical image of the subject by moving the optical lens of the optical lens 201 in response to an instruction from the control unit 109. Further, the image processing unit 203 has an electronic zoom function that outputs an image signal obtained by zooming in a part of the image signal obtained by the image sensor 202. Further, it has an electronic zoom function that widens the range of the image obtained by the image sensor 202 and outputs an image signal whose image size is zoomed out by the image processing unit 203.

以上が実施形態における撮像部101の構成とその動作である。次に、音声入力部102の構成と動作を説明する。 The above is the configuration and operation of the imaging unit 101 in the embodiment. Next, the configuration and operation of the voice input unit 102 will be described.

実施形態の撮像装置100は、参照符号205a,205bで示す2つのマイクを有する。これらマイク205a、205bは空気(媒体)を伝播する振動を電気信号に変換し、音声信号を出力するものである。マイク205aがメイン(MAIN)マイク、マイク205bがサブ(SUB)マイク205bであって、以降、この名称で表現する。 The image pickup apparatus 100 of the embodiment has two microphones indicated by reference numerals 205a and 205b. These microphones 205a and 205b convert the vibration propagating in the air (medium) into an electric signal and output an audio signal. The microphone 205a is the main (MAIN) microphone, the microphone 205b is the sub (SUB) microphone 205b, and will be hereinafter referred to by this name.

詳細は後述する説明で明らかにするが、メインマイク205aは、ステレオ音声の一方のチャネルに対応するマイクとして機能し、且つ、音声処理装置外(実施形態では撮像装置100外)から音声を主として取得するためのマイクである。また、サブマイク205bは、ステレオ音声のもう一方のチャネルに対応するマイクとして機能する位置に配置される。サブマイク205bは、メインマイク205aと比較して、音声処理装置内(撮像装置100)の駆動部からの駆動騒音を主として取得するためのマイクである。 The details will be clarified later, but the main microphone 205a functions as a microphone corresponding to one channel of stereo sound, and mainly acquires sound from outside the sound processing device (in the embodiment, outside the image pickup device 100). It is a microphone to do. Further, the sub microphone 205b is arranged at a position that functions as a microphone corresponding to the other channel of the stereo sound. The sub microphone 205b is a microphone for mainly acquiring the driving noise from the driving unit in the voice processing device (imaging device 100) as compared with the main microphone 205a.

メインマイク205aはアナログの音声信号をMch(メインチャネル)、サブマイク205bはアナログの音声信号をSch(サブチャネル)として出力する。本実施形態において第一の音声入力部をメインマイク205a、第一の音声信号をMchとする。また、第二の音声入力部をサブマイク205b、第二の音声信号をSchとする。本実施形態では2チャンネルで構成されたステレオ方式とするため、メインマイク205aとサブマイク205bの配置位置は、撮像部101の正立に構えた際の水平方向に所定距離隔てた位置に設けられている。なお、実施形態では、マイク数を2としているが、それ以上のマイクを保持する構成でも構わない。 The main microphone 205a outputs an analog audio signal as Mch (main channel), and the sub microphone 205b outputs an analog audio signal as Sch (sub channel). In the present embodiment, the first voice input unit is the main microphone 205a, and the first voice signal is Mch. Further, the second voice input unit is referred to as a sub microphone 205b, and the second voice signal is referred to as Sch. In the present embodiment, since the stereo system is composed of two channels, the arrangement positions of the main microphone 205a and the sub microphone 205b are provided at positions separated by a predetermined distance in the horizontal direction when the imaging unit 101 is held upright. There is. In the embodiment, the number of microphones is set to 2, but a configuration in which more microphones are held may be used.

メインマイク205a,サブマイク205bにより得られたアナログ音声信号はA/D変換部206に供給され、ここでそれぞれの音声信号がデジタルの音声データに変換される。本実施形態におけるA/D変換部206は、48KHzのサンプリングレートでサンプリングを行い、1サンプリング当たり16bitのデジタルデータを生成するものとする。 The analog audio signals obtained by the main microphone 205a and the sub microphone 205b are supplied to the A / D conversion unit 206, where each audio signal is converted into digital audio data. The A / D converter 206 in the present embodiment performs sampling at a sampling rate of 48 KHz and generates 16 bits of digital data per sampling.

A/D変換部206で得られた、予め設定された音声信号の期間(フレーム)の時系列のデジタルの音声データはFFT部207に供給され、ここで高速フーリエ変換され、周波数毎の周波数スペクトルデータに変換される。本実施形態において、周波数スペクトルは、0Hzから48kHzまでにおいて1024ポイントの周波数スペクトルデータとして変換され、ナイキスト周波数である24kHzまでにおいては512ポイントの周波数スペクトルを持つものとする。メインマイク205aからの周波数スペクトルデータをMain[0]〜[511]、サブマイク205bからの周波数スペクトルデータをSub[0]〜[511]と表す。また、本実施形態において、第一の音声スペクトルデータをMain[0]〜[511]、第二の音声スペクトルデータをSub[0]〜[511]と表すものとする。なお、各スペクトルデータの添え字が「0」が最低周波数を、「511」が最大周波数を表すものとする。 The time-series digital audio data of the preset audio signal period (frame) obtained by the A / D transform unit 206 is supplied to the FFT unit 207, where it is fast Fourier transformed and the frequency spectrum for each frequency. Converted to data. In the present embodiment, the frequency spectrum is converted as 1024-point frequency spectrum data from 0 Hz to 48 kHz, and has a frequency spectrum of 512 points up to the Nyquist frequency of 24 kHz. The frequency spectrum data from the main microphone 205a is represented by Main [0] to [511], and the frequency spectrum data from the sub microphone 205b is represented by Sub [0] to [511]. Further, in the present embodiment, the first audio spectrum data is represented by Main [0] to [511], and the second audio spectrum data is represented by Sub [0] to [511]. It is assumed that the subscript of each spectrum data is "0" indicating the lowest frequency and "511" representing the maximum frequency.

駆動音演算処理部209は、駆動部を駆動させるための、制御部109からの制御信号に応じて、FFT部207により得た周波数スペクトルデータの周波数成分毎の、駆動騒音の減算量を決定する。この駆動騒音は、光学レンズ201が駆動されることにより発生される。なお、本実施形態における駆動部はズーム動作、フォーカス調整により駆動する光学レンズ201を指すものとする。駆動音演算処理部209は、周波数スペクトル毎の減算量を表すNC_Gain[0]〜[511]と、駆動騒音検出信号を出力する。 The drive sound calculation processing unit 209 determines the subtraction amount of the drive noise for each frequency component of the frequency spectrum data obtained by the FFT unit 207 according to the control signal from the control unit 109 for driving the drive unit. .. This driving noise is generated by driving the optical lens 201. The driving unit in the present embodiment refers to the optical lens 201 driven by the zoom operation and the focus adjustment. The drive sound calculation processing unit 209 outputs NC_Gain [0] to [511] representing the subtraction amount for each frequency spectrum and the drive noise detection signal.

詳細は後述する説明から明らかになるが、感度差補正部208は、駆動音演算処理部209からの、1フレーム前の駆動騒音検出信号に応じて、現フレームのMain[0]〜[511]に対するSub[0]〜[511]の感度を補正し、補正後の周波数スペクトルデータMain[0]〜[511]、Sub[0]〜[511]を出力する。 The details will be clarified from the explanation described later, but the sensitivity difference correction unit 208 has the Main [0] to [511] of the current frame according to the drive noise detection signal one frame before from the drive sound calculation processing unit 209. The sensitivity of Sub [0] to [511] is corrected, and the corrected frequency spectrum data Main [0] to [511] and Sub [0] to [511] are output.

風雑音演算処理部210は、FFT部207からの周波数スペクトルデータから、風雑音を検出し、減算量を決定する。そして、風雑音演算処理部210は、決定した風雑音の周波数スペクトルデータWC_Gain[0]〜[511]と、風雑音レベル信号を出力する。 The wind noise calculation processing unit 210 detects wind noise from the frequency spectrum data from the FFT unit 207 and determines the subtraction amount. Then, the wind noise calculation processing unit 210 outputs the determined wind noise frequency spectrum data WC_Gain [0] to [511] and the wind noise level signal.

ステレオゲイン演算処理部211は、FFT部207からの周波数スペクトルデータに対し、ステレオのLch(左チャネル)及びRch(右チャネル)それぞれのゲインを決定する。そして、ステレオゲイン演算処理部211は、各チャネルの、決定した周波数スペクトルの成分毎のゲインを表すGain_L[0]〜[511]とGain_R[0]〜[511]を出力する。ここで、左チャンネルのゲインがGain_L[0]〜[511]、右チャンネルのゲインがGain_R[0]〜[511]である。 The stereo gain calculation processing unit 211 determines the gains of the stereo Lch (left channel) and Rch (right channel) with respect to the frequency spectrum data from the FFT unit 207. Then, the stereo gain calculation processing unit 211 outputs Gain_L [0] to [511] and Gain_R [0] to [511] representing the gains for each component of the determined frequency spectrum of each channel. Here, the gain of the left channel is Gain_L [0] to [511], and the gain of the right channel is Gain_R [0] to [511].

トータルゲイン演算部212は、駆動音演算処理部209、風雑音演算処理部210、および、ステレオゲイン演算処理部211において決定したNC_Gain[0]〜[511]、WC_Gain[0]〜[511]、Gain_L[0]〜[511]、Gain_R[0]〜[511]を合算し、Total_Gain_L[0]〜[511]、Total_Gain_R[0]〜[511]を出力する。具体的には、次式の通りである。実施形態では、このトータルゲイン演算部212は、トータルゲイン決定部として機能する。
Total_Gain_R[]=NC_Gain[]+WC_Gain[]+Gain_R[]
Total_Gain_L[]=NC_Gain[]+WC_Gain[]+Gain_L[]
The total gain calculation unit 212 includes NC_Gain [0] to [511], WC_Gain [0] to [511] determined by the drive sound calculation processing unit 209, the wind noise calculation processing unit 210, and the stereo gain calculation processing unit 211. Gain_L [0] to [511] and Gain_R [0] to [511] are added up, and Total_Gain_L [0] to [511] and Total_Gain_R [0] to [511] are output. Specifically, it is as follows. In the embodiment, the total gain calculation unit 212 functions as a total gain determination unit.
Total_Gain_R [] = NC_Gain [] + WC_Gain [] + Gain_R []
Total_Gain_L [] = NC_Gain [] + WC_Gain [] + Gain_L []

L/Rch生成部213は、MAIN[0]〜[511]の周波数毎の周波数スペクトルと、トータルゲイン演算部212で決定したTotal_Gain_L[0]〜[511]、Total_Gain_R[0]〜[511]を用いて、LchとRchの周波数スペクトルデータを生成する(詳細後述)。つまり、本実施形態におけるL/Rch生成部213はステレオ生成部として機能する。 The L / Rch generation unit 213 generates frequency spectra for each frequency of MAIN [0] to [511], Total_Gain_L [0] to [511] determined by the total gain calculation unit 212, and Total_Gain_R [0] to [511]. It is used to generate frequency spectrum data of Lch and Rch (details will be described later). That is, the L / Rch generation unit 213 in this embodiment functions as a stereo generation unit.

iFFT部214は、L/Rch生成部213で生成された各チャネルの周波数スペクトルデータに対して逆高速フーリエ変換を行い、それぞれのチャネルの時系列の音声信号に戻す。 The iFFT unit 214 performs an inverse fast Fourier transform on the frequency spectrum data of each channel generated by the L / Rch generation unit 213, and returns the audio signal to the time series of each channel.

音声処理部215は、イコライザ等の処理を実施する。オートレベルコントローラは、時系列の音声信号の振幅を所定のレベルに調整する(以後、ALC部216)。 The voice processing unit 215 performs processing such as an equalizer. The auto-level controller adjusts the amplitude of the time-series audio signal to a predetermined level (hereinafter, ALC unit 216).

以上の構成により、音声入力部102は、音声信号に所定の処理を行い音声データを形成し、メモリ103へ送信することになる。 With the above configuration, the voice input unit 102 performs predetermined processing on the voice signal to form voice data, and transmits the voice data to the memory 103.

次に、本実施形態の撮像装置100の記録動作について図4を用いて説明する。同図は実施形態の撮像装置100の記録のシーケンスを示すフローチャートである。 Next, the recording operation of the image pickup apparatus 100 of the present embodiment will be described with reference to FIG. FIG. 6 is a flowchart showing a recording sequence of the image pickup apparatus 100 of the embodiment.

S401にて、ユーザによる操作部110の操作により記録(REC)開始が指示されることで、本処理が開始される。S402にて、制御部109は音声録音するために音声のパスを接続する。音声パスが確立した後、S403にて、制御部109は、本実施形態で説明する制御を含めた信号処理の初期設定をおこない、処理を開始する。この信号処理の内容に関しては後述する。以降、RECシーケンスが終了するまで、本実施形態で説明する制御を含めた信号処理は実施される。 In S401, the start of recording (REC) is instructed by the operation of the operation unit 110 by the user, so that this process is started. In S402, the control unit 109 connects a voice path for voice recording. After the voice path is established, in S403, the control unit 109 performs initial setting of signal processing including the control described in the present embodiment, and starts the processing. The content of this signal processing will be described later. After that, signal processing including the control described in the present embodiment is performed until the REC sequence is completed.

記録処理シーケンス中、制御部109は、ユーザによる操作部110への操作を監視する。そして、ユーザにより、操作部110の一部であるズームレバーが操作された場合、S404からS405に処理を進め、制御部109は撮像部101を制御し、ズーム処理を行う。このズーム処理は、S406にて、ユーザがズームレバーの操作を止めたと判定されるまで継続する。ズーム処理中は、先に説明したように、レンズ201の移動による駆動騒音が発生し、その騒音が周囲環境音に重畳して録音されてしまう点に注意されたい。 During the recording processing sequence, the control unit 109 monitors the user's operation on the operation unit 110. Then, when the zoom lever, which is a part of the operation unit 110, is operated by the user, the process proceeds from S404 to S405, and the control unit 109 controls the image pickup unit 101 to perform the zoom process. This zoom process continues until it is determined in S406 that the user has stopped operating the zoom lever. Note that during the zoom process, as described above, driving noise is generated due to the movement of the lens 201, and the noise is superimposed on the ambient sound and recorded.

そして、制御部109は、ユーザによる操作部110の操作や、記録媒体108の状況によって、記録終了が指示されたと判断した場合、S407からS408に処理を進める。S408にて、制御部109は音声パスを切断し、次いで、S409にて信号処理も終了する。 Then, when the control unit 109 determines that the end of recording is instructed depending on the operation of the operation unit 110 by the user or the situation of the recording medium 108, the control unit 109 proceeds from S407 to S408. At S408, the control unit 109 disconnects the voice path, and then at S409, signal processing also ends.

次に、本実施形態の撮像装置100の音声入力部102の詳細を図6を用いて説明する。同図は、本実施形態の音声入力部102の詳細な構成を示すブロック図である。 Next, the details of the audio input unit 102 of the imaging device 100 of the present embodiment will be described with reference to FIG. FIG. 6 is a block diagram showing a detailed configuration of the voice input unit 102 of the present embodiment.

本実施形態における音声入力部102は、前述の通り、空気中を伝播する音声振動を電気信号に変換し、音声信号を出力するメインマイク205aとサブマイク205bを有する。また前述の通り、A/D変換部206は、アナログ音声信号を、48KHz、16bitのサンプリングを行い、アナログ音声信号からデジタル音声データに変換する。 As described above, the voice input unit 102 in the present embodiment has a main microphone 205a and a sub microphone 205b that convert voice vibration propagating in the air into an electric signal and output the voice signal. Further, as described above, the A / D conversion unit 206 samples the analog audio signal at 48 KHz and 16 bits, and converts the analog audio signal into digital audio data.

感度差補正部208は、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]と、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]との感度差を補正する。このため、感度差補正部208は、感度補正積分器2081、感度補正検出部2082、補正量演算部2083、感度補正ゲインテーブル2084、感度差補正ゲイン部2085を含む。 The sensitivity difference correction unit 208 corrects the sensitivity difference between the frequency spectrum data Main [0] to [511] from the main microphone 205a and the frequency spectrum data Sub [0] to [511] from the sub microphone 205b. Therefore, the sensitivity difference correction unit 208 includes a sensitivity correction integrator 2081, a sensitivity correction detection unit 2082, a correction amount calculation unit 2083, a sensitivity correction gain table 2084, and a sensitivity difference correction gain unit 2085.

感度補正積分器2081は、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]、及び、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]に対し、時間軸方向のレベル変化に時定数を持たせる。 The sensitivity correction integrator 2081 changes the level in the time axis direction with respect to the frequency spectrum data Main [0] to [511] from the main microphone 205a and the frequency spectrum data Sub [0] to [511] from the sub microphone 205b. Have a time constant.

感度補正検出部2082は、感度補正積分器2081にて時定数を持たせた周波数スペクトルデータであるMain[0]〜[511]とSub[0]〜[511]のレベル差『Main[n]−Sub[n]』を、全周波数ポイントについて求める。ここで、差分は正負の符号が発生することに注意されたい。 The sensitivity correction detection unit 2082 has a level difference "Main [n]" between Main [0] to [511] and Sub [0] to [511], which are frequency spectrum data having a time constant in the sensitivity correction integrator 2081. −Sub [n] ”is calculated for all frequency points. Note that the difference has positive and negative signs.

補正量演算部2083は、感度補正検出部2082からの差分レベルが負の場合(Main[n]<Sub[n]の場合に等価)、Main[n]=Sub[n]となるようにするため、Sub[n]の補正量を算出する。 The correction amount calculation unit 2083 sets Main [n] = Sub [n] when the difference level from the sensitivity correction detection unit 2082 is negative (equivalent to the case of Main [n] <Sub [n]). Therefore, the correction amount of Sub [n] is calculated.

なお、感度補正検出部2082からの差分レベルが正の場合(Main[n]≧Sub[n]の場合に等価)、Sub[n]を補正する必要が無い。したがって、この場合、補正量演算部2083はSub[n]の補正量として0を出力する。 When the difference level from the sensitivity correction detection unit 2082 is positive (equivalent to the case of Main [n] ≥ Sub [n]), it is not necessary to correct Sub [n]. Therefore, in this case, the correction amount calculation unit 2083 outputs 0 as the correction amount of Sub [n].

感度補正ゲインテーブル2084は、補正量演算部2083にて算出された各周波数スペクトルSub[0]〜[511]の具体的な補正量が格納している。 The sensitivity correction gain table 2084 stores specific correction amounts of each frequency spectrum Sub [0] to [511] calculated by the correction amount calculation unit 2083.

感度差補正ゲイン部2085は、実際に、感度補正ゲインテーブル2084を基に各周波数スペクトルSub[0]〜[511]のレベル補正を実行する。 The sensitivity difference correction gain unit 2085 actually executes level correction of each frequency spectrum Sub [0] to [511] based on the sensitivity correction gain table 2084.

ここで上記の時定数については、感度補正の追従を限りなく遅くする事を目的とするので数十秒単位とする。また、感度補正積分器2081は、後述する駆動検出部2095により駆動騒音の検出を表す駆動騒音検出信号を受けた場合、その動作を停止する。これは、光学レンズ201が駆動している不安定な期間における積分を排除する事を意図する。 Here, the above time constant is set to a unit of several tens of seconds because the purpose is to delay the tracking of the sensitivity correction as much as possible. Further, when the sensitivity correction integrator 2081 receives a drive noise detection signal indicating detection of drive noise by the drive detection unit 2095 described later, the sensitivity correction integrator 2081 stops its operation. This is intended to eliminate the integral during the unstable period in which the optical lens 201 is driven.

以上が実施形態における感度差補正部208を構成する各処理部の説明である。次に、駆動音演算処理部209について説明する。 The above is a description of each processing unit constituting the sensitivity difference correction unit 208 in the embodiment. Next, the drive sound calculation processing unit 209 will be described.

駆動音演算処理部209は、メインマイク205a、サブマイク205bからの周波数スペクトルデータであるMain[0]〜[511]、Sub[0]〜[511]から、駆動騒音の減算量NC_Gain[0]〜[511]を決定し、駆動騒音を検出した事を示す駆動騒音検出信号を出力する。このため、駆動音演算処理部209は、Mch−Sch演算部2091、駆動騒音除去ゲイン演算部2092、時間毎振幅変動検出部2093、時間毎位相変動検出部2094、駆動検出部2095、フレーム間振幅差検出部2096、駆動音減算量積分器2097を有する。 The drive sound calculation processing unit 209 subtracts the drive noise from the frequency spectrum data from the main microphone 205a and the sub microphone 205b, Main [0] to [511] and Sub [0] to [511], NC_Gain [0] to [511] is determined, and a drive noise detection signal indicating that the drive noise has been detected is output. Therefore, the drive sound calculation processing unit 209 includes a Mch-Sch calculation unit 2091, a drive noise removal gain calculation unit 2092, an hourly amplitude fluctuation detection unit 2093, an hourly phase fluctuation detection unit 2094, a drive detection unit 2095, and an inter-frame amplitude. It has a difference detection unit 2096 and a drive sound subtraction amount integrator 2097.

Mch−Sch演算部2091は、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]から、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]を差し引いた値を、駆動騒音の減算量として出力する。 The Mch-Sch calculation unit 2091 subtracts the frequency spectrum data Sub [0] to [511] from the sub microphone 205b from the frequency spectrum data Main [0] to [511] from the main microphone 205a to obtain the value of the driving noise. Output as a subtraction amount.

ただし、周波数スペクトルnポイント目において、Main[n]>Sub[n]の場合には、減算量[n]は0とする。つまり、Mch−Sch演算部2091は、周波数スペクトルnポイント目において、Main[n]−Sub[n]<0であることを条件に負の値を減算量[n]として出力する。 However, at the nth point of the frequency spectrum, when Main [n]> Sub [n], the subtraction amount [n] is set to 0. That is, the Mch-Sch calculation unit 2091 outputs a negative value as a subtraction amount [n] on condition that Main [n] -Sub [n] <0 at the nth point of the frequency spectrum.

また、Main[n]に対してSub[n]が十分に大きく、Main[n]−Sub[n]が予め設定した閾値(負の値)を下回る場合、Mch−Sch演算部2091は、駆動騒音を検出したことを示す検出信号[n]を出力し、否の場合には検出信号を出力しない。なお、実際には、騒音検出を"1"、非検出を"0"として表しても良い。 Further, when Sub [n] is sufficiently large with respect to Main [n] and Main [n] -Sub [n] is lower than a preset threshold value (negative value), the Mch-Sch calculation unit 2091 is driven. A detection signal [n] indicating that noise has been detected is output, and if no, the detection signal is not output. Actually, noise detection may be represented as "1" and non-detection may be represented as "0".

また、駆動騒音検出の判定は、減算関係を逆にして、Sub[n]−Main[n]と閾値(正の値を持つ)との比較で行っても良い。この場合、Mch−Sch演算部2091は、この演算の結果が閾値を上回った場合に駆動騒音検出を示す信号を出力することになる。 Further, the determination of driving noise detection may be performed by reversing the subtraction relationship and comparing Sub [n] -Main [n] with the threshold value (having a positive value). In this case, the Mch-Sch calculation unit 2091 outputs a signal indicating drive noise detection when the result of this calculation exceeds the threshold value.

駆動検出部2095は、Mch−Sch演算部2091からの1フレーム分の検出信号[0]〜[511]を受け、その中に、1以上の検出信号が存在した場合、該当のフレームにおいては駆動騒音を検出した事を表す駆動騒音検出信号を出力する。 The drive detection unit 2095 receives detection signals [0] to [511] for one frame from the Mch-Sch calculation unit 2091, and if one or more detection signals are present in the detection signals [0] to [511], the drive detection unit 2095 is driven in the corresponding frame. Outputs a drive noise detection signal indicating that noise has been detected.

Mch−Sch演算部2091及び駆動検出部2095による処理は、正の閾値をThと定義したとき、次式を満たす「i」(iは0から511のいずれか)が存在するか否かの判定を行い、その判定結果を駆動騒音検出を示す信号として出力していると、と言える。
Main[i]+Th<Sub[i]
The processing by the Mch-Sch calculation unit 2091 and the drive detection unit 2095 determines whether or not there exists an "i" (i is any of 0 to 511) that satisfies the following equation when the positive threshold value is defined as Th. It can be said that the determination result is output as a signal indicating driving noise detection.
Main [i] + Th <Sub [i]

時間毎振幅変動検出部2093は、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]に対し、時間方向のフレーム間での振幅変動量の検出を行う。具体的には、時間毎振幅変動検出部2093は、現在のフレームの周波数スペクトルのnポイント目の成分値と、前フレームの周波数スペクトルのnポイント目の成分値との差分値を求め、出力する。そして、nポイント目での変動量が予め設定された閾値を超えた場合、時間毎振幅変動検出部2093は、時間毎振幅変動量[n]を出力し、閾値以下の場合には0を出力する。 The hourly amplitude fluctuation detection unit 2093 receives frequency spectrum data Main [0] to [511] from the main microphone 205a and frequency spectrum data Sub [0] to [511] from the sub microphone 205b between frames in the time direction. The amount of amplitude fluctuation of is detected. Specifically, the hourly amplitude fluctuation detection unit 2093 obtains and outputs the difference value between the component value at the nth point of the frequency spectrum of the current frame and the component value at the nth point of the frequency spectrum of the previous frame. .. Then, when the fluctuation amount at the nth point exceeds the preset threshold value, the hourly amplitude fluctuation detection unit 2093 outputs the hourly amplitude fluctuation amount [n], and when it is below the threshold value, outputs 0. do.

時間毎位相変動検出部2094は、後述の位相差判定部2111から取得する位相情報に基づき、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]の位相変動量の検出を行う。例えば周波数スペクトルnポイント目において前記変動量が予め定められた閾値を超えた場合は、時間毎位相変動検出部2094は、時間毎位相変動量[n]を出力する。また、変動量が閾値以下の場合、時間毎位相変動検出部2094は、時間毎位相変動量[n]を出力しない、又は、時間毎位相変動量[n]=0として出力する。 The hourly phase fluctuation detection unit 2094 has frequency spectrum data Main [0] to [511] from the main microphone 205a and frequency spectrum data Sub from the sub microphone 205b based on the phase information acquired from the phase difference determination unit 2111 described later. The phase fluctuation amount of [0] to [511] is detected. For example, when the fluctuation amount exceeds a predetermined threshold value at the nth point of the frequency spectrum, the time-by-time phase fluctuation detection unit 2094 outputs the time-by-time phase fluctuation amount [n]. When the fluctuation amount is equal to or less than the threshold value, the time-to-phase fluctuation detection unit 2094 does not output the time-to-phase fluctuation amount [n], or outputs the time-to-phase fluctuation amount [n] = 0.

フレーム間振幅差検出部2096は、駆動検出部2095からの駆動騒音検出信号に基づき、サブマイク205bからの周波数スペクトルデータであるSub[0]〜[511]の時間方向のフレーム間での振幅差の検出を行う。例えば周波数スペクトルnポイント目において、駆動騒音検出信号があり、前フレームと現フレームとの振幅差が予め定められた閾値を超えた場合は、フレーム間振幅差検出部2096は、フレーム間振幅差量[n]を出力する。また、差が閾値以下の場合、フレーム間振幅差検出部2096は、フレーム間振幅差量[n]を出力しない、もしくは、フレーム間振幅差量[n]=0として出力する。 The frame-to-frame amplitude difference detection unit 2096 determines the amplitude difference between frames in the time direction of Sub [0] to [511], which is frequency spectrum data from the sub microphone 205b, based on the drive noise detection signal from the drive detection unit 2095. Perform detection. For example, when there is a driving noise detection signal at the nth point of the frequency spectrum and the amplitude difference between the previous frame and the current frame exceeds a predetermined threshold value, the frame-to-frame amplitude difference detection unit 2096 performs an inter-frame amplitude difference amount. Output [n]. When the difference is equal to or less than the threshold value, the inter-frame amplitude difference detection unit 2096 does not output the inter-frame amplitude difference amount [n], or outputs the inter-frame amplitude difference amount [n] = 0.

駆動騒音除去ゲイン演算部2092は、同一フレームにおいて、前述のMch−Sch演算部2095からの減算量[0]〜[511]、時間毎振幅変動検出部2093からの時間毎振幅変動量[0]〜[511]、時間毎位相変動検出部2094からの時間毎位相変動量[0]〜[511]、フレーム間振幅差検出部2096からのフレーム間振幅差量[0]〜[511]其々の結果に対し、予め定められた系数を乗算して、加算した駆動騒音除去量[0]〜[511]を算出し、出力する。 In the same frame, the drive noise removal gain calculation unit 2092 subtracts from the above-mentioned Mch-Sch calculation unit 2095 [0] to [511], and the hourly amplitude fluctuation detection unit 2093 [0]. ~ [511], Hourly Phase Fluctuation Amount [0] to [511] from Hourly Phase Fluctuation Detection Unit 2094, Interframe Amplitude Difference Amount [0] to [511] from Interframe Amplitude Difference Detection Unit 2096, respectively. The result of the above is multiplied by a predetermined system number to calculate the added drive noise removal amounts [0] to [511], and output the result.

駆動音減算量積分器2097は、駆動騒音除去ゲイン演算部2092から出力された駆動騒音除去量[0]〜[511]に対し、時間方向の変動量に時定数を持たせ、駆動騒音除去ゲインNC_Gain[0]〜[511](正負の符号付き)を出力する。 The drive noise subtraction amount integrator 2097 gives a time constant to the amount of fluctuation in the time direction with respect to the drive noise removal amount [0] to [511] output from the drive noise removal gain calculation unit 2092, and drives noise removal gain. NC_Gain [0] to [511] (with positive and negative signs) are output.

以上が実施形態の駆動音演算処理部209の構成と動作である。次に、風雑音演算処理部210について説明する。 The above is the configuration and operation of the drive sound calculation processing unit 209 of the embodiment. Next, the wind noise calculation processing unit 210 will be described.

風雑音演算処理部210は、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]から風雑音を検出し、減算量を表すWC_Gain[0]〜[511]と、風雑音レベル信号を出力する。風雑音演算処理部210は、風検出部2101、風雑音ゲイン演算部2102、風雑音減算量積分器2103を有する。 The wind noise calculation processing unit 210 detects wind noise from the frequency spectrum data Main [0] to [511] from the main microphone 205a and the frequency spectrum data Sub [0] to [511] from the sub microphone 205b, and calculates the subtraction amount. The WC_Gain [0] to [511] to be represented and the wind noise level signal are output. The wind noise calculation processing unit 210 includes a wind detection unit 2101, a wind noise gain calculation unit 2102, and a wind noise subtraction amount integrator 2103.

風検出部2101は、メインマイク205aからの周波数スペクトルMain[0]〜[511]、及び、サブマイク205bからの周波数スペクトルSub[0]〜[511]のうちから、それぞれの低周波数域の所定数のポイントの相関に応じて風雑音レベルの検出を行う。例えば低域の10ポイントにおいて、次式に従い風雑音レベルを求め、出力する。なお、ここでの"n"は、実施形態の場合には0乃至9であるが、この数は適宜変更しても構わない。
風雑音レベル=Σ(Main[n]−Sub[n])/(Main[n]+Sub[n])
なお、上式のΣは、n=0乃至9の合算を示している。
The wind detection unit 2101 has a predetermined number of low frequency regions from the frequency spectra Main [0] to [511] from the main microphone 205a and the frequency spectra Sub [0] to [511] from the sub microphone 205b. The wind noise level is detected according to the correlation of the points. For example, at 10 points in the low frequency range, the wind noise level is obtained and output according to the following equation. The "n" here is 0 to 9 in the case of the embodiment, but this number may be changed as appropriate.
Wind noise level = Σ (Main [n] -Sub [n]) / (Main [n] + Sub [n])
Σ in the above equation indicates the sum of n = 0 to 9.

また、風雑音ゲイン演算部2102は、図17に示すような特性線分を持つテーブルを有する。図示のように、1つの線分は、或る周波数以下ではゲインが負、その周波数以上ではゲインが0となる。そして、ゲインが負から0となる周波数の位置が互いに異なる複数の線分を含む。そして、風雑音ゲイン演算部2102は、風雑音レベルに従った1つの線分を用いて、風雑音ゲイン[0]〜[511]を決定し、出力する。なお、実施形態では、風雑音ゲイン[0]〜[511]をテーブルを用いて決定するものとしたが、風雑音レベルを引数とする関数を用いて、風雑音ゲイン[0]〜[511]を決定しても良い。 Further, the wind noise gain calculation unit 2102 has a table having a characteristic line segment as shown in FIG. As shown in the figure, one line segment has a negative gain below a certain frequency and zero gain above that frequency. Then, it includes a plurality of line segments in which the positions of frequencies from which the gain changes from negative to 0 are different from each other. Then, the wind noise gain calculation unit 2102 determines the wind noise gains [0] to [511] using one line segment according to the wind noise level, and outputs the wind noise gains [0] to [511]. In the embodiment, the wind noise gains [0] to [511] are determined by using a table, but the wind noise gains [0] to [511] are determined by using a function having the wind noise level as an argument. May be decided.

風雑音減算量積分器2103は、風雑音ゲイン演算部2102から出力された風雑音ゲイン[0]〜[511]に対し、時間方向の変動量に時定数を持たせ、風雑音ゲインWC_Gain[0]〜[511](正負の符号付き)を出力する。 The wind noise subtraction integrator 2103 gives a time constant to the fluctuation amount in the time direction with respect to the wind noise gains [0] to [511] output from the wind noise gain calculation unit 2102, and wind noise gain WC_Gain [0]. ] To [511] (with positive and negative signs) are output.

以上が実施形態における風雑音演算処理部210の構成と動作である。次に、実施形態におけるステレオゲイン演算処理部211を説明する。 The above is the configuration and operation of the wind noise calculation processing unit 210 in the embodiment. Next, the stereo gain calculation processing unit 211 in the embodiment will be described.

ステレオゲイン演算処理部211は、メインマイク205aからの周波数スペクトルデータMain[0]〜[511]、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]から、ステレオのLchのゲインGain_L[0]〜[511]と、RchのゲインGain_R[0]〜[511]を生成し、出力する。このために、ステレオゲイン演算処理部211は、位相差判定部2111、ステレオゲイン演算部2112、ステレオ抑制部2113、左ゲイン積分器2114,右ゲイン積分器2115を有する。 The stereo gain calculation processing unit 211 is based on the frequency spectrum data Main [0] to [511] from the main microphone 205a and the frequency spectrum data Sub [0] to [511] from the sub microphone 205b, and the stereo Lch gain Gain_L [0]. ] To [511] and Rch gains Gain_R [0] to [511] are generated and output. For this purpose, the stereo gain calculation processing unit 211 includes a phase difference determination unit 2111, a stereo gain calculation unit 2112, a stereo suppression unit 2113, a left gain integrator 2114, and a right gain integrator 2115.

位相差判定部2111は、周波数スペクトルデータMain[0]〜[511]に対するSub[0]〜[511]の位相情報を算出する。 The phase difference determination unit 2111 calculates the phase information of Sub [0] to [511] with respect to the frequency spectrum data Main [0] to [511].

例えば、周波数スペクトルデータにおける各ポイントの位相ベクトルをV()として表した場合の、周波数ポイントnの位相情報[n]は次式に従って算出される。
位相情報[n]=|V(Main[n]) ×V(Sub[n])|/(|V(Main[n]) |・|V(Sub[n])|)
ここで、右辺の"|x|"はベクトルxの絶対値(スカラー)を表し、分母の"・"はスカラーどうしの積、分子の"×"は2つのベクトルの正弦である外積を表している。
For example, when the phase vector of each point in the frequency spectrum data is represented as V (), the phase information [n] of the frequency point n is calculated according to the following equation.
Phase information [n] = | V (Main [n]) × V (Sub [n]) | / (| V (Main [n]) | ・ | V (Sub [n]) |)
Here, "| x |" on the right side represents the absolute value (scalar) of the vector x, "・" in the denominator represents the product of the scalars, and "x" in the molecule represents the outer product which is the sine of the two vectors. There is.

位相差判定部2111は上式に従って算出した位相情報[0]〜[511]を出力する。 The phase difference determination unit 2111 outputs the phase information [0] to [511] calculated according to the above equation.

ステレオゲイン演算部2112は、位相差判定部2111からの位相情報[0]〜[511]からステレオゲイン[0]〜[511]の演算を行う。例えば周波数ポイントnにおいて、次式に従って各チャネルのゲインを得る。
Lch生成用のステレオゲイン=1+位相情報[n]×強調係数
Rch生成用のステレオゲイン=1−位相情報[n]×強調係数
ステレオゲイン演算部2112は、上式にて算出されたLch,Rchのステレオゲイン[n]を出力する。ここで、強調係数は周波数に応じて変更されるものであり、上限を1、下限を0とするものである。
The stereo gain calculation unit 2112 calculates the stereo gains [0] to [511] from the phase information [0] to [511] from the phase difference determination unit 2111. For example, at the frequency point n, the gain of each channel is obtained according to the following equation.
Stereo gain for Lch generation = 1 + phase information [n] × emphasis coefficient Stereo gain for Rch generation = 1-phase information [n] × emphasis coefficient The stereo gain calculation unit 2112 is Lch, Rch calculated by the above equation. Outputs the stereo gain [n] of. Here, the emphasis coefficient is changed according to the frequency, and the upper limit is 1 and the lower limit is 0.

ステレオ抑制部2113は、駆動音演算処理部209内のMch−Sch演算部2091からの駆動騒音を検出したことを示す検出信号を受けた場合に強調係数を0にする。また、ステレオ抑制部2113は、風雑音演算処理部210内の風検出部2101からの風雑音レベルに応じて強調係数を0にする。 The stereo suppression unit 2113 sets the emphasis coefficient to 0 when it receives a detection signal indicating that the drive noise from the Mch-Sch calculation unit 2091 in the drive sound calculation processing unit 209 has been detected. Further, the stereo suppression unit 2113 sets the emphasis coefficient to 0 according to the wind noise level from the wind detection unit 2101 in the wind noise calculation processing unit 210.

左ゲイン積分器2114は、ステレオゲイン演算部2112から出力された、Lch生成用のステレオゲイン[0]〜[511]に対し、時間方向の変動量に所定の時定数を持たせ、それをステレオゲインGainL[0]〜[511](正負の符号付き)として出力する。 The left gain integrator 2114 gives a predetermined time constant to the amount of fluctuation in the time direction with respect to the stereo gains [0] to [511] for Lch generation output from the stereo gain calculation unit 2112, and stereo gains the stereo gains [0] to [511]. It is output as gains Gain L [0] to [511] (with positive and negative signs).

右ゲイン積分器2115は、ステレオゲイン演算部2112から出力された、Rch生成用のステレオゲイン[0]〜[511]に対し、時間方向の変動量に所定の時定数を持たせ、それをステレオゲインGainR[0]〜[511](正負の符号付き)として出力する。 The right gain integrator 2115 gives a predetermined time constant to the amount of fluctuation in the time direction with respect to the stereo gains [0] to [511] for Rch generation output from the stereo gain calculation unit 2112, and stereo gains the stereo gains [0] to [511]. It is output as gains GainR [0] to [511] (with positive and negative signs).

以上が実施形態のステレオゲイン演算処理部211の構成と動作である。次に、実施形態におけるトータルゲイン演算部212を説明する。 The above is the configuration and operation of the stereo gain calculation processing unit 211 of the embodiment. Next, the total gain calculation unit 212 in the embodiment will be described.

トータルゲイン演算部212は、駆動音演算処理部209、風雑音演算処理部210、および、ステレオゲイン演算処理部211において決定したNC_Gain[0]〜[511]、WC_Gain[0]〜[511]、Gain_L[0]〜[511]、Gain_R[0]〜[511]を合算し、Total_Gain_L[0]〜[511]、Total_Gain_R[0]〜[511]を出力する。具体的には次式である。
Total_Gain_L[]=NC_Gain[] + WC_Gain[] + Gain_L[]
Total_Gain_R[]=NC_Gain[] + WC_Gain[] + Gain_R[]
The total gain calculation unit 212 includes NC_Gain [0] to [511], WC_Gain [0] to [511] determined by the drive sound calculation processing unit 209, the wind noise calculation processing unit 210, and the stereo gain calculation processing unit 211. Gain_L [0] to [511] and Gain_R [0] to [511] are added up, and Total_Gain_L [0] to [511] and Total_Gain_R [0] to [511] are output. Specifically, it is the following equation.
Total_Gain_L [] = NC_Gain [] + WC_Gain [] + Gain_L []
Total_Gain_R [] = NC_Gain [] + WC_Gain [] + Gain_R []

次に、L/Rch生成部213を説明する。このL/Rch生成部213は、周波数スペクトルデータMAIN[0]〜[511]から、トータルゲイン演算部212で決定したTotal_Gain_L[0]〜[511]、Total_Gain_R[0]〜[511]を用いて、LchとRchの出力用の周波数スペクトルデータを作成する。L/Rch生成部213は、Mch/Sch選択部2131、L/Rchゲイン加算部2132を有する。 Next, the L / Rch generation unit 213 will be described. The L / Rch generation unit 213 uses the total_Gain_L [0] to [511] and the total_Gain_R [0] to [511] determined by the total gain calculation unit 212 from the frequency spectrum data MAIN [0] to [511]. , Create frequency spectrum data for Lch and Rch outputs. The L / Rch generation unit 213 has an Mch / Sch selection unit 2131 and an L / Rch gain addition unit 2132.

Mch/Sch選択部2131は、風検出部2101による風雑音レベルに応じて、周波数スペクトルデータMain[0]〜[511]に合成することになるSub[0]〜[511]の周波数ポイントの範囲を選択する。また、Mch/Sch選択部2131は、風雑音レベルに応じて、合成する境界位置を低周波数ポイントから高周波数ポイントへと変化させる。また、風を検出されない場合、Mch/Sch選択部2131は合成を行わず、周波数スペクトルデータMain[0]〜[511]をそのまま出力する。 The Mch / Sch selection unit 2131 is a range of frequency points of Sub [0] to [511] to be combined with the frequency spectrum data Main [0] to [511] according to the wind noise level by the wind detection unit 2101. Select. Further, the Mch / Sch selection unit 2131 changes the boundary position to be combined from the low frequency point to the high frequency point according to the wind noise level. If the wind is not detected, the Mch / Sch selection unit 2131 does not perform synthesis and outputs the frequency spectrum data Main [0] to [511] as they are.

L/Rchゲイン加算部2132は、Mch/Sch選択部2132から出力された周波数スペクトルデータMain[0]〜[511]に対して、トータルゲイン演算部212で決定したTotal_Gain_L[0]〜[511]、Total_Gain_R[0]〜[511]を用いて、左右チャネル(LchとRch)の周波数スペクトルデータを作成する。 The L / Rch gain addition unit 2132 receives the frequency spectrum data Main [0] to [511] output from the Mch / Sch selection unit 2132 with respect to the Total_Gain_L [0] to [511] determined by the total gain calculation unit 212. , Total_Gain_R [0] to [511] are used to create frequency spectrum data for the left and right channels (Lch and Rch).

以上が実施形態のL/Rch生成部213の構成と動作である。 The above is the configuration and operation of the L / Rch generation unit 213 of the embodiment.

iFFT部214は、L/Rch生成部213で生成された各チャネルの周波数スペクトルデータを逆変換(逆FFT変換)し、元の時系列の音声信号に戻す。音声処理部215は、イコライザ等の処理を実施する。ALC(オートレベルコントローラ)216は、時系列の音声信号の振幅を所定のレベルに調整する。 The iFFT unit 214 reverse-converts the frequency spectrum data of each channel generated by the L / Rch generation unit 213 (inverse FFT conversion), and returns the original time-series audio signal. The voice processing unit 215 performs processing such as an equalizer. The ALC (auto level controller) 216 adjusts the amplitude of the time-series audio signal to a predetermined level.

以上の構成を備え、音声入力部102は、音声信号に所定の処理を行い音声データを形成して、メモリ103へ送信し、格納することになる。 With the above configuration, the voice input unit 102 performs predetermined processing on the voice signal to form voice data, transmits the voice data to the memory 103, and stores the voice data.

ここで、本実施形態の音声入力部102の一部を構成するメカ構成について、図3(a)、3(b)を用いて説明する。 Here, the mechanical configuration forming a part of the voice input unit 102 of the present embodiment will be described with reference to FIGS. 3 (a) and 3 (b).

図3(a)は、本実施形態の撮像装置の筐体の外観図である。撮影対象に撮像装置が向いた状態で、撮影者から見て右側の所定位置の参照符号"a"がメインマイク205aの入力穴(開口部)、左側の対向する位置の参照符号"b"がサブマイク205bの入力穴となる。図3(b)においての拡大図は、音声入力部102の一部であるメインマイク205aとサブマイク205bのメカ構成部である。図3(b)は、前記メカ構成を示す断面図である。マイク穴を構成する外装部102−1、メインマイク205aを保持するメインマイクブッシュ102−2a、サブマイク205bを保持するサブマイクブッシュ102−2b、其々のマイクブッシュを外装部へ押し付け保持をする押し付け部103により構成される。外装部102−1、押し付け部103についてはPC材等のモールド部材で構成されるが、アルミ、ステンレス等の金属部材であっても問題ない。また、メインマイクブッシュ102−2a、サブマイクブッシュ102−2bについては、エチレンプロピレンジエンゴム等のゴム材にて構成される。 FIG. 3A is an external view of the housing of the image pickup apparatus of the present embodiment. With the image pickup device facing the subject, the reference code "a" at a predetermined position on the right side of the photographer is the input hole (opening) of the main microphone 205a, and the reference code "b" at the opposite position on the left side is. It serves as an input hole for the sub microphone 205b. The enlarged view in FIG. 3B is a mechanical component of the main microphone 205a and the sub microphone 205b, which are a part of the voice input unit 102. FIG. 3B is a cross-sectional view showing the mechanical configuration. The exterior portion 102-1 that constitutes the microphone hole, the main microphone bush 102-2a that holds the main microphone 205a, the sub microphone bush 102-2b that holds the sub microphone 205b, and the pressing that presses and holds each microphone bush against the exterior portion. It is composed of a part 103. The exterior portion 102-1 and the pressing portion 103 are made of a molded member such as a PC material, but there is no problem even if it is a metal member such as aluminum or stainless steel. The main microphone bush 102-2a and the sub microphone bush 102-2b are made of a rubber material such as ethylene propylene diene rubber.

ここで、外装部におけるマイク穴の径について説明する。サブマイク205bへのマイク穴の径(開口している面積)は、メインマイク205aへのマイク穴の径(同面積)に対して小さく、所定の倍率にて縮小された構成をとる。マイク穴形状については円状か楕円状が望ましいが、方形状でも構わない。また、其々の穴形状について、同形状でも別形状でも構わない。前記構成は、撮像装置内部でマイクに空気伝搬して伝わる駆動騒音についてサブマイク205bのマイク穴側から外部へ漏れにくくなる事を目的とする。 Here, the diameter of the microphone hole in the exterior portion will be described. The diameter of the microphone hole (opening area) in the sub microphone 205b is smaller than the diameter (same area) of the microphone hole in the main microphone 205a, and is reduced by a predetermined magnification. The shape of the microphone hole is preferably circular or elliptical, but it may be square. Further, each hole shape may be the same shape or a different shape. It is an object of the above configuration that the driving noise transmitted by air propagating to the microphone inside the image pickup apparatus is less likely to leak from the microphone hole side of the sub microphone 205b to the outside.

次に、外装部102−1とマイクブッシュで構成されるマイク前面の空間について説明する。外装部102−1とサブマイクブッシュ102−2bで構成されるサブマイク205bの前面の空間の容積は、外装部102−1とメインマイクブッシュ102−2aで構成されるメインマイク205aの前面の空間のそれより大きく、所定の倍率の容積を確保する構成をとる。この構成は、サブマイク205bの前面の空間において、空間内の気圧変化が大きくなり、駆動騒音が強調される事を目的とする。 Next, the space in front of the microphone composed of the exterior portion 102-1 and the microphone bush will be described. The volume of the space in front of the sub microphone 205b composed of the exterior portion 102-1 and the sub microphone bush 102-2b is the space in front of the main microphone 205a composed of the exterior portion 102-1 and the main microphone bush 102-2a. It is larger than that and has a configuration that secures a volume of a predetermined magnification. The purpose of this configuration is to increase the change in air pressure in the space in front of the sub microphone 205b and emphasize the driving noise.

前述の通り、マイク入力のメカ構成におけるサブマイク205b入力は、メインマイク205a入力に対して、駆動騒音の振幅が大きく強調される構成をとる。各マイクへ入力される駆動騒音の音声レベルの関係は、メインマイク205a<サブマイク205bとなる。一方、マイク穴の前面から空気伝搬により各マイクへ入力される、装置外からの音声(本来の集音目的である周辺環境音)のレベル関係は、メインマイク205a≧サブマイク205bの関係となることに注意されたい。 As described above, the sub microphone 205b input in the mechanical configuration of the microphone input has a configuration in which the amplitude of the driving noise is greatly emphasized with respect to the main microphone 205a input. The relationship between the audio levels of the drive noise input to each microphone is that the main microphone 205a <sub microphone 205b. On the other hand, the level relationship of the sound from outside the device (ambient environment sound, which is the original purpose of collecting sound) input to each microphone by air propagation from the front of the microphone hole is that the main microphone 205a ≥ the sub microphone 205b. Please note.

ここで、本実施形態の音声入力部102でのステレオゲイン演算処理部211の動作について、図7から図9を用いて説明する。 Here, the operation of the stereo gain calculation processing unit 211 in the audio input unit 102 of the present embodiment will be described with reference to FIGS. 7 to 9.

図7は、撮像装置100に内蔵されたマイクに対する外部からの音声の経路と、内蔵の光学レンズ201の駆動時の音声の経路の一例を示している。この時のマイクは、図2に示すメインマイク205aおよびサブマイク205bが該当する。図7のように周囲環境音の音源と撮像装置100との距離は、メインマイク205aとサブマイク205b間の距離に対して十分に大きい。よって、周囲環境音の音源からのメインマイク205aへの音声の伝播経路と、周囲環境音の音源とサブマイク205bへの音声の伝播経路は殆ど同一と考えて良い。しかし、撮像装置内蔵の光学レンズ201は、メインマイク205aとサブマイク205bに近接している。また、光学レンズ201の移動を行うためのモータからマイクへの距離が均等でなかったり、撮像装置内での音声の経路が異なる可能性もある。故に、光学レンズ駆動系からメインマイク205a、サブマイク205bそれぞれへの音声経路(距離)は大きく異なってしまう。つまり、周囲環境音と駆動騒音とでは、MchとSchの音声レベルの差分に大きな差が出る事となる。それ故、周囲環境音と光学レンズの駆動騒音は大きく差が出て、これらを容易に区別することができる。 FIG. 7 shows an example of a sound path from the outside to the microphone built in the image pickup apparatus 100 and a sound path when the built-in optical lens 201 is driven. The microphone at this time corresponds to the main microphone 205a and the sub microphone 205b shown in FIG. As shown in FIG. 7, the distance between the sound source of the ambient sound and the image pickup device 100 is sufficiently larger than the distance between the main microphone 205a and the sub microphone 205b. Therefore, it can be considered that the sound propagation path from the ambient sound source to the main microphone 205a and the sound propagation path from the ambient sound source to the sub microphone 205b are almost the same. However, the optical lens 201 built in the image pickup apparatus is close to the main microphone 205a and the sub microphone 205b. Further, the distance from the motor for moving the optical lens 201 to the microphone may not be uniform, or the sound path in the image pickup apparatus may be different. Therefore, the audio paths (distances) from the optical lens drive system to the main microphone 205a and the sub microphone 205b are significantly different. That is, there is a large difference in the difference between the sound levels of Mch and Sch between the ambient sound and the driving noise. Therefore, there is a large difference between the ambient noise and the driving noise of the optical lens, and these can be easily distinguished.

一方、本来、周囲環境音は左右のどちら側から発生したかはMchとSchでは大きさでは判断することは難しい。そこで、周囲環境音は音声信号の位相を利用して判断することができる。詳細について説明する。 On the other hand, originally, it is difficult to determine from the left or right side which side the ambient sound is generated from by the magnitude of Mch and Sch. Therefore, the ambient sound can be determined by using the phase of the audio signal. Details will be described.

図8(a)〜(c)は、或る周波数スペクトルデータMain[n]とSub[n]の関係を示している。 8 (a) to 8 (c) show the relationship between a certain frequency spectrum data Main [n] and Sub [n].

ステレオゲイン演算処理部211は、メインマイク205aからの周波数スペクトルデーMain[0]〜[511]、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]から、ステレオのLchのゲインGain_L[0]〜[511]、RchのゲインGain_R[0]〜[511]を出力する。ステレオゲイン演算処理部211は以下の構成を備えている。 The stereo gain calculation processing unit 211 is based on the frequency spectrum data Main [0] to [511] from the main microphone 205a and the frequency spectrum data Sub [0] to [511] from the sub microphone 205b, and the stereo Lch gain Gain_L [0]. ] To [511], Rch gain Gain_R [0] to [511] are output. The stereo gain calculation processing unit 211 has the following configuration.

位相差判定部2111は、周波数スペクトルデータMain[0]〜[511]に対する周波数スペクトルデータSub[0]〜[511]の位相情報を算出する。 The phase difference determination unit 2111 calculates the phase information of the frequency spectrum data Sub [0] to [511] with respect to the frequency spectrum data Main [0] to [511].

例えば周波数ポイントnの周囲環境音が、メインマイク205a側から発生した場合、V(Main[n])とV(Sub[n])の関係は図8(a)のような関係になる。本実施形態でのマイク配置においても、周波数スペクトルの大きさは変わってしまっても、位相は変わることはない。そこで、位相情報を、V(Main[n]) とV(Sub[n])の外積(|V(Main[n]) ×V(Sub[n]) |)を用いることで得る。
位相情報[n]=|V(Main[n]) ×V(Sub[n]) |/(|V(Main[n]) |・|V(Sub[n]) |)
位相差判定部2111は、上式にて算出された位相情報[n]を出力する。ここで求められる位相情報[n]は、すなわち、V(Main[n])とV(Sub[n])のsinθであり、周囲環境音がメインマイク205a側(撮像装置100を構えるユーザの右側)から発生した場合は、0<位相情報[n]≦1となる。
For example, when the ambient sound of the frequency point n is generated from the main microphone 205a side, the relationship between V (Main [n]) and V (Sub [n]) is as shown in FIG. 8A. Even in the microphone arrangement in the present embodiment, the phase does not change even if the magnitude of the frequency spectrum changes. Therefore, the phase information is obtained by using the outer product of V (Main [n]) and V (Sub [n]) (| V (Main [n]) × V (Sub [n]) |).
Phase information [n] = | V (Main [n]) × V (Sub [n]) | / (| V (Main [n]) | ・ | V (Sub [n]) |)
The phase difference determination unit 2111 outputs the phase information [n] calculated by the above equation. The phase information [n] obtained here is, that is, sinθ of V (Main [n]) and V (Sub [n]), and the ambient sound is on the main microphone 205a side (the right side of the user holding the image pickup device 100). ), 0 <phase information [n] ≦ 1.

また、周波数ポイントnの周囲環境音が、サブマイク205b側から発生した場合、V(Main[n])とV(Sub[n])の関係は図8(b)のような周波数スペクトルの関係になる。本実施形態でのマイク配置においても、周波数スペクトルの大きさは変わってしまっても、位相は変わることはない。 Further, when the ambient sound of the frequency point n is generated from the sub microphone 205b side, the relationship between V (Main [n]) and V (Sub [n]) is the relationship of the frequency spectrum as shown in FIG. 8 (b). Become. Even in the microphone arrangement in the present embodiment, the phase does not change even if the magnitude of the frequency spectrum changes.

そこで、位相情報をV(Main[n]) とV(Sub[n]) の外積(|V(Main[n]) ×V(Sub[n]) |)を用いることで得る。
位相情報[n]=|V(Main[n]) ×V(Sub[n]) |/(|V(Main[n]) |・|V(Sub[n]) |)
位相差判定部2111は、上式にて算出された位相情報[n]を出力する。ここで求められる位相情報[n]は、すなわち、V(Main[n])とV(Sub[n])のsinθであり、周囲環境音がサブマイク205b側からの場合、0>位相情報[n]≧−1となる。
Therefore, the phase information is obtained by using the outer product of V (Main [n]) and V (Sub [n]) (| V (Main [n]) × V (Sub [n]) |).
Phase information [n] = | V (Main [n]) × V (Sub [n]) | / (| V (Main [n]) | ・ | V (Sub [n]) |)
The phase difference determination unit 2111 outputs the phase information [n] calculated by the above equation. The phase information [n] obtained here is, that is, sinθ of V (Main [n]) and V (Sub [n]), and when the ambient sound is from the sub microphone 205b side, 0> phase information [n]. ] ≧ -1.

また周波数ポイントnの周囲環境音がメインマイク205a、サブマイク205bと同じ距離、すなわち光学レンズ201の中心から発生した場合、V(Main[n])とV(Sub[n])の関係は図8(c)のような周波数スペクトルの関係になる。本実施形態でのマイク配置においても、周波数スペクトルの大きさは変わってしまっても、位相は変わることはない。 Further, when the ambient sound of the frequency point n is generated from the same distance as the main microphone 205a and the sub microphone 205b, that is, from the center of the optical lens 201, the relationship between V (Main [n]) and V (Sub [n]) is shown in FIG. The frequency spectrum relationship is as shown in (c). Even in the microphone arrangement in the present embodiment, the phase does not change even if the magnitude of the frequency spectrum changes.

位相情報は、V(Main[n]) とV(Sub[n]) の外積(|V(Main[n]) ×V(Sub[n]) |)を用いることで得ることができる。
位相情報[n]=|V(Main[n]) ×V(Sub[n]) |/(|V(Main[n]) |・|V(Sub[n]) |)
位相差判定部2111は、上式にて算出された位相情報[n]を出力する。ここで求められる位相情報[n]は、V(Main[n])とV(Sub[n])のsinθであり、周囲環境音が、サブマイク205b側からは位相情報[n]≒0となる。
The phase information can be obtained by using the outer product of V (Main [n]) and V (Sub [n]) (| V (Main [n]) × V (Sub [n]) |).
Phase information [n] = | V (Main [n]) × V (Sub [n]) | / (| V (Main [n]) | ・ | V (Sub [n]) |)
The phase difference determination unit 2111 outputs the phase information [n] calculated by the above equation. The phase information [n] obtained here is sinθ of V (Main [n]) and V (Sub [n]), and the ambient sound has phase information [n] ≈0 from the sub microphone 205b side. ..

ステレオゲイン演算部2112は、上記のようにして決定した位相情報[0]〜[511]を用いて、ステレオゲイン[0]〜[511]の演算を行っている。例えば周波数ポイントnにおいて、ステレオゲイン演算部2112は次式に従って各チャネルのゲインを算出する。
Lch生成用のステレオゲイン=1+位相情報[n]×強調係数
Rch生成用のステレオゲイン=1−位相情報[n]×強調係数
そして、ステレオゲイン演算部2112は、上式にて算出された各チャネルのステレオゲイン[n]を出力する。
The stereo gain calculation unit 2112 calculates the stereo gains [0] to [511] using the phase information [0] to [511] determined as described above. For example, at the frequency point n, the stereo gain calculation unit 2112 calculates the gain of each channel according to the following equation.
Stereo gain for Lch generation = 1 + phase information [n] × emphasis coefficient Stereo gain for Rch generation = 1-phase information [n] × emphasis coefficient And the stereo gain calculation unit 2112 is calculated by the above equation. The stereo gain [n] of the channel is output.

図9はステレオゲイン演算部2112で用いられる各周波数ポイントにおける強調係数を示した図である。 FIG. 9 is a diagram showing the emphasis coefficient at each frequency point used in the stereo gain calculation unit 2112.

横軸を周波数ポイント、縦軸を強調係数とした時、もっとも強調したい周波数の強調係数を最大値の1.0として、位相差がでにくい低域と位相差が判断できない高域の強調係数は最小値の0とする。 When the horizontal axis is the frequency point and the vertical axis is the emphasis coefficient, the emphasis coefficient of the frequency you want to emphasize most is set to the maximum value of 1.0, and the emphasis coefficient of the low range where the phase difference is difficult and the high range where the phase difference cannot be determined is The minimum value is 0.

例えばもっとも強調したい1kHz〜5kHzは強調係数を1.0とし、200Hz以下は0とする。 For example, the emphasis coefficient is 1.0 for 1 kHz to 5 kHz to be emphasized most, and 0 for 200 Hz or less.

位相差が判断できない高域の強調係数は、メインマイク205aとサブマイク205bの距離で決定する。例えば、メインマイク205aとサブマイク205bの距離が15mmの時、音速を340m/sとすると、15mmの間に半波長が入る11.3kHz以上になると、正しい位相情報が取れず、左右が反転してしまう可能性がある。また、15mmの間に1/4波長の入る5.7kHz以上は正確性が低い。そこで図9に示すような周波数に応じた強調係数のかけ方を行う。 The emphasis coefficient in the high frequency range where the phase difference cannot be determined is determined by the distance between the main microphone 205a and the sub microphone 205b. For example, if the distance between the main microphone 205a and the sub microphone 205b is 15 mm and the speed of sound is 340 m / s, the correct phase information cannot be obtained at 11.3 kHz or higher, where a half wavelength is inserted between 15 mm, and the left and right sides are reversed. There is a possibility that it will end up. Further, the accuracy is low at 5.7 kHz or higher in which a quarter wavelength is inserted between 15 mm. Therefore, the emphasis coefficient is applied according to the frequency as shown in FIG.

ここで、本実施形態の音声入力部102での駆動音演算処理部209、トータルゲイン演算部212、L/Rch生成部213の動作について、図5、図10から図13を用いて説明する。 Here, the operations of the drive sound calculation processing unit 209, the total gain calculation unit 212, and the L / Rch generation unit 213 in the voice input unit 102 of the present embodiment will be described with reference to FIGS. 5, 10 to 13.

図10は、メインマイク205aとサブマイク205bそれぞれの各周波数の振幅スペクトルデータの例を示している。 FIG. 10 shows an example of amplitude spectrum data of each frequency of the main microphone 205a and the sub microphone 205b.

FFT部207により、各チャネルの音声信号は0Hzから48kHzまでにおいて1024ポイントの周波数スペクトルとして変換される。変換後の周波数スペクトルデータは、ナイキスト周波数である24kHzまでにおいては512ポイントの周波数スペクトルを持つものとする。 The FFT unit 207 transforms the audio signal of each channel as a frequency spectrum of 1024 points from 0 Hz to 48 kHz. The converted frequency spectrum data shall have a frequency spectrum of 512 points up to the Nyquist frequency of 24 kHz.

先に図3(a),(b)を用いて説明したように、実施形態の撮像装置100のマイク入力のメカ構成によれば、サブマイク205bは、メインマイク205aに対して、駆動騒音の振幅が大きく強調された信号を生成する。つまり振幅スペクトルにおいて、
周囲環境音レベル:メインマイク205a≧サブマイク205b
駆動騒音レベル:メインマイク205a<サブマイク205b
との関係となる。
As described above with reference to FIGS. 3A and 3B, according to the mechanical configuration of the microphone input of the image pickup apparatus 100 of the embodiment, the sub microphone 205b has an amplitude of driving noise with respect to the main microphone 205a. Generates a highly emphasized signal. That is, in the amplitude spectrum
Ambient sound level: Main microphone 205a ≥ Sub microphone 205b
Drive noise level: Main microphone 205a <Sub microphone 205b
It becomes a relationship with.

図10に、メインマイク205aからの振幅スペクトルデータMain[]、サブマイク205bからの振幅スペクトルデータSub[]の一例を示す。また、同図における「Main−Sub」は、Mch−Sch演算部2091にて演算される、Main[]からSub[]を差し引いた減算量[0]〜[511]を示している。 FIG. 10 shows an example of the amplitude spectrum data Main [] from the main microphone 205a and the amplitude spectrum data Sub [] from the sub microphone 205b. Further, "Main-Sub" in the figure indicates a subtraction amount [0] to [511] obtained by subtracting Sub [] from Main [], which is calculated by the Mch-Sch calculation unit 2091.

例えば、SchにおけるNポイント目の周辺の振幅スペクトルを着目すると、Sch>Mchであり、つまり駆動騒音が支配的なポイントである事が言える。この時、Main−Subには、Nポイント目周辺にて予め定められたズーム検出閾値を超える(下回る)減算量が算出され、Nポイント目周辺は「駆動騒音」とされる振幅スペクトルと検出される。一方、MchにおけるN2ポイント目の振幅スペクトルを着目すると、Sch≦Mchである。つまり周囲環境音が支配的なポイントであることが言える。この時、Main−Subには、ズーム検出閾値を超える減算量は算出されないため、N2ポイント目周辺の振幅スペクトルは駆動騒音とは検出されることはない。上記演算を[0]〜[511]の振幅スペクトル全ての範囲において実行する。 For example, focusing on the amplitude spectrum around the Nth point in Sch, it can be said that Sch> Mch, that is, the driving noise is the dominant point. At this time, in Main-Sub, the subtraction amount exceeding (below) the predetermined zoom detection threshold value is calculated around the Nth point, and the area around the Nth point is detected as an amplitude spectrum regarded as "driving noise". NS. On the other hand, focusing on the amplitude spectrum at the N2 point in Mch, Sch ≦ Mch. In other words, it can be said that the ambient sound is the dominant point. At this time, since the subtraction amount exceeding the zoom detection threshold value is not calculated in Main-Sub, the amplitude spectrum around the N2 point is not detected as the driving noise. The above calculation is executed in the entire range of the amplitude spectra of [0] to [511].

図11は、サブマイク205bの周波数Nポイント目の時系列の振幅スペクトルを示す図である。 FIG. 11 is a diagram showing an amplitude spectrum of the time series at the frequency N point of the sub microphone 205b.

図示の「Sub ch」は、Nポイント目の振幅スペクトルデータが時系列にて変動する事を示す。 The illustrated "Sub ch" indicates that the amplitude spectrum data at the Nth point fluctuates in time series.

Sch|tn−t(n-1)|は、SchNポイント目の振幅スペクトルに対し、時間毎振幅変動検出部2093により演算される時間方向のフレーム間での振幅変動量を示し、時間毎変動量[n]として出力される。例えば、t1からt2にてSchの振幅スペクトルに着目すると、時間方向での変動量は大きくなっており、Sch|tn−t(n-1)|には、t1からt2において、変動量検出閾値を超える時間毎変動量が算出される。この演算を[0]〜[511]の振幅スペクトルの全てのポイントにおいて実行する。 Sch | t n −t (n-1) | indicates the amount of amplitude fluctuation between frames in the time direction calculated by the hourly amplitude fluctuation detection unit 2093 with respect to the amplitude spectrum at the SchN point, and indicates the amount of amplitude fluctuation between frames. It is output as the quantity [n]. For example, focusing on the amplitude spectrum of Sch from t1 to t2, the amount of fluctuation in the time direction is large, and in Sch | t n −t (n-1) |, the amount of fluctuation is detected from t1 to t2. The amount of fluctuation over time that exceeds the threshold value is calculated. This operation is executed at all points of the amplitude spectrum of [0] to [511].

図12(a),(b)は、メインマイク205aからの振幅スペクトル、サブマイク205bからの振幅スペクトルにおける、周波数Nポイント目の時系列の位相を示す図である。 12 (a) and 12 (b) are diagrams showing the phase of the time series at the Nth frequency point in the amplitude spectrum from the main microphone 205a and the amplitude spectrum from the sub microphone 205b.

同図(a)は複素数平面Im,Reにより、時間方向における「周囲環境音」の位相の変化を示しており、実線部はMchを、点線部はSchを表している。t0,t1,t2,t3,t4については、時間方向の推移を示す。 FIG. 3A shows the phase change of the “ambient environment sound” in the time direction by the complex planes Im and Re, and the solid line portion represents Mch and the dotted line portion represents Sch. For t0, t1, t2, t3, and t4, the transition in the time direction is shown.

同図(b)は、「駆動騒音」の位相の変化を示している。 FIG. 3B shows a change in the phase of “driving noise”.

ここにおいて、周囲環境音については、MchとSchの位相は、t0からt4の時間の推移において一定である。駆動騒音については、MchとSchの位相はt0からt4の時間の推移において大きく変動している。其々の時間方向での位相の変動は時間毎位相変動検出部2094にて検出され、時間毎位相変動量[n]として出力される。時間毎位相変動検出部2094は、この演算を[0]〜[511]の振幅スペクトルの全て周波数ポイントについて実行する。 Here, with respect to the ambient sound, the phases of Mch and Sch are constant in the time transition from t0 to t4. Regarding the driving noise, the phases of Mch and Sch greatly fluctuate in the time transition from t0 to t4. The phase variation in each time direction is detected by the hourly phase variation detection unit 2094, and is output as the hourly phase variation amount [n]. The hourly phase fluctuation detection unit 2094 executes this calculation for all frequency points of the amplitude spectra of [0] to [511].

図13(a)、(b)は、Mch−Sch演算部2091の動作タイミングチャートの一例を表している。 13 (a) and 13 (b) show an example of the operation timing chart of the Mch-Sch calculation unit 2091.

同図(a)におけるMain[N]、Sub[N]、Main[N]−Sub[N]は、それぞれ周波数Nポイント目のMchの振幅スペクトルデータ、Schの振幅スペクトルデータ、Mch振幅スペクトルからSch振幅スペクトルを差し引いた減算量[N]を示している。Main[N]−Sub[N]は、Mch−Sch演算部2091にて演算を行われた結果を出力している。 Main [N], Sub [N], and Main [N] -Sub [N] in the figure (a) are the amplitude spectrum data of Mch at the frequency N point, the amplitude spectrum data of Sch, and Sch from the Mch amplitude spectrum, respectively. The subtraction amount [N] obtained by subtracting the amplitude spectrum is shown. Main [N] -Sub [N] outputs the result of the calculation performed by the Mch-Sch calculation unit 2091.

ここで、同図(a)のt1からt2の期間を着目すると、Sub[N]の振幅スペクトルは、Main[N]に対して大きく上回っており、Main[N]−Sub[N]の演算結果はズーム閾値を上回る結果となっており、駆動騒音として検出され、減算量[N]が出力される。 Here, focusing on the period from t1 to t2 in FIG. 6A, the amplitude spectrum of Sub [N] is much larger than that of Main [N], and the calculation of Main [N] -Sub [N] is performed. The result exceeds the zoom threshold value, is detected as driving noise, and the subtraction amount [N] is output.

図13(b)におけるMain[N2]、Sub[N2]、Main[N2]−Sub[N2]は、それぞれ周波数N2ポイント目のMchの振幅スペクトル、Schの振幅スペクトル、Mch振幅スペクトルからSch振幅スペクトルを差し引いた減算量[n]を示す。ここで、同図(b)のt1からt2の期間を着目すると、Main[N2]とSub[N2]が同レベルで変動しており、Main[N2]−Sub[N2]の演算結果もズーム閾値を上回る結果はない。周波数N2ポイント目において駆動騒音は検出されない結果となる。Mch−Sch演算部2091は上記タイミングチャートで示した演算を[0]〜[511]の振幅スペクトル全てにおいて実行する。 Main [N2], Sub [N2], and Main [N2] -Sub [N2] in FIG. 13B are the Mch amplitude spectrum, the Sch amplitude spectrum, and the Mch amplitude spectrum to the Sch amplitude spectrum at the frequency N2 point, respectively. The subtraction amount [n] obtained by subtracting is shown. Here, focusing on the period from t1 to t2 in the figure (b), Main [N2] and Sub [N2] fluctuate at the same level, and the calculation result of Main [N2] -Sub [N2] is also zoomed. There are no results that exceed the threshold. As a result, the driving noise is not detected at the second point of the frequency N2. The Mch-Sch calculation unit 2091 executes the calculation shown in the timing chart in all the amplitude spectra of [0] to [511].

図5はL/Rch生成部213のタイミングチャートの一例を表す。ズーム駆動動作は、制御部109からの制御を受け、t1からt2のタイミングにおいて、光学レンズ201が駆動動作となる。Mchスペクトルは、図5において抽出した特定の周波数Nポイント目のスペクトルを表す。Lch,Rchについては、トータルゲイン演算部212で決定したTotal_Gain_L、Total_Gain_RをMchに加算することで生成される。同図のタイミングチャートに示されるように、例えば、Mchに対し、Total_Gain_Lを下げ、Total_Gain_Rを上げることで、Rchが強調することができ、1chの入力で2chのステレオ信号を生成する事が可能である。 FIG. 5 shows an example of the timing chart of the L / Rch generation unit 213. The zoom drive operation is controlled by the control unit 109, and the optical lens 201 becomes the drive operation at the timings from t1 to t2. The Mch spectrum represents the spectrum at the Nth point of the specific frequency extracted in FIG. Lch and Rch are generated by adding Total_Gain_L and Total_Gain_R determined by the total gain calculation unit 212 to Mch. As shown in the timing chart of the figure, for example, Rch can be emphasized by lowering Total_Gain_L and raising Total_Gain_R with respect to Mch, and it is possible to generate a 2ch stereo signal with 1ch input. be.

また、t1からt2における光学レンズの駆動動作中においても、Total_Gain_L、Total_Gain_Rを下げることで、Lch,Rchに対し、駆動騒音を除去することが可能である。 Further, even during the driving operation of the optical lens from t1 to t2, it is possible to remove the driving noise with respect to Lch and Rch by lowering Total_Gain_L and Total_Gain_R.

ここで、ここで、本実施形態の音声入力部102での感度差補正部208の動作について、図14を用いて説明する。 Here, the operation of the sensitivity difference correction unit 208 in the voice input unit 102 of the present embodiment will be described with reference to FIG.

図14は、感度差補正部208の動作タイミングチャートの一例を示している。同図において、ズーム検出は駆動検出部2095の駆動騒音の検出結果を示す。入力スペクトルNPointは、周波数Nポイント目のMchの振幅スペクトル、Schの振幅スペクトルを示す。実線部はMchを、点線部はSchを示わしている。 FIG. 14 shows an example of the operation timing chart of the sensitivity difference correction unit 208. In the figure, the zoom detection shows the detection result of the drive noise of the drive detection unit 2095. The input spectrum NPoint indicates the amplitude spectrum of Mch and the amplitude spectrum of Sch at the Nth frequency point. The solid line part shows Mch, and the dotted line part shows Sch.

入力スペクトル(積分)NPointは、周波数Nポイント目の感度補正積分器2081のMch、Schの積分結果を示す。感度調整出力スペクトルNPointは、周波数Nポイント目の感度差補正ゲイン部2085によりレベル補正されたMchの振幅スペクトル、Schの振幅スペクトルを示す。実線部はMchを、点線部はSchを示す。 The input spectrum (integral) NPoint indicates the integration result of Mch and Sch of the sensitivity correction integrator 2081 at the Nth frequency point. The sensitivity adjustment output spectrum NPoint indicates the amplitude spectrum of Mch and the amplitude spectrum of Sch, which are level-corrected by the sensitivity difference correction gain unit 2085 at the Nth frequency point. The solid line part indicates Mch, and the dotted line part indicates Sch.

図14において、t0はREC開始のタイミングであり、t0からt1にかけては数10秒程度の充分長い時間を表わしている。タイミングt2からt3にかけては、ズーム検出がONされており、駆動検出部2095により駆動騒音が発生していることを表す。 In FIG. 14, t0 is the timing of starting REC, and from t0 to t1, it represents a sufficiently long time of about several tens of seconds. From the timings t2 to t3, the zoom detection is turned on, and the drive detection unit 2095 indicates that drive noise is generated.

入力スペクトルNPointは、MchとSchはREC開始時t0においてレベル差が生じている。それに対し、入力スペクトル(積分)NPointは、感度補正積分器2081により、積分されt0からt1にかけてゆっくりとレベル差に追従していく。感度調整出力スペクトルNPointも入力スペクトル(積分)NPointの積分結果に対し、t0からt1にかけて充分に時間を掛けて感度差補正ゲイン部2085にてゲイン補正をしていく。これは、感度差補正部208は、メインマイク205aとサブマイク205bの感度補正を目的としているので、数十秒程度の充分な時間を掛けてのレベル補正で良く、過渡的な応答性を必要としない。 In the input spectrum NPoint, there is a level difference between Mch and Sch at t0 at the start of REC. On the other hand, the input spectrum (integral) NPoint is integrated by the sensitivity correction integrator 2081 and slowly follows the level difference from t0 to t1. The sensitivity adjustment output spectrum NPoint also corrects the integration result of the input spectrum (integral) NPoint by the sensitivity difference correction gain unit 2085 over a sufficient period of time from t0 to t1. This is because the sensitivity difference correction unit 208 aims to correct the sensitivity of the main microphone 205a and the sub microphone 205b, so that it is sufficient to take a sufficient time of about several tens of seconds to correct the level, and transient responsiveness is required. do not.

また、タイミングt2からt3にかけてのズーム検出ON期間においては、感度補正積分器2081が停止状態となる。よって、駆動騒音が発生することにより、Mchの振幅スペクトル、Schの振幅スペクトルに大きなレベル差が発生するが、感度補正積分器2081が停止状態にあるので、レベル差に追従することなく、値は保持される。前述したが、感度差補正部208は、メインマイク205aとサブマイク205bの感度補正を目的としているので、駆動騒音による過渡的なレベル差分に対する応答は必要としない。感度差補正部208は上記タイミングチャートで示した補正を[0]〜[511]の振幅スペクトル全てにおいて実行する。 Further, during the zoom detection ON period from the timing t2 to t3, the sensitivity correction integrator 2081 is stopped. Therefore, due to the generation of driving noise, a large level difference occurs in the amplitude spectrum of Mch and the amplitude spectrum of Sch. However, since the sensitivity correction integrator 2081 is in the stopped state, the value does not follow the level difference. Be retained. As described above, since the sensitivity difference correction unit 208 aims to correct the sensitivity of the main microphone 205a and the sub microphone 205b, it does not need a response to the transient level difference due to the driving noise. The sensitivity difference correction unit 208 executes the correction shown in the timing chart in all the amplitude spectra of [0] to [511].

ここで、本実施形態の音声入力部102での風雑音演算処理部210の動作について、図15から図17を用いて説明する。 Here, the operation of the wind noise calculation processing unit 210 in the voice input unit 102 of the present embodiment will be described with reference to FIGS. 15 to 17.

図15は、音声入力部102の一部であるサブマイク205bに対し、風防材102−3を構成したメカ構成を示す断面図である。 FIG. 15 is a cross-sectional view showing a mechanical configuration in which the windshield material 102-3 is configured with respect to the sub microphone 205b which is a part of the voice input unit 102.

マイク穴を構成する外装部102−1は、メインマイク205aを保持するメインマイクブッシュ102−2a、サブマイク205bを保持するサブマイクブッシュ102−2b、其々のマイクブッシュを外装部へ押し付け保持をする押し付け部103により構成される。外装部102−1、押し付け部103についてはPC材等のモールド部材で構成されるが、アルミ、ステンレス等の金属部材であっても問題ない。また、メインマイクブッシュ102−2a、サブマイクブッシュ102−2bについては、エチレンプロピレンジエンゴム等のゴム材にて構成される。 The exterior portion 102-1 constituting the microphone hole presses and holds the main microphone bush 102-2a for holding the main microphone 205a, the sub microphone bush 102-2b for holding the sub microphone 205b, and the respective microphone bushes against the exterior portion. It is composed of a pressing portion 103. The exterior portion 102-1 and the pressing portion 103 are made of a molded member such as a PC material, but there is no problem even if it is a metal member such as aluminum or stainless steel. The main microphone bush 102-2a and the sub microphone bush 102-2b are made of a rubber material such as ethylene propylene diene rubber.

ここで、外装部102−1におけるマイク穴の穴径について説明する。サブマイク205bへのマイク穴の径は、メインマイク205aへのマイク穴の径に対して小さい。実施形態では、サブマイク205bのマイク孔の径(直径)は、メインマイク205aのマイク穴のそれの1/3の寸法としている。マイク穴形状については円状、楕円状が望ましいが、方形状でも構わない。また、其々の穴形状について、同形状でも別形状でも構わない。 Here, the hole diameter of the microphone hole in the exterior portion 102-1 will be described. The diameter of the microphone hole in the sub microphone 205b is smaller than the diameter of the microphone hole in the main microphone 205a. In the embodiment, the diameter (diameter) of the microphone hole of the sub microphone 205b is set to 1/3 of the size of the microphone hole of the main microphone 205a. The shape of the microphone hole is preferably circular or elliptical, but it may be square. Further, each hole shape may be the same shape or a different shape.

次に、外装部102−1とマイクブッシュ102−2a、102−2bで構成されるマイク前面の空間と、クッション材の配置について説明する。外装部102−1とサブマイクブッシュ102−2bで構成されるサブマイク205bの前面の空間の容積は、外装部102−1とメインマイクブッシュ102−2aで構成されるメインマイク205a前面の空間のそれより大きく、3倍確保する構成をとる。 Next, the space in front of the microphone composed of the exterior portion 102-1 and the microphone bushes 102-2a and 102-2b, and the arrangement of the cushion material will be described. The volume of the space in front of the sub microphone 205b composed of the exterior portion 102-1 and the sub microphone bush 102-2b is that of the space in front of the main microphone 205a composed of the exterior portion 102-1 and the main microphone bush 102-2a. It is configured to be larger and secure three times.

外装部102−1とサブマイクブッシュ102−2bで構成されるサブマイク205bの前面の空間においては、風防材102−3として、風防クッション材やシールマイクを配置する。いずれも風の周波数に対応した0〜4kHz程度の低周波帯の信号成分をフィルタする部材として構成される。風防材102−3により低周波帯が支配的である風雑音のサブマイク205bへの空気伝搬の影響を大幅に軽減する事が可能である。 In the space in front of the sub microphone 205b composed of the exterior portion 102-1 and the sub microphone bush 102-2b, a windshield cushion material and a seal microphone are arranged as the windshield material 102-3. Each is configured as a member for filtering a signal component in a low frequency band of about 0 to 4 kHz corresponding to the wind frequency. The windshield material 102-3 can significantly reduce the influence of air propagation on the sub microphone 205b of wind noise, which is dominated by the low frequency band.

図16は、風雑音入力時のメインマイク205aからの周波数スペクトルデータMain[0]〜[511]と、サブマイク205bからの周波数スペクトルデータSub[0]〜[511]を示している。風雑音入力時、風雑音成分は点線部の低周波帯域において存在している。風検出部2101は、メインマイク205aからの周波数スペクトルMain[0]〜[511]、サブマイク205bからの周波数スペクトルSub[0]〜[511]のうちから、低域周波数帯の例えば10ポイントの相関をみて風雑音レベルの検出を行っている。風検出部2101は、例えば低域の周波数ポイントnにおいて、次式に従って風雑音レベルを算出し、出力する。
風雑音レベル=Σ(Main[n]−Sub[n])/(Main[n]+Sub[n])
なお、上式は、低周波成分の10ポイントとしているで、nは0乃至9の範囲内である。また、実施形態では、低域周波数帯を10ポイントとしたが、この数は一例である。撮像装置の設計に応じて適宜設定することが望まれる。
FIG. 16 shows frequency spectrum data Main [0] to [511] from the main microphone 205a and frequency spectrum data Sub [0] to [511] from the sub microphone 205b at the time of wind noise input. At the time of wind noise input, the wind noise component exists in the low frequency band of the dotted line portion. The wind detection unit 2101 correlates, for example, 10 points in the low frequency band from the frequency spectra Main [0] to [511] from the main microphone 205a and the frequency spectra Sub [0] to [511] from the sub microphone 205b. The wind noise level is detected by looking at. The wind detection unit 2101 calculates and outputs the wind noise level according to the following equation, for example, at the low frequency point n.
Wind noise level = Σ (Main [n] -Sub [n]) / (Main [n] + Sub [n])
In the above equation, 10 points of the low frequency component are set, and n is in the range of 0 to 9. Further, in the embodiment, the low frequency band is set to 10 points, but this number is an example. It is desirable to make appropriate settings according to the design of the imaging device.

図17は、風雑音ゲイン演算部2102にて演算される、風検出部2101からの風雑音レベルに対する風雑音ゲイン[0]〜[511]の周波数関係を示す。風検出部2101からの風雑音レベルが大きい程、風雑音ゲインはマイナス側へシフトし、点線の示すカットオフ周波数を高周波帯域へシフトする。前記カットオフの周波数により風雑音ゲイン[0]〜[511]は決定される。 FIG. 17 shows the frequency relationship of the wind noise gains [0] to [511] with respect to the wind noise level from the wind detection unit 2101, which is calculated by the wind noise gain calculation unit 2102. The larger the wind noise level from the wind detection unit 2101, the more the wind noise gain shifts to the minus side, and the cutoff frequency indicated by the dotted line shifts to the high frequency band. The wind noise gains [0] to [511] are determined by the cut-off frequency.

次に、本実施形態の音声入力部102でのMch/Sch選択部213の動作について、図18(a),(b)を用いて説明する。 Next, the operation of the Mch / Sch selection unit 213 in the voice input unit 102 of the present embodiment will be described with reference to FIGS. 18A and 18B.

図18(a)は、Mch/Sch選択部2131にて合成される、メインマイク205aからの周波数スペクトルデータMain[0]〜[511](図示のMain ch)とサブマイク205bからの周波数スペクトルデータSub[0]〜[511](図示のSub ch)との、風雑音レベルに応じた合成比率と周波数の関係を示している。 FIG. 18A shows frequency spectrum data Main [0] to [511] (shown Main ch) from the main microphone 205a and frequency spectrum data Sub from the sub microphone 205b, which are synthesized by the Mch / Sch selection unit 2131. The relationship between the combined ratio and the frequency according to the wind noise level between [0] to [511] (Subch in the figure) is shown.

ここで図3(a)は、図3(b)記載のメインマイク205aとサブマイク205bのメカ構成に対応した実施形態を示す。ここでMch/Sch選択部2131は、図18(a)に示すように、風雑音レベルに基づき、Main chを1.0から0.5の比率で、また、Sub chを0から0.5の比率で合成する。 Here, FIG. 3A shows an embodiment corresponding to the mechanical configuration of the main microphone 205a and the sub-microphone 205b shown in FIG. 3B. Here, as shown in FIG. 18A, the Mch / Sch selection unit 2131 sets the Main ch at a ratio of 1.0 to 0.5 and the Sub ch at a ratio of 0 to 0.5 based on the wind noise level. Synthesize at the ratio of.

風雑音レベルが大きい程、Main chにおいては1.0から0.5へ合成比率を下げ、Sub chにおいては0から0.5へ合成比率を上げ、Main chとSub chを合成するクロスオーバーの周波数(合成の上限周波数)を上げていく。そして、Mch/Sch選択部2131は、風雑音レベルに依存する上限周波数以下ではMain chとSub chとを図示の比率で合成し、上限周波数を上回る周波数ではMain chを選択して出力する。風雑音レベルが0の場合は、Schの合成比率は0となる。ここで、図3(b)で記載の通り、サブマイク205bへのマイク穴の径は、メインマイク205aへのマイク穴の径に対して小さく、1/3に縮小された構成をとる。よって、サブマイク205bへの風雑音の影響度はメインマイク205aよりも弱い。よって、風検出部2101からの風雑音レベルに応じて、Mchに対しSchを合成する事により、風雑音の軽減に効果を果たす。 The higher the wind noise level, the lower the synthesis ratio from 1.0 to 0.5 in Main ch, and the higher the synthesis ratio from 0 to 0.5 in Sub ch, and the crossover that synthesizes Main ch and Sub ch. Increase the frequency (upper limit frequency of synthesis). Then, the Mch / Sch selection unit 2131 synthesizes the Main ch and the Sub ch at the ratio shown in the figure below the upper limit frequency depending on the wind noise level, and selects and outputs the Main ch at the frequency exceeding the upper limit frequency. When the wind noise level is 0, the composition ratio of Sch is 0. Here, as described in FIG. 3B, the diameter of the microphone hole in the sub microphone 205b is smaller than the diameter of the microphone hole in the main microphone 205a, and is reduced to 1/3. Therefore, the influence of wind noise on the sub microphone 205b is weaker than that of the main microphone 205a. Therefore, by synthesizing Sch with Mch according to the wind noise level from the wind detection unit 2101, the wind noise can be reduced effectively.

次に図18(b)は、図15に示すようにサブマイク205bに対し、風防材102−3を構成したメカ構成に対応した実施形態を示す。ここでMch/Sch選択部2131は風雑音レベルから、Mchを1.0から0の比率で、Schを0から1.0の比率で合成する。つまり、風雑音レベルが大きい程、Mchにおいては1.0から0へ合成比率を下げ、Schにおいては0から1.0へ合成比率を上げ、MchとSchを合成するクロスオーバーの周波数を上げていく。風雑音レベルが0の場合は、Schの合成比率は0となる。ここで図3(a)や図15で記載の通り、サブマイク205bへのマイク穴の径は、メインマイク205aへのマイク穴の径に対して小さく、1/3に縮小された構成をとる。かつ、外装部102−1とサブマイクブッシュ102−2bで構成されるサブマイク205b前面の空間には、風防材102−3を設けている。よって、サブマイク205bへの風雑音の影響度はメインマイク205aに対し、更に小さくできる。よって、風検出部2101からの風雑音レベルに応じて、MchからSchに切り替えていく事で、風雑音の軽減に効果を果たす。 Next, FIG. 18B shows an embodiment corresponding to the mechanical configuration in which the windshield material 102-3 is configured with respect to the sub microphone 205b as shown in FIG. Here, the Mch / Sch selection unit 2131 synthesizes Mch at a ratio of 1.0 to 0 and Sch at a ratio of 0 to 1.0 based on the wind noise level. That is, the larger the wind noise level, the lower the synthesis ratio from 1.0 to 0 in Mch, the higher the synthesis ratio from 0 to 1.0 in Sch, and the higher the frequency of the crossover that synthesizes Mch and Sch. go. When the wind noise level is 0, the composition ratio of Sch is 0. Here, as described in FIGS. 3A and 15, the diameter of the microphone hole in the sub microphone 205b is smaller than the diameter of the microphone hole in the main microphone 205a, and is reduced to 1/3. In addition, a windshield material 102-3 is provided in the space in front of the sub microphone 205b composed of the exterior portion 102-1 and the sub microphone bush 102-2b. Therefore, the degree of influence of wind noise on the sub microphone 205b can be made smaller than that of the main microphone 205a. Therefore, by switching from Mch to Sch according to the wind noise level from the wind detection unit 2101, the wind noise can be reduced effectively.

ここで、本実施形態の音声入力部102でのステレオ抑制部2113の具体的動作について図19、図20を用いて説明する。 Here, the specific operation of the stereo suppression unit 2113 in the voice input unit 102 of the present embodiment will be described with reference to FIGS. 19 and 20.

図19は、ステレオ抑制部2113について、駆動騒音検出時と風雑音検出時に応じて、ステレオ効果の強調に用いる強調係数を変更するタイミングチャートを示している。図19において、Main[N]は、周波数Nポイント目のMchの振幅スペクトルデータを示す。また、駆動騒音検出信号は、駆動検出部2095により駆動騒音を検出した事を示す検出信号を示す。また、風雑音検出信号は、風検出部2101により風雑音を検出した事を示す風雑音レベル(予め設定された閾値以上の風雑音レベル)を示す。GainL[N]、GainR[N]は、ステレオゲイン演算処理部2112により決定された周波数Nポイント目のMchの振幅スペクトルに加算するステレオのLch及び、Rchのゲインを示す。 FIG. 19 shows a timing chart of the stereo suppression unit 2113 for changing the emphasis coefficient used for enhancing the stereo effect according to the drive noise detection and the wind noise detection. In FIG. 19, Main [N] indicates the amplitude spectrum data of Mch at the frequency N point. Further, the drive noise detection signal indicates a detection signal indicating that the drive noise has been detected by the drive detection unit 2095. Further, the wind noise detection signal indicates a wind noise level (a wind noise level equal to or higher than a preset threshold value) indicating that the wind noise has been detected by the wind detection unit 2101. GainL [N] and GainR [N] indicate stereo Lch and Rch gain to be added to the amplitude spectrum of Mch at the Nth frequency point determined by the stereo gain calculation processing unit 2112.

ステレオ抑制部2113は、Mch−Sch演算部2091からの駆動騒音を検出したことを示す検出信号を受けて、強調係数を0にする。また、風検出部2101からの風雑音を検出した事を示す風雑音レベルを受けて、強調係数を周波数に応じて0にする。 The stereo suppression unit 2113 receives a detection signal indicating that the drive noise from the Mch-Sch calculation unit 2091 has been detected, and sets the emphasis coefficient to 0. Further, the emphasis coefficient is set to 0 according to the frequency in response to the wind noise level indicating that the wind noise from the wind detection unit 2101 has been detected.

ここで、タイミングt1からt2の期間を着目すると、Main[N]の振幅スペクトルは大きく変動しており、Mch−Sch演算部2091からの検出信号は、駆動騒音有りとして検出を示している。この期間、GainL[N]、GainR[N]は0に固定されている。つまりステレオ抑制部2113が強調係数を0にした事を表している。また、タイミングt3からt4の期間を着目すると、Main[N]の振幅スペクトルは大きく変動しており、風検出部2101からの風雑音検出信号は検出を示している。この期間、GainL[N]、GainR[N]は0に固定されている。つまりステレオ抑制部2113が強調係数を0にした事を表している。 Here, focusing on the period from timing t1 to t2, the amplitude spectrum of Main [N] fluctuates greatly, and the detection signal from the Mch-Sch calculation unit 2091 indicates detection as having driving noise. During this period, GainL [N] and GainR [N] are fixed at 0. That is, it means that the stereo suppression unit 2113 has set the emphasis coefficient to 0. Further, focusing on the period from timing t3 to t4, the amplitude spectrum of Main [N] fluctuates greatly, and the wind noise detection signal from the wind detection unit 2101 indicates detection. During this period, GainL [N] and GainR [N] are fixed at 0. That is, it means that the stereo suppression unit 2113 has set the emphasis coefficient to 0.

図20は、風検出部2101からの風雑音レベル検出時において、Mch/Sch選択部2131にてメインマイク205aからの周波数スペクトルMain[0]〜[511]とサブマイク205bからの周波数スペクトルSub[0]〜[511]が合成される比率と、周波数に対し、ステレオ抑制部2113にて強調係数を0にする周波数の関係を示す図である。ここでMch/Sch選択部2131は風雑音レベルから、風雑音レベルが大きい程、Mchにおいては1.0から0.5へ合成比率を下げ、Schにおいては0から0.5へ合成比率を上げ、MchとSchを合成するクロスオーバーの周波数を上げていく。風雑音レベルの場合、前記クロスオーバーの周波数は500Hzである。これに対しステレオ抑制部2113は、前記クロスオーバーの周波数よりも高い周波数750Hzまで強調係数を0に固定する。ステレオ抑制部2113は、風検出部2101からの風雑音レベルが大きい程、強調係数を0に固定する周波数を上げていく。GainL、GainRのステレオゲインによる強調により、風雑音も強調されることを防ぐ。 FIG. 20 shows the frequency spectra Main [0] to [511] from the main microphone 205a and the frequency spectra Sub [0] from the sub microphone 205b by the Mch / Sch selection unit 2131 when the wind noise level is detected from the wind detection unit 2101. ] To [511] are combined, and the relationship between the frequency and the frequency at which the emphasis coefficient is set to 0 by the stereo suppression unit 2113 is shown. Here, the Mch / Sch selection unit 2131 reduces the composition ratio from 1.0 to 0.5 in Mch and increases the composition ratio from 0 to 0.5 in Sch as the wind noise level increases from the wind noise level. , The frequency of the crossover that synthesizes Mch and Sch is increased. In the case of wind noise level, the frequency of the crossover is 500 Hz. On the other hand, the stereo suppression unit 2113 fixes the emphasis coefficient to 0 up to a frequency of 750 Hz, which is higher than the crossover frequency. The stereo suppression unit 2113 raises the frequency at which the emphasis coefficient is fixed to 0 as the wind noise level from the wind detection unit 2101 increases. The enhancement by the stereo gain of GainL and GainR prevents the wind noise from being emphasized.

ここで、本実施形態の音声入力部102での駆動音減算量積分器2097、風雑音減算量積分器2103、右ゲイン積分器2114、左ゲイン積分器2115の動作について図21を用いて説明する。 Here, the operations of the drive sound subtraction integrator 2097, the wind noise subtraction integrator 2103, the right gain integrator 2114, and the left gain integrator 2115 in the audio input unit 102 of the present embodiment will be described with reference to FIG. ..

図21は、周波数Nポイント目のMchの振幅スペクトルデータについての、それぞれ決定される駆動騒音除去ゲインNC_GAIN[N]、風雑音減算量WC_GAIN[N]、Lch生成用ステレオゲインL_GAIN[N]、Rch生成用ステレオゲインR_GAIN[N]のそれぞれに対する時定数を示す。これらは、駆動音減算量積分器2097、風雑音減算量積分器2103、左ゲイン積分器2114,右ゲイン積分器2115により決定される。駆動騒音減算量積分器の時定数は、右ゲイン積分器2115、左ゲイン積分器2114の時定数に対して遅く、風雑音減算量積分器の時定数は右ゲイン積分器2115、左ゲイン積分器2114の時定数に対して遅い。駆動騒音と風雑音は、それぞれ駆動騒音成分であり、時系列でのばらつきも大きく、時定数を遅くしてそれぞれ駆動騒音減算と風雑音減算の追従を遅くすることで前記ばらつきを抑える。また、ステレオゲインについては、時定数を早くすることで、発音する被写体の移動に対する追従を早くする。 FIG. 21 shows the drive noise removal gain NC_GAIN [N], the wind noise subtraction amount WC_GAIN [N], the stereo gain L_GAIN [N] for Lch generation, and Rch, respectively, for the amplitude spectrum data of the Mch at the Nth frequency point. The time constants for each of the generation stereo gains R_GAIN [N] are shown. These are determined by the drive sound subtraction integrator 2097, the wind noise subtraction integrator 2103, the left gain integrator 2114, and the right gain integrator 2115. The time constant of the drive noise subtraction integrator is slower than the time constant of the right gain integrator 2115 and the left gain integrator 2114, and the time constant of the wind noise subtraction integrator is the right gain integrator 2115 and the left gain integrator. Slow with respect to the time constant of 2114. The drive noise and the wind noise are drive noise components, respectively, and the variation in the time series is large. The variation is suppressed by delaying the time constant and delaying the follow-up of the drive noise subtraction and the wind noise subtraction, respectively. As for the stereo gain, by increasing the time constant, the tracking of the movement of the sounding subject is accelerated.

本実施形態においては、2系統の音声が入力される場合について説明したが、それ以上のチャンネル数であっても適用することができる。 In the present embodiment, the case where two systems of audio are input has been described, but it can be applied even if the number of channels is larger than that.

また、本実施形態においては、撮像装置について説明したが、本実施形態の音声入力部102の音声処理は、外部の音声を記録、または入力するような装置つまり、音声記録装置であればどのような装置であっても適用することができる。例えば、ICレコーダ、携帯電話等に適用しても良い。 Further, in the present embodiment, the imaging device has been described, but what if the voice processing of the voice input unit 102 of the present embodiment is a device that records or inputs an external voice, that is, a voice recording device? It can be applied to any device. For example, it may be applied to an IC recorder, a mobile phone, or the like.

また、実施形態では、図6に示す構成をハードウェアにより実現する例を説明したが、例えば、同図のマイクやAD変換部等を除く処理部の多くを、プロセッサが実行するプロシージャやサブルーチン等のプログラムで実現しても構わない。 Further, in the embodiment, an example in which the configuration shown in FIG. 6 is realized by hardware has been described. It may be realized by the program of.

(その他の実施例)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
(Other Examples)
The present invention supplies a program that realizes one or more functions of the above-described embodiment to a system or device via a network or storage medium, and one or more processors in the computer of the system or device reads and executes the program. It can also be realized by the processing to be performed. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.

100…撮像装置、101…撮像部、102…音声入力部、103…メモリ、104…表示制御部、105…表示部、106…符号化処理部、107…記録再生部、108…記録媒体、109…制御部、110…操作部、111…音声出力部、112…スピーカ、113…外部出力部、114…データバス、201…光学レンズ、202…撮像素子、203…画像処理部、204…光学レンズ制御部、205…マイク、205a…メインマイク、205b…サブマイク、206…A/D変換部、207…FFT部、208…感度差補正部、209…駆動音演算処理部、210…風雑音演算処理部、211…ステレオゲイン演算処理部、212…トータルゲイン演算部、213…L/Rch生成部、214…iFFT部、215…音声処理部、216…ALC部、102−1…外装部、102−2a…メインマイクブッシュ、102−2b…サブマイクブッシュ、102−3…風防材 100 ... Imaging device, 101 ... Imaging unit, 102 ... Audio input unit, 103 ... Memory, 104 ... Display control unit, 105 ... Display unit, 106 ... Coding processing unit, 107 ... Recording / playback unit, 108 ... Recording medium, 109 ... Control unit, 110 ... Operation unit, 111 ... Sound output unit, 112 ... Speaker, 113 ... External output unit, 114 ... Data bus, 201 ... Optical lens, 202 ... Imaging element, 203 ... Image processing unit, 204 ... Optical lens Control unit, 205 ... Microphone, 205a ... Main microphone, 205b ... Sub microphone, 206 ... A / D conversion unit, 207 ... FFT unit, 208 ... Sensitivity difference correction unit, 209 ... Drive sound calculation processing unit, 210 ... Wind noise calculation processing Unit, 211 ... Stereo gain calculation processing unit, 212 ... Total gain calculation unit, 213 ... L / Rch generation unit, 214 ... iFFT unit, 215 ... Sound processing unit, 216 ... ALC unit, 102-1 ... Exterior unit, 102- 2a ... Main microphone bush, 102-2b ... Sub microphone bush, 102-3 ... Windshield material

Claims (11)

音声処理装置であって、
第1のマイクと、
第2のマイクと、
前記第1のマイクから得られた時系列の音声データを第1の周波数スペクトルデータに変換し、前記第2のマイクから得られた時系列の音声データを第2の周波数スペクトルデータに変換する変換手段と、
前記変換手段で得た前記第1の周波数スペクトルデータに対する前記第2の周波数スペクトルデータの位相のずれを求め、前記位相のずれに基づいて右チャネルのゲイン及び左チャネルのゲインを決定する決定手段と、
前記第1の周波数スペクトルデータを前記決定手段により決定された前記右チャネルのゲインにより制御して右チャネルの周波数スペクトルデータを生成し、前記第1の周波数スペクトルデータを前記決定手段により決定された前記左チャネルのゲインにより制御して左チャネルの周波数スペクトルデータを生成する生成手段と、
前記生成手段で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換手段と
を有し、
前記決定手段は、所定の雑音が検出された場合には前記位相のずれに基づくことなく右チャネルのゲイン及び左チャネルのゲインを決定することを特徴とする音声処理装置。
It is a voice processing device
With the first microphone
With the second microphone
Conversion that converts the time-series audio data obtained from the first microphone into the first frequency spectrum data and converts the time-series audio data obtained from the second microphone into the second frequency spectrum data. Means and
As a determination means for obtaining the phase shift of the second frequency spectrum data with respect to the first frequency spectrum data obtained by the conversion means and determining the gain of the right channel and the gain of the left channel based on the phase shift. ,
The first frequency spectrum data is controlled by the gain of the right channel determined by the determination means to generate the frequency spectrum data of the right channel, and the first frequency spectrum data is determined by the determination means. A generation means that is controlled by the gain of the left channel to generate frequency spectrum data of the left channel,
Have a reverse conversion means for inversely converting the respective frequency spectrum data of the left and right channels generated by said generating means, to each of the audio data of the left and right channels of the time series,
The voice processing device is characterized in that, when a predetermined noise is detected, the determination means determines the gain of the right channel and the gain of the left channel without being based on the phase shift.
集音する対象に向かって、前記第1のマイクは右側に、前記第2のマイクは左側に位置しているとしたとき、
前記決定手段は、
前記第1の周波数スペクトルデータに対する第2の周波数スペクトルデータの位相情報を取得する手段と、
算出した位相情報、及び、前記第1の周波数スペクトルデータから前記第2の周波数スペクトルデータを減じた値に応じた強調係数に基づいて、前記右チャネルのゲイン及び前記左チャネルのゲインを決定する手段と
を含むことを特徴とする請求項1に記載の音声処理装置。
When the first microphone is located on the right side and the second microphone is located on the left side of the object to be collected.
The determination means is
A means for acquiring phase information of the second frequency spectrum data with respect to the first frequency spectrum data, and
A means for determining the gain of the right channel and the gain of the left channel based on the calculated phase information and the emphasis coefficient corresponding to the value obtained by subtracting the second frequency spectrum data from the first frequency spectrum data. The voice processing apparatus according to claim 1, wherein the voice processing apparatus includes.
前記決定手段は、
前記第1の周波数スペクトルデータの位相が、前記第2の周波数スペクトルデータの位相よりも進んでいる場合、前記左チャネルのゲインを大きくし、
前記第1の周波数スペクトルデータの位相が、前記第2の周波数スペクトルデータの位相よりも遅れている場合、前記右チャネルのゲインを大きくする
ことを特徴とする請求項2に記載の音声処理装置。
The determination means is
When the phase of the first frequency spectrum data is ahead of the phase of the second frequency spectrum data, the gain of the left channel is increased.
The voice processing apparatus according to claim 2, wherein when the phase of the first frequency spectrum data is behind the phase of the second frequency spectrum data, the gain of the right channel is increased.
前記決定手段は、前記第1の周波数スペクトルデータに対する前記第2の周波数スペクトルデータの正弦に強調係数を乗じることで、前記右チャネルのゲイン及び左チャネルのゲインを決定する
ことを特徴とする請求項2に記載の音声処理装置。
The determination means is characterized in that the gain of the right channel and the gain of the left channel are determined by multiplying the sine of the second frequency spectrum data with respect to the first frequency spectrum data by an emphasis coefficient. 2. The voice processing device according to 2.
前記強調係数は周波数毎に求めることを特徴とする請求項2に記載の音声処理装置。 The voice processing apparatus according to claim 2, wherein the emphasis coefficient is obtained for each frequency. 前記決定手段は、前記第1のマイクと前記第2のマイクとの距離に基づいて、前記強調係数を決定することを特徴とする請求項2に記載の音声処理装置。The voice processing device according to claim 2, wherein the determination means determines the emphasis coefficient based on the distance between the first microphone and the second microphone. 駆動部をさらに有し、It also has a drive unit
前記所定の雑音は前記駆動部による駆動騒音であることを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。The voice processing device according to any one of claims 1 to 6, wherein the predetermined noise is driving noise by the driving unit.
前記所定の雑音は風雑音であることを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。The voice processing device according to any one of claims 1 to 6, wherein the predetermined noise is wind noise. 前記決定手段は、所定の雑音が検出された場合、右チャネルのゲイン及び左チャネルのゲインが同じになるように、それぞれのゲインを決定することを特徴とする請求項1から8のいずれか1項に記載の音声処理装置。The determination means is any one of claims 1 to 8, wherein when a predetermined noise is detected, the gains of the right channel and the gains of the left channel are determined to be the same. The audio processing device described in the section. 音声処理装置の制御方法であって、
前記音声処理装置は、第1のマイクと、第2のマイクとを有し、
前記方法は、
前記第1のマイクから得られた時系列の音声データを第1の周波数スペクトルデータに変換し、前記第2のマイクから得られた時系列の音声データを第2の周波数スペクトルデータに変換する変換工程と、
前記変換工程で得た前記第1の周波数スペクトルデータに対する前記第2の周波数スペクトルデータの位相のずれを求め、前記位相のずれに基づいて右チャネルのゲイン及び左チャネルのゲインを決定する決定工程と、
前記第1の周波数スペクトルデータを前記決定工程により決定された前記右チャネルのゲインにより制御して右チャネルの周波数スペクトルデータを生成し、前記第1の周波数スペクトルデータを前記決定工程により決定された前記左チャネルのゲインにより制御して左チャネルの周波数スペクトルデータを生成する生成工程と、
前記生成工程で生成された左右のチャネルのそれぞれの周波数スペクトルデータを、時系列の左右チャネルのそれぞれの音声データに逆変換する逆変換工程と
を有し、
前記決定工程は、所定の雑音が検出された場合には前記位相のずれに基づくことなく右チャネルのゲイン及び左チャネルのゲインを決定することを特徴とする音声処理装置の制御方法。
It is a control method of the voice processing device.
The voice processing device has a first microphone and a second microphone.
The method is
Conversion that converts the time-series audio data obtained from the first microphone into the first frequency spectrum data and converts the time-series audio data obtained from the second microphone into the second frequency spectrum data. Process and
A determination step of obtaining the phase shift of the second frequency spectrum data with respect to the first frequency spectrum data obtained in the conversion step and determining the gain of the right channel and the gain of the left channel based on the phase shift. ,
The first frequency spectrum data is controlled by the gain of the right channel determined by the determination step to generate the frequency spectrum data of the right channel, and the first frequency spectrum data is determined by the determination step. A generation process that generates frequency spectrum data for the left channel by controlling it with the gain of the left channel,
Have a reverse transformation step of inverse transforming each of the frequency spectrum data of the left and right channels generated in the generation step, each of the audio data of the left and right channels of the time series,
The determination step is a control method of a voice processing apparatus, characterized in that, when a predetermined noise is detected, the gain of the right channel and the gain of the left channel are determined without being based on the phase shift.
装置外からの音声に対してステレオマイクとして機能する第1のマイク及び第2のマイクを有するコンピュータが読み込み実行するプログラムであって、
前記コンピュータに、請求項10に記載の方法の各工程を実行させるためのプログラム。
A program that is read and executed by a computer having a first microphone and a second microphone that function as stereo microphones for sound from outside the device.
A program for causing the computer to execute each step of the method according to claim 10.
JP2017111163A 2017-06-05 2017-06-05 Speech processing device and its control method Active JP6931296B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017111163A JP6931296B2 (en) 2017-06-05 2017-06-05 Speech processing device and its control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017111163A JP6931296B2 (en) 2017-06-05 2017-06-05 Speech processing device and its control method

Publications (3)

Publication Number Publication Date
JP2018207314A JP2018207314A (en) 2018-12-27
JP2018207314A5 JP2018207314A5 (en) 2020-07-27
JP6931296B2 true JP6931296B2 (en) 2021-09-01

Family

ID=64958446

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017111163A Active JP6931296B2 (en) 2017-06-05 2017-06-05 Speech processing device and its control method

Country Status (1)

Country Link
JP (1) JP6931296B2 (en)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3905364B2 (en) * 2001-11-30 2007-04-18 株式会社国際電気通信基礎技術研究所 Stereo sound image control device and ground side device in multi-ground communication system
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
JP5063489B2 (en) * 2008-06-04 2012-10-31 三洋電機株式会社 Judgment device, electronic apparatus including the same, and judgment method
JP5908199B2 (en) * 2009-05-21 2016-04-26 株式会社ザクティ Sound processing apparatus and sound collecting apparatus

Also Published As

Publication number Publication date
JP2018207314A (en) 2018-12-27

Similar Documents

Publication Publication Date Title
JP6637926B2 (en) Voice processing device and control method thereof
JP2010187363A (en) Acoustic signal processing apparatus and reproducing device
JP5351644B2 (en) Audio recording apparatus and method, and imaging apparatus
JP2008287041A (en) Imaging device, audio processing circuit, noise reduction circuit, noise reduction method and program
JP2012032648A (en) Mechanical noise reduction device, mechanical noise reduction method, program and imaging apparatus
JP4816334B2 (en) Noise reduction device, imaging device, noise reduction method, and program
US11657794B2 (en) Audio processing apparatus for reducing noise using plurality of microphones, control method, and recording medium
JP2011151481A (en) Audio signal processing apparatus and audio signal processing system
JP5529638B2 (en) Audio processing apparatus, audio processing method, and imaging apparatus
JP5349062B2 (en) SOUND PROCESSING DEVICE, ELECTRONIC DEVICE HAVING SAME, AND SOUND PROCESSING METHOD
JP6929137B2 (en) Speech processing device and its control method
JP6985821B2 (en) Speech processing device and its control method
JP5839795B2 (en) Imaging apparatus and information processing system
JP6931296B2 (en) Speech processing device and its control method
JP6886352B2 (en) Speech processing device and its control method
JP6877246B2 (en) Speech processing device and its control method
JP7566552B2 (en) Audio processing device, control method, and program
US12027176B2 (en) Apparatus and method for reducing noise corresponding to a noise source using noise data
US12094483B2 (en) Sound processing apparatus and control method
JP2010134260A (en) Electronic apparatus and voice processing method
JP5495753B2 (en) Imaging device
JP2022054317A (en) Sound processor, control method, and program
JP2022054318A (en) Sound processor, control method, and program
JP2022039940A (en) Speech processing device, control method, and program
JP2014232267A (en) Signal processing device, imaging device and program

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200525

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200525

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20210103

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210405

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210813

R151 Written notification of patent or utility model registration

Ref document number: 6931296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151