JP2013003392A - Sound recording apparatus - Google Patents

Sound recording apparatus Download PDF

Info

Publication number
JP2013003392A
JP2013003392A JP2011135266A JP2011135266A JP2013003392A JP 2013003392 A JP2013003392 A JP 2013003392A JP 2011135266 A JP2011135266 A JP 2011135266A JP 2011135266 A JP2011135266 A JP 2011135266A JP 2013003392 A JP2013003392 A JP 2013003392A
Authority
JP
Japan
Prior art keywords
recording
scene
image signal
setting
sound recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011135266A
Other languages
Japanese (ja)
Inventor
Hiroyoshi Sato
寛祥 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2011135266A priority Critical patent/JP2013003392A/en
Publication of JP2013003392A publication Critical patent/JP2013003392A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Studio Devices (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve user-friendliness of a sound recording apparatus.SOLUTION: The sound recording apparatus includes: imaging means which picks up an optical image of a subject and outputs it as an image signal; scene determination means which determines a scene on the basis of the image signal; sound recording means which collects and records sound; and setting means which sets a sound recording condition for sound recording, on the basis of the scene determined by the scene determination means. In one aspect of the sound recording apparatus, it is unnecessary for a user to pay attention to a scene for sound recording to set a sound recording condition by himself or herself because a recommended scene for sound recording is determined on the basis of an image signal and a sound recording condition is set on the basis of the scene of sound recording, so that a suitable sound recording condition can be set more easily.

Description

本発明は、録音装置に関し、特に撮像機能を有し撮像された画像信号に基づいて好適な録音を行う録音装置に関する。   The present invention relates to a recording apparatus, and more particularly to a recording apparatus that has an imaging function and performs suitable recording based on a captured image signal.

従来、予め複数の動画シーンに対応した録音設定情報を記録しておき、音声付の動画撮影に際して使用者に所望するいずれかの録画シーンを指定させ、録画シーンに対応する録音設定情報に基づき、撮影時の録音を制御する技術が開示されている。
特開2006−217111号公報
Conventionally, recording setting information corresponding to a plurality of moving image scenes is recorded in advance, the user is allowed to specify any recording scene when shooting a movie with sound, and based on the recording setting information corresponding to the recording scene, A technique for controlling recording during shooting is disclosed.
JP 2006-217111 A

従来の技術では、使用者が所望する録画シーンを設定することによって適切な録音設定情報に基づき録音を制御することが出来る。言い換えれば、録画シーンを設定しない限り、録音を適切に制御することが出来ない。従って、従来の技術では、録画を目的とせず適切な録音を目的とした場合においても、所望の録音設定情報に対応する録画シーンを選択しなければならず、使用者にとってわずらわしいものであった。   In the conventional technique, recording can be controlled based on appropriate recording setting information by setting a recording scene desired by the user. In other words, recording cannot be controlled properly unless a recording scene is set. Therefore, in the conventional technology, even when recording is not intended but appropriate recording is performed, a recording scene corresponding to desired recording setting information must be selected, which is troublesome for the user.

本発明は上記の問題を解決するもので、この発明の目的の一つは、好適な録音設定をより簡単に行うことが出来る録音装置を提供するものである。   The present invention solves the above-mentioned problems, and one of the objects of the present invention is to provide a recording apparatus capable of performing a suitable recording setting more easily.

本発明の録音装置は、被写体の光学像を撮像し画像信号として出力する撮像手段と、画像信号に基づいてシーンを判別するシーン判別手段と、音声を集音し録音する録音手段と、シーン判別手段によって判別されたシーンに基づいて、録音するための録音条件を設定する設定手段とを備えることを特徴とする。   The recording apparatus of the present invention includes an imaging unit that captures an optical image of a subject and outputs it as an image signal, a scene determination unit that determines a scene based on the image signal, a recording unit that collects and records sound, and a scene determination Setting means for setting recording conditions for recording based on the scene determined by the means.

この録音装置のある局面によれば、画像信号に基づいて推奨する録音シーンを判別し、該録音シーンに基づいて録音条件を設定するため、使用者は録音シーンを意識して録音条件を自ら設定する必要がないため、より簡単に好適な録音条件を設定することが出来る。   According to one aspect of this recording device, the recommended recording scene is determined based on the image signal, and the recording condition is set based on the recording scene. Therefore, the user sets the recording condition himself in consideration of the recording scene. Therefore, it is possible to set a suitable recording condition more easily.

好ましくは、録音手段を制御して設定手段によって設定された録音条件で録音する録音制御手段と、設定手段によって設定された録音条件を変更する変更手段を更に備える。   Preferably, the recording apparatus further includes recording control means for controlling the recording means to perform recording under the recording conditions set by the setting means, and changing means for changing the recording conditions set by the setting means.

この局面によれば、画像信号に基づいて設定された録音条件に対して変更することが出来るため、使用者が所望する録音条件により近づく。   According to this aspect, since the recording condition set based on the image signal can be changed, the recording condition desired by the user is closer.

好ましくは、設定手段によって設定された録音条件を報知する報知手段を更に備える。   Preferably, the information processing apparatus further includes notification means for notifying the recording condition set by the setting means.

この局面によれば、録音条件が報知されることにより使用者は設定された録音条件を認識することが出来るため、所望する録音条件か否かを判断することが可能となる。   According to this aspect, since the user can recognize the set recording condition by notifying the recording condition, it is possible to determine whether or not the recording condition is desired.

好ましくは、シーン判別手段は、画像信号から所定の形状をした物体などを検出することにより得られる物体の数及び又は物体と物体の離れ具合を検出してシーンを判別する。   Preferably, the scene discrimination means discriminates the scene by detecting the number of objects obtained by detecting an object having a predetermined shape or the like from the image signal and / or the degree of separation between the objects.

この局面によれば、画像信号から所定の形状をした物体などを検出することにより得られる物体の数及び又は物体と物体の離れ具合が検出出来るため、現在のシーンをより精度よく判別することが出来る。   According to this aspect, since the number of objects obtained by detecting an object having a predetermined shape from the image signal and / or the degree of separation between the objects can be detected, it is possible to more accurately determine the current scene. I can do it.

好ましくは、シーン判別手段は、画像信号に基づいて人数及び又は人と人の離れ具合を検出してシーンを判別する。   Preferably, the scene discrimination means discriminates the scene by detecting the number of people and / or the degree of separation between people based on the image signal.

この局面によれば、人数及び又は人と人の離れ具合が検出出来るため、現在のシーンをより精度よく判別することが出来る。   According to this aspect, since the number of persons and / or the degree of separation between persons can be detected, the current scene can be determined with higher accuracy.

好ましくは、シーン判別手段は、画像信号に含まれる顔信号に基づいて人数及び又は人と人の離れ具合を検出してシーンを判別する。   Preferably, the scene discrimination means discriminates the scene by detecting the number of persons and / or the degree of separation between persons based on the face signal included in the image signal.

この局面によれば、設定手段においてシーン判別手段によって判別されたシーンに基づいて設定された録音条件は、無指向性のマイクロフォン又は指向性のマイクロフォンを用いて音声を集音する条件を含む。   According to this aspect, the recording condition set based on the scene determined by the scene determining unit in the setting unit includes a condition for collecting sound using a non-directional microphone or a directional microphone.

この局面によれば、録音条件が無指向性のマイクロフォン又は指向性のマイクロフォンを用いて音声を集音する条件を含むため、より好適な録音をすることが出来る。   According to this aspect, since the recording condition includes a condition for collecting sound using an omnidirectional microphone or a directional microphone, more suitable recording can be performed.

本発明の音声を集音し録音する録音装置において録音するための条件を設定する方法は、被写体の光学像を撮像し画像信号として出力するステップ、画像信号に基づいてシーンを判別するステップ、判別されたシーンに基づいて、録音するための録音条件を設定するステップから成る。 本発明のプログラムは、被写体の光学像を撮像し画像信号として出力する撮像手段と音声を集音し録音する録音手段を備える電子機器のプロセッサに、被写体の光学像を撮像し画像信号として出力するステップ、画像信号に基づいてシーンを判別するステップ、判別されたシーンに基づいて、録音するための録音条件を設定するステップを実行させる。   The method of setting conditions for recording in a recording apparatus for collecting and recording sound according to the present invention includes a step of capturing an optical image of a subject and outputting it as an image signal, a step of determining a scene based on the image signal, and determination The method comprises a step of setting recording conditions for recording on the basis of the recorded scene. The program of the present invention captures an optical image of a subject and outputs it as an image signal to a processor of an electronic device that includes an imaging means for capturing an optical image of the subject and outputting it as an image signal and a recording means for collecting and recording sound. A step of determining a scene based on the image signal; and a step of setting recording conditions for recording based on the determined scene.

本発明の録音装置によれば、好適な録音条件の設定をより簡単に行うことが出来る。   According to the recording apparatus of the present invention, it is possible to more easily set a suitable recording condition.

本発明の一実施例であるICレコーダの回路構成の一部を示すブロック図である。It is a block diagram which shows a part of circuit structure of the IC recorder which is one Example of this invention. 顔認識処理に用いる各サイズを示す概念図の一例である。It is an example of the conceptual diagram which shows each size used for a face recognition process. 被写体Aの撮像画像に対して顔認識処理及びパターン認識処理において検出される顔及びサイズを示す概念図の一例である。It is an example of a conceptual diagram showing a face and a size detected in a face recognition process and a pattern recognition process for a captured image of a subject A. 被写体Aの撮像画像に対して空間認識処理において検出した幅を示す概念図の一例である。It is an example of a conceptual diagram showing a width detected in a space recognition process for a captured image of subject A. 被写体Bの撮像画像に対して顔認識処理及びパターン認識処理において検出される顔及びサイズを示す概念図の一例である。FIG. 3 is an example of a conceptual diagram illustrating a face and a size detected in a face recognition process and a pattern recognition process on a captured image of a subject B. 被写体Cの撮像画像に対して顔認識処理及びパターン認識処理において検出される顔及びサイズを示す概念図の一例である。4 is an example of a conceptual diagram showing a face and a size detected in a face recognition process and a pattern recognition process for a captured image of a subject C. FIG. 被写体Cの撮像画像に対して空間認識処理において検出した幅を示す概念図の一例である。It is an example of a conceptual diagram showing a width detected in space recognition processing for a captured image of subject C. 被写体Dの撮像画像に対して顔認識処理及びパターン認識処理において検出される顔及びサイズを示す概念図の一例である。FIG. 3 is an example of a conceptual diagram illustrating a face and a size detected in a face recognition process and a pattern recognition process on a captured image of a subject D. 被写体Dの撮像画像に対して空間認識処理において検出した幅を示す概念図の一例である。It is an example of a conceptual diagram showing a width detected in space recognition processing for a captured image of subject D. LCD28に表示される口述シーンモードを示す画面の一例である。It is an example of the screen which shows the dictation scene mode displayed on LCD28. LCD28に表示される会議シーンモードを示す画面の一例である。It is an example of the screen which shows the meeting scene mode displayed on LCD28. LCD28に表示される講義シーンモードを示す画面の一例である。It is an example of the screen which shows the lecture scene mode displayed on LCD28. LCD28に表示される音楽シーンモードを示す画面の一例である。It is an example of the screen which shows the music scene mode displayed on LCD28. 顔認識処理、空間認識処理及びパターン認識処理の結果と推奨される録音シーンとの関係を示す認識テーブルである。It is a recognition table which shows the relationship between the result of face recognition processing, space recognition processing, and pattern recognition processing, and a recommended recording scene. 各録音シーンと録音機能のパラメータとの関係を示す録音シーンテーブルである。It is a recording scene table which shows the relationship between each recording scene and the parameter of a recording function. オートシーンセレクト機能における処理を実行するタスクの一例を示すフローチャートである。It is a flowchart which shows an example of the task which performs the process in an auto scene select function.

以下、本発明の録音装置の一実施例として、ICレコーダ10に実施した形態につき、図面に沿って具体的に説明する。   Hereinafter, the embodiment implemented in the IC recorder 10 will be described in detail with reference to the drawings as an embodiment of the recording apparatus of the present invention.

図1は、本実施例のICレコーダ10のブロック図を示している。ICレコーダ10は、少なくとも光学レンズを含むレンズ群16、図示しない絞り、CMOSイメージャユニット18、信号処理回路20、CPU22、操作部24、LCD(Liquid Crystal Display)28、外部メモリカード制御回路30、SDRAM32、外部メモリカード34、フラッシュメモリ36、バス38、コーデック40、マイク部42、スピーカ44、DSP(Digital Signal Processor)46及びアンプ48を含んで構成されている。   FIG. 1 shows a block diagram of an IC recorder 10 of this embodiment. The IC recorder 10 includes a lens group 16 including at least an optical lens, a diaphragm (not shown), a CMOS imager unit 18, a signal processing circuit 20, a CPU 22, an operation unit 24, an LCD (Liquid Crystal Display) 28, an external memory card control circuit 30, and an SDRAM 32. , An external memory card 34, a flash memory 36, a bus 38, a codec 40, a microphone unit 42, a speaker 44, a DSP (Digital Signal Processor) 46, and an amplifier 48.

マイク部42は、無指向性マイクロフォン42L及び無指向性マイクロフォン42Rを含む。マイク部42で集音された音声は、アナログ音声信号として出力され、マイク部42に接続されるコーデック40へ入力される。コーデック40は、入力されたアナログ音声信号に対し所定のデジタル処理を施し、デジタル音声信号を出力する。   The microphone unit 42 includes an omnidirectional microphone 42L and an omnidirectional microphone 42R. The sound collected by the microphone unit 42 is output as an analog audio signal and input to the codec 40 connected to the microphone unit 42. The codec 40 performs predetermined digital processing on the input analog audio signal and outputs a digital audio signal.

バス38は、CPU22とフラッシュメモリ36に接続される。CPU22はフラッシュメモリ36に格納されているプログラムを実行することにより、ICレコーダ10の各回路及び各部を制御する。ICレコーダ10は、複数の録音機能を備えており、CPU22は、該録音機能に対して設定されたパラメータに基づいて処理を実行する。   The bus 38 is connected to the CPU 22 and the flash memory 36. The CPU 22 controls each circuit and each part of the IC recorder 10 by executing a program stored in the flash memory 36. The IC recorder 10 has a plurality of recording functions, and the CPU 22 executes processing based on parameters set for the recording functions.

バス38には、CPU22及びフラッシュメモリ36のほか、CMOSイメージャユニット18、信号処理回路20、LCD28、外部メモリカード制御回路30、SDRAM32、コーデック40及びDSP46が接続されている。   In addition to the CPU 22 and flash memory 36, the CMOS imager unit 18, signal processing circuit 20, LCD 28, external memory card control circuit 30, SDRAM 32, codec 40, and DSP 46 are connected to the bus 38.

さて、SDRAM32に格納されたデジタル音声信号がファイル形式としてMP3形式で圧縮される場合、デジタル音声信号はSDRAM32からDSP46へ出力される。DSP46は、入力されたデジタル音声信号に対してMP3形式で圧縮処理を施し、SDRAM32へMP3音声圧縮データとして一旦格納する。そして、CPU22は外部メモリコントローラ30を制御して、SDRAM32に格納されているMP3音声圧縮データを音声ファイルとして外部メモリカード34へ記録する。   When the digital audio signal stored in the SDRAM 32 is compressed in the MP3 format as a file format, the digital audio signal is output from the SDRAM 32 to the DSP 46. The DSP 46 compresses the input digital audio signal in the MP3 format, and temporarily stores it in the SDRAM 32 as MP3 audio compression data. Then, the CPU 22 controls the external memory controller 30 to record the MP3 audio compression data stored in the SDRAM 32 as an audio file on the external memory card 34.

なお、ファイル形式としてPCM方式が採用された場合は、SDRAM32に格納されているデジタル音声信号は、音声ファイルとして外部メモリカード制御回路30の制御のもと、外部メモリカード34へ記録される。   When the PCM method is adopted as the file format, the digital audio signal stored in the SDRAM 32 is recorded on the external memory card 34 as an audio file under the control of the external memory card control circuit 30.

以上のように、マイク部42で集音された音声が外部メモリカード34へ記録される処理を“録音”と定義する。   As described above, the process in which the sound collected by the microphone unit 42 is recorded in the external memory card 34 is defined as “recording”.

外部メモリカード34に記録された音声ファイルを再生する際には、外部メモリカード制御回路30の制御のもと、外部メモリカード34に記録された音声ファイルが読み出される。読み出された音声ファイルがMP3圧縮音声データを含む場合は、DSP46へ入力され、伸張処理が施されて伸張デジタル音声信号としてコーデック40へ出力される。コーデック40では伸張デジタル音声信号を処理してアナログ再生信号としてアンプ48へ出力する。アンプ48では、アナログ再生信号に対してゲイン調整を施した後、スピーカ44へ出力し、スピーカ44はゲイン調整が施されたアナログ再生信号を音声として出力する。   When playing back an audio file recorded on the external memory card 34, the audio file recorded on the external memory card 34 is read under the control of the external memory card control circuit 30. When the read audio file includes MP3 compressed audio data, it is input to the DSP 46, subjected to expansion processing, and output to the codec 40 as an expanded digital audio signal. The codec 40 processes the expanded digital audio signal and outputs it to the amplifier 48 as an analog reproduction signal. The amplifier 48 adjusts the gain of the analog reproduction signal and then outputs it to the speaker 44. The speaker 44 outputs the analog reproduction signal subjected to the gain adjustment as sound.

以上のように、外部メモリカード34に記録された音声ファイルがスピーカ44から音声として出力されるまでの処理を“再生”と定義する。   As described above, the process until the audio file recorded in the external memory card 34 is output as audio from the speaker 44 is defined as “reproduction”.

操作部24はCPU22と接続されており、録音機能のパラメータを設定するための設定画面を呼び出すなどのさまざまなメニューを表示するためのメニューキー24a、音声ファイルの再生処理を開始するための再生ボタン24b、音声の録音処理を開始するための録音ボタン24c、LCD28上に表示されるカーソルを移動させるためのカーソルキー24d、各機能の実行を決定するためのセットボタン24e、再生処理又は録音処理を停止するための停止ボタン24f及びオートシーンセレクト機能を有効化するためのオートシーンセレクトボタン24gを含む。   The operation unit 24 is connected to the CPU 22 and has a menu key 24a for displaying various menus such as calling a setting screen for setting parameters of the recording function, and a playback button for starting playback processing of the audio file. 24b, a recording button 24c for starting a voice recording process, a cursor key 24d for moving a cursor displayed on the LCD 28, a set button 24e for determining execution of each function, a reproduction process or a recording process A stop button 24f for stopping and an auto scene select button 24g for enabling the auto scene select function are included.

ICレコーダ10に電源が投入されると、ICレコーダ10は録音スタンバイ状態に移行する。録音スタンバイ状態において、メニューキー24aが操作されると、録音機能のパラメータを設定する設定画面が呼び出される。使用者はカーソルキー24dやセットボタン24eを操作することにより、設定画面において所望する録音機能のパラメータの設定が可能である。なお、パラメータとして、各録音機能自体のオン/オフも含むものとして説明を続ける。   When the IC recorder 10 is powered on, the IC recorder 10 shifts to a recording standby state. When the menu key 24a is operated in the recording standby state, a setting screen for setting recording function parameters is called up. The user can set desired recording function parameters on the setting screen by operating the cursor key 24d and the set button 24e. The description will be continued assuming that each recording function itself is turned on / off as a parameter.

録音機能について詳細に説明する。音声を圧縮する比率を設定する“圧縮比率”機能、マイクロフォン42L、42Rのマイク感度を設定する“MIC感度”機能、音声信号の振幅を自動調整する自動レベル制御(Automatic Level Control)を示す“ALC” 機能、所定周波数以下の音声をカットするためのローカットフィルタを示す“LowCut”機能、突然の過大入力を抑制するためのピークリミッタを示す“ピークリミッタ” 機能、録音ボタン24cが押下された後に指定した時間が経過すると録音を開始する機能である“セルフタイマ”機能及び無音部分の録音を一時停止するボイスアクティベートシステムを示す“VAS” 機能がある。   The recording function will be described in detail. “ALC” indicating “compression ratio” function for setting the ratio for compressing the sound, “MIC sensitivity” function for setting the microphone sensitivity of the microphones 42L and 42R, and automatic level control for automatically adjusting the amplitude of the audio signal. ”Function,“ LowCut ”function indicating a low cut filter for cutting audio below a predetermined frequency,“ Peak limiter ”function indicating a peak limiter for suppressing sudden excessive input, specified after the recording button 24c is pressed There is a “self-timer” function, which is a function for starting recording when a predetermined time has elapsed, and a “VAS” function, which indicates a voice activation system for temporarily stopping recording of a silent part.

“圧縮比率”機能のパラメータとして、MP3方式である32kbps、64kbps、192kbps、320kbps及びPCM方式である48kHz16bitが用意されており、それらの中から1つ選択可能である。なお、32kbpsとは、1秒間に32キロビットのデータを送れるかを示すデータ通信の速度を表し、48kHz16bitとは、サンプリング周波数48kHz量子化ビットレート16bitを表している。   As parameters of the “compression ratio” function, 32 kbps, 64 kbps, 192 kbps, 320 kbps, which are MP3 systems, and 48 kHz, 16 bits, which are PCM systems, are prepared, and one of them can be selected. Note that 32 kbps represents the speed of data communication indicating whether 32 kilobits of data can be sent per second, and 48 kHz 16 bits represents the sampling frequency 48 kHz quantization bit rate 16 bits.

“MIC感度”機能のパラメータとして、Low又はHiが用意されており、それらの中から1つ選択可能である。Lowが選択された場合はマイク感度が低く、Hiが選択された場合はマイク感度が高くなる。   Low or Hi is prepared as a parameter of the “MIC sensitivity” function, and one of them can be selected. The microphone sensitivity is low when Low is selected, and the microphone sensitivity is high when Hi is selected.

“ALC”機能のパラメータとしてオン又はオフが選択可能である。オンが選択された場合は自動レベル制御が有効化され、オフが選択された場合は無効化される。   On or off can be selected as a parameter of the “ALC” function. Automatic level control is enabled when on is selected, and disabled when off is selected.

“LowCut”機能のパラメータとして、オン又はオフが選択可能である。オンが選択された場合はローカットフィルタが有効化され、オフが選択された場合は無効化される。   On or off can be selected as a parameter of the “LowCut” function. When on is selected, the low cut filter is enabled, and when off is selected, it is disabled.

“ピークリミッタ”機能のパラメータとして、オン又はオフが選択可能である。オンが選択された場合はピークリミッタが有効化され、オフが選択された場合は無効化される。   On or off can be selected as a parameter of the “peak limiter” function. The peak limiter is enabled when on is selected, and is disabled when off is selected.

“VAS”機能のパラメータとして、オン又はオフが選択可能である。オンが選択された場合はボイスアクティベートシステムが有効化され、オフが選択された場合は無効化される。   On or off can be selected as a parameter of the “VAS” function. The voice activation system is activated when on is selected, and is deactivated when off is selected.

また、ICレコーダ10は、予め複数の録音シーンを想定し録音シーンを指定することにより録音シーン夫々に対して設定されている録音機能のパラメータを自動的に有効化するシーンセレクト機能を備えている。   Further, the IC recorder 10 includes a scene selection function that automatically enables a recording function parameter set for each recording scene by designating the recording scene assuming a plurality of recording scenes in advance. .

図15は、録音シーンに対して夫々設定されている録音機能のパラメータを示した録音シーンテーブルを表わしている。録音シーンテーブルは、フラッシュメモリ36に格納されている。シーンセレクト機能において、使用者によって口述シーンが選択された場合、圧縮比率を64kbps、MIC感度をLow、ALCをオン、LowCutをオン、ピークリミッタをオフ、セルフタイマをオフ及びVASをオフになるよう設定され、図10に示すような口述シーンを示す画面がLCD28に表示される。   FIG. 15 shows a recording scene table showing the parameters of the recording function set for each recording scene. The recording scene table is stored in the flash memory 36. When the dictation scene is selected by the user in the scene selection function, the compression ratio is 64 kbps, the MIC sensitivity is low, the ALC is on, the low cut is on, the peak limiter is off, the self timer is off, and the VAS is off. The screen showing the dictation scene as shown in FIG.

同様に会議シーンが選択されると、CPU22は録音シーンテーブルを参照して録音機能のパラメータを設定し、図11に示すような会議シーンを示す画面をLCD28に表示させる。講義シーンが選択されると、CPU22は録音シーンテーブルを参照して録音機能のパラメータを設定し、図12に示すような講義シーンを示す画面をLCD28に表示させる。音楽シーンが選択されると、録音シーンテーブルを参照して録音機能のパラメータを設定し、図13に示すような音楽シーンを示す画面をLCD28に表示させる。   Similarly, when a conference scene is selected, the CPU 22 refers to the recording scene table, sets parameters for the recording function, and causes the LCD 28 to display a screen showing the conference scene as shown in FIG. When a lecture scene is selected, the CPU 22 refers to the recording scene table, sets parameters for the recording function, and causes the LCD 28 to display a screen showing the lecture scene as shown in FIG. When a music scene is selected, the recording function parameters are set with reference to the recording scene table, and a screen showing the music scene as shown in FIG.

また、録音スタンバイ状態において、録音ボタン24cが押下されると、CPU22は、設定されたパラメータに基づいて録音を開始させ、停止ボタン24fが押下されることにより録音を終了する。また、録音スタンバイ状態において、再生ボタン24bが押下されると、CPU22は、音声ファイルの再生を開始させ、停止ボタン24fが押下されることにより、再生を終了する。   In the recording standby state, when the recording button 24c is pressed, the CPU 22 starts recording based on the set parameters, and ends recording when the stop button 24f is pressed. When the playback button 24b is pressed in the recording standby state, the CPU 22 starts playback of the audio file, and ends playback by pressing the stop button 24f.

更に、録音スタンバイ状態において、オートシーンセレクトボタン24gが押下されると、CPU22はオートシーンセレクト機能を実行する。オートシーンセレクト機能とは、ICレコーダ10が持つ撮像機能を利用して得られた撮像画像に基づいて推奨する録音シーンを特定する機能である。そして、録音シーンテーブルが参照され、特定された録音シーンに対応する録音機能のパラメータが自動的に設定される。   Further, when the auto scene select button 24g is pressed in the recording standby state, the CPU 22 executes the auto scene select function. The auto scene selection function is a function for specifying a recommended recording scene based on a captured image obtained by using the imaging function of the IC recorder 10. Then, the recording scene table is referred to and the recording function parameters corresponding to the specified recording scene are automatically set.

以下に、オートシーンセレクト機能について詳細に説明する。   The auto scene select function will be described in detail below.

オートシーンセレクトボタン24gが押下されると、ICレコーダ10において撮像が開始され、撮像画像が取得される。具体的には、被写体の光学像はCPU22による指示によって、図示しないモータ駆動部に制御されたレンズ群16及び絞りを通して、CMOSイメージャユニット18に取り込まれる。CPU22に接続された図示しないタイミングジェネレータによって与えられる取り込みパルスによって、CMOSイメージャユニット18から1フレーム分のデジタル撮像信号が出力される。   When the auto scene select button 24g is pressed, the IC recorder 10 starts imaging and acquires a captured image. Specifically, the optical image of the subject is taken into the CMOS imager unit 18 through the lens group 16 and the aperture controlled by a motor driving unit (not shown) according to an instruction from the CPU 22. A digital image pickup signal for one frame is output from the CMOS imager unit 18 by a capture pulse provided by a timing generator (not shown) connected to the CPU 22.

CMOSイメージャユニット18では、各画素で蓄積した電荷を増幅し、各画素から配線を使用して信号として読み出しを行い、該信号に対して、相関2重サンプリング処理、ゲイン調整、クランプ処理、A/D変換処理を施す。該処理が施されたデジタル撮像信号は、画素毎にR、G、Bのいずれかの色信号を有し、CPU22の制御によって、バス38を介してSDRAM32に一旦格納される。   The CMOS imager unit 18 amplifies the charge accumulated in each pixel, reads out the signal from each pixel as a signal, and performs correlated double sampling processing, gain adjustment, clamping processing, A / D conversion processing is performed. The digital image signal subjected to the processing has one of R, G, and B color signals for each pixel, and is temporarily stored in the SDRAM 32 via the bus 38 under the control of the CPU 22.

なお、本実施例では、イメージセンサとしてCMOSイメージャユニット18を採用した形態で説明するが、CCDイメージャを採用しても良い。CCDイメージャを採用した場合は、相関2重サンプリング処理、ゲイン調整、クランプ処理、A/D変換処理を含むAFE回路が追加される。   In this embodiment, the CMOS imager unit 18 is used as the image sensor. However, a CCD imager may be used. When a CCD imager is employed, an AFE circuit including correlated double sampling processing, gain adjustment, clamping processing, and A / D conversion processing is added.

SDRAM32に一旦格納されたデジタル撮像信号は、CPU22の制御によって信号処理回路20へ入力される。信号処理回路20では、入力されたデジタル撮像信号に対して色分離処理を施し、更にYUV変換により、Y、U、V信号に変換する。そして、信号処理回路20で変換されたデジタル画像信号は、バス38を介して、再びSDRAM32へ格納される。このように、被写体の光学像がさまざまな処理を経てSDRAM32に格納されるまでを撮像処理と定義する。   The digital imaging signal once stored in the SDRAM 32 is input to the signal processing circuit 20 under the control of the CPU 22. The signal processing circuit 20 performs color separation processing on the input digital imaging signal, and further converts it into Y, U, and V signals by YUV conversion. Then, the digital image signal converted by the signal processing circuit 20 is stored in the SDRAM 32 again via the bus 38. Thus, the process until the optical image of the subject is stored in the SDRAM 32 through various processes is defined as an imaging process.

さて、撮像処理において得られた1フレーム分のデジタル画像信号に対して、CPU22は所定の形状をした物体を検出する処理を実行する。より具体的には、顔を検出する顔認識処理及び楽器及び人の後頭部を検出するパターン認識処理を行う。顔認識処理及びパターン認識処理では、デジタル画像信号の中から、テンプレートとして用意されている複数の顔テンプレート、複数の楽器テンプレート又は複数の後頭部テンプレートとマッチングを行う。マッチしたテンプレートがデジタル画像信号のどこに位置するかを特定することによって、顔及び又は楽器及び又は後頭部が検出される。   Now, the CPU 22 executes processing for detecting an object having a predetermined shape with respect to the digital image signal for one frame obtained in the imaging processing. More specifically, a face recognition process for detecting a face and a pattern recognition process for detecting a musical instrument and a human head are performed. In the face recognition processing and pattern recognition processing, matching is performed with a plurality of face templates, a plurality of instrument templates, or a plurality of occipital templates prepared as templates from the digital image signal. By identifying where the matched template is located in the digital image signal, the face and / or instrument and / or back of the head is detected.

検出された顔及び又は楽器及び又は後頭部に対し、CPU22は夫々のサイズを認識する。サイズは6種類に分かれており、図2は画像サイズが5インチであるときに対応する6つのサイズを図示したものである。1番小さいサイズを1とし、次に2、3、4、5と続き1番大きいサイズを6とする。ここでは、サイズ1は縦1.2cm×横1cmとしているが、サイズはこれに限定されない。   For the detected face and / or musical instrument and / or back of the head, the CPU 22 recognizes the respective sizes. The sizes are divided into six types, and FIG. 2 illustrates the six sizes corresponding to the image size of 5 inches. The smallest size is set to 1, then 2, 3, 4, 5 and so on, and the largest size is set to 6. Here, the size 1 is 1.2 cm long × 1 cm wide, but the size is not limited to this.

なお便宜上、図3−図9で示される撮像画像A、B、C、Dの画像サイズを5インチとし、それに対応する6つのサイズを用いて説明する。   For convenience, the image sizes of the captured images A, B, C, and D shown in FIGS. 3 to 9 are assumed to be 5 inches, and description will be made using six sizes corresponding thereto.

次に、検出された顔及び又は楽器及び又は後頭部が複数存在する場合には、CPU22は、夫々がどれくらい離れているかを示す離れ具合を検出する。離れ具合は、顔及び又は楽器及び又は後頭部の中心から互いに最も近い顔及び又は楽器及び又は後頭部の中心までの幅を測定し、夫々測定された幅の中で最大の幅を検出する。この離れ具合を検出する処理を“空間認識処理”と定義する。   Next, when there are a plurality of detected faces and / or musical instruments and / or occipital heads, the CPU 22 detects the degree of separation indicating how far away each is. The degree of separation measures the width from the center of the face and / or the instrument and / or the back of the head to the center of the face and / or the instrument and / or the back of the head closest to each other, and detects the maximum width among the measured widths. The process of detecting the degree of separation is defined as “space recognition process”.

CPU22は、顔検出処理、パターン検出処理及び空間認識処理に基づき、フラッシュメモリ36に格納されている認識テーブルを参照して、推奨する録音シーンを決定する。認識テーブルは図14に示すように録音シーンと顔認識処理、パターン認識処理及び空間認識処理の結果が対応付けられている。   Based on the face detection process, the pattern detection process, and the space recognition process, the CPU 22 refers to the recognition table stored in the flash memory 36 and determines a recommended recording scene. As shown in FIG. 14, the recognition table associates recording scenes with the results of face recognition processing, pattern recognition processing, and space recognition processing.

CPU22は、顔認識処理の結果、顔の個数が1つでサイズが5又は6であり、パターン認識処理の結果、何も認識されなかったことが分かると、認識テーブルを参照して、推奨する録音シーンは口述シーンであると決定する。   If the CPU 22 finds that the number of faces is one and the size is 5 or 6 as a result of the face recognition process and that nothing has been recognized as a result of the pattern recognition process, the CPU 22 recommends referring to the recognition table. The recording scene is determined to be an dictation scene.

顔認識処理の結果、顔の個数が2つ以上でサイズが3−6のいずれかであり、空間認識処理の結果、最大幅が0−5cmのいずれかに該当し、パターン認識処理の結果、楽器が認識されなかったことが分かると、推奨する録音シーンは会議シーンであると決定する。この場合、後頭部が検出されてもされなくても推奨する録音シーンは会議シーンであると決定される。   As a result of the face recognition process, the number of faces is two or more and the size is any of 3-6, and as a result of the space recognition process, the maximum width corresponds to any of 0-5 cm, the result of the pattern recognition process, If it is found that the instrument has not been recognized, it is determined that the recommended recording scene is a conference scene. In this case, it is determined that the recommended recording scene is the conference scene regardless of whether the back of the head is detected.

顔認識処理の結果、顔の個数が1つでサイズが1又は2であり、空間認識の結果、最大幅が0−5cmに該当することが分かり、パターン認識処理の結果、楽器が検出されず後頭部を検出した場合、推奨する録音シーンは講義シーンであると決定する。   As a result of the face recognition process, it is found that the number of faces is one and the size is 1 or 2, and as a result of the space recognition, the maximum width corresponds to 0-5 cm. As a result of the pattern recognition process, no instrument is detected. When the back of the head is detected, it is determined that the recommended recording scene is a lecture scene.

顔認識処理の結果、顔の個数が1つ以上でサイズが1−6であり、空間認識の結果、最大幅が0〜12cmに該当することが分かり、パターン認識処理の結果、楽器が検出した場合、推奨する録音シーンは音楽シーンであると決定する。この場合、後頭部が検出されてもされなくても推奨する録音シーンは音楽シーンであると決定される。   As a result of the face recognition process, the number of faces is 1 or more and the size is 1-6. As a result of the space recognition, it is found that the maximum width corresponds to 0 to 12 cm. The recommended recording scene is a music scene. In this case, it is determined that the recommended recording scene is a music scene regardless of whether or not the back of the head is detected.

なお、顔認識処理、空間認識処理及びパターン認識処理の結果、図15に示す認識テーブルに該当しないことが分かった場合には、LCD28に“シーンが見つけられません”等の表示をしても良い。   If it is found as a result of the face recognition process, the space recognition process and the pattern recognition process that it does not correspond to the recognition table shown in FIG. 15, even if “Scene is not found” is displayed on the LCD 28. good.

図3は、推奨する録音シーンが会議シーンであると決定され得る撮像画像Aを示している。CPU22による顔認識処理及びパターン認識処理の結果、図3に示すように、撮像画像Aのデジタル画像信号からサイズ2の顔w、x、サイズ3の顔y及びサイズ4の顔zが検出され、楽器は検出されないこととなる。空間認識処理の結果、図4に示すように、顔wと顔x間の幅K1=4cm、顔xと顔y間の幅K2=2cm及び顔yと顔z間の幅K3=3cmが検出されると、最大幅は4cmとして決定される。この検出結果からCPU22は図14の認識テーブルを参照して、推奨する録音シーンは会議シーンであると決定する。   FIG. 3 shows a captured image A that can be determined that the recommended recording scene is a conference scene. As a result of the face recognition process and the pattern recognition process performed by the CPU 22, as shown in FIG. 3, a size 2 face w, x, a size 3 face y, and a size 4 face z are detected from the digital image signal of the captured image A. The instrument will not be detected. As a result of the spatial recognition processing, as shown in FIG. 4, a width K1 = 4 cm between the face w and the face x, a width K2 = 2 cm between the face x and the face y, and a width K3 = 3 cm between the face y and the face z are detected. Then, the maximum width is determined as 4 cm. From this detection result, the CPU 22 refers to the recognition table of FIG. 14 and determines that the recommended recording scene is a conference scene.

図5は、推奨する録音シーンが口述シーンであると決定され得る撮像画像Bを示している。CPU22による顔認識処理及びパターン認識処理の結果、図5に示すように、撮像画像Bのデジタル画像信号からサイズ6の顔vが検出され、楽器は検出されないこととなる。CPU22はこの検出結果から図14の認識テーブルを参照して、推奨する録音シーンは口述シーンであると決定する。   FIG. 5 shows a captured image B that can be determined that the recommended recording scene is an dictation scene. As a result of the face recognition process and the pattern recognition process by the CPU 22, as shown in FIG. 5, the face v of size 6 is detected from the digital image signal of the captured image B, and no musical instrument is detected. From this detection result, the CPU 22 refers to the recognition table in FIG. 14 and determines that the recommended recording scene is an dictation scene.

図6は、推奨する録音シーンが講義シーンであると決定され得る撮像画像Cを示している。CPU22による顔認識処理及びパターン認識の結果、図6に示すように、撮像画像Cのデジタル画像信号からサイズ1の顔tが検出され、後頭部l、m、nが検出される。なお、顔tはサイズ1よりも小さいが、CPU22はサイズ1−6の中で直近のサイズに割り当てる。空間認識処理の結果、図7にすように、顔tと後頭部l間の幅K4=4cm、後頭部lと後頭部m間の幅K5=2.5cm及び後頭部mと後頭部n間の幅K6=2cmが検出され、最大幅は4cmとして決定される。CPU22は、この検出結果から図14の認識テーブルを参照して、推奨するシーンは講義シーンであると決定する。   FIG. 6 shows a captured image C that can be determined that the recommended recording scene is a lecture scene. As a result of the face recognition processing and pattern recognition by the CPU 22, as shown in FIG. 6, a size t face t is detected from the digital image signal of the captured image C, and the occipital region l, m, n is detected. Note that the face t is smaller than the size 1, but the CPU 22 assigns the most recent size among the sizes 1-6. As a result of the space recognition processing, as shown in FIG. 7, the width K4 between the face t and the back of the head 1 is 4 cm, the width K5 between the back of the head 1 and the back of the head m is 2.5 cm, and the width of the back of the head m and the back of the head n is K6 = 2 cm. Is detected and the maximum width is determined as 4 cm. From this detection result, the CPU 22 refers to the recognition table in FIG. 14 and determines that the recommended scene is a lecture scene.

図8は、推奨する録音シーンが音楽シーンであると決定され得る撮像画像Dを示している。CPU22による顔認識処理及びパターン認識処理の結果、図8に示すように撮像画像Dのデジタル画像信号からサイズ1の顔e、f、g、hが検出され、後頭部iが検出され、楽器o、p、q、r、sが検出される。空間認識処理の結果、図9に示すように、顔hと楽器r間の幅K7=1.5cm、顔gと楽器q間の幅K8=1.5cm、顔fと楽器p間の幅K9=1.5cm及び後頭部iと楽器s間の幅=0cmが検出され、最大幅は1.5cmとして決定される。CPU22は、この検出結果から図14の認識テーブルを参照して、推奨するシーンは音楽シーンであると決定する。   FIG. 8 shows a captured image D that can be determined that the recommended recording scene is a music scene. As a result of the face recognition process and the pattern recognition process by the CPU 22, as shown in FIG. 8, the face e, f, g, h of size 1 is detected from the digital image signal of the captured image D, the occipital region i is detected, the instrument o, p, q, r, and s are detected. As a result of the space recognition processing, as shown in FIG. 9, the width K7 = 1.5 cm between the face h and the instrument r, the width K8 = 1.5 cm between the face g and the instrument q, and the width K9 between the face f and the instrument p. = 1.5 cm and the width between the occipital area i and the instrument s = 0 cm is detected, and the maximum width is determined as 1.5 cm. The CPU 22 determines that the recommended scene is a music scene with reference to the recognition table of FIG. 14 based on the detection result.

推奨される録音シーンが決定されると、CPU22は、LCD28に推奨される録音シーンに対応する録音シーンの画面を表示させる。推奨される録音シーンが口述シーンの場合には、図10に示すような口述シーンを示す画面が表示される。推奨される録音シーンが会議シーンの場合には、図11に示すような会議シーンを示す画面が表示される。推奨される録音シーンが講義シーンの場合には、図12に示すような会議シーンを示す画面が表示される。推奨される録音シーンが音楽シーンの場合には、図13に示すような音楽シーンを示す画面が表示される。   When the recommended recording scene is determined, the CPU 22 causes the LCD 28 to display a recording scene screen corresponding to the recommended recording scene. When the recommended recording scene is an dictation scene, a screen showing the dictation scene as shown in FIG. 10 is displayed. When the recommended recording scene is a conference scene, a screen showing the conference scene as shown in FIG. 11 is displayed. When the recommended recording scene is a lecture scene, a screen showing a conference scene as shown in FIG. 12 is displayed. If the recommended recording scene is a music scene, a screen showing the music scene as shown in FIG. 13 is displayed.

そして、CPU22は、録音シーンテーブルを参照して推奨する録音シーンに対応する録音機能のパラメータを設定する。そして、録音ボタン24cが押下された場合は、CPU22は推奨する録音シーンに対応する録音機能のパラメータを録音条件として録音を開始する。   Then, the CPU 22 sets the recording function parameters corresponding to the recommended recording scene with reference to the recording scene table. When the recording button 24c is pressed, the CPU 22 starts recording using the recording function parameters corresponding to the recommended recording scene as recording conditions.

録音機能のパラメータをカスタマイズする場合には、LCD28に録音シーンの画面が表示されてから所定時間内に、使用者によってメニューキー24aが操作されることによりパラメータを変更する画面へと遷移させ、カーソルキー24dやセットボタン24eが操作されることによって所望のパラメータに変更することが出来る。なお、所望のパラメータの変更例としては、ALC機能のパラメータをオンからオフに変更したり、圧縮比率機能のパラメータを64kbpsから192kbpsに変更することが挙げられる。そして、録音ボタン24cが押下されることによって、設定されたパラメータを録音条件として録音が開始される。   When customizing the parameters of the recording function, the screen is changed to a screen for changing the parameters by operating the menu key 24a by the user within a predetermined time after the screen of the recording scene is displayed on the LCD 28, and the cursor It can be changed to a desired parameter by operating the key 24d or the set button 24e. Note that examples of changing the desired parameter include changing the parameter of the ALC function from on to off, and changing the parameter of the compression ratio function from 64 kbps to 192 kbps. When the recording button 24c is pressed, recording is started using the set parameters as recording conditions.

次に図16に示すオートシーンセレクトタスクのフローチャートを参照して、上述したオートシーンセレクト機能を実現するための処理を説明する。このタスクは、フラッシュメモリ36に格納されている夫々のプログラムに基づいてCPU22が実行する。   Next, processing for realizing the above-described auto scene selection function will be described with reference to the flowchart of the auto scene selection task shown in FIG. This task is executed by the CPU 22 based on each program stored in the flash memory 36.

電源が投入され、オートシーンセレクトボタン24gが押下されるとオートシーンセレクトタスクが起動する。まずステップS101において、CPU22は1フレームの撮像処理を行う。次のステップS103では、撮像処理によって得られたデジタル画像信号に対してCPU22は顔認識処理を実行し、次のステップS105では空間認識処理を実行する。次のステップS107ではパターン認識処理を実行する。次のステップS109では、CPU22は、顔認識処理、空間認識処理及びパターン認識処理の結果に基づいて、認識テーブルを参照して推奨する録音シーンを決定し、次のステップS111では、推奨する録音シーンに対応する録音機能のパラメータを設定して、推奨する録音シーンの画面をLCD28に表示する。   When the power is turned on and the auto scene select button 24g is pressed, the auto scene select task is activated. First, in step S101, the CPU 22 performs an imaging process for one frame. In the next step S103, the CPU 22 performs a face recognition process on the digital image signal obtained by the imaging process, and in the next step S105, executes a space recognition process. In the next step S107, pattern recognition processing is executed. In the next step S109, the CPU 22 determines a recommended recording scene with reference to the recognition table based on the results of the face recognition process, the space recognition process, and the pattern recognition process. In the next step S111, the recommended recording scene is determined. The parameter of the recording function corresponding to is set, and the screen of the recommended recording scene is displayed on the LCD 28.

次のステップS113では、推奨する録音シーンの画面が表示されてから所定時間内にメニューキー24aが操作され、カーソルキー24d及びセットボタン24eの操作によりパラメータ変更の操作があったか否かを判別する。ステップS113においてYESと判別されると、ステップS115へ進みパラメータの変更を行った後、本タスクを終了する。また、ステップS113においてNOと判断された場合も、本タスクを終了する。   In the next step S113, it is determined whether or not the menu key 24a is operated within a predetermined time after the screen of the recommended recording scene is displayed, and the parameter key is changed by operating the cursor key 24d and the set button 24e. If YES is determined in the step S113, the process proceeds to a step S115 to change the parameters, and then the present task is terminated. Also, if NO is determined in step S113, this task is terminated.

上述したように、本実施例によるICレコーダ10によれば、使用者はオートシーンセレクトボタン24gを押下するだけで、ICレコーダ10自身で推奨する録音シーンを判別し、該録音シーンに対応する録音機能のパラメータを設定するため、より簡単にかつ好適な録音条件で録音をすることが出来る。また、撮像画像から推奨する録音シーンが判別されるため、判別の精度がより高くなる。   As described above, according to the IC recorder 10 according to the present embodiment, the user discriminates the recording scene recommended by the IC recorder 10 only by pressing the auto scene select button 24g, and the recording corresponding to the recording scene. Since the function parameters are set, recording can be performed more easily and under suitable recording conditions. In addition, since the recommended recording scene is determined from the captured image, the determination accuracy becomes higher.

なお、本実施例のICレコーダ10では、オートシーンセレクト機能を実行するためのプログラムが予めフラッシュメモリ36に格納されているが、ICレコーダ10と外部装置とを接続させ、使用者が無線通信や有線通信を介して外部装置が保持するプログラムを取得しても良い。   In the IC recorder 10 of this embodiment, a program for executing the auto scene select function is stored in the flash memory 36 in advance. However, the IC recorder 10 and an external device are connected to each other so that the user can perform wireless communication or You may acquire the program which an external apparatus hold | maintains via wired communication.

また、本実施例では本発明をICレコーダ10に適用させた例を説明したが、デジタルカメラ、PDA、携帯電話及びスマートフォンでも適用可能である。携帯電話及びスマートフォンに適用される場合は、オートシーンセレクト機能を実行するためのプログラム全部または一部を、使用者がインターネット又は電話回線を介してダウンロードされても良い。   In the present embodiment, the example in which the present invention is applied to the IC recorder 10 has been described. However, the present invention can also be applied to a digital camera, a PDA, a mobile phone, and a smartphone. When applied to a mobile phone and a smartphone, the user may download all or a part of the program for executing the auto scene selection function via the Internet or a telephone line.

また、本発明がタッチパネル式のスマートフォンに適用される場合、操作部24の各キー及びボタンの役割は、画面を軽く叩いてすぐ指を離すタップ操作や、指で画面を触れ続ける長押し操作や、画面を軽く払うよう指を動かすフリック操作や、画面に2本以上の指を接しさせ互いの指が離れる方向や近づく方向に動かすスワイプ操作などに対応させても良い。   In addition, when the present invention is applied to a touch panel type smartphone, the role of each key and button of the operation unit 24 is to perform a tap operation in which the user taps the screen and immediately releases the finger, or a long press operation in which the finger touches the screen. Further, a flick operation for moving a finger so as to lightly touch the screen, a swipe operation for touching two or more fingers on the screen and moving the fingers away from each other or approaching each other may be performed.

また、SDRAM32に格納されたデジタル画像信号は、CPU22の制御によりLCD28へ出力しても良い。LCD28は、図示しないLCDドライバを含み、LCDドライバはY、U、V信号をRGB信号に変換して、LCD28にデジタル画像信号に基づく画像を表示させることが出来る。画像をLCD28に表示させると消費電力が増加するため、使用者によるメニューキー24a、カーソルキー24d及びセットボタン24eの操作によって表示モードに設定したときのみ、表示を行ってもよい。   The digital image signal stored in the SDRAM 32 may be output to the LCD 28 under the control of the CPU 22. The LCD 28 includes an LCD driver (not shown). The LCD driver can convert Y, U, and V signals into RGB signals and cause the LCD 28 to display an image based on the digital image signal. Since power consumption increases when an image is displayed on the LCD 28, display may be performed only when the display mode is set by the user operating the menu key 24a, the cursor key 24d, and the set button 24e.

また、実施例では、モニタとしてLCD28を採用した形態を説明したが、有機ELなどの表示デバイスを採用しても良い。   In the embodiment, the LCD 28 is used as a monitor. However, a display device such as an organic EL may be used.

また、顔認識処理、パターン認識処理及び空間認識処理において1フレーム分のデジタル画像信号を認識処理対象としたが、10フレーム分を認識対象としても良い。この場合、認識精度の向上が期待される。   Further, in the face recognition process, the pattern recognition process, and the space recognition process, the digital image signal for one frame is set as a recognition process target, but 10 frames may be set as a recognition target. In this case, improvement in recognition accuracy is expected.

また、本実施例において顔認識処理から得られる顔のサイズの種類として6つ用意したが、顔のサイズや種類はこれに限らない。顔のサイズの種類が多ければ多いほど、推奨する録音シーンの判別精度が向上する。   In this embodiment, six face size types obtained from the face recognition process are prepared. However, the face size and type are not limited to this. The greater the number of face size types, the better the accuracy of discriminating recommended recording scenes.

また、本実施例においてマイク部42に無指向性マイクロフォン42L、42Rを設けたが、更に指向性マイクロフォンを設けても良い。この場合、録音シーンに対して夫々設定されている録音機能のパラメータとして無指向性マイクロフォン42L、42Rと指向性マイクロフォンのオン/オフを追加しても良い。例えば、口述シーンに設定される録音機能のパラメータとして、無指向性マイクロフォン42L、42Rをオフ、指向性マイクロフォンをオンと設定される場合、より一層好適な録音が可能となる。   In the present embodiment, the microphone unit 42 is provided with the non-directional microphones 42L and 42R, but a directional microphone may be further provided. In this case, on / off of the omnidirectional microphones 42L and 42R and the directional microphones may be added as parameters of the recording function set for each recording scene. For example, when the omnidirectional microphones 42L and 42R are set to off and the directional microphone is set to on as the parameters of the recording function set in the dictation scene, even more suitable recording can be performed.

10 ・・・ ICレコーダ
16 ・・・ レンズ群
18 ・・・ CMOSイメージャユニット
20 ・・・ 信号処理回路
22 ・・・ CPU
24 ・・・ 操作部
28 ・・・ LCD
30 ・・・ 外部メモリカード制御回路
32 ・・・ SDRAM
34 ・・・ 外部メモリカード
36 ・・・ フラッシュメモリ
40 ・・・ コーデック
42 ・・・ マイク部
46 ・・・ DSP
DESCRIPTION OF SYMBOLS 10 ... IC recorder 16 ... Lens group 18 ... CMOS imager unit 20 ... Signal processing circuit 22 ... CPU
24 ・ ・ ・ Operation unit 28 ・ ・ ・ LCD
30 ... External memory card control circuit 32 ... SDRAM
34 ... External memory card 36 ... Flash memory 40 ... Codec 42 ... Microphone unit 46 ... DSP

Claims (9)

被写体の光学像を撮像し画像信号として出力する撮像手段と、
前記画像信号に基づいてシーンを判別するシーン判別手段と、
音声を集音し録音する録音手段と、
前記シーン判別手段によって判別されたシーンに基づいて、録音するための録音条件を設定する設定手段とを備える、録音装置。
Imaging means for capturing an optical image of a subject and outputting it as an image signal;
Scene discrimination means for discriminating a scene based on the image signal;
Recording means for collecting and recording audio;
A recording apparatus comprising: setting means for setting a recording condition for recording based on the scene determined by the scene determining means.
前記録音手段を制御して前記設定手段によって設定された録音条件で録音する録音制御手段と、
前記設定手段によって設定された録音条件を変更する変更手段を更に備える、請求項1記載の録音装置。
Recording control means for controlling the recording means to record under the recording conditions set by the setting means;
The recording apparatus according to claim 1, further comprising changing means for changing the recording condition set by the setting means.
前記設定手段によって設定された録音条件を報知する報知手段を更に備えることを特徴とする、請求項1又は2記載の録音装置。   The recording apparatus according to claim 1, further comprising notification means for notifying a recording condition set by the setting means. 前記シーン判別手段は、前記画像信号から物体の数及び又は物体と物体の離れ具合を検出してシーンを判別することを特徴とする請求項1乃至3のいずれかに記載の録音装置。   4. The recording apparatus according to claim 1, wherein the scene discriminating unit discriminates a scene by detecting the number of objects and / or the degree of separation between objects from the image signal. 前記シーン判別手段は、前記画像信号に基づいて人数及び又は人と人の離れ具合を検出してシーンを判別することを特徴とする請求項1乃至4のいずれかに記載の録音装置。   5. The recording apparatus according to claim 1, wherein the scene discrimination unit discriminates a scene by detecting the number of persons and / or the degree of separation between persons based on the image signal. 前記シーン判別手段は、前記画像信号に含まれる顔信号に基づいて人数及び又は人と人の離れ具合を検出してシーンを判別することを特徴とする、請求項5記載の録音装置。   6. The recording apparatus according to claim 5, wherein the scene discriminating unit discriminates a scene by detecting the number of persons and / or the degree of separation between persons based on a face signal included in the image signal. 前記設定手段において前記シーン判別手段によって判別されたシーンに基づいて設定された録音条件は、無指向性のマイクロフォン又は指向性のマイクロフォンを用いて音声を集音する条件を含むことを特徴とする、請求項1乃至6のいずれかに記載の録音装置。
The recording condition set based on the scene determined by the scene determining unit in the setting unit includes a condition for collecting sound using an omnidirectional microphone or a directional microphone. The recording apparatus according to claim 1.
音声を集音し録音する録音装置において録音するための条件を設定する方法であって、
被写体の光学像を撮像し画像信号として出力するステップ、
前記画像信号に基づいてシーンを判別するステップ、
判別されたシーンに基づいて、録音するための録音条件を設定するステップから成る方法。
A method of setting conditions for recording in a recording device that collects and records audio,
Capturing an optical image of a subject and outputting it as an image signal;
Determining a scene based on the image signal;
A method comprising the steps of setting recording conditions for recording based on the determined scene.
被写体の光学像を撮像し画像信号として出力する撮像手段と音声を集音し録音する録音手段を備える電子機器のプロセッサに、
被写体の光学像を撮像し画像信号として出力するステップ、
前記画像信号に基づいてシーンを判別するステップ、
判別されたシーンに基づいて、録音するための録音条件を設定するステップを実行させるためのプログラム。
In a processor of an electronic device including an imaging unit that captures an optical image of a subject and outputs it as an image signal, and a recording unit that collects and records sound,
Capturing an optical image of a subject and outputting it as an image signal;
Determining a scene based on the image signal;
A program for executing a step of setting recording conditions for recording based on a determined scene.
JP2011135266A 2011-06-17 2011-06-17 Sound recording apparatus Withdrawn JP2013003392A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011135266A JP2013003392A (en) 2011-06-17 2011-06-17 Sound recording apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011135266A JP2013003392A (en) 2011-06-17 2011-06-17 Sound recording apparatus

Publications (1)

Publication Number Publication Date
JP2013003392A true JP2013003392A (en) 2013-01-07

Family

ID=47672018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011135266A Withdrawn JP2013003392A (en) 2011-06-17 2011-06-17 Sound recording apparatus

Country Status (1)

Country Link
JP (1) JP2013003392A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208131A (en) * 2018-05-29 2019-12-05 オリンパス株式会社 Imaging system
WO2022228089A1 (en) * 2021-04-29 2022-11-03 华为技术有限公司 Method for audio reception, apparatus, and related electronic device

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019208131A (en) * 2018-05-29 2019-12-05 オリンパス株式会社 Imaging system
JP7086716B2 (en) 2018-05-29 2022-06-20 オリンパス株式会社 Imaging system
WO2022228089A1 (en) * 2021-04-29 2022-11-03 华为技术有限公司 Method for audio reception, apparatus, and related electronic device

Similar Documents

Publication Publication Date Title
RU2653355C2 (en) Volume adjustment method and apparatus and terminal
JP2013106298A (en) Imaging controller, imaging control method, program for imaging control method, and imaging apparatus
CN104636110B (en) Control the method and device of volume
JP2014175993A (en) Notification controller, notification control method, and program
CN108845787A (en) Method, apparatus, terminal and the storage medium that audio is adjusted
US20130311174A1 (en) Audio control device and imaging device
JP2012209912A (en) Sound collecting device
US20110141343A1 (en) Imaging apparatus
JP2013003392A (en) Sound recording apparatus
JP2012151544A (en) Imaging apparatus and program
JP5509781B2 (en) Imaging device
JP2004032717A (en) Data-processing apparatus
JP2011130134A (en) Imaging apparatus and imaging system
JP2004301893A (en) Control method of voice recognition device
WO2020006664A1 (en) Control method for camera device, camera device, camera system, and storage medium
JP2018074220A (en) Voice processing device
JP5981779B2 (en) Audio signal processing apparatus and control method thereof
JP2021057764A (en) Imaging apparatus, audio processing method, and program
JP5070594B2 (en) Information processing apparatus, sound source separation method for information processing apparatus, and program
JP2009077325A (en) Camera apparatus, and camera control program
JP7353797B2 (en) Electronic devices, their control methods, and their programs
JP7397084B2 (en) Data creation method and data creation program
JP2005026889A (en) Electronic camera
US12094483B2 (en) Sound processing apparatus and control method
JP7111202B2 (en) SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20130628

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140902