JP2021057764A - 撮像装置、音声処理方法、プログラム - Google Patents

撮像装置、音声処理方法、プログラム Download PDF

Info

Publication number
JP2021057764A
JP2021057764A JP2019179413A JP2019179413A JP2021057764A JP 2021057764 A JP2021057764 A JP 2021057764A JP 2019179413 A JP2019179413 A JP 2019179413A JP 2019179413 A JP2019179413 A JP 2019179413A JP 2021057764 A JP2021057764 A JP 2021057764A
Authority
JP
Japan
Prior art keywords
voice
recording
audio
image
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019179413A
Other languages
English (en)
Inventor
範幸 瀬戸島
Noriyuki Setojima
範幸 瀬戸島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2019179413A priority Critical patent/JP2021057764A/ja
Priority to PCT/JP2020/034176 priority patent/WO2021065398A1/en
Priority to US17/753,958 priority patent/US20220329732A1/en
Publication of JP2021057764A publication Critical patent/JP2021057764A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00132Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture in a digital photofinishing system, i.e. a system where digital photographic images undergo typical photofinishing processing, e.g. printing ordering
    • H04N1/00169Digital image input
    • H04N1/00172Digital image input directly from a still digital camera or from a storage medium mounted in a still digital camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32112Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate computer file, document page or paper sheet, e.g. a fax cover sheet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/667Camera operation mode switching, e.g. between still and video, sport and normal or high- and low-resolution modes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/77Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/802Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving processing of the sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/027Spatial or constructional arrangements of microphones, e.g. in dummy heads
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00095Systems or arrangements for the transmission of the picture signal
    • H04N1/00114Systems or arrangements for the transmission of the picture signal with transmission of additional information signals
    • H04N1/00119Systems or arrangements for the transmission of the picture signal with transmission of additional information signals of sound information only
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2101/00Still video cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0084Digital still camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3264Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of sound signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3274Storage or retrieval of prestored additional information
    • H04N2201/3277The additional information being stored in the same storage device as the image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Studio Devices (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】共通のマイクロフォンを用いる場合に撮像画像記録時の音声処理と音声メモ記録時の音声処理が適切に行われるようにする。【解決手段】撮像装置は、マイクロフォンにより入力された音声信号について処理を行う音声処理部と、音声処理部で処理された音声データが撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する制御部とを備えるようにする。【選択図】図20

Description

本技術は撮像装置、音声処理方法、プログラムに関し、特に撮像装置における音声データに関する処理技術に関する。
プロカメラマンや記者など、業務で撮像装置(「カメラ」ともいう)を使用するユーザの場合、撮像装置で撮像した画像を、撮像現場で、その撮像装置の通信機能を用いて新聞社等のサーバ(例えばFTP(File Transfer Protocol)サーバ)にアップロードするということが行われている。
特許文献1には画像等をアップロードすることに関する技術が開示されている。
また特許文献2には、画像に音声メモを付加されることが開示されている。
特開2018−093325号公報 特開2005−293339号公報
ところで上述のようなプロカメラマン等が撮像した画像を新聞社等のサーバにアップロードをする状況を想定すると、画像に対して説明等を付加したいという要望がある。このための1つの手法としては、例えばユーザが画像の説明のための音声を入力し、音声メモとして画像データに関連づけるようにすることが考えられる。
ところで、動画記録を行う場合には音声収録も行われることが多いため、撮像装置にはマイクロフォンが内蔵又は接続されるとともに、音声信号処理回路系も備えられている。そこで、音声メモを記録可能とする場合には、当該マイクロフォンや音声信号処理回路系を利用することが考えられる。しかしながら、動画記録時の音声と音声メモでは目的が異なり、音声データとして求められる品質等も異なる。そのためマイクロフォン等を共用すると、実用上十分な品質が維持できないことも想定される。
そこで本開示では、撮像装置において撮像画像記録時と音声メモ記録時とで、マイクロフォン等を共用しても適切な音声データが得られるようにする技術を提案する。
本技術に係る情報処理装置は、マイクロフォンにより入力された音声信号について処理を行う音声処理部と、前記音声処理部で処理された音声データが撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する制御部と、を備える。
例えば動画撮像の際に周囲音を収録するためのマイクロフォンを、音声メモの収録にも共用して用いるようにする。この場合に、撮像画像記録時と音声メモ記録時と音声処理パラメータが変更されるようにする。
この場合、例えば、前記制御部は、前記撮像画像記録時と、前記音声メモ記録時とで、音声信号の処理に関するパラメータが異なるようにする制御を行うことが考えられる。
上記した撮像装置においては、前記制御部は、音声データの記録を開始する際に、開始する音声データの記録が、撮像画像記録時の音声記録であるか、音声メモ記録時の音声記録であるかに応じて、前記パラメータの切り替え制御を行うことが考えられる。
マイクロフォンによる収音音声を記録する機会が発生したときに、その撮像画像記録時か音声メモ記録時かに応じてパラメータ切り替えを行う。
上記した撮像装置においては、前記制御部は、動作モードの切り替えに応じて前記パラメータの切り替え制御を行うことが考えられる。
動作モードとは、例えば動画記録モード、静止画記録モード、再生モードなどである。これらのモード切り替えに応じてパラメータ切り替えを行う。
上記した撮像装置においては、前記パラメータは、前記音声処理部でのゲイン処理に関する設定を行うパラメータを含むことが考えられる。
例えば音声処理部のAGC(Automatic Gain Control)特性を設定するパラメータや、固定の入力ゲインを指定するパラメータ等である。そして例えば音声処理部でAGC処理が行われる場合、そのAGC特性を設定するパラメータが撮像画像記録時か音声メモ記録時かにより切り替えられるようにする。
上記した撮像装置においては、前記パラメータは、前記音声処理部が音声データに与える周波数特性を設定するパラメータを含むことが考えられる。
音声処理部でフィルタ処理やイコライジング処理が行われる場合、その周波数特性を設定するパラメータが撮像画像記録時か音声メモ記録時かにより切り替えられるようにする。
上記した撮像装置においては、前記パラメータは、前記マイクロフォンの指向性を設定するパラメータを含むことが考えられる。
即ちマイクロフォンの指向性が撮像画像記録時か音声メモ記録時かにより切り替えられるようにする。
上記した撮像装置においては、前記パラメータは、音声データのデータ量の変化を生じさせる処理に関するパラメータを含むことが考えられる。
即ち撮像画像記録時と音声メモ記録時とで、音声データのデータ量が異なるようにする。
上記した撮像装置においては、前記音声メモは、1つの静止画データに関連づけられる音声データであることが考えられる。
音声メモは、例えば静止画データについての説明や注釈等をユーザが声で入力した音声データであり、1つの静止画データに関連づけられる。
上記した撮像装置においては、1つの静止画データが指定された状態で、前記マイクロフォンにより入力され、前記音声処理部で処理された音声データが、指定された静止画データに関連づけられた前記音声メモとされることが考えられる。
例えば静止画データの1つが指定された状態で入力された音声データが音声メモとされることで、1つの静止画データと音声メモが関連づけられる。
上記した撮像装置においては、前記音声メモは、1つの静止画データに関連づけられる音声データであり、前記静止画データを含む画像ファイルとは別の音声ファイルとして記録されるようにすることが考えられる。
例えば静止画データが画像ファイルとして記録され、音声メモの音声データが音声ファイルとして記録された状態で、その音声メモが、静止画データと関連づけられる状態で管理される。
上記した撮像装置においては、前記撮像画像記録時とは動画記録時であり、前記音声処理部で処理された音声データは、動画データに同期した動画音声として記録されるものであることが考えられる。
即ち動画記録時と、音声メモ記録時とで、音声処理に関するパラメータが異なるようにされる。
上記した撮像装置においては、前記マイクロフォンを有することが考えられる。
撮像装置に内蔵されるマイクロフォンが撮像画像記録時の音声収音と、音声メモ記録時の音声収音に共用される。
上記した撮像装置においては、前記マイクロフォンにより複数チャネルの音声収音が行われるとともに、マイクロフォン入力レベルの表示がチャネル毎に行われることが考えられる。
撮像装置に複数のマイクロフォンが内蔵又は接続されたり、L、Rチャネルの収音を行うステレオマイクロフォンが内蔵又は接続されたりする。この場合にマイクロフォン入力レベルの表示がチャネル毎とされる。
また前記マイクロフォンは、前記撮像画像記録時と前記音声メモ記録時の両方で音声データを得るための収音に使用されるマイクロフォンであることが考えられる。
即ち撮像画像記録時に音声を収音するマイクロフォンと音声メモ記録時に音声を収音するマイクロフォンを共通のマイクロフォンとする。
本技術の音声処理方法は、マイクロフォンにより入力された音声信号について処理を行う音声処理部で処理された音声データが、撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する音声処理方法である。
これによりマイクロフォン入力音声につき、撮像画像記録時と音声メモ記録時とでそれぞれ適した音声処理が実行できる。
本技術に係るプログラムは、このような音声処理方法を演算処理装置に実行させるプログラムである。例えば撮像装置に内蔵される制御部としての演算処理装置に実行させる。これにより本技術の処理を各種の撮像装置で実行可能とする。
本技術の実施の形態の画像ファイル及び音声ファイルのアップロードの説明図である。 実施の形態の撮像装置の外観の説明図である。 実施の形態の撮像装置の背面側の説明図である。 実施の形態の撮像装置のブロック図である。 実施の形態の画像一覧画面の説明図である。 実施の形態の画像グループ展開前表示画面の説明図である。 実施の形態の画像グループ展開後表示画面の説明図である。 実施の形態の画像グループ展開後表示画面の説明図である。 実施の形態の音声メモ記録画面の説明図である。 実施の形態の画像グループ展開後表示画面の説明図である。 実施の形態の画像グループ展開前表示画面の説明図である。 実施の形態の画像グループ展開前表示画面の説明図である。 実施の形態の音声メモ再生画面の説明図である。 実施の形態の削除対象選択画面の説明図である。 実施の形態の削除中画面の説明図である。 実施の形態の削除完了画面の説明図である。 実施の形態の削除選択画面の説明図である。 実施の形態の削除選択画面の説明図である。 実施の形態のアサイナブルボタン操作検出処理のフローチャートである。 実施の形態のマイクロフォン準備処理のフローチャートである。 実施の形態のAGC特性の切り替えの説明図である。 実施の形態の周波数特性の切り替えの説明図である。 実施の形態の指向特性切り替えの説明図である。 実施の形態のマイクロフォン準備処理の他の例のフローチャートである。
以下、実施の形態を次の順序で説明する。
<1.撮像装置による画像アップロード>
<2.撮像装置の構成>
<3.連写画像についての音声メモ>
<4.マイクロフォン音声についての処理>
<5.まとめ及び変形例>
<1.撮像装置による画像アップロード>
実施の形態の撮像装置1は、撮像した画像を外部サーバにアップロードすることができる。まずこの画像アップロードについて説明する。
図1に撮像装置1、FTPサーバ4、ネットワーク6を示している。
撮像装置1としては、ビデオカメラやスチルカメラとしての各種の形態の撮像装置がある。図示する撮像装置1は、カメラマンや記者がスポーツやイベントの会場や取材現場などで用いるカメラを想定している。例えば一人のカメラマンが1台の撮像装置1を用いる場合もあるが、複数台の撮像装置1を用いる場合もある。
なお説明中、撮像装置1を「カメラ」と呼ぶ場合がある。
ネットワーク6は、例えばインターネット、ホームネットワーク、LAN(Local Area Network)、衛星通信網、その他の各種のネットワークが想定される。
FTPサーバ4は、例えば新聞社、放送局、通信社などが運営するサーバが考えられる。もちろんそのようなサーバに限定されない。
FTPサーバ4の形態としてはクラウドサーバ、ホームサーバ、或いはパーソナルコンピュータなどが想定される。
撮像装置1は、ネットワーク6を介してFTPサーバ4に撮像した画像データ等をアップロードすることができる。
例えば撮像装置1を使用するユーザが新聞社の仕事を行うプロカメラマンである場合、イベント会場で撮像した画像を、即時に撮像装置1からFTPサーバ4にアップロードする、というようなシステム利用態様が想定される。
なおこのために、撮像装置1においてFTPサーバ4にアップロードを行うためのFTP設定情報が登録される。FTP設定情報の内容としては、FTPサーバ4のホスト名、保存先パス、ユーザ名、パスワード、接続種別などがある。
ユーザはこのようなFTP設定情報の内容を、撮像装置1の操作により入力し、もしくは外部機器からの転送入力などを行うことで、FTP設定情報を撮像装置1内に登録させることができる。
本実施の形態の場合、撮像装置1からFTPサーバ4へは、画像ファイルPFや音声ファイルAFがアップロード送信される状況を想定する。
撮像装置1では撮像動作により静止画や動画としての画像データを生成するとともに、付加情報としてのメタデータを生成する。
図1に示す画像ファイルPFとは、この画像データとメタデータを含むデータファイルであるとしている。
また本実施の形態の場合、撮像装置1は音声メモ機能を備える。これは、撮像画像に対する注釈、説明等を音声で付与することができる機能である。例えばユーザが特定の画像を指定した状態で所定操作をしながら発声を行ったり、1枚の静止画を撮像した際にカメラマンが所定の操作を行いながら画像内容を説明する発声を行ったりすることで、その音声が記録され、画像データと関連付けられた音声メモとされる。
図1に示す音声ファイルAFとは、この音声メモとしての音声データを含むデータファイルであるとする。
なお、動画撮像時には、周囲音声も音声トラックデータとして記録されるが、その音声トラックデータは画像ファイルPFに含まれる音声データであり、音声ファイルAFとは別である。説明上の音声ファイルAFは、あくまでも音声メモとしての音声データを含むファイルを指すものとする。
以下では、静止画撮像を想定し、画像ファイルPFには静止画像データとメタデータ、音声ファイルAFには静止画撮像に伴って生成された音声メモデータが含まれる例で説明していく。
なお、必ずしも全ての画像ファイルPFに音声ファイルAFが関連付けられているわけではなく、あくまでカメラマン等が音声メモ機能を用いて音声入力を行った場合にのみ、撮像装置1で音声ファイルAFが生成され、画像ファイルPFに関連付けられる。
従って撮像装置1からFTPサーバ4へのアップロードの際には、画像ファイルPFと音声ファイルAFが対になって送信される場合と、画像ファイルPFのみの場合がある。
<2.撮像装置の構成>
図2は実施の形態の撮像装置1の前方からの斜視図、図3は背面図を示している。ここでは撮像装置1は、いわゆるデジタルスチルカメラとされ、撮像モードを切り換えることで、静止画撮像と動画撮像の両方を実行できるものとする。また、静止画撮影においては、レリーズ操作のたびに1枚の静止画を撮像する「単写モード」と、レリーズ操作によって連続的に複数枚の静止画を撮像する「連写モード」が設けられている。
なお、本実施の形態では撮像装置1は、デジタルスチルカメラに限定されず、主に動画撮像に用いられ静止画撮像も行えるビデオカメラであっても良い。
撮像装置1は、カメラ本体を構成する本体筐体100の前方側にレンズ鏡筒2が配置され、又は着脱可能とされる。
撮像装置1の背面側(撮影者側)には、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等のディスプレイデバイスによる表示パネル101が設けられる。
またビューファインダー102として、LCDや有機ELディスプレイ等を用いて形成された表示部も設けられる。またビューファインダー102は電子式ファインダー(EVF:Electronic View Finder)に限らず、光学式ファインダー(OVF:Optical View Finder)でもよい。
ユーザは表示パネル101やビューファインダー102により、画像や各種情報を視認することができる。
この例では撮像装置1には表示パネル101とビューファインダー102の両方が設けられているが、これに限定されず、表示パネル101とビューファインダー102のいずれか一方のみが設けられている構成や、表示パネル101とビューファインダー102の両方またはいずれか一方が着脱可能な構成であってもよい。
撮像装置1の本体筐体100上には、各種の操作子110が設けられている。
例えば操作子110としては、キー、ダイヤル、押圧/回転の複合操作子などの各種の形態のものが配備され、各種の操作機能を実現している。例えばメニュー操作、再生操作、モード選択操作、フォーカス操作、ズーム操作、シャッタースピードやF値(F-number)等のパラメータの選択操作などが可能とされる。それぞれの操作子110に関しての詳述は避けるが、本実施の形態の場合、操作子110のうちでシャッターボタン110Sとアサイナブルボタン110Cを特に示している。
シャッターボタン110Sはシャッター操作(レリーズ操作)や、また半押しによるAF操作に用いられる。
アサイナブルボタン110Cは、カスタムボタンとも呼ばれる操作子で、ユーザが任意の操作機能を割り当てることのできるボタンである。本実施の形態では、アサイナブルボタン110Cは、音声メモの記録や再生等の操作機能が割り当てられているとする。即ち、特定の状況下でアサイナブルボタン110Cを操作することにより、音声メモの記録や再生等を行うことができる。例えば、特定の状況でアサイナブルボタン110Cを長押しすることにより押下中の音声メモ記録が可能とされる。アサイナブルボタン110Cの長押しを解除することにより音声メモ記録が停止される。また、アサイナブルボタン110Cを短押しすることにより、記録された音声メモの再生がなされる。
シャッターボタン110Sは本体筐体100の右側上面に配置され、例えばユーザが右手で握持部103を持った状態で、右手の人差し指で押圧操作可能とされている。
またアサイナブルボタン110Cは、例えば図2のように本体筐体100の背面側上部に配置され、ユーザが右手の親指で押圧操作可能とされている。
なお、アサイナブルボタン110Cの代わりに、音声メモに関する機能を実行するための専用の操作ボタンが設けられてもよい。
また、表示パネル101などの表示部がタッチパネル機能を有している場合には、表示パネル101が操作子110のうちの一つとされていてもよい。
ビューファインダー102の両側方には、それぞれマイク孔104が形成されている。撮影者から見て左側のマイク孔104がマイク孔104Lとされ、右側のマイク孔104がマイク孔104Rとされている。
マイク孔104L及びマイク孔104Rが形成されていることにより、環境音や撮影者による発声をステレオ音声として取得することができる。それぞれのマイク孔104の内側には図示しないマイクロフォンがそれぞれ配設されている。
図4はレンズ鏡筒2を含めた撮像装置1の内部構成を示している。
撮像装置1は、例えばレンズ系11、撮像部12、カメラ信号処理部13、記録制御部14、表示部15、通信部16、操作部17、カメラ制御部18、メモリ部19、ドライバ部22、センサ部23、音声入力部25、音声処理部26を有する。
レンズ系11は、ズームレンズ、フォーカスレンズ等のレンズや絞り機構などを備える。このレンズ系11により、被写体からの光(入射光)が導かれ撮像部12に集光される。
撮像部12は、例えば、CMOS(Complementary Metal Oxide Semiconductor)型やCCD(Charge Coupled Device)型などのイメージセンサ12a(撮像素子)を有して構成される。
この撮像部12では、イメージセンサ12aで受光した光を光電変換して得た電気信号について、例えばCDS(Correlated Double Sampling)処理、AGC(Automatic Gain Control)処理などを実行し、さらにA/D(Analog/Digital)変換処理を行う。そしてデジタルデータとしての撮像信号を、後段のカメラ信号処理部13やカメラ制御部18に出力する。
カメラ信号処理部13は、例えばDSP(Digital Signal Processor)等により画像処理プロセッサとして構成される。このカメラ信号処理部13は、撮像部12からのデジタル信号(撮像画像信号)に対して、各種の信号処理を施す。例えばカメラプロセスとしてカメラ信号処理部13は、前処理、同時化処理、YC生成処理、解像度変換処理、ファイル形成処理等を行う。
前処理では、撮像部12からの撮像画像信号に対して、R,G,Bの黒レベルを所定のレベルにクランプするクランプ処理や、R,G,Bの色チャンネル間の補正処理等を行う。
同時化処理では、各画素についての画像データが、R,G,B全ての色成分を有するようにする色分離処理を施す。例えば、ベイヤー配列のカラーフィルタを用いた撮像素子の場合は、色分離処理としてデモザイク処理が行われる。
YC生成処理では、R,G,Bの画像データから、輝度(Y)信号および色(C)信号を生成(分離)する。
解像度変換処理では、各種の信号処理が施された画像データに対して、解像度変換処理を実行する。
ファイル形成処理では、例えば以上の各種処理が施された画像データについて、例えば記録用や通信用の圧縮符号化、フォーマティング、メタデータの生成や付加などを行って記録用や通信用のファイル生成を行う。
例えば静止画ファイルとしてJPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、GIF(Graphics Interchange Format)等の形式の画像ファイルPFの生成を行う。またMPEG−4準拠の動画・音声の記録に用いられているMP4フォーマットなどとしての画像ファイルPFの生成を行うことも考えられる。
なおロー(RAW)画像データとして画像ファイルPFを生成することも考えられる。
カメラ信号処理部13は、メタデータについては、カメラ信号処理部13内の処理パラメータの情報や、カメラ制御部18から取得する各種制御パラメータ、レンズ系11や撮像部12の動作状態を示す情報、モード設定情報、撮像環境情報(日時や場所など)を含むものとして生成する。
記録制御部14は、例えば不揮発性メモリによる記録媒体に対して記録再生を行う。記録制御部14は例えば記録媒体に対し動画データや静止画データ等の画像ファイルやサムネイル画像等を記録する処理を行う。
記録制御部14の実際の形態は多様に考えられる。例えば記録制御部14は、撮像装置1に内蔵されるフラッシュメモリとその書込/読出回路として構成されてもよい。また記録制御部14は、撮像装置1に着脱できる記録媒体、例えばメモリカード(可搬型のフラッシュメモリ等)に対して記録再生アクセスを行うカード記録再生部による形態でもよい。また記録制御部14は、撮像装置1に内蔵されている形態としてHDD(Hard Disk Drive)などとして実現されることもある。
表示部15は撮像者に対して各種表示を行う表示部であり、例えば撮像装置1の筐体に配置される液晶パネル(LCD:Liquid Crystal Display)や有機EL(Electro-Luminescence)ディスプレイ等のディスプレイデバイスによる表示パネル101やビューファインダー102とされる。
表示部15は、カメラ制御部18の指示に基づいて表示画面上に各種表示を実行させる。
例えば表示部15は、記録制御部14において記録媒体から読み出された画像データの再生画像を表示させる。
また表示部15にはカメラ信号処理部13で表示用に解像度変換された撮像画像の画像データが供給され、表示部15はカメラ制御部18の指示に応じて、当該撮像画像の画像データに基づいて表示を行う場合がある。これにより構図確認中や動画記録中などの撮像画像である、いわゆるスルー画(被写体のモニタリング画像)が表示される。
また表示部15はカメラ制御部18の指示に基づいて、各種操作メニュー、アイコン、メッセージ等、即ちGUI(Graphical User Interface)としての表示を画面上に実行させる。
通信部16は、外部機器との間のデータ通信やネットワーク通信を有線又は無線で行う。
例えば外部の表示装置、記録装置、再生装置等に対して撮像画像データ(静止画ファイルや動画ファイル)の送信出力を行う。
また通信部16はネットワーク通信部として、例えばインターネット、ホームネットワーク、LAN(Local Area Network)等の各種のネットワーク6による通信を行い、ネットワーク上のサーバ、端末等との間で各種データ送受信を行うことができる。例えば本実施の形態の場合、通信部16は、撮像した画像データ(上述の画像ファイル等)をFTPサーバ4にアップロードする通信処理を行う。
また本実施の形態の場合、通信部16は、情報処理装置2との間で通信を行い、画像ファイルPFや音声ファイルAFの転送を実行する。
操作部17は、ユーザが各種操作入力を行うための入力デバイスを総括して示している。具体的には操作部17は撮像装置1の筐体に設けられた各種の操作子(キー、ダイヤル、タッチパネル、タッチパッド等)を示している。
操作部17によりユーザの操作が検知され、入力された操作に応じた信号はカメラ制御部18へ送られる。
操作部17としては、先に述べたシャッターボタン110Sやアサイナブルボタン110Cが設けられている。
カメラ制御部18はCPU(Central Processing Unit)を備えたマイクロコンピュータ(演算処理装置)により構成される。
メモリ部19は、カメラ制御部18が処理に用いる情報等を記憶する。図示するメモリ部19としては、例えばROM(Read Only Memory)、RAM(Random Access Memory)、フラッシュメモリなどを包括的に示している。
メモリ部19はカメラ制御部18としてのマイクロコンピュータチップに内蔵されるメモリ領域であってもよいし、別体のメモリチップにより構成されてもよい。
カメラ制御部18はメモリ部19のROMやフラッシュメモリ等に記憶されたプログラムを実行することで、この撮像装置1の全体を制御する。
例えばカメラ制御部18は、撮像部12のシャッタースピードの制御、カメラ信号処理部13における各種信号処理の指示、ユーザの操作に応じた撮像動作や記録動作、記録した画像ファイルの再生動作、レンズ鏡筒におけるズーム、フォーカス、絞り調整等のレンズ系11の動作、ユーザインタフェース動作、音声処理部26の処理等について、必要各部の動作を制御する。
メモリ部19におけるRAMは、カメラ制御部18のCPUの各種データ処理の際の作業領域として、データやプログラム等の一時的な格納に用いられる。
メモリ部19におけるROMやフラッシュメモリ(不揮発性メモリ)は、CPUが各部を制御するためのOS(Operating System)や、画像ファイル等のコンテンツファイルの他、各種動作のためのアプリケーションプログラムや、ファームウェア、各種の設定情報等の記憶に用いられる。
各種の設定情報としては、上述のFTP設定情報や、撮像動作に関する設定情報としての露出設定、シャッタースピード設定、モード設定や、画像処理に係る設定情報としてのホワイトバランス設定、色設定、画像エフェクトに関する設定や、音声処理部の処理に関する設定(例えば音量、音質、その他の処理に関するパラメータの設定)、操作性に係る設定情報としてのカスタムキー設定や表示設定などがある。
ドライバ部22には、例えばズームレンズ駆動モータに対するモータドライバ、フォーカスレンズ駆動モータに対するモータドライバ、絞り機構のモータに対するモータドライバ等が設けられている。
これらのモータドライバはカメラ制御部18からの指示に応じて駆動電流を対応するドライバに印加し、フォーカスレンズやズームレンズの移動、絞り機構の絞り羽根の開閉等を実行させることになる。
センサ部23は、撮像装置に搭載される各種のセンサを包括的に示している。
センサ部23としては例えばIMU(inertial measurement unit:慣性計測装置)が搭載されており、例えばピッチ、ヨー、ロールの3軸の角速度(ジャイロ)センサで角速度を検出し、加速度センサで加速度を検出することができる。
またセンサ部23としては、例えば位置情報センサ、照度センサ等が搭載される場合もある。
音声入力部25は例えばマイクロフォン及びマイクアンプ等を有し、周囲音声を収音した音声信号を出力する。本実施の形態において、マイクロフォンとしては、マイク孔104Lに対応したマイクロフォン25Lと、マイク孔104Rに対応したマイクロフォン25Rが設けられている。
音声処理部26は、音声入力部25で得られた音声信号についてデジタル音声信号に変換する処理や、AGC処理、音質処理、ノイズリダクション処理などを行う。これらの処理を経た音声データはカメラ信号処理部13やカメラ制御部18に出力される。
例えば音声データは、動画撮像時にはカメラ制御部18において動画に付随する音声データとして処理される。
また、再生時や撮像時などに撮影者によって入力される音声メモとしての音声データは、カメラ信号処理部13或いはカメラ制御部18において音声ファイルAFとしてファイル化される。
音声ファイルAFは、記録制御部14において画像ファイルPFに対応づけられて記録媒体に記録されたり、通信部16から画像ファイルPFとともに送信出力されたりすることができる。
音声再生部27は音声信号処理回路、パワーアンプ、スピーカー等を備え、記録制御部14によって記録媒体に記録された音声ファイルAFの再生を行う。例えば音声ファイルAFの再生時には、カメラ制御部18の制御に基づき記録制御部14により音声ファイルAFの音声データの読み出しが行われ、音声再生部27に転送される。音声再生部27は音声データについて必要な信号処理やアナログ信号への変換を行い、パワーアンプを介してスピーカーから音声出力を行う。これによりユーザは音声メモとして記録した音声を聞くことができる。
なお、動画の再生時には、動画に付随する音声の再生が音声再生部27で行われることになる。
<3.連写画像についての音声メモ>
撮像装置1の表示パネル101におけるUI画面について説明する。特には、連写画像及び音声メモに関する表示例を主に説明する。なお、以下で説明する各画面は、撮像装置1のカメラ制御部18がUI制御を行うことにより表示部15の表示パネル101に表示される画面の一例である。
図5は、撮像装置1で撮像された画像(静止画像や動画像)が一覧で視認可能な画像一覧画面50を示している。
画像一覧画面50は、例えば、再生モードにおいて表示パネル101に表示される画面である。
画像一覧画面50には、時刻情報やバッテリの充電状態を示すインジケータ等が表示されるステータスバー121と、複数の撮像画像ごとのサムネイル画像122が表示されている。
サムネイル画像122としては、単写モードで撮像された1枚の画像についてのサムネイル画像122Aと、連写モードで撮像された複数枚の画像がまとめられた状態が表される画像グループについてのサムネイル画像122Bのいずれかが表示される。
画像グループについてのサムネイル画像122Bは、画像グループに含まれる複数の画像のうちの一枚の画像が代表画像として選択される。サムネイル画像122Bに用いられる撮像画像は、ユーザによって選択されてもよいし、自動で選択されてもよい。
例えば、連写モードで撮像された複数枚の画像のうち、最初に撮像された画像が自動的に代表画像として選択されサムネイル画像122Bに用いられる。
画像グループについてのサムネイル画像122Bには、画像グループであることを示す画像グループアイコン123が重畳表示される。
連写モードで撮影された複数枚の画像が自動的にまとめられて画像グループとして生成されるだけでなく、ユーザによって選択された複数枚の画像が画像グループとして生成されてもよい。
画像一覧画面50においていずれかのサムネイル画像122が選択操作されると、表示パネル101の表示は次の画面に切り換えられる。
例えば、単写モードで撮像された画像についてのサムネイル画像122Aが選択されると、選択された画像が大きく表示される画面へと切り替わる。
また、画像グループについてのサムネイル画像122Bが選択されると、選択された画像グループを表示する画面へと切り替わる(図6参照)。
図6に示す画面は、複数枚の画像が展開されずに表示される画像グループ専用の画面であり、画像グループ展開前表示画面51とされる。
画像グループ展開前表示画面51では、代表画像124が表示されると共に、画像グループに複数枚の画像が含まれていることを示す枠画像125が表示されている。
画像グループ展開前表示画面51の代表画像124などに対する操作を行うと、図7に示す画像グループ展開後表示画面52が表示パネル101に表示される。
画像グループ展開後表示画面52には、画像グループに属する複数の画像のうちの一枚が選択されて表示される。図7では、連写モードによって撮像された一連の画像群のうち、最初に撮像された画像が表示画像126として表示されている。
また、展開後表示画面52には、画像グループに属する画像の総枚数と表示位置を示す枚数表示127が表示される。図7の枚数表示127は、14枚から成る画像グループにおける1枚目の画像が表示されていることを示している。
画像グループ展開後表示画面52においては、スワイプ操作やボタン操作により画像送り操作が可能である。画像送り操作は、表示画像126を別の画像に変更する操作であり、画像送り操作を複数回行った後に表示される画像グループ展開後表示画面52を示した図が図8である。
図8は、画像グループに属する14枚の画像のうち、5枚目が表示された状態を示している。
図8に示す状態からアサイナブルボタン110Cの長押しを行うと、音声メモの記録が開始される。音声メモの記録は、アサイナブルボタン110Cの長押し状態が解除されるか、或いは、音声メモの記録時間が所定時間に達した場合に終了する。
また、音声メモは、アサイナブルボタン110Cの長押しを行った際に表示パネル101に表示されている表示画像126に紐付けられて記憶される。本例では、図8に示す状態からアサイナブルボタン110Cの長押しを行ったため、画像グループの5枚目の画像に音声メモが紐付けられる。
音声メモの記録中は、図9に示す音声メモ記録画面53が表示パネル101に表示される。
音声メモ記録画面53では、記録中を示す記録アイコン128と、マイクロフォン25L,マイクロフォン25Rのそれぞれの入力レベルを示す記録レベルゲージ129と、記録時間と記録残り時間を示す記録時間バー130が表示される。
図9に示す例では、最大記録時間は60秒とされ、そのうち記録済みの時間は35秒であることが示されている。
60秒の記録を終えた後、或いは、最大記録時間に達する前にアサイナブルボタン110Cの長押し状態が解除された後、表示パネル101には図10に示す画像グループ展開後表示画面52が表示される。図10は、図8と同様に、画像グループに属する14枚の画像のうち、5枚目が表示された状態を示している。また、この画像に音声メモが関連付けられていることを示す音声メモアイコン131が画像に重畳表示される。
図10に示す状態から、戻るボタンの押下など、画像グループの展開表示を解除する操作が行われると、表示パネル101には図6に示す画像グループ展開前表示画面51が表示される。図6に示す画像グループは、5枚目の画像に対応する音声メモが記録された状態であるが、表示パネル101に表示される代表画像124は、画像グループに属する1枚目の画像であり、当該1枚目の画像には対応する音声メモが存在しないため、音声メモアイコン131は表示されていない。
なお代表画像124に対応する音声メモが記録されている場合には、図11に示すように、画像グループ展開前表示画面51に音声メモアイコン131が表示される。
5枚目の画像に音声メモを関連付けた後に展開表示を解除することで表示される画像グループ展開前表示画面51の変形例を図11及び図12で説明する。
上記では、代表画像124に対応する音声メモが記録されている場合に、図11に示すように、画像グループ展開前表示画面51に音声メモアイコン131が表示されるとしたが、変形例としては、代表画像124として選択されている1枚目の画像には対応する音声メモが存在しないものの、画像グループに属する画像の少なくとも1枚(例えば5枚目の画像)に音声メモが関連付けられていることから、画像グループに属する画像に音声メモが含まれた画像があることを示すために、図11のように音声メモアイコン131が表示されるようにしてもよい。
これにより、ユーザは、画像グループの展開表示を行わなくても対応する音声メモが存在する画像の有無を音声メモアイコン131により認識することができる。
また、図12に示す変形例では、画像グループに属する画像において対応する音声メモが存在する画像のうちの一枚(例えば5枚目の画像)が代表画像124として新たに選択された例である。
即ち、ユーザは、図12に示す画像グループ展開前表示画面51を視認するだけで、画像グループのいずれかの画像に対応する音声メモが存在すること、音声メモが存在する画像のうちの少なくとも1枚は代表画像124として選択された画像であることを認識することができる。
ところで、例えば図10に示す画像グループ展開後表示画面52において、即ち、音声メモが存在する画像が表示画像126として表示された画像グループ展開後表示画面52において、アサイナブルボタン110Cの短押し操作など、音声メモの再生操作が行われた場合には、図13に示す音声メモ再生画面54が表示パネル101に表示される。
音声メモ再生画面54においては、再生対象の音声メモが紐付けられた画像の上に、音声メモアイコン131と、音声メモを再生中であることを示す再生アイコン132と、音声メモの記録時間と再生済みの秒数を示す再生時間バー133が表示される。
再生アイコン132は、例えば、図9に示す記録アイコン128と同形状且つ異なる色のアイコン画像とされている。
図l3に示す例では、音声メモの記録時間長が48秒とされ、再生開始から27秒後の部分が再生中であることが示されている。
また音声メモ再生画面54では、左チャネルと右チャネルの再生レベルを示す再生レベルゲージ134が表示されている。
図10に示す画像グループ展開後表示画面52において、即ち、対応する音声メモが存在する画像が表示画像126として表示されている画像グループ展開後表示画面52において、音声メモの削除等を行うための操作を行った場合には、表示パネル101に図14に示す削除対象選択画面55が表示される。
削除対象選択画面55は、三つの操作可能な選択肢がユーザに提示される。具体的には、画像ファイルPFと音声メモとしての音声ファイルAFの双方を削除する第1選択肢135と、音声メモとしての音声ファイルAFの削除のみを行い画像ファイルPFは記録したままにする第2選択肢136と、削除操作をキャンセルする第3選択肢137が表示される。
第1選択肢135及び第2選択肢136の何れかを操作した場合に削除される画像ファイルPFや音声ファイルAFは、削除操作を行う際に表示パネル101に表示されている表示画像126についてのファイルである。
第1選択肢135及び第2選択肢136の何れかを操作した場合には、表示パネル101に図15に示す削除中画面56が表示される。
削除中画面56では、削除中であることを示すメッセージ138と削除処理の進行度合いを示す削除バー139と削除処理をキャンセルするためのキャンセルボタン140とが表示される。
削除中画面56が表示されている状態でユーザがキャンセルボタン140を操作すると、削除対象のファイルの削除がキャンセルされる。
キャンセルボタン140が操作されずにファイルの削除に要する時間が経過すると、表示パネル101には図16に示す削除完了画面57が表示される。
削除完了画面57には、削除が完了したことを示すメッセージ141と削除が完了したことを確認した際に操作される確認ボタン142が表示される。
図6に示す画像グループ展開前表示画面51において削除等を行うための操作を行った場合には、表示パネル101に図17に示す削除選択画面58が表示される。
削除選択画面58では、画像グループに属する全ての画像を一括で削除するための全削除選択肢143と削除操作をキャンセルするためのキャンセル選択肢144が表示される。
なお、画像グループに属する画像の何れかに紐付けられた音声メモとしての音声ファイルAFが存在している場合に全削除選択肢143を操作すると、画像ファイルPFだけでなく関連付けられた音声ファイルAFも削除されるようにすることが考えられる。
なお、画像グループの何れかに紐付けられた音声メモとしての音声ファイルAFだけを削除するための選択肢が設けられていてもよい。
音声メモが紐付けられていない画像が表示画像126として表示された状態(例えば図7に示す状態)で削除操作を行った場合には、表示パネル101に図18に示す削除選択画面59が表示される。
削除選択画面59には、画像ファイルPFを削除するための削除選択肢145と削除操作をキャンセルするためのキャンセル選択肢146が表示される。
削除選択肢145を操作すると、画像の削除が開始され、例えば、図15に示す削除中画面56などが表示される。
また、キャンセル選択肢146を操作すると、削除操作がキャンセルされ、キャンセル操作を行う前の画面(例えば図7に示す画面)に戻る。
続いてアサイナブルボタン操作に対するカメラ制御部18の処理例を図19で説明する。上述のようにアサイナブルボタン110Cは、音声メモの操作に割り当てられているとする。
カメラ制御部18はステップS201で、アサイナブルボタン110Cの押下を始めてから所定時間経過したか否かを判定する。所定時間経過していない場合、カメラ制御部18はステップS202でアサイナブルボタン110Cがまだ押下中であるか否かを判定する。
アサイナブルボタン110Cが押下中である場合は、カメラ制御部18はステップS201へと戻り、所定時間が経過したかを判定する。
即ちアサイナブルボタン110Cが長押しされた場合、カメラ制御部18は所定時間が経過するまではステップS201及びステップS202を繰り返し実行し、所定時間が経過した時点でステップS201からステップS203へと進む。
一方、所定時間が経過する前にアサイナブルボタン110Cの押下状態が解消された場合、例えば、アサイナブルボタン110Cを短時間押下した場合などは、カメラ制御部18はステップS202からステップS208の処理へと進む。
即ち、アサイナブルボタン110Cが長押しされた場合に実行される処理がステップS203以降の処理であり、アサイナブルボタン110Cが短押しされた場合に実行される処理がステップS208以降の処理である。
アサイナブルボタン110Cが長押しされた場合、カメラ制御部18はステップS203において、音声メモ記録の開始制御を実行する。例えばカメラ制御部18は、音声入力部25から入力される音声信号について、音声処理部26、カメラ信号処理部13、記録制御部14の処理により、音声ファイルAFとして記録媒体に記録させる一連の動作を開始させる。例えばこの時点では、最大60秒の間、マイクロフォン25L、25Rによる入力音声に基づく音声データをカメラ信号処理部13でバッファリングしていく処理を開始させる。
カメラ制御部18はステップS204でアサイナブルボタン110Cが押下中であるか否かを判定し、押下中である場合は、ステップS205で最大記録時間(例えば60秒)が経過したか否かを判定する。
最大記録時間が経過したと判定した場合、即ち、アサイナブルボタン110Cが押下され続けているが最大記録時間が経過していない場合、カメラ制御部18はステップS204に戻る。
一方、ステップS204でアサイナブルボタン110Cを押下中でないと判定した場合や、ステップS205で最大記録時間が経過したと判定した場合、カメラ制御部18はステップS206で記録停止制御を行う。例えばカメラ制御部18は、音声入力部25から入力される音声信号について、音声処理部26の処理を介して、カメラ信号処理部13内でバッファリングしていく処理を停止させる。
そしてカメラ制御部18はステップS207で音声メモとしての音声ファイルAFを生成して記憶媒体に記憶させる処理を実行させる。即ちカメラ信号処理部13にバッファリングされた音声データについて圧縮処理やファイルフォーマット生成処理などを実行させ、所定のファイルデータ形式(例えばWAVファイル)としたデータを記録制御部14によって記録媒体に記録させる。
以上によりカメラ制御部18は図19に示す一連の音声メモ記録時の処理を終了する。
これにより、ユーザがアサイナブルボタン110Cの押下を続けると、所定時間経過後に長押しと判定されて音声メモ記録処理が開始され、押下状態が解消されるか或いは記録時間が最大記録時間に達するまで音声メモの記録処理が行われる。
記録時間が最大記録時間に達した場合や記録時間が最大記録時間に達する前にアサイナブルボタン110Cの長押し状態が解除されると、音声メモの記録が停止されることになる。
ステップS202でアサイナブルボタン110Cを短時間押下する操作がなされたと判定した場合、カメラ制御部18はステップS208で表示パネル101に表示されている画像に関連付けられた音声メモが存在するか否かを判定する。関連付けられた音声メモが存在しない場合、カメラ制御部18は図19に示す一連の処理を終了する。
ステップS208で画像に関連付けられた音声メモが存在すると判定した場合、カメラ制御部18はステップS209で音声メモの再生開始制御を実行する。例えばカメラ制御部18は、記録制御部14に特定の音声ファイルAFの再生開始を指示するとともに音声再生部27に再生動作を指示する。
カメラ制御部18は、音声メモ再生中は、ステップS210で再生終了したか否かを判定し、ステップS211で再生終了操作を検出したか否かを判定し、ステップS212で音量変更操作を検出したか否かを判定する。
ステップS210で再生終了と判定した場合、即ち、再生出力が音声データの最後まで到達した場合、カメラ制御部18はステップS214で記録制御部14と音声再生部27の再生動作についての再生停止制御を行って図19に示す一連の処理を終了する。
また、ステップS210で再生終了していないと判定した場合、カメラ制御部18ステップS211で再生終了操作を検出したか否かを判定し、再生終了操作を検出した場合はステップS214で記録制御部14と音声再生部27の再生動作についての再生停止制御を行ったうえで図19に示す一連の処理を終了する。
更に、再生終了操作を検出しなかった場合は、カメラ制御部18はステップS212で音量変更操作を検出したか否かを判定し、音量変更操作を検出した場合は、ステップS213で音声再生部27に対し再生音量の変更制御を行い、ステップS210へ戻る。音量変更操作を検出していない場合は、ステップS212からステップS210へ戻る。
なお、各図では省略したが、電源OFF操作を検出した場合は、表示パネル101の表示を停止する処理が適宜行われる。
ところで上述した例では、アサイナブルボタン110Cに音声メモ関連の機能が集約されている例を説明したが、それ以外の操作子110を操作することで音声メモ関連の機能が実行されるように構成してもよい。その場合には、アサイナブルボタン110Cの操作を検出する処理については、該当する操作子110の操作を検出する処理として読み替えることで同等の作用効果を得ることができる。
また、一つの操作子110に音声メモ関連の機能が集約されている場合だけでなく、複数のボタンを所定の手順で操作することにより音声メモについての機能を実行するように構成してもよい。例えば、1枚の画像が表示パネル101に表示されている状態でメニュー画面を表示させる操作を行い、表示されたメニューから音声メモについての項目を選択する操作を行い、更にその中から実行させたい機能として音声メモの記録機能や再生機能を選択することにより各種の機能が実行されるように構成してもよい。
その場合には、アサイナブルボタン110Cの操作を検出する代わりに該当のメニュー項目が選択されたことを検出する処理を実行すればよい。
音声メモが既に関連付けられている状態において音声メモの記録操作(図19のステップS201において検出される操作)が検出された場合に、いくつかの処理例が考えられる。
例えば、音声メモを削除しない限り新たな音声メモを当該画像に関連付けることができないようにしてもよい。その場合には、ステップS201の処理の後に、対象の画像に既に関連付けられた音声メモが存在するか否かを判定する処理を実行し、音声メモが関連付けられていない場合にステップS203以降の処理を実行する。
また、既に紐付けられた音声メモが最大記録時間に達していない場合には音声メモの追加記録を許可し、音声メモが最大記録時間に達している場合には音声メモの記録操作を無効としてもよい。その場合には、ステップS201で記録操作を検出した後に、既に関連付けられた音声メモが存在しているかを判定し、存在している場合には記録時間が残存しているかを判定し、残存している場合には追加記録を行うように処理を行う。
更に、既に紐付けられた録音メモがあったとしても、音声メモの記録操作が行われた場合には既に関連付けられた音声メモを破棄し新たに音声メモを記録するように構成してもよい。
更にまた、一つの画像に複数の音声メモが関連付けられるように構成してもよい。その場合には、音声メモとしての音声ファイルAFのファイル名は、紐付けられた画像ファイルPFを特定できるだけでなく、複数の音声メモが異なるファイル名となるように命名される。
上述した各例においては、1枚の画像ファイルPFに対して音声メモとしての音声ファイルAFが紐付けられる例を説明したが、画像グループ全体に関連付けられた音声ファイルAFの記録が許可されていてもよい。その場合には、例えば、複数の画像を一つの画像グループとしてまとめるための管理ファイルに画像グループ全体に関連付けられた音声ファイルAFを特定する情報を記録することで実現可能である。
<4.マイクロフォン音声についての処理>
本実施の形態では、音声メモのための収音はマイクロフォン25L、25Rを用いる。
マイクロフォン25L、25Rは、動画撮像時の周囲音の収音に用いるために搭載されている。つまり、マイクロフォン25L、25Rは、動画音声と音声メモの収音に共用される。
なお本開示では、動画と共に記録する動画と同期した音声を、説明上、音声メモと区別するために「動画音声」と表記する。
マイクロフォン25L、25Rにより収音された音声信号は、上述のように音声処理部26でデジタル音声信号(音声データ)に変換され、AGC処理、音質処理、ノイズリダクション処理などが行われるが、本実施の形態では、動画記録時(つまり動画音声の記録時)と、音声メモ記録時とで、これらの音声信号処理に関するパラメータが異なるようにする制御を行う。
図20に音声処理部26のパラメータに関するカメラ制御部18の制御処理の例を示す。
この図20の処理は、音声データの記録が開始されることになった時点で呼び出されるマイクロフォン準備処理である。例えばユーザによって動画記録の操作が行われて動画記録が開始されるときや、記録スタンバイの操作が行われ、その後の操作で動画記録が開始される可能性があるとき、或いは音声メモの記録操作が行われたときなどに、カメラ制御部18がこのマイクロフォン準備処理を行う。
ステップS301でカメラ制御部18は、今回のマイクロフォン準備処理が、動画音声の記録機会の処理か、音声メモの記録機会の処理かを判定する。
そして音声メモ記録機会であれば、カメラ制御部18はステップS302に進み、音声処理部26に対して音声メモ用のパラメータ設定を行う。
また動画音声の記録機会であれば、カメラ制御部18はステップS303に進み、音声処理部26に対して動画音声用のパラメータ設定を行う。
そしていずれ場合もカメラ制御部18はステップS304でマイクロフォン25L、25Rのオン制御(マイクアンプの通電等)を行い、マイクロフォン25L、25Rによる収音した音声信号の音声処理部26への供給を開始させる。
このような処理により、音声メモ記録時と、動画音声記録時では、音声処理部26での処理特性等が異なるように制御される。ステップS302,S303のパラメータ設定による処理の変化の具体的な例を以下挙げていく。
・AGC特性
音声処理部では、マイクロフォン25L、25Rにより得られるアナログ信号段階の音声信号、もしくはデジタルデータ化後の音声データについてAGC処理を行っている。このAGC処理のパラメータを変更してAGC特性を変化させる。
図21は動画記録時のAGC特性Smと、音声メモ記録時のAGC特性Svの例を示している。縦軸は出力(dBFS)、横軸は入力音圧(dBSPL)である。
動画音声に関しては、できるだけ広いダイナミックレンジを確保しつつ、音の歪みが生じないようにレベルコントロールが行われるようにすることで、動画に合わせて高品質な音声が得られるようにする。このため例えばAGC特性Smのような特性とする。
一方で音声メモは、あくまで後の再生時に、声による音声メモが明瞭に聞き取れることが重要である。このため小さい声であっても音圧レベルを上げて聞き取りやすくする一方、過大音圧による歪みを極力避けるためにコンプレッションがかかりやすくしたい。またダイナミックレンジの確保は重要ではない。そこで例えばAGC特性Svのような特性とする。
このような制御により、動画音声と音声メモは、それぞれ目的に合致した適切な音圧レベルの音声データとして記録されることになる。
なおAGC処理ではなく、或いはAGC処理の前段などで、音声信号(音声データ)に固定の入力ゲインを与える場合に、その入力ゲインを可変設定する場合もある。
その場合、動画音声の場合とで音声メモの場合とでパラメータ制御により入力ゲインを切り替えてもよい。例えば音声メモは撮像装置1に極めて近い位置で発声されることに応じて、入力ゲインを低めに設定することが考えられる。
また動画音声の入力ゲインをユーザが可変設定できる場合もある。そこで、動画音声のときは入力ゲインをユーザ設定のゲイン、音声メモのときは入力ゲインを固定設定したゲインとすることも考えられる。
・周波数特性
音声処理部26において音声データについてフィルタ処理やイコライジング処理により、周波数特性の調整や帯域制限等を行う。この場合に周波数特性を設定するパラメータを切り替えることで、音声メモと動画音声にそれぞれ適した処理が行われるようにする。
図22に動画記録時の周波数特性Fmと、音声メモ記録時の周波数特性Fvの例を示している。縦軸は出力(dBFS)、横軸は周波数(Hz)である。
動画音声に関しては、人の声だけに限らず多様な環境音を収録することが求められる。このため例えば周波数特性Fmのように比較的広い帯域でフラットとなる周波数特性が適している。
一方、音声メモは、収録目的が人の声であり、他はノイズとなる。そこで、例えば1kHz近辺を中心に比較的狭い帯域をターゲットとする周波数特性Fvを設定する。これにより人の声を収音し易くする一方、他の環境音、風切音等が減衰されるようにする。
・サンプリング周波数
音声処理部26ではA/D変換処理によりマイクロフォン25L、25Rにより得られるアナログ音声信号をデジタルデータに変換するが、動画音声に関しては、サンプリング周波数を48kHz、16ビット量子化の音声データに変換している。これにより比較的高音質な音声データが得られる。
一方で音声メモの場合は、さほどの高音質化は求められない。そこでA/D変換処理のサンプリング周波数を指定するパラメータの切り替えを行い、例えば音声メモ記録の場合は、A/D変換処理のサンプリング周波数を、例えば32kHzであるとか16kHzにするなどのように低下させることが考えられる。サンプリング周波数を低下させることにより、音声メモとしての音声データのデータ量も低減される。
音声メモは、音声ファイルAFとして画像ファイルPFとは別体のファイルで保存される。またFTPサーバ4へのアップロードの際も、音声ファイルAFと画像ファイルPFとがそれぞれ送信される。音声ファイルAFが画像ファイルPFに対する付加的な情報であることを考えると、データサイズが小さくなることは、必要な記録容量の負担を少なくすることや、送信データ量/送信時間の低減に繋がることとなり、望ましい。
なお構成上可能であれば、音声メモの場合は量子化ビット数を低下させてもよい。
・チャネル数
本実施の形態ではマイクロフォン25L、25Rを用意し、2チャネルステレオの音声データを生成している。動画音声としてはステレオ音声であることで、臨場感がある音声収録が実現される。
一方で音声メモに関しては、ステレオ音声データであってもよいが、その必要性は動画音声の場合ほどではない。そこでチャネル数を指定するパラメータの切り替えを行うことが考えられる。
即ちカメラ制御部18は、動画音声の場合は、チャネル設定パラメータによりステレオ音声データの処理を音声処理部26に指示し、音声メモの場合はモノラル音声データ処理を音声処理部26に指示する。
モノラル音声データ処理は、例えばマイクロフォン25L、25RによるLチャネル音声信号とRチャネル音声信号をミキシングしてモノラル音声信号とし、これに対して必要な信号処理を行うものとする。或いは、マイクロフォン25L、25Rのいずれか一方からの音声信号のみを用いるようにしてもよい。
動画音声の場合は2チャネルステレオ、音声メモの場合はモノラルとすることで、音声メモ(音声ファイルAF)のデータ量を低減できる。従って必要な記録容量の負担を少なくすることができ、また送信データ量/送信時間の低減の点でも望ましい。
・圧縮率
音声データについて圧縮処理を行う場合に、圧縮率を変更することが考えられる。即ち動画音声と音声メモの場合で、圧縮処理における圧縮率を指定するパラメータを切り替える。
音質を重視する動画音声の場合は、比較的低い圧縮率とする。一方、データサイズを小さくすることが望ましい音声メモの場合は、比較的高い圧縮率とする。
・指向特性
指向特性を音声処理部26の信号処理において例えばビームフォーミング等の手法を用いてコントロールすることができる。
なお、本実施の形態ではマイクロフォン25L、25Rとして2つのマイクロフォンを備えているが、3以上のマイクロフォンを搭載すれば、より指向特性の制御がし易くなる。
図23は動画記録時の指向特性Dmと、音声メモ記録時の指向特性Dvの例を示している。
動画音声の場合は、撮像している被写体方向の音声を主に収音したい。そこで指向特性Dmのように、それぞれLチャネル側のマイクロフォン25Lは左前方、Rチャネル側のマイクロフォン25Rに右前方に指向性を持つようにする。
音声メモの場合は、撮像装置1を使用するユーザが、例えば表示部15で画像を確認しながら声を発することになる。つまり撮像装置1にとっては後方からの音声となる。そこで指向特性Dvのように後方側に指向性をもつようにする。
このように制御することで、それぞれに適した収音が行われる。
以上のように、図20のステップS302,S303のパラメータ設定による処理の変化の例は各種考えられる。これら以外にも、例えばノイズリダクション処理、リバーブ処理、音響効果処理などについて、動画音声の場合と音声メモの場合とで、処理パラメータを変更し、処理内容を変化させることが想定される。
そしてステップS302,S303では、以上のいずれか1つのパラメータに関してのパラメータ設定制御を行ってもよいし、複数のパラメータに関してのパラメータ設定制御を行うようにしてもよい。
図24はカメラ制御部18のマイクロフォン準備処理としての他の例を示している。これはカメラ制御部18が動作モードの切り替えを監視してパラメータ切り替えを行う例である。動作モードとしては例えば、静止画撮像や動画撮像を行う撮像モード、画像再生を行う再生モード、各種の設定を行う設定モードなどがある。撮像モードでは静止画撮像モードと動画撮像モードが分けられる場合もある。
ここでは音声メモの記録は、再生モードにおいて、ユーザが静止画を再生表示させた状態で音声メモ記録の操作を行った場合に行われるものとする。
ステップS311でカメラ制御部18は、例えばユーザの操作に基づく動作モードの変更として、再生モードへの遷移があったか否かを確認し、またステップS312では再生モードが終了して他のモード(例えば撮像モード)への遷移があったか否かを確認する。
再生モードへの遷移があったときは、カメラ制御部18はステップS311からステップS313に進み、音声処理部26に対して音声メモ用のパラメータ設定を行う。
また再生モードの終了の際には、カメラ制御部18はステップS312からステップS314に進み、音声処理部26に対して動画音声用のパラメータ設定を行う。
再生モードの際には、音声データの記録が行われる機会は、音声メモ記録の場合のみである。そこで再生モードの期間は、音声処理部26に対して音声メモ用のパラメータ設定を行っておくものとする。
また再生モードではないときには、音声データの記録が行われる機会は、動画記録の場合のみであるとすると、音声処理部26に対して動画音声用のパラメータ設定を行っておけばよい。
このようにすることで、音声データの記録開始に先だって適切なパラメータ設定で準備しておくことができる。
実際に音声データの記録が開始されるときには、カメラ制御部18はマイクロフォン25L、25Rのオン制御(マイクアンプの通電等)を行い、マイクロフォン25L、25Rによる収音した音声信号の音声処理部26への供給を開始させる。このときにパラメータ設定に基づいた音声処理が実行される。
なお、音声メモの記録が静止画撮像モードにおいて、静止画を記録した直後の操作に応じて行われるようにする例も考えられる。
その場合は、静止画撮像モード時は音声処理部26に対して音声メモ用のパラメータ設定を行い、動画撮像モード時は音声処理部26に対して動画音声用のパラメータ設定を行っておくようにすることが考えられる。
<5.まとめ及び変形例>
以上の実施の形態によれば次のような効果が得られる。
実施の形態の撮像装置1は、マイクロフォン25L、25Rにより入力された音声信号について処理を行う音声処理部26と、音声処理部26で処理された音声データが撮像部12による撮像で得られた画像データとともに記録される撮像画像記録時と、音声処理部26で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御するカメラ制御部18を備えている。これにより撮像画像記録時と音声メモ記録時とで音声信号の処理に関するパラメータが異なるようにされる。
動画記録時は、撮像する動画に同期して周囲音声をマイクロフォン25L、25Rで収音して音声データとして記録する。このため動画に付随する音声として周囲の多様な音が適した音質や音量で得られるようにしたい。一方で音声メモ記録時には、ユーザが発する声が明瞭に収録できればよい。つまり音声データとして求められる特性が異なる。
そこで動画記録時と音声メモ記録時とで、音声処理パラメータが異なるようにすることで、それぞれに適した音声データが得られるように音声処理を制御することができる。
またこれにより、マイクロフォン25L、25Rを、動画音声の収録と音声メモの収録に適切に共用でき、例えば音声メモのために別途専用のマイクロフォンを設ける必要はない。従って撮像装置1においては、筐体内の部品配置の容易化や製造コスト低下という利点が得られる。
なお、撮像画像記録時と音声メモ記録時とで音声信号の処理に関するパラメータを別個に制御することで、結果として上述の例のようにパラメータが異なるようになることが想定されるが、別個の制御の結果として同じパラメータとなる場合もあり得る。
もちろん、カメラ制御部18は動画記録時と、音声メモ記録時とで、音声信号の処理に関するパラメータが異なるようにする制御を行うようにし、それぞれに応じた異なるパラメータ設定がされるようにすることも考えられる。
また実施の形態では動画記録時と音声メモ記録時について説明したが、静止画記録時に所定時間(例えば数秒)の周囲音声を収音し静止画に対応する音声として記録させる場合もある。そのような場合は、音声処理のパラメータは動画記録時と同様とすればよい。
実施の形態では、カメラ制御部18は、音声データの記録を開始する際に、開始する音声データの記録が、撮像画像記録時(例えば動画記録時)の音声記録であるか、音声メモ記録時の音声記録かに応じて、パラメータの切り替え制御を行う例を述べた(図20参照)。
これにより必要なタイミングで音声処理部26のパラメータを、音声データの記録目的に対して適したパラメータに設定できる。
実施の形態では、カメラ制御部18は、動作モードの切り替えに応じて前記パラメータの切り替え制御を行う例も述べた(図24参照)。
これにより必要なタイミングで音声処理部26のパラメータを、音声データの記録目的に適したパラメータに設定できる。例えば音声メモ記録が再生モードにおいて実行されるものである場合、再生モードとされたときに、パラメータ設定を音声メモ用に変更すればよい。また動画記録モードとされたらパラメータ設定を動画音声用に変更すればよい。モード遷移に応じてパラメータ切り替えを行うことで、実際の音声データ記録の開始時の処理負荷の軽減や、パラメータ設定変更に伴い音声処理の開始の遅れを生じさせないといった利点が得られる。
実施の形態では、音声処理部26でのゲイン処理に関する設定を行うパラメータが音声メモ記録時と動画記録時とで切り替えられる例を挙げた。例えば音声処理部のAGC特性を設定するパラメータや、固定の入力ゲインを指定するパラメータ等である。
これにより動画音声、音声メモのそれぞれに適したAGC処理や入力ゲイン処理が行われるようになる。例えば音声メモの音声にはダイナミックレンジはあまり必要なく、ある程度コンプレッションがかけられていた方がよい。一方で動画音声はダイナミックレンジが広い方が臨場感もあり、望ましい音となる。これらに応じて適切なAGC処理が行われるようになる。
実施の形態では、音声処理部26が音声データに与える周波数特性を設定するパラメータが音声メモ記録時と動画記録時とで切り替えられる例を挙げた。
例えば音声処理部26でフィルタ処理やイコライジング処理が行われる場合に、その周波数特性を設定するパラメータである。
これにより動画音声、音声メモのそれぞれに適した周波数特性の音声データが得られるようになる。例えば動画音声には、人の声や周辺の環境音などで多様な音が含まれ、広い周波数特性が求められる。一方、音声メモは人の声のみを目的とした収音となるので、人の声が明瞭に聞こえる帯域であればよい。このような事情に応じて周波数特性を設定するパラメータを切り替えれば、それぞれに適した周波数特性の音声データが得られる。
実施の形態では、マイクロフォン25L、25Rの指向性を設定するパラメータが音声メモ記録時と動画記録時とで切り替えられる例を挙げた。
これにより動画音声、音声メモのそれぞれに適した指向性を与えたマイクロフォンにより音声収音ができる。例えば動画音声には、周辺の環境音を広く収音し、またステレオ収音するために、各マイクロフォン25L、25Rが、それぞれ左右に比較的広い指向性を有することが望ましい。一方、音声メモは、撮像装置1を所持するユーザの音声を拾うため、撮像装置1の背面側の音声を拾える指向性が望ましい。このため動画記録時か音声メモ記録時かにより指向性を切り替えることで、それぞれ望ましい収音が可能となる。
実施の形態では、音声処理部26で音声データのデータ量の変化を生じさせる処理に関するパラメータが音声メモ記録時と動画記録時とで切り替えられる例を挙げた。
音声データのデータ量の変化を生じさせる処理に関するパラメータとしては、サンプリング周波数を設定するパラメータ、圧縮レートを指定するパラメータ、チャネル数を指定するパラメータ、量子化ビット数を指定するパラメータなどが想定される。
例えば動画音声の音声データとしては、音声メモと比較すると、データ量を少なくするよりも高音質であることが望まれるため、サンプリング周波数を高くしたり、圧縮率を下げたり、2チャネルのステレオ音声データとして処理させる。一方で音声メモは、その内容がわかればよいのでさほど高音質である必要はなく、それよりも保存やアップロードのためにデータ量が少ない方が望ましい。そこで、サンプリング周波数を低くしたり、圧縮率を上げたり、モノラルデータとすることなどを行う。これにより、動画音声と音声メモのそれぞれの事情に応じた音声データを得ることができる。
なお、撮像画像記録時と音声メモ記録時とで変更するパラメータとしては、以上のAGC特性、周波数特性、指向性、データ量を変化させるパラメータの他にも各種想定される。例えばノイズキャンセル処理の手法やキャンセルレベルを変化させるようなことが考えられる。
実施の形態では、音声メモは、1つの静止画データに関連づけられる音声データであるとした。
このような音声メモにより、1つの静止画データについての内容、被写体、場面などの説明や注釈を付与することが容易に可能となる。
実施の形態では、1つの静止画データが指定された状態で、マイクロフォン25L、25Rにより入力され、音声処理部26で処理された音声データが、指定された静止画データに関連づけられた音声メモとされることを説明した。
ユーザは、例えば再生モードで1つの静止画を表示させながら、所定操作を行うことで音声を入力する。これにより得られた音声データが音声メモとして記録される。ユーザは静止画を表示させて視認しながら音声を発すればよく、簡単且つ正確に音声メモ記録を行うことができる。
実施の形態の音声メモは、1つの静止画データに関連づけられる音声データであり、静止画データを含む画像ファイルとは別の音声ファイルとして記録されるものとした。
例えば静止画データが画像ファイルPFとして記録され、音声メモの音声データが音声ファイルAFとして記録された状態で、その音声メモが、静止画データと関連づけられる状態で管理される。
音声メモは、例えば静止画データに付加されるメタデータではなく、独立した音声ファイルとされることで、静止画データを含む画像ファイルとは独立して扱うことができる。一方で例えば拡張子以外が同じファイル名とされるなどにより関連付け管理がされることで、対応関係が維持され、音声メモの機能を発揮できる。
実施の形態の撮像装置1では、撮像画像記録時として、特に動画記録時に音声処理部26で処理された音声データが、動画データに同期した動画音声として記録される。
即ちマイクロフォン25L、25Rが動画音声の収音と音声メモの収音に共用されつつ、パラメータ設定制御により、それぞれに適した音声データが得られるようになる。
実施の形態の撮像装置1はマイクロフォン25L、25Rを有する。即ち撮像装置1の内蔵のマイクロフォン25L、25Rを音声メモと動画音声の収音に共用する場合に本開示の技術を適用できる。
なお別体のマイクロフォンを撮像装置1に接続して用いる場合でも本技術は適用できる。また内蔵又は接続するマイクロフォンは1つでもよく、モノラル音声データとして動画音声や音声メモが得られるようにしてもよい。
実施の形態の撮像装置1では。マイクロフォン25L、25Rにより複数チャネル(2チャネル)の音声収音が行われるとともに、マイクロフォン入力レベルの表示がチャネル毎に行われる(図9参照)。
ステレオ入力等の複数チャネル入力に対応して、各チャネルのマイクロフォン入力レベル(音圧レベル)が表示されることで、ユーザは記録中にリアルタイムに表示されるインジケータを見ながら、適正な音量となるように、マイクロフォンとの間の距離などを調整できる。この場合に、左右それぞれの音圧が確認できることで、ユーザは、調整をより適切に行うことができる。例えば発声する際の顔の位置を右よりにするか、左よりにするかなどを調整しやすい。
実施の形態のプログラムは、図20や図24のような処理を、例えば撮像装置1内のCPU、DSP等の演算処理装置に実行させるプログラムである。
即ち実施の形態のプログラムは、マイクロフォン25L、25Rにより入力された音声信号について処理を行う音声処理部26で処理された音声データが、撮像部12による撮像で得られた画像データとともに記録される撮像画像記録時と、音声処理部26で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する処理を演算処理装置に実行させる。
このようなプログラムを例えばファームウェアとして撮像装置1(カメラ制御部18)に組み込むことで、本技術の撮像装置1を容易に実現できる。
このようなプログラムはコンピュータ装置等の機器に内蔵されている記録媒体としてのHDDや、CPUを有するマイクロコンピュータ内のROM等に予め記録しておくことができる。
あるいはまた、フレキシブルディスク、CD−ROM(Compact Disc Read Only Memory)、MO(Magneto Optical)ディスク、DVD(Digital Versatile Disc)、ブルーレイディスク(Blu-ray Disc(登録商標))、磁気ディスク、半導体メモリ、メモリカードなどのリムーバブル記録媒体に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体は、いわゆるパッケージソフトウェアとして提供することができる。
また、このようなプログラムは、リムーバブル記録媒体からパーソナルコンピュータ等にインストールする他、ダウンロードサイトから、LAN(Local Area Network)、インターネットなどのネットワークを介してダウンロードすることもできる。
なお、本明細書に記載された効果はあくまでも例示であって限定されるものではなく、また他の効果があってもよい。
なお本技術は以下のような構成も採ることができる。
(1)
マイクロフォンにより入力された音声信号について処理を行う音声処理部と、
前記音声処理部で処理された音声データが撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する制御部と、を備えた
撮像装置。
(2)
前記制御部は、前記撮像画像記録時と、前記音声メモ記録時とで、音声信号の処理に関するパラメータが異なるようにする制御を行う
上記(1)に記載の撮像装置。
(3)
前記制御部は、音声データの記録を開始する際に、開始する音声データの記録が、撮像画像記録時の音声記録であるか、音声メモ記録時の音声記録であるかに応じて、前記パラメータの切り替え制御を行う
上記(1)又は(2)に記載の撮像装置。
(4)
前記制御部は、動作モードの切り替えに応じて前記パラメータの切り替え制御を行う
上記(1)から(3)のいずれかに記載の撮像装置。
(5)
前記パラメータは、前記音声処理部でのゲイン処理に関する設定を行うパラメータを含む
上記(1)から(4)のいずれかに記載の撮像装置。
(6)
前記パラメータは、前記音声処理部が音声データに与える周波数特性を設定するパラメータを含む
上記(1)から(5)のいずれかに記載の撮像装置。
(7)
前記パラメータは、前記マイクロフォンの指向性を設定するパラメータを含む
上記(1)から(6)のいずれかに記載の撮像装置。
(8)
前記パラメータは、音声データのデータ量の変化を生じさせる処理に関するパラメータを含む
上記(1)から(7)のいずれかに記載の撮像装置。
(9)
前記音声メモは、1つの静止画データに関連づけられる音声データである
上記(1)から(8)のいずれかに記載の撮像装置。
(10)
1つの静止画データが指定された状態で、前記マイクロフォンにより入力され、前記音声処理部で処理された音声データが、指定された静止画データに関連づけられた前記音声メモとされる
上記(1)から(9)のいずれかに記載の撮像装置。
(11)
前記音声メモは、1つの静止画データに関連づけられる音声データであり、前記静止画データを含む画像ファイルとは別の音声ファイルとして記録される
上記(1)から(10)のいずれかに記載の撮像装置。
(12)
前記撮像画像記録時とは動画記録時であり、前記音声処理部で処理された音声データは、動画データに同期した動画音声として記録される
上記(1)から(11)のいずれかに記載の撮像装置。
(13)
前記マイクロフォンを有する
上記(1)から(12)のいずれかに記載の撮像装置。
(14)
前記マイクロフォンにより複数チャネルの音声収音が行われるとともに、
マイクロフォン入力レベルの表示がチャネル毎に行われる
上記(1)から(13)のいずれかに記載の撮像装置。
(15)
前記マイクロフォンは、
前記撮像画像記録時と前記音声メモ記録時の両方で音声データを得るための収音に使用されるマイクロフォンである
上記(1)から(14)のいずれかに記載の撮像装置。
(16)
マイクロフォンにより入力された音声信号について処理を行う音声処理部で処理された音声データが、撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する
音声処理方法。
(17)
マイクロフォンにより入力された音声信号について処理を行う音声処理部で処理された音声データが、撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する処理を
演算処理装置に実行させるプログラム。
1 撮像装置
11 レンズ系
12 撮像部
13 カメラ信号処理部
14 記録制御部
15 表示部
16 通信部
17 操作部
18 カメラ制御部
19 メモリ部
22 ドライバ部
23 センサ部
25 音声入力部
25L,25R マイクロフォン
26 音声処理部

Claims (17)

  1. マイクロフォンにより入力された音声信号について処理を行う音声処理部と、
    前記音声処理部で処理された音声データが撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する制御部と、を備えた
    撮像装置。
  2. 前記制御部は、前記撮像画像記録時と、前記音声メモ記録時とで、音声信号の処理に関するパラメータが異なるようにする制御を行う
    請求項1に記載の撮像装置。
  3. 前記制御部は、音声データの記録を開始する際に、開始する音声データの記録が、撮像画像記録時の音声記録であるか、音声メモ記録時の音声記録であるかに応じて、前記パラメータの切り替え制御を行う
    請求項1に記載の撮像装置。
  4. 前記制御部は、動作モードの切り替えに応じて前記パラメータの切り替え制御を行う
    請求項1に記載の撮像装置。
  5. 前記パラメータは、前記音声処理部でのゲイン処理に関する設定を行うパラメータを含む
    請求項1に記載の撮像装置。
  6. 前記パラメータは、前記音声処理部が音声データに与える周波数特性を設定するパラメータを含む
    請求項1に記載の撮像装置。
  7. 前記パラメータは、前記マイクロフォンの指向性を設定するパラメータを含む
    請求項1に記載の撮像装置。
  8. 前記パラメータは、音声データのデータ量の変化を生じさせる処理に関するパラメータを含む
    請求項1に記載の撮像装置。
  9. 前記音声メモは、1つの静止画データに関連づけられる音声データである
    請求項1に記載の撮像装置。
  10. 1つの静止画データが指定された状態で、前記マイクロフォンにより入力され、前記音声処理部で処理された音声データが、指定された静止画データに関連づけられた前記音声メモとされる
    請求項1に記載の撮像装置。
  11. 前記音声メモは、1つの静止画データに関連づけられる音声データであり、前記静止画データを含む画像ファイルとは別の音声ファイルとして記録される
    請求項1に記載の撮像装置。
  12. 前記撮像画像記録時とは動画記録時であり、前記音声処理部で処理された音声データは、動画データに同期した動画音声として記録される
    請求項1に記載の撮像装置。
  13. 前記マイクロフォンを有する
    請求項1に記載の撮像装置。
  14. 前記マイクロフォンにより複数チャネルの音声収音が行われるとともに、
    マイクロフォン入力レベルの表示がチャネル毎に行われる
    請求項1に記載の撮像装置。
  15. 前記マイクロフォンは、
    前記撮像画像記録時と前記音声メモ記録時の両方で音声データを得るための収音に使用されるマイクロフォンである
    請求項1に記載の撮像装置。
  16. マイクロフォンにより入力された音声信号について処理を行う音声処理部で処理された音声データが、撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する
    音声処理方法。
  17. マイクロフォンにより入力された音声信号について処理を行う音声処理部で処理された音声データが、撮像部による撮像で得られた画像データとともに記録される撮像画像記録時と、前記音声処理部で処理された音声データが音声メモとして記録される音声メモ記録時とで、音声信号の処理に関するパラメータを別個に制御する処理を
    演算処理装置に実行させるプログラム。
JP2019179413A 2019-09-30 2019-09-30 撮像装置、音声処理方法、プログラム Pending JP2021057764A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019179413A JP2021057764A (ja) 2019-09-30 2019-09-30 撮像装置、音声処理方法、プログラム
PCT/JP2020/034176 WO2021065398A1 (en) 2019-09-30 2020-09-09 Imaging apparatus, sound processing method, and program
US17/753,958 US20220329732A1 (en) 2019-09-30 2020-09-09 Imaging apparatus, sound processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019179413A JP2021057764A (ja) 2019-09-30 2019-09-30 撮像装置、音声処理方法、プログラム

Publications (1)

Publication Number Publication Date
JP2021057764A true JP2021057764A (ja) 2021-04-08

Family

ID=72659276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019179413A Pending JP2021057764A (ja) 2019-09-30 2019-09-30 撮像装置、音声処理方法、プログラム

Country Status (3)

Country Link
US (1) US20220329732A1 (ja)
JP (1) JP2021057764A (ja)
WO (1) WO2021065398A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11468904B2 (en) * 2019-12-18 2022-10-11 Audio Analytic Ltd Computer apparatus and method implementing sound detection with an image capture system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1155615A (ja) * 1997-07-30 1999-02-26 Sanyo Electric Co Ltd ディジタルカメラ
JP2000231400A (ja) * 1999-02-10 2000-08-22 Olympus Optical Co Ltd 画像処理装置
JP2003284178A (ja) * 2002-03-22 2003-10-03 Ricoh Co Ltd 音声録音機能を備えた電気機器
JP2006064945A (ja) * 2004-08-26 2006-03-09 Nikon Corp 閃光装置およびカメラシステム
JP2019021966A (ja) * 2017-07-11 2019-02-07 オリンパス株式会社 収音装置および収音方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6249316B1 (en) * 1996-08-23 2001-06-19 Flashpoint Technology, Inc. Method and system for creating a temporary group of images on a digital camera
JP4429394B2 (ja) * 1997-06-17 2010-03-10 株式会社ニコン 情報処理装置および記録媒体
JP2004274502A (ja) * 2003-03-10 2004-09-30 Minolta Co Ltd デジタルカメラ
JP2005293339A (ja) 2004-04-01 2005-10-20 Sony Corp 情報処理装置および情報処理方法
US20060092291A1 (en) * 2004-10-28 2006-05-04 Bodie Jeffrey C Digital imaging system
JP2018093325A (ja) 2016-12-01 2018-06-14 ソニーセミコンダクタソリューションズ株式会社 情報処理装置、情報処理方法、及びプログラム
JP2018152724A (ja) * 2017-03-13 2018-09-27 オリンパス株式会社 情報端末装置、情報処理システム、情報処理方法及び情報処理プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1155615A (ja) * 1997-07-30 1999-02-26 Sanyo Electric Co Ltd ディジタルカメラ
JP2000231400A (ja) * 1999-02-10 2000-08-22 Olympus Optical Co Ltd 画像処理装置
JP2003284178A (ja) * 2002-03-22 2003-10-03 Ricoh Co Ltd 音声録音機能を備えた電気機器
JP2006064945A (ja) * 2004-08-26 2006-03-09 Nikon Corp 閃光装置およびカメラシステム
JP2019021966A (ja) * 2017-07-11 2019-02-07 オリンパス株式会社 収音装置および収音方法

Also Published As

Publication number Publication date
US20220329732A1 (en) 2022-10-13
WO2021065398A1 (en) 2021-04-08

Similar Documents

Publication Publication Date Title
JP4768028B2 (ja) 画像キャプチャの方法およびデバイス
JP2004312495A (ja) 画像処理プログラム及び画像処理装置
JP5253725B2 (ja) 動画撮影機能付き移動通信端末機及びその動作方法
JP2011250340A (ja) 撮像装置およびその制御方法
JP5743512B2 (ja) 撮像装置とその制御方法
JP7380025B2 (ja) 撮像装置、情報処理方法、プログラム
JP2005228400A (ja) 音声記録装置及び音声記録方法
WO2021065398A1 (en) Imaging apparatus, sound processing method, and program
JP4500465B2 (ja) 撮像装置およびその制御方法
JP2004297177A (ja) 画像処理装置
JP2000354190A (ja) 映像記録装置
JP5836578B2 (ja) 撮像装置、撮像装置の制御方法及びプログラム
JP4089236B2 (ja) 電子カメラ
JP5712599B2 (ja) 撮像装置及びプログラム
JP4470946B2 (ja) 電子カメラ
WO2021065405A1 (en) Imaging apparatus, information processing method, and program
JP2006217111A (ja) 動画撮影装置、及び動画撮影方法
JP2005026889A (ja) 電子カメラ
JP2004088518A (ja) 撮像記録装置、画像再生装置及び画像記録再生制御プログラム
JP5672330B2 (ja) 撮像装置、撮像装置制御プログラム及び撮像制御方法
JP4105459B2 (ja) 撮影機能と音声録音機能を備えた電気機器
JP7353797B2 (ja) 電子機器、その制御方法、およびそのプログラム
JP2009239930A (ja) 動画撮影装置、及び、プログラム
KR20060057748A (ko) 영상과 음성이 연동되어 가변되는 장치 및 방법
JP2005117077A (ja) 携帯電子機器およびデータ再生方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220808

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240411

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240625