JP2010124039A - 撮像装置 - Google Patents

撮像装置 Download PDF

Info

Publication number
JP2010124039A
JP2010124039A JP2008293280A JP2008293280A JP2010124039A JP 2010124039 A JP2010124039 A JP 2010124039A JP 2008293280 A JP2008293280 A JP 2008293280A JP 2008293280 A JP2008293280 A JP 2008293280A JP 2010124039 A JP2010124039 A JP 2010124039A
Authority
JP
Japan
Prior art keywords
image
voice
voice recognition
text
subject
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008293280A
Other languages
English (en)
Inventor
Yasuhiro Yamamoto
康裕 山元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hoya Corp
Original Assignee
Hoya Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hoya Corp filed Critical Hoya Corp
Priority to JP2008293280A priority Critical patent/JP2010124039A/ja
Priority to US12/612,883 priority patent/US8441553B2/en
Publication of JP2010124039A publication Critical patent/JP2010124039A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Studio Devices (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】ユーザが求める文字列を迅速かつ簡単に画像中に記録可能な撮像装置を得る。
【解決手段】サンプリング部がマイクを介して「かわいい」という音声をサンプリングする。サンプリング部は音声をデジタル音声信号に変換して、認識部に送信する。認識部は、「かわいい」というデジタル音声信号を、音声認識メモリに記憶された音声認識辞書データを参照しながら、「かわいい」というテキストデータに変換し、テキスト処理部に送信する。音声認識辞書データは、ペットを撮影する場合、「かわいい」という言葉を使用する頻度が高いと記憶している。そのため、マイクから入力された音声が認識しづらい場合であっても、「かわいい」という音声を容易に認識することができる。テキスト処理部は、「かわいい」というテキストデータを画像に変換する。合成部は、テキスト形状データを撮影画像と合成し合成撮影画像を作成する。
【選択図】図5

Description

本発明は、音声認識により得られた文字情報を撮影画像に合成する撮像装置に関する。
従来、フィルムの所定の位置に磁気データとして所望の文字列を書き込み可能なカメラが知られている。ユーザはあらかじめ複数の文字列をカメラに設定しておき、撮影した画像に応じて所望の文字列を選択する。カメラは、選択された文字列を撮影画像に関連付けてフィルムに書き込む(特許文献1)。
特開平10−319493号公報
しかし、あらかじめ設定済みの文字列を選択する構成では、設定済みの文字列の中にユーザの求める文字列が存在しないおそれがある。このとき撮影後に文字列を入力する構成ではシャッターチャンスを逃してしまうおそれがある。
本発明は、これらの問題を鑑みてなされたものであり、ユーザが求める文字列を迅速かつ簡単に画像中に記録可能な撮像装置を得ることを目的とする。
本願第1の発明による撮像装置は、被写体を撮像して画像を出力する画像取得手段と、周囲の音声を検出する音声検出手段と、音声検出手段が検出した音声を認識して文字情報に変換する音声認識手段と、音声認識手段が得た文字情報を画像に合成する画像合成手段とを備えることを特徴とする。
撮像装置は、画像取得手段に撮像信号を送信するレリーズボタンをさらに備え、画像取得手段は、撮像信号を受信したときに被写体を撮像して画像を出力し、音声認識手段は、レリーズボタンが撮像信号を送信した時より前の所定期間に音声検出手段が検出した音声を認識することが好ましい。
撮像装置は、画像取得手段が画像を出力する前に、画像取得手段を介して得られた被写体像をスルー画像として表示する画像表示手段をさらに備え、画像表示手段がスルー画像を表示しているときに音声検出手段が検出した音声を、音声認識手段が認識してもよい。
撮像装置は、音声認識手段が音声認識に用いる言語を設定する言語設定手段を備え、音声認識手段は、言語設定手段により設定された言語を用いて音声を認識してもよい。
画像取得手段は被写体に応じて撮影条件を変更し、音声認識手段は、撮影条件に応じて音声を認識してもよい。
音声検出手段は、人間の声の周波数帯に属する音声を周囲の音声から検出することが好ましい。
以上のように本発明によれば、ユーザが求める文字列を迅速かつ簡単に画像中に記録可能な撮像装置を得る。
以下、本発明による一実施形態について、図を用いて説明する。
まず、本実施形態による撮像装置であるデジタルカメラ100の構成について図1から4を用いて説明する。デジタルカメラ100は、例えばコンパクトカメラである。
デジタルカメラ100は、デジタルカメラ100の動作を制御するDSP131と、デジタルカメラ100を操作するために用いられる操作部材110と、被写体像をデジタル画像信号に変換する撮像部120と、デジタルカメラ100外部の音声を電気信号に変換するマイク115と、DSP131から送信されるデータを記憶するメモリ132と、撮影された画像を記録するSDカード133と、撮影のための情報や撮影済みの画像を表示するLCD114とから主に構成される。
撮像部120は、撮影レンズ121、シャッタ123、絞り、CCD124、AFE(アナログ・フロント・エンド)125、そして、撮影レンズ121、シャッタ123、及び絞りを駆動する駆動回路126とから主に構成される。
撮影レンズ121は、駆動回路126が合焦光学系の位置を制御することによりピントが調節され、被写体像をCCD124の撮像面に結像させる。絞りは、撮影レンズ121からCCD124に向かう光束を制御して、撮像面に結像する被写体像の光量を制御する。シャッタ123は、撮像面に被写体像が照射される期間を制御する。CCD124は、撮像面に結像した被写体像をアナログ画像信号に変換して、AFE125に送信する。AFE125は、アナログ画像信号に対してゲインの調整などを行った後にデジタル画像信号に変換して、DSP131に送信する。駆動回路126は、DSP131からの信号に応じて、合焦光学系の位置、絞りの開度、及びシャッタスピード値を制御する。
撮像前におけるDSP131は、デジタル画像信号に含まれる被写体像の光量を用いて被写体を測光する。これにより得られた測光値を用いて露光値を演算し、この露光値に基づき撮影に必要となる絞り値及びシャッタスピード値を演算する。そして、演算された絞り値及びシャッタスピード値を駆動回路126に送信する。さらに、DSP131は、受信したデジタル画像信号を用いて合焦光学系の位置を決定し、駆動回路126に合焦光学系の位置を送信する。また、AFE125からデジタル画像信号が送信されると、DSP131は、デジタル画像信号を用いてホワイトバランスを調整し、得られた画像をスルー画像としてLCD114に送信する。
撮像時におけるDSP131は、デジタル画像信号を受信して画像処理を行い、撮影画像を作成する。そして、撮影画像をSDカード133に保存し、LCD114に表示する。メモリ132は、DSP131がこれらの演算及び画像処理等を実行するときに、一時的にデータを記録する作業メモリとして使用される。
DSP131は、顔検出処理を行う。顔検出処理は、デジタル画像信号により形成される撮影画像に含まれる顔の位置及び大きさを検出する処理である。検出された顔の位置及び大きさは、指示枠を用いてスルー画像中に示される。DSP131は、検出された顔に対して露光値を演算し、ホワイトバランスを調整する。これにより、検出された顔に対してピント及び露出が調節された撮影画像を得る。検出された顔が複数存在する場合、DSP131は、後述する主被写体判定処理を実行することにより、指示枠が表示された顔の中から露光値を求めるべき顔を主被写体として選択し、選択された顔に対して露光値を演算し、ホワイトバランスを調整する。なお、主被写体とは、ユーザが意図する可能性が高い被写体をいう。
DSP131は、音声認識処理を実行するための音声認識部140を備える。音声認識部140は、マイク115からの音声が入力されるサンプリング部141と、音声認識を行う認識部142と、作業メモリとして使用される音声認識メモリ143と、音声認識により得られたテキストデータをテキスト形状データに変換するテキスト処理部144と、テキスト形状データと画像データとを合成する合成部145と、音声認識を行うために用いる認識言語を検知するメニュー設定部146と、デジタルカメラ100の撮影モードを検知するモード設定部147とから構成される。
音声認識メモリ143は、サンプリング部141がサンプリングして得られたデジタル音声信号を一時的に記憶するほか、認識言語に応じた音声認識辞書データを記憶する。テキスト形状データは、テキストを画像として表現した画像データである。音声認識辞書データは、デジタル音声信号とテキストデータとの対応関係を示すデータである。撮影モードに応じて、使用される頻度の高いテキストが定義される。これにより、音声の認識率を向上させることができる。音声データ認識言語及び撮影モードは、後述するモード設定ボタン113を操作することにより決定される。
LCD114は、撮影画像と同じ3対4の縦横比を有する長方形である。図1に示すように、デジタルカメラ100の左右方向に延びるようにデジタルカメラ100の背面略中央に設けられる。撮像レンズ121を介して得られた画像、撮影済みの撮影画像、及びデジタルカメラ100の各種設定を表示可能である。また、LCD114は、DSP131が送信したスルー画像を表示する。
操作部材110は、主電源ボタン111、レリーズボタン112、モード設定ボタン113を有する。
主電源ボタン111は、デジタルカメラ100の上面から突出するモーメンタリスイッチである。ユーザが主電源ボタン111を押圧すると、デジタルカメラ100の電源が投入される。デジタルカメラ100の電源が入れられているときにユーザが主電源ボタン111を押圧すると、デジタルカメラ100の電源が切断される。
レリーズボタン112は、二段式のモーメンタリスイッチであり、デジタルカメラ100の頂面に設けられる。ユーザがレリーズボタン112を半押しすると測光や測距及び合焦動作が行われ、全押しすると撮像動作が行われる。
モード設定ボタン113は、デジタルカメラ100の背面に設けられるシーソー式スイッチである。ユーザがモード設定ボタン113を押圧すると、デジタルカメラ100の動作状態が撮影モード設定状態に切り替えられ、LCD114に撮影モードを設定するための画面が表示される。
ユーザはモード設定ボタン113を操作して、LCD114に表示された複数の撮影モードから所望のモード、例えばペットモード、風景モードを選択する。ペットモードは、ペットとなりうるような小動物を撮影するのに適した撮影モードである。風景モードは、遠方かつ広大な範囲の景色を撮影するのに適した撮影モードである。
さらに、ユーザは、モード設定ボタン113を操作することにより、デジタルカメラ100が有する各種の機能、例えば音声認識機能を有効又は無効にすることが可能である。音声認識機能は、撮影時及び撮影の前後に認識された言葉を画像の所定位置にインポーズし、得られた撮影画像を記録する機能である。
モード設定ボタン113を操作することにより、ユーザはデジタルカメラ100の言語設定を変更することができる。まず、ユーザがデジタルカメラ100を言語設定モードに変更すると、言語設定画面がLCD114に表示される(図4参照)。言語設定画面において、ユーザがモード設定ボタン113を操作すると、デジタルカメラ100において使用可能な言語、例えば、日本語、英語、イタリア語等が一覧となってLCD114に表示される。ユーザは、表示された言語の中から所望の言語を選択する。これにより、LCD114の表示において選択された言語が使用される。
SDカード133は、デジタルカメラ100の側面に設けられるカードスロット116に脱着自在に格納される。ユーザは、デジタルカメラ100の外部からSDカード133にアクセスして、自由に交換することが可能である。
マイク115は、カメラの上面に設けられ、デジタルカメラ100外部の音声をデジタル音声信号に変換してDSP131に送信する。
次に、音声認識処理について図3から5を用いて説明する。
音声認識処理は、音声認識機能が有効であって、LCD114にスルー画像が表示されている場合に実行される。
まず、モード設定部147を介して、撮影モードが確認される。次に、メニュー設定部146を介して認識言語を検知する。ここでは、撮影モードがペットモードであり、かつ認識言語が日本語に設定されているとして説明する。
次に、サンプリング部141がマイク115を介して音声をサンプリングする。サンプリング部141は音声をデジタル音声信号に変換して、認識部142に送信する。ユーザが「かわいい」と発音した場合、「かわいい」という音声がデジタル音声信号として認識部142に送信される。
認識部142は、デジタル音声信号を受信して、音声認識メモリ143に記憶された音声認識辞書データを参照しながら、デジタル音声信号をテキストデータに変換する。ここで用いられる音声認識辞書データは、音声認識メモリ143が記憶する音声認識辞書データのうち、ユーザが言語設定画面を用いて選択した音声データ認識言語に対応したものが用いられる。またテキストデータへの変換は、音声データ認識言語に適したアルゴリズムが用いられる。音声認識辞書データは、ペットを撮影する場合、「かわいい」という言葉を使用する頻度が高いと記憶している。そのため、マイク115から入力された音声が認識しづらい場合であっても、「かわいい」という音声を容易に認識することができる。そして、得られたテキストデータをテキスト処理部144に送信する。このとき、音声認識メモリ143は認識部142の作業メモリとして使用される。これにより、「かわいい」というデジタル音声信号が「かわいい」というテキストデータに変換され、テキスト処理部144に送信される。
また、例えば撮影モードが風景モードであって、音声データ認識言語が英語である場合、音声認識辞書データは、「Beautiful」や「Wonderful」という言葉を使用する頻度が高いと記憶する。
テキスト処理部144は、テキストデータをテキスト形状データに変換する。そして、得られたテキスト形状データを合成部145に送信する。これにより、「かわいい」というテキストデータが画像となる。
合成部145は、テキスト形状データをスルー画像と合成する。そして、得られた合成スルー画像をLCD114に送信する。LCD114は合成スルー画像を表示する(図5参照)。
顔認識処理を用いて主被写体と判断された顔に、テキスト形状データが重畳することがある。そのような場合には、テキストデータの文字数、テキスト形状データの大きさ、又はスルー画像中における顔の大きさに応じて画角を変更し、テキスト形状データを合成する領域を確保する。なお、テキスト形状データの大きさを変更してもよい。これにより、テキストデータの文字数が多くなった場合でも、テキスト形状データが主被写体に重畳することなく合成される。
そして、レリーズボタン112が全押しされると、合成部145は、テキスト形状データを撮影画像と合成し合成撮影画像を作成する。そして、DSP131は、得られた合成撮影画像をSDカード133に記録する(図5参照)。
本実施形態によれば、ユーザが求める文字列を迅速かつ簡単に画像中に記録することができる。また、撮影モード、及びデジタルカメラ100の認識言語に応じて音声認識を行うため、より正確に音声認識を行うことができる。
なお、言語設定及び撮影モードの両方に応じて音声認識を行わなくてもよく、いずれか1つ、又はこれらの設定を用いずに音声認識を行ってもよい。
本発明による主被写体判別装置を有するデジタルカメラの背面斜視図である。 デジタルカメラのブロック図である。 音声認識部を示すブロック図である。 言語設定画面を模式的に示した図である。 主被写体判別処理により得られた画像を模式的に示した図である。
符号の説明
100 デジタルカメラ
110 操作部材
111 主電源ボタン
112 レリーズボタン
113 モード設定ボタン
114 LCD
115 マイク
116 カードスロット
120 撮像部
121 撮影レンズ
123 シャッタ
124 CCD
125 AFE
126 駆動回路
131 DSP
132 メモリ
133 SDカード
140 音声認識部
141 サンプリング部
142 認識部
143 音声認識メモリ
144 テキスト処理部
145 合成部
146 メニュー設定部
147 モード設定部

Claims (6)

  1. 被写体を撮像して画像を出力する画像取得手段と、
    周囲の音声を検出する音声検出手段と、
    前記音声検出手段が検出した音声を認識して文字情報に変換する音声認識手段と、
    前記音声認識手段が得た文字情報を前記画像に合成する画像合成手段とを備える撮像装置。
  2. 前記画像取得手段に撮像信号を送信するレリーズボタンをさらに備え、
    前記画像取得手段は、前記撮像信号を受信したときに被写体を撮像して画像を出力し、
    前記音声認識手段は、前記レリーズボタンが撮像信号を送信した時より前の所定期間に前記音声検出手段が検出した音声を認識する請求項1に記載の撮像装置。
  3. 前記画像取得手段が画像を出力する前に、前記画像取得手段を介して得られた被写体像をスルー画像として表示する画像表示手段をさらに備え、
    前記画像表示手段がスルー画像を表示しているときに前記音声検出手段が検出した音声を、前記音声認識手段が認識する請求項1に記載の撮像装置。
  4. 前記音声認識手段が音声認識に用いる言語を設定する言語設定手段を備え、
    前記音声認識手段は、前記言語設定手段により設定された言語を用いて音声を認識する請求項1に記載の撮像装置。
  5. 前記画像取得手段は被写体に応じて撮影条件を変更し、
    前記音声認識手段は、前記撮影条件に応じて音声を認識する請求項1に記載の撮像装置。
  6. 前記音声検出手段は、人間の声の周波数帯に属する音声を周囲の音声から検出する請求項1に記載の撮像装置。
JP2008293280A 2008-11-17 2008-11-17 撮像装置 Withdrawn JP2010124039A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008293280A JP2010124039A (ja) 2008-11-17 2008-11-17 撮像装置
US12/612,883 US8441553B2 (en) 2008-11-17 2009-11-05 Imager for composing characters on an image

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008293280A JP2010124039A (ja) 2008-11-17 2008-11-17 撮像装置

Publications (1)

Publication Number Publication Date
JP2010124039A true JP2010124039A (ja) 2010-06-03

Family

ID=42171712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008293280A Withdrawn JP2010124039A (ja) 2008-11-17 2008-11-17 撮像装置

Country Status (2)

Country Link
US (1) US8441553B2 (ja)
JP (1) JP2010124039A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013042356A (ja) * 2011-08-16 2013-02-28 Sony Corp 画像処理装置および方法、並びにプログラム
WO2014158508A1 (en) * 2013-03-14 2014-10-02 Motorola Mobility Llc Context-based tagging of photographic images based on recorded audio at time of image capture
US20140379346A1 (en) * 2013-06-21 2014-12-25 Google Inc. Video analysis based language model adaptation

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10319493A (ja) 1997-05-23 1998-12-04 Kyocera Corp カメラ
JP3757565B2 (ja) * 1997-08-04 2006-03-22 カシオ計算機株式会社 音声認識画像処理装置
JPH11352988A (ja) 1998-06-09 1999-12-24 Olympus Optical Co Ltd 音声認識装置
US7257531B2 (en) * 2002-04-19 2007-08-14 Medcom Information Systems, Inc. Speech to text system using controlled vocabulary indices
JP2005184778A (ja) * 2003-11-27 2005-07-07 Fuji Photo Film Co Ltd 撮像装置
JP2006030874A (ja) * 2004-07-21 2006-02-02 Fuji Photo Film Co Ltd 画像記録装置
US20100238323A1 (en) * 2009-03-23 2010-09-23 Sony Ericsson Mobile Communications Ab Voice-controlled image editing

Also Published As

Publication number Publication date
US8441553B2 (en) 2013-05-14
US20100123797A1 (en) 2010-05-20

Similar Documents

Publication Publication Date Title
US20070242942A1 (en) Camera
JP2003008966A (ja) 撮像装置、ソフトフォーカス画像撮影方法
JP5048614B2 (ja) 撮影装置及び方法
US8872929B2 (en) Picture imaging apparatus and imaging control method
JP2010147715A (ja) 撮像装置
JP2009058834A (ja) 撮像装置
JP2006145629A (ja) 撮像装置
JP7209358B2 (ja) 撮像装置
KR101795600B1 (ko) 디지털 촬영 장치, 그 제어방법, 및 컴퓨터 판독가능 저장매체
JP2010081012A (ja) 撮像装置、撮像制御方法及びプログラム
JP2010124039A (ja) 撮像装置
JP4983442B2 (ja) カメラ
JP4553134B2 (ja) 画像生成装置及びそのプログラム
JP4717840B2 (ja) 撮像装置およびその制御方法
KR101635102B1 (ko) 디지털 촬영 장치 및 이의 제어 방법
JP4852504B2 (ja) 撮像装置及び合焦状態表示方法
JP2014230018A (ja) 撮影装置、撮像システム、撮像装置の制御方法、プログラム、および、記憶媒体
JP2014122978A (ja) 撮像装置、音声認識方法、及びプログラム
JP5638897B2 (ja) 撮像装置
JP2010124034A (ja) 撮像装置
JP4183832B2 (ja) 電子カメラ装置
JP2011053550A (ja) 光学機器
US20220329752A1 (en) Image pickup apparatus having function of recording voice data, control method for image pickup apparatus, and storage medium
JP7365793B2 (ja) 撮像装置およびその制御方法、プログラム
JP2005217921A (ja) カメラ装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111214

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111221

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20120314