JP2010124039A

JP2010124039A - 撮像装置

Info

Publication number: JP2010124039A
Application number: JP2008293280A
Authority: JP
Inventors: Yasuhiro Yamamoto; 康裕山元
Original assignee: Hoya Corp
Current assignee: Hoya Corp
Priority date: 2008-11-17
Filing date: 2008-11-17
Publication date: 2010-06-03
Also published as: US8441553B2; US20100123797A1

Abstract

【課題】ユーザが求める文字列を迅速かつ簡単に画像中に記録可能な撮像装置を得る。
【解決手段】サンプリング部がマイクを介して「かわいい」という音声をサンプリングする。サンプリング部は音声をデジタル音声信号に変換して、認識部に送信する。認識部は、「かわいい」というデジタル音声信号を、音声認識メモリに記憶された音声認識辞書データを参照しながら、「かわいい」というテキストデータに変換し、テキスト処理部に送信する。音声認識辞書データは、ペットを撮影する場合、「かわいい」という言葉を使用する頻度が高いと記憶している。そのため、マイクから入力された音声が認識しづらい場合であっても、「かわいい」という音声を容易に認識することができる。テキスト処理部は、「かわいい」というテキストデータを画像に変換する。合成部は、テキスト形状データを撮影画像と合成し合成撮影画像を作成する。
【選択図】図５

Description

本発明は、音声認識により得られた文字情報を撮影画像に合成する撮像装置に関する。

従来、フィルムの所定の位置に磁気データとして所望の文字列を書き込み可能なカメラが知られている。ユーザはあらかじめ複数の文字列をカメラに設定しておき、撮影した画像に応じて所望の文字列を選択する。カメラは、選択された文字列を撮影画像に関連付けてフィルムに書き込む（特許文献１）。
特開平１０−３１９４９３号公報

しかし、あらかじめ設定済みの文字列を選択する構成では、設定済みの文字列の中にユーザの求める文字列が存在しないおそれがある。このとき撮影後に文字列を入力する構成ではシャッターチャンスを逃してしまうおそれがある。

本発明は、これらの問題を鑑みてなされたものであり、ユーザが求める文字列を迅速かつ簡単に画像中に記録可能な撮像装置を得ることを目的とする。

本願第１の発明による撮像装置は、被写体を撮像して画像を出力する画像取得手段と、周囲の音声を検出する音声検出手段と、音声検出手段が検出した音声を認識して文字情報に変換する音声認識手段と、音声認識手段が得た文字情報を画像に合成する画像合成手段とを備えることを特徴とする。

撮像装置は、画像取得手段に撮像信号を送信するレリーズボタンをさらに備え、画像取得手段は、撮像信号を受信したときに被写体を撮像して画像を出力し、音声認識手段は、レリーズボタンが撮像信号を送信した時より前の所定期間に音声検出手段が検出した音声を認識することが好ましい。

撮像装置は、画像取得手段が画像を出力する前に、画像取得手段を介して得られた被写体像をスルー画像として表示する画像表示手段をさらに備え、画像表示手段がスルー画像を表示しているときに音声検出手段が検出した音声を、音声認識手段が認識してもよい。

撮像装置は、音声認識手段が音声認識に用いる言語を設定する言語設定手段を備え、音声認識手段は、言語設定手段により設定された言語を用いて音声を認識してもよい。

画像取得手段は被写体に応じて撮影条件を変更し、音声認識手段は、撮影条件に応じて音声を認識してもよい。

音声検出手段は、人間の声の周波数帯に属する音声を周囲の音声から検出することが好ましい。

以上のように本発明によれば、ユーザが求める文字列を迅速かつ簡単に画像中に記録可能な撮像装置を得る。

以下、本発明による一実施形態について、図を用いて説明する。

まず、本実施形態による撮像装置であるデジタルカメラ１００の構成について図１から４を用いて説明する。デジタルカメラ１００は、例えばコンパクトカメラである。

デジタルカメラ１００は、デジタルカメラ１００の動作を制御するＤＳＰ１３１と、デジタルカメラ１００を操作するために用いられる操作部材１１０と、被写体像をデジタル画像信号に変換する撮像部１２０と、デジタルカメラ１００外部の音声を電気信号に変換するマイク１１５と、ＤＳＰ１３１から送信されるデータを記憶するメモリ１３２と、撮影された画像を記録するＳＤカード１３３と、撮影のための情報や撮影済みの画像を表示するＬＣＤ１１４とから主に構成される。

撮像部１２０は、撮影レンズ１２１、シャッタ１２３、絞り、ＣＣＤ１２４、ＡＦＥ（アナログ・フロント・エンド）１２５、そして、撮影レンズ１２１、シャッタ１２３、及び絞りを駆動する駆動回路１２６とから主に構成される。

撮影レンズ１２１は、駆動回路１２６が合焦光学系の位置を制御することによりピントが調節され、被写体像をＣＣＤ１２４の撮像面に結像させる。絞りは、撮影レンズ１２１からＣＣＤ１２４に向かう光束を制御して、撮像面に結像する被写体像の光量を制御する。シャッタ１２３は、撮像面に被写体像が照射される期間を制御する。ＣＣＤ１２４は、撮像面に結像した被写体像をアナログ画像信号に変換して、ＡＦＥ１２５に送信する。ＡＦＥ１２５は、アナログ画像信号に対してゲインの調整などを行った後にデジタル画像信号に変換して、ＤＳＰ１３１に送信する。駆動回路１２６は、ＤＳＰ１３１からの信号に応じて、合焦光学系の位置、絞りの開度、及びシャッタスピード値を制御する。

撮像前におけるＤＳＰ１３１は、デジタル画像信号に含まれる被写体像の光量を用いて被写体を測光する。これにより得られた測光値を用いて露光値を演算し、この露光値に基づき撮影に必要となる絞り値及びシャッタスピード値を演算する。そして、演算された絞り値及びシャッタスピード値を駆動回路１２６に送信する。さらに、ＤＳＰ１３１は、受信したデジタル画像信号を用いて合焦光学系の位置を決定し、駆動回路１２６に合焦光学系の位置を送信する。また、ＡＦＥ１２５からデジタル画像信号が送信されると、ＤＳＰ１３１は、デジタル画像信号を用いてホワイトバランスを調整し、得られた画像をスルー画像としてＬＣＤ１１４に送信する。

撮像時におけるＤＳＰ１３１は、デジタル画像信号を受信して画像処理を行い、撮影画像を作成する。そして、撮影画像をＳＤカード１３３に保存し、ＬＣＤ１１４に表示する。メモリ１３２は、ＤＳＰ１３１がこれらの演算及び画像処理等を実行するときに、一時的にデータを記録する作業メモリとして使用される。

ＤＳＰ１３１は、顔検出処理を行う。顔検出処理は、デジタル画像信号により形成される撮影画像に含まれる顔の位置及び大きさを検出する処理である。検出された顔の位置及び大きさは、指示枠を用いてスルー画像中に示される。ＤＳＰ１３１は、検出された顔に対して露光値を演算し、ホワイトバランスを調整する。これにより、検出された顔に対してピント及び露出が調節された撮影画像を得る。検出された顔が複数存在する場合、ＤＳＰ１３１は、後述する主被写体判定処理を実行することにより、指示枠が表示された顔の中から露光値を求めるべき顔を主被写体として選択し、選択された顔に対して露光値を演算し、ホワイトバランスを調整する。なお、主被写体とは、ユーザが意図する可能性が高い被写体をいう。

ＤＳＰ１３１は、音声認識処理を実行するための音声認識部１４０を備える。音声認識部１４０は、マイク１１５からの音声が入力されるサンプリング部１４１と、音声認識を行う認識部１４２と、作業メモリとして使用される音声認識メモリ１４３と、音声認識により得られたテキストデータをテキスト形状データに変換するテキスト処理部１４４と、テキスト形状データと画像データとを合成する合成部１４５と、音声認識を行うために用いる認識言語を検知するメニュー設定部１４６と、デジタルカメラ１００の撮影モードを検知するモード設定部１４７とから構成される。

音声認識メモリ１４３は、サンプリング部１４１がサンプリングして得られたデジタル音声信号を一時的に記憶するほか、認識言語に応じた音声認識辞書データを記憶する。テキスト形状データは、テキストを画像として表現した画像データである。音声認識辞書データは、デジタル音声信号とテキストデータとの対応関係を示すデータである。撮影モードに応じて、使用される頻度の高いテキストが定義される。これにより、音声の認識率を向上させることができる。音声データ認識言語及び撮影モードは、後述するモード設定ボタン１１３を操作することにより決定される。

ＬＣＤ１１４は、撮影画像と同じ３対４の縦横比を有する長方形である。図１に示すように、デジタルカメラ１００の左右方向に延びるようにデジタルカメラ１００の背面略中央に設けられる。撮像レンズ１２１を介して得られた画像、撮影済みの撮影画像、及びデジタルカメラ１００の各種設定を表示可能である。また、ＬＣＤ１１４は、ＤＳＰ１３１が送信したスルー画像を表示する。

操作部材１１０は、主電源ボタン１１１、レリーズボタン１１２、モード設定ボタン１１３を有する。

主電源ボタン１１１は、デジタルカメラ１００の上面から突出するモーメンタリスイッチである。ユーザが主電源ボタン１１１を押圧すると、デジタルカメラ１００の電源が投入される。デジタルカメラ１００の電源が入れられているときにユーザが主電源ボタン１１１を押圧すると、デジタルカメラ１００の電源が切断される。

レリーズボタン１１２は、二段式のモーメンタリスイッチであり、デジタルカメラ１００の頂面に設けられる。ユーザがレリーズボタン１１２を半押しすると測光や測距及び合焦動作が行われ、全押しすると撮像動作が行われる。

モード設定ボタン１１３は、デジタルカメラ１００の背面に設けられるシーソー式スイッチである。ユーザがモード設定ボタン１１３を押圧すると、デジタルカメラ１００の動作状態が撮影モード設定状態に切り替えられ、ＬＣＤ１１４に撮影モードを設定するための画面が表示される。

ユーザはモード設定ボタン１１３を操作して、ＬＣＤ１１４に表示された複数の撮影モードから所望のモード、例えばペットモード、風景モードを選択する。ペットモードは、ペットとなりうるような小動物を撮影するのに適した撮影モードである。風景モードは、遠方かつ広大な範囲の景色を撮影するのに適した撮影モードである。

さらに、ユーザは、モード設定ボタン１１３を操作することにより、デジタルカメラ１００が有する各種の機能、例えば音声認識機能を有効又は無効にすることが可能である。音声認識機能は、撮影時及び撮影の前後に認識された言葉を画像の所定位置にインポーズし、得られた撮影画像を記録する機能である。

モード設定ボタン１１３を操作することにより、ユーザはデジタルカメラ１００の言語設定を変更することができる。まず、ユーザがデジタルカメラ１００を言語設定モードに変更すると、言語設定画面がＬＣＤ１１４に表示される（図４参照）。言語設定画面において、ユーザがモード設定ボタン１１３を操作すると、デジタルカメラ１００において使用可能な言語、例えば、日本語、英語、イタリア語等が一覧となってＬＣＤ１１４に表示される。ユーザは、表示された言語の中から所望の言語を選択する。これにより、ＬＣＤ１１４の表示において選択された言語が使用される。

ＳＤカード１３３は、デジタルカメラ１００の側面に設けられるカードスロット１１６に脱着自在に格納される。ユーザは、デジタルカメラ１００の外部からＳＤカード１３３にアクセスして、自由に交換することが可能である。

マイク１１５は、カメラの上面に設けられ、デジタルカメラ１００外部の音声をデジタル音声信号に変換してＤＳＰ１３１に送信する。

次に、音声認識処理について図３から５を用いて説明する。

音声認識処理は、音声認識機能が有効であって、ＬＣＤ１１４にスルー画像が表示されている場合に実行される。

まず、モード設定部１４７を介して、撮影モードが確認される。次に、メニュー設定部１４６を介して認識言語を検知する。ここでは、撮影モードがペットモードであり、かつ認識言語が日本語に設定されているとして説明する。

次に、サンプリング部１４１がマイク１１５を介して音声をサンプリングする。サンプリング部１４１は音声をデジタル音声信号に変換して、認識部１４２に送信する。ユーザが「かわいい」と発音した場合、「かわいい」という音声がデジタル音声信号として認識部１４２に送信される。

認識部１４２は、デジタル音声信号を受信して、音声認識メモリ１４３に記憶された音声認識辞書データを参照しながら、デジタル音声信号をテキストデータに変換する。ここで用いられる音声認識辞書データは、音声認識メモリ１４３が記憶する音声認識辞書データのうち、ユーザが言語設定画面を用いて選択した音声データ認識言語に対応したものが用いられる。またテキストデータへの変換は、音声データ認識言語に適したアルゴリズムが用いられる。音声認識辞書データは、ペットを撮影する場合、「かわいい」という言葉を使用する頻度が高いと記憶している。そのため、マイク１１５から入力された音声が認識しづらい場合であっても、「かわいい」という音声を容易に認識することができる。そして、得られたテキストデータをテキスト処理部１４４に送信する。このとき、音声認識メモリ１４３は認識部１４２の作業メモリとして使用される。これにより、「かわいい」というデジタル音声信号が「かわいい」というテキストデータに変換され、テキスト処理部１４４に送信される。

また、例えば撮影モードが風景モードであって、音声データ認識言語が英語である場合、音声認識辞書データは、「Ｂｅａｕｔｉｆｕｌ」や「Ｗｏｎｄｅｒｆｕｌ」という言葉を使用する頻度が高いと記憶する。

テキスト処理部１４４は、テキストデータをテキスト形状データに変換する。そして、得られたテキスト形状データを合成部１４５に送信する。これにより、「かわいい」というテキストデータが画像となる。

合成部１４５は、テキスト形状データをスルー画像と合成する。そして、得られた合成スルー画像をＬＣＤ１１４に送信する。ＬＣＤ１１４は合成スルー画像を表示する（図５参照）。

顔認識処理を用いて主被写体と判断された顔に、テキスト形状データが重畳することがある。そのような場合には、テキストデータの文字数、テキスト形状データの大きさ、又はスルー画像中における顔の大きさに応じて画角を変更し、テキスト形状データを合成する領域を確保する。なお、テキスト形状データの大きさを変更してもよい。これにより、テキストデータの文字数が多くなった場合でも、テキスト形状データが主被写体に重畳することなく合成される。

そして、レリーズボタン１１２が全押しされると、合成部１４５は、テキスト形状データを撮影画像と合成し合成撮影画像を作成する。そして、ＤＳＰ１３１は、得られた合成撮影画像をＳＤカード１３３に記録する（図５参照）。

本実施形態によれば、ユーザが求める文字列を迅速かつ簡単に画像中に記録することができる。また、撮影モード、及びデジタルカメラ１００の認識言語に応じて音声認識を行うため、より正確に音声認識を行うことができる。

なお、言語設定及び撮影モードの両方に応じて音声認識を行わなくてもよく、いずれか１つ、又はこれらの設定を用いずに音声認識を行ってもよい。

本発明による主被写体判別装置を有するデジタルカメラの背面斜視図である。デジタルカメラのブロック図である。音声認識部を示すブロック図である。言語設定画面を模式的に示した図である。主被写体判別処理により得られた画像を模式的に示した図である。

符号の説明

１００デジタルカメラ
１１０操作部材
１１１主電源ボタン
１１２レリーズボタン
１１３モード設定ボタン
１１４ＬＣＤ
１１５マイク
１１６カードスロット
１２０撮像部
１２１撮影レンズ
１２３シャッタ
１２４ＣＣＤ
１２５ＡＦＥ
１２６駆動回路
１３１ＤＳＰ
１３２メモリ
１３３ＳＤカード
１４０音声認識部
１４１サンプリング部
１４２認識部
１４３音声認識メモリ
１４４テキスト処理部
１４５合成部
１４６メニュー設定部
１４７モード設定部

Claims

被写体を撮像して画像を出力する画像取得手段と、
周囲の音声を検出する音声検出手段と、
前記音声検出手段が検出した音声を認識して文字情報に変換する音声認識手段と、
前記音声認識手段が得た文字情報を前記画像に合成する画像合成手段とを備える撮像装置。
前記画像取得手段に撮像信号を送信するレリーズボタンをさらに備え、
前記画像取得手段は、前記撮像信号を受信したときに被写体を撮像して画像を出力し、
前記音声認識手段は、前記レリーズボタンが撮像信号を送信した時より前の所定期間に前記音声検出手段が検出した音声を認識する請求項１に記載の撮像装置。
前記画像取得手段が画像を出力する前に、前記画像取得手段を介して得られた被写体像をスルー画像として表示する画像表示手段をさらに備え、
前記画像表示手段がスルー画像を表示しているときに前記音声検出手段が検出した音声を、前記音声認識手段が認識する請求項１に記載の撮像装置。
前記音声認識手段が音声認識に用いる言語を設定する言語設定手段を備え、
前記音声認識手段は、前記言語設定手段により設定された言語を用いて音声を認識する請求項１に記載の撮像装置。
前記画像取得手段は被写体に応じて撮影条件を変更し、
前記音声認識手段は、前記撮影条件に応じて音声を認識する請求項１に記載の撮像装置。
前記音声検出手段は、人間の声の周波数帯に属する音声を周囲の音声から検出する請求項１に記載の撮像装置。