JP2009077325A

JP2009077325A - カメラ装置及びカメラ制御プログラム

Info

Publication number: JP2009077325A
Application number: JP2007246503A
Authority: JP
Inventors: Takayuki Fukushima; 孝幸福島
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2007-09-25
Filing date: 2007-09-25
Publication date: 2009-04-09

Abstract

【課題】音声が有する情報を有効に利用して制御を行うことのできるカメラ装置及びカメラ制御プログラムを提供する。
【解決手段】認識した音声の音量を測定し（ステップＳ９）、この測定した音量がパラメータ設定テーブルに記憶されている上限音量（８０）以上であるか否か（ステップＳ１０）、下限音量（２０）未満であるか否か（ステップＳ１２）を判断する。この判断結果に応じて、音量のレベル１〜３に対応する制御値でズーム倍率や連写速度を制御する（ステップＳ１１、Ｓ１３、Ｓ１４）。
【選択図】図５

Description

本発明は、音声に応答する機能を備えたカメラ装置、及びこのカメラ装置に用いられる制御プログラムに関する。

従来、音声に応答する機能を備えたカメラ装置が下記特許文献１等に記載されている。このカメラ装置は、予め登録されたキーワードと音声入力された音声による言語とを比較し、両者が一致した場合は所定の機能を動作させるものである。
特開２０００−２３５２１６号公報

ところで、音声にはキーワード以外にも、感情の変化、あるいは会話の流れ（話の内容）等、多くの情報が含まれている。しかるに、従来においては、音声に含まれている一つの情報にすぎない言語（キーワード）のみを利用するものであって、音声に含まれている他の情報を活用することが課題となっていた。

本発明は、かかる従来の課題に鑑みてなされたものであり、音声が有する情報を有効に利用して制御を行うことのできるカメラ装置及びカメラ制御プログラムを提供することを目的とする。

前記課題を解決するため請求項１記載の発明に係るカメラ装置にあっては、音声を取得する取得手段と、音声に含まれている情報であって、物理量として検出可能な情報である物理的音声情報を前記取得手段により取得された音声から検出する検出手段と、この検出手段により検出された前記物理的音声情報に基づき、当該カメラ装置が有する所定の機能を制御する制御手段とを備えることを特徴とする。

また、請求項２記載の発明に係るカメラ装置にあっては、前記検出手段は、前記物理的音声情報として、音量を前記音声から検出することを特徴とする。

また、請求項３記載の発明に係るカメラ装置にあっては、前記検出手段は、前記物理的音声情報として、話速を、前記音声から検出することを特徴とする。

また、請求項４記載の発明に係るカメラ装置にあっては、前記話速とは、音声における隣接する単音間の時間的短さに対応する速さであることを特徴とする。

また、請求項５記載の発明に係るカメラ装置にあっては、前記所定の機能とは、前記物理量の変化に応じて段階的に制御される機能であることを特徴とする。

また、請求項６記載の発明に係るカメラ装置にあっては、前記所定の機能は、当該カメラ装置が有する撮影手段を連続的に動作させる連写撮影における連写速度であることを特徴とする。

また、請求項７記載の発明に係るカメラ装置にあっては、前記連写撮影とは、動画の撮影であることを特徴とする。

また、請求項８記載の発明に係るカメラ装置にあっては、前記所定の機能は、当該カメラ装置が有するズームレンズを駆動するズーム機能であることを特徴とする。

また、請求項９記載の発明に係るカメラ装置にあっては、前記検出手段により検出される前記物理的音声情報が示す物理量に対応して、前記所定機能の制御に用いられる制御値を記憶した制御情報記憶手段を備え、前記制御手段は、前記制御情報記憶手段から前記検出手段により検出された物理的音声情報が示す物理量に対応する制御値を読み出して、前記所定の機能を制御することを特徴とする。

また、請求項１０記載の発明に係るカメラ装置にあっては、前記制御情報記憶手段は、前記物理的音声情報が示す同一の物理量に対応して複数の異なる制御値を記憶し、前記制御手段は、前記制御情報記憶手段から前記検出手段により検出された物理的音声情報が示す物理量に対応する複数の制御値のいずれかを選択的に読み出すことを特徴とする。

また、請求項１１記載の発明に係るカメラ装置にあっては、キーワードを記憶する認識情報記憶手段と、この認識情報記憶手段に記憶されたキーワードと前記音声検出手段により検出された音声との一致性を認識する認識手段とを備え、前記検出手段は、前記認識手段により前記キーワードと前記音声との一致性が認識された場合に、前記物理的音声情報を検出することを特徴とする。

また、請求項１２記載の発明に係るカメラ装置にあっては、前記認識情報記憶手段は、人物を示す人物情報と前記キーワードとを対応して記憶し、前記認識手段は、前記認識情報記憶手段に記憶された人物情報及びキーワードと前記音声検出手段により検出された音声との一致性を認識し、前記検出手段は、前記認識手段により前記人物情報及びキーワードと前記音声との一致性が認識された場合に、前記物理的音声情報を検出することを特徴とする。

また、請求項１３記載の発明に係るカメラ装置にあっては、前記認識情報記憶手段は、一つの音節からなる単音を前記キーワードとして記憶することを特徴とする。

また、請求項１４記載の発明に係るカメラ装置にあっては、前記認識情報記憶手段は、前記キーワードと前記検出手段により検出される前記物理的音声情報が示す物理量とに対応して、前記所定機能の制御に用いられる制御値を記憶し、前記制御手段は、前記認識手段により前記キーワードと前記音声との一致性が認識された場合に、前記制御情報記憶手段から前記キーワードと前記検出手段により検出された物理的音声情報が示す物理量とに対応する制御値を読み出して、前記所定の機能を制御することを特徴とする。

また、請求項１５記載の発明に係るカメラ装置にあっては、前記認識情報記憶手段は、前記人物情報及びキーワードと前記検出手段により検出される前記物理的音声情報が示す物理量とに対応して、前記所定機能の制御に用いられる制御値を記憶し、前記制御手段は、前記認識手段により前記人物情報及びキーワードと前記音声との一致性が認識された場合に、前記認識情報記憶手段から前記前記人物情報及びキーワードと前記検出手段により検出された物理的音声情報が示す物理量とに対応する制御値を読み出して、前記所定の機能を制御することを特徴とする。

また、請求項１６記載の発明に係るカメラ装置にあっては、前記認識情報記憶手段は、前記物理的音声情報が示す同一の物理量に対応して複数の異なる制御値を記憶し、前記制御手段は、前記認識情報記憶手段から前記検出手段により検出された物理的音声情報が示す物理量に対応する複数の制御値のいずれかを選択的に読み出すことを特徴とする。

また、請求項１７記載の発明に係るカメラ装置にあっては、前記認識情報記憶手段は、複数のキーワードを記憶するとともに、前記複数の異なる制御値を異なるキーワード毎に記憶し、前記制御手段は、前記認識手段により認識されたキーワードに対応し、かつ前記検出手段により検出された物理的音声情報が示す物理量に対応する制御値を読み出すことを特徴とする。

また、請求項１８記載の発明に係るカメラ装置にあっては、被写体を撮像するさ撮像手段と、前記撮影手段により連続的に撮影された複数の画像を記録するとともに、前記検出手段により検出された音声を連続的に記録する第１の記録手段と、第２の記録手段とを備え、前記検出手段は、前記物理的音声情報として音量を前記第１の記録手段に記録されている音声から検出し、前記制御手段は、前記検出手段により検出された音量に応じて、前記第１の記録手段に記録されている複数の画像を間引き処理し、この間引き処理した後の複数の画像を前記第２の記録手段に記録することを特徴とする。

また、請求項１９記載の発明に係るカメラ装置にあっては、前記取得手段、検出手段、制御手段のいずれか少なくとも一つの手段の動作をオン・オフする操作手段を備えることを特徴とする。

また、請求項２０記載の発明に係るカメラ装置にあっては、前記検出手段は、更に前記物理的音声情報として、前記音量に加えて話速を、前記音声から検出することを特徴とする。

また、請求項２１記載の発明に係るカメラ装置にあっては、前記所定の機能とは、物理量である音量と話速それぞれの変化に応じて段階的に制御される機能であり、この所定の機能は、前記音量の変化に応じて制御される第１の機能と、前記話速の変化に応じて制御される第２の機能と、を有することを特徴とする。

また、請求項２２記載の発明に係るカメラ装置制御プログラムにあっては、音声を取得する取得手段を備えるカメラ装置が有するコンピュータを、音声に含まれている情報であって、物理量として検出可能な情報である物理的音声情報を前記取得手段により取得された音声から検出する検出手段と、この検出手段により検出された前記物理的音声情報に基づき、当該カメラ装置が有する所定の機能を制御する制御手段として機能させることを特徴とする。

本発明によれば、音声が有する情報を有効に利用してカメラ装置が備える諸機能を制御することができる。

以下、本発明の一実施の形態を図にしたがって説明する。図１は本発明に係るデジタルカメラの電気的な概略構成を示すブロック図である。

このデジタルカメラは、キー入力部１、合焦・ズーム部２、露光部３、画像入力部４、画像圧縮部５、画像記憶部６、画像表示部７、マイク８、音声入力部９、Ａ／Ｄ変換部（Ａ／Ｄ）１０、ワークメモリ１１、音声認識部１２、プログラムメモリ１３を備えている。そして、制御部１４が、プログラムメモリ１３に記憶されたプログラムに基づき動作することにより、各部の駆動されあるいは制御される構成である。

前記キー入力部１は、電源キーやシャッタキー、撮影／再生モードのモード切替キーや、各種機能の設定に使用される操作キー、ユーザがデジタルカメラの操作に使用する各種のキー、及び音声機能をオン・オフさせるための音声機能キー、文字入力キー等で構成され、各キーの操作は制御部１４により検出される。前記合焦・ズーム部２には、撮影モードにおいて、図示しない光学系におけるフォーカスレンズを被写体距離に応じた位置に駆動するフォーカス・モータやその駆動回路、及びズームレンズを駆動するズーム・モータやその駆動回路が含まれる。

前記露光部３には、前記光学系により結像された被写体像を撮像するＣＣＤ等の撮像素子と、その駆動回路、撮像素子から出力されるアナログの撮像信号をデジタル信号に変換するＡ／Ｄ変換器等を含みデジタルの撮像信号を出力する。前記画像入力部４は、デジタルに変換された撮像信号に種々の信号処理を施すための各種の信号処理回路により構成される。前記画像圧縮部５は、画像入力部４で処理された後の画像データを圧縮し、また圧縮状態の画像データを伸張する回路により構成される。前記画像記憶部６は圧縮された画像データを記憶する各種メモリカード等により構成される。前記画像表示部７は、液晶表示器や、その駆動回路等から構成され、画像入力部４で信号処理された被写体画像や、画像記憶部６から読み出された記録画像を液晶表示器に表示させる。

前記音声入力部９は、マイク８から入力した音声を増幅するアンプや他の音声処理回路から構成され、処理後の音声信号を出力する。Ａ／Ｄ変換部１０は音声入力部９から出力されるアナログの音声信号をデジタル信号に変換する。ワークメモリ１１は、変換後の音声信号（音声データ）を逐次記憶したり、制御部１４が各部の制御に際して生成したり使用する各種のデータ等を随時記憶するＲＡＭである。

前記音声認識部１２は、前記音声機能キーがオンとなっている場合において、ワークメモリ１１に逐次記憶される入力音声に対し、後述するパラメータ設定テーブルに記憶されているデータに基づき、人物を特定するとともに、音量及び話速を検出する。ここで、話速とは例えば、単音声（音節）から次の単音声（音節）までの時間間隔であり、この時間間隔が少ない程、話速が高い（速い）と判定することが出来る。また、話速の検出は、特開平05-289691や特開2005-331589に記載されたような方法で、またはそれらのいくつかを組み合わせた方法で、検出するようにしても構わない。

ちなみに、物理量とは、質量、長さ、体積、圧力、時間などのような、物体や物質(場やエネルギーも含む)などの測定対象に固有な、客観的に測定できる量、およびその量を用いて算出できる量のことであるが、上記した音量や話速や時間間隔は物理量の内の１つであるといえる。

制御部１４は、主としてＣＰＵや入出力インターフェイスを含む周辺回路から構成されている。前記プログラムメモリ１３はフラッシュメモリ等の不揮発性のメモリであり、音声認識部１２が音声認識に際して使用する前述したパラメータ設定テーブルやその他のテーブル、上記各部を制御するための各種のプログラム、例えばＡＥ（自動露出）、ＡＦ（自動焦点調整）等の制御プログラム等が格納されている。

図２は、前記プログラムメモリ１３に記憶されている初期設定テーブル１３１の構成を示す概念図である。この初期設定テーブル１３１には、モード「１」〜「４」に対応して「設定Ａ」の種別と、「設定Ｂ」の種別とが記憶されている。「１」〜「４」は、キー入力部１での操作によりユーザによって予め選択されるモードである。また、「設定Ａ」、「設定Ｂ」は、各モードに制御対象となる当該デジタルカメラの設定であり、本実施の形態においては、「ズーム」又は「連写」である。

図３は、前記プログラムメモリ１３に記憶されているパラメータ設定テーブル１３２のの構成を示す概念図である。このパラメータ設定テーブル１３２には、「おとうさん」、「おかあさん」等の「人物」を示すデータに対応して「キーワード」が記憶されているとともに、各「キーワード」に対応して「変化レベル」、「検出値」、及び「制御値」が記憶されている。

「人物」は、登録モードにおいてキー入力部１に設けられている文字入力キーを操作することにより、ユーザが入力した文字であり、「キーワード」は、文字入力直後にマイク８を介して入力した当該人物の音声データである。したがって、図３の状態は、人物「おとうさん」及び「おかあさん」が当該文字を入力した後、異なるキーワードである「え」、「あ」を音声入力した場合を示している。

なお、本明細書において「キーワード」における「ワード」とは、その本来の意味である言葉、単語のみならず、「え」、「あ」等の一音節からなる単音をも含むものとする。

また、前記各「キーワード」に対応する「変化レベル」は、「３」「２」「１」のレベル値であり、これら「変化レベル３」、「変化レベル２」、「変化レベル１」に対応して、各々「検出値（音量又は話速）」と「制御値」とが記憶されている。「検出値（音量又は話速）」は、「８０以上」、「中間」、「２０未満」のいずれかであって、「０〜１００」の相対値で示される値であり、変化レベル値が高い程、高い値である。

「制御値」は、本実施の形態においては、変化レベル３〜１に対応する「＋２、＋１、−２」からなる第１の組合せ１３３と、「＋１、＋０．５、−１」からなる第２の組合せ１３４の二つのパターンを用いている。この両組合せ１３３「＋２、＋１、−２」、第２の組合せ１３４「＋１、＋０．５、−１」において、第１の組合せ１３３の方が各値が大きいことから、同一の変化レベル３〜１であっても、第１の組合せ１３３の場合の方が、大きな「制御値」となる。

「制御値」である「＋２、＋１、−２」、「＋１、＋０．５、−１」における各数値は相対値又は絶対値であり、現在の設定値を変化させる値である。そして、連写に関しては、「＋」の値により連写速度を高める（連写間隔を小さくする）ことを意味し、「−」の値により連写速度を低める（連写間隔を大きくする）ことを意味する。また、ズームに関しては「＋」の値によりズームアップ（ズームイン：ズーム倍率を上げる）ことを意味し、「−」の値によりズームダウン（ズームアウト：ズーム倍率を下げる）ことを意味する。

次に、以上の構成からなるデジタルカメラの本発明に係る動作を説明する。図４及び図５は、音声機能がオン設定されている状態における撮影モード時の処理手順を示す一連のフローチャートである。したがって、音声機能がオフ設定されている場合には、一般的なデジタルカメラと同様に、操作に応じて単写（静止画撮影）、あるいは連写（動画撮影）を行うことができる。

音声機能がオン設定されている状態において、シャッタキーが全押しされると、制御部１４はは前記プログラムに基づき、このフローチャートに示す処理を実行する。すなわち、各種パラメータ初期設定、及びモード１〜４設定を実行する（ステップＳ１）。このステップＳ１における各種パラメータ初期設定では、事前に設定された絞り値、シャッタスピード、ズーム値や連写間隔を設定するとともに、この設定に応じた各部の制御を実行する。また、モード１〜４設定では、ユーザにより選択されたモード１〜４に応じた設定Ａの種別と設定Ｂの種別とをワークメモリ１１に記憶する。

したがって、図２の初期設定テーブル１３１に示すように、モード「２」が選択されたとすると、設定Ａとして「ズーム」が、設定Ｂとして「連写」がワークメモリ１１に記憶されることとなる。

引き続き、連写間隔を計時するタイマＴをリセットして初期値「０」を設定する（ステップＳ２）。また、録音を開始してマイク８から入力された音声をワークメモリ１１に記憶する（ステップＳ３）。さらに、音声認識部１２を制御して、人物の音声、つまり周囲騒音等を除く人の音声を認識し（ステップＳ４）、この認識した音声がパラメータ設定テーブル１３２に記憶されている所定の人物であるか否かを判断する（ステップＳ５）。

そして、所定の人物でない場合には、ステップＳ５から図５のステップＳ２１に進み、タイマＴの値が前記ステップＳ１で初期設定した連写間隔Ｘを超えたか否かを判断する（ステップＳ２１）。タイマＴの値が連写間隔Ｘを超えていない場合には、Ｔ＞Ｘとなるまで、タイマＴの値をインクリメントして（ステップＳ２２）、ステップＳ２１→Ｓ２２→Ｓ２１のループを繰り返す。これにより、Ｔ＞Ｘとなって連写間隔Ｘとなったならば、撮影処理を実行し、露光部３から撮り込んだ１枚分の画像データをワークメモリ１１に記録する（ステップＳ２３）。引き続き、シャッタキーの全押しが解除されたか否かを判断し（ステップＳ２４）、全押しが解除されていない場合には、図４のステップＳ２に戻る。

したがって、シャッタキーが全押しされた後、所定人物の音声が認識されるまでは、全押しが解除されない限り、ステップＳ２〜Ｓ５→Ｓ２１〜Ｓ２４→Ｓ２のループ（以下、「ループ１」という）が繰り返される。したがって、このループ１が繰り返されている状態においては、後述するような連写速度の可変制御やズームの可変制御はない。よって、ステップＳ１で初期設定された一定の連写間隔Ｘであって、現在のズーム状態で撮影された画像データが順次ワークメモリ１１に記憶されることとなる。

しかし、ステップＳ５の判断がＹＥＳであって、認識した音声がパラメータ設定テーブル１３２に記憶されている所定の人物である場合には、ステップＳ５からステップＳ６に進み、キーワード音声認識を実行する（ステップＳ６）。そして、この認識したキーワードがパラメータ設定テーブル１３２に記憶されている前記ステップＳ５で判断した所定の人物に対応する所定のキーワードであるか否かを判断する（ステップＳ７）。

所定の人物における所定のキーワードでない場合には、このステップＳ７から前述した図５のステップＳ２１に進み、前述したステップＳ２１以降の処理を実行する。したがって、シャッタキーが全押しされた後、所定人物の音声が認識されても、それが予め登録されたキーワードでなければ、全押しが解除されない限り、ステップＳ２〜Ｓ７→Ｓ２１〜Ｓ２４→Ｓ２のループ（以下、「ループ２」という）が繰り返される。したがって、このループ２が繰り返されている状態においては、前記ループ１の場合と同様に、後述するような連写速度の可変制御やズームの可変制御はない。

よって、登録者以外の他人の音声で誤作動することもなく、ステップＳ１で初期設定された一定の連写間隔Ｘであって、現在のズーム状態で撮影された画像データが順次ワークメモリ１１に記憶することができる。

しかし、ステップＳ７の判断がＹＥＳであって、認識したキーワードが所定の人物に対応する所定のキーワードである場合には、ステップＳ７からステップＳ８に進み、選択モードに応じたパラメータを読み出す。つまり、前述のように、モード「２」が選択されているとすると、設定Ａとして「ズーム」が、設定Ｂとして「連写」がワークメモリ１１に記憶されていることから、設定Ａの「ズーム」に対応する現在のズーム値と、設定Ｂの「連写」に対応する現在の連写間隔（連写間隔Ｘ）とを読み出す。

引き続き、音量測定を実行して、前記ステップＳ４及びステップＳ６で認識に用いた音声の音量を測定する（ステップＳ９）。そして、この測定した音量がパラメータ設定テーブル１３２に記憶されている上限音量（８０）以上であるか否かを判断する（ステップＳ１０）。上限音量（８０）以上である場合には、設定Ａを変化レベル３に対応する制御値で制御する（ステップＳ１１）。

したがって、前記ステップＳ５で人物が「おとうさん」と判断され、ステップＳ７でキーワードが「え」と判断されたとすると、レベル３に対応する制御値は「＋２」であることから、先ず制御値「＋２」が決定される。また、モード「２」が選択されていたとすると、設定Ａは「ズーム」であることから、ズームが「＋２」に相当するズーム量でズームアップされる。

しかし、前記ステップＳ５で人物が「おとうさん」と判断されても、ステップＳ７でキーワードが「あ」と判断された場合は、レベル３に対応する制御値は「＋１」であることから、先ず制御値「＋１」が決定される。また、モード「２」が選択されていたとすると、設定Ａは「ズーム」であることから、ズームが「＋１」に相当するズーム量でズームアップされる。

したがって、同一人物が同一の音量で発声した場合であっても、それが「え」である場合には「あ」である場合よりも、ズーム変化量を大きくすることができ、逆に「あ」である場合には「え」である場合よりも、ズーム変化量を小さくすることができる。

よって、同一人物が同一の音量で発声した場合であっても、キーワードに応じて異なる変化量でズームアップ制御することができる。

また、ステップＳ１０の判断がＮＯであって、測定音量が上限音量（８０）未満である場合には、ステップＳ１０からステップＳ１２に進み、測定音量が下限音量（２０）未満であるか否かを判断する。このステップＳ１２の判断がＮＯである場合には、測定音量は上限音量（８０）未満かつ下限音量（２０）以上の「中間」である。よって、この場合には、設定Ａを変化レベル２に対応する制御値で制御する（ステップＳ１３）。

したがって、前記ステップＳ５で人物が「おとうさん」と判断され、ステップＳ７でキーワードが「え」と判断されたとすると、レベル２に対応する制御値は「＋１」であることから、先ず制御値「＋１」が決定される。また、モード「２」が選択されていたとすると、設定Ａは「ズーム」であることから、ズームが「＋１」に相当するズーム量でズームアップされる。

しかし、前記ステップＳ５で人物が「おとうさん」と判断されても、ステップＳ７でキーワードが「あ」と判断された場合は、レベル２に対応する制御値は「＋０．５」であることから、先ず制御値「＋０．５」が決定される。また、モード「２」が選択されていたとすると、設定Ａは「ズーム」であることから、ズームが「＋０．５」に相当するズーム量でズームアップされる。

したがって、前述のように、同一人物が同一の音量で発声した場合であっても、キーワードに応じて異なる変化量でズームアップ制御することができる。

また、ステップＳ１２の判断がＹＥＳであって、測定音量が下限音量（２０）未満である場合には、ステップＳ１２からステップＳ１４に進み、設定Ａを変化レベル１に対応する制御値で制御する（ステップＳ１４）。

したがって、前記ステップＳ５で人物が「おとうさん」と判断され、ステップＳ７でキーワードが「え」と判断されたとすると、レベル１に対応する制御値は「−２」であることから、先ず制御値「−２」が決定される。また、モード「２」が選択されていたとすると、設定Ａは「ズーム」であることから、ズームが「−２」に相当するズーム量でズームダウンされる。

しかし、前記ステップＳ５で人物が「おとうさん」と判断されても、ステップＳ７でキーワードが「あ」と判断された場合は、レベル１に対応する制御値は「−１」であることから、先ず制御値「−１」が決定される。また、モード「２」が選択されていたとすると、設定Ａは「ズーム」であることから、ズームが「−１」に相当するズーム量でズームダウンされる。

したがって、同一人物が同一の音量で発声した場合であっても、キーワードに応じて異なる変化量でズームダウン制御することができる。

また、前記ステップＳ１１、Ｓ１３、Ｓ１４のいずれかに続くステップＳ１５においては、話速測定を実行して、前記ステップＳ４及びステップＳ６で認識に用いた音声の話速を測定する（ステップＳ１５）。そして、この測定した話速がパラメータ設定テーブル１３２に記憶されている上限話速（８０）以上であるか否かを判断する（ステップＳ１６）。上限話速（８０）以上である場合には、設定Ｂを変化レベル３に対応する制御値で制御する（ステップＳ１１）。

したがって、前記ステップＳ５で人物が「おとうさん」と判断され、ステップＳ７でキーワードが「え」と判断されたとすると、レベル３に対応する制御値は「＋２」であることから、先ず制御値「＋２」が決定される。また、モード「２」が選択されていたとすると、設定Ｂは「連写」であることから、連写速度が「＋２」に相当する速度で速度アップされる。つまり連写間隔Ｘが、「＋２」に相当する間隔αで短縮化され、Ｘ−α＝Ｘとされて、短縮化された新たな連写間隔Ｘが設定される。

しかし、前記ステップＳ５で人物が「おとうさん」と判断されても、ステップＳ７でキーワードが「あ」と判断された場合は、レベル３に対応する制御値は「＋１」であることから、先ず制御値「＋１」が決定される。また、モード「２」が選択されていたとすると、設定Ｂは「連写」であることから、連写速度が「＋１」に相当する速度で速度アップされる。つまり連写間隔Ｘが、「＋１」に相当する間隔βで短縮化され、Ｘ−β＝Ｘとされて、短縮化された新たな連写間隔Ｘが設定される。

したがって、同一人物が同一の音量で発声した場合であっても、それが「え」である場合には「あ」である場合よりも、連写間隔を短く（連写速度を速く）することができ、逆に「あ」である場合には「え」である場合よりも、連写間隔を長く（連写速度を遅く）することができる。

よって、同一人物が同一の話速で発声した場合であっても、キーワードに応じて異なる変化量で連写速度制御することができる。

また、ステップＳ１６の判断がＮＯであって、測定話速が上限話速（８０）未満である場合には、ステップＳ１６からステップＳ１８に進み、測定話速が下限話速（２０）未満であるか否かを判断する。このステップＳ１８の判断がＮＯである場合には、測定話速は上限話速（８０）未満かつ下限話速（２０）以上の「中間」である。よって、この場合には、設定Ｂを変化レベル２に対応する制御値で制御する（ステップＳ１３）。

したがって、前記ステップＳ５で人物が「おとうさん」と判断され、ステップＳ７でキーワードが「え」と判断されたとすると、レベル２に対応する制御値は「＋１」であることから、先ず制御値「＋１」が決定される。また、モード「２」が選択されていたとすると、設定Ｂは「連写」であることから、連写速度が「＋１」に相当する速度で速度アップされる。つまり連写間隔Ｘが、「＋１」に相当する間隔αで短縮化され、Ｘ−α＝Ｘとされて、短縮化された新たな連写間隔Ｘが設定される。

しかし、前記ステップＳ５で人物が「おとうさん」と判断されても、ステップＳ７でキーワードが「あ」と判断された場合は、レベル２に対応する制御値は「＋０．５」であることから、先ず制御値「＋０．５」が決定される。また、モード「２」が選択されていたとすると、設定Ｂは「連写」であることから、連写速度が「＋０．５」に相当する速度で速度アップされる。つまり連写間隔Ｘが、「＋０．５」に相当する間隔βで短縮化され、Ｘ−β＝Ｘとされて、短縮化された新たな連写間隔Ｘが設定される。

したがって、前述のように、同一人物が同一の話速で発声した場合であっても、キーワードに応じて異なる変化量で連写速度制御することができる。

また、ステップＳ１８の判断がＹＥＳであって、測定話速が下限話速（２０）未満である場合には、ステップＳ１８からステップＳ２０に進み、設定Ｂを変化レベル１に対応する制御値で制御する（ステップＳ２０）。

したがって、前記ステップＳ５で人物が「おとうさん」と判断され、ステップＳ７でキーワードが「え」と判断されたとすると、レベル１に対応する制御値は「−２」であることから、先ず制御値「−２」が決定される。また、モード「２」が選択されていたとすると、設定Ｂは「連写」であることから、連写速度が「−２」に相当する速度で速度ダウンされる。つまり連写間隔Ｘが、「−２」に相当する間隔γで長大化され、Ｘ−γ＝Ｘとされて、長大化された新たな連写間隔Ｘが設定される。

しかし、前記ステップＳ５で人物が「おとうさん」と判断されても、ステップＳ７でキーワードが「あ」と判断された場合は、レベル１に対応する制御値は「−１」であることから、先ず制御値「−１」が決定される。また、モード「２」が選択されていたとすると、設定Ｂは「連写」であることから、連写速度が「−１」に相当する速度で速度ダウンされる。つまり連写間隔Ｘが、「−１」に相当する間隔γで長大化され、Ｘ−γ＝Ｘとされて、長大化された新たな連写間隔Ｘが設定される。

したがって、同一人物が同一の話速で発声した場合であっても、キーワードに応じて異なる変化量で速度ダウン制御することができる。

そして、前記ステップＳ１７、Ｓ１９、Ｓ２０のいずれかに続くステップＳ２１においては、前述のように、タイマＴの値が前記ステップＳ１で連写間隔Ｘを超えたか否かを判断する（ステップＳ２１）。このとき、
（１）前記ステップＳ１７の処理が実行された場合には、連写間隔Ｘが間隔αで短縮化され、Ｘ−α＝Ｘとされており、
（２）前記ステップＳ１９の処理が実行された場合には、連写間隔Ｘが間隔βで短縮化され、Ｘ−β＝Ｘとされており、
（３）前記ステップＳ２０の処理が実行された場合には、連写間隔Ｘが、間隔γで長大化され、Ｘ−γ＝Ｘとされている。

したがって、（１）（２）の場合は、ステップＳ２１でＴ＞Ｘとなる連写間隔は、前回よりも短くなりこれにより連写速度を高めることができる。
しかし、（３）の場合は、ステップＳ２１でＴ＞Ｘとなる連写間隔は、前回よりも長くなりこれにより連写速度を低めることができる。

また、前述のように、ステップＳ２４の判断がＮＯであって、シャッタの全押しが解除Ｓれない限り、ステップＳ２からの処理が繰り返される。したがって、「おとうさん」又は「おかあさん」が「え、え、え・・・」あるいは「あ、あ、あ・・・」と連続的に発声することにより、前述したステップＳ８〜Ｓ２４の処理が繰り返し実行させることができる。

したがって、音声が有する情報（音量情報、話速情報）を有効に利用して、カメラ装置が備える連写機能及びズーム機能を制御することができる。

しかも、音声が有する情報（音量情報、話速情報）を有効に利用して、これらの機能を連続的に制御することができる。

そして、ユーザがシャッタキーの全押しを解除することにより、ステップＳ２４の判断がＹＥＳになると、ステップＳ２４からステップＳ２５に進み記録処理を実行する。この記録処理においては、音量に応じて変化したズーム倍率であって、話速に応じて異なる連写間隔Ｘでワークメモリ１１に記憶された画像データを一つの動画ファイルにして、ファイル名とともに画像記憶部６に記憶する。

これにより、画像記憶部６に、ユーザ音声の音量及び話速に応じて異なるズーム倍率や連写間隔が混在する複数のフレーム画像からなる動画ファイルを記録することができる。

なお、前記説明においては、ユーザによりモード「２」が選択されて、設定Ａが「ズーム」であり、設定Ｂが「連写」である場合を示した。しかし、ユーザによりモード「１」が選択された場合には、設定Ａは「ズーム」であり、設定Ｂも「ズーム」である。この場合には、ステップＳ９〜Ｓ１４で音量に応じてズーム制御が実行され、さらに、ステップＳ１５〜Ｓ２０で話速に応じてズーム制御が実行されることとなる。

よって、この場合には、特定の機能（ズーム機能）を音量と話速の双方に基づき制御することができる。

また、ユーザによりモード「３」が選択された場合には、設定Ａは「連写」であり、設定Ｂは「ズーム」である。この場合には、前述の説明とは逆に、ステップＳ９〜Ｓ１４で音量に応じて連写速度制御が実行され、ステップＳ１５〜Ｓ２０で話速に応じてズーム制御が実行されることとなる。

よって、この場合には、音量と話速の各々に基づき異なる機能を制御することができる。

また、ユーザによりモード「４」が選択された場合には、設定Ａは「連写」であり、設定Ｂも「連写」である。この場合には、ステップＳ９〜Ｓ１４で音量に応じて連写速度制御が実行され、さらに、ステップＳ１５〜Ｓ２０で話速に応じて連写速度制御が実行されることとなる。

よって、この場合には、特定の機能（連写速度）を音量と話速の双方に基づき制御することができる。しかも、予め検出値に対応して制御値が記憶されているパラメータ設定テーブル１３２から制御値を読み出す簡単な処理により、特定の機能を制御することができる。

なお、実施の形態においては、ズーム倍率と連写速度とを制御するようにしたが、制御対象はこれらに限ることなく、ＩＳＯ感度、絞り等の他の機能であってもよい。
また、実施の形態においては、キーワードとして、一音節からなる単音を登録した場合を示したが、単語を登録するようにしてもよい。

また、実施の形態においては、人物とこれに対応するキーワードを登録しておき、認識結果に応じて制御を行うようにしたが、人物は登録することなくキーワードのみを登録しておき、当該キーワードでの音量、話速に応じて制御を行うようにしてもよい。このようにキーワードのみの登録とすれば、特定の者に限ることなく音声で当該デジタルカメラを制御することができ、汎用性を高めることができる。

さらに、人物及びキーワードとも登録することなく、単に入力された音声の音量や話速に基づき制御を実行するようにしてよい。これにより、歓声の大きさや頻度に応じて、連写速度やズーム倍率を制御することが可能となる。

また、このように歓声の大きさに応じて連写速度を制御する場合には、常時高速で連写してワークメモリ１１に記録するとともに、歓声も連続的に録音してワークメモリ１１に記憶し、画像記憶部６に記憶する際には、歓声の小さい間のフレーム画像を間引いて動画ファイルを生成し、しかる後に画像記憶部６に記憶するようにしてもよい。これにより、歓声の大きいシーンでは連写速度を高めた動画ファイルが生成され、実質的に時間を遡って歓声に応じて連写速度を上げることができる。

また、連写撮影は、動画に限らず、静止画の連写撮影であっても良い。

また、モード１〜４は、何れも設定Ａと設定Ｂの両方を設定するものとしたが、
・設定Ａのみ「ズーム」にして設定Ｂは行わないとするモード５、
・設定Ｂのみ「ズーム」にして設定Ａは行わないとするモード６、
・設定Ａのみ「連写」にして設定Ｂは行わないとするモード７、
・設定Ｂのみ「連写」にして設定Ａは行わないとするモード８、
を更に設定可能であっても構わない。

また、話速は、前述のように、例えば、単音声（音節）から次の単音声（音節）までの時間間隔であり、この時間間隔が少ない程、話速が高い（速い）と判定することが出来ると共に、話速の検出は、特開平05-289691や特開2005-331589に記載されたような方法で、またはそれらのいくつかを組み合わせた方法で、検出するようにしても構わない。

また、実施の形態においては本発明を専用機としてのデジタルカメラに採用した場合について説明したが、これに限らず本発明は、カメラ付き携帯電話、カメラ付きＰＤＡ、カメラ付きＰＣ、さらには銀塩カメラ等の他のカメラ装置にも採用することができる。

本発明の一実施の形態に係るデジタルカメラの概略構成を示すブロック図である。初期設定テーブルの構成を示す概念図である。パラメータ設定テーブルの構成を示す概念図である。本実施の形態における処理手順を示すフローチャートである。図４のフローチャートに続くフローチャートである。

符号の説明

１キー入力部
２合焦・ズーム部
３露光部
４画像入力部
５画像圧縮部
６画像記憶部
７画像表示部
８マイク
９音声入力部
１０Ａ／Ｄ変換部
１１ワークメモリ
１２音声認識部
１３プログラムメモリ
１４制御部
１３１初期設定テーブル
１３２パラメータ設定テーブル

Claims

音声を取得する取得手段と、
音声に含まれている情報であって、物理量として検出可能な情報である物理的音声情報を前記取得手段により取得された音声から検出する検出手段と、
この検出手段により検出された前記物理的音声情報に基づき、当該カメラ装置が有する所定の機能を制御する制御手段と
を備えることを特徴とするカメラ装置。
前記検出手段は、前記物理的音声情報として、音量を前記音声から検出することを特徴とする請求項１記載のカメラ装置。
前記検出手段は、前記物理的音声情報として、話速を、前記音声から検出することを特徴とする請求項１記載のカメラ装置。
前記話速とは、音声における隣接する単音間の時間的短さに対応する速さであることを特徴とする請求項３記載のカメラ装置。
前記所定の機能とは、前記物理量の変化に応じて段階的に制御される機能であることを特徴とする請求項１〜４のいずれか１項に記載のカメラ装置。
前記所定の機能は、当該カメラ装置が有する撮影手段を連続的に動作させる連写撮影における連写速度であることを特徴とする請求項１から５のいずれか１項に記載のカメラ装置。
前記連写撮影とは、動画の撮影であることを特徴とする請求項６に記載のカメラ装置。
前記所定の機能は、当該カメラ装置が有するズームレンズを駆動するズーム機能であることを特徴とする請求項１から５のいずれか１項に記載のカメラ装置。
前記検出手段により検出される前記物理的音声情報が示す物理量に対応して、前記所定機能の制御に用いられる制御値を記憶した制御情報記憶手段を備え、
前記制御手段は、前記制御情報記憶手段から前記検出手段により検出された物理的音声情報が示す物理量に対応する制御値を読み出して、前記所定の機能を制御することを特徴とする請求項１から８のいずれか１項に記載のカメラ装置。
前記制御情報記憶手段は、前記物理的音声情報が示す同一の物理量に対応して複数の異なる制御値を記憶し、
前記制御手段は、前記制御情報記憶手段から前記検出手段により検出された物理的音声情報が示す物理量に対応する複数の制御値のいずれかを選択的に読み出すことを特徴とする請求項９記載のカメラ装置。
キーワードを記憶する認識情報記憶手段と、
この認識情報記憶手段に記憶されたキーワードと前記音声検出手段により検出された音声との一致性を認識する認識手段とを備え、
前記検出手段は、前記認識手段により前記キーワードと前記音声との一致性が認識された場合に、前記物理的音声情報を検出することを特徴とする請求項１から８のいずれか１項に記載のカメラ装置。
前記認識情報記憶手段は、人物を示す人物情報と前記キーワードとを対応して記憶し、
前記認識手段は、前記認識情報記憶手段に記憶された人物情報及びキーワードと前記音声検出手段により検出された音声との一致性を認識し、
前記検出手段は、前記認識手段により前記人物情報及びキーワードと前記音声との一致性が認識された場合に、前記物理的音声情報を検出することを特徴とする請求項１１記載のカメラ装置。
前記認識情報記憶手段は、一つの音節からなる単音を前記キーワードとして記憶することを特徴とする請求項１１又は１２記載のカメラ装置。
前記認識情報記憶手段は、前記キーワードと前記検出手段により検出される前記物理的音声情報が示す物理量とに対応して、前記所定機能の制御に用いられる制御値を記憶し、
前記制御手段は、前記認識手段により前記キーワードと前記音声との一致性が認識された場合に、前記制御情報記憶手段から前記キーワードと前記検出手段により検出された物理的音声情報が示す物理量とに対応する制御値を読み出して、前記所定の機能を制御することを特徴とする請求項１１〜１３の何れか１項に記載のカメラ装置。
前記認識情報記憶手段は、前記人物情報及びキーワードと前記検出手段により検出される前記物理的音声情報が示す物理量とに対応して、前記所定機能の制御に用いられる制御値を記憶し、
前記制御手段は、前記認識手段により前記人物情報及びキーワードと前記音声との一致性が認識された場合に、前記認識情報記憶手段から前記前記人物情報及びキーワードと前記検出手段により検出された物理的音声情報が示す物理量とに対応する制御値を読み出して、前記所定の機能を制御することを特徴とする請求項１２記載のカメラ装置。
前記認識情報記憶手段は、前記物理的音声情報が示す同一の物理量に対応して複数の異なる制御値を記憶し、
前記制御手段は、前記認識情報記憶手段から前記検出手段により検出された物理的音声情報が示す物理量に対応する複数の制御値のいずれかを選択的に読み出すことを特徴とする請求項１４又は１５記載のカメラ装置。
前記認識情報記憶手段は、複数のキーワードを記憶するとともに、前記複数の異なる制御値を異なるキーワード毎に記憶し、
前記制御手段は、前記認識手段により認識されたキーワードに対応し、かつ前記検出手段により検出された物理的音声情報が示す物理量に対応する制御値を読み出すことを特徴とする請求項１６記載のカメラ装置。
被写体を撮像するさ撮像手段と、
前記撮影手段により連続的に撮影された複数の画像を記録するとともに、前記検出手段により検出された音声を連続的に記録する第１の記録手段と、
第２の記録手段とを備え、
前記検出手段は、前記物理的音声情報として音量を前記第１の記録手段に記録されている音声から検出し、
前記制御手段は、前記検出手段により検出された音量に応じて、前記第１の記録手段に記録されている複数の画像を間引き処理し、この間引き処理した後の複数の画像を前記第２の記録手段に記録することを特徴とする請求項１記載のカメラ装置。
前記取得手段、検出手段、制御手段のいずれか少なくとも一つの手段の動作をオン・オフする操作手段を備えることを特徴とする請求項１から１８のいずれか１項に記載のカメラ装置。
前記検出手段は、更に前記物理的音声情報として、前記音量に加えて話速を、前記音声から検出することを特徴とする請求項２記載のカメラ装置。
前記所定の機能とは、物理量である音量と話速それぞれの変化に応じて段階的に制御される機能であり、この所定の機能は、
前記音量の変化に応じて制御される第１の機能と、
前記話速の変化に応じて制御される第２の機能と、
を有することを特徴とする請求項２０記載のカメラ装置。
音声を取得する取得手段を備えるカメラ装置が有するコンピュータを、
音声に含まれている情報であって、物理量として検出可能な情報である物理的音声情報を前記取得手段により取得された音声から検出する検出手段と、
この検出手段により検出された前記物理的音声情報に基づき、当該カメラ装置が有する所定の機能を制御する制御手段と
して機能させることを特徴とするカメラ装置制御プログラム。