以下、図面に従って本発明のガイド装置を適用したカメラを用いて好ましい実施形態について説明する。本実施形態においては、撮影に先立って、「日本語にしますか」「英語にしますか」・・と相手に言語を選んでもらう時の相手の表情に従って言語を決定するようにしている。そして決められた言語による案内を用いて、カメラ撮影を行なうことができるようにしている。これによって言葉が通じない外国の方と写真を通じてコミュニケーションすることができる。また、相手に余計な操作を強いることなく、一緒に撮影を行ったり、撮影画像にカメラ所有者の言語と相手の言語でコメントを付与し、両者が撮影された画像をネット上で検索できるようにしている。
図1は、本発明の一実施形態に係わるデジタルカメラとその周辺のブロック図である。このカメラ100は平板型(図2参照)をしており、平板上に、魚眼レンズ等の広角レンズからなる撮影レンズ2を設け、広い範囲の撮影を可能としている。これは、撮影者自身をも撮影可能とするためである。ユーザーが使用するカメラ100には、撮影レンズ2、AF(オートフォーカス)制御部2a、絞り2b、絞り制御部2c、撮像素子3、アナログフロントエンド(以下、AFEと略す)部4が設けられている。撮影レンズ2は、内部にフォーカスレンズを有し、入射した被写体20の像を撮像素子3上に結像させる。
AF制御部2aは、撮影レンズ2の合焦位置を、後述する画像処理部5内において画像処理を行い、いわゆる山登り法により検出し、フォーカスレンズを駆動して、合焦位置に移動させる。なお、山登り法は、撮影画像のコントラスト信号ピークから合焦位置(ピント位置)を検出する方式であるが、山登り法以外にも、例えば位相差法や三角測距法等公知の合焦方法に置き換えてもよい。AFによって合焦位置に達すると、このときの撮影レンズ2を検出することにより、距離判定を行うことができる。この場合、撮影レンズ2がズームレンズのときには、ズーム位置等を加味して距離の判定を行う。
撮影レンズ2内または近傍に、シャッタや絞りの効果を奏する絞り2bが設けられる。絞り2bは、撮影時に所定の口径まで開き、露出が終了すると閉じて露光を終了させるものである。絞り制御部2cは、絞り2bを駆動して絞り径を設定する。この絞りを変えることによって、レンズの被写界深度が変化するので、背景のぼけ具合などを調整して、被写体を浮かび上がらせたり、背景をしっかりと描写したりするなど、表現の切り替えを行うことができる。撮像素子3は、多数の受光面(画素)からなるCCDやCMOSセンサ等であり、撮影レンズ2を介して被写体20からの像を受光しこれを画像信号に変換する。
アナログフロントエンド(AFE)部4は、アナログデジタル(AD)変換手段を含み、撮像素子3からの信号をデジタル信号化する。そして、AFE部4は、撮像素子3から出力される画像信号について各種処理を行う。また、AFE部4には、撮像素子3のいくつかの画素をまとめて、一括して読み出す機能も設けられている。たとえば、4画素(2×2)や9画素(3×3)など、各画素の信号レベルが小さいときには、いくつかの画素信号を加算して、S/Nを向上させることができ、また、感度を上げることも出来る。
このような操作によって感度を上げることができ、シャッタスピードを速くする等、撮影上の工夫が可能となる。シャッタスピードが速いと、動いている被写体が止まっているように撮影することが可能となる。
また、AFE部4は、撮像素子3の出力する信号を取捨選択する機能を有し、受光範囲の中から限られた範囲の画像データを抽出することが出来る。一般に撮像素子3の画素から間引いた画素信号を抽出する場合には、高速読出が可能となる。これにより構図確認用の画像信号を、画像処理部5によって高速処理し、表示制御部8aを介して表示パネル8に表示することにより、フレーミングが可能となる。
AFE部4の出力は、画像処理部5に接続されている。画像処理部5は、入力信号の色や階調やシャープネスを補正処理する。また、撮像素子3から得られた画像信号を所定のレベルに増幅して、正しい濃淡、正しい灰色レベルに設定する増感部を有している。これは、デジタル化された信号レベルが、所定レベルになるようにデジタル演算するものである。また、画像処理部5は、スルー画像(ライブ画像とも言う)をリアルタイムに表示部に表示できるように、撮像素子3からの信号を表示パネル8に表示できるようなサイズに加工するリサイズ部を有する。この働きによって、撮影に先立って撮像素子に入射する像を確認でき、これを見ながら撮影時のタイミングやシャッタチャンスを決定することが出来る。
また、この画像処理部5の信号を利用して、撮像素子3から入力されてくる画像の特徴などを判定する画像判定機能を有している。例えば、画像情報を加工して得られる輪郭情報から、撮像しているものの形状を検出する形状判定部5a、また、画像の特徴を調べて、主要被写体の位置を検出する顔検出手段5dなどが、このシステムには含まれている。これは、写真撮影時に、ユーザーがどのような写真を撮ろうとしているかを判定して、撮影制御を最適化するためのものである。
また、画像処理部5は、前述した画像のコントラストを判定する機能を有し、撮影レンズのピント合わせ手段との連動で、オートフォーカスの制御を行う。撮影レンズ2のピント合わせ時のレンズ位置の情報によって、被写体の距離や、背景の距離などが判定できる。
この撮影レンズ2は、魚眼レンズのような広角レンズであるので、図5に示すように、円形で示す広い領域の映像範囲51に被写体像が結像し、撮影可能である。しかし、周辺部の撮影記録範囲52の画像は、図示の如く扇型の大きな歪みを生じてしまう。そこで、画像処理部5内の歪み補正部5bにおいて、図示の如く歪のない矩形画像53に補正する。本実施形態においては、撮影レンズ2で撮影し得る画像のすべてを記録するのではなく、このように、一部の画像(撮影記録範囲52の画像)を取り出して記録し、他の画像部分は、別の操作時に利用している。また、この撮像結果を利用して、後述するように、顔の表情なども読み取る。なお、撮影レンズ2に代えて、後述する図14に示すような複数のレンズやプリズムを利用して、広い範囲を撮影可能としてもよい。
また、画像処理部5には、撮像素子3によって得られた顔画像から、顔の表情を判定する表情判定部5cが接続されている。表情判定部5cによって、撮影以外の状況判定や被写体の意思までを判定することができる。すなわち、カメラ100は、後述するように、多言語辞書のデータベース部12を有しており、これから所定の会話フレーズを読み出して音声発生部14で音声として順次、言語を変えながら出力したり、表示部8に順次表示したりして、それを見たときの顔の表情変化によって、どの言語が一番、通じる言葉であるかを判定できる。この言語の選択は、表情判定部5cの出力を用いて行なっている。また、言語情報を利用して、画像の適切な整理を行なえるようにしている。すなわち、撮影された人が外国の人である場合、日本語での画像検索は困難なので、撮影された人の使う言語で画像の整理を可能としている。
カメラ100には、圧縮部6、記録部9a、記録メディア9、データ送受信部9c、表示パネル8、表示制御部8a、辞書/カメラ表示切替部8b、バックライト(BL)8c、バックライト(BL)制御部8d、多言語辞書部12が設けられている。圧縮部6は、撮影時に画像処理部5から出力された信号を圧縮する。圧縮部6内には、MPEG(Moving Picture Experts Group)4やH.264などの圧縮用コア部で構成される動画用の圧縮部及び JPEG(Joint Photographic Experts Group)コア部など静止画像用の圧縮部が設けられる。また、圧縮部6は記録メディア9に記録されている画像を表示パネル8に再生する際には、画像伸張も行なう。
記録部9aは、圧縮された画像信号を記録メディア9に記録する。記録メディア9はカメラに着脱可能な保存用の記録媒体である。なお、画像信号の記録にあたっては、前述の圧縮された画像データのほか、撮影時間等の付随データも併せて記録される。撮影時間情報は、後述するMPU1内の時計部1tによって計測されており、MPU1は画像と関連付を行なう。
記録メディア9や記録部9aに記録された撮影画像データは、RFIDのようなICカードやワイヤレスLANなどの技術を利用した無線データ送受信部9cによって、インターネット32経由で、他の機器、例えば、画像を管理するサーバー34等の他の機器に転送することができる。サーバー34に送信した画像は、第三者31にすぐ見せることができ、画像を見ながらのコミュニケーションの促進が可能となっている。また、このインターネット32には、翻訳サービスを行なう翻訳サービスサーバー33が接続されている。
表示パネル8は、例えば液晶や有機EL等から構成され、この表示パネル8の裏面には白色LEDなどのバックライト8cが配置されており、このバックライト8cはバックライト(BL)制御部8dに接続され、これによって制御される。バックライト8cからの光を表示パネル8に照射することにより、表示パネル8の視認性を向上することができ、また、見えが悪い場合には、ユーザーの操作によりBL制御部8dは明るさを増すように制御する。
また、後述するMPU1には多言語辞書のデータベース部12が接続されており、この多言語辞書データベース12は、旅行の際によく用いられる所定の会話フレーズ等を多言語に対応して記憶している。この多言語による会話フレーズ等は、表示パネル8に表示される。このため表示制御部8a内には、辞書/カメラ表示切替部8bが設けられている。この辞書/カメラ表示切替部8bは、後述するように各種設定状態に応じて、液晶パネル8における辞書表示とカメラ表示の切り替えを行なう。
したがって、表示パネル8は、撮影時には被写体観察用に被写体画像を表示し、再生時には伸張処理された撮影画像を表示し、また、辞書表示時には会話フレーズ等を表示する。なお、表示パネル8には、撮影して送信済み画像を一覧表示して、そこからサーバー34が運営するブログサービスなどにアップする画像や、アップして、ブログに表示する時のレイアウトを選択できるようにしてもよい。
カメラ100には、補助光発光部11、MPU(Micro Processing Unit)1、レリーズスイッチ1a(なお、1aはレリーズ釦を意味することもある)、モード切替スイッチ1b、他のスイッチ1cが設けられている。
補助光発光部11は、白色LEDやXe放電発光管を有し、電流量で光量が制御できるようになっている。状況に応じて被写体20に光を照射して、明るさの不足や不均一な明るさを防止する。また、この補助光は、後述するように、被写体以外に対しても照明を行ない、モード切替の際の判定に使用する。また、MPU1には、音声発生部14が設けられており、多言語辞書データベース12から読み出された会話フレーズに従って音声を発生するためのスピーカーが接続されている。
MPU1は、カメラ全体の制御を司る制御手段である。レリーズスイッチ1a、モード切替スイッチ1b、他のスイッチ1cおよびプログラム等を記憶したROM(不図示)が、MPU1に接続される。MPU1内には、前述したように、日や時刻を検出するための時計部1tが設けられており、写真の撮影日時を検出し、撮影画像と関連付けを行う。なお、スイッチ1b、1cは、スイッチを総称的に表示したものであって、実際には多数のスイッチ群から構成されている。
各スイッチ1a〜1cは、ユーザーの操作を検出して、その結果をマイクロコントローラからなる演算制御手段であるMPU1に通知する。MPU1が、これらのスイッチの操作に従って動作を切り換える。これらのスイッチの操作に従って、撮影/再生のモード切替や撮影モードの切替、画像送信の設定、キーワード選択、会話フレーズ選択なども行えるようになっている。また、MPU1は撮影時には、AF制御部2aや絞り制御部2c等の制御を行う撮影制御部として機能する。また、画像の再生機能、辞書機能等の各種機能の切り替えを行う。
次に、図2ないし図4を用いて、カメラ100の外観構造と使用方法について説明する。まず、このカメラ100の外観は、図3および図4の示すように、本体部10の上面に、魚眼レンズで構成される撮影レンズ2と、表示用の表示パネル8と、レリーズボタン1aが設けられている。また、本体部10には、言語名や会話フレーズ等を音声合成で再生するスピーカー等からなる音声発生部14が設けられている。本体部10の側部側には、補助光発光部11が設けられている。
撮影レンズ2は、図3(a)(b)に示すように、表示パネル8の面に対して、ほぼ垂直方向が光軸となるように、カメラ100の本体部10に取り付けられている。この撮影レンズ2に対して、矢印16はユーザー21と本実施形態に係わるガイド装置によってコミュニケーションをとる被写体20(相手方)の両者を一緒にとるときの撮影方向である。また、矢印17は、被写体(相手方)20をモデルとして撮影する場合の撮影方向である。また、矢印23、24は、表示パネル8のバックライト8cによるユーザー21および相手方20への照射光の方向を示している。矢印25(図3(b))は、補助発光部11による照射方向を示している。
撮影レンズ2は魚眼レンズのような広角レンズによって構成されているので、撮影レンズ2によって、図5に示す映像範囲51に相当する画像が結像される。この映像範囲に対して、撮像素子3は撮像範囲54の画像について光電変換できる。撮影記録範囲52は、前述したように光学的に歪んでいるが、画像処理部5内の歪み補正部によって矩形53に補正される。また、撮影レンズ2に対して、モデルとしての被写体20の撮影方向が矢印25の場合には、モデル撮影範囲56で画像が形成される。補助光発光部11と表示パネル8のバックライト8cによる補助光範囲55は、撮影記録範囲52とモデル撮影範囲56をカバーする領域である。
本実施形態においては、撮影レンズ2によって映像範囲51の画像が得られるが、撮影に当たっては、画像の一部しか使わない。すなわち、ユーザー21と被写体(相手方)20が一緒に撮影する場合には、撮影記録範囲52の画像を使用する。また、被写体(相手方)20を撮影する場合には、モデル撮影範囲56の画像を使用する。したがって、補助光の照射範囲は、撮影記録範囲52+α、またはモデル撮影範囲56+αの領域を照射できればよい。後述するように、図2のように、カメラ100の近くにユーザー21および被写体(相手方)20が存在する場合には、表示パネル8のバックライト8cの光を利用すればよい。
このようなガイド装置を有するカメラ100において、会話フレーズを使用する辞書モードとカメラモードを切り替える方法について説明する。図2は撮影に先立って、カメラ100を利用してユーザー21が、被写体20とコミュニケーションを取っているところを示している。ユーザー21のカメラ操作によって、音声発生部14からは、順次、世界各国の代表的な言語で、「この言葉でいいですか」という内容の音声を再生する。撮影レンズ2は前述したように魚眼レンズ等の広角レンズで、モニタ範囲22の像を捉えることができる。そして、この時の被写体の人物の表情は、撮影レンズ2を通して撮像素子3の撮像記録範囲52から画像信号に基づいてモニタされている。なお、音声発生部14から音声の代わりに、または音声と共に表示パネル8に、おなじ言葉を順次表示するようにしてもよい。
このように表情をモニタしていると、被写体(相手方)20が分かる言語の再生時には、被写体20の表情が変わる。この表情の変化を認識し、変化したときの言語が、その被写体20が使用する使用言語であると判定する。使用言語が分かると、その使用言語を用いて、図2(b)に示すように、撮影してよいかどうかの質問を行なうことができる。これによって、撮影の許可を得ることが出来る。
コミュニケーションをとるにあたっては、表情の変化だけでなく、仕草の変化等を検出するようにしてもよい。また、マイクを設け、被写体20の返答の調子やタイミング等を補助的に用いて、被写体20が使用している言語を推定するようにしてもよい。
図3(a)は、図2の状態からそのまま、一緒に撮影する場合を示している。なお、カメラ100は側面方向から見た断面図として表示し、各機能の配置を分かりやすく示している。表示パネル8には、撮像結果を表示し(図4(a)参照)、表示パネル8を観察しながら、表情を決めて撮影を行う(「一緒撮影」と称す)。構図と表情がよければ、レリーズ釦1aを操作し、撮影を行う。
周囲が暗い場合には、表示パネル8のバックライト8cを利用して、被写体20を照明するようにしてもよい。照明を行なう時には、撮影のタイミングで表示パネル8の液晶を透過状態にすればよい。また、図2の状態で、そのままの位置で一緒撮影を行わずに、被写体20を一人で撮影する場合には、図3(b)に示すように、撮影レンズ2の広角レンズを利用し、異なる撮影方向17からの像を表示パネル8に表示し、撮影するようにしてもよい。これを「モデル撮影」と称する。
このような広角レンズの撮影レンズ2から得られる画像における、一緒記録の範囲とモデル撮影の範囲は、前述したように、それぞれ撮影記録範囲52とモデル撮影範囲56である。広角レンズを使用することから取得画像は、かなり歪みの目立つものである。このため、矩形画像53となるように、画像処理部5の歪み補正部5bによって画像の上の部分は縮めるような補正を行い、通常の写真のように四方形の画像に変換してから表示し、また記録メディア9等に記録を行う。
一緒記録の場合には、扇形の部分(撮影記録範囲52)のみを切り出して使うので、撮像素子3は、点線の四方形の撮像範囲54のみをカバーすればよい。また、補助光範囲55も点線の楕円で示した領域をカバーすればよく、広角の全域をカバーする必要はない。
こうして撮影された画像には、キーワードをつけて整理するようにしておく。キーワード付けにあたっては、図4(b)に示すように、表示パネル8に符号23で示すように、撮影者(ユーザー)21の国の言葉で決めたキーワードと、被写体20の国の言葉に訳したもの(翻訳時には、先に判定した、被写体の使う言葉の判定結果を利用する)を表示する。これによって、被写体にとっても検索しやすいキーワードとなり、この撮影を行った後、別れてからも、インターネットで各自の日常語にて検索することが可能となり、簡単にこの画像を探すことができる。
図2において、被写体20の表情の変化によって、いずれの言語を理解しているかを判定していた。この表情の変化の判定方法について図6を用いて、表情を数値Rに数値化する方法について説明する。図6は、言葉が理解できたときに、人が表す笑顔(a)と、理解できないときの困った顔(b)を比較したものであり、両者を比較すると、眼と口元に特徴があることが分かる。
すなわち、眼を比較すると、両目の瞳の中心を結んだ線61の上側に白目が多いと、笑顔に近いことが分かる。また、口元も、同様な考え方で判定できる。つまり、口の両端を結んだ線62より、下側にある唇部の面積が広いと、笑顔の度合いも大きくなる。
図6で示した判定方法を利用して笑顔度Rを求める方法について、図7に示すフローチャートに基づいて説明する。まず、目部と口部の検出を行なう(S151)。これは、撮像素子3の出力に基づいて、顔検出部5dによって顔を検出し、その検出された顔の中から眼と、口の部分をパターン認識により抽出する。
続いて、ステップS152からS154において、眼の白目の面積から笑顔度を検出する。まず、両目の瞳を結ぶ線61より上側の白目の面積を測定し、この値をEAとする(S152)。同様に、線61より下側の白目の面積を測定し、この値をEBとする(S153)。次に、こうして得たEA、EBの差を、これらの和で正規化して、すなわち、(EA−EB)/(EA+EB)を求め、数値REを得る(S154)。数値REは大きいほうが、笑顔度が高いと判定される。
次に、ステップS155からS157において、唇の面積から笑顔度を検出する。まず、口の両端を結ぶ線62より上側の唇の面積を測定し、この値をLAとする(S155)。同様に、線62より下側の唇の面積を測定し、この値をLBとする(S156)。こうして得たLA、LBの差を、これらの和で正規化して、すなわち、(LB−LA)/(LA+LB)を求め、数値RLを得る(S157)。数値RLは大きいほうが、笑顔度が高いと判定される。
続いて、ステップS154とS157で得た値REとRLを加算して笑顔度Rを求める(S158)。値Rが大きいほど笑顔に近いことになる。さらに、笑顔度の判定の精度を高めるために、図6(a)の矢印64付近の状態を判定する(S159)。すなわち、口の端部に影があり、歯が見えていれば、笑顔の確率が高いので、それを判定する。判定の結果、歯が見えており、かつ口端部に影があれば、笑顔度Rに1点、加算する(S160)。
ただし、眉間にしわがあると笑顔とは言えないので、ステップS161で判定する。すなわち、図6(b)の矢印65付近において眼の間の皺があるか否かの判定を行なう(S161)。判定の結果、眉間の間に皺を検出した場合は、笑顔度Rから1点、減点する(S162)。このように笑顔に近いほど高得点になる数値化(R)が可能となる。
なお、本実施形態においては、両目の瞳の中心を結んだ線より上側に白目が多いか否かで笑顔度を求めたが、これに限らず、上瞼の傾き等によって求めるようにしてもよい。すなわち、図6において、瞼の幅EHに対し、瞼の一番高いところの位置ETを求め、これの比、ET/EHによっても笑顔度を求めることができる。ET/EHが大きくなると笑顔に近くなり、また、この比が小さくなり、上瞼の傾きが大きくなると笑顔から遠ざかる傾向にある。
本実施形態においては、表情を数値化したので、常時、顔をモニタし、その表情の数値を記録しておき、理解できない言葉から、理解できる言葉になった時に表情が変化すると、笑顔度Rの値が大きくなったり、大きく変化するので、これを判定して、日常使用言語の判断を行うようにしている。
本実施形態においては、表情の変化の検出のために、笑顔度Rを測定しているが、これの変形例である肯定度Aについて図8および図9を用いて説明する。肯定度Aは、笑顔度Rに代えて、または笑顔度Rと一緒に用いることができる。図8は、顔が正面を向いているときと(図8(a))、下を向いたとき(図8(b))、横を向いたとき(図8(c))の様子を示す。すなわち、理解できる言葉を聴いたときには頷く(肯定)ので、図8(b)に示すように、目の中心部からΔYだけ、顔は下向きに動く。一方、理解できない言葉を聴いたときには、顔を振る(否定)ので、図8(c)に示すように、目の中心部からΔXだけ、顔は横を向く。このように、目の中心の移動を見て、肯定か否定かを判定することができる。
図9は、顔の中心が所定期間に横に動いた(否定方向)か、縦に動いた(肯定方向)かを検出し、被写体(相手方)20の応答を判定するフローチャートである。顔が横に動いた回数、または頻度と縦に動いた回数、または頻度で、肯定の動きの方が目立つときは、肯定度Aの値が大きくなるように設定してある。
図8で示した判定方法を利用して肯定度Aを求める方法について、図9に示すフローチャートに基づいて説明する。まず、撮像素子3の出力から顔の像を検出し、所定のタイミングでスタートする(S251)。続いて、目部の中心座標66を測定する(S252)。この後、所定時間経過するのを待つ(S253)。この所定時間は、顔の頷きや横向きの変化を検出するにあたってのサンプリング時間である。
所定時間が経過すると、再び目部の中心座標66を測定する(S254)。所定時間を挟んで、2つのタイミングで目部の中心座標66を測定したので、この2つのタイミングの間での目部中心座標のY方向の変化を求め、ΔYとする(S255)。次に、目部中心座標のX方向の変化を求め、ΔXとする(S256)。
次に、ΔYが所定値より小さく、ΔXが所定値より大きいか否かの判定を行なう(S257)。判定の結果、この判定条件を満たしている場合には、顔を横に振っている状態であるので、肯定度Aの値を下げるべく、肯定度Aから1点減点する(S258)。続いて、ΔYが所定値より大きく、ΔXが所定値より小さいか否かの判定を行なう(S259)。判定の結果、この判定条件を満たしている場合には、頷いている状態であるので、肯定度Aの値を上げるべく、肯定度Aに1点加点する(S260)。
上述の判定が終わると、次に、検出タイミングの終了かを判定する(S260)。すなわち、この肯定度Aの測定は、所定の時間間隔で複数回繰り返し行うので、ステップS260において、この回数に達したかの判定を行なう。達していない場合には、ステップS253に戻り、繰り返し行なう。
笑顔度Rおよび肯定度Aの測定は、図10に示すように、言語を切り換えながら、顔の動きをモニタして行なう。図10に示す例では、言語Cのときが笑顔度Rおよび肯定度Aの値が最も高いことから、この被写体20の使用言語は言語Cだと判断することができる。
次に、カメラ100の制御について、図11および図12を用いて説明する。撮影に先立って、言語選択モード(電子辞書モード)とカメラモードの切替設定ができるようになっており、設定モードの判定を行なう(S1)。判定の結果、言語選択モードが設定されていた場合には、ステップS21以下において、図2において説明したようにコミュニケーションをとりながら、言語選択を行なう。
言語選択モードに入ると、まず、被写体20に対して撮影許可を得るか否かの判定を行なう(S21)。この撮影許可は、前述したモデル撮影または一緒撮影(図3参照)の許可である。カメラ100のスイッチ類の操作により、撮影許可を得るための設定モードに切り換えるので、このステップでは、撮影許可のための設定となっているか否かの判定を行なう。
ステップS21における判定の結果、撮影許可を得る場合には、次に表情モニタを開始すし(S22)、多言語による質問を、順次、言語を変えながら再生する(S23)。質問は音声発生部14のスピーカーによる音声再生、または表示パネル8に文字表示によって行なう。また、このときには、図7に示した笑顔度Rを求めるフローを行なう。また、これに代えて、または一緒に図9に示した肯定度Aを求めるフローを行なってもよい。
次に、全ての言語について再生が終了したかを判定する(S24)。判定の結果、終了していない場合には、ステップS23に戻り、次の言語で再生を行なう。一方、判定の結果、終了の場合には、表情より言語の判定を行なう(S25)。判定は、図13に示したように、各言語ごとの笑顔度Rや肯定度Aを比較し、最も笑顔度Rや肯定度Aの高い言語を被写体20の使用言語と推定する。
次に、推定した対応言語の確認を行なう(S26)。確認は、音声発生部14から、対応言語で確認の旨を音声表示し、また表示パネル8において対応言語の確認メッセージを表示することにより行なう。続いて、この対応言語の音声表示または視覚表示に対してOKか否かを判定する(S27)。判定の結果、NGの場合には、ステップS23に戻り、適切な対応言語が見つかるまで、前述のステップを繰り返す。
ステップS27における判定がOKであった場合には、次に、撮影をして良いかの確認、または依頼を行なうが、これは、そのときの被写体20の表情によって対応をかえる。まず、その時の被写体20となる人物の表情が笑顔であるか否かを判定する(S28)。判定の結果、笑顔度Rが高い場合には、ステップS26で確認した対応言語でもって、図3(b)に示したようなモデル撮影の依頼を行なう(S31)。一方、判定の結果、笑顔度Rが低い場合には、対応言語でもって図3(a)に示したような一緒撮影の依頼を行なう(S32)。なお、ステップS31およびS32における依頼は、音声でも文字表示でも、いずれでもよい。
このように笑顔度Rで対応を変えているのは、モデル撮影の場合には被写体一人を撮影することから心理的に拒否され易いのに対して、一緒撮影は、図2に示したようにユーザー21と被写体20は一緒の体勢にあることから受け入れ易いと思われるからである。
ステップS28〜S32におけるような切替だけでなく、表情によって、笑顔なら説明なしだが、厳しい表情なら撮影したい理由を説明するなどの切替を行ってもよい。この理由は、一般的な、「ここに来た記念として」、「あとで送るから」といった一般的なものでもよく、また被写体20の表情を判定して、「誰それに似ているから」とか、空の青さを判定して、「いいお天気だから」のように、画像を考慮して依頼の表示を変更するようにしてもよい。
ステップS31またはS32における撮影依頼が終わると、次に、関連付けフレーズの候補化を行なう(S45)。これは、後日、撮影した画像を検索するときに画像に関連してフレーズが添付されていると、検索し易いことから、このためのフレーズの候補を抽出し、記憶しておく。このステップが終わると、前述のステップS1に戻る。
ステップS21における判定の結果、撮影許可を得る場合ではないときには、次に、フレーズの選択を行なう(S41)。このカメラ100はコミュニケーション手段としても使用でき、ユーザー21が被写体20とコミュニケーションを図るに必要なフレーズが予め多言語辞書データベース12に記憶されている。そこで、ユーザー21は、ユーザー21の使用言語でデータベース12の中に記憶されているフレーズを選択する。
次に、対応言語情報が有るか否かの判定を行なう(S42)。このステップを実行する前にステップS21からステップS27を実行し、被写体(相手方)20の使用言語を特定している場合には、対応言語の情報があり、一方、このような使用言語の判定を行なっていない場合には、対応言語の情報がないことになる。
ステップS42における判定の結果、対応言語情報が有る場合には、次に、ステップS41で選択されたフレーズについて対応言語に翻訳を行なう(S43)。翻訳結果は音声発生部14のスピーカーから音声で表示してもよいし、また表示パネル8に文字情報として視覚的に表示してもよい。一方、判定の結果、対応言語情報がない場合には、各国語の一覧表示を行なう(S44)。すなわち、多言語辞書データベース12に記憶されている言語の一覧表を表示し、対応言語を選択してもらう(S44)。対応言語が選択されれば、ステップS41において選択されたフレーズについて、音声または視覚で表示を行なう。
このようにして、ユーザー21と被写体(相手方)20とのコミュニケーションが可能となる。相手の答が、Yes、Noで答えられるような質問にすれば、ある程度の意思疎通が可能となる。ここで、Yes、Noの判定も、画像で行ってもよい。また、マイクを接続し、音声認識によって翻訳を可能とするようにしてもよい。
ステップS43またS44の処理が終わると、次に、前述したように関連付けフレーズの候補化を行なう(S45)。コミュニケーション時のフレーズや言語情報は、撮影した画像を検索するときに有効利用できるので、関連付けフレーズの候補として記録しておく。この結果に基づいて、後述するステップS17においてフレーズの関連付けを行なってもよい。
ステップS1における判定の結果、言語選択モードではなかった場合には、撮影モードの選択を行なう(S2)。撮影モードの選択では、前述したモデル撮影か、一緒撮影のいずれかを選択する。モデル撮影では、図5の下側にある範囲内の扇形部(モデル撮影範囲56)の画像を利用し、一緒撮影では、上側の扇型部(一緒撮影記録範囲52)を利用する。続いて、撮影時の掛け声を音声発生部14から行う(S3)。これは、被写体20の使用言語がわかっている場合に行う。撮影時の掛け声に応じて、被写体がにっこり笑う等、表情が和むので、このタイミングを利用して撮影を行えばよい。
次に、撮影か否かの判定を行なう(S4)。撮影動作はレリーズ釦1aの操作に応じて開始される。判定の結果、撮影であった場合には、撮影動作を行う(S5)。撮影動作は、撮影レンズ2を透過した被写体光に基づく被写体像を撮像素子3が光電変換し、AFE4によって選択された画像範囲の画像データを、歪み補正等の画像処理を行なう。続いて、関連情報を画像に関連付けを行なう(S6)。画像記録時に、時計情報や設定したキーワード情報等の関連情報を画像に関連付けを行なう。また表情等によりステップS45において関連付けの候補を選択し、後述するステップS17で選択したフレーズ等の言語情報の関連付けを行なう。
次に、関連付けを行なう情報が言語情報か否かの判定を行なう(S7)。判定の結果、言語情報ではない場合には、スキップして次のステップS9に進み、言語情報の場合には、その言語を翻訳する(S8)。すなわち、被写体20の使用言語でも関連付け情報が添付されるように翻訳を行なう。続いて、画像データの記録を行う(S9)。ここでは、画像処理された画像データを圧縮部6において圧縮処理し、また関連情報も添付した上で、記録メディア9に記録してから、リターンする。
ステップS4における撮影か否かの判定の結果、撮影ではない場合には、次に再生モードか否かの判定を行なう(S11)。判定の結果、再生モードであった場合には、記録メディア9等に記録されている画像データ等を表示パネル8に表示する。続いて、再生画像を、インターネットを介して外部のサーバー34にアップロードするか否かの処理に移る。まず、通信を行なうか否かの判定を行なう(S13)。これは、選択した再生画像の外部のサーバー34にアップロードする旨の操作を行なった否かの判定である。
ステップS13の判定の結果、通信を行なう場合には、選択画像をアップロードするサーバー34等の記録領域を指定する(S14)。そして、この指定された記録領域のアドレスに選択画像の送信を行なう(S15)。ステップS13における判定の結果、通信ではない場合には、関連付けを行なうか否かの判定を行なう(S16)。判定の結果、関連付けを行う場合には、選択フレーズ関連付けを行なう(S17)。ステップS12において再生表示を行なっており、このステップにおいて再生画像に対して選択フレーズの関連付けを行なう。
この画像関連情報は、撮影が終わった後、キーワードとなるフレーズ一覧を図2のようにユーザー21と被写体20の二人で見ながら、フレーズ23(図4(b))を決定してもよい。翻訳して順次候補を表示することができるので、これ見ながら二人で選ぶ。表示パネル8で見るのが見にくい場合には、音声発生部14のスピーカーでこのフレーズやキーワードを翻訳したものを発声させてもよい。順次発音させている時に、被写体の表情をモニタしておき、図7に示した笑顔度Rを測定することにより、「これがよい」という表情を判定し、画像に関連付けられるようにしてもよいし、もちろん、スイッチの操作で選べるようにしてもよい。ステップS17の選択フレーズの関連付けが終わるとリターンする。
次に、図13に示すフローチャートを用いて、本実施形態におけるカメラ100の画像を記録、管理するサーバー34の動作を説明する。前述したように、カメラ100は、ステップS15において、画像を送信する。サーバー34は、まず、画像等のコンテンツをインターネット経由で受信中であるか、すなわちコンテンツの記録を行うか否かの判定を行なう(S101)。判定の結果、コンテンツの記録を行う場合には、ステップS102において記録を行なう。この記録時には、画像に添付されているキーワードやフレーズ等の関連情報(記事)の記録も行う。
続いて、関連付け情報等に翻訳情報が有るか否かの判定を行なう(S103)。これは、撮影者(ユーザー)21の国の言語のみならず、被写体(相手方)20の国の言語もタグとして画像に添付し、後に検索でも利用できるようにするために、翻訳情報の有無を判定している。判定の結果、翻訳情報が存在している場合には、翻訳情報をタグ化する(S104)。このように翻訳情報をタグ化しておくことにより、撮影者(ユーザー)21の国の言葉が分からなくとも、被写体(相手方)20は、自身の写真をネット上で検索することが可能となる。
ステップS101における判定の結果、コンテンツ記録ではない場合には、検索を行なうか否かの判定を行なう(S111)。判定の結果、検索の場合には、検索者が打ち込んだ検索ワードに該当するタグを持つ画像の検索を行い(S112)、検索された画像を表示する(S113)。選択画像が表示されると、次に、この画像に関連する関連記事の表示を行なう(S114)。なお、関連記事は前述したようにステップS101において、コンテンツ記録時に一緒に記録されている。続いて、この関連記事に対して、翻訳要求があるか否かの判定を行なう(S115)。翻訳要求がない場合には、そのままリターンする。一方、翻訳要求があった場合には、翻訳サービスを行なうインターネット32上の翻訳サービスサーバー33と連携して、その記事の翻訳表示を行なう(S116)。
ステップS111における判定の結果、検索ではない場合には、次に、画像アクセスか否かを判定する(S121)。これは、インターネット32に接続されたパーソナルコンピュータ等がサーバー34にアクセスし、このサーバー34に記録されている画像にアクセスしてきたか否かの判定である。判定の結果、アクセスが有る場合には、そのアドレスに対応する画像の表示を行ない(S113)、次いで、前述のステップS114以下に進み、関連記事の表示等を行い、リターンする。
次に、図14を用いて、本実施形態における魚眼レンズのような広角レンズ等の光学系で構成された撮影レンズ2の変形例を説明する。本実施形態においては、前述したように魚眼レンズによって形成される映像の全域を利用してはいない。そこで、図14(a)、(b)のように、複眼レンズ66やプリズム67を利用して、図5に示した2つの部分、すなわち、一緒撮影記録範囲52、モデル撮影範囲56の2つの範囲をカバーするようにしてもよい。また、図14(c)のように凸面反射鏡69を配置するようにしてもよい。
以上、述べたように本実施形態に係るカメラおいては、被写体の表情をモニタすることにより、被写体の理解し使用する言語を判定している。このため、被写体が理解できる言語が分からなくても、使用言語を推定することができ、ユーザーと被写体の間で言語を特定し、コミュニケーションを図ることができる。
また、本実施形態においては、使用言語を特定できると、その言語によるフレーズ等を用いてコミュニケーションを図ることができると共に、そのフレーズ等を画像に関連付けて記録するようにしているので、後から検索する場合に便利である。特に撮影者の言語と、被写体の言語の両方で記録し、これをサーバー等にアップロードしたときには、双方が簡単に検索し、画像を探すことができる。
さらに、本実施形態においては、被写体の表情に応じて撮影モード(モデル撮影モードと、一緒撮影モード)を変更している。使用言語が異なる場合には、言葉だけでは十分なコミュニケーションを図るのが困難な場合があるが、本実施形態においては、被写体の状態に応じて撮影モードを変更することができる。
さらに、本実施形態においては、撮影レンズとして魚眼レンズのような広角レンズを使用し、モデル撮影と一緒撮影を同一の状態で撮像し、ただ、撮像素子の出力から、それぞれの映像範囲に応じて画像を切り出している。このため、カメラはそのままの状態で撮影でき、言語の壁によりカメラアングルを決め難い状態でも、状況に応じた撮影ができる。
本発明の説明にあたって、カメラに適用した例で説明したが、表情をモニタすることにより、言語を特定する技術はカメラに限らず、例えば電子辞書、電子通訳装置等の種々のガイド装置に適用することができる。また、撮影した画像に関連情報を付加して記録する等の技術は、コンパクトカメラや一眼レフレックスカメラ等の種々のカメラに適用できることは勿論、携帯電話やPDA等の内蔵カメラにも適用することができる。