以下、本発明の実施の形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において同一部には原則として同一符号を付し、その繰り返しの説明は省略する。なお、説明上の方向として、X方向、Y方向、Z方向を用いる。X方向、Y方向は、水平面を構成する直交する2つの方向であり、Z方向は、鉛直方向である。X方向は特にユーザから見て左右方向であり、Y方向は特にユーザから見て前後方向である。
[課題等]
課題等について補足説明する。図26は、比較例として、従来のテレビ電話機能付きの携帯情報端末を用いて、ハンズフリー状態を実現しようとする場合の利用状態の例を示す。(A)は第1例、(B)は第2例を示す。図26の(A)では、ユーザAは、携帯情報端末260の筐体を、机等の水平面s0上に、平らに置いた状態としている。筐体の前面には表示画面やインカメラ261が設けられている。インカメラ261のレンズは、点p2の位置に配置されている。インカメラ261は、通常画角を持つ通常カメラである。ユーザAの顔や目の代表点を点p1で示す。点p1からの視線は鉛直下方の向きである。ユーザAは、自身の顔および目(点p1)が、筐体の前面の表示画面やインカメラ261に対面する位置になるように、首を曲げた姿勢をとっている。このような状態で、ユーザAは、両手を自由としてテレビ電話が可能である。しかし、姿勢に無理があるので身体には負担がかかり、使い勝手は良くない。
図26の(B)では、ユーザAは、携帯情報端末260の筐体を、机等の水平面s0上において、固定器具262を用いて、前面が斜めの状態となるように固定して配置している。ユーザAの顔や目(点p1)からの視線の方向は、斜め下方となっている。インカメラ261(点p2)からの光軸の方向は、斜め上方(例えば45度程度の仰角)となっている。このような状態で、ユーザAは、両手を自由としてテレビ電話が可能である。しかし、スタンド等の固定器具262を利用しないとこのような状態を実現できず、ユーザAが固定器具262を所持しなければならない等、汎用性や利便性に欠ける。
また、固定器具262ではなく、姿勢を変形可能な構造を持つ携帯情報端末を用いれば、同様の状態が実現できる。例えば、特許文献1の技術では、折り畳み型の携帯情報端末の形状を変化させることで、カメラおよび表示画面をユーザの顔に対面するように配置することができる。しかしながら、1枚の概略平板形状の筐体を持つ携帯情報端末261の場合、変形のために可動する構造自体を有さないので、そのような技術は適用できない。
(実施の形態1)
図1~図19を用いて、本発明の実施の形態1の携帯情報端末について説明する。実施の形態1の携帯情報端末では、後述の図2のように、ユーザがその携帯情報端末(単に端末と記載する場合がある)を用いてテレビ電話を行う際に、ユーザの手持ちによる筐体の保持を必要とせず、ハンズフリー状態となる。また、ユーザがハンズフリー状態でテレビ電話を行いたい場合に、携帯情報端末の筐体(前面)の向きがユーザの顔に対面する向きになるように配置する考慮や手間を不要とする。実施の形態1の携帯情報端末は、ハンズフリー状態での好適なテレビ電話を実現するために、以下のように、カメラ等の構成を有し、ユーザの顔と端末との位置関係、端末の配置状態を規定する。
実施の形態1の携帯情報端末では、筐体の前面に設けられたインカメラ(第1カメラ)として、広角の画角を持つ広角カメラを有する。このインカメラは、筐体の前面に垂直な光軸を有し、その前面と光軸とが成す断面で例えば180度程度(少なくとも30度から150度までの角度範囲)の所定の広い画角(水平画角としては360度)を有する。
ユーザは、ハンズフリー状態でのテレビ電話の利用時に、机等の概略水平面上に、概略平板状の筐体を、前面のインカメラが上を向くようにして平らに置く。そして、端末のインカメラの位置からみて斜め上の仰角の方向にユーザの顔がある位置関係とする。ユーザの目からみると、斜め下に見下ろす方向の位置に筐体の表示画面およびインカメラがある位置関係となる。この状態(第1状態)で、インカメラからの顔の撮影の方向と、ユーザの目から表示画面を見る方向とは、概略的に同じまたは十分に近い。例えば、それらの方向は、水平面に対する仰角で45度程度(例えば30度から60度までの角度範囲内の角度)となる。
このような位置関係、配置状態の場合、インカメラの画像(広角画像)内では、一部の領域(例えば0度から90度までの角度範囲内にある領域)に、ユーザの顔が写っている。携帯情報端末は、その広角画像を用いて、ユーザの顔を含む領域を捉えることができる。携帯情報端末は、その広角画像から、ユーザの顔を含む領域を検出し、トリミング(切り出し)する。
ただし、広角レンズを通じた広角画像内では、ユーザの顔を含む広角画像全体で、広角レンズに特有の歪(ひずみ)が生じている。広角画像を相手の携帯情報端末に送信した場合、相手のユーザは、その広角画像からユーザの顔等を認識しにくいおそれがある。そのため、実施の形態1の携帯情報端末は、その広角画像の顔を含む領域に対し、歪補正処理を行うことで、歪が解消または低減された平面化画像を得る。これにより、視覚的により見やすく好適な送信画像が得られる。
携帯情報端末1は、歪補正後のユーザAの顔を含む画像から、テレビ電話の相手の端末に送信するための送信画像を作成し、相手の端末に送信する。上記のように、実施の形態1の携帯情報端末では、ユーザがハンズフリー状態でテレビ電話が可能であり、使い勝手が良い。
[(1)通信システムおよびテレビ電話システム]
図1は、実施の形態1の携帯情報端末1を含む、通信システムおよびテレビ電話システムの全体の構成を示す。図1の通信システムおよびテレビ電話システムでは、モバイル通信網101およびインターネット102を介して、第1ユーザ(ユーザA)の携帯情報端末1と、第2ユーザ(ユーザB)の携帯情報端末2とが接続されている。第1ユーザの携帯情報端末1と第2ユーザの携帯情報端末2との間でテレビ電話の通信を行う。基地局103は、モバイル通信網101を構成する無線基地局である。携帯情報端末1,2は、基地局103を通じて、モバイル通信網101に接続される。アクセスポイント104は、無線LAN等における無線通信用のアクセスポイント装置である。携帯情報端末1,2は、アクセスポイント104を通じて、無線LAN等を含むインターネット102に接続される。
携帯情報端末1,2は、スマートフォン等の装置であり、いずれもテレビ電話機能を備える。第1ユーザの携帯情報端末1は、実施の形態1の携帯情報端末であり、テレビ電話に関する特有の機能を備える。ユーザAは、テレビ電話を行う一方の通話者の第1ユーザであり、ユーザBは、テレビ電話を行う他方の通話者、ユーザAからみた相手の第2ユーザである。以下では、第1ユーザの携帯情報端末1を主として説明する。ユーザBは、例えば従来型のテレビ電話機能付きの携帯情報端末2を使用する。第2ユーザの携帯情報端末2においても、第1ユーザの携帯情報端末1と同様に特有のテレビ電話機能を備えていてもよい。なお、テレビ電話の通信の際に、モバイル通信網101やインターネット102上で、テレビ電話機能に関するサービスを提供するサーバ等が介在してもよい。
[(2)テレビ電話の利用概要]
図2は、図1のユーザAとユーザBとの間のテレビ電話の際における、ユーザAによる携帯情報端末1の利用の概要、状況、方法を示す模式図である。図2では、ユーザAがハンズフリー状態のテレビ電話を行う際の、ユーザAの顔と携帯情報端末1との位置関係や端末の配置状態を示す。テレビ電話の利用の概要として以下である。
(1) 図2のように、ユーザAは、ハンズフリー状態のテレビ電話を行う際、携帯情報端末1の平板状の筐体を、机等の任意の物体の水平面s0(X-Y面、第1面)上に、前面s1のインカメラC1を鉛直上方に向けて、平らに置く。筐体の背面s2は水平面s0に接していて隠れている。携帯情報端末1は、縦長の筐体の前面s1において、主に、矩形の表示画面DPが設けられ、その表示画面DPの外周の額縁領域には、カメラや操作ボタン、マイク、スピーカ等が設けられている。この携帯情報端末1では、額縁領域の上辺部の位置PC1に、インカメラC1(特に広角レンズ部)が配置されている。ユーザAは、配置の際、特に、前面s1のインカメラC1(位置PC1)が、ユーザAから見てY方向で遠い奥側の方向Y1の位置になるように、筐体を置く。
ユーザAは、自身の顔や目を、携帯情報端末1に対し、斜め上の位置に置く。言い換えると、ユーザAの目(点P1)から見て、斜め下の位置に、携帯情報端末1の表示画面DP(点PD)が配置される。ユーザAの頭、顔、または目等に対応付けられた代表的な点を点P1とする。表示画面DPには、相手(ユーザB)の画像等が表示される(図7)。ユーザAは、表示画面DP内の相手の顔画像等を見る。方向J1は、ユーザAの目(点P1)から端末の表示画面DP(点PD)を見る目線方向を示す。角度θ1は、方向J1に対応する仰角(水平面s0を基準として0度とする)を示す。角度θ1は、30度から60度までの範囲内の角度であり、例えば45度程度である。
この状態で、当然、端末のインカメラC1からは、斜め上の仰角の方向に、ユーザAの顔や目が撮影可能な状態となっている。インカメラC1の光軸は、前面s1に対して垂直な方向(鉛直上方)であり、方向J2として示す。インカメラC1の画角AV1は、光軸を中心として広い角度範囲を有し、水平画角として360度、Y-Z断面での画角では180度程度、特に第1角度ANG1から第2角度ANG2までの角度範囲を有する。例えば、第1角度ANG1は30度以下であり、第2角度ANG2は150度以上である。
この状態で、インカメラC1は、広角の画角AV1によって、ユーザAの顔が撮影可能である。すなわち、この状態では、インカメラC1の画角AV1内に、特に第1角度ANG1から90度までの角度範囲内に、ユーザAの顔を撮影する範囲に対応する画角AV2(顔撮影画角)が含まれている。対応して、インカメラC1の広角画像内の一部の領域には、ユーザAの顔が写っている。インカメラC1(点PC1)からユーザAの顔(点P1)を捉える方向を方向J3で示す。方向J3に対応する仰角を角度θ3で示す。角度θ3は、例えば45度より少し小さい角度である。
ユーザAの目線の方向J1と、インカメラC1からの顔撮影の方向J3とは、十分に近い状態となり、角度θ1と角度θ3との角度差AD1は十分に小さい。そのため、インカメラC1は、ユーザAの目線を確認できる方向J3および画角AV2でユーザAの顔を撮影可能である。これらの方向差や角度差がなるべく小さい方が、画像内の目線の状態がより自然となるので、より好適である。実施の形態1の携帯情報端末1では、インカメラC1の広角画像を用いるので、図2のような位置関係でも、画角AV2のようにユーザAの顔を捉えることができる。
(2) 図2の状態で、ユーザAは、携帯情報端末1の表示画面DPに表示される相手の画像(図7)を見ながら、テレビ電話(通話)を行うことができる。携帯情報端末1は、相手の携帯情報端末2から受信した音声をスピーカから出力する。携帯情報端末1は、マイクで入力したユーザAの音声を、相手の携帯情報端末2へ送信する。
携帯情報端末1は、インカメラC1による広角画像から、ユーザAの顔を含む領域を検出し、トリミングする。携帯情報端末1は、そのトリミングした画像を用いて、相手の携帯情報端末2に送信するための送信画像を作成する。ただし、インカメラC1で撮影した広角画像では、ユーザAの顔を含め、広角レンズに依存する歪を持つ。
そこで、携帯情報端末1は、トリミングした画像に対し、歪が解消または低減されるように、歪補正処理を行う。携帯情報端末1は、歪補正後の画像から、相手の携帯情報端末2に送信するための送信画像と、送信画像に対応するユーザA自身の顔等の状態の確認用のモニタ画像とを作成する。携帯情報端末1は、送信画像に対応するモニタ画像を、表示画面DP内に表示する(図7)。モニタ画像(および送信画像)内では、ユーザAの目線の向きが概ね正面を向いている。ユーザAは、携帯情報端末1の表示画面DP内で、相手(ユーザB)の画像と、ユーザA自身のモニタ画像とを見て確認することができる。ユーザAは、必要に応じて、モニタ画像に対応する送信画像の送信を拒否することもできる。
携帯情報端末1は、マイクで入力したユーザAの音声と、上記送信画像とを含む、テレビ電話用のデータを、相手の携帯情報端末2に送信する。相手の携帯情報端末2では、受信したデータに基づいて、ユーザAに関する画像および音声を出力し、ユーザBは、ユーザAとのテレビ電話が可能である。
[(3)携帯情報端末]
図3は、実施の形態1の携帯情報端末1の構成を示す。携帯情報端末1は、コントローラ10、カメラ部11、ROM14、RAM15、外部メモリ16、マイク17、スピーカ18、バス19、表示部(タッチパネル)21、LAN通信部22、モバイル網通信部23、加速度センサ31やジャイロセンサ32等のセンサ類30、等を備える。
コントローラ10は、携帯情報端末1の全体を制御し、各部への指示等を行う。コントローラ10は、テレビ電話アプリに基づいたテレビ電話機能100を実現する。携帯情報端末1のコントローラ10は、各部や各機能を用いて、テレビ電話機能100を制御する。コントローラ10は、マイクロプロセッサユニット(MPU)等で構成され、ROM14のプログラムに従って、携帯情報端末1の全体を制御する。コントローラ10等の各部は、バス19(システムバスを含む)を介して、携帯情報端末1内の各部との間でデータ送受信を行う。
カメラ部11は、インカメラC1、通常カメラ(アウトカメラ)C2、撮影処理部12、メモリ13を含む。前述の図2のように、筐体の前面s1にインカメラC1、筐体の背面s2に通常カメラC2が設けられている。インカメラC1は、広角レンズ、カメラセンサ(撮像素子)、駆動回路等の公知の要素から構成される。カメラセンサは、例えばCCDやCMOSセンサ等で構成される。通常カメラC2は、通常レンズ、カメラセンサ、駆動回路等の公知の要素から構成される。通常カメラC2は、通常画角を有し、その通常画角は、インカメラC1の広角レンズの画角AV1よりも狭い画角である。通常カメラC2の光軸は、インカメラC1の光軸とは反対の向きである。実施の形態1でのテレビ電話機能では、通常カメラC2については使用しない。
撮影処理部12は、コントローラ10の制御に基づいて、カメラを用いた撮影処理や画像処理を行う部分である。実施の形態1では、撮影処理部12は、コントローラ10とは別の部位として、例えばLSI等の回路で実装されている。これに限らず、撮影処理部12は、その一部または全部が、コントローラ10のプログラム処理等によって一体的に実装されてもよい。顔検出機能201等の機能は、全部または一部が、ソフトウェアプログラム処理で実装されてもよいし、高速化等のためにハードウェア回路等で実装されてもよい。メモリ13は、撮影処理に係わる画像データ等を格納するメモリである。
撮影処理部12は、公知の機能や処理部としては、オートフォーカス機能、拡大縮小機能、コーデック部、画質改善処理部、角度・回転補正部、等を備える。オートフォーカス機能は、カメラの焦点を自動的に撮影対象物に合わせる機能である。拡大縮小機能は、画像の対象物を拡大や縮小する機能である。コーデック部は、撮影された画像や動画の圧縮や伸張を行う処理部である。画質改善処理部は、ノイズ除去等、撮影画像の画質の改善を行う処理部である。角度・回転補正部は、撮影画像から角度補正や回転補正を行う処理部である。
マイク17は、ユーザAの声を含む、端末の周囲の音声を集音して、音声データを得る。スピーカ18は、通話相手(ユーザB)の携帯情報端末2からのテレビ電話の音声を含む音声を出力する。
表示部21は、図2の表示画面DPを備え、特に液晶タッチパネル等のタッチパネルであり、ユーザによるタッチ入力操作が可能である。表示画面DPには、撮影画像や他の各種の情報が表示される。
LAN通信部22は、図1のアクセスポイント104との無線LAN通信を含めた、インターネット102上の通信に対応した通信処理を行う。モバイル網通信部23は、図1の基地局103との無線通信を含めた、モバイル網101上の通信に対応した通信処理を行う。
センサ類30は、加速度センサ31やジャイロセンサ32、図示しないGPS受信器、近接センサ、照度センサ、温度センサ等の、公知のセンサデバイスを含む。コントローラ10は、センサ類30の検出情報を用いて、携帯情報端末1の向きや動き等を検出する。コントローラ10は、センサ類30を用いて、携帯情報端末1がユーザAによって手持ちされているか否か、図2のように水平面s0上に平らに置かれているか否か等の状態も把握可能である。
撮影処理部12は、プログラムや回路等で実現される機能として、顔検出機能201、トリミング機能202、歪補正機能203を有する。撮影処理部12の撮影処理や機能の概要は以下である。撮影処理部12は、インカメラC1を用いて撮影するカメラモードにおいて、インカメラC1により撮影された画像である広角画像を入力する。なお、実施の形態1では、インカメラC1によって動画(時系列の複数の画像フレーム)を撮影可能であり、撮影処理部11は、その動画を処理する。これに限らず、インカメラC1の画像としては、所定のタイミングでの静止画を扱ってもよい。
撮影処理部12は、顔検出機能201によって、広角画像から、ユーザAの顔を含む領域を検出する。撮影処理部12は、トリミング機能202によって、広角画像から、ユーザAの顔を含む領域をトリミングする。撮影処理部12は、歪補正機能203によって、トリミング画像に対し、歪補正処理を行う。撮影処理部12は、歪補正後の画像をメモリ13に格納する。撮影処理部12(またはコントローラ10)は、補正後画像から、相手の携帯情報端末2へ送信するための送信画像と、自己確認用のモニタ画像とを作成する。
携帯情報端末1のコントローラ10(テレビ電話機能100)は、ユーザAの送信画像を、マイク17から入力したユーザAの音声データと共にまとめたテレビ電話用のデータを作成する。コントローラ10は、そのデータを、LAN通信部22またはモバイル網通信部23等を用いて、相手の携帯情報端末2に送信する。相手の携帯情報端末2は、そのデータを受信し、その送信画像を表示画面に表示し、音声を出力する。
コントローラ10(テレビ電話機能100)は、LAN通信部22またはモバイル網通信部23を通じて、相手の携帯情報端末2から、テレビ電話用のデータ(相手画像および音声を含む)を受信する。コントローラ10は、受信したデータのうちの相手画像を、表示画面DP内に表示する共に、ユーザAのモニタ画像を表示する。コントローラ10は、相手の音声をスピーカ18から出力する。
[(4)ソフトウェア構成]
図4は、携帯情報端末1のソフトウェア構成を示す。ROM14には、OSやミドルウェア等の基本動作プログラム14aや、その他のアプリケーションプログラム等が格納されている。ROM14は、例えばEEPROMやフラッシュROM等の書き換え可能なROMが用いられる。通信等を通じて、ROM14のプログラムの更新が適宜に可能であり、バージョンアップや機能拡張等が可能である。ROM14等はコントローラ10と一体としてもよい。
RAM15は、基本動作プログラム14aやテレビ電話アプリプログラム16b等の実行時のワークエリアとして使用される。RAM15には、各種のプログラムの実行時に必要に応じてデータや情報を一時的に保持する一時記憶領域15cも有する。コントローラ10(MPU)は、ROM14の基本動作プログラム14aをRAM15に展開して、そのプログラムに従った処理を実行する。これにより、RAM15には、基本動作実行部15aが構成される。同様に、テレビ電話アプリプログラム16bの処理に伴い、RAM15にテレビ電話処理実行部15bが構成される。一時記憶領域15cには、テレビ電話機能100に関する処理用のデータが記憶され、例えば携帯情報端末1の位置や姿勢の状態等の情報も記憶される。
外部メモリ16には、撮影プログラム16aやテレビ電話アプリプログラム16b等のプログラムが格納されており、また、撮影処理部12で撮影された画像や、各種の処理に係わるデータや情報を蓄積するためのデータ記憶領域16cも有する。外部メモリ16は、電源非供給状態でもデータを保持する不揮発性記憶装置で構成され、例えばフラッシュROMやSSD等が用いられる。データ記憶領域16cには、例えば携帯情報端末1の機能や動作の設定値も保存される。各種のプログラムは、ROM14や他の不揮発性記憶装置等に格納されてもよい。携帯情報端末1は、外部のサーバ装置等から、プログラムや情報を取得してもよい。
撮影プログラム16aは、カメラ部11の撮影処理部12に対する撮影制御処理を実現する。この撮影制御処理は、テレビ電話に限らない一般的なカメラ撮影の制御処理と、テレビ電話用の撮影制御処理とを含む。撮影プログラム16aは、RAM15または撮影処理部12内に展開され、実行部が構成される。
コントローラ10(MPU)は、撮影処理部12に対し、カメラモード、カメラによる動画の撮影開始や撮影終了、撮影詳細設定(例えばフォーカス、露光)、等を指示する。カメラモードは、複数のうちいずれのカメラを用いて撮影するモードであるかを示す。
テレビ電話アプリプログラム16bに基づいたテレビ電話処理実行部15bは、テレビ電話機能100に対応する処理を行う。コントローラ10(MPU)は、テレビ電話機能100の実現の際に、撮影処理部12の各機能に対する制御処理や、関連する各部に対する制御処理を行う。
[(5)カメラ部、撮影処理部]
図5は、カメラ部11、撮影処理部12、メモリ13の詳しい構成を示す。撮影処理部12の顔検出機能201は、個人認識機能201Bを含む。歪補正機能203は、処理として、正像変換処理203A、台形補正処理203B、収差補正処理203C等を行う。メモリ13には、登録画像D10、補正後画像D11、送信画像D12、モニタ画像D13等のデータが記憶される。メモリ13は、撮影画像データを一時的に保持し、各機能の処理に係わるワークエリアとしても利用される。撮影処理部12内にメモリ13があってもよい。撮影処理部12の処理概要は以下である。
(1) まず、インカメラC1を通じて撮影された広角画像(データD1)は、撮影処理部12の顔検出機能201に入力される。顔検出機能201は、広角画像のデータD1から、画像処理に基づいて、ユーザAの顔を含む領域を検出する処理を行う。顔検出機能201は、例えば、広角画像内から、特徴点群を抽出し、目、耳、鼻、口等を検出し、また、画素の色や輝度の差に基づいて、顔や頭の輪郭を検出する。これにより、後述の図9のように、顔領域B1等が検出可能である。顔検出機能201からは、広角画像および検出結果のデータD2が出力される。
また、個人認識機能201Bでは、顔画像から、特定のユーザA個人の顔であるかどうかを認識する。撮影処理部12は、例えば特定のユーザA個人の顔を検出した場合にのみ、それ以降の処理を適用する。
(2) 次に、トリミング機能202は、広角画像のデータD2に基づいて、検出された顔を含む領域に対応するトリミング領域をトリミングしてトリミング画像を得る処理を行う。トリミング機能202からは、そのトリミング画像等のデータD3が出力される。トリミングの仕方として、例えば、検出された顔領域における中心点(点P1)を基準として、所定の形状およびサイズの領域がトリミングされる。なお、トリミング領域は、顔領域のみとしてもよいし、頭領域としてもよいし、頭とその周辺とを含む領域としてもよい。トリミング領域の種類やサイズは、ユーザ設定機能を用いて変更できる。
(3) 次に、歪補正機能203は、データD3に基づいて、トリミング画像における、広角レンズによる歪を、歪が無い正像を持つ平面になるように補正する処理を行う。歪補正機能203は、まず、トリミング画像に対し、正像変換処理203A(図14)を行う。これにより、歪が無い正像を持つ平面にされた画像(平面化画像)が得られ、その平面化画像を含むデータD4が出力される。
歪補正機能203は、次に、平面化画像のデータD4に対し、台形補正処理203B(図15)を行う。これにより、台形状の画像内容を、直角四角形状の画像内容となるようにした画像が得られ、そのデータD5が出力される。台形変換によって、画像内容がより好適な見た目になるようにされる。
歪補正機能203は、次に、収差補正処理203Cでは、データD5に対し、広角の歪以外で、レンズ系の特性に起因する各種の収差を補正する公知の処理を行う。これにより、補正後画像D11が得られる。例えば、レンズ系が固定である場合、予め製品出荷時に、レンズ系補正パラメータD14が、例えばメモリ13に格納されている。レンズ系補正パラメータD14は、収差補正用の設定情報や初期値等であり、設定可変としてもよい。収差補正処理203Cは、そのレンズ系補正パラメータD14を参照する。
なお、通常、正像変換処理203A後の画像の状態で、ユーザAの顔の状態が見た目で十分に違和感が無い状態(少なくともテレビ電話に使用できる状態)とされる。そのため、台形変換処理203Bや収差補正処理203Cについては省略する形態としてもよい。また、歪補正機能203で行われる処理は、必ずしもこの順番で行う必要は無く、任意の順で処理を行ってもよい。また、条件によっては特定の処理を行わないように制御をしてもよい。
(4) 歪補正機能203による補正後画像D11が、メモリ13に格納される。補正後画像D11では、広角画像に起因する歪やレンズの収差が解消または低減されており、ユーザが違和感少なく顔等を認識できるレベルの画像となっている。撮影処理部12またはコントローラ10(テレビ電話機能100)は、補正後画像D11を用いて、相手(ユーザB)に送信するための送信画像D12や、自己確認用のモニタ画像D13を作成する。コントローラ10は、送信画像D12や、マイク17で入力された音声を用いて、テレビ電話用のデータを作成する。
送信画像D12は、例えば、相手の携帯情報端末2が要求している画像サイズ(表示画面サイズ等)に合わせるように、カットや拡大/縮小等が適宜に施された画像である。モニタ画像D13は、表示画面DP内のモニタ画像表示用領域(図7の領域R2)のサイズ等に合わせるように、カットや拡大/縮小等が適宜に施された画像である。
(5) コントローラ10は、モニタ画像D13を、表示画面DP内の領域に表示する。コントローラ10は、モニタ画像D13に対するユーザAによる確認の結果が肯定(送信許可)である場合には、送信画像D12を含むデータを、通信部を介して、相手の携帯情報端末2に送信する。
(6) また、撮影処理部12は、顔検出機能201によってユーザAの顔を検出できなかった場合や、ユーザAによるモニタ画像D13の確認の上で送信拒否の指示を受けた場合等には、登録画像D10を用いて送信画像D12を作成する。登録画像D10は、ユーザAの顔画像を含む。
撮影処理部12は、所定の時間間隔の撮影画像毎に、同様に上記処理を繰り返す。その際、ある時点の画像からユーザAの顔を捉えきれない場合等には、過去最後に検出済みの画像、または登録画像D10の顔画像を用いて、代替の送信画像D12を作成してもよい。
[(6)処理フロー]
図6は、携帯情報端末1におけるテレビ電話機能100の処理フローを示す。図6のフローは、ステップS1~S13を有する。以下、ステップの順に説明する。
(S1) まず、S1で、ユーザAがテレビ電話を行う際(自分から相手に発信する場合または相手から自分に着信した場合)、携帯情報端末1のコントローラ10(テレビ電話機能100)は、自機の制御状態を、テレビ電話モードに移行する。詳しくは、例えば、ユーザAは、相手(ユーザB)とテレビ電話したい場合に、相手の電話番号へ発信する。これに伴い、テレビ電話アプリプログラム16b(テレビ電話処理実行部15b)が起動される。コントローラ10は、テレビ電話モードで、インカメラC1の撮影、マイク17の音声入力、スピーカ18の音声出力、表示部21の表示、各種通信等を、同時並行的に制御する。
また、携帯情報端末1は、ユーザAによる、音声電話(非テレビ電話)またはテレビ電話の選択の操作に応じて、テレビ電話モードに移行する。例えば、携帯情報端末1は、表示画面DPに音声電話かテレビ電話かの選択ボタンを表示し、選択操作に応じて、対応するモードへ移行させる。また、携帯情報端末1は、テレビ電話モードではインカメラC1を用いるので、カメラ部11のカメラモードを、インカメラC1を用いるモードにする。
さらに、実施の形態1では、テレビ電話モードの詳細として、通常モード(非ハンズフリーモード)とハンズフリーモードとの2種類を設けている。通常モード(非ハンズフリーモード)は、図19のような状態に対応する第1モードである。ハンズフリーモードは、図2のような状態に対応する第2モードである。携帯情報端末1は、ユーザAによる所定の指示操作、あるいはセンサ類30を用いた自動的な端末状態把握に応じて、それらのモードから選択する。例えば、携帯情報端末1は、表示画面DPに、通常モードとハンズフリーモードとの選択ボタンを表示し、選択操作に応じて、対応するモードへ移行させてもよい。あるいは、携帯情報端末1は、加速度センサ31等の検出情報から、ユーザAが筐体を手持ちしているか、水平面s0上に平らに置いているか等の状態を把握し、その状態に応じて自動的にモードを決定してもよい。
本例では、ユーザAは、図2のようなハンズフリー状態(対応するハンズフリーモード)でのテレビ電話を行う。ユーザAは、携帯情報端末1の筐体を図2のような状態にし、携帯情報端末1はハンズフリーモードを選択する。なお、他の実施の形態では、上記2種類のモードを区別しなくてもよい。
(S2) 携帯情報端末1は、端末状態把握と共に、テレビ電話モードではカメラ部11を、インカメラC1を使用するモード(インカメラモード)にして、撮影を開始させる。撮影処理部12は、インカメラC1からの動画を入力する。
(S3) 携帯情報端末1の撮影処理部12は、インカメラC1の広角画像から、顔検出機能201によって、ユーザAの顔を含む領域(例えば図9の領域B1)を検出する。
(S4) 撮影処理部12は、S3で検出した領域に対し、トリミング機能202によって、顔を含む所定の領域をトリミング領域(例えば図10のトリミング領域TRM1)としてトリミングし、トリミング画像(例えば図12の画像GT1)を得る。
(S5) 撮影処理部12は、S4で得たトリミング画像に対し、歪補正機能203によって、歪補正処理(正像変換処理203A)を施す。また、歪補正機能203では、前述の台形補正処理203Bや収差補正処理203Cを行う。これにより、補正後画像D11(例えば図12の画像GP1)が得られる。
(S6) 撮影処理部12(またはコントローラ10)は、S5による補正後画像D11を用いて、送信画像D12およびモニタ画像D13(例えば図12の画像GP11,GP12)を作成する。
(S7) コントローラ10は、相手(ユーザB)の携帯情報端末2から受信した画像を表示画面DP内の領域(図7の領域R1)に表示する。また、コントローラ10は、ユーザAのモニタ画像D13を、表示画面DP内の領域(図7の領域R2)に表示する。
(S8) コントローラ10は、ユーザAに対し、モニタ画像D13の顔の状態で対応する送信画像D12としてもよいかどうかを確認する(送信確認と記載する場合がある)。例えば、表示画面DP内に送信確認情報(例えば「画像を送信してもいいですか?」)や操作ボタン(例えば送信許可ボタン、送信拒否ボタン)が表示されてもよい。ユーザAは、モニタ画像D13等を見て、その画像内容で送信してもよいかを判断する。例えば、ユーザAは、表示画面DP内の送信許可ボタンまたは送信拒否ボタンを押す。S8で送信許可の場合(Y)にはS10へ進み、送信拒否の場合(N)にはS9へ進む。ユーザAは、モニタ画像D13を見て、例えば目等の状態に違和感がある場合には、送信拒否を選択できる。
(S9) コントローラ10は、登録画像D10を用いて代替の送信画像D12を作成する。また、その際、コントローラ10は、ユーザAに対し、表示画面DPで、登録画像D10を用いて代替の送信画像D12としてもよいかどうかを確認してもよい。例えば、図7のモニタ画像表示用の領域R2に、登録画像D10の顔画像が表示され、確認情報や操作ボタンが表示される。
(S10) コントローラ10は、送信画像D12等を含むテレビ電話用の形式のデータを、通信部を介して、相手の携帯情報端末2に送信する。
(S11) コントローラ10は、ユーザAとユーザBとのテレビ電話の通話(音声の入力や出力、画像表示等を含む)を処理する。なお、通話者の音声データについては、通常の電話の場合と同様に、画像とは別に常時に送受信されるようにしてもよい。
(S12) コントローラ10は、テレビ電話が終了かどうかを確認する。例えば、ユーザAは、テレビ電話を終了する場合、終了ボタンを押す。あるいは、携帯情報端末1は、相手の携帯情報端末2から、終了の旨の情報を受信する。テレビ電話の終了の場合(Y)にはS13へ進み、継続の場合(N)にはS2へ戻る。S2からは同様にループで時点毎の処理が繰り返される。なお、ループによって自動的にユーザAの顔が追尾される。ループ中の各処理では、同じ処理をなるべく繰り返さないように、処理が効率化されている。例えば、S3の顔検出処理では、ある時点で一旦検出した顔領域について、その後の時点での動き検出等よって、自動的に顔が追尾される。
(S13) コントローラ10は、テレビ電話モードの終了処理を行い、テレビ電話アプリの起動(実行)を終了する。終了処理には、テレビ電話に係わる設定(例えばリトライ回数)のリセットや、画像データ消去等が含まれる。
上記処理フローの補足や変形例として以下である。上記処理フローでは、基本的に、インカメラC1の動画の各画像についてループで同様に処理が行われる。S8のモニタ画像D13を用いた送信確認については、例えばテレビ電話の開始の際に、すなわち動画の最初の期間の画像を用いて、1回行われる。その送信確認で送信許可とされた場合、その後のテレビ電話中では、各時点で作成された送信画像D12が自動的に送信される。これに限らず、送信確認は、テレビ電話中に定期的なタイミングで行われるものとしてもよいし、所定のユーザ操作に応じて行われるものとしてもよいし、全く行わないようにしてもよい。テレビ電話アプリのユーザ設定機能において、上記送信確認についての有無やタイミング等に関する設定が可能である。送信確認を行わない設定とした場合、S6のモニタ画像D13の作成、S7のモニタ画像D13の表示、S8の送信確認等が省略でき、携帯情報端末1は、自動的に送信許可として送信画像D12を送信する。
また、テレビ電話の最初に送信確認で送信許可された場合に、その後、テレビ電話の終了まで、または次の送信確認まで、最初に作成した送信画像D12と同じものを使用し続けるようにしてもよい。
S3の顔検出処理では、例えばある時点の広角画像から顔領域を検出できなかった場合に、予め設定されたリトライ回数に従って、別の時点の画像を用いて、顔検出処理をリトライしてもよい。また、顔領域が検出できない場合や追尾できない場合には、過去最後に検出済みの顔画像、または登録画像D10を、代替として用いてもよい。また、携帯情報端末1は、ユーザAに対し、表示画面DP内に、顔が検出できない旨等を表示し、代わりに登録画像D10を用いて送信画像D12とするか確認を行って対応してもよい。
また、S8の送信確認でユーザAが送信拒否の指示操作をした場合、携帯情報端末1は、すぐにS9の登録画像の利用を行ってもよいが、これに限らず、例えば、S5またはS3等のステップに戻り、所定のリトライ回数までで、処理をリトライするようにしてもよい。リトライ回数等の設定は、テレビ電話アプリのデフォルト設定としてもよいし、ユーザ設定で変更可能としてもよい。ユーザのニーズおよび操作に応じて、テレビ電話アプリのユーザ設定機能を用いて、送信確認や、登録画像を用いた送信画像の作成等を含む、各種の機能について、利用有無や動作詳細を設定可能である。ユーザ設定に応じて、テレビ電話の最初から最後まで全て、リアルタイムのカメラ画像を用いることも、登録画像D10のみを用いることも、可能である。
[(7)携帯情報端末-表示画面]
図7は、テレビ電話の際の、携帯情報端末1の前面s1を平面視したX-Y面での表示画面DP等の構成を示す。携帯情報端末1の平板状の筐体の主面(前面s1、背面s2)のうち、表示画面DPを持つ前面s1側に、広角レンズ部を含むインカメラC1を備えている。前面s1の縦長の長方形領域において、主な表示画面DPの領域の外側の額縁領域のうち上辺部の例えば中央位置(点PC1)に、インカメラC1が設けられている。
テレビ電話アプリの制御およびユーザBの携帯情報端末2から受信した画像データに基づいて、携帯情報端末1の表示画面DP内の領域R1には、通話相手(ユーザB)の顔を含む画像(相手画像)g1が表示される。
表示画面DP内の領域R1の画像g1の表示と共に、一部の所定の領域R2には、インカメラC1の画像に基づいて作成された、ユーザAの顔を含むモニタ画像g2が表示される。このモニタ画像g2は、テレビ電話の際にユーザAが相手へ送信する自己の画像の状態を確認できるように設けられている。このモニタ画像g2を表示する機能は、必須ではないが、表示する場合には、より使い勝手を高くできる。ユーザAは、このモニタ画像g2を見ることで、自分の顔等の状態を確認でき、必要に応じて、このモニタ画像g2に対応する内容の送信画像D12の送信を拒否することもできる。
図7の(A)の表示例では、表示画面DP内で、殆ど全体に対応する主な領域R1に相手の画像g1が表示され、領域R1のうち、インカメラC1に近い例えば右上角隅の位置に、重畳する領域R2を設け、その領域R2にモニタ画像g2を表示している。
図7の(B)の別の表示例では、表示画面DA内で、相手の画像g1を表示する主な領域R1は、インカメラC1に近い上側寄りの位置に配置されており、領域R1の下側に、分けられた領域R2を設け、その領域R2にモニタ画像g2を表示している。これらに限らず、各種の表示の仕方が可能であり、ユーザ設定機能によって変更可能である。
また、図7の表示例では、領域R2のモニタ画像g2は、領域R1の相手の画像g1よりも小さいサイズとしている。これに限らず、領域R2のモニタ画像g2のサイズについても設定変更可能である。また、表示画面DPに対するタッチ操作に応じて、モニタ画像g2のみを拡大表示すること等も可能である。
[(8)画像例、処理例]
図8~図12は、携帯情報端末1のインカメラC1の広角画像に基づいた、顔検出、トリミング、および歪補正についての画像例や処理例を示す。
(1) まず、図8は、比較説明用に、通常カメラC2でユーザAの顔を正面から撮影した場合の画像(通常画像)の例を示している。この通常画像は、正方形のサイズとした場合を示す。ユーザAの顔または頭における中心点または代表点を点P1とする。両目の中間点等を点P1としてもよい。概略的に、顔領域A1、頭領域A2、領域A3を示す。顔領域A1は、顔(目、鼻、口、耳、肌等を含む)を含むようにとった領域である。頭領域A2は、顔領域A1よりも広く、頭(髪等を含む)を含むようにとった領域である。領域A3は、顔領域A1や頭領域A2よりも広く、顔または頭の外側の周辺領域もある程度の大きさで含むようにとった領域である。領域A3は、例えば点P1からの所定の距離までの領域としてもよいし、領域A3内の顔領域A1等の比率に応じてとった領域としてもよい。各領域の形状は、矩形に限らず、楕円等でもよい。なお、図2のようにカメラから斜め上を見上げる方向の位置関係で撮影された画像の場合、実際の画像内容は、図15の(B)のように、やや台形状の画像内容になる。
(2) 図9は、インカメラC1で撮像した広角画像G1の概要と顔領域検出について模式的に示す。この広角画像G1は、円領域を有する。点PG1は、広角画像G1の中心点を示し、光軸の方向J2に対応する。広角画像G1内の位置座標を(x,y)で示す。破線枠で示す領域(顔領域)B1は、概略的に顔領域A1に対応する矩形の領域を示す。同様に、領域(頭領域)B2は、頭領域A2に対応する矩形の領域、領域B3は、領域A3に対応する矩形の領域を示す。領域B4は、さらに、領域B3よりも大きく、処理用に十分に大きな矩形の領域をとる場合を示す。各領域は矩形で示しているが、これに限らず、広角画像の座標系に合わせた形状としてもよい。
図9の広角画像G1では、図2のような位置関係に基づいて、広角画像G1内の一部の領域、特に中央の点PG1から下側の位置(点P1)の付近の領域に、ユーザAの顔等が写っている。このように、インカメラC1の広角レンズを通じて撮像した広角画像G1内の顔を含む全体には、広角レンズに依存する歪が生じている。広角画像G1内では、中央(点PG1)に比べて外周の位置ほど歪が大きくなる場合がある。
顔検出機能201では、広角画像G1内から、顔を含む領域を検出する。顔検出機能201では、例えば顔領域B1または頭領域B2を検出する。
(3) 図10は、図9の広角画像G1について、後述の図13、図14の原画像の(x,y)平面での状態を重ねて示している。トリミング機能202では、広角画像G1から、顔領域B1や領域B3等に対応するトリミング領域を設定して、トリミング画像を得る。図10の例では、広角画像G1から、領域B3に対応する、原画像の(x,y)平面の座標系に対応する盾形状の領域を、トリミング領域TRM1(破線枠)として設定している。このトリミング領域TRM1の盾形状は、例えばy方向で中央から外周になるにつれてx方向の幅が小さくなる形状である。
(4) また、図11は、比較説明用に、図9の広角画像G1から、矩形(直角四角形)のトリミング領域としてトリミングする場合のトリミング画像の例を示す。領域111は、頭とその周辺とを含む矩形の領域を示す。領域112は、処理用に領域111よりも大きくとる場合の矩形の領域の例を示す。領域111において、概略的に、顔領域等の横幅H1と、全体の横幅H2とを示す。領域111のサイズの決定に関しては、顔領域等の横幅H1に対し、所定の比率(H1/H2)となるように、全体の幅H2が設定される。例えば、H1/H2=1/2、あるいは2/3等とされる。この比率はユーザ設定可能である。あるいは、領域111,112のサイズに関しては、顔領域の中心の点P1から、横方向や縦方向に所定の距離K1,K2等をとることで決定してもよい。
(5) 図12は、トリミング画像と歪補正の例について示す。図12の(A)は、図10のトリミング領域TRM1に対応するトリミング画像GT1を示す。また、トリミング領域TRM2およびトリミング画像GT2は、処理用にトリミング領域TRM1およびトリミング画像GT1よりも大きくとった場合の例を示す。原画像の(x,y)平面上において、ユーザAの顔の周辺を含むサイズ(例えば上半身を含むサイズ)のトリミング領域TRM1とされている。
図12の(B)は、(A)のトリミング画像GT1に対する歪補正の結果の画像である平面化画像GP1を示す。歪補正機能203では、トリミング画像GT1に対し、正像変換処理203A(図14)を行う。この結果、ほぼ歪が無い平面化画像GP1が得られる。平面化画像GP1は、矩形(直角四角形)の平面PL1を持つ。また、平面PL2は、トリミング画像GT2の場合に同様に得られる平面化画像の平面を示す。また、特に、画像GP11や画像GP12は、平面化画像GP1のうち一部の領域を抽出する場合の例を示す。画像GP11は顔領域に対応し、画像GP12は頭領域とその周辺とを含む領域に対応する。
撮影処理部12は、平面化画像GP1を補正後画像D11として取得する。さらに、撮影処理部12は、この平面化画像GP1から、一部の画像GP11等を抽出し、適宜に加工することで、モニタ画像D13を作成してもよい。
撮影処理部12は、歪補正機能203を用いて、広角画像G1(原画像)の状態から、歪の無い状態になるように正像変換処理203Aを行う。ここで、原画像の円形の全領域に対して正像変換処理203Aの計算を施す場合、計算量が大きくなることが懸念される。そのため、実施の形態1では、上記のように、処理例として、撮影処理部12は、広角画像G1(原画像)のうちの一部の領域をトリミングした画像に対して限定的に正像変換処理203A等の計算を施している。
[(9)歪補正]
図13および図14を用いて、インカメラC1で撮影された歪を持つ広角画像を、歪が無い平面化画像に補正する歪補正方法について説明する。
図13は、インカメラC1の広角レンズを使用した場合の正像変換のモデルおよび座標系を示す。広角レンズに対応する半球面500、カメラセンサの平面的な撮像面501、平面化画像502等を示す。撮像面501は、原画像の(x,y)平面としても示す。平面化画像502は、対象物体の撮影画像に対応し、(u,v)平面として示す。広角レンズは、画角等によっても半径等が異なるが、球面に近い形状を有し、半球面500として示す。撮像面501は、半球面500の撮影範囲のZ方向の軸に垂直な位置に配置されている。半球面500や撮像面501の原点O、半径R、3次元座標(X,Y,Z)を示す。球面座標系(半球面500)の底面の平面が、カメラセンサ上の撮像面501に相当し、原画像の(x,y)平面として示す。
携帯情報端末1は、インカメラC1の広角レンズを通じて撮影された広角画像の画角AV1内における、撮影対象物であるユーザAの顔が撮影されている位置や画角AV2について、図13のモデルに基づいて、中心位置からの距離、角度、範囲等が判断できる。よって、撮影処理部12は、図13のモデルに基づいた歪補正処理(図14の正像変換)を行うことにより、歪を持つ顔画像を、歪が解消または低減された平面化画像にすることができる。
前述の図2のように、インカメラC1の広角レンズによる画角AV1は、180度程度と大きい。広角レンズに対応する、球面に近い形状(半球面500)で物体(例えば顔)を撮影、透過した光学像を、撮像面501で示す平面を持つカメラセンサで受像する。すると、そのカメラセンサ上の画像(広角画像)には、図14の左側に示すように、歪を生じる。中央に比べて外周になるほど、カメラセンサ正面角度(Z方向)と撮影画像方向(n方向)との関係(角度βで示す)がきつくなる。
図14の左側には、原画像の(x,y)平面における歪を概念的に示す。(x,y)平面では、座標系の単位領域が直角四角形ではない(例:歪量δu,δv)。図14の右側には、平面化画像502として、(u,v)平面を示す。この(u,v)平面が、歪が無い画像として取り出したい画像である。(u,v)平面では、座標系の単位領域が直角四角形(例:Δu,Δv)となっている。
広角レンズの焦点距離やレンズ形状に関する諸元は予め分かっている。よって、上記球面の画像(原画像)から平面の画像(平面化画像と記載する)への座標変換が容易に可能である。この座標変換として、図14のような正像変換を適用可能である。この正像変換は、歪を持つ画像を、人の目で見たままの歪を持たない画像に変換するものであり、例えば魚眼レンズ等の歪補正で使用されている。この正像変換を用いて、図14の左側の原画像の(x,y)平面の各点位置の画素を、右側の平面化画像の(u,v)平面の各点位置の画素に変換する。変換の詳細については以下である。
図13のように、対象物体の撮影の方向nに関して、方位角をα、天頂角をβ、取り出す平面(平面化画像502)の回転角をφとする。レンズの倍率をmとする。すると、公知の正像変換の式から、下記の式1,式2である。また、その式中のA,B,C,Dは、式3~式6である。
式1: x=R(uA-vB+mRsinβsinα)/√(u2+v2+m2R2)
式2: y=R(uC-vD+mRsinβcosα)/√(u2+v2+m2R2)
式3: A=cosφcosα-sinφsinαcosβ
式4: B=sinφcosα+cosφsinαcosβ
式5: C=cosφsinα+sinφcosαcosβ
式6: D=sinφsinα-cosφcosαcosβ
上記式に従った計算によって、原画像の各画素を、平面化画像の各画素に変換して、歪を解消することができる。原画像の(x,y)平面における各画素位置での歪量δu,δvが、平面化画像の(u,v)平面における正方形の単位領域のように、歪の無い状態(Δu,Δv)にされる。
[(10)台形補正]
図15は、台形補正処理203Bについての画像例等を示す。図15の(A)のように、携帯情報端末1を水平面s0上に平らに置いた状態の場合、ユーザAの顔は、インカメラC1から見て斜め上の方向J3で撮影される。そのため、顔撮影の画像の画角AV2において、顔や頭におけるZ方向下方側の部分(あご等)の方が、Z方向上方側の部分よりも、距離が近い。距離DST1は、インカメラC1の位置PC1と、頭の上方側の部分との距離、距離DST2は、インカメラC1の位置PC1と、頭の下方側の部分との距離の例を示す。DST1>DST2である。
このため、撮影画像(広角画像)内では、図15の(B)のように、ユーザAの顔領域等が、台形状の画像内容(台形画像と記載する)となる。台形画像151では、Z方向での上辺が下辺よりも小さい。台形画像151は、正像変換後の、広角画像の歪が無い状態の形状を模式的に示している。台形画像151では、例えば頭頂側が相対的に小さく、あご側が相対的に大きく写っている。
この台形画像を用いて送信画像D12を構成した場合、相手(ユーザB)からその送信画像D12を見ると、やや違和感を感じる可能性がある。そこで、より好適な送信画像D12を作成するために、台形補正処理203Bを用いる。携帯情報端末1は、インカメラC1の位置PC1からユーザAの顔の代表的な位置の点P1を見る場合の仰角(角度θ1)の範囲等の状態を、インカメラC1の画像やセンサ類を用いて判断可能である。撮影処理部12は、その判断した情報に基づいて、台形補正処理203Bを行う。
図15の(C)は、(B)からの台形補正の結果得られた画像152を示す。この画像152は、直角四角形画像であり、上辺と下辺とが同じ長さである。この画像152を用いて送信画像D12を作成することで、相手(ユーザB)からは、ユーザAの顔を正面から見たような画像となる。
[(11)モニタ機能、画像修正機能]
図7のように、実施の形態1の携帯情報端末1では、ユーザA自身の画像についてのモニタ機能も備えている。携帯情報端末1は、表示画面DP内に、送信画像D12に対応させたユーザAのモニタ画像D13を表示して、ユーザAにそのモニタ画像D12の顔の状態で送信画像としてもよいかどうかを確認する。このモニタ機能では、ユーザAは、モニタ画像D13を見て、歪補正後の自己の顔画像について、違和感や気に入らないと感じる場合、そのモニタ画像D13に対応する送信画像D12を、送信拒否することができる。携帯情報端末1は、その送信拒否の指示の操作を受けた場合、そのモニタ画像D13に対応する送信画像D12を送信しない。
また、その場合、携帯情報端末1は、その送信画像D12の代わりに、登録画像D10に基づいた新たな送信画像D12を作成し、元の送信画像D12と交換して、送信するようにしてもよい。携帯情報端末1は、登録画像D10の顔画像をそのまま用いてもよいし、加工して送信画像D12を作成してもよい。登録画像D10は、ユーザAが自己の顔を任意のカメラで撮影した静止画または動画でもよいし、顔以外でも、他の任意の画像(アイコン画像、アニメーション画像等)でもよい。
また、他の機能として、携帯情報端末1は、画像修正機能を備えてもよい。携帯情報端末1は、一旦作成した補正後画像D11(モニタ画像D13、送信画像D12)について、送信拒否の指示を受けた場合に、この機能を用いて、顔画像を修正する。携帯情報端末1は、この際、補正後画像D11に対し、登録画像D10の顔画像に基づいて、修正処理を施して、修正版の顔画像を作成する。例えば、携帯情報端末1は、顔画像内の両目の状態について、目線の向きが正面になるように加工して、修正版の顔画像を作成する。なお、修正版の顔画像についても表示画面DP内に表示してユーザAに送信確認してもよい。
具体例としては、あるタイミングで撮影したユーザAの顔画像において、目の部分がうまく撮影できていない場合、例えば目線の向きについて正面(方向J3)からのずれが大きい場合がある。その場合に、携帯情報端末1は、その顔画像の目の部分を、登録画像D10の目の部分を用いて、合成や置換するように修正する。これにより、修正後の顔画像では目が正面を向いた状態にする。
また、携帯情報端末1は、モニタ画像D13の確認の上でユーザAが送信拒否の指示をした場合、その時点の処理結果(補正後画像D11、送信画像D12)を一旦リセットし、異なるタイミングの入力画像に基づいて、送信画像D12の作成をリトライするようにしてもよい。その際のリトライ回数も設定可能である。携帯情報端末1は、所定の回数まででリトライした結果、最終的に十分な画像が得られなかった場合(ユーザAの送信指示が出ない場合)、登録画像D10の顔画像を送信画像D12としてもよい。
また、携帯情報端末1は、表示画面DP内の領域に対するユーザAのタッチ操作に応じて、送信画像D12とする画像を、リアルタイムに作成した画像とするか、登録画像D12の顔画像とするかを切り替えるようにしてもよい。
[(12)登録機能および登録画像]
登録機能および登録画像D10を用いることで、顔検出等の精度を高めることができ、また、各種の付属的な機能も利用可能である。登録画像D1のデータは、メモリ13または外部メモリ16等に格納されている。登録画像D10としてユーザAの顔画像を登録する方法としては以下である。例えば、ユーザAは、テレビ電話アプリのユーザ設定機能のうちの登録機能を操作し、通常カメラC2(または後述の実施の形態2でのインカメラC3)を用いて、自己の顔を正面から撮像し、歪の無い顔画像を、登録画像D10として登録する。なお、インカメラC1および歪補正機能203を用いて登録画像D10を作成してもよいし、別のカメラや外部装置からのデータ読み込みによって登録を行ってもよい。
登録画像D10は、ユーザAの顔の正面から撮像した顔画像だけではなく、他の色々な方向から顔を撮像した複数の画像を含んでもよい。この場合、携帯情報端末1の顔検出機能201は、ユーザAがテレビ電話の際に顔の向きを変えたり動いたりしている場合でも、その登録画像D10を用いて、その時の顔の状態を検出することができる。携帯情報端末1の画像修正機能は、その顔の状態に合わせて、修正処理が可能である。
また、ユーザAが表示画面DPでモニタ画像D13を確認して送信拒否し、代わりに登録画像D10を用いる場合に、登録画像D10の複数の顔画像のうちユーザAが選択した顔画像を用いて送信画像D12とすることもできる。
また、登録画像D10は、あるユーザA一人の顔画像だけではなく、その携帯情報端末1を使用してテレビ電話を行う可能性がある他の複数のユーザについての複数の顔画像を含めてもよい。
[(13)個人認識機能]
実施の形態1では、撮影処理部12の顔検出機能201は、特に、特定のユーザ個人の顔を認識する機能(個人認識機能201B)も備えている。携帯情報端末1は、広角画像から、不特定の顔領域を検出するだけでなく、特定のユーザ個人の顔を認識してもよい。その場合、携帯情報端末1は、特定のユーザの顔のみを検出して、送信画像D12を作成してもよい。
顔検出機能201は、例えば、広角画像から任意の顔領域を検出する。その後、個人認識機能201Bでは、その顔領域を、予め登録画像D10に登録されているユーザAの個人認識用の顔画像と比較照合する。個人認識機能201Bでは、その比較の結果、類似性に基づいて、広角画像内の顔領域が、特定のユーザAの顔に該当するかどうかを判定する。個人認識機能201Bは、個人認識結果情報を出力する。
携帯情報端末1は、特定のユーザAの顔である場合にのみ、ハンズフリー状態のテレビ電話機能の制御を適用し、例えば送信画像D12を作成する。広角画像内に複数のユーザの顔が映っている場合に、特定のユーザAの顔のみを対象として送信画像D12を作成することができる。例えば、広角画像内でユーザAの背景にいるだけの通行人の顔については対象として扱わずに済む。なお、変形例としては、個人認識機能201Bを備えなくてもよい。また、撮影処理部12は、歪補正前の画像に対して特定の個人の顔の認識を行うようにしてもよいし、歪補正後の画像に対して特定の個人の顔の認識を行うようにしてもよい。
[(14)顔追尾機能]
実施の形態1で、撮影処理部12(特に顔検出機能201)は、インカメラC1の動画(所定のレートの複数の画像)に基づいて、ユーザの顔領域の動きを自動的に追尾する機能(顔追尾機能)も含んでいる。携帯情報端末1は、広角のインカメラC1を用いることで、ユーザ自身が多少移動したとしても、広角画像内であれば、顔検出によって追尾することができる。携帯情報端末1は、常にユーザの顔が画像中心となるように追尾した送信画像D12とすることもできる。
テレビ電話中、ユーザAが同じ位置に静止しているとは限らず、動いている場合がある。撮影処理部12は、動画から、所定の時点毎の広角画像毎に、ユーザAの顔領域を検出する。例えば、顔検出機能201によって一旦ある時点で顔領域を検出した後、その後の時点では、その検出済みの顔領域の付近で探索して、顔領域の動きを判断する。これにより、画像処理量を抑制しつつ、ユーザが動いている場合でも、時間軸上で継続的にユーザAの顔領域を追尾できる。
また、図2の状態でのテレビ電話の際に、ユーザA(特に顔)は、最初の位置から移動する場合がある。例えば、ユーザAが一時的に最初の位置から離れて、その後に最初の位置に戻る場合がある。その場合でも、撮影処理部12は、顔追尾機能によって、移動する顔領域をできるかぎり追尾する。撮影処理部12は、ユーザAの顔が広角画像内に映っていない状態になった場合、すなわち追尾できない場合、その後の時間では、例えば以下のように対応する。撮影処理部12は、過去最後に検出済みの画像、作成済みの送信画像D12を用いて対応する。または、撮影処理部12は、一時的に登録画像D10の顔画像に切り替えて対応する。撮影処理部12は、ユーザAの顔が再び広角画像内に写った状態になった場合、その顔領域を検出して、その後同様に追尾する。また、撮影処理部11は、ユーザAの顔が任意の物体によって一時的に隠された場合でも、同様に、顔追尾機能によって対応することができる。
[(15)他の利用状態、配置状態、およびガイド機能]
図16~図18は、実施の形態1の携帯情報端末1の他の利用状態や配置状態の例を示す。ユーザAがハンズフリー状態のテレビ電話を行う際の、端末の配置状態については、図2の状態に限らず、以下のような状態も可能である。
図16は、状態の第1例を示す。図16では、水平面s0に対してある程度の角度161で傾いた斜面s5を持つ、台等の任意の物体160がある。ユーザAは、携帯情報端末1の筐体を、その台等の物体160の斜面s5に沿って平らに置く。物体160や角度161は、特に限定されず、筐体が静止する状態となればよい。この状態で、ユーザAは、前方にある筐体の表示画面DPを見る。インカメラC1は、角度161に応じた光軸の方向J2で配置されている。インカメラC1は、方向J3の画角AV2で、ユーザAの顔(点P1)を撮影する。このように、筐体がある程度傾いて配置されていても、図2と同様にハンズフリー状態でのテレビ電話が実現できる。
図17は、第2例として、筐体の前面s1のインカメラC1の位置PC1が、ユーザAから見てY方向で手前側の方向Y2の位置になっている。この場合、インカメラC1の顔撮影の方向J3(角度θ3)が、図2の状態とは変わっている。例えば仰角がより大きくなっている。この場合、広角画像内では、ユーザAの顔領域が反転して写っている。撮影処理部12は、その広角画像からその反転の状態を認識できる。撮影処理部12は、適宜に画像反転処理を行い、表示画面DP内には上下を適切な方向にしたモニタ画像D13を表示する。
図18は、第3例として、筐体の長手方向をX方向(ユーザAからみて左右方向)に沿って配置した場合を示す。この場合、前面s1のインカメラC1の位置PC1が、ユーザAから見てX方向で左右の一方の側(例えば方向X1)の位置になる。撮影処理部12は、適宜に画像回転処理を行い、表示画面DP内には適切な方向にしたモニタ画像D13を表示する。
実施の形態1では、ユーザに対し特に図2の配置状態を推奨するが、上記各配置状態でも概略同様にテレビ電話機能を実現できる。また、実施の形態1では、水平面s0上の携帯情報端末1の配置状態およびユーザAとの位置関係が、図2、図17、図18等のいずれの状態であっても、インカメラC1によって概略同様に対応可能である。そのため、ユーザAは、テレビ電話の際に、端末の状態や自身の位置を、ある程度自由に変えることもでき、利便性が高い。
また、携帯情報端末1は、筐体の配置状態について、ユーザに対し推奨やガイドを行う機能(ガイド機能)を備えていてもよい。携帯情報端末1は、カメラ画像やセンサ類30を用いて、筐体の配置状態を把握する。携帯情報端末1は、例えば、図2の配置状態を推奨するように、ガイド情報(例:「カメラを奥側にして置くことをおすすめします。」)を、表示画面DPに表示したり、音声出力したりしてもよい。
また、携帯情報端末1は、筐体の配置状態が適切ではない場合には、その旨のガイド情報を出力してもよい。例えば、携帯情報端末1は、ある配置状態で、インカメラC1の位置PC1からユーザAの顔(点P1)を撮影する方向J3に関する角度θ3が、所定の角度範囲内ではない場合(仰角が小さすぎる場合または大きすぎる場合)には、配置位置が適切ではない旨のガイド情報を出力してもよい。
また、例えば、携帯情報端末1に対するユーザAの位置関係において、特にインカメラC1から顔を認識できない位置関係となる場合も想定される。その場合、携帯情報端末1は、位置関係(端末位置およびユーザ位置)を適切にするために、ユーザAに対し、ガイド情報を出力してもよい。例えば、携帯情報端末1の位置や配置状態を変更させる旨の情報、またはユーザAの顔の位置を変更させる旨の情報を出力させてもよい。この際、携帯情報端末1は、ユーザAとの位置関係を把握している場合には、どの方向や位置へ変更させるべきかの指示情報を出力してもよい。
[(16)比較例-非ハンズフリー状態]
図19は、比較例の携帯情報端末における通常のテレビ電話モード(通常モード)、および、実施の形態1における別のテレビ電話モードとして非ハンズフリー状態の非ハンズフリーモードの場合を示す。この状態、モードでは、ユーザAは、携帯情報端末の筐体を手に持っており、両手が自由ではない。図19の例では、筐体が鉛直上方に立つ状態とされている。筐体の前面のインカメラCXは、通常画角(いわゆる狭角)の通常レンズを持つ通常カメラである。この通常画角は、インカメラC1の画角AV1よりも狭い。インカメラCXの光軸の方向JX2を示し、本例ではY方向で手前側の方向Y2を向いている。インカメラCXの画角AVX1は、例えば45度から135度までの角度範囲である。画角AVX1のうち、顔撮影範囲に対応する画角AVX2を示す。
また、ユーザAの目線の方向JX1と、インカメラCXの顔撮影の方向JX3と、それらが成す角度差AD2とを示す。このような角度差が大きいほど、画像内でのユーザAの目線の向きが下向きとなる。相手(ユーザB)から見ると、ユーザAの目が正面を向いていない状態となる。
一方、実施の形態1での図2のハンズフリーモードの場合、角度差AD1は、比較例の角度差AD2よりも小さくすることができる。そのため、実施の形態1でのハンズフリーモードの場合、画像内でのユーザの目線の向きが、通常モードの場合よりも、より正面に近い向きになる。これにより、相手(ユーザB)から見ると、ユーザAの目線がより正面を向いている状態となるので、より自然で違和感が少ないテレビ電話が可能である。
なお、従来の携帯情報端末のインカメラCXは、通常レンズを持ち、撮影可能範囲が限られている。そのため、このインカメラCXをテレビ電話機能に利用して、ユーザAが手で筐体を持って非ハンズフリー状態でテレビ電話を行う場合には、以下のような考慮や手間が必要である。ユーザAは、自身の顔を適切に撮影して相手に伝えるために、手で筐体の向きを調整しながら、顔と筐体との位置関係を保持し続ける必要がある。一方、実施の形態1の携帯情報端末1では、インカメラC1を用いてハンズフリー状態でテレビ電話を行うことができ、上記のような考慮や手間が不要である。
なお、実施の形態1で、通常モードを用いる場合では、インカメラC1の広角画像内の中央付近の位置にユーザAの顔が写ることになる。この通常モードの場合、携帯情報端末1は、歪補正処理等を省略してもよく、ハンズフリーモードとは異なる動作として、異なる効果が得られる。
[(17)効果等]
上記のように、実施の形態1のテレビ電話機能を持つ携帯情報端末1によれば、ハンズフリーのテレビ電話を、より好適な使い勝手で実現できる。ユーザは、両手が自由な状態でテレビ電話が可能であり、利便性も高い。なお、携帯情報端末1の前面s1のインカメラC1は、テレビ電話専用に限らず、他の用途(自撮り等)にも使用可能な一般的なものである。実施の形態1では、そのインカメラC1をうまく利用してハンズフリーのテレビ電話を実現している。実施の形態1の携帯情報端末1は、ハンズフリーのテレビ電話の際に、筐体を変形させる必要が無く、また、別の固定器具等を用いる必要も無く、使い勝手が良く、汎用性が高い。
また、実施の形態1の携帯情報端末1は、カメラ(インカメラC1)の光軸が一般的な面垂直方向となっており、カメラの光軸の方向が斜め(例えば45度)になっているような従来技術例や、カメラの光軸の方向を機械的に駆動して変更可能とする従来技術例等とは異なり、実装も容易である。
(実施の形態2)
図20、図21を用いて、本発明の実施の形態2の携帯情報端末について説明する。実施の形態2の基本的な構成は実施の形態1と同様であり、以下では実施の形態2における実施の形態1とは異なる構成部分について説明する。実施の形態2の携帯情報端末1は、筐体の前面s1に複数のインカメラを備え、それらを使い分ける。
図20は、実施の形態2の携帯情報端末1における、カメラ部11の構成を示す。このカメラ部11は、前述のインカメラC1、通常カメラC2(特に広角カメラとしてもよい)に加え、通常画角を持つインカメラC3を備えている。前述のインカメラC1が第1インカメラ、インカメラC3が第2インカメラに相当する。
撮影処理部12は、通常カメラC2の通常画像を処理するアウトカメラ処理部12Bと、インカメラC1の広角画像を処理する第1インカメラ処理部12Aと、インカメラC3の通常画像を処理する第2インカメラ処理部12Cと、モード制御部12Dとを含む。撮影処理部12は、モード制御部12Dで、これらの複数のカメラのうちいずれのカメラを使用するモードとするか等を切り替える。携帯情報端末1は、端末とユーザAの顔との位置関係、端末の配置状態の把握に応じて、カメラモードを切り替える。
図21は、実施の形態2の携帯情報端末1における利用状態の例、インカメラC3の画角等を示す。図21の(A)では、携帯情報端末1の筐体が、水平面s0上に平らに配置されている。例えば、筐体の前面s1において、インカメラC1の位置PC1の近くの位置PC3に、インカメラC3(特に通常レンズ部)が設けられている。インカメラC3の光軸の方向J4は、インカメラC1と同様に鉛直上方となっている。インカメラC3の画角AV4(第1角度ANG3から第2角度ANG4までの角度範囲)を示す。この画角AV4は、インカメラC1の画角AV1よりも狭く、例えば第1角度ANG3が60度程度、第2角度ANG3が135度程度である。
状態211は、図2の状態と同様であり、インカメラC1の画角AV1内の画角AV2でユーザAの顔が撮影できる場合を示す。状態212は、インカメラC3の画角AV4によってユーザAの顔が撮影できる位置関係にある場合を示す。例えば、インカメラC3の光軸の方向J4の先にユーザAの顔の代表的な点P4がある。
状態212のようにインカメラC3で顔を撮影できる位置関係の場合、携帯情報端末1は、複数のカメラのうち、インカメラC3を用いるカメラモードに切り替える。また、状態211のように、インカメラC1の画角AV1のうち画角AV4以外の画角によって顔を撮影できる位置関係の場合、携帯情報端末1は、インカメラC1を用いるカメラモードに切り替える。
図21の(B)は、実施の形態2での非ハンズフリー状態の例を示し、図19の非ハンズフリー状態に近い状態である。例えば、ユーザAの顔の位置が、状態211から図21の(B)の状態213に移行した場合、携帯情報端末1は、カメラモードを、インカメラC1からインカメラC3へ切り替えて、非ハンズフリーモード(通常モード)のテレビ電話を行うように制御する。同様に、ユーザAの顔の位置が、状態213から状態211に移行した場合、携帯情報端末1は、カメラモードを、インカメラC3からインカメラC1へ切り替えて、ハンズフリーモードのテレビ電話を行うように制御する。モードの切り替えに応じて、インカメラC1による広角画像と、インカメラC3による通常画像とが、入力画像として切り替えられる。
携帯情報端末1は、上記2種類のカメラのモードの選択および切り替えを、状態把握に基づいて自動的に行うようにしてもよいし、ユーザによる指示操作や設定に基づいて行うようにしてもよい。インカメラC3の通常画像を用いるモードでは、歪補正処理等が不要であるため、処理を効率化できる。
携帯情報端末1は、インカメラC1やインカメラC3の動作時に、顔検出機能201を用いて、画像内のユーザAの顔領域を検出し、その顔領域の位置や方向や画角に基づいて、いずれのカメラを使用するかを選択し、モードを切り替えるようにしてもよい。例えば、携帯情報端末1は、インカメラC1の画角AV1のうち、インカメラC3の画角AV4に対応する所定の画角内に顔が収まっているか否かによって、インカメラC3を使用するかインカメラC1を使用するかを選択してもよい。
上記のように、実施の形態2の携帯情報端末1によれば、実施の形態1と同様の効果に加え、通常画角のインカメラC3を併用することで、処理を効率化できる。なお、携帯情報端末1の筐体の前面s1におけるインカメラC1やインカメラC3の位置については、前述の構成に限らず可能であり、例えば、前面s1の表示画面DPの矩形内に入り込んでいる部分の位置としてもよい。
(他の実施の形態)
実施の形態1,2に関する他の実施の形態(変形例)として以下も可能である。
[変形例(1)-撮影処理]
実施の形態1における撮影処理部12では、図5等のように、広角画像から顔領域を検出してトリミングしてから、そのトリミング画像領域に対し歪補正処理を行っている。撮影処理の方式は、これに限らず可能である。
図22は、変形例の携帯情報端末1での撮影処理の画像例を示す。携帯情報端末1の撮影処理部12は、まず、広角画像G1の全体に対して歪補正処理を行い、その後、歪補正後画像から顔領域等を検出し、トリミングする。携帯情報端末1は、広角画像G1における、水平画角で360度の領域(範囲221)、または水平画角で180度の領域(x軸の下側の半円の範囲222)に対し、歪補正処理を行って、対応する平面化画像GP3を得る。図22の例では、平面化画像GP3である歪補正後画像として、水平画角で180度の範囲222とした場合のパノラマ画像を模式的に示す。携帯情報端末1は、平面化画像GP3から、ユーザAの顔を含む領域(例えば領域224)を検出する。そして、携帯情報端末1は、領域224に対し、トリミング領域225をとってトリミングし、トリミング画像226を得て、トリミング画像226から送信画像D12等を作成する。
この変形例では、前述の実施の形態1に対し、歪補正処理の対象となる画像領域の面積がより大きい。前述の実施の形態1の撮影処理では、歪補正処理の対象となる画像領域の面積がより小さいので、処理効率等の点で有利である。計算性能が高い端末の場合、変形例を採用してもよい。変形例では、顔検出の対象画像が平面化画像であるため、顔検出の画像処理の容易さの点では有利である。
また、他の変形例で、撮影処理部12は、歪を持つ広角画像からの顔領域の検出の際、ユーザAの登録画像D10の顔画像を用いて比較照合する。その際の登録画像D10の顔画像は、予めインカメラC1で撮影した、歪を持つ顔画像としてもよい。
また、他の変形例で、携帯情報端末1は、広角画像の画角のうち、顔検出等の処理の際に、一部の範囲、例えば図22のx軸から下側の半円の範囲222(図2では0度から90度までの仰角の範囲)の画像領域を参照し、処理対象画像領域をその範囲に絞るようにし、上半分の画像領域については無視するようにしてもよい。さらには、領域223の例のように、水平画角でより狭い範囲に絞ってもよい。また、例えば、携帯情報端末1は、図2のような状態を把握した場合に、上記のように処理対象画像範囲を絞るようにしてもよい。図2の第1状態では、広角画像のうち、ユーザAの顔は下側の半円の範囲222内に写り、上側の半円の範囲内に写る可能性は殆ど無い。そのため、上記のような処理が有効である。
他の撮影処理の方式として、携帯情報端末1は、歪補正機能203によって、最初に広角画像に対し簡易的な第1の歪補正処理を施し、その後に顔検出やトリミングを行い、最後にトリミング画像に対しより精度の高い第2の歪補正処理を施すようにしてもよい。
変形例として、歪補正後の画像が、送信画像D12として許容されるかどうかについて、ユーザAの確認や操作によるものではなく、携帯情報端末1が自動的に判断してもよい。例えば、携帯情報端末1は、歪補正後画像の顔領域を、登録画像D10の顔領域と比較して、顔の再現度合いを評価し、評価値を算出する。携帯情報端末1は、その評価値が、設定されている閾値以上である場合には、送信許可と判断する。
[変形例(2)-物体認識機能]
変形例の携帯情報端末1において、撮影処理部12(特に顔検出機能201)は、物体認識機能を備えてもよい。この物体認識機能は、画像処理に基づいて、広角画像から、顔以外の所定の物体を認識してその物体領域を検出する機能である。ユーザAは、図2のハンズフリー状態でのテレビ電話の際に、自由に手を動かすことができるので、手に持った物体をインカメラC1に写すことができる。これにより、送信画像D12内には、ユーザAの顔だけでなく、その周辺に、手に持った任意の物体を写すことができ、相手(ユーザB)に示すことができる。
所定の物体とは、予め情報処理上で定義された物体である。撮影処理部12は、その物体に対応した検出アルゴリズムを持つ。所定の物体は、例えば、ユーザの資料や写真やノートやノートPC画面、あるいはユーザの物品や動物等が挙げられる。所定の物体は、例えば矩形や円等の所定の形状や、所定の色等を持つ領域として定義される。撮影処理部12(物体認識機能)では、検出された顔領域に基づいて、例えばその顔領域の周囲の所定の距離範囲内を探索して、所定の物体の領域を検出してもよい。
図23の(A)は、物体認識機能を用いる場合の画像例を示す。この画像は、歪が無い平面化画像の状態を示す。ユーザAは、ハンズフリー状態のテレビ電話の際に、相手(ユーザB)に対し、物体230を見せながら通話を行っている。物体230は、例えばA4サイズの資料等であり、歪補正後の画像内において概略的に矩形状である。携帯情報端末1は、物体認識機能を用いて、画像から、顔領域231だけでなく、特定の物体230の領域232を検出する。携帯情報端末1は、その物体230の領域232についても歪補正処理等を施す。携帯情報端末1は、例えば、顔領域231の点P1からその周囲に所定の距離233までの範囲で、特定の物体を探索してもよい。携帯情報端末1は、例えば、顔領域231と物体230の領域232とを包含する矩形の領域234をとって、送信画像D12を作成してもよい。また、顔領域231(点P1)を中心とした画像に限らず、領域235のように、顔と物体が包含される最小矩形の画像としてもよい。
あるいは、携帯情報端末1は、顔領域231と物体230の領域232とを分けて、それぞれの送信画像D12を作成し、モニタ画像D13(画像236,237)として表示して、送信確認してもよい。また、携帯情報端末1は、検出した物体230にフォーカスする画像(物体230を中心として拡大された画像)を、モニタ画像D13として作成してもよい。また、前述の領域A3や領域B3を用いて、顔の周辺を大きい距離で確保する領域をとれば、物体認識処理を省略しても、その領域内に自動的に物体を捉えることができる。
本物体認識機能では、広角画像を用いているので、顔と物体との距離がある程度離れていたとしても、それらの両方の画像を得ることができる。例えば、図23の(B)には、広角画像に基づいた平面化されたパノラマ画像GP4を示す。このパノラマ画像GP4のうち、図2の方向Y2、方向J3や、図10のy軸の下側に対応する位置(水平画角で0度とする)には、ユーザAの顔が写っている領域r1がある。そして、その位置から、水平方向である程度離れた位置、例えば水平画角で90度、x軸の右側に対応する位置には、所定の物体が写っている領域r2がある。1つの広角画像内で、これらの両方を捉えることができ、送信画像D12とすることができる。
他の変形例として、撮影処理部12(物体認識機能)は、広角画像から、ユーザAの手を検出し、ユーザAの顔と手とを含む領域をとり、送信画像D12を作成してもよい。また、広角画像内に両手が写っている場合、ユーザが筐体を手持ちしていないと判断できる。そのため、携帯情報端末1は、広角画像からユーザAの両手を検出した場合に、ハンズフリーモードに切り替えるようにしてもよい。
[変形例(3)-複数のユーザの顔画像]
変形例として、例えば机上に1つの携帯情報端末1が置かれた状態で、複数のユーザが、その同じ携帯情報端末1を用いて、一方の送信側の通話者として相手(ユーザB)とのテレビ電話を行う利用方法も可能である。その場合、変形例の携帯情報端末1は、広角画像内に収まっている複数のユーザの複数の顔について、同時並行的に、顔検出や歪補正等の処理を行う。また、その際、携帯情報端末1は、広角画像に写っている各ユーザの顔毎に、分離して、複数の送信画像D12を作成してもよいし、複数の顔を含む1つの送信画像D12を作成してもよい。
図24の(A)は、この変形例で、複数のユーザの顔を含む画像例を示す。テレビ電話を行う一方の通話者として、主なユーザAに加え、別のユーザCがいる場合を示す。携帯情報端末1は、インカメラC1の広角画像内から、ユーザAの顔の領域RU1と、ユーザCの顔の領域RU2とを検出する。携帯情報端末1は、例えば、それらの2つの顔領域を包含する領域241(例えば横長の矩形)をとり、送信画像D12として作成する。あるいは、携帯情報端末1は、それらの2つの顔領域をそれぞれのトリミング画像242,243としてとり、それぞれの送信画像D12として作成し、並列に表示してもよい。ユーザが3人以上の場合でも基本的に同様に実現可能であるが、多人数になりすぎないように、所定の人数(例えば4人)の顔までに制限する。携帯情報端末1は、表示画面DP内に、複数のユーザの各顔のモニタ画像D13を表示してもよい。
また、携帯情報端末1は、広角画像の画像処理、特に口の状態の検出によって、広角画像内の複数の顔のうちどの顔のユーザが現在喋っているかを把握し、その現在喋っているユーザの顔についての送信画像D12等を作成するようにしてもよい。さらに、携帯情報端末1は、画像処理とマイク17の音声処理とを連動させることで、広角画像内の複数の顔のうちどの顔のユーザが現在喋っているかを把握してもよい。携帯情報端末1は、複数のユーザのモニタ画像D13について、表示画面DP内に並列で表示してもよいし、時間軸で切り替えて表示してもよい。
また、上記複数のユーザの顔を扱う場合、携帯情報端末1に予め登録画像D10として顔画像が登録されている複数のユーザのみを対象として上記処理を行うようにしてもよい。携帯情報端末1は、予め登録されていない人(通行人等)の顔については扱わない。また、携帯情報端末1は、一部のユーザの顔について処理が間に合わない場合等には、登録画像D10を用いて代替としてもよいし、別のアイコンや風景等の画像を用いて代替としてもよい。
上記(A)の画像例では、インカメラC1からみてある方向の画角内の領域(例えば(B)のy軸の下側の領域L1)に、複数の人(ユーザA、ユーザC)の顔が写っている。これに限らず、インカメラC1の広角の画角を用いることで、水平面s0上の携帯情報端末1の位置に対し、その周りの水平画角が異なる各位置に各人がいる場合でも、対応可能である。例えば、図24の(B)の広角画像G1における外周付近の領域のうち、y軸の上下、x軸の左右のいずれの領域L1~L4に顔があっても、対応可能である。すなわち、1つの広角画像内において、その複数の人の複数の顔を捉えることができ、送信画像D12とすることができる。
[変形例(4)-相手画像補正機能]
図25は、変形例の携帯情報端末1に備える相手画像補正機能について示す。変形例の携帯情報端末1は、図7のように表示画面DP内(領域R1)に相手の画像を表示する際に、この相手画像補正機能を用いて逆台形補正した画像を表示する。
図25の(A)は、相手(ユーザB)の携帯情報端末2から受信した、通常の相手画像の例を示す。携帯情報端末1の表示画面DP内の領域R1に、相手の直角四角形の画像g1が表示されている。
図25の(B)は、図2のような状態でユーザAの目(点P1)から斜め下方にある(A)の画像g1を見た場合の見え方を模式的に示している。(B)の状態では、画像g1は、上辺が下辺よりも小さい台形形状として見える。すなわち、ユーザAから見て、ユーザBの頭側の方が相対的にやや小さく見える。
携帯情報端末1は、インカメラC1の広角画像の解析やセンサ類30の検出情報に基づいて、ユーザAと端末との位置関係、端末の配置状態を把握する。例えば、携帯情報端末1は、画像内のユーザAの目の位置や目線の向き、顔の大きさ等から、ユーザAの顔の位置や、端末との距離等の状態を推測する。携帯情報端末1は、把握した状態に応じて、逆台形補正の際の比率(上辺と下辺との比率)等を設定する。携帯情報端末1は、相手の携帯情報端末2から受信した直角四角形の画像を、その比率等に合わせて逆台形補正処理して、逆台形形状の画像を得る。上記比率は予め設定された値としてもよい。
図25の(C)は、(A)の画像g1を、逆台形補正した後の画像g1bを示す。この画像g1bは、逆台形形状であり、上辺が大きく下辺が小さい台形である。携帯情報端末1は、その逆台形形状の画像g1bを、表示画面DP内の領域R1内に表示する。ユーザAは、図2の状態で、目(点P1)から斜め下方の表示画面DP内の領域R1内の相手の画像g1bを見る。すると、この状態では、ユーザAから見て相手画像が(A)のような直角四角形に近い形状で見えることになる。これにより、ユーザAは、相手画像をより視認しやすく、より使い勝手が良い。
[変形例(5)-3次元画像処理機能]
変形例として、携帯情報端末1は、2次元画像に限らず、3次元画像を処理する機能(3次元画像処理機能)を用いてもよい。例えば、カメラ部11(例えば通常カメラC2)に、公知の赤外線カメラ機能および3次元センサモジュールを備えてもよい。これを用いて、撮影処理部12は、インカメラC1の広角画像を、3次元画像として処理する。例えば、携帯情報端末1は、この赤外線カメラ機能および3次元センサジュールにより、例えば数万個以上の赤外線ドットを、ユーザの顔に照射する。携帯情報端末1は、その赤外線ドットを、赤外線カメラで撮像して、その画像から、顔表面の微妙な凹凸を読み取って、顔3次元マップ(対応する3次元画像)を作成する。携帯情報端末1は、その3次元画像に対し、歪補正処理等を行ってもよい。また、携帯情報端末1は、その3次元画像を、登録画像D10のうちの3次元顔画像情報との照合により、3次元的な顔補正処理を行ってもよい。その場合、より鮮明、微細な補正ができる。
また、携帯情報端末1は、このような3次元的な高度な補正を行う際、単に画像を照合するのではなく、深層学習等の機械学習を用いて解析を加えてもよい。例えば、携帯情報端末1は、深層学習機能を持つAIエンジン(畳み込みニューラルネットワークを用いた深層学習を行うソフトウェアおよびハードウェア)を内蔵してもよい。携帯情報端末1は、そのAIエンジンを用いてカメラ画像からユーザの顔について学習することで、顔検出や顔補正の性能を高める。これにより、例えば具体的には、人の髪型やメークアップによる変化、メガネやサングラスの有無、ヒゲの伸び具合等の差異や影響を考慮して、ユーザAの顔の検出や認識や補正を行うことができる。
また、携帯情報端末1は、個人認識機能201Bでは、登録画像D10の3次元顔画像と、インカメラC1で撮影し歪補正された3次元顔画像とを比較照合してもよい。これにより、ユーザA本人かどうかの個人認識を、より高精度に実現できる。
[変形例(6)-指向性マイク、指向性スピーカ]
変形例として、図3の携帯情報端末1のマイク17は、指向性マイクとしてもよい。指向性マイクは、ノイズキャンセル機能等の音声処理機能を含む。コントローラ10は、マイク17を用いて、ユーザAの顔がある方向からの音声を優先的に集音する。コントローラ10は、入力音声に対し、ノイズキャンセル機能によってノイズをキャンセルし、鮮明なユーザAの音声を得る。コントローラ10は、その音声データを、送信画像D12と共に、相手の携帯情報端末2に送信する。携帯情報端末1からみてユーザAの顔がある方向については、携帯情報端末1の状態把握や画像内の顔検出を用いて把握可能である。
マイク17に関しては、公知のMEMSマイクロフォン等を適用して、公知のビームフォーミング技術によって、指向性およびノイズキャンセル機能を実現してもよい。例えば、ノイズキャンセル機能を実現する場合、基本的には複数のマイクが必要である。しかし、携帯情報端末1が小型である場合、複数のマイクが搭載できない場合もある。その場合、携帯情報端末1では、MEMSマイクロフォンを搭載することで、ビームフォーミング技術によって、複数の音源から特定の音源を分離し強調することができる。これにより、ユーザAの音声のみを強調して得ることが可能である。
また、携帯情報端末1は、インカメラC1を用いることで、ユーザAの位置および方向を、ある程度の精度で認識できる。そこで、携帯情報端末1は、インカメラC1を用いてユーザAの位置および方向をおおよそ特定する。携帯情報端末1は、その特定した位置および方向について、上記マイク17およびビームフォーミング技術を用いて、その方向からの音声を優先的に強調して取得してもよい。
また、変形例として、携帯情報端末1は、マイク17の音声の解析に基づいて、ユーザAの顔の位置や方向をおおよそ推測してもよい。携帯情報端末1は、その顔の位置や方向に合わせて、広角画像に対する顔検出等の処理を行ってもよい。
同様に、スピーカ18として、指向性スピーカを用いてもよい。端末に対するユーザAの顔の位置に合わせて、スピーカ18の音声出力の指向性や音量等を制御してもよい。
以上、本発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されず、その要旨を逸脱しない範囲で種々変更可能である。