JP2007049375A - 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム - Google Patents
画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム Download PDFInfo
- Publication number
- JP2007049375A JP2007049375A JP2005231046A JP2005231046A JP2007049375A JP 2007049375 A JP2007049375 A JP 2007049375A JP 2005231046 A JP2005231046 A JP 2005231046A JP 2005231046 A JP2005231046 A JP 2005231046A JP 2007049375 A JP2007049375 A JP 2007049375A
- Authority
- JP
- Japan
- Prior art keywords
- image
- subject
- image processing
- processing apparatus
- pattern recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Image Processing (AREA)
- Studio Devices (AREA)
- Image Analysis (AREA)
Abstract
【課題】 本発明は、画像に含まれる所望の被写体の有無および配置に応じてその画像に所定の処理を施す画像処理装置、その画像処理装置が搭載されたカメラ、そのカメラによってとらえられた画像を送信する通信装置および既述の画像処理を実現するプログラムに関し、ユーザーに負担をかけることなく被写体と背景との切り分けが安定に実現されることを目的とする。
【解決手段】 画像に含まれる被写体の像をその被写体の特徴に基づいて特定するパターン認識手段と、前記パターン認識手段によって前記被写体の像が特定されたときに、その被写体の像を含む画像を出力する画像処理手段とを備えて構成される。
【選択図】 図1
【解決手段】 画像に含まれる被写体の像をその被写体の特徴に基づいて特定するパターン認識手段と、前記パターン認識手段によって前記被写体の像が特定されたときに、その被写体の像を含む画像を出力する画像処理手段とを備えて構成される。
【選択図】 図1
Description
本発明は、画像に含まれる所望の被写体の有無および配置に応じてその画像に所定の処理を施す画像処理装置、その画像処理装置が搭載されたカメラ、このカメラによってとらえられた画像を送信する通信装置および既述の画像処理を実現するプログラムに関する。
テレビ電話に用いられるカメラには、「背景を写してほしくない。」というプライバシー保護の要求に応じて、例えば、撮像系より出力される画像の領域の内、動いている部分を被写体として識別し、かつ止まっている部分を背景として識別することによってその背景を分離する第一の技術と、撮影距離が基準位置付近に該当する領域を被写体として識別し、かつ他の領域を背景として識別することによってその背景を分離する第二の技術と、閃光装置により発せられる赤外光等を識別することによって被写体の輪郭を識別する第三の技術との何れかが用いられていた。
特開2001−326918号公報
特開2001−309225号公報
しかし、上述した従来例では、以下に列記する課題があった。
第一の技術では、被写体である話し手が動いていない場合には、その被写体の検出が難しく、反対に、携帯電話などの場合には背景が静止しているとは限らない。したがって、上記のプライバシー保護の目的は、必ずしも十分には達成されていなかった。
第二の技術では、被写体が上述した基準位置付近に位置しなければならないために、不便であった。また、背景が被写体のすぐ後ろにある場合には、これらの背景と被写体との切り分けが難しかった。
第一の技術では、被写体である話し手が動いていない場合には、その被写体の検出が難しく、反対に、携帯電話などの場合には背景が静止しているとは限らない。したがって、上記のプライバシー保護の目的は、必ずしも十分には達成されていなかった。
第二の技術では、被写体が上述した基準位置付近に位置しなければならないために、不便であった。また、背景が被写体のすぐ後ろにある場合には、これらの背景と被写体との切り分けが難しかった。
第三の技術では、赤外線を発する手段が備えられ、かつ撮像素子によってその赤外線が受光されなければならないために、コスト高となり、しかも、屋外では、外光にも赤外線が含まれるために、確実に作動するとは限らなかった。また、赤外線に代えて可視光を発する閃光装置が用いられる場合には、その可視光が所定の頻度で反復して発せられなければならないために、話し手にとってまぶしく、かつ煩わしかった。
本発明は、ユーザーに負担をかけることなく被写体と背景との切り分けが安定に実現される画像処理装置、カメラ、通信装置およびプログラムを提供することを目的とする。
本発明の画像処理装置では、パターン認識手段は、画像に含まれる被写体の像をその被写体の特徴に基づいて特定する。画像処理手段は、前記パターン認識手段によって前記被写体の像が特定されたときに、その被写体の像を含む画像を出力する。
また、本発明の画像処理装置は、前記パターン認識手段によって前記被写体の像が特定されないときに、画像処理手段が前記画像に代えて既定の画像を出力するように構成されてもよい。
また、本発明の画像処理装置は、前記パターン認識手段によって前記被写体の像が特定されないときに、画像処理手段が前記画像に代えて既定の画像を出力するように構成されてもよい。
さらに、本発明の画像処理装置では、このような既定の画像は、前記画像より先に入力され、かつ前記パターン認識手段によって特定された被写体を含む画像であってもよい。
また、本発明の画像処理装置は、前記パターン認識手段によって前記被写体の像が特定されたときに、前記画像の内、前記被写体の像の全てまたは一部を含む特定の領域を示す部分画像を画像処理手段が出力するように構成されてもよい。
また、本発明の画像処理装置は、前記パターン認識手段によって前記被写体の像が特定されたときに、前記画像の内、前記被写体の像の全てまたは一部を含む特定の領域を示す部分画像を画像処理手段が出力するように構成されてもよい。
さらに、本発明の画像処理装置では、上記部分画像には、前記被写体の特徴と異なる特徴に基づいて特定された領域の画像が含まれなくてもよい。
また、本発明の画像処理装置では、前記被写体の特徴は、前記画像に含まれ得る被写体の内、前記パターン認識手段によって優先的に特定される被写体の特徴であってもよい。
さらに、本発明の画像処理装置では、前記パターン認識手段は、前記画像に含まれる人物の顔を前記人物の顔の特徴に基づいて特定してもよい。
また、本発明の画像処理装置では、前記被写体の特徴は、前記画像に含まれ得る被写体の内、前記パターン認識手段によって優先的に特定される被写体の特徴であってもよい。
さらに、本発明の画像処理装置では、前記パターン認識手段は、前記画像に含まれる人物の顔を前記人物の顔の特徴に基づいて特定してもよい。
また、本発明にかかわるカメラでは、撮像手段は、前記被写体を含み得る画像を画像処理装置に与える。この画像処理装置は、既述の本発明にかかわる画像処理装置であり、前記被写体が前記画像に含まれるか否かに応じて異なる画像を出力する。
さらに、本発明にかかわる通信装置では、撮像手段は、前記被写体を含み得る画像を画像処理装置に与える。この画像処理装置は、既述の画像処理装置であり、前記被写体が前記画像に含まれるか否かに応じて異なる画像を出力する。送信手段は、このように画像処理装置によって出力された画像を示す画像情報を通信路に送出する。
さらに、本発明にかかわる通信装置では、撮像手段は、前記被写体を含み得る画像を画像処理装置に与える。この画像処理装置は、既述の画像処理装置であり、前記被写体が前記画像に含まれるか否かに応じて異なる画像を出力する。送信手段は、このように画像処理装置によって出力された画像を示す画像情報を通信路に送出する。
また、本発明にかかわるプログラムは、既述の画像処理装置としてコンピュータを機能させる。
本発明では、画像処理やカメラの用途がプライバシー保護その他の機能が要求される機器やシステムに拡大され、これらの機器やシステムの付加価値が安価に高められる。
以下、図面に基づいて本発明の実施形態を詳細に説明する。
図1は、本発明の第一ないし第三の実施形態を示す図である。
図において、電話機10は、加入者線11を介して図示されない交換局に接続され、かつ通話に用いられる送受話器12に接続される。このような電話機10の本体は、通話者の撮影に用いられるカメラ20と、上述した加入者線11および送受話器12とのインタフェースをとる通信インタフェース部40とが備えられる。
図1は、本発明の第一ないし第三の実施形態を示す図である。
図において、電話機10は、加入者線11を介して図示されない交換局に接続され、かつ通話に用いられる送受話器12に接続される。このような電話機10の本体は、通話者の撮影に用いられるカメラ20と、上述した加入者線11および送受話器12とのインタフェースをとる通信インタフェース部40とが備えられる。
カメラ20では、送受話器12を用いて通話する通話者の像をパンフォーカスによりとらえる光学系21および撮像素子(CCD)22が備えられる。その撮像素子22の出力は、アナログ処理回路23およびA/D変換部24を介してバッファメモリ25の書き込みポートに接続される。このバッファメモリ25の読み出しポートは、送信用メモリ26の書き込みポートに接続される。これらの撮像素子22、アナログ処理回路23およびA/D変換部24の制御端子には、プロセッサ(CPU)27の対応する入出力ポートが接続される。バッファメモリ25および送信用メモリ26のバス端子には、直前データ記憶用メモリ28のバス端子と共にプロセッサ27の対応するバス端子に接続される。さらに、プロセッサ27には、LCD駆動回路29を介して液晶表示器(LCD)30が接続される。
通信インタフェース部40では、上述したプロセッサ27と連係する電話機プロセッサ41が備えられ、かつ送受話器12および加入者線11にそれぞれ接続された送受話器インタフェース部42および加入者線インタフェース部43が備えられる。これらの送受話器インタフェース部42および加入者線インタフェース部43は、音声コーデック回路44の対応する符復号化端子に接続される。音声コーデック回路44、送受話器インタフェース部42および加入者線インタフェース部43の制御端子には、電話機プロセッサ41の対応する入出力ポートが接続される。加入者線インタフェース部43の多重化入力端子には、既述の送信用メモリ26の読み出しポートが接続される。
以下、図1を参照して後述する第一ない第三の実施形態に共通である各部の基本的な動作を説明する。
電話機プロセッサ41は、操作者が送受話器12を操作することによって与える「発信」、「着信応答」、「保留」その他の要求に併せて、電話番号を送受話器インタフェース部42を介して取得し、これらの要求や電話番号に応じて加入者線インタフェース部43を介して加入者線11にアクセスすることによって、送受話器12を介する通話サービスの提供を可能とする。通話状態では、音声コーデック44は、電話機プロセッサ41が加入者線インタフェース部43および送受話器インタフェース部42と連係して行う通信制御の手順に基づいて「上りの通話信号」のA/D変換および符号化と、「下りの通話信号」のD/A変換および復号化とを行う。なお、「上りの通話信号」とは、送受話器12から送受話器インタフェース部42を介して与えられ、かつ加入者線インタフェース部43を介して加入者線11に送出される音声信号を意味する。「下りの通話信号」とは、加入者線11から加入者線インタフェース部43を介して与えられ、かつ送受話器インタフェース部42を介して送受話器12に送出される音声信号を意味する。
電話機プロセッサ41は、操作者が送受話器12を操作することによって与える「発信」、「着信応答」、「保留」その他の要求に併せて、電話番号を送受話器インタフェース部42を介して取得し、これらの要求や電話番号に応じて加入者線インタフェース部43を介して加入者線11にアクセスすることによって、送受話器12を介する通話サービスの提供を可能とする。通話状態では、音声コーデック44は、電話機プロセッサ41が加入者線インタフェース部43および送受話器インタフェース部42と連係して行う通信制御の手順に基づいて「上りの通話信号」のA/D変換および符号化と、「下りの通話信号」のD/A変換および復号化とを行う。なお、「上りの通話信号」とは、送受話器12から送受話器インタフェース部42を介して与えられ、かつ加入者線インタフェース部43を介して加入者線11に送出される音声信号を意味する。「下りの通話信号」とは、加入者線11から加入者線インタフェース部43を介して与えられ、かつ送受話器インタフェース部42を介して送受話器12に送出される音声信号を意味する。
また、撮像素子22は、プロセッサ27の配下で、光学系21を介して通話者およびその通話者の背景を含む画像を動画としてとらえ、その動画を示す画像信号を出力する。このような画像信号は、アナログ処理回路23およびA/D変換器24を介してデジタル領域の画像情報に変換され、バッファメモリ25に順次蓄積される。プロセッサ27は、このようにしてバッファメモリ25に蓄積された画像情報に後述する画像処理を施す。さらに、プロセッサ27は、その画像処理の結果として生成された画像情報を送信用メモリ26に順次格納する。
加入者線インタフェース部43は、電話機プロセッサ41が与える指示の下で、上述したように送信用メモリ26に最先に格納された画像情報の列(以下、「上り動画情報」という。)を既述の上りの通話信号に多重化して加入者線11に送出する。なお、このような多重化は、例えば、加入者線11の伝送帯域の高域にブロードバンドとして形成されたADSL(Asymmetric Digital Subscriber Line)を介して、パケット伝送として実現される。
また、通話相手(交換局)から上述したADSLを介して受信された下りの通話信号と、その通話相手の像を示す動画情報(以下、「下り動画情報」という。)とは、加入者線インタフェース部43によって分離される。このようにして分離された下りの通話信号は、音声コーデック44および送受話器インタフェース部42を介して送受話器12に引き渡される。一方、同様に分離された下り動画情報は、例えば、電話機プロセッサ41を介してプロセッサ27に引き渡される。プロセッサ27は、LCD駆動回路29を介して液晶表示器30にその下り動画情報で示される動画を表示する。
なお、液晶表示器30には、このような動画だけではなく、例えば、既述の通話者およびその通話者の背景を示す動画と、電話器10の操作に関連する多様なメニューとが電話器プロセッサ41およびプロセッサ27の連係(操作者によって与えられる指示に応じて切り替えられてもよい。)の下で所望の組み合わせで表示される。
図2は、本発明の第一ないし第三の実施形態の動作フローチャートである。
図2は、本発明の第一ないし第三の実施形態の動作フローチャートである。
図3は、本発明の第一ないし第三の実施形態の動作を示す図である。
[第一の実施形態]
以下、図1〜図3を参照して本発明の第一の実施形態の動作を説明する。
本実施形態の特徴は、送受話器12を介する通話の過程において、プロセッサ27が電話機プロセッサ41と連係することによって行う下記の画像処理にある。
[第一の実施形態]
以下、図1〜図3を参照して本発明の第一の実施形態の動作を説明する。
本実施形態の特徴は、送受話器12を介する通話の過程において、プロセッサ27が電話機プロセッサ41と連係することによって行う下記の画像処理にある。
電話機プロセッサ41は、通話が開始された時点でプロセッサ27にその旨を通知する。プロセッサ27は、この通知を識別すると、直前データ記憶用メモリ28の記憶領域を空に設定し(図2ステップS1)、かつLCD駆動回路29を介して液晶表示器30の画面の全領域を黒に設定し、あるいはその画面に既定の画像(以下、「デフォルト画像」という。)を表示する。
さらに、プロセッサ27は、上述した通話が継続する期間には、バッファメモリ25に時系列の順に蓄積された画像情報にコマ(例えば、図3(a) に示す元画像に該当する。)毎に以下の処理を施す。なお、プロセッサ27は、その画像処理の結果として生成された画像情報を順次送信用メモリ26と直前データ記憶用メモリ28とに格納する。
(1) 該当するコマに実時間で「顔認識」の処理を施す(図2ステップS2)。
(2) その「顔認識」により、例えば、図3(b) に示すような通話者の顔が識別されたか否かを判別する(図2ステップS3)。
(3) 通話者(本実施形態では、一人のみであると仮定する。)が識別された場合には、以下の何れかの処理を行うことによって、例えば、図3(c) に太い曲線で示されるように、その通話者に該当する人物部分の輪郭を推定する(図2ステップS4)。
(1) 該当するコマに実時間で「顔認識」の処理を施す(図2ステップS2)。
(2) その「顔認識」により、例えば、図3(b) に示すような通話者の顔が識別されたか否かを判別する(図2ステップS3)。
(3) 通話者(本実施形態では、一人のみであると仮定する。)が識別された場合には、以下の何れかの処理を行うことによって、例えば、図3(c) に太い曲線で示されるように、その通話者に該当する人物部分の輪郭を推定する(図2ステップS4)。
3-1) 識別された顔の位置を基準として人物部分の輪郭を推定する。なお、このような輪郭の推定は、背景部分と人物部分とに色や輝度の明確な差があることを前提として行うことが可能である場合には、少ない処理量で高い精度が得られる。
3-2) 上記3-1)と同様にして推定された人物部分の輪郭と、該当するコマとの相関に基づいて精度の向上を図ることによって、その人物部分の輪郭を推定する。なお、このような輪郭の推定は、一般に、背景部分と人物部分とに色や輝度の差が少ない場合に行われることが望ましい。
(4) 撮像素子22による撮像の対象となる領域の内、上述したように輪郭が推定された人物部分の領域の周辺部であって、例えば、図3(d) に点線枠で示されるように、通話者が多少移動してもその通話者の像が含まれると推定可能な一定の領域(以下、「人物領域」という。)を該当するコマから切り出す。なお、このようにして切り出される領域のサイズについては、例えば、送信されるべき送信用画像情報のサイズ、形式および伝送速度(伝送帯域)に適した値として予め与えられる。
(5) 該当するコマの内、このようにして切り出された「人物領域」以外の領域(以下、「背景領域」という。)に、特定の色による「塗り潰し処理」、あるいは「ぼかし処理」のように、背景の鮮明度を劣化させる処理を施すことによって、例えば、図3(e) に示す送信用画像情報を生成する(図2ステップS5)。
(6) その送信用画像情報を送信用メモリ26と直前データ記憶用メモリ28とに格納し(図2ステップS6、S7)、後続するコマについて、上記(1) 以降の処理を反復する。
(7) 上記(2) に既述の判別により通話者の顔が識別されなかった場合(単に通話者が写っていない場合だけではなく、通話者の顔が光学系21の光軸(撮像素子22の撮像面)の方向と大幅に異なる方向を向いている場合、あるいはサングラスをかけている場合を含む。)には、直前データ記憶用メモリ28が空であるか否かを判別する(図2ステップS8)。
(8) 直前データ記憶用メモリ28が空である場合には、例えば、全領域の輝度が「白」である既定の画像(既述の「デフォルト画像」であってもよい。)を示す画像情報を送信用画像情報として送信用メモリ26に格納する(図2ステップS9)。
(9) しかし、直前データ記憶メモリ28に何らかの有効な送信用画像情報が格納されている場合には、その送信用画像情報を送信用メモリ26に格納する(図2ステップS10)。
(10)後続するセルについて、上記(1) 以降の処理を反復する。
3-2) 上記3-1)と同様にして推定された人物部分の輪郭と、該当するコマとの相関に基づいて精度の向上を図ることによって、その人物部分の輪郭を推定する。なお、このような輪郭の推定は、一般に、背景部分と人物部分とに色や輝度の差が少ない場合に行われることが望ましい。
(4) 撮像素子22による撮像の対象となる領域の内、上述したように輪郭が推定された人物部分の領域の周辺部であって、例えば、図3(d) に点線枠で示されるように、通話者が多少移動してもその通話者の像が含まれると推定可能な一定の領域(以下、「人物領域」という。)を該当するコマから切り出す。なお、このようにして切り出される領域のサイズについては、例えば、送信されるべき送信用画像情報のサイズ、形式および伝送速度(伝送帯域)に適した値として予め与えられる。
(5) 該当するコマの内、このようにして切り出された「人物領域」以外の領域(以下、「背景領域」という。)に、特定の色による「塗り潰し処理」、あるいは「ぼかし処理」のように、背景の鮮明度を劣化させる処理を施すことによって、例えば、図3(e) に示す送信用画像情報を生成する(図2ステップS5)。
(6) その送信用画像情報を送信用メモリ26と直前データ記憶用メモリ28とに格納し(図2ステップS6、S7)、後続するコマについて、上記(1) 以降の処理を反復する。
(7) 上記(2) に既述の判別により通話者の顔が識別されなかった場合(単に通話者が写っていない場合だけではなく、通話者の顔が光学系21の光軸(撮像素子22の撮像面)の方向と大幅に異なる方向を向いている場合、あるいはサングラスをかけている場合を含む。)には、直前データ記憶用メモリ28が空であるか否かを判別する(図2ステップS8)。
(8) 直前データ記憶用メモリ28が空である場合には、例えば、全領域の輝度が「白」である既定の画像(既述の「デフォルト画像」であってもよい。)を示す画像情報を送信用画像情報として送信用メモリ26に格納する(図2ステップS9)。
(9) しかし、直前データ記憶メモリ28に何らかの有効な送信用画像情報が格納されている場合には、その送信用画像情報を送信用メモリ26に格納する(図2ステップS10)。
(10)後続するセルについて、上記(1) 以降の処理を反復する。
すなわち、上り通話信号と共に通話相手に向けて送信される上り画像情報には、既述の「顔認識」の結果に基づいて推定された通話者の人物部分が含まれるが、その通話者の背景は含まれない。また、このような「顔認識」および既述の人物部分の推定は、画像処理として実現されるため、通話者の位置が基準位置付近ではない場合、その通話者が移動することなく通話している場合、背景が激しく変化している場合、これらの通話者と背景との距離の差が著しく小さい場合の何れであっても、ハードウエアの構成が複雑化することなく、かつ通話者その他のユーザに負担を強いることなく安定に実現される。
したがって、本実施形態によれば、従来例に比べて大幅に安価に、かつ確実にプライバシーの保護が図られる。
なお、本実施形態では、送信用画像情報は、通話者の顔その他の有効な画像のみを示す情報に限定されることによって、伝送帯域が最小限に抑えられてもよい。
[第二の実施形態]
以下、図1〜図3を参照して本発明の第二の実施形態の動作を説明する。
なお、本実施形態では、送信用画像情報は、通話者の顔その他の有効な画像のみを示す情報に限定されることによって、伝送帯域が最小限に抑えられてもよい。
[第二の実施形態]
以下、図1〜図3を参照して本発明の第二の実施形態の動作を説明する。
本実施形態の特徴は、既述の通りに人物部分の輪郭が推定された(図2ステップS4)後にプロセッサ27が行う送信用画像情報の生成(図2ステップS5)の手順にある。
プロセッサ27は、識別された顔の位置を基準として人物部分の輪郭を推定すると、その人物部分の内、例えば、通話者のパジャマその他の着衣(以下、「着衣等」という。)をその着衣等の形状、色彩、絵柄その他の既知の特徴に基づくパターン認識として特定することによって、この着衣等を示す特定の領域を特定する。
プロセッサ27は、識別された顔の位置を基準として人物部分の輪郭を推定すると、その人物部分の内、例えば、通話者のパジャマその他の着衣(以下、「着衣等」という。)をその着衣等の形状、色彩、絵柄その他の既知の特徴に基づくパターン認識として特定することによって、この着衣等を示す特定の領域を特定する。
さらに、プロセッサ27は、推定された人物部分の顔に該当する領域を含んでも、上述した特定の領域(例えば、図3(d) に破線で示される。)を含まない領域を該当するコマから切り出すことによって、送信用画像情報(図3(e))を生成する。
したがって、本実施形態によれば、背景部分には該当しなくても、通話者の着衣等が送信用画像情報として通話相手に画像として伝送されることが回避される。
[第三の実施形態]
以下、図1〜図3を参照して本発明の第三の実施形態の動作を説明する。
したがって、本実施形態によれば、背景部分には該当しなくても、通話者の着衣等が送信用画像情報として通話相手に画像として伝送されることが回避される。
[第三の実施形態]
以下、図1〜図3を参照して本発明の第三の実施形態の動作を説明する。
本実施形態の特徴は、通話者を特定するためにプロセッサ27によって行われる下記の処理にある。
プロセッサ27は、既述の「顔認識」(図2ステップS2)により特定された顔(人物)の数が複数である場合には、以下の手順に基づいて通話者を特定する。
(1) 該当するコマに画像として含まれる送受話器を検出し、その送受話器を耳付近に持っていると推測可能な人物(以下、「推定受話者」という。)を検出できるか否かを判別する(図2ステップS20)。
(2) このような推定受話者を検出できた場合には、その推定受話者を通話者と特定する(図2ステップS21)。
(3) 上記の「推定受話者」を検出できなかった場合には、「顔認識」の結果に基づいて「口」と推定可能な領域における先行するコマとの変化を識別し、その変化の程度に応じて「口」が動いている人物(以下、「推定話者」という。)を検出できるか否かを判別する(図2ステップS22)。
(4) このような推定話者を検出できた場合には、その推定話中者を通話者と特定する(図2ステップS23)。
(5) 上記の「推定話者」を検出できなかった場合には、「顔認識」により特定された人物の内、顔が最も大きい(他の何れの人物との対比において、顔の大きさの比率が所定の閾値(>1)を上回る)人物(以下、「大顔人物」という。)を検出できるか否かを判別する(図2ステップS24)。なお、上記の「大顔人物」は、光学系21(撮像素子22)に最も近い位置において通話を行っていると推定される。
(6) このような大顔人物を検出できた場合には、その大顔人物を通話者と特定する(図2ステップS25)。
(7) 上述した「推定受話者」、「推定話者」、「大顔人物」の何れも検出できなかった場合には、例えば、「該当するコマの中央部付近に最も近い人物」のように、予め決められた条件(以下、「デフォルト選定基準」という。)を満たす人物を通話者と特定する(図2ステップS26)。
プロセッサ27は、既述の「顔認識」(図2ステップS2)により特定された顔(人物)の数が複数である場合には、以下の手順に基づいて通話者を特定する。
(1) 該当するコマに画像として含まれる送受話器を検出し、その送受話器を耳付近に持っていると推測可能な人物(以下、「推定受話者」という。)を検出できるか否かを判別する(図2ステップS20)。
(2) このような推定受話者を検出できた場合には、その推定受話者を通話者と特定する(図2ステップS21)。
(3) 上記の「推定受話者」を検出できなかった場合には、「顔認識」の結果に基づいて「口」と推定可能な領域における先行するコマとの変化を識別し、その変化の程度に応じて「口」が動いている人物(以下、「推定話者」という。)を検出できるか否かを判別する(図2ステップS22)。
(4) このような推定話者を検出できた場合には、その推定話中者を通話者と特定する(図2ステップS23)。
(5) 上記の「推定話者」を検出できなかった場合には、「顔認識」により特定された人物の内、顔が最も大きい(他の何れの人物との対比において、顔の大きさの比率が所定の閾値(>1)を上回る)人物(以下、「大顔人物」という。)を検出できるか否かを判別する(図2ステップS24)。なお、上記の「大顔人物」は、光学系21(撮像素子22)に最も近い位置において通話を行っていると推定される。
(6) このような大顔人物を検出できた場合には、その大顔人物を通話者と特定する(図2ステップS25)。
(7) 上述した「推定受話者」、「推定話者」、「大顔人物」の何れも検出できなかった場合には、例えば、「該当するコマの中央部付近に最も近い人物」のように、予め決められた条件(以下、「デフォルト選定基準」という。)を満たす人物を通話者と特定する(図2ステップS26)。
また、プロセッサ27は、上述したように「顔認識」(図2ステップS2)により複数の顔(人物)が特定された場合には、例えば、操作者によって与えられる指示(もしくは予め決められた設定)に基づいて、通話者として特定されなかった人物を残し、または背景と見なすことによって、送信用画像情報を生成する。
したがって、本実施形態では、撮像素子22によってとらえられた画像に複数の人物が含まれる場合であっても、上述した画像処理の下で通話者が確度高く特定され、テレビ電話等の利便性が安価に高められる。
したがって、本実施形態では、撮像素子22によってとらえられた画像に複数の人物が含まれる場合であっても、上述した画像処理の下で通話者が確度高く特定され、テレビ電話等の利便性が安価に高められる。
なお、本実施形態では、通話者は、例えば、「複数のマイクに到来する通話信号の位相の差等に基づいて位置が識別された人物」、あるいは「通話信号のパターン認識に基づいて特定された通話者の画像の特徴に基づいて識別された人物」との何れとして特定されてもよい。
また、上述した各実施形態では、加入者線11やADSLに接続され、かつテレビ電話として用いられる電話機10に本発明が適用されている。
また、上述した各実施形態では、加入者線11やADSLに接続され、かつテレビ電話として用いられる電話機10に本発明が適用されている。
しかし、本実施形態は、このような電話機10に限定されず、携帯電話端末等の通信端末に組み込み可能なカメラ20として構成され、あるいはそのカメラ20において既述の画像処理を行う画像処理装置(例えば、バッファメモリ25、送信用メモリ26、プロセッサ27および直前データ記憶用メモリ28に相当する。)として構成されてもよい。
さらに、このような画像処理は、例えば、パソコン等の情報端末に周辺装置として接続されたカメラが出力する画像情報、あるいは双方伝送や対話を可能とするテレビ受像機に内蔵あるいは付加されたカメラが出力する画像情報に対して、その画像処理を施すプログラムまたは専用のモジュール(パッケージ)として実現されてもよい。
さらに、このような画像処理は、例えば、パソコン等の情報端末に周辺装置として接続されたカメラが出力する画像情報、あるいは双方伝送や対話を可能とするテレビ受像機に内蔵あるいは付加されたカメラが出力する画像情報に対して、その画像処理を施すプログラムまたは専用のモジュール(パッケージ)として実現されてもよい。
また、上述した各実施形態では、適用される顔認識の技術は、例えば、既述の特許文献2に開示されるように、顔の認識に併せて、顔の座標、寸法、目の位置、頭のポーズ等のデータが画像情報と共に得られる技術、その他の多様な公知の技術によって実現可能である。
さらに、上述した各実施形態では、画像上において通話者に該当する人物部分を特定するために、その通話者の顔認識が行われている。しかし、撮像素子22によってとらえられた画像に含まれる所望の物体とその物体の背景との切り分けが必要な場合には、この顔認識は、その所望の物体を既知の特徴に基づいて識別するパターン認識で代替可能である。
さらに、上述した各実施形態では、画像上において通話者に該当する人物部分を特定するために、その通話者の顔認識が行われている。しかし、撮像素子22によってとらえられた画像に含まれる所望の物体とその物体の背景との切り分けが必要な場合には、この顔認識は、その所望の物体を既知の特徴に基づいて識別するパターン認識で代替可能である。
また、上述した各実施形態では、プロセッサ27の処理量の削減が要求され、もしくはそのプロセッサ27の余剰の処理量が十分ではない場合には、顔認識の処理量は、バッファメモリ25に蓄積された画像情報の画素数が間引かれて参照され、または、先行するコマ(フレーム)との差分が小さいコマにかかわる顔認識の処理が省略されることによって、削減されてもよい。
さらに、上述した各実施形態では、プロセッサ27は、DSPのような信号処理プロセッサとして構成されている。しかし、プロセッサ27は、例えば、ASIC(Application Specific Integrated Circuit)のような専用のハードウエアとして構成されてもよい。
また、プロセッサ27によって行われる既述の画像処理は、如何なる形態の負荷分散や機能分散の下で実現されてもよい。
また、プロセッサ27によって行われる既述の画像処理は、如何なる形態の負荷分散や機能分散の下で実現されてもよい。
さらに、上述した各実施形態では、上り通話信号および上り画像情報は、何れも加入者線11の伝送帯域の高域に形成されたADSLを介してパケットの列として伝送されている。しかし、これらの上り通話信号および上り画像情報の伝送を実現する伝送方式は、例えば、加入者線11の標準的な加入者線信号方式に準拠した伝送帯域の低域を介する圧縮伝送方式、その他の如何なるものであってもよい。
また、本実施形態は、上述した実施形態に限定されるものではなく、本発明の範囲において多様な実施形態が可能であり、構成装置の全てまたは一部に如何なる改良が施されてもよい。
10…電話機, 20…カメラ, 21…光学系, 22…撮像素子(CCD), 23…アナログ処理回路, 24…A/D変換部, 25…バッファメモリ, 26…送信用メモリ, 27…プロセッサ(CPU), 28…直前データ記憶用メモリ, 29…LCD駆動回路, 30…液晶表示器(LCD),40…通信インタフェース部, 41…電話機プロセッサ, 42…送受話器インタフェース部, 43…加入者線インタフェース部, 44…音声コーデック回路
Claims (10)
- 画像に含まれる被写体の像をその被写体の特徴に基づいて特定するパターン認識手段と、
前記パターン認識手段によって前記被写体の像が特定されたときに、その被写体の像を含む画像を出力する画像処理手段と
を備えたことを特徴とする画像処理装置。 - 画像に含まれる被写体の像をその被写体の特徴に基づいて特定するパターン認識手段と、
前記パターン認識手段によって前記被写体の像が特定されないときに、前記画像に代えて既定の画像を出力する画像処理手段と
を備えたことを特徴とする画像処理装置。 - 請求項2に記載の画像処理装置において、
前記既定の画像は、
前記画像より先に入力され、かつ前記パターン認識手段によって特定された被写体を含む画像である
ことを特徴とする画像処理装置。 - 画像に含まれる被写体の像をその被写体の特徴に基づいて特定するパターン認識手段と、
前記パターン認識手段によって前記被写体の像が特定されたときに、前記画像の内、前記被写体の像の全てまたは一部を含む特定の領域を示す部分画像を出力する画像処理手段と
を備えたことを特徴とする画像処理装置。 - 請求項4に記載の画像処理装置において、
前記部分画像には、
前記被写体の特徴と異なる特徴に基づいて特定された領域の画像が含まれない
ことを特徴とする画像処理装置。 - 請求項1ないし請求項5の何れか1項に記載の画像処理装置において、
前記被写体の特徴は、
前記画像に含まれ得る被写体の内、前記パターン認識手段によって優先的に特定される被写体の特徴である
ことを特徴とする画像処理装置。 - 請求項1ないし請求項6の何れか1項に記載の画像処理装置において、
前記パターン認識手段は、
前記画像に含まれる人物の顔を前記人物の顔の特徴に基づいて特定する
ことを特徴とする画像処理装置。 - 請求項1ないし請求項7の何れか1項に記載の画像処理装置と、
前記被写体を含み得る画像を前記画像処理装置に与える撮像手段と
を備えたことを特徴とするカメラ。 - 請求項1ないし請求項7の何れか1項に記載の画像処理装置と、
前記被写体を含み得る画像を前記画像処理装置に与える撮像手段と、
前記画像処理装置によって出力された画像を示す画像情報を通信路に送出する送信手段と
を備えたことを特徴とする通信装置。 - 請求項1ないし請求項7の何れか1項に記載の画像処理装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005231046A JP2007049375A (ja) | 2005-08-09 | 2005-08-09 | 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005231046A JP2007049375A (ja) | 2005-08-09 | 2005-08-09 | 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007049375A true JP2007049375A (ja) | 2007-02-22 |
Family
ID=37851849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005231046A Withdrawn JP2007049375A (ja) | 2005-08-09 | 2005-08-09 | 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007049375A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010049148A (ja) * | 2008-08-25 | 2010-03-04 | Nikon Corp | 画像認識装置及び撮像装置 |
JP2011223627A (ja) * | 2011-06-24 | 2011-11-04 | Kyocera Corp | 画像送信装置、画像送信方法および画像送信プログラム |
JP2012208387A (ja) * | 2011-03-30 | 2012-10-25 | Xing Inc | カラオケ装置 |
JP2013179601A (ja) * | 2013-03-25 | 2013-09-09 | Kyocera Corp | 画像表示装置、画像表示方法および画像表示プログラム |
JP2020155944A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
-
2005
- 2005-08-09 JP JP2005231046A patent/JP2007049375A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010049148A (ja) * | 2008-08-25 | 2010-03-04 | Nikon Corp | 画像認識装置及び撮像装置 |
JP2012208387A (ja) * | 2011-03-30 | 2012-10-25 | Xing Inc | カラオケ装置 |
JP2011223627A (ja) * | 2011-06-24 | 2011-11-04 | Kyocera Corp | 画像送信装置、画像送信方法および画像送信プログラム |
JP2013179601A (ja) * | 2013-03-25 | 2013-09-09 | Kyocera Corp | 画像表示装置、画像表示方法および画像表示プログラム |
JP2020155944A (ja) * | 2019-03-20 | 2020-09-24 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
JP7259447B2 (ja) | 2019-03-20 | 2023-04-18 | 株式会社リコー | 発話者検出システム、発話者検出方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9924112B2 (en) | Automatic video stream selection | |
EP4192004A1 (en) | Audio processing method and electronic device | |
US8416277B2 (en) | Face detection as a metric to stabilize video during video chat session | |
US12003850B2 (en) | Method for selecting image based on burst shooting and electronic device | |
US20120140019A1 (en) | Mobile terminal and method of providing video calls using the same | |
JPWO2007077614A1 (ja) | Tv電話機能の撮影画像処理切り替え装置 | |
CN113726815B (zh) | 一种动态调整视频的方法、电子设备、芯片系统和存储介质 | |
JP2007049375A (ja) | 画像処理装置、カメラ、通信装置およびその画像処理装置を実現するプログラム | |
JP2010161655A (ja) | 撮像装置及び撮像方法 | |
EP4142295A1 (en) | Audio processing method and electronic device | |
KR20050113058A (ko) | 카메라를 구비한 이동 단말에서 촬영 이미지 합성 장치 및방법 | |
JP2006140747A (ja) | 映像コミュニケーション装置および映像コミュニケーション装置の制御方法 | |
JP2004056488A (ja) | 画像処理方法、画像処理装置および画像通信装置 | |
EP4383743A1 (en) | Video processing method and terminal | |
JP2006339869A (ja) | 映像信号と音響信号の統合装置 | |
KR20100000547A (ko) | 다자간 영상 통화 서비스 제공 방법 및 장치 | |
JP4440079B2 (ja) | 通信端末 | |
JP2009065490A (ja) | テレビ会議装置 | |
CN113382162B (zh) | 一种视频拍摄方法及电子设备 | |
EP4297398A1 (en) | Video recording method and electronic devices | |
JP2009284300A (ja) | メディアデータの送受信を優先制御する端末、プログラム及び方法 | |
RU2822535C2 (ru) | Способ и устройство многоканальной видеозаписи | |
JP2006332968A (ja) | テレビ電話装置 | |
KR101276874B1 (ko) | 카메라를 갖는 이동통신단말기 및 그 제어방법 | |
JP2024526253A (ja) | キャプション表示方法及び関連装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20081104 |