JP2009005239A - 符号化処理装置および符号化処理方法 - Google Patents

符号化処理装置および符号化処理方法 Download PDF

Info

Publication number
JP2009005239A
JP2009005239A JP2007166203A JP2007166203A JP2009005239A JP 2009005239 A JP2009005239 A JP 2009005239A JP 2007166203 A JP2007166203 A JP 2007166203A JP 2007166203 A JP2007166203 A JP 2007166203A JP 2009005239 A JP2009005239 A JP 2009005239A
Authority
JP
Japan
Prior art keywords
face
area
face area
region
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007166203A
Other languages
English (en)
Other versions
JP4863937B2 (ja
Inventor
Tetsuya Yamamoto
哲也 山本
Daizo Nagahara
大三 長原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Computer Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Computer Entertainment Inc filed Critical Sony Computer Entertainment Inc
Priority to JP2007166203A priority Critical patent/JP4863937B2/ja
Publication of JP2009005239A publication Critical patent/JP2009005239A/ja
Application granted granted Critical
Publication of JP4863937B2 publication Critical patent/JP4863937B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

【課題】ビデオを用いたチャットにおいて、ユーザの顔領域が誤検出されることがある。
【解決手段】顔領域検出部12は、動画のフレームにおいて顔領域を検出する。顔領域履歴記憶部44には検出された顔領域の履歴がフレーム単位で記録される。トラッキング部42は、顔領域履歴記憶部44に記録されたフレーム単位の顔領域の検出履歴を参照して、顔領域検出部12により検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域検出部12による顔領域の検出結果を補正する。ROI決定処理部46は、トラッキング部42により補正された顔領域にもとづいて所定の基準で注目領域を決定する。ビデオエンコーダは、注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する。
【選択図】図3

Description

この発明は、ビデオを符号化する符号化処理装置および符号化処理方法に関する。
ブロードバンドネットワークの普及によって、インターネットでビデオやオーディオのストリームを配信することが盛んになってきている。ストリーム配信は、インターネット電話、遠隔テレビ会議、チャットといったインターネットサービスに利用されている。ビデオおよびオーディオストリームを利用したチャットシステムでは、遠隔地にいるユーザの顔画像および音声をネットワークを介して相互に送信し、ユーザの端末において動画および音声を再生することより、あたかもその場に一緒にいるかのようにチャットをすることができる。
ビデオストリーム配信は、動画のフレーム画像をMPEG(Moving Picture Experts Group)などの動画像符号化方式により圧縮符号化して生成されるビデオストリームをIP(Internet Protocol)パケットに格納してインターネット上を転送させ、ユーザの通信端末に受信させることで実現される。インターネットは、ベストエフォートでパケットを転送するため、ネットワークが輻輳すると、パケットが破棄されたり遅延することで、データが欠損することがあり、フレーム画像が正しく受信されないことがある。
そこで、ネットワークの帯域に応じてビデオやオーディオの符号化ストリームのビットレートを調整することが行われる。また、画像内に注目領域(Region Of Interest; ROI)を設け、注目領域には十分なビットを割り当て、非注目領域に割り当てるビットを少なくして符号化することで、ネットワークの使用帯域を抑え、輻輳を回避したり、輻輳時でも少なくとも注目領域については再生品質が確保されるようにする工夫がなされている。
たとえば、特許文献1には、注目領域の圧縮率と残余領域の圧縮率とを変えて符号化する画像符号化方法が開示されている。
特開2005−295379号公報
ユーザの顔画像を用いたチャットなどのアプリケーションでは、互いに通信相手の顔画像の見栄えがよいことがユーザの満足度を左右する重要な要素である。そこで、画像に映し出されたユーザの顔を自動検出し、検出された顔領域を注目領域に設定し、その注目領域を高画質で符号化したビデオストリームを生成することで、顔領域の再生品質を確保することが行われる。しかし、チャットで用いられるカメラの性能が低かったり、ユーザの動きが速すぎるなどの原因で、顔領域が正しく検出されず、受信者側に顔画像が十分な品質で提供されないことがある。また、実際には顔ではない領域が誤って顔領域として検出されて注目領域に設定されることがあり、不都合が生じる。
本発明はこうした課題に鑑みてなされたものであり、その目的は、動画の注目領域を適切に符号化するための動画符号化技術を提供することにある。
上記課題を解決するために、本発明のある態様の符号化処理装置は、動画のフレームにおいて顔領域を検出する検出部と、検出された顔領域の履歴がフレーム単位で記録される記録部と、前記記録部に記録されたフレーム単位の顔領域の検出履歴を参照して、前記検出部により検出された顔領域を連続する複数のフレームにわたって追跡することにより、前記検出部による顔領域の検出結果を補正するトラッキング部と、前記トラッキング部により補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定部と、前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化部とを含む。
本発明の別の態様は、プログラムである。このプログラムは、動画のフレームにおいて顔領域を検出する検出機能と、検出された顔領域の履歴がフレーム単位で記録する記録機能と、記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正するトラッキング機能と、補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定機能と、前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化機能とをコンピュータに実現させる。
このプログラムは、ビデオやオーディオのデコーダ等のハードウエア資源の基本的な制御を行なうために機器に組み込まれるファームウエアの一部として提供されてもよい。このファームウエアは、たとえば、機器内のROMやフラッシュメモリなどの半導体メモリに格納される。このファームウエアを提供するため、あるいはファームウエアの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、動画の注目領域を適切に設定して符号化することができる。
図1は、実施の形態に係るチャットシステムの構成図である。複数(ここでは3台)の情報処理装置100a〜100cにはそれぞれマイク230a〜230c、カメラ240a〜240c、スピーカ250a〜250c、ディスプレイ260a〜260cが接続されている。複数の情報処理装置100a〜100cは、ネットワーク300に接続されている。複数(ここでは3人)のユーザA〜Cがそれぞれの情報処理装置100a〜100cを用いて、ネットワーク300を介して互いに自分の顔画像と音声をリアルタイムで送信し合い、また、キーボードから入力されるテキストデータを交換し合うことで、オーディオとビデオを用いたコミュニケーション(いわゆるチャット)を行う。
以下、各ユーザの情報処理装置100a〜100cなどの構成を総称するときは、符号a〜cを省略して、単に符号100などで表記する。
図2は、情報処理装置100の構成図である。ここでは、チャットに係る構成は省略し、オーディオとビデオの符号化と復号に係る構成を示す。
情報処理装置100は、符号化処理ブロック200と、復号処理ブロック220と、通信部270とを含む。情報処理装置100は、一例として、パーソナルコンピュータや携帯端末であってもよく、マルチプロセッサシステムであってもよい。情報処理装置100がパーソナルコンピュータである場合、符号化処理ブロック200と復号処理ブロック220は、画像符号化・復号の機能をもつ専用回路をパーソナルコンピュータに別途搭載することで実現してもよい。また、情報処理装置100がマルチプロセッサシステムである場合、マルチプロセッサの高い計算能力を用いることができるため、符号化処理ブロック200と復号処理ブロック220はソフトウエアで実現されてもよい。
符号化処理ブロック200は、マイク230に入力される音声とカメラ240で撮影される動画とを圧縮符号化してオーディオ符号化ストリームおよびビデオ符号化ストリームを生成する。オーディオ符号化ストリームとビデオ符号化ストリームを多重化して一つのストリームとすることもできる。符号化処理ブロック200により生成されたオーディオ符号化ストリームとビデオ符号化ストリームは、通信部270によってパケット化され、ネットワーク300を介してチャットの相手先に送信される。
通信部270は、ネットワーク300を介してチャットの相手先からオーディオ符号化ストリームおよびビデオ符号化ストリームのパケットを受信し、復号処理ブロック220に供給する。復号処理ブロック220は、受信されたオーディオ符号化ストリームおよびビデオ符号化ストリームを復号してオーディオとビデオを再生し、それぞれスピーカ250とディスプレイ260に出力する。
図3は、符号化処理ブロック200の構成図である。同図は機能に着目したブロック図を描いており、これらの機能ブロックはハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現することができる。
カメラ240により撮像された動画の各フレームはフレームメモリ10に蓄積される。表示制御部14は、ディスプレイ260の垂直同期信号に合わせてフレームメモリ10からフレームを読み出し、ディスプレイ260に表示させる。
顔領域検出部12は、フレームメモリ10に格納されたフレームにおいて人間の顔が映し出されている領域を検出する。この顔領域検出には既存技術を用いる。あらかじめ人間の顔の特徴パターンをいくつか用意しておき、特徴パターンと類似する特徴を有する領域をフレーム内で探索することにより、顔領域を検出する。顔の特徴は、たとえば、エッジ抽出処理によって、顔の輪郭や、目、鼻、口などの特徴部位の形や位置を抽出することによって得られる。
顔領域は複数検出されることがある。顔領域検出部12は、顔領域毎にその領域の位置情報を生成する。顔領域が矩形領域であれば、領域の位置情報は、たとえば、代表点である左隅点の座標値と領域の縦横サイズで表される。顔領域検出部12は、このようにして公知の顔検出アルゴリズムにより検出された顔領域の個数と位置情報をROI特定部18に与える。
ROI特定部18は、まず、顔領域検出部12による顔領域検出結果の妥当性を検証する。フレームに顔が映し出されていても、顔検出アルゴリズムによって顔領域として検出されるとは限られず、また、顔が映し出されていないにもかかわらず、誤って顔領域であると判定されることもある。これは、カメラ240の処理性能や撮影解像度に限界があり、ユーザの速い動きに追随できないことや、ユーザが横を向いたために顔検出処理において顔の特徴が拾えなくなることなどによる。そこで、顔検出の精度を高めるために、顔らしさを示すスコアを評価して誤検出を少なくしたり、顔領域の検出履歴を利用して、検出漏れを防ぐ工夫がなされる。顔検出の精度向上の工夫については後述する。
次に、ROI特定部18は、妥当性が検証された顔領域にもとづいて、視覚上の品質を向上させたい領域を注目領域として特定する。顔領域を中心としてその周辺領域も含む領域を注目領域として設定してもよい。たとえば、検出された顔領域に対して、顔と上半身を含む領域を注目領域とする。
注目領域は矩形形状に限られず、任意の形状であってもよい。注目領域の形状はマスク情報で指定される。たとえば、マスク情報によりハート型の形状が指定された場合、ROI特定部18は、顔領域検出部12により検出された顔領域を中心としてハート型の領域を注目領域として特定する。
ROI特定部18は、注目領域の個数と位置情報を含むROI情報を生成して、非ROIフィルタ22およびビデオエンコーダ24に与える。さらに、ROI特定部18は、多重化ストリームにROI情報を含めたい場合は、ROI情報を多重化部32に与える。ROI情報を多重化ストリームに含めることはオプションである。たとえば、受信側でROI情報を利用したい場合に、ROI情報を多重化ストリームに含めればよい。
ビデオエンコーダ24による動画符号化の際、非注目領域は低ビット割り当て領域、注目領域は高ビット割り当て領域となる。すなわち、非注目領域に比べて注目領域にはビット数を多く割り当てて符号化することで、注目領域の品質を非注目領域の品質よりも高くする。このために、ROI特定部18は、非注目領域に割り当てられるビット数に対する注目領域に割り当てられるビット数の比を示すビット割り当て強度βを決め、ビット割り当て強度βをビデオエンコーダ24に与える。ビット割り当て強度βは1以上の値を取り、βが1の場合は、非注目領域と注目領域でビット割り当て量は同じであり、βが1より大きい場合は、βの大きさに応じて非注目領域のビット割り当て量を削ることで、相対的に注目領域のビット割り当て量を増やす。
さらに、ROI特定部18は、非注目領域を注目領域に比べて画像をぼかす程度を示すぼかし強度γを決め、ぼかし強度γを非ROIフィルタ22に与える。非ROIフィルタ22は、ぼかし強度γにもとづいて高周波成分を除去するフィルタリングを非注目領域に施すことで、非注目領域を視覚的にぼかす。ぼかし強度γは1以上の値をとり、γが1の場合は、ぼかし処理はせず、γが1以上の場合は、γの大きさに応じてぼかし処理の程度を大きくする。
帯域情報取得部20は、通信部270から通信経路のビットレートや輻輳状態などの帯域情報を取得し、ROI特定部18およびビデオエンコーダ24に取得された帯域情報を与える。ROI特定部18は、帯域情報を参照して、ビット割り当て強度βとぼかし強度γを加減する。ビデオエンコーダ24は、帯域情報を参照してビデオストリームのビットレートを適応的に調整する。
ビデオエンコーダ24は、非ROIフィルタ22からフィルタリング後の画像を受け取り、一例として、MPEG規格にしたがって、ビデオデータを圧縮符号化し、符号化ビデオストリームを生成する。ビデオエンコーダ24は、ROI特定部18から受け取ったROI情報を参照して注目領域を特定し、非注目領域と注目領域をビット割り当て強度βにもとづいた品質で符号化し、符号化ビデオストリームをビデオパケット化部26に与える。
オーディオエンコーダ28は、一例として、MPEGオーディオなどの規格にしたがって、マイク230から入力されたオーディオデータを圧縮符号化し、符号化オーディオストリームを生成し、オーディオパケット化部30に与える。
ビデオエンコーダ24およびオーディオエンコーダ28により符号化されたストリームは、エレメンタリストリーム(Elementary Stream;ES)と呼ばれる。多重化のために、ビデオおよびオーディオの各ストリームはパケット化される。
ビデオパケット化部26は、たとえば、ビデオエンコーダ24から出力される符号化ビデオストリームをRTP(Real-time Transport Protocol)パケットにパケット化する。同様に、オーディオパケット化部30は、オーディオエンコーダ28から出力される符号化オーディオストリームをRTPパケットにパケット化する。RTPはビデオやオーディオをストリーム配信するための伝送プロトコルである。なお、符号化ビデオ/オーディオストリームをPES(Packetized Elementary Stream)パケットにパケット化してもよい。
多重化部32は、ビデオおよびオーディオのRTPパケットを多重化して多重化ストリームを生成する。生成された多重化ストリームは、通信部270によりネットワーク300に送出される。
図4は、ROI特定部18の機能構成図である。顔検証部40は、顔領域検出部12によってフレーム単位で検出された顔領域について、顔の位置、顔の大きさ、および顔らしさのスコアの情報を顔領域検出部12から受け取る。顔らしさのスコアは、顔検出アルゴリズムにおいて抽出された顔の特徴をもつ画像が本当に顔である可能性がどれくらいであるかを示す度合いである。顔検証部40は、顔の位置と大きさ、顔らしさのスコアにもとづいて顔領域検出部12により検出された顔領域の妥当性を検証する。顔検証部40は、顔検証処理において妥当であると判定された顔領域の情報をフレーム単位で顔領域履歴記憶部44に履歴として記録する。顔検証部40は、顔検証処理に合格した顔領域の情報をROI決定処理部46に与える。
トラッキング部42は、顔領域検出部12による顔領域の誤検出や検出漏れをなくすために、顔領域履歴記憶部44に記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正する。
トラッキング部42は、あるフレームにおいて顔領域が検出された場合であっても、当該フレーム以降の所定の枚数以上の連続するフレームにおいて当該顔領域が連続して検出されていない場合は、当該フレームにおいて検出された顔領域の検出履歴を無効と判定し、顔領域履歴記憶部44から削除する。これにより、顔領域の情報は、所定の枚数以上の連続するフレームにおいて連続してその顔領域が検出された場合に、有効な検出履歴として顔領域履歴記憶部44に保持されることになる。
一方、トラッキング部42は、顔領域履歴記憶部44に検出履歴が存在する顔領域について、所定の枚数以上の連続するフレームにおいて当該顔領域が検出されない状態が続いた場合は、その顔領域はもはや存在しないことが確実であるから、当該顔領域の検出履歴は不要であると判定し、顔領域履歴記憶部44から削除する。
トラッキング部42は、顔検証部40による顔検証処理に合格した顔領域であっても、それが過去のフレームにおける顔領域の検出履歴と整合しない場合は、誤検出であったと判定する。たとえば、顔領域の位置や大きさが過去のフレームにおける顔領域の位置や大きさと著しく異なる場合、整合性がないと判定する。
トラッキング部42は、あるフレームにおいて検出された顔領域が誤検出かどうかを過去のフレームにおける検出履歴だけで判定するのではなく、判定対象のフレーム以降のフレームにおいて検出される顔領域の情報も参照して、誤検出かどうかを判定してもよい。誤検出の顔領域の履歴が将来にわたって存在すると、将来のフレームにおける顔領域の判定結果に影響を及ぼすため、遡って顔領域の検出履歴を無効化することがより好ましいからである。
具体的には、トラッキング部42は、あるフレームにおける顔領域の検出結果を当該フレームの前後の所定枚数のフレームにおける顔領域の検出履歴と照合して、当該フレームにおいて検出された顔領域が誤検出であるか否かを判定する。たとえば、トラッキング部42は、あるフレームにおいて検出された顔領域と当該フレームの前後のフレームにおいて検出された顔領域とを顔の位置や大きさについて照合し、位置や大きさが所定の閾値以上異なるとき、当該フレームにおいて検出された顔領域は誤検出であると判定する。
トラッキング部42は、誤検出と判定された顔領域の検出履歴を顔領域履歴記憶部44から削除し、顔検証部40に誤判定を警告する。顔検証部40は、トラッキング部42から誤判定の警告を受けた場合、顔検証処理に合格した顔領域であっても破棄して、ROI決定処理部46に与えない。
また、トラッキング部42は、顔領域検出部12が現在のフレームで顔領域を検出していなかった場合でも、顔領域履歴記憶部44に記録された過去のフレームの顔領域の検出履歴が有効に存在し、過去のフレームでは顔領域が検出されていた場合は、現在のフレームにおいて顔領域の検出漏れが起きたと判定する。トラッキング部42は、過去のフレームの顔領域の位置や大きさの情報を、現在のフレームの顔領域の位置や大きさの情報として再利用することにより、検出漏れのあった現在のフレームについての顔領域の情報を補間する。過去の数フレーム分の顔領域の位置や大きさから、検出漏れのあった現在のフレームの顔領域の位置や大きさを決定してもよい。トラッキング部42は、このようにして補間された現在のフレームの顔領域の情報を顔領域履歴記憶部44に記録するとともに、顔検証部40に検出漏れを警告する。顔検証部40は、トラッキング部42から検出漏れの警告を受けた場合、顔領域履歴記憶部44から補間された現在のフレームの顔領域の情報を読み出し、ROI決定処理部46に与える。
たとえば、ユーザが一時的に横を向いたり、後ろを向くなどの動作を行った場合、既存の顔検出アルゴリズムでは顔領域が検出されないフレームが生じることがある。このような場合でも、顔領域検出部12による顔領域の検出漏れのあったフレームについて、トラッキング部42が過去のフレームの顔領域の検出結果を再利用して埋め合わせることで、注目領域の設定漏れが生じることを防ぐことができる。
さらに、トラッキング部42により追跡される顔領域の位置に合わせて、撮像制御部がカメラ240のパン・チルトを制御してもよい。また、トラッキング部42により追跡される顔領域の大きさに合わせて、撮像制御部がカメラ240のズームを制御してもよい。ユーザが動いても、カメラ240がパン・チルトすることでユーザの顔を捉えることができる。また、カメラとユーザの間の距離が変化しても、ズームイン、ズームアウトにより画面内でユーザの顔を一定の大きさにすることができる。
ROI決定処理部46は、判断基準記憶部48に記憶された判断基準にもとづいて、顔検証部40による検証処理を経た顔領域の情報から最終的な注目領域を決定する。注目領域は、アプリケーションやユースケースに応じて決定される。ROI決定処理部46は、いったんあるフレームで注目領域を決定すると、その後、しばらくの間、新たに注目領域を判断して更新することはせず、同じ注目領域を継続して用いてもよい。たとえば、フレーム毎に注目領域を決定し直すのではなく、GOP(group of picture)の単位で同じ注目領域を用いて、GOPの変わり目で注目領域を再設定するようにしてもよい。これにより、ROI決定処理による負荷を軽減することができ、また、ROI情報をGOP単位で生成するだけで済む。
ROI決定処理部46は、最終的に決定された注目領域の個数や位置情報を含むROI情報を非ROIフィルタ22、ビデオエンコーダ24および多重化部32に与える。適当な注目領域を決定できなかった場合は、非ROIフィルタ22によるフィルタリングやビデオエンコーダ24によるROI符号化は行われず、従来通りのビデオ符号化が行われる。
ROIパラメータ調整部50は、ROI決定処理部46により最終決定された注目領域についてビット割り当て強度β、ぼかし強度γなどのROIパラメータを決定する。複数の注目領域がある場合は、注目領域間で優先順位を決定し、優先度に応じて注目領域に割り当てるビット量を決定してもよい。
注目領域のサイズに応じてビット割り当て強度βやぼかし強度γを決めてもよい。注目領域のサイズが大きい場合は、ビット割り当て強度βを大きくしすぎると、ビデオストリームのビットレートが高くなってしまう。そこで、大きな注目領域に対してはビット割り当て強度βを小さくすることで、ビデオストリームのビットレートを最適化する。また、極端に小さな顔領域や極端に大きな顔領域は強調表示することによる効果が期待できないこともあるため、そのような場合はビット割り当て強度βやぼかし強度γを小さくしてもよい。
また、注目領域の位置に応じてビット割り当て強度βやぼかし強度γを決めてもよい。たとえば、画像の端に注目領域がある場合、強調表示することによる効果は少ないことがあるため、ビット割り当て強度βやぼかし強度γを小さし、画像の中央付近に注目領域がある場合、強調表示することによる効果が期待できるため、ビット割り当て強度βやぼかし強度γを大きくする。
さらに、顔らしさのスコアに応じてビット割り当て強度βやぼかし強度γを決めてもよい。顔らしさのスコアが大きい場合は、顔領域を強調表示することの効果が期待できるため、ビット割り当て強度βやぼかし強度γを大きくするが、顔らしさのスコアが低い場合は、逆効果になるおそれもあるので、ビット割り当て強度βやぼかし強度γを小さくする。
ROIパラメータ調整部50は、帯域情報取得部20から受け取る帯域情報にもとづいて、ビット割り当て強度βとぼかし強度γを加減することもできる。たとえば、ネットワークの帯域がもともと大きかったり、輻輳していないため、十分な利用可能帯域があるなど、動画のフレームサイズおよびフレームレートに対して十分なビットレートが保証されている場合は、非注目領域のビット割り当てを減らす必要はなく、注目領域と非注目領域の区別に関係なく、画像全体を高ビット割り当て領域として符号化してもよい。その場合は、ビット割り当て強度βを1として、ぼかし強度γを1とする。
逆に、ネットワークの帯域に制限があったり、輻輳により利用可能な帯域が少なくなっているなど、動画のフレームサイズおよびフレームレートに対して十分なビットレートが保証できない場合は、ビット割り当て強度βとぼかし強度γを大きい値に調整することで、使用帯域幅を減らす。
ROIパラメータ調整部50は、ビット割り当て強度βをビデオエンコーダ24に、ぼかし強度γを非ROIフィルタ22に与える。
次に、図3の非ROIフィルタ22によるフィルタ処理を詳しく説明する。非ROIフィルタ22は、低域通過フィルタリングを非注目領域の施すことで、非注目領域をぼかし、相対的に注目領域を際立たせる。一般に、周波数領域で画像を圧縮符号化すると、ビットレートが低いほどブロックノイズが増大する。ビデオエンコーダ24において非注目領域は注目領域に比べて少ない割り当てビット数で符号化されるため、ブロックノイズが生じやすくなる。そこで、非注目領域については、非ROIフィルタ22が高周波成分を除去するフィルタリングを施すことで、ブロックノイズを低減させる効果が得られる。非ROIフィルタ22によるフィルタリングには、注目領域以外の領域を視覚的にぼかす以外に、ブロックノイズを低減させる作用が副次的に存在する。
また、非ROIフィルタリングにより、非注目領域から高周波成分が除去されるため、結果的には、ビットレート一定の条件下で、注目領域に割り当てることのできるビット数を増やす効果も得られる。
注目領域と非注目領域は重なりをもたない排他的な領域であり、非ROIフィルタ22が、非注目領域440をぼかす処理をすると、注目領域420と非注目領域440の境界で画質が非連続に変化し、注目領域420だけが必要以上に際立ち、不自然な印象を与えることがある。そこで、注目領域と非注目領域の境界における非連続性をなくす工夫をする。
図5(a)〜(c)は、注目領域と非注目領域の境界における非連続性をなくす方法を説明する図である。図5(a)に示すように、画像400の中央の太線で囲まれた領域は注目領域420であり、それ以外の残りの領域は非注目領域440である。注目領域420の外側の縁に周辺領域430(斜線を付した領域)を設定する。周辺領域430は非注目領域440内に存在する。
注目領域420は、ビデオエンコーダ24によってビット割り当て強度βのもとで高画質でROI符号化される。一方、非注目領域440は、非ROIフィルタ22によってぼかし強度γのもとで高周波成分がカットされる。注目領域420の外側の縁に設けられた周辺領域430は、非注目領域440内に存在するため、非ROIフィルタ22によってぼかし強度γのもとで高周波成分がカットされるが、周辺領域430については、ビット割り当て強度βのもとでのROI符号化も合わせて行う。すなわち、周辺領域430においては、ぼかす処理と画質を上げる処理とを重複させる。周辺領域430は、ROI符号化されるとともに、高周波成分がカットされるため、注目領域と非注目領域の中間の画質になる。注目領域と非注目領域の境界付近にある周辺領域430が中間の画質になることから、注目領域と非注目領域の変わり目の不自然さを軽減できる。
別の方法として、非ROIフィルタ22は、周辺領域430において段階的にぼかし強度γを大きくしながらフィルタリングを施すことで、画質を連続的に変化させてもよい。このために、フィルタリングの対象画素に対して近い位置にある周辺画素には大きな重みを、対象画素に対して遠い位置にある周辺画素には小さい重みを付けた加重平均を取る非一様フィルタ、一例としてガウシアン・フィルタを利用してもよい。
図5(b)に示すように、注目領域420の内側の縁に周辺領域430を設けてもよい。この場合、周辺領域430は、注目領域420内に存在するため、ビット割り当て強度βのもとでROI符号化されるが、周辺領域430については、ぼかし強度γのもとで高周波成分をカットする処理も合わせて行う。あるいは、図5(c)のように、注目領域420の外側の縁と内側の縁の両方にまたがって周辺領域430を設け、周辺領域430において画質を上げる処理とぼかす処理とを重複して行うようにしてもよい。
図6は、符号化処理ブロック200によるROI符号化の処理手順を説明するフローチャートである。
顔領域検出部12は、現在のフレームについて顔領域検出処理を実行する(S10)。顔領域検出部12によって顔が検出された場合(S12のY)、ステップS14の顔検証処理に進む。顔領域検出部12によって顔が検出されなかった場合(S12のN)、ステップS18のトラッキングによる顔補間処理に進む。
ステップS14において、顔検証部40は、顔領域検出部12により検出された顔領域が妥当なものであるかどうかを検証する。トラッキング部42は、顔検証部40による検証済みの顔領域について、トラッキングによる誤検出判定処理を実行する(S15)。これにより検証済みの顔領域の内、誤検出されたものは破棄される。顔検証部40による検証処理に合格した顔の個数が0である場合(S16のN)、ステップS18のトラッキングによる顔補間処理に進む。検証処理に合格した顔の個数が1以上である場合(S16のY)、ステップS24のROI決定処理に進む。
ステップS18において、トラッキング部42は、過去のフレームの顔領域の情報を参照して、トラッキングによる顔補間処理を実行し、現在のフレームにおいて欠落した顔領域の情報を補間する。補間された顔の個数が1以上である場合(S20のY)、ステップS24のROI決定処理に進むが、補間された顔の個数が0である場合(S20のN)、ステップS22に進み、この場合、注目領域を設定しない。
ステップS24において、ROI決定処理部46は、ステップS14の検証処理に合格したか、あるいはトラッキングにより補間された顔領域をもとに、最終的な注目領域を決定し、ステップS26において、ROIパラメータ調整部50は、注目領域と非注目領域の画質を異ならせるためのROIパラメータを調整する。
次のフレームが入力されると(S28のY)、ステップS10に戻って、一連の処理を繰り返し、フレームの入力がない場合(S28のN)、処理を終了する。
図7は、図6のステップS14の顔検証処理の手順を説明するフローチャートである。顔領域検出部12により検出された顔領域をすべて検証するまで(S30のN)、ステップS32〜S38の処理を繰り返し、検出された顔領域をすべて検証すると(S30のY)、顔検証処理を終了し、ステップS15に進む。
顔検証部40は、顔領域に含まれる顔の大きさが妥当であるかどうか(S32)、顔の位置が妥当であるかどうか(S34)、顔らしさのスコアは閾値より大きいかどうか(S36)をテストする。いずれかのテストに不合格の場合(S32のN、S34のN、またはS36のN)、ステップS30に戻る。これらのテストにすべて合格した場合(S32のY、S34のY、およびS36のY)、検証に合格した顔領域としてその情報を顔領域履歴記憶部44に保存する(S38)。
顔の大きさのテストでは、顔の大きさが想定するサイズの範囲にあるかどうかを判定する。たとえば、顔の大きさが大きすぎたり、小さすぎる場合は、顔領域として採用しない。顔の位置のテストでは、顔の位置が想定する位置の範囲にあるかどうかを判定する。たとえば、画像の端の方にある場合は顔領域として採用しない。顔らしさのスコアのテストでは、顔らしさのスコアが想定する値の範囲であるかどうかを判定し、スコアが想定外に低い場合は顔領域として採用しない。
図8は、図6のステップS15のトラッキングによる誤検出判定処理の手順を説明するフローチャートである。顔検証部40による検証済みの顔領域をすべてチェックするまで(S50のN)、ステップS52〜S58の処理を繰り返し、検証済みの顔領域をすべてチェックし終わると(S50のY)、誤検出判定処理を終了し、ステップS16に進む。
トラッキング部42は、検証済みの顔領域が所定の枚数以上の連続するフレームにおいて連続して検出されているかどうかを調べる(S52)。当該顔領域が連続して検出されていた場合(S52のY)、ステップS56に進む。当該顔領域が連続して検出されていない場合(S52のN)、当該顔領域の検出履歴は無効であると判定し、顔領域履歴記憶部44から削除する(S54)。
次に、トラッキング部42は、検証済みの顔領域が過去のフレームにおける顔領域の検出履歴と整合するかどうかを調べる(S56)。当該顔領域が過去のフレームの検出履歴と整合する場合(S56のY)、ステップS50に戻る。当該顔領域が過去のフレームの検出履歴と整合しない場合(S56のN)、当該顔領域は誤検出であると判定し、誤検出と判定した顔領域の検出履歴を顔領域履歴記憶部44から削除する(S58)。
図9は、図6のステップS18のトラッキングによる顔補間処理の手順を説明するフローチャートである。顔領域履歴記憶部44に履歴として記録された顔情報をすべてチェックするまで(S40のN)、ステップS42〜S46の処理を繰り返し、履歴にある顔情報をすべてチェックし終わると(S40のY)、顔補間処理を終了し、ステップS20に進む。
トラッキング部42は、顔が検出されなかったフレーム数を調べる(S42)。顔が検出されなかったフレーム数が閾値以下である場合(S42のN)、ステップS46の顔補間処理に進む。この閾値はたとえば、フレームレートに応じて実験的に決められる。たとえば、フレームレートが毎秒30フレームであれば、フレームレートの1/10を目安に閾値を1〜3フレームに設定する。
ステップS46において、過去のフレームでは顔が検出されていたが、現在のフレームでは顔が検出されなかった場合は、検出漏れであると判断し、過去のフレームで検出された位置に現在のフレームでも顔があるものとして、過去のフレームの顔の位置や大きさの情報を再利用して現在のフレームの顔情報を補間し、現在のフレームの顔情報として保存する(S46)。動画の動きベクトルの情報を利用して、過去のフレームの顔の位置から現在のフレームの顔の位置を時間方向に補間して求めてもよい。
顔が検出されなかったフレーム数が閾値より大きい場合(S42のY)、顔が検出されていない状態が続いていることから、顔領域は存在しないと判断し、顔情報の検出履歴を削除する(S44)。たとえば、毎秒30フレームのフレームレートの場合、フレームレートの1/10である3フレームを基準として、3フレーム以上、顔が検出されない場合は、その顔領域の情報を履歴から削除する。閾値を3フレームに設定したことにより、たまたま一枚のフレームにおいて顔領域の検出ミスがあった場合でも、誤って顔領域の履歴情報が削除されることはない。
次に、ROI決定処理部46による注目領域の決定方法について、例を挙げて詳しく説明する。
図10は、画像400内に注目領域が設定される様子を説明する図である。ユーザが自分の部屋でビデオチャットを利用しているとする。画像400内に第1の顔領域420aと第2の顔領域410bが検出される。第1の顔領域420aはユーザの顔410aを含む領域であるから注目領域として設定するべきであるが、第2の顔領域420bは、部屋の壁に貼られたポスターに写っている人物の顔が誤って検出されたものであるから、注目領域として設定すべきではない。
そこで、動きがない顔領域は、注目領域には選択しないという判断基準を設けてもよい。これにより、壁面のポスターに載っている人物の顔や、机上の写真立てに入っている写真の顔などが誤って注目領域として選択されることを防止することができる。動きがない顔領域を識別するために、トラッキング部42が、顔領域履歴記憶部44に保持された顔情報の履歴を調べ、顔領域の位置が過去のフレームと比べて変動しているかどうか、顔の目、鼻、口などの部位が画像上で変化しているかどうかを検出してもよい。顔検証部40がトラッキング部42による顔領域の動きの判定結果をROI決定処理部46に通知し、ROI決定処理部46が動きのない顔領域については注目領域に設定しないようにする。あるいは、トラッキング部42によって動きがないと判定された顔領域については、顔検証部40が最初から破棄し、ROI決定処理部46には供給しないようにしてもよい。
図11(a)、(b)は、ユーザが席を離れる場合における注目領域の決定方法を説明する図である。図11(a)のように、ユーザがカメラの前で席に座っている場合、ユーザの顔410を含む顔領域420が注目領域として決定される。ROI決定処理部46が、たとえばGOP単位で注目領域を管理している場合、同一GOP内では他のフレームでも同じ注目領域が用いられる。図11(b)のように、ユーザが席を離れた直後のフレームでは、同じ注目領域420が継続して使用されるため、ユーザが居るときは見えなかった、部屋の様子が高画質で通信相手のディスプレイに表示されることになる。
そこで、顔領域検出部12および顔検証部40によって顔領域が検出されなくなった場合は、GOPの途中であっても、強制的に注目領域を再設定するように、ROI決定処理部46に割り込み信号を与えるようにする。これにより、ユーザが居なくなった後で、部屋の様子が詳しく映し出されるといった不都合をなくすことができる。
後述のように、通信相手に見せたくない領域については、ユーザが禁止領域を設定可能にしておき、顔領域検出部12および顔検証部40によって禁止領域内に顔領域が検出された場合は、ROI決定処理部46は、禁止領域内であっても顔領域を注目領域に設定するが、禁止領域内から顔領域が検出されなくなった場合は、ただちに禁止領域に設定された注目領域を解除するように制御してもよい。
図12(a)、(b)は、ユーザが部屋を動き回る場合における注目領域の決定方法を説明する図である。図12(a)のように、ユーザが席に座っている間、検出された自分の顔410aを含む領域420aが注目領域に設定される。図12(b)のように、ユーザが一時的に席を離れて部屋を動き回るとき、検出される顔410cの移動に合わせて注目領域が設定されると、ユーザの移動によって自分の部屋の様子が明瞭に映し出されることになってしまう。そこで、画面の中央から離れた位置にある顔領域420cが検出されても、注目領域には選択しないという判断基準を設けてもよい。
また、画面の中央以外で検出された顔領域は注目領域としない基準を設ければ、自分以外の家族が部屋に入ってきても、家族の顔が注目領域に設定される心配がなくなるので、ユーザのプライバシーを保護するのにも役立つ。
図13(a)、(b)は、注目領域の設定を許可する領域、禁止する領域を指定する方法を説明する図である。図13(a)のように、ユーザが注目領域の設定を許可する領域450(ここでは、画面の中央の領域)をあらかじめ設定し、顔領域がユーザの設定した許可領域450内で検出された場合は、注目領域にするが、顔領域が許可領域450外で検出された場合は、注目領域とはしないという判断基準を設けてもよい。また、図13(b)のように、ユーザが注目領域の設定を禁止する領域460を設定できるようにしてもよい。ここでは、机の上の書類等が高画質で映し出されることのないよう、机の上の領域が禁止領域460に設定されている。
許可領域450で検出された顔領域を注目領域とするという基準、もしくは禁止領域460内で顔領域が検出されても注目領域としないという基準を設けることで、ユーザのプライバシーを保護したり、セキュリティを確保することができる。
次に、複数の顔領域が検出された場合の注目領域の判断基準を説明する。たとえば、以下の基準の少なくとも一つを満たす顔領域を注目領域に決定する。
(1)面積が最大の顔領域、
(2)画像の中央付近に存在する顔領域、
(3)顔らしさのスコアが最大である顔領域、または、
(4)顔領域の面積、位置、スコアをそれぞれ正規化し、それらの値の重み付け和が最大である顔領域。
別の判断基準として、以下のように注目領域を決定してもよい。
(5)顔領域をそれぞれ別の注目領域として採用、
(6)すべての顔領域を包含する領域を注目領域として採用、または、
(7)互いに近い位置にある顔領域を一つにまとめて注目領域として採用。
まず、図14(a)、(b)を参照して、顔領域が一つだけ検出された場合の注目領域の決定方法を説明する。図14(a)のように、画像400内に顔410が検出され、それを含む矩形の顔領域420が検出されたとする。このとき、この矩形の顔領域420をそのまま注目領域としてもよく、あるいは、図14(b)のように、顔410と上半身412を含む領域420を注目領域としてもよい。
図15(a)、(b)は、顔領域が複数検出された場合の注目領域の決定方法を説明する図である。図15(a)のように、検出された顔410a〜410cが近い位置にある、すなわち検出された顔領域が互いにある規定距離以内にある場合、それらの顔領域を包含する領域420を注目領域420とするが、図15(b)のように、検出された複数の顔領域が互いに離れている場合は、検出されたそれぞれの顔410a〜410cを包含する領域420a〜420cを別々の注目領域とする。なお、複数の顔領域が検出された場合でも、図14(b)のように、顔と上半身を含む領域を注目領域としてもよい。
図16(a)、(b)は、大きさの異なる顔領域が検出された場合の注目領域の決定方法を説明する図である。図16(a)のように、サイズの大きい顔410cと、サイズの小さい顔410a、410bとが検出された場合、サイズの大きい方の顔410cを包含する領域420を注目領域とする。図16(b)のように、二つの大きい顔410a、410bと、三つの小さい顔410c、410d、410eが検出された場合、二つの大きい顔410a、410bをそれぞれ包含する領域420a、420bを注目領域とする。判断基準の一例として、検出された複数の顔領域について、最大サイズと最小サイズの比が所定の閾値よりも大きい場合、最大サイズの顔領域を注目領域に設定する。2番目以降に大きなサイズの顔領域も注目領域に設定してもよい。
以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
実施の形態に係るチャットシステムの構成図である。 図1の情報処理装置の構成図である。 図2の符号化処理ブロックの構成図である。 図3のROI特定部の機能構成図である。 図5(a)〜(c)は、注目領域と非注目領域の境界における非連続性をなくす方法を説明する図である。 図3の符号化処理ブロックによるROI符号化の処理手順を説明するフローチャートである。 図6の顔検証処理の手順を説明するフローチャートである。 図6のトラッキングによる誤検出判定処理の手順を説明するフローチャートである。 図6のトラッキングによる顔補間処理の手順を説明するフローチャートである。 画像内に注目領域が設定される様子を説明する図である。 図11(a)、(b)は、ユーザが席を離れる場合における注目領域の決定方法を説明する図である。 図12(a)、(b)は、ユーザが部屋を動き回る場合における注目領域の決定方法を説明する図である。 図13(a)、(b)は、注目領域の設定を許可する領域、禁止する領域を指定する方法を説明する図である。 図14(a)、(b)は、顔領域が一つだけ検出された場合の注目領域の決定方法を説明する図である。 図15(a)、(b)は、顔領域が複数検出された場合の注目領域の決定方法を説明する図である。 図16(a)、(b)は、大きさの異なる顔領域が検出された場合の注目領域の決定方法を説明する図である。
符号の説明
10 フレームメモリ、 12 顔領域検出部、 14 表示制御部、 18 ROI特定部、 20 帯域情報取得部、 22 非ROIフィルタ、 24 ビデオエンコーダ、 26 ビデオパケット化部、 28 オーディオエンコーダ、 30 オーディオパケット化部、 32 多重化部、 40 顔検証部、 42 トラッキング部、 44 顔領域履歴記憶部、 46 ROI決定処理部、 48 判断基準記憶部、 50 ROIパラメータ調整部、 100 情報処理装置、 200 符号化処理ブロック、 220 復号処理ブロック、 230 マイク、 240 カメラ、 250 スピーカ、 260 ディスプレイ、 270 通信部、 300 ネットワーク。

Claims (10)

  1. 動画のフレームにおいて顔領域を検出する検出部と、
    検出された顔領域の履歴がフレーム単位で記録される記録部と、
    前記記録部に記録されたフレーム単位の顔領域の検出履歴を参照して、前記検出部により検出された顔領域を連続する複数のフレームにわたって追跡することにより、前記検出部による顔領域の検出結果を補正するトラッキング部と、
    前記トラッキング部により補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定部と、
    前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化部とを含むことを特徴とする符号化処理装置。
  2. 前記トラッキング部は、前記検出部があるフレームにおいて顔領域を検出した場合であっても、当該フレーム以降の所定の枚数以上の連続するフレームにおいて当該顔領域を連続して検出することがない場合は、当該フレームにおいて検出された顔領域の検出履歴を無効と判定し、前記記録部から削除することを特徴とする請求項1に記載の符号化処理装置。
  3. 前記トラッキング部は、前記記録部に検出履歴が存在する顔領域について、前記検出部が所定の枚数以上の連続するフレームにおいて当該顔領域を検出していない状態が続いた場合は、当該顔領域の検出履歴を不要と判定し、前記記録部から削除することを特徴とする請求項1または2に記載の符号化処理装置。
  4. 前記トラッキング部は、あるフレームにおける顔領域の検出結果を当該フレームの前後のフレームにおける顔領域の検出履歴と照合することにより、当該フレームにおいて検出された顔領域が誤検出であるか否かを判定し、誤検出であると判定された場合、当該フレームにおいて検出された顔領域の履歴を削除することを特徴とする請求項1から3のいずれかに記載の符号化処理装置。
  5. 前記トラッキング部は、あるフレームにおいて検出された顔領域と当該フレームの前後のフレームにおいて検出された顔領域とを顔の位置および大きさの少なくとも一方に関して照合することによって、当該フレームにおいて検出された顔領域が誤検出であるか否かを判定することを特徴とする請求項4に記載の符号化処理装置。
  6. 前記トラッキング部は、前記検出部が現在のフレームにおいて顔領域を検出していない場合でも、過去のフレームにおいて顔領域の検出履歴が有効に存在するなら、現フレームにおける顔領域の検出漏れであると判定し、過去のフレームの顔領域の位置の情報を、現フレームの顔領域の位置の情報として再利用することにより、検出漏れであると判定された現在のフレームの顔領域の情報を補間することを特徴とする請求項1から5のいずれかに記載の符号化処理装置。
  7. 前記トラッキング部により追跡される顔領域の位置に合わせて、顔を撮影するためのカメラの向きを制御する撮像制御部をさらに含むことを特徴とする請求項1から6のいずれかに記載の符号化処理装置。
  8. 前記トラッキング部により追跡される顔領域の大きさに合わせて、顔を撮影するためのカメラのズームを制御する撮像制御部をさらに含むことを特徴とする請求項1から6のいずれかに記載の符号化処理装置。
  9. 動画のフレームにおいて顔領域を検出するステップと、
    検出された顔領域の履歴がフレーム単位で記録するステップと、
    記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正するステップと、
    補正された顔領域にもとづいて所定の基準で注目領域を決定するステップと、
    前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成するステップとを含むことを特徴とする符号化処理方法。
  10. 動画のフレームにおいて顔領域を検出する検出機能と、
    検出された顔領域の履歴がフレーム単位で記録する記録機能と、
    記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正するトラッキング機能と、
    補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定機能と、
    前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化機能とをコンピュータに実現させることを特徴とするプログラム。
JP2007166203A 2007-06-25 2007-06-25 符号化処理装置および符号化処理方法 Active JP4863937B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007166203A JP4863937B2 (ja) 2007-06-25 2007-06-25 符号化処理装置および符号化処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007166203A JP4863937B2 (ja) 2007-06-25 2007-06-25 符号化処理装置および符号化処理方法

Publications (2)

Publication Number Publication Date
JP2009005239A true JP2009005239A (ja) 2009-01-08
JP4863937B2 JP4863937B2 (ja) 2012-01-25

Family

ID=40321108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007166203A Active JP4863937B2 (ja) 2007-06-25 2007-06-25 符号化処理装置および符号化処理方法

Country Status (1)

Country Link
JP (1) JP4863937B2 (ja)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010193441A (ja) * 2009-01-26 2010-09-02 Panasonic Corp 動画像処理装置、動画像処理方法および撮像装置
JP2011009982A (ja) * 2009-06-25 2011-01-13 Canon Inc 撮像装置
JP2011055291A (ja) * 2009-09-02 2011-03-17 Ricoh Co Ltd 映像表示装置及びプログラム
JP2011166637A (ja) * 2010-02-15 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 再生時間継続再生方法、映像配信要求方法、映像配信方法、映像再生方法、映像配信システムおよびプログラム
JP2012103742A (ja) * 2010-11-05 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> 画像処理装置、画像処理方法及び画像処理プログラムを記録した記録媒体
WO2012153661A1 (ja) * 2011-05-06 2012-11-15 シャープ株式会社 画像補正装置、画像補正表示装置、画像補正方法、プログラム、及び、記録媒体
JP2012257125A (ja) * 2011-06-09 2012-12-27 Canon Inc 画像処理装置、画像処理方法
CN104104860A (zh) * 2013-04-15 2014-10-15 欧姆龙株式会社 对象图像检测设备及其控制方法以及控制程序、记录介质
US8988490B2 (en) 2011-06-23 2015-03-24 Sony Corporation Information processing apparatus, information processing method, program, and server
JP2015136069A (ja) * 2014-01-17 2015-07-27 日本電信電話株式会社 映像配信システム、映像配信方法及び映像配信プログラム
US9210433B2 (en) 2011-06-13 2015-12-08 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2016100771A (ja) * 2014-11-21 2016-05-30 三菱電機株式会社 動画像処理装置、監視システム及び動画像処理方法
JP2018525651A (ja) * 2015-05-13 2018-09-06 浙江吉利控股集団有限公司Zhejiang Geely Holding Group Co.,Ltd. スマートグラス
JP2019009508A (ja) * 2017-06-20 2019-01-17 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、監視システム
JP2019012497A (ja) * 2017-07-03 2019-01-24 富士通株式会社 部位認識方法、装置、プログラム、及び撮像制御システム
JP2019087883A (ja) * 2017-11-07 2019-06-06 沖電気工業株式会社 符号化装置及びプログラム、並びに、画像処理システム
WO2019146123A1 (ja) * 2018-01-29 2019-08-01 日本電気株式会社 覚醒度推定装置、覚醒度推定方法、及びコンピュータ読み取り可能な記録媒体
JP2019180080A (ja) * 2018-03-30 2019-10-17 株式会社リコー 映像処理装置、通信端末、テレビ会議システム、映像処理方法、およびプログラム
CN110378181A (zh) * 2018-04-13 2019-10-25 欧姆龙株式会社 图像解析装置、图像解析方法及记录介质
CN111656785A (zh) * 2019-06-28 2020-09-11 深圳市大疆创新科技有限公司 可移动平台的图像处理方法、装置、可移动平台及介质
JP2020198476A (ja) * 2019-05-30 2020-12-10 株式会社リコー 画像処理装置、プログラム、及び画像処理方法
WO2021171702A1 (ja) * 2020-02-27 2021-09-02 コニカミノルタ株式会社 人判定システムおよび人判定プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102343648B1 (ko) 2017-08-29 2021-12-24 삼성전자주식회사 영상 부호화 장치 및 영상 부호화 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099691A (ja) * 1998-09-18 2000-04-07 Toshiba Corp 人物撮影装置
JP2002238060A (ja) * 2001-02-07 2002-08-23 Sony Corp 画像符号化方法、画像符号化装置、プログラムおよび記録媒体
JP2003219396A (ja) * 2002-01-17 2003-07-31 Matsushita Electric Ind Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び監視システム
JP2004234355A (ja) * 2003-01-30 2004-08-19 Toshiba Corp 人物認識装置、人物認識方法および通行制御装置
JP2006338611A (ja) * 2005-06-06 2006-12-14 Matsushita Electric Ind Co Ltd 移動物体検出装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099691A (ja) * 1998-09-18 2000-04-07 Toshiba Corp 人物撮影装置
JP2002238060A (ja) * 2001-02-07 2002-08-23 Sony Corp 画像符号化方法、画像符号化装置、プログラムおよび記録媒体
JP2003219396A (ja) * 2002-01-17 2003-07-31 Matsushita Electric Ind Co Ltd 画像処理方法、画像処理装置、画像処理プログラム及び監視システム
JP2004234355A (ja) * 2003-01-30 2004-08-19 Toshiba Corp 人物認識装置、人物認識方法および通行制御装置
JP2006338611A (ja) * 2005-06-06 2006-12-14 Matsushita Electric Ind Co Ltd 移動物体検出装置

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010193441A (ja) * 2009-01-26 2010-09-02 Panasonic Corp 動画像処理装置、動画像処理方法および撮像装置
JP2011009982A (ja) * 2009-06-25 2011-01-13 Canon Inc 撮像装置
JP2011055291A (ja) * 2009-09-02 2011-03-17 Ricoh Co Ltd 映像表示装置及びプログラム
JP2011166637A (ja) * 2010-02-15 2011-08-25 Nippon Telegr & Teleph Corp <Ntt> 再生時間継続再生方法、映像配信要求方法、映像配信方法、映像再生方法、映像配信システムおよびプログラム
JP2012103742A (ja) * 2010-11-05 2012-05-31 Nippon Telegr & Teleph Corp <Ntt> 画像処理装置、画像処理方法及び画像処理プログラムを記録した記録媒体
WO2012153661A1 (ja) * 2011-05-06 2012-11-15 シャープ株式会社 画像補正装置、画像補正表示装置、画像補正方法、プログラム、及び、記録媒体
US9183446B2 (en) 2011-06-09 2015-11-10 Canon Kabushiki Kaisha Image processing apparatus and image processing method
JP2012257125A (ja) * 2011-06-09 2012-12-27 Canon Inc 画像処理装置、画像処理方法
US9210433B2 (en) 2011-06-13 2015-12-08 Canon Kabushiki Kaisha Image processing apparatus and image processing method
US8988490B2 (en) 2011-06-23 2015-03-24 Sony Corporation Information processing apparatus, information processing method, program, and server
US10986312B2 (en) 2011-06-23 2021-04-20 Sony Corporation Information processing apparatus, information processing method, program, and server
US10158829B2 (en) 2011-06-23 2018-12-18 Sony Corporation Information processing apparatus, information processing method, program, and server
US10182209B2 (en) 2011-06-23 2019-01-15 Sony Corporation Information processing apparatus, information processing method, program, and server
EP2793166A2 (en) 2013-04-15 2014-10-22 Omron Corporation Target-image detecting device, control method and control program thereof, recording medium, and digital camera
US9430710B2 (en) 2013-04-15 2016-08-30 Omron Corporation Target-image detecting device, control method and control program thereof, recording medium, and digital camera
CN104104860B (zh) * 2013-04-15 2017-11-10 欧姆龙株式会社 对象图像检测设备及其控制方法以及控制程序、记录介质
CN104104860A (zh) * 2013-04-15 2014-10-15 欧姆龙株式会社 对象图像检测设备及其控制方法以及控制程序、记录介质
JP2015136069A (ja) * 2014-01-17 2015-07-27 日本電信電話株式会社 映像配信システム、映像配信方法及び映像配信プログラム
JP2016100771A (ja) * 2014-11-21 2016-05-30 三菱電機株式会社 動画像処理装置、監視システム及び動画像処理方法
JP2018525651A (ja) * 2015-05-13 2018-09-06 浙江吉利控股集団有限公司Zhejiang Geely Holding Group Co.,Ltd. スマートグラス
JP2019009508A (ja) * 2017-06-20 2019-01-17 キヤノン株式会社 画像処理装置およびその制御方法、撮像装置、監視システム
JP2019012497A (ja) * 2017-07-03 2019-01-24 富士通株式会社 部位認識方法、装置、プログラム、及び撮像制御システム
JP2019087883A (ja) * 2017-11-07 2019-06-06 沖電気工業株式会社 符号化装置及びプログラム、並びに、画像処理システム
JP7043797B2 (ja) 2017-11-07 2022-03-30 沖電気工業株式会社 符号化装置及びプログラム、並びに、画像処理システム
WO2019146123A1 (ja) * 2018-01-29 2019-08-01 日本電気株式会社 覚醒度推定装置、覚醒度推定方法、及びコンピュータ読み取り可能な記録媒体
JPWO2019146123A1 (ja) * 2018-01-29 2021-01-14 日本電気株式会社 覚醒度推定装置、覚醒度推定方法、及びプログラム
JP2019180080A (ja) * 2018-03-30 2019-10-17 株式会社リコー 映像処理装置、通信端末、テレビ会議システム、映像処理方法、およびプログラム
CN110378181A (zh) * 2018-04-13 2019-10-25 欧姆龙株式会社 图像解析装置、图像解析方法及记录介质
JP2020198476A (ja) * 2019-05-30 2020-12-10 株式会社リコー 画像処理装置、プログラム、及び画像処理方法
JP7287118B2 (ja) 2019-05-30 2023-06-06 株式会社リコー 画像処理装置、プログラム、及び画像処理方法
CN111656785A (zh) * 2019-06-28 2020-09-11 深圳市大疆创新科技有限公司 可移动平台的图像处理方法、装置、可移动平台及介质
WO2021171702A1 (ja) * 2020-02-27 2021-09-02 コニカミノルタ株式会社 人判定システムおよび人判定プログラム
JP7472964B2 (ja) 2020-02-27 2024-04-23 コニカミノルタ株式会社 人判定システムおよび人判定プログラム

Also Published As

Publication number Publication date
JP4863937B2 (ja) 2012-01-25

Similar Documents

Publication Publication Date Title
JP4863937B2 (ja) 符号化処理装置および符号化処理方法
JP4863936B2 (ja) 符号化処理装置および符号化処理方法
EP2556464B1 (en) Skin tone and feature detection for video conferencing compression
JP3870124B2 (ja) 画像処理装置及びその方法、並びにコンピュータプログラム及びコンピュータ可読記憶媒体
US8130257B2 (en) Speaker and person backlighting for improved AEC and AGC
US8379074B2 (en) Method and system of tracking and stabilizing an image transmitted using video telephony
US7911513B2 (en) Simulating short depth of field to maximize privacy in videotelephony
US9264679B2 (en) Maintaining distortion-free projection from a mobile device
AU2010350738A1 (en) Skin tone and feature detection for video conferencing compression
WO2016019817A1 (zh) 物体运动轨迹拍摄方法、系统及计算机存储介质
US20110310214A1 (en) Videoconferencing System with Enhanced Telepresence Using a Single Wide Aspect Ratio Camera
CN112672174B (zh) 分屏直播方法、采集设备、播放设备及存储介质
JP3046379B2 (ja) 画像符号化装置
US20220199120A1 (en) Image processing device, image processing method, and image processing program
WO2010070820A1 (ja) 画像通信装置及び画像通信方法
EP3884461B1 (en) Selective distortion or deformation correction in images from a camera with a wide angle lens
JP2008005349A (ja) 映像符号化装置、映像伝送装置、映像符号化方法及び映像伝送方法
US10848769B2 (en) Method and system for encoding video streams
KR101921070B1 (ko) 비트스트림 기반의 움직임 검출 장치 및 방법
JP2006197096A (ja) テレビ電話装置
JP2009118151A (ja) 通信システム、送信装置、中継装置、受信装置及び送信プログラム
JP5004680B2 (ja) 画像処理装置、画像処理方法、テレビ会議システム、テレビ会議方法、プログラムおよび記録媒体
JP2004193661A (ja) 双方向コミュニケーションシステム,映像通信装置,および映像通信装置の撮影処理制御方法
JP6627459B2 (ja) 情報送信装置、情報処理システム、送信方法およびプログラム
JP2002262138A (ja) 撮像システム、テレビ会議システム、監視システムおよび撮像機能を有した情報端末機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100603

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20101125

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110127

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111003

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111108

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4863937

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250