JP2009005239A

JP2009005239A - 符号化処理装置および符号化処理方法

Info

Publication number: JP2009005239A
Application number: JP2007166203A
Authority: JP
Inventors: Tetsuya Yamamoto; 哲也山本; Daizo Nagahara; 大三長原
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2007-06-25
Filing date: 2007-06-25
Publication date: 2009-01-08
Anticipated expiration: 2027-06-25
Also published as: JP4863937B2

Abstract

【課題】ビデオを用いたチャットにおいて、ユーザの顔領域が誤検出されることがある。
【解決手段】顔領域検出部１２は、動画のフレームにおいて顔領域を検出する。顔領域履歴記憶部４４には検出された顔領域の履歴がフレーム単位で記録される。トラッキング部４２は、顔領域履歴記憶部４４に記録されたフレーム単位の顔領域の検出履歴を参照して、顔領域検出部１２により検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域検出部１２による顔領域の検出結果を補正する。ＲＯＩ決定処理部４６は、トラッキング部４２により補正された顔領域にもとづいて所定の基準で注目領域を決定する。ビデオエンコーダは、注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する。
【選択図】図３

Description

この発明は、ビデオを符号化する符号化処理装置および符号化処理方法に関する。

ブロードバンドネットワークの普及によって、インターネットでビデオやオーディオのストリームを配信することが盛んになってきている。ストリーム配信は、インターネット電話、遠隔テレビ会議、チャットといったインターネットサービスに利用されている。ビデオおよびオーディオストリームを利用したチャットシステムでは、遠隔地にいるユーザの顔画像および音声をネットワークを介して相互に送信し、ユーザの端末において動画および音声を再生することより、あたかもその場に一緒にいるかのようにチャットをすることができる。

ビデオストリーム配信は、動画のフレーム画像をＭＰＥＧ（Moving Picture Experts Group）などの動画像符号化方式により圧縮符号化して生成されるビデオストリームをＩＰ（Internet Protocol）パケットに格納してインターネット上を転送させ、ユーザの通信端末に受信させることで実現される。インターネットは、ベストエフォートでパケットを転送するため、ネットワークが輻輳すると、パケットが破棄されたり遅延することで、データが欠損することがあり、フレーム画像が正しく受信されないことがある。

そこで、ネットワークの帯域に応じてビデオやオーディオの符号化ストリームのビットレートを調整することが行われる。また、画像内に注目領域（Region Of Interest; ROI）を設け、注目領域には十分なビットを割り当て、非注目領域に割り当てるビットを少なくして符号化することで、ネットワークの使用帯域を抑え、輻輳を回避したり、輻輳時でも少なくとも注目領域については再生品質が確保されるようにする工夫がなされている。

たとえば、特許文献１には、注目領域の圧縮率と残余領域の圧縮率とを変えて符号化する画像符号化方法が開示されている。
特開２００５−２９５３７９号公報

ユーザの顔画像を用いたチャットなどのアプリケーションでは、互いに通信相手の顔画像の見栄えがよいことがユーザの満足度を左右する重要な要素である。そこで、画像に映し出されたユーザの顔を自動検出し、検出された顔領域を注目領域に設定し、その注目領域を高画質で符号化したビデオストリームを生成することで、顔領域の再生品質を確保することが行われる。しかし、チャットで用いられるカメラの性能が低かったり、ユーザの動きが速すぎるなどの原因で、顔領域が正しく検出されず、受信者側に顔画像が十分な品質で提供されないことがある。また、実際には顔ではない領域が誤って顔領域として検出されて注目領域に設定されることがあり、不都合が生じる。

本発明はこうした課題に鑑みてなされたものであり、その目的は、動画の注目領域を適切に符号化するための動画符号化技術を提供することにある。

上記課題を解決するために、本発明のある態様の符号化処理装置は、動画のフレームにおいて顔領域を検出する検出部と、検出された顔領域の履歴がフレーム単位で記録される記録部と、前記記録部に記録されたフレーム単位の顔領域の検出履歴を参照して、前記検出部により検出された顔領域を連続する複数のフレームにわたって追跡することにより、前記検出部による顔領域の検出結果を補正するトラッキング部と、前記トラッキング部により補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定部と、前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化部とを含む。

本発明の別の態様は、プログラムである。このプログラムは、動画のフレームにおいて顔領域を検出する検出機能と、検出された顔領域の履歴がフレーム単位で記録する記録機能と、記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正するトラッキング機能と、補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定機能と、前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化機能とをコンピュータに実現させる。

このプログラムは、ビデオやオーディオのデコーダ等のハードウエア資源の基本的な制御を行なうために機器に組み込まれるファームウエアの一部として提供されてもよい。このファームウエアは、たとえば、機器内のＲＯＭやフラッシュメモリなどの半導体メモリに格納される。このファームウエアを提供するため、あるいはファームウエアの一部をアップデートするために、このプログラムを記録したコンピュータ読み取り可能な記録媒体が提供されてもよく、また、このプログラムが通信回線で伝送されてもよい。

なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システム、コンピュータプログラム、データ構造、記録媒体などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、動画の注目領域を適切に設定して符号化することができる。

図１は、実施の形態に係るチャットシステムの構成図である。複数（ここでは３台）の情報処理装置１００ａ〜１００ｃにはそれぞれマイク２３０ａ〜２３０ｃ、カメラ２４０ａ〜２４０ｃ、スピーカ２５０ａ〜２５０ｃ、ディスプレイ２６０ａ〜２６０ｃが接続されている。複数の情報処理装置１００ａ〜１００ｃは、ネットワーク３００に接続されている。複数（ここでは３人）のユーザＡ〜Ｃがそれぞれの情報処理装置１００ａ〜１００ｃを用いて、ネットワーク３００を介して互いに自分の顔画像と音声をリアルタイムで送信し合い、また、キーボードから入力されるテキストデータを交換し合うことで、オーディオとビデオを用いたコミュニケーション（いわゆるチャット）を行う。

以下、各ユーザの情報処理装置１００ａ〜１００ｃなどの構成を総称するときは、符号ａ〜ｃを省略して、単に符号１００などで表記する。

図２は、情報処理装置１００の構成図である。ここでは、チャットに係る構成は省略し、オーディオとビデオの符号化と復号に係る構成を示す。

情報処理装置１００は、符号化処理ブロック２００と、復号処理ブロック２２０と、通信部２７０とを含む。情報処理装置１００は、一例として、パーソナルコンピュータや携帯端末であってもよく、マルチプロセッサシステムであってもよい。情報処理装置１００がパーソナルコンピュータである場合、符号化処理ブロック２００と復号処理ブロック２２０は、画像符号化・復号の機能をもつ専用回路をパーソナルコンピュータに別途搭載することで実現してもよい。また、情報処理装置１００がマルチプロセッサシステムである場合、マルチプロセッサの高い計算能力を用いることができるため、符号化処理ブロック２００と復号処理ブロック２２０はソフトウエアで実現されてもよい。

符号化処理ブロック２００は、マイク２３０に入力される音声とカメラ２４０で撮影される動画とを圧縮符号化してオーディオ符号化ストリームおよびビデオ符号化ストリームを生成する。オーディオ符号化ストリームとビデオ符号化ストリームを多重化して一つのストリームとすることもできる。符号化処理ブロック２００により生成されたオーディオ符号化ストリームとビデオ符号化ストリームは、通信部２７０によってパケット化され、ネットワーク３００を介してチャットの相手先に送信される。

通信部２７０は、ネットワーク３００を介してチャットの相手先からオーディオ符号化ストリームおよびビデオ符号化ストリームのパケットを受信し、復号処理ブロック２２０に供給する。復号処理ブロック２２０は、受信されたオーディオ符号化ストリームおよびビデオ符号化ストリームを復号してオーディオとビデオを再生し、それぞれスピーカ２５０とディスプレイ２６０に出力する。

図３は、符号化処理ブロック２００の構成図である。同図は機能に着目したブロック図を描いており、これらの機能ブロックはハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現することができる。

カメラ２４０により撮像された動画の各フレームはフレームメモリ１０に蓄積される。表示制御部１４は、ディスプレイ２６０の垂直同期信号に合わせてフレームメモリ１０からフレームを読み出し、ディスプレイ２６０に表示させる。

顔領域検出部１２は、フレームメモリ１０に格納されたフレームにおいて人間の顔が映し出されている領域を検出する。この顔領域検出には既存技術を用いる。あらかじめ人間の顔の特徴パターンをいくつか用意しておき、特徴パターンと類似する特徴を有する領域をフレーム内で探索することにより、顔領域を検出する。顔の特徴は、たとえば、エッジ抽出処理によって、顔の輪郭や、目、鼻、口などの特徴部位の形や位置を抽出することによって得られる。

顔領域は複数検出されることがある。顔領域検出部１２は、顔領域毎にその領域の位置情報を生成する。顔領域が矩形領域であれば、領域の位置情報は、たとえば、代表点である左隅点の座標値と領域の縦横サイズで表される。顔領域検出部１２は、このようにして公知の顔検出アルゴリズムにより検出された顔領域の個数と位置情報をＲＯＩ特定部１８に与える。

ＲＯＩ特定部１８は、まず、顔領域検出部１２による顔領域検出結果の妥当性を検証する。フレームに顔が映し出されていても、顔検出アルゴリズムによって顔領域として検出されるとは限られず、また、顔が映し出されていないにもかかわらず、誤って顔領域であると判定されることもある。これは、カメラ２４０の処理性能や撮影解像度に限界があり、ユーザの速い動きに追随できないことや、ユーザが横を向いたために顔検出処理において顔の特徴が拾えなくなることなどによる。そこで、顔検出の精度を高めるために、顔らしさを示すスコアを評価して誤検出を少なくしたり、顔領域の検出履歴を利用して、検出漏れを防ぐ工夫がなされる。顔検出の精度向上の工夫については後述する。

次に、ＲＯＩ特定部１８は、妥当性が検証された顔領域にもとづいて、視覚上の品質を向上させたい領域を注目領域として特定する。顔領域を中心としてその周辺領域も含む領域を注目領域として設定してもよい。たとえば、検出された顔領域に対して、顔と上半身を含む領域を注目領域とする。

注目領域は矩形形状に限られず、任意の形状であってもよい。注目領域の形状はマスク情報で指定される。たとえば、マスク情報によりハート型の形状が指定された場合、ＲＯＩ特定部１８は、顔領域検出部１２により検出された顔領域を中心としてハート型の領域を注目領域として特定する。

ＲＯＩ特定部１８は、注目領域の個数と位置情報を含むＲＯＩ情報を生成して、非ＲＯＩフィルタ２２およびビデオエンコーダ２４に与える。さらに、ＲＯＩ特定部１８は、多重化ストリームにＲＯＩ情報を含めたい場合は、ＲＯＩ情報を多重化部３２に与える。ＲＯＩ情報を多重化ストリームに含めることはオプションである。たとえば、受信側でＲＯＩ情報を利用したい場合に、ＲＯＩ情報を多重化ストリームに含めればよい。

ビデオエンコーダ２４による動画符号化の際、非注目領域は低ビット割り当て領域、注目領域は高ビット割り当て領域となる。すなわち、非注目領域に比べて注目領域にはビット数を多く割り当てて符号化することで、注目領域の品質を非注目領域の品質よりも高くする。このために、ＲＯＩ特定部１８は、非注目領域に割り当てられるビット数に対する注目領域に割り当てられるビット数の比を示すビット割り当て強度βを決め、ビット割り当て強度βをビデオエンコーダ２４に与える。ビット割り当て強度βは１以上の値を取り、βが１の場合は、非注目領域と注目領域でビット割り当て量は同じであり、βが１より大きい場合は、βの大きさに応じて非注目領域のビット割り当て量を削ることで、相対的に注目領域のビット割り当て量を増やす。

さらに、ＲＯＩ特定部１８は、非注目領域を注目領域に比べて画像をぼかす程度を示すぼかし強度γを決め、ぼかし強度γを非ＲＯＩフィルタ２２に与える。非ＲＯＩフィルタ２２は、ぼかし強度γにもとづいて高周波成分を除去するフィルタリングを非注目領域に施すことで、非注目領域を視覚的にぼかす。ぼかし強度γは１以上の値をとり、γが１の場合は、ぼかし処理はせず、γが１以上の場合は、γの大きさに応じてぼかし処理の程度を大きくする。

帯域情報取得部２０は、通信部２７０から通信経路のビットレートや輻輳状態などの帯域情報を取得し、ＲＯＩ特定部１８およびビデオエンコーダ２４に取得された帯域情報を与える。ＲＯＩ特定部１８は、帯域情報を参照して、ビット割り当て強度βとぼかし強度γを加減する。ビデオエンコーダ２４は、帯域情報を参照してビデオストリームのビットレートを適応的に調整する。

ビデオエンコーダ２４は、非ＲＯＩフィルタ２２からフィルタリング後の画像を受け取り、一例として、ＭＰＥＧ規格にしたがって、ビデオデータを圧縮符号化し、符号化ビデオストリームを生成する。ビデオエンコーダ２４は、ＲＯＩ特定部１８から受け取ったＲＯＩ情報を参照して注目領域を特定し、非注目領域と注目領域をビット割り当て強度βにもとづいた品質で符号化し、符号化ビデオストリームをビデオパケット化部２６に与える。

オーディオエンコーダ２８は、一例として、ＭＰＥＧオーディオなどの規格にしたがって、マイク２３０から入力されたオーディオデータを圧縮符号化し、符号化オーディオストリームを生成し、オーディオパケット化部３０に与える。

ビデオエンコーダ２４およびオーディオエンコーダ２８により符号化されたストリームは、エレメンタリストリーム（Elementary Stream；ＥＳ）と呼ばれる。多重化のために、ビデオおよびオーディオの各ストリームはパケット化される。

ビデオパケット化部２６は、たとえば、ビデオエンコーダ２４から出力される符号化ビデオストリームをＲＴＰ（Real-time Transport Protocol）パケットにパケット化する。同様に、オーディオパケット化部３０は、オーディオエンコーダ２８から出力される符号化オーディオストリームをＲＴＰパケットにパケット化する。ＲＴＰはビデオやオーディオをストリーム配信するための伝送プロトコルである。なお、符号化ビデオ／オーディオストリームをＰＥＳ（Packetized Elementary Stream）パケットにパケット化してもよい。

多重化部３２は、ビデオおよびオーディオのＲＴＰパケットを多重化して多重化ストリームを生成する。生成された多重化ストリームは、通信部２７０によりネットワーク３００に送出される。

図４は、ＲＯＩ特定部１８の機能構成図である。顔検証部４０は、顔領域検出部１２によってフレーム単位で検出された顔領域について、顔の位置、顔の大きさ、および顔らしさのスコアの情報を顔領域検出部１２から受け取る。顔らしさのスコアは、顔検出アルゴリズムにおいて抽出された顔の特徴をもつ画像が本当に顔である可能性がどれくらいであるかを示す度合いである。顔検証部４０は、顔の位置と大きさ、顔らしさのスコアにもとづいて顔領域検出部１２により検出された顔領域の妥当性を検証する。顔検証部４０は、顔検証処理において妥当であると判定された顔領域の情報をフレーム単位で顔領域履歴記憶部４４に履歴として記録する。顔検証部４０は、顔検証処理に合格した顔領域の情報をＲＯＩ決定処理部４６に与える。

トラッキング部４２は、顔領域検出部１２による顔領域の誤検出や検出漏れをなくすために、顔領域履歴記憶部４４に記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正する。

トラッキング部４２は、あるフレームにおいて顔領域が検出された場合であっても、当該フレーム以降の所定の枚数以上の連続するフレームにおいて当該顔領域が連続して検出されていない場合は、当該フレームにおいて検出された顔領域の検出履歴を無効と判定し、顔領域履歴記憶部４４から削除する。これにより、顔領域の情報は、所定の枚数以上の連続するフレームにおいて連続してその顔領域が検出された場合に、有効な検出履歴として顔領域履歴記憶部４４に保持されることになる。

一方、トラッキング部４２は、顔領域履歴記憶部４４に検出履歴が存在する顔領域について、所定の枚数以上の連続するフレームにおいて当該顔領域が検出されない状態が続いた場合は、その顔領域はもはや存在しないことが確実であるから、当該顔領域の検出履歴は不要であると判定し、顔領域履歴記憶部４４から削除する。

トラッキング部４２は、顔検証部４０による顔検証処理に合格した顔領域であっても、それが過去のフレームにおける顔領域の検出履歴と整合しない場合は、誤検出であったと判定する。たとえば、顔領域の位置や大きさが過去のフレームにおける顔領域の位置や大きさと著しく異なる場合、整合性がないと判定する。

トラッキング部４２は、あるフレームにおいて検出された顔領域が誤検出かどうかを過去のフレームにおける検出履歴だけで判定するのではなく、判定対象のフレーム以降のフレームにおいて検出される顔領域の情報も参照して、誤検出かどうかを判定してもよい。誤検出の顔領域の履歴が将来にわたって存在すると、将来のフレームにおける顔領域の判定結果に影響を及ぼすため、遡って顔領域の検出履歴を無効化することがより好ましいからである。

具体的には、トラッキング部４２は、あるフレームにおける顔領域の検出結果を当該フレームの前後の所定枚数のフレームにおける顔領域の検出履歴と照合して、当該フレームにおいて検出された顔領域が誤検出であるか否かを判定する。たとえば、トラッキング部４２は、あるフレームにおいて検出された顔領域と当該フレームの前後のフレームにおいて検出された顔領域とを顔の位置や大きさについて照合し、位置や大きさが所定の閾値以上異なるとき、当該フレームにおいて検出された顔領域は誤検出であると判定する。

トラッキング部４２は、誤検出と判定された顔領域の検出履歴を顔領域履歴記憶部４４から削除し、顔検証部４０に誤判定を警告する。顔検証部４０は、トラッキング部４２から誤判定の警告を受けた場合、顔検証処理に合格した顔領域であっても破棄して、ＲＯＩ決定処理部４６に与えない。

また、トラッキング部４２は、顔領域検出部１２が現在のフレームで顔領域を検出していなかった場合でも、顔領域履歴記憶部４４に記録された過去のフレームの顔領域の検出履歴が有効に存在し、過去のフレームでは顔領域が検出されていた場合は、現在のフレームにおいて顔領域の検出漏れが起きたと判定する。トラッキング部４２は、過去のフレームの顔領域の位置や大きさの情報を、現在のフレームの顔領域の位置や大きさの情報として再利用することにより、検出漏れのあった現在のフレームについての顔領域の情報を補間する。過去の数フレーム分の顔領域の位置や大きさから、検出漏れのあった現在のフレームの顔領域の位置や大きさを決定してもよい。トラッキング部４２は、このようにして補間された現在のフレームの顔領域の情報を顔領域履歴記憶部４４に記録するとともに、顔検証部４０に検出漏れを警告する。顔検証部４０は、トラッキング部４２から検出漏れの警告を受けた場合、顔領域履歴記憶部４４から補間された現在のフレームの顔領域の情報を読み出し、ＲＯＩ決定処理部４６に与える。

たとえば、ユーザが一時的に横を向いたり、後ろを向くなどの動作を行った場合、既存の顔検出アルゴリズムでは顔領域が検出されないフレームが生じることがある。このような場合でも、顔領域検出部１２による顔領域の検出漏れのあったフレームについて、トラッキング部４２が過去のフレームの顔領域の検出結果を再利用して埋め合わせることで、注目領域の設定漏れが生じることを防ぐことができる。

さらに、トラッキング部４２により追跡される顔領域の位置に合わせて、撮像制御部がカメラ２４０のパン・チルトを制御してもよい。また、トラッキング部４２により追跡される顔領域の大きさに合わせて、撮像制御部がカメラ２４０のズームを制御してもよい。ユーザが動いても、カメラ２４０がパン・チルトすることでユーザの顔を捉えることができる。また、カメラとユーザの間の距離が変化しても、ズームイン、ズームアウトにより画面内でユーザの顔を一定の大きさにすることができる。

ＲＯＩ決定処理部４６は、判断基準記憶部４８に記憶された判断基準にもとづいて、顔検証部４０による検証処理を経た顔領域の情報から最終的な注目領域を決定する。注目領域は、アプリケーションやユースケースに応じて決定される。ＲＯＩ決定処理部４６は、いったんあるフレームで注目領域を決定すると、その後、しばらくの間、新たに注目領域を判断して更新することはせず、同じ注目領域を継続して用いてもよい。たとえば、フレーム毎に注目領域を決定し直すのではなく、ＧＯＰ（group of picture）の単位で同じ注目領域を用いて、ＧＯＰの変わり目で注目領域を再設定するようにしてもよい。これにより、ＲＯＩ決定処理による負荷を軽減することができ、また、ＲＯＩ情報をＧＯＰ単位で生成するだけで済む。

ＲＯＩ決定処理部４６は、最終的に決定された注目領域の個数や位置情報を含むＲＯＩ情報を非ＲＯＩフィルタ２２、ビデオエンコーダ２４および多重化部３２に与える。適当な注目領域を決定できなかった場合は、非ＲＯＩフィルタ２２によるフィルタリングやビデオエンコーダ２４によるＲＯＩ符号化は行われず、従来通りのビデオ符号化が行われる。

ＲＯＩパラメータ調整部５０は、ＲＯＩ決定処理部４６により最終決定された注目領域についてビット割り当て強度β、ぼかし強度γなどのＲＯＩパラメータを決定する。複数の注目領域がある場合は、注目領域間で優先順位を決定し、優先度に応じて注目領域に割り当てるビット量を決定してもよい。

注目領域のサイズに応じてビット割り当て強度βやぼかし強度γを決めてもよい。注目領域のサイズが大きい場合は、ビット割り当て強度βを大きくしすぎると、ビデオストリームのビットレートが高くなってしまう。そこで、大きな注目領域に対してはビット割り当て強度βを小さくすることで、ビデオストリームのビットレートを最適化する。また、極端に小さな顔領域や極端に大きな顔領域は強調表示することによる効果が期待できないこともあるため、そのような場合はビット割り当て強度βやぼかし強度γを小さくしてもよい。

また、注目領域の位置に応じてビット割り当て強度βやぼかし強度γを決めてもよい。たとえば、画像の端に注目領域がある場合、強調表示することによる効果は少ないことがあるため、ビット割り当て強度βやぼかし強度γを小さし、画像の中央付近に注目領域がある場合、強調表示することによる効果が期待できるため、ビット割り当て強度βやぼかし強度γを大きくする。

さらに、顔らしさのスコアに応じてビット割り当て強度βやぼかし強度γを決めてもよい。顔らしさのスコアが大きい場合は、顔領域を強調表示することの効果が期待できるため、ビット割り当て強度βやぼかし強度γを大きくするが、顔らしさのスコアが低い場合は、逆効果になるおそれもあるので、ビット割り当て強度βやぼかし強度γを小さくする。

ＲＯＩパラメータ調整部５０は、帯域情報取得部２０から受け取る帯域情報にもとづいて、ビット割り当て強度βとぼかし強度γを加減することもできる。たとえば、ネットワークの帯域がもともと大きかったり、輻輳していないため、十分な利用可能帯域があるなど、動画のフレームサイズおよびフレームレートに対して十分なビットレートが保証されている場合は、非注目領域のビット割り当てを減らす必要はなく、注目領域と非注目領域の区別に関係なく、画像全体を高ビット割り当て領域として符号化してもよい。その場合は、ビット割り当て強度βを１として、ぼかし強度γを１とする。

逆に、ネットワークの帯域に制限があったり、輻輳により利用可能な帯域が少なくなっているなど、動画のフレームサイズおよびフレームレートに対して十分なビットレートが保証できない場合は、ビット割り当て強度βとぼかし強度γを大きい値に調整することで、使用帯域幅を減らす。

ＲＯＩパラメータ調整部５０は、ビット割り当て強度βをビデオエンコーダ２４に、ぼかし強度γを非ＲＯＩフィルタ２２に与える。

次に、図３の非ＲＯＩフィルタ２２によるフィルタ処理を詳しく説明する。非ＲＯＩフィルタ２２は、低域通過フィルタリングを非注目領域の施すことで、非注目領域をぼかし、相対的に注目領域を際立たせる。一般に、周波数領域で画像を圧縮符号化すると、ビットレートが低いほどブロックノイズが増大する。ビデオエンコーダ２４において非注目領域は注目領域に比べて少ない割り当てビット数で符号化されるため、ブロックノイズが生じやすくなる。そこで、非注目領域については、非ＲＯＩフィルタ２２が高周波成分を除去するフィルタリングを施すことで、ブロックノイズを低減させる効果が得られる。非ＲＯＩフィルタ２２によるフィルタリングには、注目領域以外の領域を視覚的にぼかす以外に、ブロックノイズを低減させる作用が副次的に存在する。

また、非ＲＯＩフィルタリングにより、非注目領域から高周波成分が除去されるため、結果的には、ビットレート一定の条件下で、注目領域に割り当てることのできるビット数を増やす効果も得られる。

注目領域と非注目領域は重なりをもたない排他的な領域であり、非ＲＯＩフィルタ２２が、非注目領域４４０をぼかす処理をすると、注目領域４２０と非注目領域４４０の境界で画質が非連続に変化し、注目領域４２０だけが必要以上に際立ち、不自然な印象を与えることがある。そこで、注目領域と非注目領域の境界における非連続性をなくす工夫をする。

図５（ａ）〜（ｃ）は、注目領域と非注目領域の境界における非連続性をなくす方法を説明する図である。図５（ａ）に示すように、画像４００の中央の太線で囲まれた領域は注目領域４２０であり、それ以外の残りの領域は非注目領域４４０である。注目領域４２０の外側の縁に周辺領域４３０（斜線を付した領域）を設定する。周辺領域４３０は非注目領域４４０内に存在する。

注目領域４２０は、ビデオエンコーダ２４によってビット割り当て強度βのもとで高画質でＲＯＩ符号化される。一方、非注目領域４４０は、非ＲＯＩフィルタ２２によってぼかし強度γのもとで高周波成分がカットされる。注目領域４２０の外側の縁に設けられた周辺領域４３０は、非注目領域４４０内に存在するため、非ＲＯＩフィルタ２２によってぼかし強度γのもとで高周波成分がカットされるが、周辺領域４３０については、ビット割り当て強度βのもとでのＲＯＩ符号化も合わせて行う。すなわち、周辺領域４３０においては、ぼかす処理と画質を上げる処理とを重複させる。周辺領域４３０は、ＲＯＩ符号化されるとともに、高周波成分がカットされるため、注目領域と非注目領域の中間の画質になる。注目領域と非注目領域の境界付近にある周辺領域４３０が中間の画質になることから、注目領域と非注目領域の変わり目の不自然さを軽減できる。

別の方法として、非ＲＯＩフィルタ２２は、周辺領域４３０において段階的にぼかし強度γを大きくしながらフィルタリングを施すことで、画質を連続的に変化させてもよい。このために、フィルタリングの対象画素に対して近い位置にある周辺画素には大きな重みを、対象画素に対して遠い位置にある周辺画素には小さい重みを付けた加重平均を取る非一様フィルタ、一例としてガウシアン・フィルタを利用してもよい。

図５（ｂ）に示すように、注目領域４２０の内側の縁に周辺領域４３０を設けてもよい。この場合、周辺領域４３０は、注目領域４２０内に存在するため、ビット割り当て強度βのもとでＲＯＩ符号化されるが、周辺領域４３０については、ぼかし強度γのもとで高周波成分をカットする処理も合わせて行う。あるいは、図５（ｃ）のように、注目領域４２０の外側の縁と内側の縁の両方にまたがって周辺領域４３０を設け、周辺領域４３０において画質を上げる処理とぼかす処理とを重複して行うようにしてもよい。

図６は、符号化処理ブロック２００によるＲＯＩ符号化の処理手順を説明するフローチャートである。

顔領域検出部１２は、現在のフレームについて顔領域検出処理を実行する（Ｓ１０）。顔領域検出部１２によって顔が検出された場合（Ｓ１２のＹ）、ステップＳ１４の顔検証処理に進む。顔領域検出部１２によって顔が検出されなかった場合（Ｓ１２のＮ）、ステップＳ１８のトラッキングによる顔補間処理に進む。

ステップＳ１４において、顔検証部４０は、顔領域検出部１２により検出された顔領域が妥当なものであるかどうかを検証する。トラッキング部４２は、顔検証部４０による検証済みの顔領域について、トラッキングによる誤検出判定処理を実行する（Ｓ１５）。これにより検証済みの顔領域の内、誤検出されたものは破棄される。顔検証部４０による検証処理に合格した顔の個数が０である場合（Ｓ１６のＮ）、ステップＳ１８のトラッキングによる顔補間処理に進む。検証処理に合格した顔の個数が１以上である場合（Ｓ１６のＹ）、ステップＳ２４のＲＯＩ決定処理に進む。

ステップＳ１８において、トラッキング部４２は、過去のフレームの顔領域の情報を参照して、トラッキングによる顔補間処理を実行し、現在のフレームにおいて欠落した顔領域の情報を補間する。補間された顔の個数が１以上である場合（Ｓ２０のＹ）、ステップＳ２４のＲＯＩ決定処理に進むが、補間された顔の個数が０である場合（Ｓ２０のＮ）、ステップＳ２２に進み、この場合、注目領域を設定しない。

ステップＳ２４において、ＲＯＩ決定処理部４６は、ステップＳ１４の検証処理に合格したか、あるいはトラッキングにより補間された顔領域をもとに、最終的な注目領域を決定し、ステップＳ２６において、ＲＯＩパラメータ調整部５０は、注目領域と非注目領域の画質を異ならせるためのＲＯＩパラメータを調整する。

次のフレームが入力されると（Ｓ２８のＹ）、ステップＳ１０に戻って、一連の処理を繰り返し、フレームの入力がない場合（Ｓ２８のＮ）、処理を終了する。

図７は、図６のステップＳ１４の顔検証処理の手順を説明するフローチャートである。顔領域検出部１２により検出された顔領域をすべて検証するまで（Ｓ３０のＮ）、ステップＳ３２〜Ｓ３８の処理を繰り返し、検出された顔領域をすべて検証すると（Ｓ３０のＹ）、顔検証処理を終了し、ステップＳ１５に進む。

顔検証部４０は、顔領域に含まれる顔の大きさが妥当であるかどうか（Ｓ３２）、顔の位置が妥当であるかどうか（Ｓ３４）、顔らしさのスコアは閾値より大きいかどうか（Ｓ３６）をテストする。いずれかのテストに不合格の場合（Ｓ３２のＮ、Ｓ３４のＮ、またはＳ３６のＮ）、ステップＳ３０に戻る。これらのテストにすべて合格した場合（Ｓ３２のＹ、Ｓ３４のＹ、およびＳ３６のＹ）、検証に合格した顔領域としてその情報を顔領域履歴記憶部４４に保存する（Ｓ３８）。

顔の大きさのテストでは、顔の大きさが想定するサイズの範囲にあるかどうかを判定する。たとえば、顔の大きさが大きすぎたり、小さすぎる場合は、顔領域として採用しない。顔の位置のテストでは、顔の位置が想定する位置の範囲にあるかどうかを判定する。たとえば、画像の端の方にある場合は顔領域として採用しない。顔らしさのスコアのテストでは、顔らしさのスコアが想定する値の範囲であるかどうかを判定し、スコアが想定外に低い場合は顔領域として採用しない。

図８は、図６のステップＳ１５のトラッキングによる誤検出判定処理の手順を説明するフローチャートである。顔検証部４０による検証済みの顔領域をすべてチェックするまで（Ｓ５０のＮ）、ステップＳ５２〜Ｓ５８の処理を繰り返し、検証済みの顔領域をすべてチェックし終わると（Ｓ５０のＹ）、誤検出判定処理を終了し、ステップＳ１６に進む。

トラッキング部４２は、検証済みの顔領域が所定の枚数以上の連続するフレームにおいて連続して検出されているかどうかを調べる（Ｓ５２）。当該顔領域が連続して検出されていた場合（Ｓ５２のＹ）、ステップＳ５６に進む。当該顔領域が連続して検出されていない場合（Ｓ５２のＮ）、当該顔領域の検出履歴は無効であると判定し、顔領域履歴記憶部４４から削除する（Ｓ５４）。

次に、トラッキング部４２は、検証済みの顔領域が過去のフレームにおける顔領域の検出履歴と整合するかどうかを調べる（Ｓ５６）。当該顔領域が過去のフレームの検出履歴と整合する場合（Ｓ５６のＹ）、ステップＳ５０に戻る。当該顔領域が過去のフレームの検出履歴と整合しない場合（Ｓ５６のＮ）、当該顔領域は誤検出であると判定し、誤検出と判定した顔領域の検出履歴を顔領域履歴記憶部４４から削除する（Ｓ５８）。

図９は、図６のステップＳ１８のトラッキングによる顔補間処理の手順を説明するフローチャートである。顔領域履歴記憶部４４に履歴として記録された顔情報をすべてチェックするまで（Ｓ４０のＮ）、ステップＳ４２〜Ｓ４６の処理を繰り返し、履歴にある顔情報をすべてチェックし終わると（Ｓ４０のＹ）、顔補間処理を終了し、ステップＳ２０に進む。

トラッキング部４２は、顔が検出されなかったフレーム数を調べる（Ｓ４２）。顔が検出されなかったフレーム数が閾値以下である場合（Ｓ４２のＮ）、ステップＳ４６の顔補間処理に進む。この閾値はたとえば、フレームレートに応じて実験的に決められる。たとえば、フレームレートが毎秒３０フレームであれば、フレームレートの１／１０を目安に閾値を１〜３フレームに設定する。

ステップＳ４６において、過去のフレームでは顔が検出されていたが、現在のフレームでは顔が検出されなかった場合は、検出漏れであると判断し、過去のフレームで検出された位置に現在のフレームでも顔があるものとして、過去のフレームの顔の位置や大きさの情報を再利用して現在のフレームの顔情報を補間し、現在のフレームの顔情報として保存する（Ｓ４６）。動画の動きベクトルの情報を利用して、過去のフレームの顔の位置から現在のフレームの顔の位置を時間方向に補間して求めてもよい。

顔が検出されなかったフレーム数が閾値より大きい場合（Ｓ４２のＹ）、顔が検出されていない状態が続いていることから、顔領域は存在しないと判断し、顔情報の検出履歴を削除する（Ｓ４４）。たとえば、毎秒３０フレームのフレームレートの場合、フレームレートの１／１０である３フレームを基準として、３フレーム以上、顔が検出されない場合は、その顔領域の情報を履歴から削除する。閾値を３フレームに設定したことにより、たまたま一枚のフレームにおいて顔領域の検出ミスがあった場合でも、誤って顔領域の履歴情報が削除されることはない。

次に、ＲＯＩ決定処理部４６による注目領域の決定方法について、例を挙げて詳しく説明する。

図１０は、画像４００内に注目領域が設定される様子を説明する図である。ユーザが自分の部屋でビデオチャットを利用しているとする。画像４００内に第１の顔領域４２０ａと第２の顔領域４１０ｂが検出される。第１の顔領域４２０ａはユーザの顔４１０ａを含む領域であるから注目領域として設定するべきであるが、第２の顔領域４２０ｂは、部屋の壁に貼られたポスターに写っている人物の顔が誤って検出されたものであるから、注目領域として設定すべきではない。

そこで、動きがない顔領域は、注目領域には選択しないという判断基準を設けてもよい。これにより、壁面のポスターに載っている人物の顔や、机上の写真立てに入っている写真の顔などが誤って注目領域として選択されることを防止することができる。動きがない顔領域を識別するために、トラッキング部４２が、顔領域履歴記憶部４４に保持された顔情報の履歴を調べ、顔領域の位置が過去のフレームと比べて変動しているかどうか、顔の目、鼻、口などの部位が画像上で変化しているかどうかを検出してもよい。顔検証部４０がトラッキング部４２による顔領域の動きの判定結果をＲＯＩ決定処理部４６に通知し、ＲＯＩ決定処理部４６が動きのない顔領域については注目領域に設定しないようにする。あるいは、トラッキング部４２によって動きがないと判定された顔領域については、顔検証部４０が最初から破棄し、ＲＯＩ決定処理部４６には供給しないようにしてもよい。

図１１（ａ）、（ｂ）は、ユーザが席を離れる場合における注目領域の決定方法を説明する図である。図１１（ａ）のように、ユーザがカメラの前で席に座っている場合、ユーザの顔４１０を含む顔領域４２０が注目領域として決定される。ＲＯＩ決定処理部４６が、たとえばＧＯＰ単位で注目領域を管理している場合、同一ＧＯＰ内では他のフレームでも同じ注目領域が用いられる。図１１（ｂ）のように、ユーザが席を離れた直後のフレームでは、同じ注目領域４２０が継続して使用されるため、ユーザが居るときは見えなかった、部屋の様子が高画質で通信相手のディスプレイに表示されることになる。

そこで、顔領域検出部１２および顔検証部４０によって顔領域が検出されなくなった場合は、ＧＯＰの途中であっても、強制的に注目領域を再設定するように、ＲＯＩ決定処理部４６に割り込み信号を与えるようにする。これにより、ユーザが居なくなった後で、部屋の様子が詳しく映し出されるといった不都合をなくすことができる。

後述のように、通信相手に見せたくない領域については、ユーザが禁止領域を設定可能にしておき、顔領域検出部１２および顔検証部４０によって禁止領域内に顔領域が検出された場合は、ＲＯＩ決定処理部４６は、禁止領域内であっても顔領域を注目領域に設定するが、禁止領域内から顔領域が検出されなくなった場合は、ただちに禁止領域に設定された注目領域を解除するように制御してもよい。

図１２（ａ）、（ｂ）は、ユーザが部屋を動き回る場合における注目領域の決定方法を説明する図である。図１２（ａ）のように、ユーザが席に座っている間、検出された自分の顔４１０ａを含む領域４２０ａが注目領域に設定される。図１２（ｂ）のように、ユーザが一時的に席を離れて部屋を動き回るとき、検出される顔４１０ｃの移動に合わせて注目領域が設定されると、ユーザの移動によって自分の部屋の様子が明瞭に映し出されることになってしまう。そこで、画面の中央から離れた位置にある顔領域４２０ｃが検出されても、注目領域には選択しないという判断基準を設けてもよい。

また、画面の中央以外で検出された顔領域は注目領域としない基準を設ければ、自分以外の家族が部屋に入ってきても、家族の顔が注目領域に設定される心配がなくなるので、ユーザのプライバシーを保護するのにも役立つ。

図１３（ａ）、（ｂ）は、注目領域の設定を許可する領域、禁止する領域を指定する方法を説明する図である。図１３（ａ）のように、ユーザが注目領域の設定を許可する領域４５０（ここでは、画面の中央の領域）をあらかじめ設定し、顔領域がユーザの設定した許可領域４５０内で検出された場合は、注目領域にするが、顔領域が許可領域４５０外で検出された場合は、注目領域とはしないという判断基準を設けてもよい。また、図１３（ｂ）のように、ユーザが注目領域の設定を禁止する領域４６０を設定できるようにしてもよい。ここでは、机の上の書類等が高画質で映し出されることのないよう、机の上の領域が禁止領域４６０に設定されている。

許可領域４５０で検出された顔領域を注目領域とするという基準、もしくは禁止領域４６０内で顔領域が検出されても注目領域としないという基準を設けることで、ユーザのプライバシーを保護したり、セキュリティを確保することができる。

次に、複数の顔領域が検出された場合の注目領域の判断基準を説明する。たとえば、以下の基準の少なくとも一つを満たす顔領域を注目領域に決定する。

（１）面積が最大の顔領域、
（２）画像の中央付近に存在する顔領域、
（３）顔らしさのスコアが最大である顔領域、または、
（４）顔領域の面積、位置、スコアをそれぞれ正規化し、それらの値の重み付け和が最大である顔領域。

別の判断基準として、以下のように注目領域を決定してもよい。
（５）顔領域をそれぞれ別の注目領域として採用、
（６）すべての顔領域を包含する領域を注目領域として採用、または、
（７）互いに近い位置にある顔領域を一つにまとめて注目領域として採用。

まず、図１４（ａ）、（ｂ）を参照して、顔領域が一つだけ検出された場合の注目領域の決定方法を説明する。図１４（ａ）のように、画像４００内に顔４１０が検出され、それを含む矩形の顔領域４２０が検出されたとする。このとき、この矩形の顔領域４２０をそのまま注目領域としてもよく、あるいは、図１４（ｂ）のように、顔４１０と上半身４１２を含む領域４２０を注目領域としてもよい。

図１５（ａ）、（ｂ）は、顔領域が複数検出された場合の注目領域の決定方法を説明する図である。図１５（ａ）のように、検出された顔４１０ａ〜４１０ｃが近い位置にある、すなわち検出された顔領域が互いにある規定距離以内にある場合、それらの顔領域を包含する領域４２０を注目領域４２０とするが、図１５（ｂ）のように、検出された複数の顔領域が互いに離れている場合は、検出されたそれぞれの顔４１０ａ〜４１０ｃを包含する領域４２０ａ〜４２０ｃを別々の注目領域とする。なお、複数の顔領域が検出された場合でも、図１４（ｂ）のように、顔と上半身を含む領域を注目領域としてもよい。

図１６（ａ）、（ｂ）は、大きさの異なる顔領域が検出された場合の注目領域の決定方法を説明する図である。図１６（ａ）のように、サイズの大きい顔４１０ｃと、サイズの小さい顔４１０ａ、４１０ｂとが検出された場合、サイズの大きい方の顔４１０ｃを包含する領域４２０を注目領域とする。図１６（ｂ）のように、二つの大きい顔４１０ａ、４１０ｂと、三つの小さい顔４１０ｃ、４１０ｄ、４１０ｅが検出された場合、二つの大きい顔４１０ａ、４１０ｂをそれぞれ包含する領域４２０ａ、４２０ｂを注目領域とする。判断基準の一例として、検出された複数の顔領域について、最大サイズと最小サイズの比が所定の閾値よりも大きい場合、最大サイズの顔領域を注目領域に設定する。２番目以降に大きなサイズの顔領域も注目領域に設定してもよい。

以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施の形態に係るチャットシステムの構成図である。図１の情報処理装置の構成図である。図２の符号化処理ブロックの構成図である。図３のＲＯＩ特定部の機能構成図である。図５（ａ）〜（ｃ）は、注目領域と非注目領域の境界における非連続性をなくす方法を説明する図である。図３の符号化処理ブロックによるＲＯＩ符号化の処理手順を説明するフローチャートである。図６の顔検証処理の手順を説明するフローチャートである。図６のトラッキングによる誤検出判定処理の手順を説明するフローチャートである。図６のトラッキングによる顔補間処理の手順を説明するフローチャートである。画像内に注目領域が設定される様子を説明する図である。図１１（ａ）、（ｂ）は、ユーザが席を離れる場合における注目領域の決定方法を説明する図である。図１２（ａ）、（ｂ）は、ユーザが部屋を動き回る場合における注目領域の決定方法を説明する図である。図１３（ａ）、（ｂ）は、注目領域の設定を許可する領域、禁止する領域を指定する方法を説明する図である。図１４（ａ）、（ｂ）は、顔領域が一つだけ検出された場合の注目領域の決定方法を説明する図である。図１５（ａ）、（ｂ）は、顔領域が複数検出された場合の注目領域の決定方法を説明する図である。図１６（ａ）、（ｂ）は、大きさの異なる顔領域が検出された場合の注目領域の決定方法を説明する図である。

符号の説明

１０フレームメモリ、１２顔領域検出部、１４表示制御部、１８ＲＯＩ特定部、２０帯域情報取得部、２２非ＲＯＩフィルタ、２４ビデオエンコーダ、２６ビデオパケット化部、２８オーディオエンコーダ、３０オーディオパケット化部、３２多重化部、４０顔検証部、４２トラッキング部、４４顔領域履歴記憶部、４６ＲＯＩ決定処理部、４８判断基準記憶部、５０ＲＯＩパラメータ調整部、１００情報処理装置、２００符号化処理ブロック、２２０復号処理ブロック、２３０マイク、２４０カメラ、２５０スピーカ、２６０ディスプレイ、２７０通信部、３００ネットワーク。

Claims

動画のフレームにおいて顔領域を検出する検出部と、
検出された顔領域の履歴がフレーム単位で記録される記録部と、
前記記録部に記録されたフレーム単位の顔領域の検出履歴を参照して、前記検出部により検出された顔領域を連続する複数のフレームにわたって追跡することにより、前記検出部による顔領域の検出結果を補正するトラッキング部と、
前記トラッキング部により補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定部と、
前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化部とを含むことを特徴とする符号化処理装置。
前記トラッキング部は、前記検出部があるフレームにおいて顔領域を検出した場合であっても、当該フレーム以降の所定の枚数以上の連続するフレームにおいて当該顔領域を連続して検出することがない場合は、当該フレームにおいて検出された顔領域の検出履歴を無効と判定し、前記記録部から削除することを特徴とする請求項１に記載の符号化処理装置。
前記トラッキング部は、前記記録部に検出履歴が存在する顔領域について、前記検出部が所定の枚数以上の連続するフレームにおいて当該顔領域を検出していない状態が続いた場合は、当該顔領域の検出履歴を不要と判定し、前記記録部から削除することを特徴とする請求項１または２に記載の符号化処理装置。
前記トラッキング部は、あるフレームにおける顔領域の検出結果を当該フレームの前後のフレームにおける顔領域の検出履歴と照合することにより、当該フレームにおいて検出された顔領域が誤検出であるか否かを判定し、誤検出であると判定された場合、当該フレームにおいて検出された顔領域の履歴を削除することを特徴とする請求項１から３のいずれかに記載の符号化処理装置。
前記トラッキング部は、あるフレームにおいて検出された顔領域と当該フレームの前後のフレームにおいて検出された顔領域とを顔の位置および大きさの少なくとも一方に関して照合することによって、当該フレームにおいて検出された顔領域が誤検出であるか否かを判定することを特徴とする請求項４に記載の符号化処理装置。
前記トラッキング部は、前記検出部が現在のフレームにおいて顔領域を検出していない場合でも、過去のフレームにおいて顔領域の検出履歴が有効に存在するなら、現フレームにおける顔領域の検出漏れであると判定し、過去のフレームの顔領域の位置の情報を、現フレームの顔領域の位置の情報として再利用することにより、検出漏れであると判定された現在のフレームの顔領域の情報を補間することを特徴とする請求項１から５のいずれかに記載の符号化処理装置。
前記トラッキング部により追跡される顔領域の位置に合わせて、顔を撮影するためのカメラの向きを制御する撮像制御部をさらに含むことを特徴とする請求項１から６のいずれかに記載の符号化処理装置。
前記トラッキング部により追跡される顔領域の大きさに合わせて、顔を撮影するためのカメラのズームを制御する撮像制御部をさらに含むことを特徴とする請求項１から６のいずれかに記載の符号化処理装置。
動画のフレームにおいて顔領域を検出するステップと、
検出された顔領域の履歴がフレーム単位で記録するステップと、
記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正するステップと、
補正された顔領域にもとづいて所定の基準で注目領域を決定するステップと、
前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成するステップとを含むことを特徴とする符号化処理方法。
動画のフレームにおいて顔領域を検出する検出機能と、
検出された顔領域の履歴がフレーム単位で記録する記録機能と、
記録されたフレーム単位の顔領域の検出履歴を参照して、検出された顔領域を連続する複数のフレームにわたって追跡することにより、顔領域の検出結果を補正するトラッキング機能と、
補正された顔領域にもとづいて所定の基準で注目領域を決定する注目領域決定機能と、
前記注目領域を他の領域とは画質を異ならせて符号化して、動画の符号化ストリームを生成する符号化機能とをコンピュータに実現させることを特徴とするプログラム。