JP6102680B2

JP6102680B2 - 符号化装置、復号装置、符号化データ、符号化方法、復号方法およびプログラム

Info

Publication number: JP6102680B2
Application number: JP2013223831A
Authority: JP
Inventors: 類森本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-10-29
Filing date: 2013-10-29
Publication date: 2017-03-29
Anticipated expiration: 2033-10-29
Also published as: JP2015088805A; US20150117540A1

Description

本技術は、符号化装置、復号装置、符号化データ、符号化方法、復号方法およびプログラムに関する。詳しくは、動画データを圧縮する符号化装置、復号装置、符号化データ、符号化方法、復号方法およびプログラムに関する。

一般に動画データはデータ量が多く、非圧縮のままでは送受信が困難であるため、動画データに対して圧縮処理が行われることが多い。この圧縮処理により動画の画質が低下するおそれがある。

例えば、現在よく用いられるＨ．２６４などの圧縮処理では一定形状のブロック単位で符号化を行っているため、圧縮率を高くするほど、ブロック境界付近においてモザイク状に見える現象、いわゆるブロックノイズが生じる可能性が高くなる。ブロックノイズが生じるのは、物体の輪郭と関係なく、ブロックの形状を一定としているためである。このブロックノイズを低減するために、パッチと呼ばれる多角形（三角形など）の領域を符号化単位として、そのパッチの頂点を物体の輪郭の形状に合わせて移動させる符号化装置が提案されている（例えば、非特許文献１参照。）。

宮本義弘他、「輪郭適応パッチを用いたワーピング予測ビデオ符号化方式」、オーディオビジュアル複合情報処理、１９９５年７月、ｐ．２５−３１

しかしながら、上述の従来技術では、動画の画質を向上させることが困難である。すなわち、上述の符号化装置では、フレーム内のパッチの個数は固定であり、その個数が少ないと、物体の輪郭が角張ってしまうなどのノイズが発生するおそれがある。また、物体内部は、一定形状のパッチにより分割されているため、圧縮率が高いと、パッチの境界付近でブロックノイズと同様のノイズが生じてしまう。これらのノイズは、ローパスフィルタなどを通過させることにより低減することができるものの、ローパスフィルタを通過させると、物体の輪郭が不鮮明になり画質が低下するおそれがある。このため、動画の画質を向上させることが困難である。

本技術はこのような状況に鑑みて生み出されたものであり、動画の画質を向上させることを目的とする。

本技術は、上述の問題点を解消するためになされたものであり、その第１の側面は、時系列順に複数のフレームを含む符号化対象の動画において上記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して上記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割部と、上記複数のフレームのうち基準になる基準フレーム上の上記複数の節点のそれぞれに対して上記基準フレーム以外の非基準フレーム上のいずれかの上記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして上記節点の対ごとに検出する動きベクトル検出部と、上記基準フレームおよび上記節点動きベクトルを含むデータを、上記動画を符号化した符号化データとして出力する符号化データ出力部とを具備する符号化装置、および、符号化方法ならびに当該方法をコンピュータに実行させるためのプログラムである。これにより、基準フレームおよび節点動きベクトルを含むデータが、動画を符号化した符号化データとして出力されるという作用をもたらす。

また、この第１の側面において、上記基準フレーム上の上記部分領域において基準になる基準座標と上記非基準フレーム上の上記部分領域において基準になる基準座標とを両端とするベクトルを上記部分領域ごとに領域動きベクトルとして取得して上記領域動きベクトルが同一で隣接する上記部分領域同士を併合する領域併合部をさらに具備し、上記符号化データ出力部は、上記併合された部分領域を物体領域として示す情報をさらに含む上記符号化データを出力してもよい。これにより、領域動きベクトルが同一で隣接する領域が併合されるという作用をもたらす。

また、この第１の側面において、上記領域分割部は、上記部分領域内のいずれかの座標を基準とする相対座標を上記節点ごとに示す節点情報をさらに生成し、上記動きベクトル検出部は、上記基準フレーム上の上記節点の相対座標と上記非基準フレーム上の上記節点の相対座標との距離を上記節点ごとに求めて当該距離が最も近い上記節点同士を対応付けてもよい。これにより、上記基準フレーム上の上記節点の相対座標と上記非基準フレーム上の上記節点の相対座標との距離が最も近い節点同士が対応付けられるという作用をもたらす。

また、この第１の側面において、上記基準フレームにおいて上記動きベクトルに従って上記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを、上記非基準フレームを予測した予測フレームとして生成する予測フレーム生成部と、上記予測フレームと上記非基準フレームとにおいて対応する画素の画素値の差分を画素ごとに検出する差分検出部とをさらに具備し、上記圧縮データ出力部は、上記非基準フレームの予測における予測誤差として上記差分をさらに含む上記符号化データを出力してもよい。これにより、非基準フレームの予測における予測誤差として差分をさらに含む上記符号化データが出力されるという作用をもたらす。

また、本技術の第２の側面は、境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと上記複数の節点のいずれかが一端である複数の節点動きベクトルとを符号化データから上記基準フレームを取得する基準フレーム取得部と、上記基準フレームにおいて上記節点動きベクトルに従って上記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、上記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成部とを具備する復号装置、および、復号方法ならびに当該方法をコンピュータに実行させるためのプログラムである。これにより、基準フレームにおいて節点動きベクトルに従って位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームが予測フレームとして生成されるという作用をもたらす。

また、この第２の側面において、設定された拡大率に応じて上記基準フレームおよび上記予測フレームのいずれか少なくとも一部における上記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを拡大フレームとして生成する拡大部をさらに具備してもよい。これにより、設定された拡大率に応じて位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームが拡大フレームとして生成されるという作用をもたらす。

また、この第２の側面において、上記基準フレームおよび上記予測フレームのいずれかにおいてマスク対象に指定された上記部分領域をマスクしたフレームを生成するマスク処理を行うマスク処理部と、上記マスクされたフレームに合成対象のフレームを合成する合成部とをさらに具備してもよい。これにより、マスク対象に指定された領域をマスクしたマスクフレームに合成対象のフレームが合成されるという作用をもたらす。

また、この第２の側面において、認識対象の物体の特徴量が指定されると上記基準フレームおよび上記予測フレームにおいて上記指定された特徴量に基づいて上記認識対象の物体を認識する物体認識部をさらに具備してもよい。これにより、特徴量に基づいて認識対象の物体が認識されるという作用をもたらす。

また、本技術の第３の側面は、境界線上に複数の節点が設けられた複数の領域に分割された基準フレームと上記複数の節点のいずれかが一端である複数の節点動きベクトルとを含む符号化データである。これにより、基準フレームにおいて節点動きベクトルに従って位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームが予測フレームとして生成されるという作用をもたらす。

本技術によれば、動画の画質が向上するという優れた効果を奏し得る。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

第１の実施の形態における撮像装置の一構成例を示すブロック図である。第１の実施の形態における符号化部の一構成例を示すブロック図である。第１の実施の形態における領域分割部の一構成例を示すブロック図である。第１の実施の形態における符号化データのデータ構造の一例を示す図である。第１の実施の形態における復号部の一構成例を示すブロック図である。第１の実施の形態における符号化前の動画データと符号化データとの一例を示す図である。第１の実施の形態における基準フレームおよび非基準フレームと節点と節点ごとの節点動きベクトルとの一例を示す図である。第１の実施の形態における符号化処理の一例を示すフローチャートである。第１の実施の形態における領域分割処理の一例を示すフローチャートである。第１の実施の形態における復号処理の一例を示すフローチャートである。変形例における画像処理システムの一例を示す斜視図である。変形例における画像処理システムの一例を示すブロック図である。変形例における符号化データを含むファイルのヘッダのデータ構成の一例を示す図である。変形例における符号化データを含むファイルのヘッダの項目および概要の一例を示す図である。第２の実施の形態における撮像装置の一構成例を示すブロック図である。第２の実施の形態における解像度変換部の一構成例を示すブロック図である。第２の実施の形態における拡大前後のフレームの一例を示す図である。第２の実施の形態における解像度変換処理の一例を示すフローチャートである。第３の実施の形態における領域結合部の一構成例を示すブロック図である。第３の実施の形態における移動体を検出したフレームの一例を示す図である。第３の実施の形態における符号化データのデータ構造の一例を示す図である。第３の実施の形態における入力フレームの階層構造の一例を示す図である。第３の実施の形態における画像処理装置の一構成例を示すブロック図である。第３の実施の形態における合成前後のフレームの一例を示す図である。第３の実施の形態における合成処理の一例を示すフローチャートである。第４の実施の形態における画像処理装置の一構成例を示すブロック図である。第４の実施の形態における検索処理を説明するための図である。第４の実施の形態における検索処理の一例を示すフローチャートである。

以下、本技術を実施するための形態（以下、実施の形態と称する）について説明する。説明は以下の順序により行う。
１．第１の実施の形態（基準フレームおよび節点動きベクトルを含む符号化データを生成する例）
２．第２の実施の形態（基準フレームおよび節点動きベクトルを含む符号化データを復号して拡大する例）
３．第３の実施の形態（基準フレームおよび節点動きベクトルを含む符号化データを復号して合成する例）
４．第４の実施の形態（基準フレームおよび節点動きベクトルを含む符号化データを復号して物体認識する例）

＜１．第１の実施の形態＞
［撮像装置の構成例］
図１は、第１の実施の形態における撮像装置１００の一構成例を示すブロック図である。この撮像装置１００は、複数の画像を時系列順に含む動画を撮像する装置である。撮像装置１００は、プロセッサ１１１、バス１１２およびビデオメモリ１１３、撮像素子１１４、ＲＡＭ（Random Access Memory）１１５、ＲＯＭ（Read Only Memory）１１６およびアナログフロントエンド１１７を備える。また、撮像装置１００は、フレームメモリ１１８、記録媒体１１９、表示部１２０、インターフェース１２１、符号化部２００および復号部３００を備える。

プロセッサ１１１は、撮像装置１００全体を制御するものである。バス１１２は、プロセッサ１１１、ビデオメモリ１１３、ＲＡＭ１１５、ＲＯＭ１１６、フレームメモリ１１８、記録媒体１１９、インターフェース１２１、符号化部２００および復号部３００が互いにデータをやりとりする共通の経路である。

ビデオメモリ１１３は、表示部１２０に表示されるデータを保持するものである。表示部１２０は、ビデオメモリ１１３に保持されたデータを表示するものである。ＲＡＭ１１５は、プロセッサ１１１により実行されるプログラムや、処理に必要になるデータを一時的に記憶するための作業領域として用いられる。ＲＯＭ１１６は、プロセッサ１１１により実行されるプログラムなどを記録するものである。

撮像素子１１４は、撮影対象を撮像して、アナログの画像信号を生成するものである。この撮像素子１１４は、生成した画像信号をアナログフロントエンド１１７に供給する。アナログフロントエンド１１７は、アナログの画像信号をデジタルの画像データ（以下、「フレーム」と称する。）に変換するものである。ここで、フレームは、二次元格子状に配列された複数の画素を含む。また、このアナログフロントエンド１１７は、フレームに対してＣＤＳ(Correlated Double Sampling)などのノイズ除去処理やデモザイク処理を行い、フレームメモリ１１８に保持させる。フレームメモリ１１８は、アナログフロントエンド１１７から供給されたフレームを保持するものである。

符号化部２００は、複数のフレームを時系列に含む動画データを符号化するものである。ここで「符号化」とは、動画データを圧縮することを意味する。この符号化部２００は、フレームメモリ１１８からバス１１２を介して順にフレームを読み出して、それらのフレームを含む動画データを取得する。符号化部２００は、その動画データに対して符号化を行い、符号化データを生成する。そして、符号化部２００は、符号化データを記録媒体１１９またはインターフェース１２１にバス１１２を介して供給する。なお、符号化部２００は、フレームメモリ１１８から動画データを取得しているが、フレームメモリ１１８の代わりに記録媒体１１９またはインターフェース１２１から動画データを取得してもよい。

復号部３００は、符号化データを復号するものである。この復号部３００は、記録媒体１１９またはインターフェース１２１からバス１１２を介して符号化データを取得する。そして復号部３００は、符号化データを、符号化前の元の動画データに復号する。復号部３００は、復号した動画データをビデオメモリ１１３、記録媒体１１９およびインターフェース１２１のいずれかに供給する。

記録媒体１１９は、符号化データまたは動画データを記録するものである。例えば、ＳＤカード（登録商標）、メモリースティック（登録商標）またはＨＤＤ（Hard Disk Drive）などが記録媒体１１９として用いられる。インターフェース１２１は、撮像装置１００の外部の装置との間で、符号化データや動画データなどのデータを送受信するものである。例えば、ＨＤＭＩ（登録商標）（High-Definition Multimedia Interface）、ＵＳＢ（Universal Serial Bus）などのインターフェースがインターフェース１２１として用いられる。

なお、インターフェース１２１は、外部の装置との間で、データを送受信することができるものであれば、有線通信規格および無線通信規格のいずれのインターフェースであってもよい。例えば、ＩＥＥＥ（Institute of Electrical and Electronics Engineers）１３９４のインターフェースであってもよい。また、シリアルＡＴＡ（Advanced Technology Attachment）、Thunderbolt（登録商標）やイーサネット（登録商標）のインターフェースであってもよい。また、ワイヤレスＨＤＭＩ（登録商標）やＩＥＥＥ８０２．１１ａ／ｂ／ｇ／ａｃのインターフェースであってもよい。また、ＣＤＭＡ（Code Division Multiple Access）やＬＴＥ（Long Term Evolution）のインターフェースであってもよい。また、ＷｉＭＡＸ（Worldwide Interoperability for Microwave Access）のインターフェースであってもよい。また、ＸＧＰ（eXtended Global Platform）やＨＳＰＡ（High Speed Packet Access）のインターフェースであってもよい。また、ＤＣ−ＨＳＤＰＡ（Dual Cell High Speed Downlink Packet Access）のインターフェースであってもよい。

また、撮像装置１００は、撮像素子１１４およびアナログフロントエンド１１７と、符号化部２００とを同じ装置に設ける構成としているが、この構成に限定されない。これらが別々の装置に設けられていてもよい。例えば、撮像装置に撮像素子１１４およびアナログフロントエンド１１７を設け、情報処理装置（パーソナルコンピューターなど）に符号化部２００を設けてもよい。この構成では、撮像装置が撮像を行って情報処理装置に動画データを送信し、情報処理装置が符号化を行う。また、符号化部２００および復号部３００を別々の装置に設けてもよい。

また、撮像装置１００は、特許請求の範囲に記載の符号化装置の一例である。また、撮像装置１００は、特許請求の範囲に記載の復号装置の一例である。

［符号化部の構成例］
図２は、第１の実施の形態における符号化部２００の一構成例を示すブロック図である。この符号化部２００は、領域分割部２１０、符号化データ出力部２０１、動きベクトル検出部２０８およびフレームバッファ２０７を備える。

符号化データ出力部２０１は、動画データを符号化した符号化データを出力するものである。この符号化データ出力部２０１は、減算器２０２、整数変換部２０３、逆整数変換部２０４、加算器２０５、予測フレーム生成部２０６、エントロピー符号化部２０９および領域結合部２２０を備える。

領域分割部２１０は、バス１１２から複数のフレームのそれぞれを入力フレームとして取得し、入力フレームのそれぞれを特徴量の異なる複数の領域に分割するものである。ここで、特徴量としては、例えば、色やコントラストなどが用いられる。特徴量に基づいて１つのフレームを、複数の領域に分割する技術は領域分割（region segmentation）と呼ばれる。領域分割により分割した領域のそれぞれを以下、「部分領域」と称する。

領域分割において、領域分割部２１０は、フレームの色空間がＲＧＢ（Red Green Blue）色空間であればＨＳＶ（Hue Saturation Value）色空間に変換（以下、「ＨＳＶ変換」と称する。）する。そして、領域分割部２１０は、ＨＳＶ変換されたフレームに対して減色処理を行う。減色処理においては、例えば、２５６色が１６色に減色される。なお、減色処理として、２色に減色する２値化を行えば、アルゴリズムが最も単純なもので済むが、２値化では色や階調の空間変化が大きくなりすぎるため望ましくない。

そして、領域分割部２１０は、減色後のフレームにおいて、画素ごとに特徴量を抽出し、その特徴量に基づいて、Ｋ平均アルゴリズムを使用した画素のクラスタリングを行う。Ｋ平均アルゴリズムは、クラスタの特徴量の平均を用いて、画素をＫ（Ｋは、整数）個のクラスタに分類するアルゴリズムである。

Ｋ平均アルゴリズムにおいて、画素のそれぞれは、まず、ランダムにＫ個のクラスタに割り当てられる。そして、領域分割部２１０は、クラスタごとに、そのクラスタの中心として特徴量の平均値を求める。平均値を求めた後、領域分割部２１０は、画素のそれぞれについて、その画素の特徴量と、平均値のそれぞれとの間のユークリッド距離を求め、そのユークリッド距離が最も近いクラスタに画素を割り当てなおす。割り当てなおした画素の個数が閾値未満であれば、領域分割部２１０は、Ｋ平均アルゴリズムを終了し、そうでない場合には、平均を求める処理に戻る。

領域分割部２１０は、Ｋに初期値（例えば、「２」）を設定して上述のＫ平均アルゴリズムを使用して、画素をＫ個のクラスタに分類する。そして、領域分割部２１０は、一定の終了条件が満たされるまで、ＫをインクリメントしてＫ平均アルゴリズムによるクラスタリングを繰り返し実行する。ここで、終了条件は、例えば、クラスタ数が上限値（例えば、「１２」）を超えたことと、画素の割り当て直しの生じたクラスタの比率（エラー率）が許容比率（例えば、５％）未満になったこととのいずれかが満たされることである。このクラスタリングにより、入力フレームは、それぞれの領域において特徴量が一様な、任意形状の複数の領域に分割される。

上述のように、領域分割部２１０は、ＨＳＶ変換、減色処理、および、Ｋ平均アルゴリズムによるクラスタリング処理を順に実行することにより領域分割処理を行っている。このように減色処理を含む領域分割処理によれば、部分領域内の色や階調の空間変化が低周波数化するため、後述する整数変換部２０３の処理においてフィッティングの精度が向上する効果が得られる。この処理の詳細は、「S.Sural, et al., "Segmentation and histogram generation using the hsv color space for image retrieval", 2002 Proc. of Int'l Conf. on Image Process, 2(2002), p.589.」に記載されている。

なお、領域分割部２１０は、ＨＳＶ変換、減色処理、および、クラスタリング処理により領域分割を行っているが、この構成に限定されない。ＨＳＶ変換後、減色処理を行わずにクラスタリングを行う方法を用いてもよい。その方法の詳細は、「M.Luo et al., "A Spatial Constrained K-Means Approach to Image Segmentation", Proc. of ICICS-PCM2003, 2(2003), p.738.」に記載されている。

また、領域分割部２１０は、ＨＳＶ変換および減色処理を行わずに、クラスタリング処理のみにより領域分割を行ってもよい。あるいは、領域分割部２１０は、クラスタリング処理を行わずに、ＨＳＶ変換や減色処理（二値化など）のみによって領域分割を行ってもよい。上述したように領域分割の方法は様々あり、処理速度との兼ね合いから、手法が選択される必要がある。

領域分割部２１０は、分割した部分領域のそれぞれに、その部分領域を識別するための領域ＩＤ（IDentification code）を付与する。また、領域分割部２１０は、部分領域ごとに、基準となる基準座標を求める。基準座標として、例えば、部分領域の重心の座標が求められる。領域分割部２１０は、部分領域ごとに、領域ＩＤおよび基準座標を含む情報を領域情報として生成し、入力フレームに付加する。

そして、領域分割部２１０は、部分領域のそれぞれの境界線上に複数の節点を設ける。例えば、領域分割部２１０は、部分領域の境界線を多角形に近似し、その多角形の頂点に節点を設ける。なお、領域分割部２１０は、多角形近似により節点を設けているが、この構成に限定されない。例えば、領域分割部２１０は、境界線を一定間隔で複数の線分に分割し、その分割した点を節点としてもよい。

領域分割部２１０は、節点のそれぞれに、その節点を識別するための節点ＩＤを付与する。また、領域分割部２１０は、部分領域のそれぞれに、その領域の境界線上の節点を対応付ける。領域分割部２１０は、節点ごとに、節点ＩＤおよび節点座標を含む情報を節点情報として生成し、入力フレームに付加する。ここで、節点座標は、部分領域の基準座標を基準とした相対座標により表される。

領域分割部２１０は、領域情報および節点情報を付加した入力フレームを符号化データ出力部２０１および動きベクトル検出部２０８へ供給する。

動きベクトル検出部２０８は、節点ごとに節点動きベクトルを検出するものである。この動きベクトル検出部２０８は、まず、基準フレームをフレームバッファ２０７から取得する。この基準フレームは、動き予測において基準とされるフレームであり、動画において複数（例えば、「１５」）のフレームからなるグループごとに、その中の１つが、基準フレームとして取得される。

また、動きベクトル検出部２０８は、入力フレームのうち、基準フレーム以外の非基準フレームを領域分割部２１０から取得する。動きベクトル検出部２０８は、基準フレーム上の複数の部分領域のそれぞれに対して、非基準フレーム上のいずれかの部分領域を、部分領域の類似度に基づいて対応付ける。

非基準フレームにおいて各部分領域には、類似度に基づいて対応付けられた基準フレーム内の部分領域の領域ＩＤと同一の領域ＩＤが付与される。しかし、基準フレーム内の部分領域について、非基準フレーム内の部分領域を対応付けることができない場合もありうる。この場合に動きベクトル検出部２０８は、その対応付けられない部分領域の領域ＩＤを無効にし、新たな領域ＩＤを付与する。

部分領域の類似度は、例えば、ＳＳＤ（Sum of Squared Difference）またはＳＡＤ（Sum of Absolute Difference）により求められる。前者は、対応する画素の画素値の差分の二乗和であり、後者は、対応する画素の画素値の差分絶対値の和である。

具体的には、動きベクトル検出部２０８は、基準フレーム内のいずれかの部分領域を対象領域とし、一定形状の探索領域を非基準フレームにおいて設定する。ここで、探索領域は、非基準フレームにおいて、対応する部分領域を探索するための領域であり、例えば、対象領域の基準座標を中心としたＭ（Ｍは２以上の整数）×Ｍ画素の範囲が探索領域として設定される。動きベクトル検出部２０８は、探索領域内に基準座標が含まれる部分領域のそれぞれにおいて、対象領域内の各画素と相対座標が同一の画素を対応する画素として求める。そして、動きベクトル検出部２０８は、対応する画素の画素値の差分の二乗和（ＳＳＤ）または差分の絶対値の和（ＳＡＤ）を類似度として求める。

動きベクトル検出部２０８は、探索領域内において類似度が最も高い部分領域を、対象領域に対応する部分領域として取得する。そして、動きベクトル検出部２０８は、対象領域の境界線上の複数の節点のそれぞれに対して、その対象領域に対応する部分領域の境界線上の節点のうち距離が最も近い点座標の節点を対応付ける。

非基準フレームにおいて各節点には、類似度に基づいて対応付けられた基準フレーム内の節点の節点ＩＤと同一の節点ＩＤが付与される。しかし、基準フレーム内の節点について、非基準フレーム内の節点を対応付けることができない場合もありうる。この場合に動きベクトル検出部２０８は、その対応付けられない節点の節点ＩＤを無効にし、新たな節点ＩＤを付与する。

動きベクトル検出部２０８は、対応付けた節点の対を両端とするベクトルを節点動きベクトルとして節点の対ごとに求める。動きベクトル検出部２０８は、求めた節点動きベクトルを追加した節点情報を予測フレーム生成部２０６およびエントロピー符号化部２０９に供給する。このように、基準フレームおよび非基準フレームから、動きベクトルを求める処理は、動き予測と呼ばれる。

ここで、基準フレームは、時系列順において非基準フレームより過去のフレームであるものとする。このように過去の基準フレームから、非基準フレームの動きベクトルを求める動き予測は、前方予測と呼ばれる。一方、非基準フレームに対して未来のフレームを基準フレームとして、未来の基準フレームから、非基準フレームの動きベクトルを求める動き予測は、後方予測と呼ばれる。動きベクトル検出部２０８は、前方予測の代わりに後方予測を行ってもよいし、前方予測および後方予測の両方を行ってもよい。

また、動きベクトル検出部２０８は、ＳＳＤやＳＡＤを求めて部分領域の対応付けを行っているが、この構成に限定されない。例えば、動きベクトル検出部２０８は、部分領域上の各節点の座標や、部分領域内の色情報を予め定めた（Scale-Invariant Feature Transform）ＳＩＦＴ特徴量や色ベクトルなどのクラスタ中心を用いて符号化してもよい。そして、動きベクトル検出部２０８は、これらについてＫ平均法によるクラスタリングを行ってもよい。その詳細は、「Lowe, D.G., "Object recognition from local scale invariant features", Proc. of IEEE International Conference on Computer Vision (1999), pp.1150-1157.」に記載されている。この場合、同じクラスタに属する部分領域が優先して対応付けられ、対応する部分領域には同じ領域ＩＤが付与される。この手法により、同じ領域ＩＤを付与すべき部分領域を高い確率で抽出することができる。

予測フレーム生成部２０６は、基準フレームおよび節点動きベクトルに基づいて、非基準フレームを予測した予測フレームを生成するものである。この予測フレーム生成部２０６は、フレームバッファ２０７から基準フレームを取得し、基準フレーム内の部分領域のそれぞれについて、その境界線上の節点を、その節点に対応する節点動きベクトルに従って移動させる。予測フレーム生成部２０６は、節点動きベクトルに従って移動させた節点により囲まれた領域を予測フレームにおける部分領域として生成する。節点間の線分は、例えば直線補間アルゴリズムにより補間される。なお、予測フレーム生成部２０６は、直線補間以外の補間アルゴリズム（スプライン補間やベジェ補間などのアルゴリズム）により、節点間の線分を補間してもよい。

予測フレーム内の部分領域内の特徴量（色など）は、基準フレーム内の対応する部分領域と同一に設定される。このように、基準フレームと節点動きベクトルから、非基準フレームを生成する処理は、動き補償処理と呼ばれる。予測フレーム生成部２０６は、生成した部分領域からなる予測フレームを減算器２０２および加算器２０５へ供給する。

減算器２０２は、入力フレームと、その入力フレームに対応する予測フレームとの差分を求めるものである。この減算器２０２は、入力フレーム内の画素の画素値と、その画素に対応する予測フレーム内の画素の画素値との差分を画素ごとに求め、それらの差分からなるフレームを差分フレームとして整数変換部２０３に供給する。この差分フレームは、非基準フレームの予測における予測誤差を示す。また、減算器２０２は、必要に応じて、差分フレームを領域分割部２１０にも供給する。具体的には、領域分割部２１０が予測誤差に基づいて終了条件を変更する場合に、差分フレームが領域分割部２１０に供給される。

整数変換部２０３は、部分領域のそれぞれについて整数変換を行うものである。ここで、整数変換とは、部分領域の映像信号を整数精度で、周波数成分に変換（直交変換）することである。直交変換として、例えば、ＤＣＴ（Discrete Cosine Transform：離散コサイン変換）やＤＨＴ（Discrete Hadamard Transform：離散アダマール変換）が用いられる。整数変換部２０３は、部分領域を整数精度ＤＣＴにより直流成分に変換し、その直流成分に対して必要に応じてＤＨＴを行う。整数変換部２０３は、直交変換により得られた変換係数を逆整数変換部２０４およびエントロピー符号化部２０９に供給する。

なお、符号化部２００は、部分領域を整数変換しているが、この構成に限定されない。符号化部２００は、例えば、部分領域を実数精度のＤＣＴにより周波数成分に変換してもよい。また、符号化部２００は、周波数成分にフィッティングするためのものであれば整数変換やＤＣＴ以外の変換方式を用いることができる。例えば、符号化部２００は、冪関数やフルーエンシー関数による変換を行ってもよい。フィッティングする対象の部分領域は、ブロックなどの一定形状ではなく、自由境界を持つ領域であるが、座標追加や座標変換などを行って、部分領域の正方化などを行えば、さほど問題にはならない。

逆整数変換部２０４は、変換係数を、整数変換前の元の部分領域に変換するものである。逆整数変換部２０４は、変換した部分領域を領域結合部２２０に供給する。

領域結合部２２０は、部分領域を結合して差分フレームを生成するものである。この領域結合部２２０は、生成した差分フレームを加算器２０５に供給する。

加算器２０５は、予測フレームに、その予測フレームに対応する差分フレームを加算するものである。この加算器２０５は、予測フレーム内の画素の画素値と、その画素に対応する差分フレーム内の画素の画素値との加算値を画素ごとに求め、それらの加算値の画素からなるフレームを入力フレームとしてフレームバッファ２０７に保持させる。フレームバッファ２０７は、入力フレームを保持するものである。

エントロピー符号化部２０９は、基準フレームおよび変換係数をエントロピー符号化するものである。このエントロピー符号化部２０９は、フレームバッファ２０７から基準フレームを取得し、その基準フレームおよび変換係数をエントロピー符号に符号化し、符号化データを生成する。エントロピー符号として、例えば、ハフマン符号が用いられる。なお、エントロピー符号は、算術符号であってもよい。エントロピー符号化部２０９は、生成した符号化データをバス１１２に供給する。

なお、符号化データ出力部２０１は、基準フレームおよび節点動きベクトルに加えて、予測誤差を示す変換係数を符号化しているが、変換係数を符号化せずに基準フレームおよび節点動きベクトルのみを符号化してもよい。ＣＧ（Computer Graphics）やアニメなど、予測誤差が少ない動画データであれば、変換係数を符号化しなくても動画の品質を維持しつつ、データ量を削減することができる。

また、符号化部２００は、差分フレームのデータ量に基づいて新たな基準フレームを設定してもよい。例えば、符号化部２００は、非基準フレームについての差分フレームのデータ量が許容値を超えた場合、その非基準フレームを新たな基準フレームとして設定する。符号化部２００は、新たな基準フレームおよび非基準フレームにおいて領域および節点を対応付け、領域ＩＤおよび節点ＩＤの付け直しを行う。

また、領域分割部２１０は、予測誤差に関わらず、領域分割におけるクラスタリングの終了条件を一定としているが、予測誤差に基づいて終了条件を変更してもよい。この場合、領域分割部２１０は、差分データまたは変換係数を予測誤差として取得し、その予測誤差に応じた分割数が得られるように終了条件を変更する。具体的には、領域分割部２１０は、予測誤差が大きいほど、終了条件におけるクラスタ数の上限値を大きくし、予測誤差が少ないほど上限値を小さくする。あるいは、領域分割部２１０は、予測誤差が大きいほど、終了条件におけるエラー率についての許容比率を小さくし、予測誤差が少ないほど許容比率を大きくする。もしくは、領域分割部２１０は、上限値および許容比率を両方とも変更する。これにより、領域分割部２１０は、入力フレームを適切な個数に分割することができる。

また、領域分割部２１０は、差分フレームのデータ量が許容値を超える場合、差分フレームに対応する非基準フレーム内の一部に対して領域分割処理を繰り返してもよい。例えば、領域分割部２１０は、データ量が許容値を超える差分フレームにおいて予測誤差が規定値より大きい一部の区画だけを抽出する。そして、領域分割部２１０は、抽出した区画だけを対象区画として、差分フレームに対応する非基準フレーム内の対象区画を再度領域分割し、新たに生成された部分領域や、また、その対象区画内の節点にＩＤを振り直す。この際は、非基準フレーム内の対象区画以外に存在する部分領域や、そこに含まれる節点に関しては再度のＩＤの振り直しは不要になるため、新たな基準フレームを設定して全領域の領域分割処理を再度行うよりは処理時間を短くすることができる。

［領域分割部の構成例］
図３は、第１の実施の形態における領域分割部の一構成例を示すブロック図である。この領域分割部２１０は、ＨＳＶ変換部２１１、減色処理部２１２、部分領域分割部２１３、領域情報付加部２１４および節点情報付加部２１５を備える。

ＨＳＶ変換部２１１は、入力フレームにおいてＨＳＶ変換を行うものである。ＨＳＶ変換部２１１は、ＨＳＶ変換した入力フレームを減色処理部２１２に供給する。

減色処理部２１２は、ＨＳＶ変換部２１１からの入力フレームに対し、減色処理を行うものである。減色処理部２１２は、減色処理を行った入力フレームを部分領域分割部２１３に供給する。

部分領域分割部２１３は、減色処理後の入力フレームを、特徴量の異なる複数の領域に分割するものである。部分領域分割部２１３は、分割した入力フレームを領域情報付加部２１４および節点情報付加部２１５に供給する。

領域情報付加部２１４は、ＨＳＶ変換前の入力フレームに領域情報を付加するものである。領域情報付加部２１４は、分割された部分領域のそれぞれに入力フレーム内において一意な領域ＩＤを付与し、部分領域ごとに基準座標を求めて、それらを含む領域情報を生成して入力フレームに付加する。領域情報付加部２１４は、領域情報を付加した入力フレームを節点情報付加部２１５に供給する。

節点情報付加部２１５は、領域情報が付加された入力フレームに節点情報をさらに付加するものである。節点情報付加部２１５は、部分領域ごとに、その境界線上に複数の節点を設け、節点のそれぞれに入力フレーム内において一意な領域ＩＤを付与する。節点情報付加部２１５は、節点ＩＤおよび節点座標を含む節点情報を節点ごとに生成して入力フレームに付加する。節点情報付加部２１５は、節点情報を付加した入力フレームを符号化データ出力部２０１および動きベクトル検出部２０８に供給する。

［符号化データの構成例］
図４は、第１の実施の形態における符号化データのデータ構造の一例を示す図である。符号化データは、タイトルおよび基本情報を含む。この基本情報は、動画データに関する情報であり、元画像のサイズや、エンコードバーション情報が格納される。

基本情報に対応付けて、入力フレームのそれぞれのフレーム情報が格納される。フレーム情報のそれぞれは、フレームＩＤ、基準画像サイズ、原点座標およびズーム倍率などを含む。フレームＩＤは、フレームを識別するための情報であり、動画内において一意な情報が付与される。これらのタイトル、基本情報およびフレーム情報は、符号化前の元の動画データに予め含まれていたものである。

フレーム情報のそれぞれに対応付けて、そのフレーム情報の示す入力フレーム内の複数の部分領域のそれぞれの領域情報が格納される。非基準フレームにおいて領域情報のそれぞれは、領域ＩＤ、基準座標および参照先領域ＩＤを含む。ここで、非基準フレームの参照先領域ＩＤは、同じグループ内の基準フレームにおいて対応付けられた部分領域の領域ＩＤである。一方、基準フレームの参照先領域ＩＤには無効な値が設定される。それぞれの参照先領域ＩＤには、１つの領域ＩＤが設定される。例えば、ある非基準フレームの領域ＩＤが「Ａ１」である部分領域の参照先領域ＩＤが「Ａ２」であれば、その非基準フレームの部分領域「Ａ１」に対応する基準フレーム上の部分領域は「Ａ２」である。

領域情報において領域ＩＤおよび基準座標は、領域分割部２１０により生成される。また、参照先領域ＩＤは、動きベクトル検出部２０８により生成される。また、領域情報は、エントロピー符号化部２０９により符号化されるが、図４において記載の便宜上、符号化前の状態のデータが記載されている。

そして、基準フレームの領域情報に対応付けて、その領域情報の示す領域の境界線上の複数の節点のそれぞれの節点情報と色情報とが格納される。一方、非基準フレームの領域情報には節点情報のみが対応付けられる。節点情報のそれぞれは、節点ＩＤ、節点座標、節点動きベクトルおよび隣接節点ＩＤを含む。ただし、基準フレームにおいて全ての節点の節点動きベクトルには、零ベクトルが設定される。また、非基準フレームにおいて、全ての節点座標には無効な値が設定される。

ここで、隣接節点ＩＤは、隣接する節点の節点ＩＤである。隣接節点ＩＤには、複数の節点ＩＤが設定される。例えば、節点ＩＤが「Ｐ１」である節点の隣接節点ＩＤが「Ｐ２」および「Ｐ３」であれば、「Ｐ１」の節点は「Ｐ２」および「Ｐ３」の節点と接続される。そして、「Ｐ１」および「Ｐ２」を接続した線分と「Ｐ１」および「Ｐ３」を接続した線分とが境界線上の線分として描画される。

節点情報において、節点ＩＤ、節点座標および隣接節点ＩＤは、領域分割部２１０により生成される。また、節点動きベクトルは、動きベクトル検出部２０８により生成される。また、節点情報は、エントロピー符号化部２０９により符号化されるが、図４において記載の便宜上、符号化前の状態のデータが記載されている。

色情報は、エントロピー符号化された部分領域のデータである。この色情報は、エントロピー符号化部２０９により生成される。なお、非基準フレームのそれぞれに対応付けて、変換係数がさらに格納されるが、図４において変換係数は省略されている。

［復号部の構成例］
図５は、第１の実施の形態における復号部３００の一構成例を示すブロック図である。この復号部３００は、エントロピー復号部３０１、予測フレーム生成部３０２、逆整数変換部３０３、加算器３０４および領域結合部３０５を備える。

エントロピー復号部３０１は、エントロピー符号化アルゴリズムに対応する復号アルゴリズムを使用して符号化データを復号するものである。復号により、基準フレームと、非基準フレームの領域情報および節点情報と、変換係数とが得られる。基準フレームには、基準フレームの領域情報および節点情報が付加されている。エントロピー復号部３０１は、その基準フレームをバス１１２および予測フレーム生成部３０２に供給し、非基準フレームの領域情報および節点情報を予測フレーム生成部３０２に供給する。また、エントロピー復号部３０１は、変換係数を逆整数変換部３０３に供給する。なお、エントロピー復号部３０１は、特許請求の範囲に記載の基準フレーム取得部の一例である。

予測フレーム生成部３０２の構成は、符号化部２００における予測フレーム生成部２０６と同様である。生成された予測フレームには、フレーム情報、領域情報および節点情報が付加されている。この節点情報における節点座標には、基準フレームの節点を、非基準フレームの節点動きベクトルに従って移動させた節点の座標が設定される。予測フレーム生成部３０２は、その予測フレームを加算器３０４に供給する。逆整数変換部３０３の構成は、符号化部２００における逆整数変換部２０４の構成と同様である。逆整数変換部３０３は、生成した部分領域を領域結合部３０５に供給する。

領域結合部３０５の構成は、符号化部２００における領域結合部２２０の構成と同様である。領域結合部２２０は、生成した差分フレームを加算器３０４に供給する。加算器３０４の構成は、符号化部２００における加算器２０５の構成と同様である。加算器３０４は、生成した入力フレームをバス１１２に供給する。

図６は、第１の実施の形態における符号化前の動画データと符号化データとの一例を示す図である。動画データは、複数の入力フレームを時系列順に含む。そして、Ｌ（Ｌは整数）＋１個の入力フレームからなるグループごとに、１つの基準フレームが含まれる。そのグループにおいて、基準フレーム以外のＬ個の入力フレームは、非基準フレームとして扱われる。

これらのフレームは領域分割部２１０により領域分割され、動きベクトル検出部２０８により節点ごとに節点動きベクトルが求められる。そして、領域分割された基準フレームと節点動きベクトルとを含むデータがエントロピー符号化部２０９により符号化され、符号化データが生成される。一般に、節点動きベクトルのデータ量は、非基準フレームのデータ量に対して非常に少ない。このため、非基準フレームの代わりに節点動きベクトルを符号化した符号化データのデータ量は、動画データに対して非常に少なくなる。

図７は、第１の実施の形態における基準フレームおよび非基準フレームと節点と節点ごとの節点動きベクトルとの一例を示す図である。同図におけるａは、基準フレーム７０１の一例を示す図である。この基準フレーム７０１は、ＨＳＶ変換処理および減色処理の後、複数の部分領域に分割される。記載の便宜上、ＨＳＶ変換処理および減色処理を行った状態のフレームは省略されている。基準フレーム７０１の一部を拡大した矩形領域７０３には、四角形の部分領域と、五角形の部分領域とが含まれる。これらの部分領域以外の部分領域は、省略されている。部分領域のそれぞれの頂点に、白丸で表現された節点が設けられる。また、矩形領域７０３において黒丸の座標は、部分領域の基準座標を示す。

次に同７におけるｂは、非基準フレーム７０２の一例を示す図である。この非基準フレーム７０２も、ＨＳＶ変換処理および減色処理の後、複数の部分領域に分割される。非基準フレーム７０２において一部を拡大した矩形領域７０４には、四角形の部分領域が２つ含まれる。部分領域のそれぞれの頂点に節点が設けられる。

図７におけるｃは、節点動きベクトルの一例を示す図である。矩形領域７０３内の節点に対して、矩形領域７０４内の節点が１対１で対応付けられる。そして、対応する節点を両端とするベクトルが節点動きベクトルとして検出される。例えば、基準フレーム内の節点を始点とし、非基準フレーム内の節点を終点とする節点動きベクトルが検出される。

このように、符号化部２００が部分領域の境界線上の節点ごとに節点動きベクトルを求めることにより、入力フレーム間で部分領域の形状が変化しても、復号部３００は、節点動きベクトルから変化後の部分領域の形状を予測することができる。

［撮像装置の動作例］
図８は、第１の実施の形態における符号化処理の一例を示すフローチャートである。この符号化処理は、例えば、動画データが符号化部２００に入力されたときに開始される。符号化部２００は、入力フレームを複数の領域に分割する領域分割処理を実行する（ステップＳ９１０）。符号化部２００は、基準フレームおよび非基準フレームから、節点ごとに節点動きベクトルを検出する（ステップＳ９０１）。符号化部２００は、基準フレームおよび節点動きベクトルに基づいて、予測フレームを生成する（ステップＳ９０２）。そして、符号化部２００は、予測フレームおよび非基準フレームの差分フレームを生成する（ステップＳ９０３）。

符号化部２００は、差分フレームを部分領域ごとに整数変換し（ステップＳ９０４）、基準フレームや節点動きベクトルをエントロピー符号化する（ステップＳ９０５）。符号化部２００は、整数変換したデータを逆整数変換して元の部分領域を生成する（ステップＳ９０６）。そして、符号化部２００は、部分領域を結合して差分フレームを生成し、その差分フレームおよび予測フレームから入力フレームを生成する（ステップＳ９０７）。符号化部２００は、次の入力フレームがあるか否かを判断する（ステップＳ９０８）。次の入力フレームがある場合には（ステップＳ９０８：Ｙｅｓ）、符号化部２００はステップＳ９１０に戻り、そうでない場合には（ステップＳ９０８：Ｎｏ）、符号化処理を終了する。

図９は、第１の実施の形態における領域分割処理の一例を示すフローチャートである。符号化部２００は、入力フレームをＨＳＶ変換し（ステップＳ９１１）、減色処理を行う（ステップＳ９１２）。符号化部２００は、ＨＳＶ変換および減色処理後の入力フレームを、特徴量の異なる複数の部分領域に分割する（ステップＳ９１３）。符号化部２００は、部分領域ごとに領域情報を生成して入力フレームに付加し（ステップＳ９１４）、節点ごとに節点情報を生成して入力フレームにさらに付加する（ステップＳ９１５）。ステップＳ９１５の後、符号化部２００は、領域分割処理を終了する。

図１０は、第１の実施の形態における復号処理の一例を示すフローチャートである。この復号処理は、例えば、符号化データが復号部３００に供給されたときに開始する。復号部３００は、エントロピー符号化アルゴリズムに対応する復号アルゴリズムにより符号化データを復号する（ステップＳ９５１）。復号部３００は、変換係数を逆整数変換して複数の部分領域を生成し（ステップＳ９５２）、それらの部分領域を結合して差分フレームを生成する（ステップＳ９５３）。また、復号部３００は、基準フレームと節点ごとの節点動きベクトルとから予測フレームを生成する（ステップＳ９５４）。そして、復号部３００は、予測フレームおよび差分フレームを加算して非基準フレームを復号する（ステップＳ９５５）。復号部３００は、最後の入力フレームを復号したか否かを判断する（ステップＳ９５６）。最後の入力フレームを復号した場合には（ステップＳ９５６：Ｙｅｓ）、復号処理を終了し、そうでない場合に（ステップＳ９５６：Ｎｏ）、復号部３００はステップＳ９５２に戻る。

このように、本技術の第１の実施の形態によれば、撮像装置１００は、フレームを特徴量の異なる複数の部分領域に分割し、それらの境界線上の節点ごとに動きベクトルを検出するため、ブロックに分割せずに動画を符号化することができる。これにより、ブロックノイズが生じなくなり、動画の画質が向上する。

［変形例］
第１の実施の形態では、撮像装置１００が符号化データの復号を行う構成としていたが、撮像装置１００の外部の装置が復号を行ってもよい。変形例の画像処理システムは、撮像装置１００の外部の装置が符号化データの復号を行う点において第１の実施の形態と異なる。

図１１は、変形例における画像処理システムの一例を示す斜視図である。この画像処理システムは、撮像装置１００および表示装置４００を備える。変形例の撮像装置１００の構成は、第１の実施の形態と同様である。撮像装置１００は、符号化データを表示装置４００に信号線１０９を介して供給する。例えば、ＨＤＭＩ（登録商標）ケーブルが、信号線１０９として用いられる。

ＨＤＭＩ（登録商標）ケーブルの転送レートは、最大３Ｇｂｐｓ（Giga bit per second）と大変高速であり、圧縮によりデータ量が削減された符号化データの転送は容易である。

表示装置４００は、符号化データを元の動画データに復号して、その動画データ内のフレームを時系列順に表示するものである。

図１２は、変形例における画像処理システムの一例を示すブロック図である。表示装置４００は、表示部４１０および復号部４２０を備える。復号部４２０の構成は、撮像装置１００における復号部３００と同様である。復号部４２０は、符号化データを撮像装置１００から取得し、元の動画データに復号して表示部４１０に供給する。表示部４１０は、動画データ内の入力フレームを時系列順に表示するものである。

符号化データの送受信において、撮像装置１００は、表示装置４００が復号可能な符号化方式を問い合わせるリクエストを送信し、表示装置４００は、そのリクエストに応答してレスポンスを返信する。撮像装置１００は、表示装置４００が符号化データを復号できる場合には、その符号化データを転送する。転送方式は、パケット単位で転送するＰＥＳ（Packetized Elementary Stream）による転送であってもよいし、転送しながら再生を行うプログレッシブ転送方式であってもよい。

なお、撮像装置１００は、符号化データを表示装置４００に転送しているが、信号線１０９の転送レートが十分に高速である場合には、復号した動画データを転送してもよい。この場合には、撮像装置１００は、表示装置４００が画面サイズなどを問い合わせるリクエストを送信し、表示装置４００は、そのリクエストに応答してレスポンスを返信する。撮像装置１００は、レスポンスに基づいて、符号化データを動画データに復号して、表示装置４００に送信する。

図１３は、変形例における符号化データを含むファイルのヘッダのデータ構成の一例を示す図である。同図に示すように、ヘッダには、「ｆｔｙｐ」などの情報が記載される。

図１４は、変形例における符号化データを含むファイルのヘッダの項目および概要の一例を示す図である。同図に示すように、「ｆｔｙｐ」には、互換性に関する情報が記載される。

符号化データの圧縮フォーマットは、ＭＰＥＧ（Moving Picture Experts Group）とは異なるものであるが、ファイルフォーマットのヘッダ部分だけはＭＰＥＧに準拠可能である。撮像装置１００は、図１３および図１４に例示したように、ＭＰＥＧ形式のヘッダを用い、そのヘッダ内の「ｆｔｙｐｅ」に、符号化データを識別するコードを記載する。これにより、他方式のデコーダーでの符号化データの再生禁止と符号化データの規格に準拠したデコーダーへのファイルの取り込みが円滑になる。また、近年のビデオプレーヤーでは「ｆｔｙｐｅ」部分を読み込んで、自動的にデコード形式を認識してからデコードし、動画を再生する製品もあることから、ビデオプレーヤーの利便性を高めることも可能である。

このように、第１の実施の形態の変形例によれば、撮像装置１００が符号化データを復号せずに送信し、表示装置４００が復号を行うため、復号してから送信する構成と比較して装置間の転送データ量を削減することができる。

＜２．第２の実施の形態＞
［撮像装置の構成例］
第１の実施の形態では、撮像装置１００は、復号したフレームを拡大せずに出力していたが、このフレームを拡大（いわゆる、アップコンバート）して出力してもよい。今日のハイビジョンデジタルテレビ放送では通常の１０８０ｉ、７２０ｐおよび１０８０ｐなどの解像度の動画が放送されているが、今後、４Ｋ、８Ｋと呼ばれる２１６０ｐや４３２０ｐなどの動画が放送される可能性がある。また、最近になって８０インチの４Ｋテレビが発売されるなど、既存ハイビジョン放送のアップコンバージョン技術には、一定の必要性がある。第２の実施の形態の撮像装置１００は、復号したフレームを拡大する点において第１の実施の形態と異なる。

図１５は、第２の実施の形態における撮像装置１００の一構成例を示すブロック図である。この撮像装置１００は、解像度変換部３１０をさらに備える点において第１の実施の形態と異なる。

解像度変換部３１０は、解像度の変換により、復号後の動画データ内の入力フレームの一部を拡大するものである。この入力フレームには、領域情報および節点情報が復号部３００により付加されているものとする。解像度変換部３１０は、拡大したフレームをビデオメモリ１１３、記録媒体１１９またはインターフェース１２１へ供給する。

［解像度変換部の構成例］
図１６は、第２の実施の形態における解像度変換部３１０の一構成例を示すブロック図である。この解像度変換部３１０は、拡大部３１１、補間アルゴリズム変更部３１２および縮小部３１３および減算器３１４を備える。

拡大部３１１は、復号後の入力フレームの一部を拡大するものである。拡大部３１１には、拡大率およびズーム範囲が設定される。ここで、ズーム範囲は、入力フレームのうち拡大する対象の範囲を示す。ズーム範囲は、例えば、ユーザの操作に従って設定される。また、拡大率は、例えば、ズーム範囲のサイズと拡大前の入力フレームのサイズとの比率に設定される。拡大部３１１は、バス１１２から入力フレームを取得し、その入力フレーム内のズーム範囲を拡大する。拡大において、拡大部３１１は、ズーム範囲内の節点のそれぞれの位置を、拡大率に応じて変更する。具体的には、節点座標が（ｘ，ｙ）であり、拡大率がｒ（ｒは実数）であると拡大部３１１は、（ｒ×ｘ，ｒ×ｙ）の座標に節点の位置を変更する。そして、拡大部３１１は、領域情報および節点情報に基づいて変更後の節点間を補間アルゴリズムにより線分で補間し、その線分により囲まれる新たな部分領域内に、その部分領域に対応する元の部分領域の色情報を設定する。ここで、拡大部３１１は、複数の補間アルゴリズム（直線補間アルゴリズム、ベジェ補間アルゴリズムおよびスプライン補間アルゴリズムなど）を記憶しており、それらの中のいずれかのアルゴリズムを用いる。拡大部３１１は、ズーム範囲を拡大したフレームを拡大フレームとして縮小部３１３に供給する。

縮小部３１３は、拡大フレームを縮小するものである。縮小部３１３は、拡大率および拡大フレームを受け取り、その拡大率の逆数を縮小率として拡大フレームを縮小する。縮小において、縮小部３１３は、拡大フレーム内の節点のそれぞれの位置を、縮小率に応じて変更する。そして、縮小部３１３は、領域情報および節点情報に基づいて変更後の節点間を補間アルゴリズムにより線分で補間し、その線分により囲まれる新たな部分領域内に、その部分領域に対応する元の部分領域の色情報を設定する。ここで、縮小部３１３においては、拡大部３１１と同様の補間アルゴリズムが用いられる。縮小部３１３は、縮小したフレームを縮小フレームとして減算器３１４に供給する。

減算器３１４は、入力フレームと、その入力フレームに対応する縮小フレームとの差分を求めるものである。減算器３１４は、入力フレーム内の画素の画素値と、その画素に対応するフレーム内の画素の画素値との差分を画素ごとに求め、それらの差分からなるフレームを差分フレームとして整数変換部２０３に供給する。この差分フレームは、補間における補間誤差を含む。

補間アルゴリズム変更部３１２は、補間誤差に基づいて補間アルゴリズムを変更するものである。この補間アルゴリズム変更部３１２は、差分フレームのうち、ズーム範囲内の画素値の統計量（例えば、平均値）を補間誤差として取得する。そして、補間アルゴリズム変更部３１２は、補間誤差に応じて、拡大部３１１および縮小部３１３における補間アルゴリズムを変更する。例えば、補間誤差が許容値より大きければ、補間アルゴリズム変更部３１２は、より精度の高い補間アルゴリズムに変更する。最も補間精度の高い補間アルゴリズムによっても補間誤差が許容値未満にならなかった場合には、補間アルゴリズム変更部３１２は、拡大部３１１に、変換処理の終了を通知する。

拡大部３１１は、補間アルゴリズム変更部３１２により、補間アルゴリズムが変更されなかった場合または変換処理の終了が通知された場合には、拡大フレームをバス１１２へ出力する。補間アルゴリズムが変更された場合には、拡大部３１１は、変更後の補間アルゴリズムを使用して再度、ズーム範囲を拡大して縮小部３１３に供給する。

なお、拡大部３１１は、入力フレーム内の一部（ズーム範囲）を拡大しているが、入力フレーム全体を拡大してもよい。

図１７は、第２の実施の形態における拡大前後のフレームの一例を示す図である。同図におけるａは、拡大前の入力フレームの一例を示す図である。入力フレーム７１０においては、ユーザ等により、ズーム範囲７１１が指定される。このズーム範囲７１１には、部分領域７１２などの部分領域が含まれ、その境界線上には、部分領域７１２の一部を拡大した矩形領域７１３に示すように、複数の節点が設けられている。撮像装置１００は、それらの節点のそれぞれの位置を、拡大率に応じて変更する。

図１７におけるｂは、拡大後の拡大フレーム７２０の一例を示す図である。この拡大フレーム７２０には、部分領域７１２に対応する部分領域７２２などの部分領域が含まれ、その境界線上には、部分領域７２２の一部を拡大した矩形領域７２３に示すように、複数の節点が設けられている。

領域情報および節点情報を用いずにフレームを拡大する場合、隣接する画素間に、解像度に応じた個数の新たな画素を補間するアルゴリズムが用いられる。このような拡大アルゴリズムでは、拡大率が大きいほど、被写体の輪郭がギザギザになるおそれがある。これをなめらかにするためにローパスフィルタなどを用いると、輪郭が不鮮明になってしまう。そこで、従来の画像処理装置では、輝度信号の輪郭を強調補正する輝度トランジェント補正（Luminance Transient Improver）回路などを用いて、エッジ部を強調する必要が生じていた。

これに対して、図１７に例示したように、節点の位置を拡大率に応じて変更して、それらの節点間を補間する撮像装置１００によれば、輝度トランジェント補正回路などを用いずとも、拡大率を高くした状態で輪郭を鮮明に描画することができる。

図１８は、第２の実施の形態における解像度変換処理の一例を示すフローチャートである。この解像度変換処理は、例えば、解像度変換部３１０に入力フレームが入力されたときに開始する。解像度変換部３１０は、補間アルゴリズムを使用してズーム範囲を拡大して拡大フレームを生成し（ステップＳ９６１）、その拡大フレームを縮小する（ステップＳ９６２）。そして、解像度変換部３１０は、縮小フレームと元の入力フレームとの間の差分を算出し（ステップＳ９６３）、その差分が閾値未満であるか否かを判断する（ステップＳ９６４）。差分が閾値未満でない場合には（ステップＳ９６４：Ｎｏ）、解像度変換部３１０は、補間アルゴリズムを変更して（ステップＳ９６５）、ステップＳ９６１に戻る。差分が閾値未満である場合には（ステップＳ９６４：Ｙｅｓ）、解像度変換部３１０は、拡大フレームを出力して解像度変換処理を終了する。

このように、本技術の第２の実施の形態によれば、撮像装置１００は、拡大率に応じて複数の節点のそれぞれの位置を変更して、それらの節点が設けられた線を境界線とする領域から拡大フレームを生成するため、境界線を鮮明に描画することができる。これにより、拡大フレームの画質が向上する。

＜３．第３の実施の形態＞
［領域結合部の構成例］
第１の実施の形態では、撮像装置１００は、各フレームにおいて物体を検出していなかったが、動きベクトルが同一の部分領域の集合を１つの物体として検出することもできる。第３の実施の形態の撮像装置１００は、物体を検出する点において第１の実施の形態と異なる。

図１９は、第３の実施の形態における領域結合部２２０の一構成例を示すブロック図である。この領域結合部２２０は、差分フレーム生成部２２１および物体検出部２２２を備える。

差分フレーム生成部２２１は、部分領域を結合して差分フレームを生成するものである。この差分フレーム生成部２２１は、生成した差分フレームを物体検出部２２２に供給する。

物体検出部２２２は、領域動きベクトルが同一で隣接する部分領域を併合し、併合した領域を物体の領域（以下、「物体領域」と称する。）として検出するものである。ここで、領域動きベクトルは、対応する部分領域の対のそれぞれの基準座標を両端とするベクトルであり、動きベクトル検出部２０８により部分領域ごとに求められる。物体検出部２２２は、各入力フレームにおいて、領域動きベクトルが同一で隣接する部分領域同士を併合する処理を、結合可能な部分領域がなくなるまで繰り返し実行する。そして、物体検出部２２２は、併合した領域のそれぞれを物体領域として検出する。物体検出部２２２は、物体領域に対して、その内部の部分領域のそれぞれを対応付け、物体領域に入力フレーム内において一意な物体ＩＤを付与する。

また、物体検出部２２２は、物体領域において基準となる座標（例えば、重心座標）を設定し、物体領域内の部分領域の各基準座標を、物体領域の基準座標を基準とした相対座標に置き換える。物体検出部２２２は、物体領域の物体ＩＤおよび基準座標を含む物体情報を生成し、差分フレームにさらに付加して加算器２０５に供給する。

第２の実施の形態の動きベクトル検出部２０８は、領域動きベクトルに基づいて物体種別と、物体毎の物体動きベクトルとをさらに求める。物体動きベクトルには、その物体領域内の領域動きベクトルと同一の値が設定される。また、物体種別には、物体の種別を示す情報が設定される。例えば、物体動きベクトルの長さが閾値より長い物体は、物体種別に「移動体」が設定される。そして、領域動きベクトルの長さが閾値以下の物体領域のうち、基準フレームおよび非基準フレームにおいて対応する物体領域がある場合には、その物体領域には「背景」が設定され、そうでない場合には「その他」が設定される。例えば、ノイズ等が生じた領域や、フレーム間で背景が変化した場合には、対応する物体領域がないため、その領域に「その他」が設定される。

ここで、第１の実施の形態では、フレーム間で境界の形状が大きく歪んでしまうものに対しては、その特徴量がずれるために、対応する部分領域の抽出が困難になることがある。そこで、第２の実施の形態の動きベクトル検出部２０８は、領域動きベクトルを用いて、対応する部分領域の抽出精度を向上させることができる。

例えば、動きベクトル検出部２０８は、Ｋ平均法を用いたクラスタリングで同じ動きベクトルを持つ部分領域を抽出し、隣接フレーム間ではそれらの位置関係が大きく変化しないという仮定から特定の部分領域を抽出する。具体的には、動きベクトル検出部２０８は、ＳＳＤやＳＡＤにより各部分領域を対応付けて、それらの部分領域の領域動きベクトルの平均を用いてＫ平均アルゴリズムにより部分領域をクラスタリングする。クラスタリングにおいて、動きベクトル検出部２０８は、隣接する部分領域の組について、その組内の領域が異なるクラスタに属するか否かを検出する。そして、異なるクラスタに属する部分領域の組が一定数より多い場合には、動きベクトル検出部２０８は、同じクラスタに属する部分領域を優先して、部分領域の抽出をやり直す。

このような領域動きベクトルの平均によるクラスタリングによっても対応付けが不能な部分領域の発生も起こり得ると思われる。この場合には、動きベクトル検出部２０８は、その部分領域について参照先領域ＩＤを無効な値にする。例えば、回り込みトラックのように被写体に対して３次元的に回転を伴うような撮像の場合、撮像開始時に存在した部分領域が被写体の裏側に回り込んでしまうことや、若しくはカメラが回り込むことから新たに部分領域が被写体の表側に現れることが起こり得る。この場合は、動きベクトル検出部２０８は、その部分領域の参照先領域ＩＤを無効な値にし、そこから、また時間追跡を行えばよい。

図２０は、第３の実施の形態における移動体を検出したフレームの一例を示す図である。同図におけるａは、部分領域のそれぞれの領域動きベクトルが検出された入力フレーム７３０の一例である。同図のａにおいて、白色の矢印は領域動きベクトルを示す。同図のａに示すように、同一の物体（同図のａでは、電車）内の部分領域のそれぞれの領域の領域動きベクトルは同一である。

図２０におけるｂは、物体が検出された入力フレーム７３０の一例である。撮像装置１００は、領域動きベクトルが同一で隣接する部分領域同士を併合し、併合された領域を物体領域７３１として検出する。なお、物体領域が検出されるフレームは、実際には差分フレームであるが、同図においては、説明の便宜上、その差分フレームに対応する入力フレームが例示されている。

図２１は、第３の実施の形態における符号化データのデータ構造の一例を示す図である。第３の実施の形態の符号化データにおいて、フレーム情報には、物体情報８０１が対応付けられる。この物体情報８０１は、物体ＩＤ、基準座標、物体動きベクトル、参照先物体ＩＤおよび物体種別を含む。ここで、非基準フレームにおける参照先物体ＩＤは、基準フレームにおいて対応する物体領域の物体ＩＤである。一方、基準フレームにおいて、参照先物体ＩＤには無効な値が設定される。

物体情報のうち、物体ＩＤおよび基準座標は、物体検出部２２２により生成される。また、物体動きベクトル、物体種別および参照先物体ＩＤは、動きベクトル検出部２０８により生成される。

また、物体情報に対応付けて、その物体情報の示す物体領域内の部分領域のそれぞれの領域情報が格納される。第３の実施の形態の領域情報は、領域動きベクトルをさらに含む。この領域動きベクトルは、動きベクトル検出部２０８により生成される。

図２２は、第３の実施の形態における入力フレームの階層構造の一例を示す図である。同図に示すように、入力フレームには、移動体や背景の物体領域が対応付けられる。そしてそれぞれの物体領域には、その物体領域内の部分領域のそれぞれが対応付けられる。

［画像処理装置の構成例］
図２３は、第３の実施の形態における画像処理装置５００の一構成例を示すブロック図である。この画像処理装置５００は、撮像装置１００から符号化データを取得して復号し、復号したデータに対して所定の画像処理を行うものである。画像処理装置５００は、復号部５０１、記憶部５０２、マスク処理部５０３および合成部５０４を備える。

復号部５０１の構成は、第１の実施の形態における復号部３００と同様である。復号部５０１は、記憶部５０２から符号化データを読み出して復号して動画データを生成し、その動画データを記憶部５０２に供給する。記憶部５０２は、符号化データ、動画データおよび背景フレームを記憶するものである。ここで、背景フレームは、入力フレームと合成するためのフレームであり、予め記憶部５０２に格納されている。

マスク処理部５０３は、入力フレームにおいて、ユーザの操作などにより指定された物体領域をマスクするものである。例えば、移動体が、マスクする物体として指定される。このマスク処理部５０３は、入力フレームに付加された領域情報および節点情報に基づいてマスクする領域を求め、その領域をマスクしたフレームを生成して合成部５０４に供給する。

合成部５０４は、マスクされたフレームと背景フレームとを合成するものである。この合成部５０４には、合成の比率を示すアルファ値が設定される。合成部５０４には、その合成の比率に基づいて合成を行う。このような合成処理は、アルファブレンドと呼ばれる。合成部５０４は、合成したフレームを合成フレームとして、外部の表示装置などに出力する。

図２４は、第３の実施の形態における合成前後のフレームの一例を示す図である。同図におけるａは、入力フレームの一例である。この入力フレームには物体情報および節点情報等が付加されている。入力フレーム７５１の一部を拡大した矩形領域７５２内の実線は、物体情報および節点情報の示す物体の境界線を示す。また、矩形領域７５２内の白丸は、節点情報の示す節点を示す。

図２４におけるｂは、マスクしたフレーム７５３の一例である。このフレーム７５３では、ユーザ等により馬がマスクする対象として指定され、画像処理装置５００は、物体情報および節点情報に基づいて、その馬の領域をマスクしている。

図２４におけるｃは、合成する背景フレーム７５４の一例を示す図である。同図におけるｄは、背景フレーム７５４と、マスクしたフレーム７５３とを合成した合成フレーム７５５の一例を示す図である。同図のｄに示すように、入力フレーム７５１内の馬の領域が、背景フレーム７５４に合成された合成フレーム７５５が生成される。

ところで、現在、動画の編集は、コンピュータを用いたノンリニア編集が一般的である。近年では、アドビシステムズのソフトウェアであるAfter Effects（登録商標）などを使用して、パーソナルコンピュータ上でも動画編集が可能になり、一般消費者でも十分な機能を利用できるようになっている。この動画編集において、背景を差し替えるクロマキ―合成を行う従来の画像処理装置は、ブルーバックもしくはグリーンバックをキーとして用いてマスク処理を行う。そして、画像処理装置は、マスクしたフレームからアルファブレンドによる移動マスクを作成し、マスクする部分に背景を表示させることで背景の差し替えを可能にしている。

しかし、ブルーバックやグリーンバックを用いる場合、反射光などの影響を除去することができないため、映画撮影などではポストプロダクションによる手作業で移動マスクを作成し背景合成している例もある。このように、物体情報および節点情報を使用しない従来の画像処理装置では、マスク処理を自動で行うことが困難である。

これに対して、画像処理装置５００は、入力フレームに付加された物体情報および節点情報を使用して、図２４に例示したように、マスクする領域を容易に検出することができる。これにより、クロマキ―合成や手作業による移動マスクの作成が不要になり、作成動画の画質が向上し、また、動画製作のコストが低減する。

図２５は、第３の実施の形態における合成処理の一例を示すフローチャートである。この合成処理は、例えば、マスクする物体が指定されたときに開始する。画像処理装置５００は、物体情報および節点情報に基づいて、指定された物体をマスクするマスク処理を実行し（ステップＳ９７１）、マスクしたフレームに背景フレームを合成する（ステップＳ９７２）。ステップＳ９７２の後、画像処理装置５００は合成処理を終了する。

このように第３の実施の形態によれば、画像処理装置５００は、復号において基準フレームの節点と節点動きベクトルとから非基準フレームの節点の位置を求めるため、それらの節点からマスクする物体の輪郭を正確に取得することができる。そして、画像処理装置５００は、その物体をマスクし、マスクしたフレームと合成対象のフレームとを合成するため、ユーザの手作業によらずに簡易に合成処理を行うことができる。

＜４．第４の実施の形態＞
［画像処理装置の構成例］
第３の実施の形態では、画像処理装置５００は、入力フレームにおいて合成処理を行っていたが、合成処理の代わりに物体認識を行うこともできる。第４の実施の形態の画像処理装置５００は、入力フレームにおいて物体認識を行う点において第３の実施の形態と異なる。

図２６は、第４の実施の形態の画像処理装置５００の一構成例を示すブロック図である。この画像処理装置５００は、マスク処理部５０３および合成部５０４の代わりに物体認識部５０５を備える点において第３の実施の形態と異なる。

物体認識部５０５は、入力フレームにおいて、ユーザなどにより指定された物体を認識するものである。この物体認識部５０５には、検索対象の物体が入力される。画像処理装置５００は、タッチパネル（不図示）などを有し、物体の入力においてタッチパネル上に入力フレームを表示する。その表示された入力フレームにおいて、ユーザが物体のいずれかを指で触れる操作などにより指定すると、その物体の画像データおよび物体情報が検索対象（言い換えれば、認識対象）として物体認識部５０５に入力される。このように、物体認識において認識対象とされる物体の領域は、ＲＯＩ（Region of Interest:関心領域）と呼ばれる。

物体認識部５０５は、入力された画像データの特徴量および物体種別を取得し、その特徴量および物体種別に基づいて、動画データ内の各入力フレームにおいて、検索対象の物体を検索する。この検索処理において、物体認識部５０５は、物体種別が同一の物体を優先して認識する。また、物体認識部５０５は、特徴量の類似度が高い物体領域を優先して認識する。物体認識部５０５は、物体を認識した入力フレームにおいて、認識した物体の境界線を強調表示するなどの処理を行い、出力フレームとして表示装置などに出力する。

第３の実施の形態において例示したように、復号した動画データにおいて物体情報が入力フレームに付加されているため、物体認識部５０５は、物体種別が同一の物体を優先して認識することができる。また、入力フレームに節点情報が付加されているため、ＲＯＩの抽出が容易となる。これにより、物体の認識精度が向上する。

なお、画像処理装置５００に対するユーザの操作により検索対象の物体の画像データが入力される構成としているが、画像処理装置５００の外部の装置から画像データを受信する構成としてもよい。例えば、画像処理装置５００の機能をネットワークに接続されたサーバに搭載し、サーバは、そのネットワークを介して検索対象の画像データを移動体通信端末等から受信する。一般に、物体認識処理は負荷の大きい処理であり、移動体通信機器などの情報処理能力では対応できないこともある。この場合などに、サーバが物体認識を行う通信システムが用いられる。

この通信システムにおいて、移動体端末は、入力フレームに付加された物体情報および節点情報に基づいて、ユーザの操作に従って検索対象の物体領域を検出し、サーバに、その物体の画像データを送信する。これにより、ネットワーク上に物体認識に必要な最小限の情報だけを送ることが可能になる。転送される情報量が減ることにより、通信速度の遅い回線でも実使用上問題とならない時間で画像データを転送することが可能になる。また、情報トラフィック量が減ることによりネットワークの負荷が低減する。

図２７は、第４の実施の形態における検索処理を説明するための図である。同図におけるａは、動画データ内の入力フレームの一例である。この動画データには、様々な移動体や背景が撮像された入力フレーム７６１、７６３および７６５等が含まれる。これらの入力フレームには、物体情報および節点情報が付加されている。入力フレーム７６１、７６３および７６５のそれぞれの一部を拡大した矩形領域７６２、７６４および７６６内の実線は、物体情報および節点情報の示す物体の境界線を示す。また、矩形領域７６２、７６４および７６６内の白丸は、節点情報の示す節点を示す。

図２７におけるｂは、検索結果として出力された出力フレーム７７０の一例を示す図である。検索対象として馬の画像データが入力されると、画像処理装置５００は、その画像データの特徴量を取得し、入力フレームの各々において、その特徴量に基づいて、検索対象の物体を検索する。このうち入力フレーム７６３において、画像処理装置５００は、検索対象の物体領域が認識される。画像処理装置５００は、認識した物体の境界線を強調表示するなどの処理を行い、出力フレーム７７０として出力する。出力フレーム７７０において、輪郭線７７１は、強調表示された部分である。

図２８は、第４の実施の形態における検索処理の一例を示すフローチャートである。この検索処理は、例えば、画像処理装置５００において、検索処理を実行するためのアプリケーションが実行されたときに開始する。画像処理装置５００は、検索対象の物体の入力を受け付ける（ステップＳ９８１）。物体が入力されると、画像処理装置５００は、その物体の特徴量に基づいて、動画データ内の各入力フレームにおいて、物体を認識する（ステップＳ９８２）。画像処理装置５００は、物体を認識した入力フレームを出力する（ステップＳ９８３）。ステップＳ９８３の後、画像処理装置５００は、検索処理を終了する。

このように、第４の実施の形態によれば、画像処理装置５００は、復号において基準フレームの節点と節点動きベクトルとから非基準フレームの節点の位置を求めるため、それらの節点から検索対象の物体の輪郭を正確に取得することができる。そして、画像処理装置５００は、動画データ内の各フレームにおいて、その検索対象の物体を認識するため、検索対象の物体を含むフレームを容易に抽出することができる。

なお、上述の実施の形態は本技術を具現化するための一例を示したものであり、実施の形態における事項と、特許請求の範囲における発明特定事項とはそれぞれ対応関係を有する。同様に、特許請求の範囲における発明特定事項と、これと同一名称を付した本技術の実施の形態における事項とはそれぞれ対応関係を有する。ただし、本技術は実施の形態に限定されるものではなく、その要旨を逸脱しない範囲において実施の形態に種々の変形を施すことにより具現化することができる。

また、上述の実施の形態において説明した処理手順は、これら一連の手順を有する方法として捉えてもよく、また、これら一連の手順をコンピュータに実行させるためのプログラム乃至そのプログラムを記憶する記録媒体として捉えてもよい。この記録媒体として、例えば、ＣＤ（Compact Disc）、ＭＤ（MiniDisc）、ＤＶＤ（Digital Versatile Disc）、メモリカード、ブルーレイディスク（Blu-ray（登録商標）Disc）等を用いることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

なお、本技術は以下のような構成もとることができる。
（１）時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割部と、
前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部と、
前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力部と
を具備する符号化装置。
（２）前記基準フレーム上の前記部分領域において基準になる基準座標と前記非基準フレーム上の前記部分領域において基準になる基準座標とを両端とするベクトルを前記部分領域ごとに領域動きベクトルとして取得して前記領域動きベクトルが同一で隣接する前記部分領域同士を併合する領域併合部をさらに具備し、
前記符号化データ出力部は、前記併合された部分領域を物体領域として示す情報をさらに含む前記符号化データを出力する
前記（１）記載の符号化装置。
（３）前記領域分割部は、前記部分領域内のいずれかの座標を基準とする相対座標を前記節点ごとに示す節点情報をさらに生成し、
前記動きベクトル検出部は、前記基準フレーム上の前記節点の相対座標と前記非基準フレーム上の前記節点の相対座標との距離を前記節点ごとに求めて当該距離が最も近い前記節点同士を対応付ける
前記（１）または（２）記載の符号化装置。
（４）前記基準フレームにおいて前記動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを、前記非基準フレームを予測した予測フレームとして生成する予測フレーム生成部と、
前記予測フレームと前記非基準フレームとにおいて対応する画素の画素値の差分を画素ごとに検出する差分検出部と
をさらに具備し、
前記圧縮データ出力部は、前記非基準フレームの予測における予測誤差として前記差分をさらに含む前記符号化データを出力する
前記（１）から（３）のいずれかに記載の符号化装置。
（５）境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを符号化データから前記基準フレームを取得する基準フレーム取得部と、
前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成部と
を具備する復号装置。
（６）設定された拡大率に応じて前記基準フレームおよび前記予測フレームのいずれか少なくとも一部における前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを拡大フレームとして生成する拡大部をさらに具備する
前記（５）記載の復号装置。
（７）前記基準フレームおよび前記予測フレームのいずれかにおいてマスク対象に指定された前記部分領域をマスクしたフレームを生成するマスク処理を行うマスク処理部と、
前記マスクされたフレームに合成対象のフレームを合成する合成部と
をさらに具備する前記（５）または（６）に記載の復号装置。
（８）認識対象の物体の特徴量が指定されると前記基準フレームおよび前記予測フレームにおいて前記指定された特徴量に基づいて前記認識対象の物体を認識する物体認識部をさらに具備する
前記（５）から（７）のいずれかに記載の復号装置。
（９）境界線上に複数の節点が設けられた複数の領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含む符号化データ。
（１０）領域分割部が、時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割手順と、
動きベクトル検出部が、前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部手順と、
符号化データ出力部が、前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力手順と
を具備する符号化方法。
（１１）符号化データ取得部が、境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含むデータを符号化データとして取得する符号化データ取得手順と、
予測フレーム生成部が、前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成手順と
を具備する復号方法。
（１３）領域分割部が、時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割手順と、
動きベクトル検出部が、前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部手順と、
符号化データ出力部が、前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力手順と
をコンピュータに実行させるプログラム。
（１４）符号化データ取得部が、境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含むデータを符号化データとして取得する符号化データ取得手順と、
予測フレーム生成部が、前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成手順と
をコンピュータに実行させるプログラム。

１００撮像装置
１２０表示部
１２１インターフェース
２００符号化部
２０１符号化データ出力部
２０２、３１４減算器
２０３整数変換部
２０４、３０３逆整数変換部
２０５、３０４加算器
２０６、３０２予測フレーム生成部
２０７フレームバッファ
２０８動きベクトル検出部
２０９エントロピー符号化部
２１０領域分割部
２１１ＨＳＶ変換部
２１２減色処理部
２１３部分領域分割部
２１４領域情報付加部
２１５節点情報付加部
２２０領域結合部
２２１差分フレーム生成部
２２２物体検出部
３００、４２０、５０１復号部
３０１エントロピー復号部
３０５領域結合部
３１０解像度変換部
３１１拡大部
３１２補間アルゴリズム変更部
３１３縮小部
４００表示装置
４１０表示部
５００画像処理装置
５０２記憶部
５０３マスク処理部
５０４合成部
５０５物体認識部

Claims

時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割部と、
前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部と、
前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力部と、
前記基準フレーム上の前記部分領域において基準になる基準座標と前記非基準フレーム上の前記部分領域において基準になる基準座標とを両端とするベクトルを前記部分領域ごとに領域動きベクトルとして取得して前記領域動きベクトルが同一で隣接する前記部分領域同士を併合する領域併合部と
を具備し、
前記符号化データ出力部は、前記併合された部分領域を物体領域として示す情報をさらに含む前記符号化データを出力する
符号化装置。
時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割部と、
前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部と、
前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力部と
を具備し、
前記領域分割部は、前記部分領域内のいずれかの座標を基準とする相対座標を前記節点ごとに示す節点情報をさらに生成し、
前記動きベクトル検出部は、前記基準フレーム上の前記節点の相対座標と前記非基準フレーム上の前記節点の相対座標との距離を前記節点ごとに求めて当該距離が最も近い前記節点同士を対応付ける
符号化装置。
前記基準フレームにおいて前記動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを、前記非基準フレームを予測した予測フレームとして生成する予測フレーム生成部と、
前記予測フレームと前記非基準フレームとにおいて対応する画素の画素値の差分を画素ごとに検出する差分検出部と
をさらに具備し、
前記符号化データ出力部は、前記非基準フレームの予測における予測誤差として前記差分をさらに含む前記符号化データを出力する
請求項２記載の符号化装置。
境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含む符号化データから前記基準フレームを取得する基準フレーム取得部と、
前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成部と、
設定された拡大率に応じて前記基準フレームおよび前記予測フレームのいずれかの少なくとも一部における前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを拡大フレームとして生成する拡大部と
を具備する復号装置。
境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含む符号化データから前記基準フレームを取得する基準フレーム取得部と、
前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成部と、
前記基準フレームおよび前記予測フレームのいずれかにおいてマスク対象に指定された前記部分領域をマスクしたフレームを生成するマスク処理を行うマスク処理部と、
前記マスクされたフレームに合成対象のフレームを合成する合成部と
を具備する復号装置。
境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含む符号化データから前記基準フレームを取得する基準フレーム取得部と、
前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成部と、
認識対象の物体の特徴量が指定されると前記基準フレームおよび前記予測フレームにおいて前記指定された特徴量に基づいて前記認識対象の物体を認識する物体認識部と
を具備する復号装置。
領域分割部が、時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割手順と、
動きベクトル検出部が、前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部手順と、
符号化データ出力部が、前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力手順と、
領域不併合部が、前記基準フレーム上の前記部分領域において基準になる基準座標と前記非基準フレーム上の前記部分領域において基準になる基準座標とを両端とするベクトルを前記部分領域ごとに領域動きベクトルとして取得して前記領域動きベクトルが同一で隣接する前記部分領域同士を併合する領域併合手順と
を具備し、
前記符号化データ出力部は、前記併合された部分領域を物体領域として示す情報をさらに含む前記符号化データを出力する
符号化方法。
領域分割部が、時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割手順と、
動きベクトル検出部が、前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部手順と、
符号化データ出力部が、前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力手順と
を具備し、
前記領域分割部は、前記部分領域内のいずれかの座標を基準とする相対座標を前記節点ごとに示す節点情報をさらに生成し、
前記動きベクトル検出部は、前記基準フレーム上の前記節点の相対座標と前記非基準フレーム上の前記節点の相対座標との距離を前記節点ごとに求めて当該距離が最も近い前記節点同士を対応付ける
符号化方法。
符号化データ取得部が、境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含むデータを符号化データとして取得する符号化データ取得手順と、
予測フレーム生成部が、前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成手順と、
拡大部が、設定された拡大率に応じて前記基準フレームおよび前記予測フレームのいずれかの少なくとも一部における前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを拡大フレームとして生成する拡大手順と
を具備する復号方法。
領域分割部が、時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割手順と、
動きベクトル検出部が、前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部手順と、
符号化データ出力部が、前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力手順と、
領域不併合部が、前記基準フレーム上の前記部分領域において基準になる基準座標と前記非基準フレーム上の前記部分領域において基準になる基準座標とを両端とするベクトルを前記部分領域ごとに領域動きベクトルとして取得して前記領域動きベクトルが同一で隣接する前記部分領域同士を併合する領域併合手順と
をコンピュータに実行させるためのプログラムであって
前記符号化データ出力部は、前記併合された部分領域を物体領域として示す情報をさらに含む前記符号化データを出力する
プログラム。
領域分割部が、時系列順に複数のフレームを含む符号化対象の動画において前記複数のフレームのそれぞれを特徴量の異なる複数の部分領域に分割して前記複数の部分領域のそれぞれの境界線上に複数の節点を設ける領域分割手順と、
動きベクトル検出部が、前記複数のフレームのうち基準になる基準フレーム上の前記複数の節点のそれぞれに対して前記基準フレーム以外の非基準フレーム上のいずれかの前記節点を対応付けて当該対応付けた節点の対を両端とするベクトルを節点動きベクトルとして前記節点の対ごとに検出する動きベクトル検出部手順と、
符号化データ出力部が、前記基準フレームおよび前記節点動きベクトルを含むデータを、前記動画を符号化した符号化データとして出力する符号化データ出力手順と
をコンピュータに実行させるためのプログラムであって
前記領域分割部は、前記部分領域内のいずれかの座標を基準とする相対座標を前記節点ごとに示す節点情報をさらに生成し、
前記動きベクトル検出部は、前記基準フレーム上の前記節点の相対座標と前記非基準フレーム上の前記節点の相対座標との距離を前記節点ごとに求めて当該距離が最も近い前記節点同士を対応付ける
プログラム。
符号化データ取得部が、境界線上に複数の節点が設けられた複数の部分領域に分割された基準フレームと前記複数の節点のいずれかが一端である複数の節点動きベクトルとを含むデータを符号化データとして取得する符号化データ取得手順と、
予測フレーム生成部が、前記基準フレームにおいて前記節点動きベクトルに従って前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする部分領域からなるフレームを、前記非基準フレーム以外のフレームを予測した予測フレームとして生成する予測フレーム生成手順と、
拡大部が、設定された拡大率に応じて前記基準フレームおよび前記予測フレームのいずれかの少なくとも一部における前記複数の節点のそれぞれの位置を変更して当該位置を変更した複数の節点が設けられた線を境界線とする新たな部分領域からなるフレームを拡大フレームとして生成する拡大手順と
をコンピュータに実行させるプログラム。