JP4370387B2

JP4370387B2 - ビデオシーケンスのラベルオブジェクト映像生成装置及びその方法

Info

Publication number: JP4370387B2
Application number: JP2001263656A
Authority: JP
Inventors: 性徳李; 昌容金; 智淵金; 相均金; 永秀文; 斗植朴
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-01-20
Filing date: 2001-08-31
Publication date: 2009-11-25
Anticipated expiration: 2021-08-31
Also published as: EP1225518A3; DE60116717T2; CN1367616A; US20020097893A1; EP1225518B1; CN1222897C; EP1225518A2; KR20020062429A; DE60116717D1; US7024020B2; KR100355382B1; JP2002232839A

Description

【０００１】
【発明の属する技術分野】
本発明は、ビデオシーケンスからオブジェクトを抽出してラベルが貼り付けられたオブジェクトの映像（ラベルオブジェクト映像）を生成するための装置、及びその方法、並びにそのコンピュータプログラムを備えたコンピュータが読取り可能な記憶媒体に関する。
【０００２】
【従来の技術】
従来、動画像のラベルオブジェクト映像を生成するために、クエリーオブジェクト（ｑｕｅｒｙｏｂｊｅｃｔ）がその動画像の各フレームからマニュアルで抽出されていた。このような付加的なマニュアル操作を実行せずに、映像から自動的にオブジェクトを抽出する方法が、近年発表されている。
前記映像からのオブジェクトの抽出方法は、オブジェクトの動きに基づいた抽出方法と、オブジェクト領域の特性値に基づいた抽出方法とに大別される。
【０００３】
前記オブジェクトの動きに基づいた抽出方法には、オブジェクトの動きに基づいてフレームの差を求める方法、オブジェクトの動きに基づいて背景が除去される方法、及びオブジェクトの動きに基づいてその動きが解析される方法がある。前記オブジェクトの動きに基づいてフレームの差を求める方法としては、例えば、米国特許５５００９０４号明細書、及び米国特許５１０９４３５号明細書に開示されているような、映像における連続したフレーム間の輝度差を計算してオブジェクトの動きを抽出する方法が挙げられる。
【０００４】
また、前記オブジェクトの動きに基づいて背景領域が除去される方法としては、例えば、米国特許５７４８７７５号明細書に開示されているような、映像の特性パラメータの時間変化を利用して映像の背景が復元され、元の映像と前記復元された映像の背景との差を用いてオブジェクト領域を抽出する方法が挙げられる。そして、前記オブジェクトの動きに基づいてその動きが解析される方法としては、例えば、米国特許５８６２５０８号明細書に開示されているような、オブジェクトの運動方向と速度とを計算して運動領域を抽出する方法が挙げられる。
【０００５】
しかしながら、このような従来のオブジェクトの抽出方法は、オブジェクトの動きの速度が適切である場合にしか適用することができなかった。このため、このような従来のオブジェクト領域の抽出方法を、静止映像や、オブジェクトの動きが遅い映像、あるいはオブジェクトの動きが速い映像に適用することは困難であった。
【０００６】
さらに、前記のオブジェクト領域の特性値に基づくオブジェクトの抽出方法としては、例えば、米国特許５９４３４４２号明細書に開示されているような、テンプレートを整合させる方法や、米国特許５１３８６７１号明細書に開示されているような、多重スレショルド値（閾値）を分割させる方法、またはオブジェクト領域の特性値を整合させる方法が挙げられる。これらの方法を用いて動画像データからクエリーオブジェクトを抽出する場合、各クエリーオブジェクトに基づく全てのフレームに対してこれらの方法を適用することが必要となる。このため、このような従来のオブジェクト領域の特性値に基づくオブジェクトの抽出方法において、前記クエリーオブジェクトを抽出しようとすると、長時間を要するという問題があった。
【０００７】
【発明が解決しようとする課題】
前記問題点に鑑み、本発明の目的は、付加的なマニュアル操作を必要とせず、かつオブジェクトの動きの程度によらず、クエリーオブジェクト領域がキーフレームに基づいて各フレームで抽出され、しかも対応するクエリーオブジェクトの情報に基づいてラベルの貼付けが行なわれたオブジェクト映像が各フレームで生成され得る、動画像でラベルオブジェクト映像を生成するための装置、及びその方法を提供することにある。
【０００８】
【課題を解決するための手段】
前記課題を解決するために、本発明に係る請求項１は、ビデオシーケンス入力部と、クエリー映像入力部と、ショット及びキーフレーム設定部と、初期オブジェクト領域抽出部と、オブジェクト領域追跡部と、ラベルオブジェクト映像生成部とを備えるラベルオブジェクト映像生成装置において用いられるビデオシーケンスのラベルオブジェクト映像生成方法であって、前記ビデオシーケンス入力部が、フレームの集合であるビデオシーケンスを入力する段階と、前記ショット及びキーフレーム設定部が、前記入力されたビデオシーケンスに含まれる一連のフレームについて、類似したフレームの集合である一つ以上のショットに分割し、各ショットごとに、当該ショットを構成するフレームの一つ以上をキーフレームとして選択する段階と、前記初期オブジェクト領域抽出部は、前記クエリー映像入力部からクエリー映像を入力し、そのクエリー映像のクエリーオブジェクトに対応するオブジェクトが前記ショット及びキーフレーム設定部において選択されたキーフレーム内に存在するか否かを判断し、存在するオブジェクトが占有している領域を初期オブジェクト領域として抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する段階と、前記オブジェクト領域追跡部が、前記初期オブジェクト領域を用いて、前記クエリー映像入力部からのクエリー映像に基づき、前記ショット及びキーフレーム設定部において分割された各ショットを構成する全てのフレームに対し、前記クエリーオブジェクトに対応するオブジェクト領域を追跡し、前記クエリーオブジェクトに対する前記キーフレームでフレームマスク映像を生成する段階と、前記ラベルオブジェクト映像生成部が、前記オブジェクト領域追跡部において生成されたフレームマスク映像を統合して、各フレームに存在するクエリーオブジェクトにラベルを貼り付ける段階とを含むことを特徴とするビデオシーケンスのラベルオブジェクト映像生成方法を提供する。
【０００９】
本発明に係る請求項２は、前記請求項１において、前記初期オブジェクト領域抽出部は、前記ショットマスク映像を生成する段階で、初期オブジェクト領域の画素を第１の値として設定し、前記キーフレームの残りの画素を第２の値に設定することにより、各ショットの全てのキーフレームで、クエリーオブジェクトに基づくショットマスク映像を生成する段階を含むことが望ましい。
【００１０】
また、本発明に係る請求項３は、前記請求項２において、前記オブジェクト領域追跡部がオブジェクト領域を追跡する場合、対応するクエリー映像に基づいたショットマスク映像、及び対応するクエリーオブジェクトの映像特性値に基づいて、各ショットを構成する全てのフレームのオブジェクト領域を追跡する段階と、各フレームで追跡されたオブジェクト領域の画素を第１の値に設定し、前記フレームの残りの画素を第２の値に設定することにより、各ショットを構成する全てのフレームで、クエリーオブジェクトに基づくフレームマスク映像を生成する段階とを含むことが望ましい。
【００１１】
さらに、本発明に係る請求項４は、前記請求項１において、前記ラベルオブジェクト映像生成部が、対応するクエリー映像に対して設定された固有番号、または各フレームで対応するクエリー映像が位置する座標情報で、ラベルを貼り付けられることが望ましい。
【００１２】
前記課題を解決するために、本発明に係る請求項５は、フレームの集合であるビデオシーケンスを入力するビデオシーケンス入力部と、前記入力されたビデオシーケンスに含まれる一連のフレームについて、類似したフレームの集合である一つ以上のショットに分割し、各ショットごとに、当該ショットを構成するフレームの一つ以上をキーフレームとして選択するショット及びキーフレーム設定部と、前記クエリー映像入力部からクエリー映像を入力し、そのクエリー映像のクエリーオブジェクトに対応するオブジェクトが前記ショット及びキーフレーム設定部において選択されたキーフレーム内に存在するか否かを判断し、存在するオブジェクトが占有している領域を初期オブジェクト領域として抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する初期オブジェクト領域抽出部と、前記初期オブジェクト領域を用いて、前記クエリー映像入力部からのクエリー映像に基づき、前記ショット及びキーフレーム設定部において分割された各ショットを構成する全てのフレームに対し、前記クエリーオブジェクトに対応するオブジェクト領域を追跡し、前記クエリーオブジェクトに対する前記キーフレームでフレームマスク映像を生成するオブジェクト領域追跡部と、前記オブジェクト領域追跡部において生成されたフレームマスク映像を統合して、各フレームに存在するクエリーオブジェクトにラベルを貼り付けるラベルオブジェクト映像生成部とを含むことを特徴とするビデオシーケンスのラベルオブジェクト映像生成装置を提供する。
【００１３】
本発明に係る請求項６は、前記請求項５において、前記初期オブジェクト領域抽出部は、前記ショットマスク映像を生成する場合、初期オブジェクト領域の画素を第１の値として設定し、前記キーフレームの残りの画素を第２の値に設定することにより、各ショットの全てのキーフレームで、クエリーオブジェクトに基づくショットマスク映像を生成することが望ましい。
【００１４】
また、本発明に係る請求項７は、前記請求項６において、前記オブジェクト領域追跡部は、オブジェクト領域を追跡する場合、対応するクエリー映像に基づいたショットマスク映像、及び対応するクエリーオブジェクトの映像特性値に基づいて、各ショットを構成する全てのフレームのオブジェクト領域を追跡し、各フレームで追跡されたオブジェクト領域の画素を第１の値に設定し、前記フレームの残りの画素を第２の値に設定することにより、各ショットを構成する全てのフレームで、クエリーオブジェクトに基づくフレームマスク映像を生成することが望ましい。
【００１５】
また、本発明に係る請求項８は、前記請求項５において、前記ラベルオブジェクト映像生成部は、対応するクエリー映像に対して設定された固有番号、または各フレームで対応するクエリー映像が位置する座標情報で、ラベルを貼り付けることが望ましい。
【００１６】
そして、前記課題を解決するために、本発明に係る請求項９は、フレームの集合であるビデオシーケンスを入力するビデオシーケンス入力部と、前記入力されたビデオシーケンスに含まれる一連のフレームについて、類似したフレームの集合である一つ以上のショットに分割し、各ショットごとに、当該ショットを構成するフレームの一つ以上をキーフレームとして選択するショット及びキーフレーム設定部と、前記クエリー映像入力部からクエリー映像を入力し、そのクエリー映像のクエリーオブジェクトに対応するオブジェクトが前記ショット及びキーフレーム設定部において選択されたキーフレーム内に存在するか否かを判断し、存在するオブジェクトが占有している領域を初期オブジェクト領域として抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する初期オブジェクト領域抽出部と、前記初期オブジェクト領域を用いて、前記クエリー映像入力部からのクエリー映像に基づき、前記ショット及びキーフレーム設定部において分割された各ショットを構成する全てのフレームに対し、前記クエリーオブジェクトに対応するオブジェクト領域を追跡し、前記クエリーオブジェクトに対する前記キーフレームでフレームマスク映像を生成するオブジェクト領域追跡部と、前記オブジェクト領域追跡部において生成されたフレームマスク映像を統合して、各フレームに存在するクエリーオブジェクトにラベルを貼り付けるラベルオブジェクト映像生成部としてコンピュータを機能させるためのコンピュータプログラムを備えたコンピュータが読取り可能な記憶媒体を提供する。
【００１７】
【発明の実施の形態】
以下に、添付した図面を参照しながら本発明の実施の形態を詳細に説明する。
図１は、本発明に係るビデオシーケンスのラベルオブジェクト映像生成装置を適用した一実施形態のオブジェクト基盤相互対話型サービスシステムの構成を模式的に示したブロック図である。図１に示すように、本発明に係るビデオシーケンスのラベルオブジェクト映像生成装置は、使用者端末器１００、サーバ１２０、ビデオシーケンスデータベース（以下、データベースを「ＤＢ」と称す）１３０及び関心オブジェクトＤＢ１４０を具備して構成されている。
【００１８】
また、図１に示す本発明に係るオブジェクト基盤相互対話型サービスシステムにあっては、一つ以上のクエリーオブジェクトに対応する、動画像データのオブジェクト領域をラベルオブジェクト映像として生成するようになっている。
【００１９】
図１を参照すると、本発明に含まれる使用者端末器１００は、オブジェクト基盤相互対話型の映像プレーヤー、またはＭＰＥＧ４（ＭｏｖｉｎｇＰｉｃｔｕｒｅｃｏｄｉｎｇＥｘｐｅｒｔｓＧｒｏｕｐ４）プレーヤーを具備し、ネットワーク１１０を介して遠隔でサーバ１２０に接続されている。そして、使用者端末器１００の一つがサーバ１２０に接続されると、オブジェクト基盤相互対話型の映像プレーヤーが実行されて使用者は使用者端末器１００の画面を通じてサーバ１２０で提供される動画像を視聴することができる。また、本発明にあっては、使用者はオブジェクト基盤対話型の映像プレーヤーを介して動画像を視聴する一方で、ビデオシーケンスで任意の一フレームのうちで任意の一オブジェクト（関心オブジェクト）を選択できるように構成されている。
【００２０】
図１に示す本発明に含まれるサーバ１２０は、ビデオシーケンスＤＢ１３０に記憶されたビデオシーケンスを、使用者端末器１００の画面上に提供すると共に、使用者により選択されたオブジェクトについての詳細情報を、関心オブジェクトＤＢ１４０に提供するようになっている。このとき、使用者は選択されたオブジェクトが有する情報を、ＲＧＢ表色系（またはＹＵＶ表色系）のフレームと共に提供される追加フレーム（ＭＰＥＧ４の場合にはαフレーム）を用いて見ることができる。
【００２１】
図１で、サーバ１２０は各種ビデオシーケンスを記憶したビデオシーケンスＤＢ１３０を管理し、また対応する映像の関心オブジェクト（例えば、商品、人物等）についての情報を記憶したＤＢ１４０を管理する。ＤＢ１３０、１４０はサーバ１２０内に含まれる。図１に示す対話型サービスシステムは、ウェブを基盤とした環境で具現化される。その際、サーバ１２０はウェブサーバとなり、使用者端末器１００はウェブブラウザを具備し、インターネット１１０を通じてウェブサーバに接続される。
【００２２】
以下、本発明に係るラベルオブジェクト映像生成装置及び方法を説明する。
図２は、本発明に係るラベルオブジェクト映像生成装置を模式的に示すブロック図であり、ビデオシーケンス入力部２００、クエリー映像入力部２１０、ショット及びキーフレーム設定部２２０、初期オブジェクト領域抽出部２３０、オブジェクト領域追跡部２４０及びラベルオブジェクト映像生成部２５０を具備して構成されている。
【００２３】
図２を参照すると、本発明に含まれるビデオシーケンス入力部２００には一連のＲＧＢ表色系（またはＹＵＶ表色系）のような三原色のフレームデータが入力され、この一連のフレームデータをショット及びキーフレーム設定部２２０に出力するようになっている。ここで、ビデオシーケンスはフレームの集合であり、このフレームは、各々、クエリーオブジェクトを含む映像、またはクエリーオブジェクトを含まない映像である。
【００２４】
図２示すショット及びキーフレーム設定部２２０は、入力されたビデオシーケンスを場面の類似したフレームの集合である一つ以上のショットに分割し、このように分割されたショット情報、すなわち、ショットを構成するフレーム情報をオブジェクト領域追跡部２４０に出力するようになっている。また、ショット及びキーフレーム設定部２２０は、分割された各ショットでショットを代表するキーフレーム（キーフレームまたはＲフレーム）を選択する。ここで、キーフレームは一つ以上のフレームから構成されてもよい。
【００２５】
初期オブジェクト領域抽出部２３０では、クエリー映像入力部２１０からそれぞれのクエリーオブジェクトを含むクエリー映像が順次に入力され、ショット及びキーフレーム設定部２２０からは各ショットに対するキーフレームが入力される。初期オブジェクト領域抽出部２３０は、クエリー映像入力部２１０から入力されたクエリー映像のクエリーオブジェクトに対応するオブジェクトがキーフレーム内に存在するか否かを判断し、対応するオブジェクトが占有している領域（すなわち、初期オブジェクト領域）を抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する。全てのクエリーオブジェクトに対して、全てのキーフレームのショットマスク映像を作製した後、これらのショットマスク映像をオブジェクト領域追跡部２４０に出力するようになっている。
【００２６】
オブジェクト領域追跡部２４０は、ショットに分割された元のビデオシーケンス、それぞれのクエリーオブジェクトを含むクエリー映像及び各ショットでのショットマスク映像が入力される。オブジェクト領域追跡部２４０は初期オブジェクト領域を用いて各ショットを構成する全てのフレームに対してオブジェクト領域を追跡する。すなわち、クエリーオブジェクトを基準として形成されたショットマスク映像を用いて各ショット内の全てのフレームでオブジェクト領域を追跡してオブジェクト領域が存在するか否か、及びオブジェクト領域の位置を確認し、その占有領域を二値化映像またはグレースケール映像で生成し記憶する（以下、本発明ではフレームマスク映像と表記する）。このようなオブジェクト領域の追跡過程はショットを構成する全てのフレームを対象として実行されると共に、全てのクエリーオブジェクトに対してフレームマスク映像が作製されるまで繰り返される。
【００２７】
最後に、ラベルオブジェクト映像生成部２５０は、各フレームのクエリーオブジェクトに基づいて追跡されたフレームマスク映像を統合して、各フレームに存在する一つ以上のクエリーオブジェクトにラベルを貼り付ける。このとき、特筆すべきことは、各フレームに対する、クエリーオブジェクトに基づくフレームマスク映像が、全てのオブジェクトにラベルが貼り付けられた、一つのラベルオブジェクト映像フレームとして統合されることである。任意の一つのフレームに、例えば、３つのクエリーオブジェクトが存在する場合には、これら３つのクエリーオブジェクトに対応するオブジェクト領域はそれぞれ固有の画素値（例えば、１〜２５５の階調を有する）で表示され、前記クエリーオブジェクトが存在しない他の画素領域は０（ＯＦＦ）で表示される。
【００２８】
なお、ラベルオブジェクト映像生成部２５０によって生成されたラベルオブジェクト映像フレームの情報、及びラベルが貼り付けられたオブジェクト映像に対応する実際のオブジェクトの情報は、図１に示されるオブジェクトＤＢ１４０に記憶される。
【００２９】
図３及び図４は、本発明に係るラベルオブジェクト映像の生成方法を説明するためのフローチャートである。図３及び図４を参照しながら、図２に示す本発明に係るラベルオブジェクト映像生成装置の動作について詳細に説明する。
【００３０】
まず、図３に示すように、クエリーオブジェクトが抽出されるビデオシーケンスが、類似場面を有するフレームの集合である一つ以上のショットに分割され、それぞれのショットから一つ以上のキーフレームが選択される（第３００段階〜３０４段階）。一般に、一つのビデオシーケンスはカメラアングル、登場人物の変化、または被写体、場所、照明によって複数のショットに分割されることが可能である。そして、前記ショット間の変化は、各ショットを構成するフレーム間では、例えば、カラー値の変化よりも大きく、二つのフレーム（例えば、各ショットのキーフレーム）間のカラー差の程度から、前記ショット間の変化を検出することができる。
【００３１】
また、前記の各ショットを構成するフレームの一つがキーフレームとして選択される。その際、前記の各ショットのうち、最初または中間のフレームをキーフレームとして選択するのが望ましい。本発明では、前記の各ショットのキーフレームのみを使用して、各ショットの中にクエリーオブジェクトが存在するか否かを決定するものである。例えば、もしｐ個のショットが存在すれば、キーフレームの数もｐ個となる。
【００３２】
具体的には、図３に示すように、ビデオシーケンス及びクエリー映像（１〜ｎ）を入力して（第３００段階）、このビデオシーケンスを一つ以上のショット（１〜ｐ）に分割し、それぞれのショットでキーフレームが選択される（第３０２段階）。つぎに、ｐ個のキーフレームがバッファリングされる（第３０４段階）。
【００３３】
図５は、ｐ個のショットに分割されたビデオシーケンスとそれらのキーフレームを例示したものである。図５においては、第１のフレームがそれぞれのショットからキーフレームとして選択されており、すなわち、図５は各ショットでキーフレームＫＦ−１、ＫＦ−２、ＫＦ−３、…、ＫＦ−ｐが選択されること示している。
【００３４】
図６は、テレビドラマから抽出されたビデオシーケンスを８個のショットに分割し、これらのショットでそれぞれのキーフレームが選択された結果を示す表である。また、図６には、全部で６１９個のフレームから構成されたビデオシーケンスを９個のショットに分割したときに、これらの各ショットで選択されたキーフレームのフレーム番号が示されている。
【００３５】
つぎに、図４に示すように、クエリーオブジェクトに基づいてキーフレームから初期オブジェクト領域を抽出する（第３０６段階〜３１２段階）。このとき、好ましくは、クエリーオブジェクトに類似したオブジェクトが、カラーヒストグラム、テクスチャーのような特性、またはオブジェクトを構成する多色領域の構造に基づいた各クエリーオブジェクトに存在するか否かが決定される。
【００３６】
具体的には、図３に示すように、ｎ個のクエリーオブジェクトを一つずつ入力する。すなわち、まず、第１のクエリーオブジェクトを挿入（ｌｏａｄ）し（第３０６段階）、ｐ個のキーフレームの各々について、前記第１のクエリーオブジェクトと類似したオブジェクトが存在するか否かをチェックする。そして、このようなオブジェクトが存在する場合には、このオブジェクトを、対応するキーフレームの初期オブジェクト領域として抽出する（第３０８段階）。そして、前記キーフレームの初期オブジェクト領域に属する画素をオン（１）とし、前記キーフレームの残りの画素がオフ（０）として、前記キーフレームに対するショットマスク映像を生成させる（第３１０段階）。
【００３７】
さらに、クエリーオブジェクトの数がｎを越えたか否かを判断し（第３１２段階）、このクエリーオブジェクトの数がｎを越えていないと判断されれば、クエリーオブジェクトをさらに挿入して（第３１４段階）、ｎ個のクエリーオブジェクトに対して前述の動作を繰り返す。このようにして、ｎ個のクエリーオブジェクトに対してｐ個のキーフレームで形成されたｎ×ｐ個のショットマスク映像が生成されることとなる（このとき、オブジェクト領域のないショットマスク映像では、その画素が全てオフ（０）となっている）。
【００３８】
つぎに、図４に示すように、初期オブジェクト領域を用いてショットを構成する全てのフレームに対してオブジェクト領域を追跡する（第３１６段階〜３３０段階）。そして、これまでの過程で生成された、クエリー映像に基づくショットの各キーフレームから抽出された初期オブジェクト領域が、各ショットの残りのフレームに拡大される。
【００３９】
特に、これまでの過程で、前記ショットの各キーフレームから抽出されたショットマスク映像を初期マスクとして用い、前記クエリーオブジェクトに対応するオブジェクト領域の位置と占有領域（範囲）とが、クエリー映像の色に関する情報に基づいて、各ショットを構成する全てのフレームで追跡される。このとき、運動モデルと色の情報の両方を使用して、前記のように追跡されたオブジェクト領域間の類似性を判別し、さらに、このオブジェクト領域が占有する位置及び形状の変化を考慮すれば、より正確なオブジェクト領域が得られるようになる。
【００４０】
具体的には、図４に示すように、まず第１クエリーオブジェクトを挿入した状態（第３１６段階）で、ショットマスク映像を挿入する（第３１８段階）。その際、このようにして挿入されたショットマスク映像の画素が全てオフ（０）である、すなわち、前記挿入されたショットマスク映像が、対応するオブジェクト領域のない映像であると判断されれば（第３２０段階）、次のショットマスク映像を挿入する。そして、ショット番号がｐ番目を越えたか否かを判断し（第３２６段階）、このショット番号がｐ番目を越えていなければ次のショットマスク映像を挿入する（第３２８段階）。
【００４１】
一方、前記３１８段階の後で、ショットマスク映像にオブジェクト領域が存在すると判断されれば、対応するオブジェクトを、ショットを構成する全てのフレームを対象として追跡して（第３２２段階）、フレームマスク映像を生成する（第３２４段階）。そして、全てのショット、並びに全てのクエリーオブジェクトを対象として、前述の動作を繰り返す（第３３０段階、３３２段階）。
【００４２】
最後に、クエリーオブジェクトに基づくフレーム映像マスクを各フレームで統合して、各々のフレームに存在するクエリーオブジェクト領域にラベルを貼り付ける（第３３４段階）。このとき、入力ビデオシーケンスがｍ個のフレームで構成され、その各フレームに対してｎ個のクエリーオブジェクトが含まれている場合には、ｎ×ｍ個のフレームマスク映像が生成される。
【００４３】
しかしながら、実際には、全てのフレームがｎ個のクエリーオブジェクトを含むものではないため、生成されるフレームマスク映像の数はｎ×ｍ個より少ないものとなる。このとき、クエリーオブジェクトは、例えば０〜２５５の階調で、固有の色相値を有し、統合されたフレームのクエリーオブジェクト領域は対応するクエリーオブジェクトの色相値に対応する画素値を有している。
【００４４】
図７は、フレーム映像と、このフレーム映像に存在する一例のラベルオブジェクト映像とを示すものである。図７において、左側に示す任意の一フレーム映像は、複数のクエリーオブジェクト、例えば、卓上ダイアリー５５２、ネックレス５５３、カップ５５４、衣服５５５及びそれ以外の領域から構成される背景５５１よりなる。
【００４５】
図８は、ラベル番号のラベルが貼り付けられたオブジェクトの一例を示す。図８を参照すると、各クエリーオブジェクトは固有のラベル番号を有している。したがって、クエリーオブジェクトに基づいて生成されたフレームマスク映像が各フレームで統合される際、図８の右側に示すように固有のラベル番号が貼り付けられる。
【００４６】
図９は、ラベルオブジェクト映像におけるオブジェクトで、重心と最小四角形を用いてラベルの貼り付けを行なったものの一例である。このように、本発明にあっては、オブジェクト領域を表示する方法として、前述したような固有のラベル番号の代わりに、図９で“Ｘ”で表示されるようなオブジェクト領域の重心と、このオブジェクト領域に外接または内接する最小四角形とを用いることができる。ここで、図９におけるＰ１とＰ２は、各々、四角形の対角線上で対向する対角点を示している。図１０は、図９における重心と最小四角形との座標値を用いてオブジェクトにラベルを貼り付けた一実施形態を示したものである。
【００４７】
本発明によれば、動画像を、類似場面の特性を有するフレームから構成されるショットに分割し、それぞれのショットを表現する代表映像にクエリーオブジェクトが存在するか否かを判断することにより、対応するショットの初期オブジェクト領域が抽出される。そして、この各キーフレームから抽出された初期オブジェクト領域に基づいて、ショットを構成する全てのフレームでオブジェクト領域が追跡され、さらにオブジェクト領域にラベルが貼り付けられて、ラベルオブジェクト映像が生成される。
【００４８】
このようにして、本発明は、従来のオブジェクト抽出、及び従来のラベルオブジェクト映像生成方法に比べて、クエリーオブジェクト抽出に要する時間を短縮することができる。また、本発明は、クエリーオブジェクトの動きとは無関係に適用され、また、付加的なマニュアル操作を必要とせず、自動化されることによって、オブジェクト基盤対話型サービスに好適に適用することができる。
【００４９】
図１１は、本発明を用いたオブジェクト基盤対話型サービスの一実施形態を示すものである。各フレーム内のクエリーオブジェクトにラベルを貼り付けてラベルオブジェクト映像を生成し、このようにして生成されたラベルオブジェクト映像を、図１を参照しながら説明したようにして、オブジェクトＤＢ１４０に記憶させる（図４の第３３６段階）。
【００５０】
このとき、使用者が、オブジェクト基盤対話型プレーヤーを用いて任意の一フレームで、例えば、図１１に示す左側のフレームで、女性が着ている上着のうち、任意の部分をマウスでクリックすると、前記使用者のブラウザがオブジェクトＤＢに記憶されたラベルオブジェクト映像で対応するオブジェクトについての情報に連結される。図１１の右側は、前記オブジェクトに関する情報を示すものである。
【００５１】
また、本発明に係るビデオシーケンスのラベルオブジェクト映像生成方法は、コンピュータが読取り可能な記憶媒体に、コンピュータが読取り可能なプログラムコードを記憶させて具現化することができる。このコンピュータが読取り可能な記憶媒体は、従来公知のコンピュータシステムによって読取り可能なデータが記憶され得る全ての種類の記憶装置を含む。
【００５２】
前記コンピュータが読取り可能な記憶媒体の例としては、ＲＯＭ（ｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ；読取り専用記憶装置）、ＲＡＭ（ｒａｎｄｏｍ−ａｃｃｅｓｓｍｅｍｏｒｙ；ランダムアクセス記憶装置）、ＣＤ−ＲＯＭ（ｃｏｍｐａｃｔ−ｄｉｓｋｒｅａｄ−ｏｎｌｙｍｅｍｏｒｙ；コンパクトディスク読出し専用メモリ）、磁気テープ、ハードディスク、フレキシブルディスク、フラッシュメモリ、光データ記憶装置などがあり、またキャリヤウェーブ（例えばインターネットを介して行なう情報伝達装置）の形態で具現化されるものを含む。そして、本発明に含まれるコンピュータが読取り可能な記憶媒体は、ネットワークに連結されたコンピュータシステムで分配され得る、コンピュータが読取り可能なプログラムコードとして記憶され、実行させることができる。
【００５３】
【発明の効果】
以上説明した通りに構成される本発明によれば、各クエリーオブジェクトで生成されたフレームマスク映像をフレーム単位で統合させることによって、従来のオブジェクト抽出方法に比べて、一フレームから複数のクエリーオブジェクトを抽出するために要する時間をより一層短縮させることができる、ビデオシーケンスのラベルオブジェクト映像生成方法及びその装置、並びにそのプログラムコードを備えたコンピュータが読取り可能な記憶媒体が提供される。
【００５４】
また、このような本発明に係るビデオシーケンスでのラベルオブジェクト映像生成装置及びその方法は、動画像データをオブジェクト単位で操作、編集、対話型機能、符号化する場合に容易に適用され、今後、対話型インターネット放送、広告広報物、コンテンツ製作、対話型の著作物ツールなどの情報通信分野で幅広く使用することができる。
【図面の簡単な説明】
【図１】本発明が適用された相互対話型オブジェクトサービスシステムの構成を模式的に示すブロック図である。
【図２】本発明に係るラベルオブジェクト映像生成装置の構成を模式的に示すブロック図である。
【図３】本発明に係るラベルオブジェクト映像生成方法を説明するための一例のフローチャートである。
【図４】本発明に係るラベルオブジェクト映像生成方法を説明するための他の例のフローチャートである。
【図５】ビデオシーケンスでショット及びキーフレームを設定する一例を示す図である。
【図６】９個のショットに分割されたビデオシーケンスとそのキーフレームの設定例とを示す図である。
【図７】フレーム映像と、このフレーム映像に存在するクエリーオブジェクトを示す図である。
【図８】ラベル番号でラベルが貼り付けられたオブジェクトの一例の図である
【図９】ラベルオブジェクト映像におけるオブジェクトの重心と最小四角形とを示す図である。
【図１０】図９において、重心と最小四角形の座標値とを用いてオブジェクトにラベルを貼り付けた一実施形態の図である。
【図１１】本発明を用いたオブジェクト基盤対話型サービスの一実施形態の図である。
【符号の説明】
２００ビデオシーケンス入力部
２１０クエリー映像入力部
２２０ショット及びキーフレーム設定部
２３０初期オブジェクト領域抽出部
２４０オブジェクト領域追跡部
２５０ラベルオブジェクト映像生成部

Claims

ビデオシーケンス入力部と、クエリー映像入力部と、ショット及びキーフレーム設定部と、初期オブジェクト領域抽出部と、オブジェクト領域追跡部と、ラベルオブジェクト映像生成部とを備えるラベルオブジェクト映像生成装置において用いられるビデオシーケンスのラベルオブジェクト映像生成方法であって、
前記ビデオシーケンス入力部が、フレームの集合であるビデオシーケンスを入力する段階と、
前記ショット及びキーフレーム設定部が、前記入力されたビデオシーケンスに含まれる一連のフレームについて、類似したフレームの集合である一つ以上のショットに分割し、各ショットごとに、当該ショットを構成するフレームの一つ以上をキーフレームとして選択する段階と、
前記初期オブジェクト領域抽出部は、前記クエリー映像入力部からクエリー映像を入力し、そのクエリー映像のクエリーオブジェクトに対応するオブジェクトが前記ショット及びキーフレーム設定部において選択されたキーフレーム内に存在するか否かを判断し、存在するオブジェクトが占有している領域を初期オブジェクト領域として抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する段階と、
前記オブジェクト領域追跡部が、前記初期オブジェクト領域を用いて、前記クエリー映像入力部からのクエリー映像に基づき、前記ショット及びキーフレーム設定部において分割された各ショットを構成する全てのフレームに対し、前記クエリーオブジェクトに対応するオブジェクト領域を追跡し、前記クエリーオブジェクトに対する前記キーフレームでフレームマスク映像を生成する段階と、
前記ラベルオブジェクト映像生成部が、前記オブジェクト領域追跡部において生成されたフレームマスク映像を統合して、各フレームに存在するクエリーオブジェクトにラベルを貼り付ける段階と、
を含むことを特徴とするビデオシーケンスのラベルオブジェクト映像生成方法。
前記初期オブジェクト領域抽出部は、前記ショットマスク映像を生成する段階で、初期オブジェクト領域の画素を第１の値として設定し、前記キーフレームの残りの画素を第２の値に設定することにより、各ショットの全てのキーフレームで、クエリーオブジェクトに基づくショットマスク映像を生成する段階を含むことを特徴とする請求項１に記載のビデオシーケンスのラベルオブジェクト映像生成方法。
前記オブジェクト領域追跡部がオブジェクト領域を追跡する場合、対応するクエリー映像に基づいたショットマスク映像、及び対応するクエリーオブジェクトの映像特性値に基づいて、各ショットを構成する全てのフレームのオブジェクト領域を追跡する段階と、
各フレームで追跡されたオブジェクト領域の画素を第１の値に設定し、前記フレームの残りの画素を第２の値に設定することにより、各ショットを構成する全てのフレームで、クエリーオブジェクトに基づくフレームマスク映像を生成する段階と、
を含むことを特徴とする請求項２に記載のビデオシーケンスのラベルオブジェクト映像生成方法。
前記ラベルオブジェクト映像生成部が、対応するクエリー映像に対して設定された固有番号、または各フレームで対応するクエリー映像が位置する座標情報で、ラベルを貼り付けられることを特徴とする請求項１に記載のビデオシーケンスのラベルオブジェクト映像生成方法。
フレームの集合であるビデオシーケンスを入力するビデオシーケンス入力部と、
前記入力されたビデオシーケンスに含まれる一連のフレームについて、類似したフレームの集合である一つ以上のショットに分割し、各ショットごとに、当該ショットを構成するフレームの一つ以上をキーフレームとして選択するショット及びキーフレーム設定部と、
前記クエリー映像入力部からクエリー映像を入力し、そのクエリー映像のクエリーオブジェクトに対応するオブジェクトが前記ショット及びキーフレーム設定部において選択されたキーフレーム内に存在するか否かを判断し、存在するオブジェクトが占有している領域を初期オブジェクト領域として抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する初期オブジェクト領域抽出部と、
前記初期オブジェクト領域を用いて、前記クエリー映像入力部からのクエリー映像に基づき、前記ショット及びキーフレーム設定部において分割された各ショットを構成する全てのフレームに対し、前記クエリーオブジェクトに対応するオブジェクト領域を追跡し、前記クエリーオブジェクトに対する前記キーフレームでフレームマスク映像を生成するオブジェクト領域追跡部と、
前記オブジェクト領域追跡部において生成されたフレームマスク映像を統合して、各フレームに存在するクエリーオブジェクトにラベルを貼り付けるラベルオブジェクト映像生成部と、
を含むことを特徴とするビデオシーケンスのラベルオブジェクト映像生成装置。
前記初期オブジェクト領域抽出部は、前記ショットマスク映像を生成する場合、初期オブジェクト領域の画素を第１の値として設定し、前記キーフレームの残りの画素を第２の値に設定することにより、各ショットの全てのキーフレームで、クエリーオブジェクトに基づくショットマスク映像を生成することを特徴とする請求項５に記載のビデオシーケンスのラベルオブジェクト映像生成装置。
前記オブジェクト領域追跡部は、オブジェクト領域を追跡する場合、対応するクエリー映像に基づいたショットマスク映像、及び対応するクエリーオブジェクトの映像特性値に基づいて、各ショットを構成する全てのフレームのオブジェクト領域を追跡し、各フレームで追跡されたオブジェクト領域の画素を第１の値に設定し、前記フレームの残りの画素を第２の値に設定することにより、各ショットを構成する全てのフレームで、クエリーオブジェクトに基づくフレームマスク映像を生成することを特徴とする請求項６に記載のビデオシーケンスのラベルオブジェクト映像生成装置。
前記ラベルオブジェクト映像生成部は、対応するクエリー映像に対して設定された固有番号、または各フレームで対応するクエリー映像が位置する座標情報で、ラベルを貼り付けられることを特徴とする請求項５に記載のビデオシーケンスのラベルオブジェクト映像生成装置。
フレームの集合であるビデオシーケンスを入力するビデオシーケンス入力部と、
前記入力されたビデオシーケンスに含まれる一連のフレームについて、類似したフレームの集合である一つ以上のショットに分割し、各ショットごとに、当該ショットを構成するフレームの一つ以上をキーフレームとして選択するショット及びキーフレーム設定部と、
前記クエリー映像入力部からクエリー映像を入力し、そのクエリー映像のクエリーオブジェクトに対応するオブジェクトが前記ショット及びキーフレーム設定部において選択されたキーフレーム内に存在するか否かを判断し、存在するオブジェクトが占有している領域を初期オブジェクト領域として抽出して二値化またはグレースケール映像で処理してショットマスク映像を生成する初期オブジェクト領域抽出部と、
前記初期オブジェクト領域を用いて、前記クエリー映像入力部からのクエリー映像に基づき、前記ショット及びキーフレーム設定部において分割された各ショットを構成する全てのフレームに対し、前記クエリーオブジェクトに対応するオブジェクト領域を追跡し、前記クエリーオブジェクトに対する前記キーフレームでフレームマスク映像を生成するオブジェクト領域追跡部と、
前記オブジェクト領域追跡部において生成されたフレームマスク映像を統合して、各フレームに存在するクエリーオブジェクトにラベルを貼り付けるラベルオブジェクト映像生成部としてコンピュータを機能させるためのコンピュータプログラムを備えたコンピュータが読取り可能な記憶媒体。