JP4328623B2

JP4328623B2 - オーディオビジュアルコンテンツの分散型意味的記述

Info

Publication number: JP4328623B2
Application number: JP2003550494A
Authority: JP
Inventors: ライジング、ホーレー、ケー．、サード; タバタバイ、アリ
Original assignee: ソニーエレクトロニクスインク
Priority date: 2001-12-03
Filing date: 2002-12-03
Publication date: 2009-09-09
Anticipated expiration: 2022-12-03
Also published as: GB2400517A; GB2400517B; AU2002359556A1; EP1461945A1; WO2003049432A1; US20040202450A1; EP1461945A4; CN100403788C; DE10297509T5; US7925139B2; CN1618232A; JP2005512213A; GB0413227D0

Description

本発明は、マルチメディアデータ処理に関し、特に意味的記述に基づくマルチメディアデータ処理に関する。

ＭＰＥＧ（Moving Picture Experts Group）は、オーディオビジュアルコンテンツに関する規格を策定している。ＭＰＥＧ規格方式の１つに、ユーザにとって関心が高いであろうオーディオビジュアルコンテンツの記述が規定されたＭＰＥＧ−７規格がある。具体的には、ＭＰＥＧ−７規格は、オーディオビジュアルコンテンツを記述する情報を標準化するために定められている。ＭＰＥＧ−７規格は、データベースに対するオーディオビジュアルアイテムの保存及び検索、放送メディア選択、テレショッピング、多くのメディアを用いた情報提供、インターネットにおける個人向けニュースサービス等、種々の分野で用いることができる。

ＭＰＥＧ−７規格によれば、オーディオビジュアルコンテンツの記述は、記述子と記述スキームで構成されている。記述子は、オーディオビジュアルコンテンツの特徴を表し、各特徴表現の表記方法及び意味を定義する。記述スキーム（ＤＳ）は、これらの構成要素間の構造及び意味的関係を規定している。これらの構成要素は、記述子と記述スキームの両方であってもよい。記述スキームの概念は、ツリー又はグラフ状に構成することができる。グラフ構造は、記述スキームの各要素を表すノード群と、ノード間の関係を特定するエッジ群とにより定義される。

オーディオビジュアルコンテンツの記述（すなわち、記述子及びＤＳ）は、セグメント記述と意味記述とに分けられる。セグメント記述は、オーディオビジュアルコンテンツをその構造の観点から記述する。すなわち、オーディオビジュアルコンテンツの物理的空間的、時間的又は時空的成分を表すセグメントを中心に記述が構成される。各セグメントは、信号に基づく特徴（色、テクスチャ、形状、動き、オーディオ特性等）及び何らかの基礎的意味情報により記述されてもよい。

意味記述は、概念的観点からオーディオビジュアルコンテンツを記述する。すなわち、意味記述は、オーディオビジュアルコンテンツの構造ではなく、オーディオビジュアルコンテンツの実際の意味を記述する。セグメント記述及び意味記述はリンク群により関連付けられており、このリンク群により、コンテンツ構造と意味の両方に基づいてオーディオビジュアルコンテンツを記述することができる。リンクは、セグメント記述により記述されるオーディオビジュアルコンテンツ内のインスタンスに、それぞれ異なる意味概念を関連付ける。

現在の意味記述は、特定の意味エンティティと他の関連する意味エンティティとの関係を識別せずに特定の意味エンティティを記述するので、記述能力が限定されている。例えば、現在のモデルの意味記述には、例えば、イベント、オブジェクト、状態、抽象概念等、種々の意味エンティティに関する複数のＤＳが含まれている。イベントＤＳは、有意の時間的ローカライゼーションを記述する。例えば、イベントＤＳを、現実世界又はメディアにおける具体的なインスタンス（例えば、ウェディング）に関連付けてもよい。オブジェクトＤＳは、特定のオブジェクト（例えば、画像中に示された車）を意味的に記述する。状態ＤＳは、所定の空間位置において、又は、所定のメディア位置において、ある時点のエンティティ（例えば、オブジェクト又はイベント）の意味特性を識別する。概念ＤＳは、具体的なオブジェクトやイベントから抽出して作成されたのではない抽象的要素を記述する。自由や神秘等の概念は、概念記述により記述されるエンティティ（実体）の一般的な例である。

上述の各ＤＳは特定のエンティティを記述する。しかし、記述が個々のエンティティを記述するのみである場合、完全ではない。人間による記述やコミュニケーションのほとんどは、情報を組み合わせることにより達成され、いずれのやりとりにおいても情報が完全に詳述されることはほとんどない。会話においては、相手同士が適度に気が合い又は似通ったメンタルモデルを構築できるような示唆があり、話される情報はそのようなコンテキスト内で話される。従って、記述は、コンテンツに関する種々の付加的情報を含まない限り、そのコンテンツを正確かつ完全に記述することはできない。この付加的情報には、背景情報、コンテキスト情報、記述されているコンテンツと他のエンティティの関係を識別する情報等が含まれる。

また、比喩や類推の記述を作成するための手法は現存しない。従来は、意味記述がオーディオビジュアル素材を記述するだけなので、比喩的記述の作成は必要ないと考えられていた。しかし、人間は常に、知らないうちに比喩や類推を使用している。「陸に上がった魚のようだ」、「期限が迫っている」、「鳥のように飛んでゆく」等のような比喩や類推は、人間のコミュニケーションにおいて本来あるものである。従って、可能な記述のリストから比喩や類推の記述を除くことは望ましくない。

さらに、現在の意味記述は固定的である。現存の意味記述により記述される素材に変更があると、変更された素材を記述する新たな意味記述を生成するため、記述作成処理を新たに行わなければならない。

従って、オーディオビジュアルやその他のいかなる意味状況も完全かつ正確に記述することが可能な意味記述を生成するツールが必要である。また、このようなツールは、記述される素材の変更を動的に反映して記述を生成することができなければならない。

オーディオビジュアルコンテンツの記述の処理方法及び装置を説明する。一の具体例によれば、オーディオビジュアルコンテンツの記述を生成し、そのオーディオビジュアルコンテンツの記述の再使用に関する情報を定める。さらに、オーディオビジュアルコンテンツの記述とそれに対応する再使用情報を、記述データ記憶部に記憶して、この記述についてその後の再使用を可能にする。

具体例を用いて本発明を説明するが、添付図面において本発明を限定するものではない。添付図面においては、同じ参照番号は同じ構成要素を示すものとする。

オーディオビジュアルコンテンツの記述の処理方法及び装置について説明する。以下の本発明の詳細な説明では、本発明を完全に理解できるように多数の具体的な詳細事項を記載する。しかし、これらの具体的な詳細事項を用いなくても本発明を実施できることは、当業者には明らかであろう。幾つかの例では、本発明の不明瞭にしないために、既知の構造や装置を詳細には示さず、ブロック図の形式で示す。

以下の詳細な説明において、幾つかの部分については、コンピュータメモリ内のデータビット上の処理をアルゴリズムや記号表現で示す。これらのアルゴリズム的記載や表現は、データ処理技術分野の技術者が自分の作成したものを当該分野の他の技術者に最も効果的に伝えるのに使用する方法である。ここで、また、一般的に、アルゴリズムとは所望の結果を導く一貫した一連の処理である。各処理は、物理的数量の物理的操作を必要とするものである。通常、これらの数量は、記憶、転送、これらの組み合わせ、比較、その他の操作が可能な電気又は磁気信号の形式をとるが、必ずしもそうでなくてもよい。これらの信号は、一般的な使用例から見てビット、値、要素、記号、特徴、項、数等と呼ぶことが良い場合もある。

しかし、これらの用語や同様の用語はすべて、適切な物理的数量に関連付けられるものであり、単にこれらの数量に付された便宜的用語であることを考慮しておくべきである。以下の説明から明らかなものとして具体的に記載がない限り、本明細書中、「処理」、「計算」、「算出」、「決定」、「表示」等の用語を用いた説明は、コンピュータシステムのレジスタ及びメモリ内の物理的（電子的）数量として表されるデータを操作及び変換して、コンピュータシステムのメモリ若しくはレジスタ、又は、他の同様な情報記憶、伝送又は表示装置内の物理的数量として表される他のデータにするといった、コンピュータシステム又は同様の電子計算装置の動作や処理を指すものとする。

また、本発明は、ここでの動作を行う装置に関するものである。この装置は、所要目的のために専用に構成されてもよく、コンピュータ内に記憶されたコンピュータプログラムにより選択的に動作または再設定される汎用コンピュータで構成されてもよい。このようなコンピュータプログラムは、以下の媒体に限定されないが、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、光磁気ディスク等様々な種類のディスク、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気又は光カード、電子的命令を記憶するのに適したあらゆる種類の媒体等、コンピュータにより読み取り可能な媒体に記憶される。各媒体はコンピュータシステムバスに接続される。

ここで説明するアルゴリズムや表示については、特定のコンピュータや他の装置に本来関係するものではない。ここでの説明に基づくプログラムとともに種々の汎用システムを用いてもよく、また、必要な方法のステップを行うように特殊化した装置を構築することが好都合となる場合もある。これら種々のシステムの必要な構成については、以下の説明で示す。また、本発明の説明では、特定のプログラミング言語を参照するわけではない。種々のプログラミング言語を用いて、ここに説明する本発明の処理を実行することができる。

本発明は、オーディオビジュアルコンテンツの記述の生成について、種々の態様に関するものである。上述のように、現在の記述ツールでは、完全かつ正確にオーディオビジュアルコンテンツを記述できる記述を生成することが困難である。こうした制限は、現在の意味記述のエンティティの特定的な性質により生じる。すなわち、各意味記述は、特定のエンティティに関するコンテキストや背景情報から独立して、その特定のエンティティを記述する。しかし、この手法は、意味記述の原型である会話の理解や解釈に適用される規則に反する。これらの規則の中には、当該分野で知られたメンタル・スペース理論（mental space theory）の利用に基づくものもある。

メンタル・スペース（Mental spaces）は、会話に含まれていない多くの情報を取り込むことにより、コミュニケーションのコンテキストを与え、これにより意味的コンテンツを言語で解釈するための手法を得ることができる。この情報はマッピングにより取り込まれる。これらのマップは、解釈のための所定構造を表すフレームを使用し（すなわち、「採用」し）、１メンタル・スペースから別のメンタル・スペースへ構造を投影し、２以上のメンタル・スペースから導入した素材を統合又は要約することにより機能する。従って、各メンタル・スペースは、エンティティ、対応関係、フレームを含む拡張記述を表すことができる。いくつかのメンタル・スペースは、記述における全エンティティを適切に定義するために、一度に動作することができる。これらのメンタル・スペースは相互に関係がある。メンタル・スペースは互いに構造及びエンティティを取り入れることから、これらのメンタル・スペースの間でマッピングが必要である。これらは全体として、表現される記述に対する背景を構成し、含まれる各エンティティに意味を与える処理を完了する。

図１及び図２は、メンタル・スペースを作成する従来技術の具体例を示す。図１において、フレーム１０のうちの幾つかを採用し、既存のメンタル・スペース２０，３０から構造を融合又は取り入れることにより、新たなメンタル・スペース５０を作成する。図２において、既存の２つのメンタル・スペース６２，６４を融合又は統合することにより、新たなメンタル・スペース７０を作成する。そして、３つのメンタル・スペース、すなわち、新たなメンタル・スペース７０と既存のメンタル・スペース６４，６２のすべてから抽象化を行うことにより、汎用スペース（generic space）６６を作成することができる。汎用スペース６６は、メンタル・スペース６２、６４、７０に共通する構造を備えている。

本発明では、いかなる意味状況も完全に記述できる意味記述の生成を可能にするメンタル・スペースモデルを使用する。一具体例において、完全な意味記述を作成するツールは、多数の記述カテゴリに基づいている。これらのカテゴリには、オブジェクト、イベント、状態、エピソード、フレーム、記述構造、メンタル・スペースが含まれる。ここで用いる「オブジェクト」という用語は、ひとつの実オブジェクトの記述、又は、幾つかの実オブジェクトの複合物若しくは抽象概念の記述を示す。オブジェクトには状態が含まれる。各状態は、オブジェクト及び関係に付加された属性の集合である。従って、状態はメンタル・スペースの属性集合であってもよい。オブジェクトはサブオブジェクトを有してもよく、オブジェクト状態はサブ状態を有してもよい。状態の変化はイベントである。このため、イベントは、オブジェクト又は関係（メンタル・スペースを表すものも含む）の記述の構成要素のいずれかにおける変化であってもよい。状態はサブ状態を有してもよいので、イベントはサブイベントを有してもよい。

また、状態はエピソードに付加されてもよく、イベントは、エピソードの記述の構成要素のいずれかにおける変化であってもよい。エピソードは意味論的に重要な期間である。エピソードは、オブジェクトの動き、イベントの発生、関係の変化、又は、オブジェクト、イベント、関係に対してコンテキストを与えるのに使用されるメンタル・スペースにおける変化と一致してもよい。意味論的に重要な期間が適切にエピソードに含まれる場合、これらはサブエピソードである。

フレームは、意味オブジェクト群を解釈又は記述するための、前提となる又は予め定義された規則群である。このため、フレーム自体が原型的記述であってもよく、また、規則群、定義群、記述構造群であってもよい。記述構造は、オブジェクト、エピソード、状態、関係の抽象概念である。メンタル・スペースは、記述からの又は他のメンタル・スペースからの記述構造を埋め込むマッピングに加えて、オブジェクト、関係、フレームの集合である。

意味コンテンツの完全な記述は、上述のカテゴリの記述の組み合わせからなる。また、完全な記述には、意味コンテンツの完全な記述に含まれる各意味エンティティ間の対応関係の記述が含まれる。エンティティ間の関係は、関連又はマッピングである。関連はマッピングの合成として表現することができるので、「マッピング」という用語は関連を識別するのに使用することができる。関連は、例えば、包含、内包、類似、例示、相対位置等、種々の種類がある。

オブジェクト間の関係は構造を形成する。さらに、エピソードに対するオブジェクト、状態、イベントのマッピングが構造である。元になるメンタル・スペースを構成するマッピングは構造である。状態は、状態により記述されるエンティティから属性値のスペースへのマップとして表すことができる。オブジェクトも構造として記述することができる。オブジェクトは、いずれかのポイントセットからオブジェクト自体へのマッピング、又は、オブジェクト自体から１ポイントセットへのマッピングに対して、１対１の対応関係にある。従って、構造は、意味記述構築の本質的な一部である。

構造は、モルフィズム、グラフ、カテゴリ、関数記号、自然変換等、種々の形式をとる。モルフィズムは、あるカテゴリにおけるオブジェクト間の矢印である。カテゴリは、２つの群、すなわちオブジェクト群とモルフィズム群からなる。これらは以下の２つの規則に従う。

１）オブジェクト毎に、「アイデンティティ」モルフィズムと呼ばれるモルフィズムがなければならない。

２）ｆがＡからＢへのモルフィズムであり、かつ、ｇがＢからＣへのモルフィズムである場合、最初にｆを決定し、次にｇを決定することに等しいＡからＣへのモルフィズム（通常（ｇｏｆ）と記載する）がなければならない。

カテゴリ間のマッピングを定義することは可能である。カテゴリ間のマッピングは、オブジェクトについてはオブジェクトに対して、モルフィズムについてはモルフィズムに対して行う。また、カテゴリ間のマッピングは、モルフィズムのソース及びターゲットについては、マッピング中の画像のソース及びターゲットに対して行う必要がある（これは、グラフのカテゴリに関するモルフィズムを定義する規則である）。カテゴリ間のマッピングは、断定的条件と呼ばれる２つの条件を満たさなければならない。

１）アイデンティティマップについてはアイデンティティマップに対してマッピングを行わなければならない。

２）マッピングは合成を保たなければならない。すなわち、ＦがＸに対してＡを、Ｙに対してＢを、Ｚに対してＣを取り、かつ、ｈに対してｆを、ｐに対してｇを取る場合、Ｆは（ｐｏｈ）に対して（ｇｏｆ）を取らなければならない。上述の条件に従うマップはいずれも「断定的」と呼ばれる。

２つカテゴリ間の断定的マップは関数記号と呼ばれる。関数記号はカテゴリ間でマッピングを行う。例えば、ＦはカテゴリＣをカテゴリＤに対してマッピングする。これを、Ｃ及びＤをオブジェクト、そして、Ｆを矢印（モルフィズム）として考えることが可能である。ＧがカテゴリＨをカテゴリＪに対してマッピングする場合、ＣをＨに対して、ＤをＪに対して、ＦをＨに対して取る新たなマップを作成することができる。この新たなマップが断定的条件に従うならば、これは自然変換（Natural Transformation）と呼ばれる。

図３は、オーディオビジュアルコンテンツの意味記述について種々の構造形式の階層構造を示す。モルフィズム３０２は、２つのオブジェクト３０４の間のマップである。各カテゴリ３１０は、オブジェクト群（例えば、オブジェクト３０４を含む）と、モルフィズム群（例えば、モルフィズム３０２を含む）とにより構成される。関数記号３０６は、カテゴリ３１０間のマップである。自然変換３０８は、関数記号間のマップである。この階層構造は「関数記号カテゴリ」を用いて続けることができるので、自然変換の間でマップを作成する必要はない。

従って、オーディオビジュアルコンテンツの完全な記述には、完全な記述の構造を示す記述に加えて、種々の意味エンティティ（例えば、オブジェクト、イベント、状態、エピソード、フレーム、記述構造、メンタル・スペース）の記述が含まれる。この手法により、いずれの意味記述についても完全かつ正確に記述することが可能な意味記述を得ることができるが、得られる意味記述が相当複雑となってしまう。本発明の一具体例では、既存のオーディオビジュアルコンテンツの記述を分散することにより、この複雑性を解決する。本具体例では、既存の記述を保存しておき、新たな記述を生成するのに再使用することができる。これについて以下に詳細に説明する。

図４は、オーディオビジュアルコンテンツの記述の処理を行うシステム１００の一具体例を示すブロック図である。システム１００は、クライアント１１２等、１以上のクライアントコンピュータに接続された１以上のサーバコンピュータ１０２からなる。クライアント１１２は、例えば、インターネット等の公開ネットワーク、若しくは、イーサネット（登録商標）、イントラネット、ＬＡＮ等のローカルネットワーク、又は、ネットワークの組み合わせ等、いずれの有線又は無線通信リンクを介してもサーバ１０２と通信を行うことができる。各クライアント１１２及びサーバ１０２は、例えば、デスクトップコンピュータ、ワークステーション、ラップトップ、メインフレーム等、いずれの種類の演算装置であってもよい。

一具体例において、サーバ１０２は、種々のオーディオビジュアルコンテンツの記述を記憶するデータ記憶部１０４を備えている。一具体例において、データ記憶部１０４は、オーディオビジュアルコンテンツの意味記述のみ、すなわち、オーディオビジュアルコンテンツの実際の意味を記述する記述のみを保存する。又は、データ記憶部１０４は、意味記述のほかにも、他の種類の記述（例えば、セグメント記述）を保存する。記述は、それらが記述するオーディオビジュアルコンテンツとは独立して保存される。一具体例において、各記述は、他のオーディオビジュアルコンテンツの記述の作成にこの記述をどのように使用できるかを示す、関連する再使用情報とともに保存される。再使用情報の機能について以下に詳細に説明する。

クライアント１１２は、既存のオーディオビジュアルコンテンツの記述を再使用することにより新たな記述を作成するツールを備えている。一具体例において、このツールは、再使用モジュール１０６と、記述処理部１０８と、再使用情報生成部１１０とを備えている。また、一具体例において、クライアント１１２は、オーディオビジュアルコンテンツの記述を局所的に記憶するデータ記憶部１１４を備えている。

再使用モジュール１０６は、新たなオーディオビジュアルコンテンツの記述の生成に使用できる既存の記述データを検索する。一具体例において、この記述データは、１以上のサーバ１０２のデータ記憶部１０４に存在する。又は、この記述データの幾つか又はすべてが、データ記憶部１１４に存在してもよい。既存の記述データには、オーディオビジュアルデータの記述の一部又は全体が含まれてもよい。上述のように、各記述は関連する再使用情報とともに記憶される。再使用モジュール１０６は、この再使用情報を分析して、この特定の記述に関してどの種類の再使用が可能であるか判断する。

記述処理部１０８は、既存の記述データとそれに関連する再使用情報とを用いて、新たなオーディオビジュアルコンテンツの記述を生成する。再使用情報生成部１１０は、生成された新たなオーディオビジュアルコンテンツの記述についての再使用情報を定める。一具体例において、新たな記述はデータ記憶部１１４に局在的に記憶される。又は、新たな記述は、サーバ１０２に転送されて、データ記憶部１０４に記憶される。いずれの具体例においても、新たな記述は、この記述の後の再使用を可能にする、関連する再使用情報とともに記憶される。

図５は、オーディオビジュアルコンテンツの分散型記述を得る一具体例を示すフローチャートである。処理ブロック５０４において、新たなオーディオビジュアルコンテンツの記述を生成する。一具体例において、新たな記述は、以下に図６を参照して詳細に説明するように１以上の既存の記述を再使用して生成する。又は、複数の既存の記述から抽象化を行うことにより、すなわち、既存の記述から共通属性を抽出することにより、新たな記述を生成する。又は、新たな記述は記述スキーム（ＤＳ）である。上述のように、記述子はオーディオビジュアルコンテンツの特徴を表し、各特徴表現の表記方法及び意味を定義する。ＤＳは構成要素間の関係の構造と意味を特定する。これらの構成要素は、記述子と記述スキームの両方であってもよい。一具体例において、新たな記述は意味記述である。意味記述は、イベント、オブジェクト、状態、関係、エピソード、記述構造、メンタル・スペース等の意味エンティティや、上述の意味エンティティの組み合わせを記述する。

処理ブロック５０６において、生成された記述の後の再使用に関する情報を定義する。この情報は、どのような種類の再使用がこの記述のために許されるかを示す。例えば、再利用情報は、この記述の意図された意味を変更せずに、この記述を他の記述に埋め込むことができるか否か、又は、再使用のために抽出されたときに意味を維持する構成要素にこの記述を細分化できるか否かを示す。また、再使用情報は、この記述の再使用を可能とするように記述の変換が可能であるか否かを示してもよい。例えば、再使用情報は、一方の目の記述を、他方の目の記述を生成するのに反映できるか否かを特定することができる。さらに、再使用情報は、記述が再使用されるときに移行する能力を維持することができるか否かを示してもよい。例えば、再使用情報は、記述がそれより大きい記述に埋め込まれる場合に、サブセットとして機能するか否かを特定することができる。

処理ブロック５０８おいて、記述とそれに関連する再使用情報は、この記述の後の再使用を可能にするために記述データ記憶部に記憶される。再使用情報は、種々の再使用のタイプに対応するフラグ群として、又は、その記述について可能な再使用のタイプの組み合わせを特定する番号として、又は、他の形式で記憶することができる。一具体例において、記述をネットワークサーバに記憶し、ネットワーク（例えば、インターネット又はローカルネットワーク）を介して複数のクライアントコンピュータからアクセスすることができる。また、記述をクライアントコンピュータに局在的に記憶し、そのクライアントコンピュータのユーザがアクセスすることができる。いずれの具体例においても、記述に関連する再使用情報に基づいて記述を後に再使用し、新たな記述を生成することができる。

図６は、オーディオビジュアルコンテンツの記述を再使用する具体例を示すフローチャートである。処理ブロック６０４において、新たな記述に含まれるべき既存の記述データを検索する。一具体例において、既存の記述データは、ネットワークサーバ（１又は複数）に記憶された複数の記述から選択される１以上のオーディオビジュアルコンテンツの記述（または記述の一部）からなる。例えば、記述プロバイダが、広く利用できる可能性がある複数の記述を生成して、それらを後の使用のためにウェブサイト上に公開することができる。他の例では、ウェブサイトに公開された記述は、種々の既存の記述から共通特徴を抽出して作成した抽象概念（又はテンプレート）であってもよい。この例では、このような記述を、この記述が抽象概念であることを特定する指標とともに記憶することができる。他の例では、既存の記述データ又はその一部を、記述データのローカル記憶部から選択する。

処理ブロック６０６において、選択された記述データに関連する再使用情報を分析し、選択された記述データをどのように再使用することができるかを決定する。上述のように、再使用情報は、選択的記述データの組み込み、細分化若しくは変換が可能であるか否か、又は、選択された記述データが移行できるか否かを示すことができる。

処理ブロック６０８において、選択された記述データとそれに関連する再使用情報を用いて、新たな記述を生成する。一具体例において、新たな記述は、データ自体ではなく選択された記述データに対する参照情報を有することにより、大量で複雑な記述の作成を防止する。記述データは多数の記述（又はそれらの一部）により構成することができるので、記述には多数の記述に対する参照情報が含まれてもよい。例えば、新たなＤＳは、例えば、オブジェクトＤＳ、イベントＤＳ、状態ＤＳ、関係ＤＳ、エピソードＤＳ、記述構造ＤＳ、メンタル・スペースＤＳ等のＤＳに対する参照情報を含むことができる。再使用の形式に応じて、新たな記述に対する既存の各記述のマッピングが必要になる。一具体例において、このようなマッピングは、新たな記述の作成に必要になるたびに定義される。又は、マッピングを保存しておいたものを新たな記述において参照する。

一具体例において、既存の記述データをある記述の一部分に変換し、この部分的記述データを新たな記述にマッピングすることにより、新たな記述を生成する。例えば、現在のＭＰＥＧ−７規格では、完全な意味記述は、多数のオブジェクトＤＳ、イベントＤＳ、概念ＤＳを含むことができる。概念ＤＳは、複合概念の要約を可能にするものであるが、これもオブジェクトＤＳ、イベントＤＳ、概念ＤＳを含むことができる。概念ＤＳをオブジェクト及びイベントの記述に含むことができるので、新たなオブジェクト又はイベントの記述を作成するには、既存の概念ＤＳを新たな記述の一部に変換し、このＤＳを新たな記述にマッピングすることが必要である。

他の具体例においては、既存の記述の一部にアクセスし、この部分的記述を新たな記述にマッピングすることにより新たな記述を作成するので、既存の記述全体ではなく、既存の記述の一部を再使用することが可能となる。例えば、既存の概念ＤＳ内に含まれるオブジェクトＤＳにアクセスし、それを新たなオーディオビジュアル素材の記述にマッピングすることができる。一具体例では、既存の記述から部分的記述を抽出し、独立型の記述に変換してから、新たな記述に埋め込む。

さらに他の具体例においては、種々の既存の記述（又はそれらの一部）を選択し、記述の組み合わせについての規則辞書からの組み合わせ規則を用いて、選択された既存の記述を組み合わせることにより、新たな記述を生成する。辞書項目に対して既存の記述をマッピングし、規則を実行して新たな記述を生成する。そして、新たな記述の部分により、対応するオブジェクトを識別する。規則と記述はローカルマシンにおいて、単一のデータ記憶部又は幾つかのデータ記憶部に配置することができ、記述処理部により実行することができる。データ記憶部は、使用する既存の記述に加えて、記述構成規則を有してもよく、これらは辞書に配置される。

一具体例において、種々のオーディオビジュアルデータの記述の間でグラフ操作を行うことが可能な、当該分野において既知の手法を用いて、既存の記述又は既存の記述の一部を新たな記述にマッピングする。また、この用途にオブジェクト指向型継承手法を使用してもよい。例えば、プライベート承継（private inheritance）により、データの種類の関係を取得することなく属性や方法を継承することができる。従って、例えば、既存の記述の一部を新たな記述にマッピングするのに、プライベート承継を用いることができる。パブリック承継では、断定的構造を生成するメカニズムが得られる。従って、例えば、新たな記述の一部に変換される既存の記述を、その新たな記述にマッピングするのに、パブリック承継を用いることができる。さらに、既存の記述を新たな記述にマッピングするのに、プライベート承継とパブリック承継（public inheritance）の両方を用いることもできる。例えば、既存の記述を抽象概念に対してマッピングしてから、さらに、これらの抽象概念を組み合わせる新たな記述に、これらの抽象概念をマッピングするのに、両タイプの継承を用いることができる。

一具体例において、記述の多数の再使用により、カテゴリ別による事実上の記述の標準化（純粋な標準化とは異なる）が可能となる。すなわち、ＭＰＥＧ−７規格の採用後の用途に発生するカテゴリを知ることができないと思われるＭＰＥＧ−７規格の開始時に適用される純粋な標準化とは異なり、多数の再使用を介して、最大の用途と使用がある記述カテゴリを識別することにより、規格を自然に作成する。

本発明の一具体例によれば、オーディオビジュアルコンテンツの記述の生成を、既存の記述の動的に再使用によりオーディオビジュアルコンテンツを作成するのと同時に行う。例えば、ある全国的な災害の専用ニュース番組を、その災害の継続的報道と同時に記述する際、ニュース番組の記述を動的に更新して、展開するコンテンツの新たな記述を生成する。

図７は、オーディオビジュアルコンテンツの記述の動的な再使用を行う具体例を示すフローチャートである。処理ブロック７０４において、第１のオーディオビジュアルコンテンツの記述を生成する。処理ブロック７０６において、第１の記述に関連する再使用情報を、既に詳細に説明したように定義する。一具体例において、第１の記述とそれに関連する再使用情報をローカルデータ記憶部に記憶する。

処理ブロック７０８において、再使用情報に基づき、第１の記述を再使用して第２の変更オーディオビジュアルコンテンツの記述を生成する。第２の記述は、変更オーディオビジュアルコンテンツの作成と同時に生成する。一具体例では、第１の記述のパラメータ値を更新することにより、第２の記述を生成する。他の具体例においては、第１の記述を他の新たな記述データ又は既存の記述データと組み合わせることにより、第２の記述を生成する。さらに他の具体例においては、第１の記述の幾つかの部分を再使用し、適切ではなくなっている第１の記述の他の部分をする除くことにより、第２の記述を生成する。例えば、オンラインエピソードの記述中に、オブジェクト間の関係が変化してもよく、また、それらを記述するのに必要な構造が変化してもよい。そして、現在の記述のパラメータ値を更新することにより、また、新たな記述又は部分的記述を導入して、現われる動きを記述し、必要なくなった現在の記述の部分を除くことにより、現在の記述を変更しなければならないこともある。

一具体例において、ＩＢＭ（登録商標）のシステムオブジェクトモデル（ＳＯＭ）等、オブジェクト指向モデリングを用いて、動的再使用を行う。ＳＯＭは、異なるアプリケーションにより２値オブジェクトの共用を可能にするアーキテクチャであり、ある構造が展開する間の記述、関係、属性の動的変化を可能にする。

本発明の一具体例では、意味モザイクを用いて、新たなオーディオビジュアルコンテンツの記述を生成する。意味モザイクは、隣接する記述の相互関係を用いて融合される種々の記述の集合である。図８は、一例としての意味モザイク８００と示す。モザイク８００は、記述１〜１８等、多数のオーディオビジュアルコンテンツの意味記述により構成される。モザイク８００を生成する際、互いに関係する記述を融合する。例えば、記述１及び２は、同じ情報を伝達するポイントを有する。このポイントを用いて記述１及び２を融合する。また、記述２は、記述３との他の共通ポイントを有してもよい。この他のポイントを用いて記述３と記述２と融合することができる。第３の共通ポイントを用いて、記述２及び５を融合してもよい。同様の処理が行うことができる。この結果、記述２は、いずれも記述２と関係するが互いに相互関係はない記述１、３、４、５と融合される。従って、モザイク８００は、特定の意味素材を記述するわけではないが種々の意味コンテンツの記述を表すローカルピース（local pieces）を有する記述を示す。各ローカルピースは、幾つかの記述を組み合わせて、ある意味エンティティを記述することができる。コンテキストに応じて、特定のローカルピースに含まれる記述の数は異なる。例えば、あるコンテキストでは、記述５、１０、１１の組み合わせにより、完全なオーディオビジュアルコンテンツの記述が得られる。別のコンテキストでは、完全なオーディオビジュアルコンテンツの記述を得るのに、記述５、９、１０、１２、１３の組み合わせが必要となる。新たな記述を生成する際、適切なローカルピースを再使用して新たな記述を生成することができる。各ローカルピースに含まれる記述は既に関係を定義している。従って、意味モザイクから適切なローカルピースを抽出するだけで、新たな記述を生成することができる。又は、ローカルピースを他の記述データと組み合わせて、新たな記述を構成してもよい。

図９は、機器に上述の方法のいずれかを行わせるために命令群を実行できるコンピュータシステム９００の一具体例を示すブロック図である。他の具体例において、機器はネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、携帯情報端末（ＰＤＡ）、携帯電話、ウェブ機器、又は、行うべき動作を特定する一連の命令を実行することが可能な機器であればいずれの機器であってもよい。

コンピュータシステム９００は、プロセッサ９０２と、メインメモリ９０４と、スタティックメモリ９０６とを備え、これらはバス９０８を介して互いに接続されている。コンピュータシステム９００は、ビデオ表示装置９１０（例えば、液晶表示装置（ＬＣＤ）又は陰極線管（ＣＲＴ））をさらに備えてもよい。また、コンピュータシステム９００は、英数入力装置９１２（例えば、キーボード）と、カーソル制御装置９１４（例えば、マウス）と、ディスクドライブ装置９１６と、信号発生装置９２０（例えば、スピーカ）と、ネットワークインターフェース装置９２２とを備える。

ディスクドライブ装置９１６は、上述の方法のいずれか１又はすべてを実現する命令群（すなわち、ソフトウェア）９２６が記憶される、コンピュータにより読み取り可能な媒体９２４を備えている。ソフトウェア９２６は、完全に、又は、少なくとも部分的に、メインメモリ９０４及び／又はプロセッサ９０２内に存在するように図示してある。さらに、ソフトウェア９２６は、ネットワークインターフェース装置９２２を介して送受信される。本明細書では、「コンピュータにより読み取り可能な媒体」という用語には、本発明の方法のいずれか１つをコンピュータに実行させる、コンピュータによる実行のための一連の命令を記憶又は符号化することが可能な媒体であれば、いずれの媒体も含まれるものとする。従って、「コンピュータにより読み取り可能な媒体」という用語には、固体メモリ、光及び磁気ディスク、搬送波信号が含まれるが、これらに限定されるものではない。

以上、オーディオビジュアルコンテンツの記述の処理方法及び装置について説明した。具体例としての具体例を参照して本発明を説明したが、本発明の主旨から逸脱しない限り、これらの具体例に種々の修正や変更を加えることができることは明らかである。従って、本明細書及び図面は、限定的な意味ではなく例示的な意味で解釈すべきものとする。

メンタル・スペースを作成する従来技術の具体例を示す図である。メンタル・スペースを作成する従来技術の具体例を示す図である。オーディオビジュアルコンテンツの意味記述について種々の構造形式の階層構造を示す図である。オーディオビジュアルコンテンツの記述を処理するシステムの一具体例を示すブロック図である。オーディオビジュアルコンテンツの分散型記述を得る一具体例を示すフーチャートである。オーディオビジュアルコンテンツの記述を再使用する一具体例を示すフローチャートである。オーディオビジュアルコンテンツの記述の動的再使用を行う一具体例を示すフローチャートである。意味モザイクの一例を示す図である。コンピュータシステムの一具体例を示すブロック図である。

Claims

コンピュータによって実行される、オーディオビジュアルコンテンツの記述の処理方法であって、
前記コンピュータが、既存のオーディオビジュアルコンテンツにおける概念を記述する第１の記述を作成するステップと、
前記コンピュータが、前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義するステップと、
前記コンピュータが、前記第１の記述と前記第１の記述の再使用に関する情報とを記述データ記憶部に記憶し、前記記述データ記憶部における前記第１の記述と再使用に関する情報とを検索することにより、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を、前記第１の記述の再使用に関する情報に従って作成する、前記第１の記述の後の再使用を可能とするステップと、
を含むことを特徴とする記述の処理方法。
前記第１の記述は意味記述であることを特徴とする請求項１に記載の記述の処理方法。
前記第１の記述は記述スキームであることを特徴とする請求項１に記載の記述の処理方法。
前記第１の記述の再使用に関する情報は、前記第１の記述の意図された意味を変更せずに、前記第１の記述を第２のオーディオビジュアルコンテンツの記述に埋め込むことができるか否かを示すことを特徴とする請求項１項に記載の記述の処理方法。
前記第１の記述の再使用に関する情報は、前記第１の記述を、それぞれ後の再使用に適する複数の部分的記述に分割することができるか否かを示すことを特徴とする請求項１項に記載の記述の処理方法。
前記第１の記述の再使用に関する情報は、第２のオーディオビジュアルコンテンツの記述を作成するのに使用する際に前記第１の記述を変換することができるか否かを示すことを特徴とする請求項１項に記載の記述の処理方法。
前記第１の記述の再使用に関する情報は、第２のオーディオビジュアルコンテンツの記述を作成するのに前記第１の記述を再使用する場合に前記第１の記述が移行する能力を維持することができるか否かを示すことを特徴とする請求項１項に記載の記述の処理方法。
複数の記述の事実上の標準化を行うため、カテゴリ別に複数の記述を何度も１以上の記述データ記憶部に記憶し、記憶された複数の記述を何度も再使用すること
を特徴とする請求項１項に記載の記述の処理方法。
コンピュータによって実行される、オーディオビジュアルコンテンツの記述の再使用方法であって、
前記コンピュータが、記述データ記憶部において、既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される概念と類似の、前記既存のオーディオビジュアルデータにおいて表される概念を記述する既存の記述データを検索するステップと、
前記コンピュータが、前記記述データに関連する再使用情報を分析し、前記既存の記述データのどのような種類の再使用が許されるかを判定するステップと、
前記コンピュータが、前記関連する再使用情報に従って、前記既存の記述データを用いて、前記新たなオーディオビジュアルコンテンツのための新たな記述を作成するステップと、
を含むことを特徴とする記述の再使用方法。
前記新たな記述は意味記述であることを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述は記述スキームであることを特徴とする請求項９項に記載の記述の再使用方法。
前記記述データは、１以上の既存のオーディオビジュアルコンテンツの記述の、少なくとも一部であることを特徴とする請求項９項に記載の記述の再使用方法。
さらに、１以上の記述データ記憶部から記述データを取り出すことを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述を作成するステップは、さらに、
既存の記述データを部分的記述に変換するステップと、
部分的記述を前記新たな記述に対してマッピングするステップと、
を含むことを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述を作成するステップは、さらに、
記述データ記憶部における前記既存の記述データの一部にアクセスするステップと、
前記既存の記述データの一部を前記新たな記述に対してマッピングするステップと、
を含むことを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述を作成するステップは、さらに、
前記既存の記述データにおけるオブジェクトの、それに対応する前記新たな記述におけるオブジェクトに対する辞書マッピングを行うステップを含むことを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述を作成するステップは、さらに、
前記既存の記述データに対する参照情報を前記新たな記述に含めるステップを含むことを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述は、グラフ操作を行う手法を用いて作成されることを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述は、オブジェクト指向型継承手法を用いて作成されることを特徴とする請求項９項に記載の記述の再使用方法。
前記新たな記述を作成するステップは、さらに、
複数の関連する記述を統合する意味モザイクから前記既存の記述データを抽出するステップを含むことを特徴とする請求項９項に記載の記述の再使用方法。
コンピュータによって実行される、オーディオビジュアルコンテンツの記述を動的に再使用する方法であって、
前記コンピュータが、既存のオーディオビジュアルコンテンツにおける概念を記述する第１の記述を作成するステップと、
前記コンピュータが、前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義するステップと、
前記コンピュータが、前記再使用情報に従って、記述データ記憶部からの前記第１の記述を再使用して、前記既存のオーディオビジュアルコンテンツとは異なる変更オーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を作成し、前記再使用は前記変更オーディオビジュアルコンテンツの作成と同時に行われるステップと、を含むことを特徴とする記述を動的に再使用する方法。
オーディオビジュアルコンテンツの記述の処理システムであって、
既存のオーディオビジュアルコンテンツにおいて表される概念を記述する第１の記述を作成する手段と、
前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義する手段と、
前記第１の記述と第１の記述の再使用に関する情報を記述データ記憶部に記憶し、前記記述データ記憶部における前記第１の記述と再使用に関する情報とを検索することにより、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を、前記第１の記述の再使用に関する情報に従って作成する、前記第１の記述の後の再使用を可能とする手段と、
を備えることを特徴とする記述の処理システム。
既存のオーディオビジュアルコンテンツにおける概念を記述する第１の記述を作成する記述処理部と、
前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義する再使用情報作成部と、
前記第１の記述と前記第１の記述の再使用に関する情報を記憶し、前記記述データ記憶部における前記第１の記述と再使用に関する情報とを検索することにより、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を、前記第１の記述の再使用に関する情報に従って作成する、前記第１の記述の後の再使用を可能とする記述データ記憶部と、
を備えることを特徴とする装置。
前記第１の記述は意味記述であることを特徴とする請求項２３項に記載の装置。
前記第１の記述は記述スキームであることを特徴とする請求項２３項に記載の装置。
前記第１の記述の再使用に関する情報は、前記第１の記述の意図された意味を変更せずに、前記第１の記述を第２のオーディオビジュアルコンテンツの記述に埋め込むことができるか否かを示すことを特徴とする請求項２３項に記載の装置。
前記第１の記述の再使用に関する情報は、前記第１の記述を、それぞれ後の再使用に適する複数の部分的記述に分割することができるか否かを示すことを特徴とする請求項２３項に記載の装置。
前記第１の記述の再使用に関する情報は、第２のオーディオビジュアルコンテンツの記述を作成するのに使用する際に前記第１の記述を変換することができるか否かを示すことを特徴とする請求項２３項に記載の装置。
前記第１の記述の再使用に関する情報は、第２のオーディオビジュアルコンテンツの記述を作成するのに前記第１の記述を再使用する場合に前記第１の記述が移行する能力を維持することができるか否かを示すことを特徴とする請求項２３項に記載の装置。
オーディオビジュアルコンテンツの記述の再使用システムであって、
記述データ記憶部において、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される概念と類似の、既存のオーディオビジュアルデータにおいて表される概念を記述する既存の記述データを検索する手段と、
記述データに関連する再使用情報を分析し、前記既存の記述データのどのような種類の再使用が許されるかを判定する手段と、
前記関連する再使用情報に従って、前記既存の記述データを用いて、前記新たなオーディオビジュアルコンテンツのための新たな記述を作成する手段と、
を備えることを特徴とするシステム。
記述データ記憶部において、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される概念と類似の、既存のオーディオビジュアルデータにおいて表される概念を記述する既存の記述データを検索し、記述データに関連する再使用情報を分析し、前記既存の記述データのどのような種類の再使用が許されるかを判定する再使用モジュールと、
前記関連する再使用情報に従って、前記既存の記述データを用いて、前記新たなオーディオビジュアルコンテンツのための新たな記述を作成する記述処理部と、
を備えることを特徴とする装置。
前記新たな記述は意味記述であることを特徴とする請求項３１項に記載の装置。
前記新たな記述は記述スキームであることを特徴とする請求項３１項に記載の装置。
前記記述データは、１以上の既存のオーディオビジュアルコンテンツの記述の、少なくとも一部であることを特徴とする請求項３１項に記載の装置。
前記新たな記述は、グラフ操作を行う手法を用いて作成されることを特徴とする請求項３１項に記載の装置。
前記新たな記述は、オブジェクト指向型継承手法を用いて作成されることを特徴とする請求項３１項に記載の装置。
オーディオビジュアルコンテンツの記述を動的に再使用するためのシステムであって、
既存のオーディオビジュアルコンテンツにおける概念を記述する第１の記述を作成する手段と、
前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義する手段と、
前記再使用情報に従って、記述データ記憶部からの前記第１の記述を再使用して、前記既存のオーディオビジュアルコンテンツとは異なる変更オーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を作成し、前記再使用は前記変更オーディオビジュアルコンテンツの作成と同時に行われる手段と、
を備えることを特徴とするシステム。
既存のオーディオビジュアルコンテンツにおいて表される概念を記述する第１の記述を作成する記述処理部と、
前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義する再使用情報作成部と、
を備え、
前記記述処理部は、前記再使用情報に従って、記述データ記憶部からの前記第１の記述を再使用して、前記既存のオーディオビジュアルコンテンツとは異なる変更オーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を作成し、前記再使用は前記変更オーディオビジュアルコンテンツの作成と同時に行われることを特徴とする装置。
既存のオーディオビジュアルコンテンツにおいて表される概念を記述する第１の記述を作成するステップと、
前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義するステップと、
前記第１の記述と前記第１の記述の再使用に関する情報とを記述データ記憶部に記憶し、前記記述データ記憶部における前記第１の記述と前記第１の記述の再使用に関する情報とを検索することにより、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を、前記第１の記述の再使用に関する情報に従って作成する、前記第１の記述の後の再使用を可能とするステップと、
をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な媒体。
記述データ記憶部において、前記既存のオーディオビジュアルコンテンツとは異なる新たなオーディオビジュアルコンテンツにおいて表される概念と類似の、既存のオーディオビジュアルデータにおいて表される概念を記述する既存の記述データを検索するステップと、
前記記述データに関連する再使用情報を分析し、前記既存の記述データのどのような種類の再使用が許されるかを判定するステップと、
前記関連する再使用情報に従って、前記既存の記述データを用いて、前記新たなオーディオビジュアルコンテンツのための新たな記述を作成するステップと、
をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な媒体。
既存のオーディオビジュアルコンテンツにおいて表される概念を記述する第１の記述を作成するステップと、
前記第１の記述のどのような種類の再使用が許されるかを示す、前記第１の記述の再使用に関する情報を定義するステップと、
前記再使用情報に従って、記述データ記憶部からの前記第１の記述を再使用して、前記既存のオーディオビジュアルコンテンツとは異なる変更オーディオビジュアルコンテンツにおいて表される類似の概念を記述する第２の記述を作成し、前記再使用は前記変更オーディオビジュアルコンテンツの作成と同時に行われるステップと、
をコンピュータに実行させるプログラムを記録したコンピュータにより読み取り可能な媒体。