JP4291294B2

JP4291294B2 - ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム

Info

Publication number: JP4291294B2
Application number: JP2005103585A
Authority: JP
Inventors: 教彰桑原; 和宏桑原; 清安田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2009-07-08
Anticipated expiration: 2025-03-31
Also published as: JP2006287521A

Description

この発明はビデオコンテンツ作成装置に関し、特にたとえば、痴呆症者の過去の写真を使って思い出ビデオのようナレーションビデオコンテンツを作成する、ビデオコンテンツ作成装置に関する。

高齢者人口が急増している昨今、痴呆症者（認識症者ともいうが、この明細書では便宜上、この語を用いる。）に対して充実した介護を提供することは緊急の課題と言える。しかし、一般に痴呆症者の介護者として世話に当たる家族は、２４時間常に痴呆症者から目を離すことができず、そのストレスを原因とする痴呆症者への虐待が最近、社会的な問題となっている。こういった痴呆症者、介護者の両者のストレスを軽減するには、痴呆症者の心理的な安定を引き出すことが重要である。そのための手法として昔の映画や音楽、本人の写真などを視聴させる回想法がある。しかし、話しかけを実施する人が必要であり在宅では行いにくい。

このため、非特許文献１において、思い出ビデオを用いる手法が提案されている。思い出ビデオとは、痴呆症者の昔の写真のスライドショービデオに、ＢＧＭやナレーションを加えたものである。
安田ほか：痴呆症者への思い出写真ビデオの作成と集中度の評価。第２８回高次脳機能障害学会総会（２００４）

思い出ビデオは痴呆症者の安定した精神状態を形成する上で有効性が確認されているが、特に、ナレーションは重要な要素である。

しかしながら、思い出ビデオのナレーション付与作業は、写真からナレーションを想起し、想起したナレーションを収録し、そしてそのナレーションデータを映像編集ソフトでしかるべき場所に貼り付ける、という経験やノウハウなくしてはとてもできない煩雑な作業が必要であり、一般の介護者が簡単に行えるものではない。

それゆえに、この発明の主たる目的は、新規な、ビデオコンテンツ作成装置を提供することである。

この発明の他の目的は、たとえば、痴呆症者の過去の写真を使う思い出ビデオのようなナレーション付きのビデオコンテンツを作成できる、ビデオコンテンツ作成装置を提供することである。

請求項１の発明は、写真画像データを入力する写真データ入力手段、写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、生成手段は、メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成手段、およびナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録手段を含む、ビデオコンテンツ作成装置である。

請求項１の発明では、たとえばイメージスキャナなどを含む写真データ入力装置（２０。実施例で相当する部分または要素を示す参照符号。以下同様。）から、写真画像データをコンピュータ（１２）に入力する。コンピュータ内にはその写真画像データにメタ情報を付与するための手段、たとえばDublin Core、Image Regions、FOAFなどを設けておく。これらのメタ情報付与手段によって、入力した写真画像データに関連するメタ情報を付与して、コンピュータは、写真画像データを関連するメタ情報とともに記憶手段（２２）に格納する。検索手段（１２，Ｓ２）が、メタ情報を用いて記憶手段か写真画像データを検索する。生成手段（１２，Ｓ６）は、その検索した写真画像データを、メタ情報に従って編集することによって、たとえばＡＶＩ形式やＦｌａｓｈムービー形式で、スライドショーのようなビデオコンテンツを生成する。ここで、生成手段に含まれるナレーション作成手段（１２，Ｓ７）は、メタ情報に従ってナレーションテキストを作成する。そして、音声データ登録手段（１２，Ｓ５３，Ｓ５５）は、そのナレーションテキストに従った音声データを取得し、または作成し、その音声データを写真画像データと紐付けして、つまり、関連して記憶手段に登録する。上記写真が痴呆症者の昔の写真であれば、ビデオコンテンツは思い出ビデオと呼べる。

請求項１の発明では、メタ情報を用いて写真画像データを編集するので、ビデオコンテンツの製作にあまり慣れていなくても、たとえば痴呆症者の昔の写真を用いて、比較的簡単に、思い出ビデオのようなビデオコンテンツを作成することができる。しかも、メタ情報に従ってナレーションを作成できるので、ナレーションによって思い出ビデオを観る痴呆症者の興味や集中力を持続させ易く、思い出ビデオの効果の一層の向上が期待できる。

請求項２の発明は、ナレーション候補テキスト作成手段は、少なくとも１つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、およびメタ情報に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーション候補テキストを作成する、請求項１記載のビデオコンテンツ作成装置である。

請求項２の発明では、ナレーションパターン設定手段（１２，２２，表４）によって、基本的には名詞である少なくとも１つの単語を含むナレーションパターンを設定しておき、単語決定手段によって決定した単語をナレーションパターン中の単語に割り当てることによって、ナレーション候補テキストを作成する。このように、単語を予め設定しているナレーションパターンに当てはめるだけでナレーション候補テキストが生成できるので、簡単である。

請求項３の発明は、単語決定手段はキーワードから単語を引き出す辞書を含む、請求項２記載のビデオコンテンツ作成装置である。

請求項３の発明では、キーワードから、たとえばシソーラス辞書や共起辞書を使ってその単語を引き出すので、単語の当てはめ、ひいてはナレーション作成が容易に行える。

請求項４の発明は、単語決定手段は、キーワードをメタ情報から抽出するキーワード抽出手段を含む、請求項３記載のビデオコンテンツ作成装置である。

請求項４の発明では、キーワード抽出手段（１２，Ｓ４７）は、記憶手段に登録しているメタ情報から必要なキーワード、たとえば、人、物、場所、時候などを抽出する。そして、そのキーワードに従って、先の単語決定手段が単語を決定する。

請求項５の発明は、単語決定手段は、ユーザによるキーワードの入力を受け付けるキーワード入力手段を含む、請求項３または４記載のビデオコンテンツ作成装置である。

請求項５の発明では、単語決定手段は、ユーザが入力したキーワード゛に基づいて単語を決定することができる。したがって、メタ情報から有意なキーワード抽出が行われなかったとしても、ナレーションを作成することはできる。

請求項６の発明は、ビデオコンテンツ作成装置のコンピュータに、画像データを入力する写真データ入力ステップ、写真画像データに関連してメタ情報を付与するためのメタ情報付与ステップ、写真画像データを関連するメタ情報とともに記憶手段に格納する記憶ステップ、メタ情報を用いて記憶手段から写真画像データを検索する検索ステップ、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成ステップ実行させ、そして生成ステップにおいては、メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成ステップ、およびナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録ステップを含む、ビデオコンテンツ作成プログラムである。

請求項６の発明でも請求項１の発明と同様の効果がある。
請求項７の発明は、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データに従ってサムネイル画像を表示するサムネイル画像表示領域および写真リスト欄を有する再生順序設定領域を含むＧＵＩ画面を表示する表示手段を備え、サムネイル画像表示領域で表示しているサムネイル画像を写真リスト欄にドラッグアンドドロップすることによって、検索した写真データのうち実際に使用する複数の写真を選択し、写真リスト欄におけるリスト搭載順を変更することによって複数の再生順序を変更できるようにし、写真リスト欄に搭載している写真の写真画像データとそれに関連するメタ情報とを記憶手段から読み出す読出し手段、および読出し手段が読み出した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、ＧＵＩ画面に、ナレーション候補テキストを表示するナレーション候補テキスト表示領域およびナレーション候補テキストを選択するかどうかを指示するための指示入力部を有するナレーション作成領域を形成し、さらに生成手段は、読出し手段が読み出したメタ情報に基づいてナレーション候補テキストを作成してナレーション候補テキスト表示領域に表示するナレーション候補テキスト表示手段、指示入力部でナレーション候補テキスト表示領域に表示されたナレーション候補テキストが選択されたとき、そのナレーション候補テキストに応じたナレーション音声データを作成するナレーション音声データ作成手段、および読出し手段が読み出した写真画像データに紐付けしてナレーション音声データを登録する登録手段を含む、コンテンツ作成装置である。
請求項８の発明は、ナレーション候補テキスト表示手段は、少なくとも１つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、およびメタ情報に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーション候補テキストを作成する、請求項７記載のビデオコンテンツ作成装置である。
請求項９の発明は、写真画像データを入力する写真データ入力手段、写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、生成手段は、メタ情報に基づいてナレーションテキストを作成するナレーションテキスト作成手段、およびナレーションテキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録手段を含み、ナレーションテキスト作成手段は、少なくとも１つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、およびメタ情報に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーションテキストを作成する、ビデオコンテンツ作成装置である。

この発明によれば、たとえば痴呆症者の過去の写真にメタ情報を付与し、そのメタ情報を利用して写真画像を編集することによって、比較的簡単に、思い出ビデオのようなビデオコンテンツを作成することができる。しかも、メタ情報に従ったナレーションを適用するので、思い出ビデオを観る痴呆症者の興味や集中力を持続させ易く、思い出ビデオの効果の一層の向上が期待できる。

この発明の上述の目的，その他の目的，特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。

図１を参照して、この実施例のビデオコンテンツ作成装置１０は、コンピュータ１２を含む。このコンピュータ１２としては、パーソナルコンピュータやワークステーションが利用可能である。

コンピュータ１２にはハードディスクやＲＡＭのような内部メモリ１４が設けられていて、その内部メモリ１４には、メタ情報を入力するためのツールとして、たとえば、いずれも商品名である、Dublin Core (ｈｔｔｐ：／／ｄｕｂｌｉｎｃｏｒｅ.ｏｒｇ)、Image Regions (ｈｔｔｐ：／／ｗｗｗ.ｗ３.ｏｒｇ)、FOAF (ｈｔｔｐ：／／ｗｗｗ.ｆｏａｆ−ｐｒｏｊｅｃｔ.ｏｒｇ)、Jena2(2.1) (ｈｔｔｐ：／／ｊｅｎａ.ｓｏｕｒｃｅｆｏｒｇｅ.ｎｅｔ)などが設定されている。これらはいずれも、写真画像データに関連するメタ情報を入力または登録もしくは付与する手段として機能する。

ここで、メタ情報とは、データに関する構造化した情報を意味し、実施例の場合、取り扱う写真画像データの詳細を構造的に記述する情報である。

Dublin Coreはメタ情報を取り扱う代表的なツールとして知られていて、さらに、写真中の人物の顔やオブジェクトの領域（以後、「リージョン」と呼ぶ。）を複数個指定し、これをメタ情報として保持するためにImage Regionsを利用する。リージョンが人の場合には、FOAFを利用して人のメタ情報を付与する。リージョンは静止画である写真に対して、そこへのズーム、リージョン間のパンといったエフェクトを加えるために用いる。メタ情報をＲＤＦの形式でデータベースに格納するために、Jena2(2.1)を使用する。

コンピュータ１２は図示しないが、グラフィックボードまたはプロセサやサウンドボードまたはプロセサを内蔵していて、それらを通して、ＧＵＩ画面や他のグラフィックス（映像）がモニタ１６に表示されるとともに、スピーカ１８からＢＧＭなどの音声が出力される。

コンピュータ１２にはさらに、写真データ入力装置２０が接続される。この写真データ入力装置２０は、イメージスキャナ、ディジタルカメラ（デジカメ）、インタネット（Ｗｅｂ）などの少なくとも１つを含む。イメージスキャナは、痴呆症者の過去の写真をスキャンしてカラーまたはモノクロの写真画像データを入力する。デジカメはリアルタイムで撮影した写真画像データを入力できる他、過去の写真を撮影してそれらの写真画像データを入力するという使い方もできる。インタネットは、遠隔地から送信される痴呆症者の過去の写真の写真画像データを入力し、さらには必要に応じて痴呆症者の過去にまつわる事象の写真画像データを取り込むために使用できる。さらに他の種類の写真データ入力装置が用いられてもよい。

さらに、コンピュータ１２には、インタフェース２４を介してデータベース２２が結合される。この実施例では、データベース２２にはPostgreSQL 7.4（ｈｔｔｐ：／／ｗｗｗ.ｐｏｓｔｇｒｅｓｑｌ.ｏｒｇ）というリレーショナルデータベースを用いる。

なお、図示していないが、コンピュータ１２は当然、キーボードやマウスなどの入力手段を持っている。

ここで、図１実施例の動作の説明に先立って、映像効果の付与について説明する。

発明者等は、映像編集の経験のある複数のクリエータに、写真から思い出ビデオに変換する際に付加できる映像効果（各写真に付与したエフェクト，写真間のトランジション）について、どのようなものが想定できるか、聞き取り調査した。その結果は、以下のＡ-１〜Ａ−３およびＢ−１〜Ｂ−５であった。
（Ａ）エフェクト
Ａ-１：写真中の人物の顔を含む矩形領域（以下，リージョンと呼ぶ）に対するズームアップ，パンという，いわゆるケンバーンズ（Ken Burns）効果（ｈｔｔｐ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｋｅｎ_Ｂｕｒｎｓ参照）。
Ａ−２：パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインする。
Ａ−３：カラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていく。
（Ｂ）トランジション
Ｂ-１：前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる。
Ｂ-２：次の写真をスライドインさせる。
Ｂ-３：前の写真をディゾルブして次の写真に遷移する。
Ｂ-４：前の写真をページピール（右下隅から捲り上げるような効果）して次の写真に遷移する。
Ｂ-５：前の写真を中心の縦軸で回転させて、次の写真に遷移する。

上記の結果を踏まえて、表1に示すような思い出ビデオをレンダリングするためのテンプレートを作成した。表１の「使用された情報」に挙げた項目を写真に付与すべきアノテーション（anotation：注釈。「メタ情報」ということもある。）とし、アノテーションオントロジ（ontology）として設計した。アノテーション付与の枠組みとして、セマンティックＷｅｂ（これは、検索性能の向上や利便性を高める次世代Ｗｅｂ技術で、「メタ情報（内容を説明する付加情報）」と「オントロジ（メタデータを記述する用語の定義）」という２つの技術を用いる。）の枠組みを用いた。すなわち、アノテーションは、ＲＤＦ（Resource Description Framework）で記述される。これは、将来的には他人がアノテーションした写真を自分や家族の思い出ビデオに利用するような情報交換を考えたとき、Ｗｅｂとの親和性を考慮したためである。

さらに、発明者等は、既存のボキャブラリを可能な限り利用するという方針をたて、図１実施例のための実験では、撮影された日付や出来事に関しては、書誌情報に関する標準的なボキャブラリである上述のDublin Coreで記述した。また、写真中の人物の情報を記述するためには、人の情報を記述するための標準的なボキャブラリである上述のFOAFを用いた。そして、写真中の人物領域を記述するためには，上述のImage Regionを使用し、写真の色調に関してはExif（ｈｔｔｐ：／／ｉｔ．ｊｅｉｔａ．ｏｒ．ｊｐ／ｄｏｃｕｍｅｎｔ／ｐｕｂｌｉｃａ／ｓｔａｎｄａｒｄ／ｅｘｉｆ／ｅｎｇｌｉｓｈ／ｊｅｉｄａ４９ｅ．ｈｔｍ参照）の色空間情報から取得できる。また、写真中の人物（被写体）との関係については、FOAFでknowsプロパティが定義されているが、思い出ビデオ作成においては本人と被写体の間柄をより詳細に定義する必要があるため、FOAFのknowsの属性を拡張して定義されたRELATIONSHIP（ｈｔｔｐ：／／ｖｏｃａｂ．ｏｒｇ／ｒｅｌａｔｉｏｎｓｈｉｐ／参照）を利用した。これを用いて、親子関係、親戚関係などを記述した。そのサンプルが後述の図７に示される。

さらに、表１に挙げたエフェクト、トランジションに対して、思い出ビデオ作成に用いる映像効果のオントロジを表２のように定義した。

そして、写真のアノテーションから映像効果への変換ルールを記述し、テンプレートとして使用する。表３に、表１の「ＲＴ−８」のレンダリングテンプレートの表現例を示す。ただし、表１に示す他の識別子に付いても同様にテンプレートを作成しておくものとする。

ここでは、レンダリングテンプレート自身もＲＤＦのステートメントとして記述し、上述のRDQLを用いて、レンダリングテンプレートを検索することを想定している。なお、レンダリングオントロジについては、インタオペラビリティ（相互操作性）の必要性は低いため、別の独自形式を定義してもよい。

以下に説明する実施例では、以上説明した表３に示すようなテンプレートを利用して、思い出ビデオというビデオコンテンツに表１すなわち表２のような映像効果（エフェクト、トランジション）を付与する。

図１の実施例のビデオコンテンツ作成装置１０を用いて思い出ビデオを作成するためには、コンピュータ１２などは図２に示す手順で動作する。

まず、ステップＳ１で、写真画像データを入力するとともに、メタ情報を登録する。具体的には、図１の写真データ入力装置２０を用いて、主として、当該痴呆症者の過去の写真の写真画像データをコンピュータ１２に入力する。

このとき、図３に示すＧＵＩ（Graphical User Interface）画面２６がモニタ１６に表示される。このＧＵＩ２６は、モニタ画面の左方の大部分を占める、写真表示編集領域２８を含む。この写真表示編集領域２８は、そこに入力した写真画像データの写真を表示し、さらには、リージョンを指定するなどの編集作業のために利用される。ＧＵＩ２６は、モニタ画面の右方に形成されるサムネイル表示領域３０を含む。サムネイル表示領域３０には、入力しかつ後述のようにして検索した写真画像データから使用する写真を選択するためにサムネイル画像を表示する。

ＧＵＩ２６には、モニタ画面の下方に形成される、第１メタ情報入力領域３２、モニタ画面のほぼ中央に形成される第２メタ情報入力領域３４、およびモニタ画面の右下方に形成される再生順設定領域３６が設けられる。メタ情報入力領域３２には、領域２８に表示もされている写真全般に関わるDublin Core で定義されたメタ情報を入力する。また、メタ情報入力領域３４はポップアップ形式で入力時に現れる領域であり、それを用いて、FOAFを利用してリージョンが人の場合のメタ情報を入力する。そして、再生順設定領域３６は、思い出ビデオに取り込んだ写真を再生する順番を設定するために利用され、後に説明するように、ドラッグアンドドロップで順番を入れ替えることができる。

ステップＳ１での写真入力およびメタ情報登録について、具体的に説明する。図４を参照し、今、写真データ入力装置２０から図４に示すような写真（図面では線画であるが、実際は写真である。他の図面でも同様。）の写真画像データが入力されると、コンピュータ１２は、モニタ１６のＧＵＩ２６の写真表示編集領域２８にその画像データで表される写真（静止画）を表示する。それとともに、コンピュータ１２は、その写真のサムネイル画像をサムネイル表示領域３０に表示する。

そして、図示しないマウス等を利用して、その写真中で２つのリージョン、リージョン１およびリージョン２を設定すると、図５に示すように、写真表示編集領域２８中に、リージョン１およびリージョン２をそれぞれ特定する矩形枠２９ａおよび２９ｂが表示される。このようなリージョン１およびリージョン２を指定すると、Image Regionsで定義される形式で、図６に示す各リージョンのメタ情報が設定される。つまり、リージョン１の原点（矩形枠の左上の角）の座標（ｘ１１，ｙ１１）およびそれの対角の座標（ｘ１２，ｙ１２）が登録され、さらにそのリージョン１の高さｈ１および幅ｗ１もメタ情報として登録される。同様に、リージョン２についても、原点座標、対角座標、高さ、および幅が、それぞれ、ｘ２１，ｙ２１、ｘ２２，ｙ２２、ｈ２、およびｗ２として登録される。

このようにしてステップＳ１で写真を入力し、メタ情報を登録すると、たとえば図７に示すようなデータベースができる。この図７では右に、図５に示した、実際の写真が表示されリージョンが指定されている写真表示編集領域２８が描かれている。そして、楕円形の中に「dc:」とあり、それに関連する矩形の中のデータが、Dublin Coreで登録したメタ情報である。たとえば「dc:date」では日付「２００４０７１６（２００４年７月１６日）」が、「dc:title」では名称「at Disney Animal Kingdom（ディズニー動物王国にて）」が、「dc:description」では説明文「They are very happy.(彼等は非常に楽しそう)」がメタ情報として登録される。

楕円形のなかに「imgReg:」とあるメタ情報は、Image Regionsでリージョンを指定したときのメタ情報である。「imgReg:has region」はリージョンが設定されていることを示すメタ情報であり、「imgReg:Rectangle」はリージョンが矩形であることを示し、「imgReg:regionDepict」はリージョンの説明で、「imgReg:boundingBox」はリージョンの原点位置とサイズ（高さｈ、幅ｗ）とを含む。「imgReg:coords」はリージョンの原点位置および対角位置の座標である。

また、「foaf:gender」で与えられるメタ情報は、リージョンが人である場合の性別（例示では「female(女)」）であり、「foaf:name」で与えられるメタ情報は名前（例示では「Haruka(はるか)」）であり、「foaf:Person」で与えられるメタ情報はViewer（この思い出ビデオを観る人）と写真に写った人との関係を示し、例示では、「孫（grandchild）」であることがわかる。

なお、図７に示す各メタ情報は、それぞれ以下に示される。

ｘｍｌｎｓ：ｉｍｇＲｅｇ＝“ｈｔｔｐ：／／ｗｗｗ.ｗ３.ｏｒｇ／２００４／０２／ｉｍａｇｅ−ｒｅｇｉｏｎｓ＃”
ｘｍｌｎｓ：ｆｏａｆ＝“ｘｍｌｎｓ．ｃｏｍ／ｆｏａｆ／０．１”
ｘｍｌｎｓ：ｄｃ＝“ｈｔｔｐ：／／ｐｕｒｌ.ｏｒｇ／ｄｃ／ｅｌｅｍｅｎｔｓ／１．１／”
このようにして、図２のステップＳ１で写真入力と、メタ情報登録が行なわれると、コンピュータ１２は、その写真と、それに付与したメタ情報とをデータベース２２に格納する。なお、上の説明では１枚の写真とそれのメタ情報について説明したが、入力装置２０で写真画像データを入力する都度、同じようにして、図７に示すようなメタ情報が登録され、そのメタ情報を付与した写真データがデータベース２２に格納される。

その後、図２のステップＳ２では、ステップＳ１で入力した写真のうち、そのとき使う写真を検索する。ただし、写真の検索では、上で説明したメタ情報が利用される。メタ情報を利用した写真の検索条件としては、たとえば、以下のものが利用できる。

まず、FOAFではリージョンの種類が人であるとき、その人を特定するメタ情報を付与するのであるから、このFOAFのメタ情報を利用して、「特定の人物の写っている写真」を検索することができる。複数の人物を同時に検索できるが、この場合には、検索した名前の全員が写っている写真が対象となる。

Dublin Coreのメタ情報を利用する場合には、「撮影年月日」で検索できる。たとえば、「From (第１指定日)〜To（第２指定日）」で第１指定日以降第２指定日以前に撮影した全ての写真が検索できる。「From (指定日)」でその指定日以降に撮影した全ての写真が検索できる。同様に、「To（指定日）」でその指定日以前に撮影した全ての写真が検索できる。また、「特定のプロパティに特定の値が含まれている写真」を検索できる。たとえば、「dc:title」に「Disney」の文字が含まれる写真など。ただし、複数同時に選択または検索可能であるが、複数選択時には、設定された検索条件を同時に充足する写真だけが対象となる。

このようにして、ステップＳ２で写真の選択が終了したら、次に、ステップＳ３で、検索した写真から実際に使用する写真を選択するとともに、および複数の写真を選択したときには複数の写真の再生順序を指定または決定する。このステップＳ３のためのＧＵＩ２６が図８に示される。ただし、便宜上この図８は図７以前の写真とは異なる写真を使用していることに留意されたい。

コンピュータ１２は、たとえば図示しないメニューによって、ステップＳ３が選択されたときには、図８に示すＧＵＩ２６をモニタ１６に表示する。この図８のＧＵＩ２６では、モニタ画面の右下方に、図３でも示した、再生順設定領域３６が形成される。この再生順序設定領域３６の拡大図が図９に示される。

再生順序設定領域３６は、写真リスト欄３８を含み、図８に示すように、サムネイル表示領域３０に表示されたサムネイル画像を写真リスト欄３８にドラッグアンドドロップすることによって、使用する写真を選択できる。つまり、ステップＳ２の写真検索ステップで検索した写真のサムネイル画像が、すべてサムネイル表示領域３０に表示されるので、その一覧画像の中の写真を写真リスト欄３８にドラッグアンドドロップすることによって、写真を選択することができる。なお、写真リスト欄３８には、名称（name）、タイトル（title）、日付（date）の各コラムが設定される。

また、再生順序設定領域３６には、図９に示すように、ソート指定欄４０と、思い出ビデオのスライドショーの生成を指示する生成ボタン４２、写真の削除のために使用する削除ボタン４４、および選択した写真のプレビューをするときに押す（クリックする）プレビューボタン４６が設けられる。カーソルを写真リスト欄３８のどれかの写真に合わせ、その状態でプレビューボタン４６が操作されると、図８に示すプレビュー領域４８に、プレビュー画像が表示される。

なお、ソート指定欄４０には、選択した写真をソーティングするときのプロパティ、たとえば登録日などが設定される。そして、このソート指定欄４０に特定のプロパティが、たとえばプルダウンメニューによって設定されると、コンピュータ１２は、たとえばそのプロパティに対する値の昇順で写真をソートする。

さらに、写真リスト欄３８に登録した写真リストの順序で再生されるので、もし、再生順序を変更したい場合には、その写真リスト欄３８の１行をドラッグアンドドロップして動かすことによって、リスト搭載順すなわち再生の順番を入れ替えればよい。

つづいて、図２のステップＳ４で、写真の再生時に流すＢＧＭのプレイリストを登録または選択する。この実施例では、たとえばＭＰ３形式の楽曲ファイルをサポートしていて、その中からＢＧＭとして使う楽曲をプレイリストに登録すれば、ＢＧＭがそのプレイリストに沿って、再生される。また、プレイリストとしてたとえばＭ３Ｕ形式を用いれば、Ｗｉｎａｍｐ（アプリケーション名）などの一般的なソフトで作成したプレイリストをそのまま使用できる。

ステップＳ４では、まず、図示しないメニユーで、「プレイリスト選択または登録」を選ぶ。そうすると、図１０に示すＧＵＩ２６がモニタ１６に表示される。そして、このＧＵＩ２６のプレイリスト作成ボタン５２をクリックすると、図１１に示す、新規プレイリスト登録欄５４が表示される。この登録欄５４には、プレイリストの名称（図示の例では、「Sample」）を設定するための名称欄５６および入力した名称でよいときの決定（了解）ボタン５８が形成される。そして、名称欄５６に名称を入力し、了解ボタン５８をクリックすると、図１２に示す、空のプレイリスト６０が表示される。

図１３に示す、ＭＰ３ファイル一覧６２を表示し、その中の適宜の楽曲をプレイリスト６０にドラッグアンドドロップすることによって、プレイリスト６０に、ＢＧＭとして使用する楽曲を順次選択または登録することができる。図示の例では、「ＭＹアルバム」という楽曲一覧６２（図１３）を用いて、主として、童謡が選択された。

このようにして、写真データの入力、メタ情報の登録、写真の検索、選択、楽曲の選択などの各ステップが実行され、図９に示す生成ボタン４２を押すと、思い出ビデオの生成を開始する。したがって、図２のステップＳ５では、生成ボタン４２がクリックされたかどうか判断する。もし“ＹＥＳ”ならそのまま次のステップＳ６に進むが、“ＮＯ”なら、図２の任意のステップＳ１−Ｓ４に戻って該当の作業を再開することができる。

つまり、図２の各ステップＳ１−Ｓ４はそれぞれ、メニューでの選択によって、任意の時間に任意の作業量で何回も実行可能であるので、オペレータは、時間のあるときに、必要なだけ必要な作業を行なえばよい。いずれの場合にも、前回までの作業の結果はデータベース２２に格納されているので、今回の作業では、まず、データベース２２から前回までのデータを読み出し、その後それに続行した処理またはそれを変更する処理を行う。

そして、ステップＳ５で生成ボタン４２のオンが検出されると、次のステップＳ６で、思い出ビデオのスライドショービデオ（ＲＶＭＬ）を生成する。

ここで、「ＲＶＭＬ」とは、ｓｗｆを完全に表現できるように設計されたＸＭＬの一種であり、すべてのバージョンのｓｗｆ動画はＲＶＭＬとして表現できる。ただし、ｓｗｆは、Ｆｌａｓｈのバージョンやフレームレートなどの情報を持つファイルヘッダを除くと、基本的にはタグの列だけである。たとえば、定義タグで図形を定義し、操作タグでその図形をフレームに配置し、表示タグで現在のフレームを画面に描画する、というパターンが１フレームに相当し、これを繰り返す。

そして、生成されたＲＶＭＬは、ＲＶＭＬからＦｌａｓｈツールであるKineticFusion（ｈｔｔｐ：／／ｗｗｗ.ｋｉｎｅｓｉｓｓｏｆｔｗａｒｅ．ｃｏｍ）を使用すれば、Ｆｌａｓｈムービー形式の思い出ビデオが作成できる。

図２のステップＳ６は、具体的には、図１５に示す手順で実行される。最初のステップＳ１１では、コンピュータ１２は、生成ボタン４２の操作に応答して、まず、ＢＧＭとしてのプレイリスト６０（図１４）の楽曲の再生を開始する。以後、楽曲は、そのプレイリスト６０に沿って、順次切り替わり、かつ連続的に再生される。つまり、コンピュータ１２は、プレイリスト６０に登録した楽曲データを読み出し、それをサウンドボードまたはプロセサで処理させることによって、スピーカ１８（図１）から、当該プレイリストの楽曲が音声として再生される。

次のステップＳ１３では、コンピュータ１２は、モニタ１６の表示画面に形成されたＧＵＩ２６の写真表示編集領域２８（図３）の幅をＳｗ、高さをＳｈとして設定する。

ついで、ステップＳ１５で、コンピュータ１２は、写真個数ｎをインクリメント（ｎ＝ｎ＋１）する。そして、次のステップＳ１７では、写真リスト欄３８（図９）に挙げられたｎ番目の写真がフェードイン態様で、表示編集領域２８に表示される。つまり、コンピュータ１２は、データベース２２（図１）から写真リスト欄３８のｎ番目の写真とそれに付随するメタ情報とを読み出し、ｎ番目の写真を表示する。ただし、最初はｎ＝１であるので、１番目の写真がフェードイン表示される。

そして、次のステップＳ１８において、コンピュータ１２は、その写真についてナレーションが付与されているかどうか判断し、既にナレーションが付与されて登録されている場合には、このナレーションをステップＳ１９で再生する。したがって、このステップＳ１９において、既登録のナレーションが確認できる。

ただし、ナレーションが未だ付与されていないときには、その後、ステップＳ２０での一定時間のポーズの後、次のステップＳ２１で、コンピュータ１２は、そのｎ番目の写真にリージョンが指定されているかどうか、たとえばImage Regionsのメタ情報があるかで判断する。リージョンが指定されているなら、次のステップＳ２３で、コンピュータ１２は、リージョン番号ｍをインクリメント（ｍ＋１）する。そして、ステップＳ２５で、ｍ番目のリージョンのImage Regionsのメタ情報を参照する。このメタ情報に、ｍ番目のリージョンの位置データやサイズデータが含まれる。したがって、次のステップＳ２７で、コンピュータ１２は、そのようなメタ情報および先に設定した表示領域の高さＳｈおよび幅Ｓｗを利用して、ｍ番目のリージョンを、領域２８の中央に位置合わせする。

一例として、そのリージョンの幅をｗ１、高さをｈ１とすると、拡大率をｍｉｎ［Ｓｗ／ｗ１, Ｓｈ／ｈ１］として、そのリージョンがちょうど表示画面２８の中央に収まるまで、１フレームずつ、表示画面２８に対して写真画像を横軸にｄＸ、縦軸にｄＹ移動し、ｄＺ分拡大して表示する。

ただし、このステップＳ２７では、そのリージョンの画像を表示領域の中央に位置合わせするだけでなく、たとえば、左上、右下など他の位置に位置合わせするようにしてもよい。

その後、ステップＳ２９でのポーズの後、次のステップＳ３１で、コンピュータ１２は、残りリージョンがなくなったかどうかを判断する。つまり、Image Regionsのメタ情報からリージョン個数がわかるので、このステップＳ３１では、ステップＳ２３でインクリメントした結果がそのリージョン個数に等しくなったかどうか判断すればよい。

残りリージョンがあれば、次のステップＳ３２において、コンピュータ１２は、表１に示す識別子ＲＴ−１、ＲＴ−２およびＲＴ−４で示される映像効果Ａ−１、Ａ−２を付与する。

具体的には、コンピュータ１２は、図７のようなメタ情報のうち、リージョン座標値（imgReg:coords）およびリージョン境界値（imgReg:boundingBox）から、複数のリージョン間間隔、Ｘ方向（横方向）間隔およびＹ方向（縦方向）間隔を算出する。そして、それらのリージョン間間隔が所定の閾値以上か以下かを判別する。そして、Ｘ方向（横方向）間隔およびＹ方向（縦方向）間隔のいずれかが閾値以下のときには、ケンバーンズ効果を使用するべく、写真中の人物の顔を含むリージョンに対するズームアップをした後、次のリージョンへパンさせる。逆に、Ｘ方向（横方向）間隔およびＹ方向（縦方向）間隔のいずれかが閾値以上のときには、パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインさせる。

また、図７に示すfoaf:personで示す被写体情報が、視聴者に思い出深い被写体であると、その被写体のリージョンだけにズームアップをし、その後、リージョン間間隔に応じたパンかフェードアウト、フェードインからの処理を行う。

ただし、このステップＳ３２において識別子ＲＴ−１、−２および−４のような映像効果をＡ−１およびＡ−２を自動的に付与するためには、表３で例示した変換テンプレートが用いられる。

その後、先のステップＳ２３に戻り、ステップＳ２３−Ｓ３２を繰り返し実行する。

ステップＳ３１で“ＮＯ”なら、つまり、写真リスト欄３８でｎ番目のその写真の全てのリージョンの処理が終わったなら、次のステップＳ３３で、コンピュータ１２は、ｎ番目の写真を写真表示編集領域２８からフェードアウトさせる。

続いて、ステップＳ３５において、コンピュータ１２は、処理すべき写真の残りがなくなったかどうかを判断する。つまり、図９で示される写真リスト中の写真の数は予め判っているので、このステップＳ３５では、ステップＳ１５でインクリメントした結果がその枚数に等しくなったかどうか判断すればよい。

写真が未だ残っていれば、次のステップＳ３６において、コンピュータ１２は、表１に示す識別子ＲＴ−３、ＲＴ−５、ＲＴ−６、ＲＴ−７およびＲＴ−８で示される映像効果Ａ−３やＢ−１およびＢ−５を付与する。

具体的には、コンピュータ１２は、メタ情報のうち、図７には図示していない、写真の色調のメタ情報を前述のExifの色空間情報から取得し、その色情報が、前の写真がモノクロで今回の写真がカラーのような色変化を示しているかどうか判断する。色変化情報があれば、コンピュータ１２は、今回のカラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていくという映像効果を付与する。

また、コンピュータ１２は、図７に示すメタ情報のうち、撮影日（date）のデータを取得し、前の写真と今回の写真との間の年代差を算出する。そして、その年代差が所定の閾値以上か以下か判別する。前の写真との間の年代差が閾値以下のときには、コンピュータ１２は、前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる、という映像効果を付与する。前の写真との間の年代差が閾値以上のときには、コンピュータ１２は、前の写真を中心の縦軸で回転させて、今回の写真に遷移する、という映像効果を付与する。

さらに、コンピュータ１２は、図７に示すメタ情報のうち、撮影日や出来事（title）を参照して、シナリオが一貫しているかどうか、判断する。これは、たとえば、写真が年代順に取り込まれているか、とか同じ年代であれば季節の順序に従っているかなどを判断すればよい。そして、シナリオが一貫していると判断したときには、前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる、という映像効果を付与する。

さらに、上述のようにして算出した写真の年代差が所定の閾値以下ではあるが、かつシナリオの転換点であるような場合、たとえば、進学した、結婚した、子供が生まれた、などのような場合には、コンピュータ１２は、前の写真を中心の縦軸で回転させて、今回の写真に遷移する、という映像効果を付与する。

ただし、このステップＳ３６での映像効果を自動的に付与するためには、表３で例示した変換テンプレートが用いられる。

なお、先のステップＳ３５で写真残数があると判断したときには、先のステップＳ１５に戻り、ステップＳ１５−Ｓ３６を繰り返し実行する。ステップＳ３５で“ＮＯ”なら、コンピュータ１２はステップＳ３７でＢＧＭを停止し、終了する。

このようにして、ステップＳ６すなわち図１５に従って、写真画像データをそれに関連するメタ情報を用いて編集しさらには映像効果付与することによって、一連のビデオコンテンツ（思い出ビデオ）が生成（レンダリング）される。そして、レンダリングが終了すると、レンダリング結果は、前述のＲＶＭＬの形式でコンピュータ１２のハードディスクなどの内部メモリ１４（図１）に保存する。そして、ＲＶＭＬからＦｌａｓｈムービーなどに変換して、他の記憶媒体に格納することによって、他のパソコンなどで再生することもできる。つまり、一連のビデオコンテンツは何らかの記憶装置または記憶媒体に格納されて、痴呆症者の介護のために利用される。

図２に戻って、先のステップＳ６が終了した後この実施例では、ナレーション付与を行う。ただし、このナレーション付与ステップは、ステップＳ６の生成ステップの中で実行するようにしてもよいが、この実施例では、ステップＳ６の後にステップＳ７を実行するものとして説明する。

ナレーション付与を実行するに際しては、図４に示すＧＵＩ２６に形成されるナレーションボタン３１を操作する。ユーザは、生成したスライドショーにナレーションを付与する必要があるとき、マウス（図示せず）でこのナレーションボタン３１をクリックする。そうすると、図１６に示すように、ＧＵＩ２６のほぼ中央に、写真表示編集領域２８その他にオーバーラップする形で、ナレーション作成領域６４が、ポップアップ形式で表示される。

このナレーション作成領域６４には、ナレーション候補テキスト表示領域６６が形成される。ナレーション候補テキスト表示領域６６は、後に説明するように、メタ情報から取得したキーワードもしくはユーザが入力したキーワードに基づいてコンピュータ１２がナレーション候補テキストを作成したとき、そのナレーション候補テキスト（文）を表示するための領域である。このナレーション候補テキスト表示領域６６に関連して、ＯＫボタン６８が配置される。このＯＫボタン６８は、ナレーション候補テキスト表示領域６６に表示されたナレーションテキスト文を選択するかどうかを指示するためのものであり、表示されているナレーション候補を使用するならそれをクリックすればよい。

ただし、ナレーション候補テキスト表示領域６６には、１つだけの候補ではなく、複数の候補が一度に表示されるようにしてもよく、その場合には、ユーザは、その領域６６を直接クリックして１つまたは複数のナレーションテキストを選択するようにすればよい。

ナレーション候補テキスト表示領域６６の下方には、指示ボタン６９が形成される。たとえば、コンピュータ１２が適当なナレーション候補テキストを作成できなかったような場合に、ユーザが適当なキーワードを手動で入力するときにこの指示ボタン６９をマウスでクリックする。そうすると、その下のキーワード入力領域７０が有効化される。したがって、ユーザは図示しないキーボードを使用してキーワードを入力することができる。このキーワード入力領域７０は、好ましくは、図１６に示すよう第２、カテゴリ毎にキーワードを入力することができるように、複数（この実施例では５つ）のカテゴリに区分けされている。この入力領域７０を見れば、ユーザは、意図したキーワードが入力されたかどうか確認することができる。そして、意図どおりのキーワードを入力していることを確認したとき、ユーザは、入力領域７０の右にあるＯＫボタン７を操作すればよい。それによって、キーワード入力が終了できる。

キーワード入力ＯＫボタン７１の右には、終了ボタン７２が設定される。この終了ボタン７２は、ナレーション付与作業を終了するときに操作する。

このようにして、ナレーション付与ボタン３１を操作することによって、ＧＵＩ２６が図１６に示す状態となり、その状態で、図１７に示すナレーション付与動作を実行することができる。

図１７の最初のステップＳ４１で、コンピュータ１２は、ナレーションを付与すべき写真が選択されたかどうか判断する。ユーザが写真を選択するためには、先に説明したように、サムネイル表示領域３０に表示されたサムネイル画像をクリックすればよい。そして、コンピュータ１２は、サムネイル表示領域３０での操作によってステップＳ４１で写真が選択されたと判断すると、次のステップＳ４３において、選択したサムネイル画像で表される写真を、写真表示編集領域２８に表示する。ただし、このときＧＵＩ２６はナレーション作成領域６４がその写真表示編集領域２８にオーバーラップした「ナレーション付与モード」になっているので、この領域２８で写真の編集をすることはできない。

次のステップＳ４５において、コンピュータ１２は、先に述べた方法で登録されているメタ情報を取得し、次のステップＳ４７で、そのメタ情報からキーワードを抽出する。そして、ステップＳ４９において、コンピュータ１２は、そのキーワードに基づいて、ナレーション候補テキストをナレーション候補テキスト表示領域６６に表示する。

ここで、ナレーション候補の生成方法について、説明する。

この実施例のシステム１０では、コンピュータ１２の内部メモリ（図示せず）またはデータベース２２（図１）に、表４に示すような、典型的なナレーションパターンを予め設定しておく。その意味で、これら内部メモリおよび／またはデータベース２２がナレーションパターン設定手段として機能する。そして、この表４に示す単語Ｘ１‐Ｘ５を、メタ情報から抽出したキーワードに基づいて当てはめることによって、ナレーションテキストを自動生成する。

ただし、単語Ｘ１‐Ｘ５の与え方は、一例として、表５に従う。

たとえば、表４の第１パターン「Ｘ１ですね（ｏｒですか）」や第２パターン「これはＸ１ですね（ｏｒですか）」を使うときには、単語Ｘ１には、人、物、場所、時候のいずれかである名詞２を当てはめる。ただし、その名詞２にも何種類かあり、それが｛（［副詞］＋形容詞）または（名詞１＋の）＋名詞２｝で表されている。これを分解すると、単語Ｘ１に当てはめられる単語は、「形容詞＋名詞２」（たとえば、「きれいな」）、「副詞＋形容詞＋名詞２」（たとえば、「大変きれいな花」）、「形容詞＋名詞１の名詞２」（たとえば、「きれいな庭の花」）、「副詞＋形容詞＋名詞１の名詞２」（たとえば、「大変きれいな庭の花」）、そして「名詞１の名詞２」（たとえば、「庭の花」）のいずれかとなる。

表４の第３パターン「Ｘ２とＸ３しましたね（ｏｒしましたか）」を使うときには、単語Ｘ２には、人である名詞２を当てはめる。ただし、そのＸ２の場合の名詞２は、第１パターンや第２パターンのときと同様に、｛（［副詞］＋形容詞）または（名詞１＋の）＋名詞２｝で定義され得る。また、単語Ｘ３には、行為である名詞２を当てはめる。このときの名詞２は、｛（［副詞］＋名詞２）｝で定義される。つまり、副詞が付いたか、付かない名詞２（行為）（たとえば、「楽しく旅行」または「旅行」）である。

表４の第４パターン「Ｘ４でＸ３しましたね（ｏｒしましたか）」を使うときには、単語Ｘ４には、場所である名詞２を当てはめる。ただし、その名詞２には、上述の場合と同じく、｛（［副詞］＋形容詞）または（名詞１＋の）＋名詞２｝で定義される。なお、単語Ｘ３については上述のとおりである。たとえば、場所としては、「遊園地」、「デパート」などが例示できる。

表４の第５パターン「Ｘ５でＸ３しましたね（ｏｒしましたか）」を使うときには、単語Ｘ５には、時候および／または場所である名詞２を当てはめる。ただし、その名詞２には、上述の場合と同じく、｛（［副詞］＋形容詞）または（名詞１＋の）＋名詞２｝で定義される。時候としては、春夏秋冬、何月などが例示できる。なお、単語Ｘ３については上述のとおりである。

さらに、上記において、名詞２に与える単語は、一般名詞の概念構造から、ナレーションにしようするのに粒度として適当なものを選択して用いる。そして、副詞、形容詞、名詞１については、その名詞２と適合するものを割り当てる。ただし、この「適合」については、図示しないが、適合表を作成し、名詞２を決定した後、その適合表を参照して副詞、形容詞、名詞１を採用する。

このような表１のナレーションパターンのＸ１−Ｘ５に表２のように定義できる単語を当てはめる訳であるが、実施例では、この「単語」を、写真に付加したメタ情報から取得しようとするものである。

図１８および図１９には、実施例において単語決定手段として機能するシソーラス辞書７４および共起辞書７６が図解される。このようなシソーラス辞書７４や共起辞書７６は、ともに、データディクショナリ（データ辞書）の一種であり、実施例では、図１に示すデータベース２２またはコンピュータ１２の内部メモリに予め設定されている。

シソーラス辞書７４は、図１８に示すように、表記の揺れや、関連語、同義語、類似語などを概念的に類似したキーワードのツリー構造または網構造の階層構造として示したものであり、カテゴリ毎にまとめられている。図１８の例では、カテゴリとして、「場所」および「行為」が示されている。たとえば、「偕楽園」、「後楽園」、「兼六園」などは「公園」という概念でくくられ、いずれも固有名詞である「ディズニーランド」や「ＵＳＪ」は、「遊園地」という概念に当てはめられ、これら「公園」および「遊園地」は、別の概念たとえば「デパート」とともに、カテゴリとしては「場所」に含まれることを示している。「行為」というカテゴリについても同様である。「○○旅行」はまとめて「旅行」で表し、「旅行」は、「散歩」、「おでかけ」などともに、「行為」のカテゴリに分類されている。先のナレーションパターンでの「名詞２」として適当な他のカテゴリ「人」、「時候」などについても、同様にキーワードを集積している。

特定の単語と単語との関係、結びつきを共起関係といい、共起辞書７６には、図１９に示すように、各カテゴリたとえば「場所」および「行為」にそれぞれ含まれるキーワード間の共起関係が示されている。この共起辞書７６によれば、一例として、場所の「デパート」というキーワードは行為のなかでは、「おでかけ」というキーワードとしか繋がらないが、「公園」といえば、「おでかけ」、「散歩」および「旅行」という複数のキーワードに強いつながりを持つことがわかる。

このようなツールを利用して、表４のナレーションパターンに単語、特に名詞２を適用することによって、ステップＳ４９において、ナレーション候補テキストを作成する。

ナレーション候補の具体例を説明する。図７に示すメタ情報には、日付（dc:date）として「２００４．０７．１６」があり、タイトル（dc:title）として「ディズニー動物王国にて」があり、人（faof:person）として「rel:grandchildOf」がありさらに、名前
（foaf:name）として「はるか」が含まれる。

まず、日付が「２００４．７．１６」であることから、シソーラス辞書７４を参照すれば、図１８には図示していないが、カテゴリ「時候」としては「夏」であることがわかる。「ディズニー動物王国にて」というタイトルに含まれる「ディズニー」を図１８のシソーラス辞書７４で検索すると、それは、「遊園地」に包含され、その「遊園地」は「場所」のカテゴリに該当することがわかる。さらに、図１９の共起辞書７６を参照すると、「遊園地」は３つの行為「おでかけ」、「散歩」、「旅行」に共起関係を有することがわかる。さらに、「人」として「孫」があり、その名前が「はるか」であることがわかる。このようにして、メタ情報からキーワードを抽出し、そのキーワードから、ナレーションパターンに適用可能な「単語」を検索すると、時候が「夏」で、場所が「遊園地」で、行為が「おでかけ」、「散歩」または「旅行」で、人が「孫のはるか」であることがそれぞれわかる。

したがって、コンピュータ１２は、ステップＳ４９で、一例として表６に示すような３つのナレーションテキストを生成する。

表６の第１の候補は、第１のナレーションパターンを選択して単語を適用したものであり、第２の候補は、第３のナレーションパターンを選択して単語を適用したもので、第３の候補は、第５のナレーションパターンを選択して単語を適用してものである。

そして、ステップＳ４９で、このようなナレーションテキストを、ナレーション候補として、図１６のナレーション候補テキスト表示領域６６に一度に、または順次表示する。

そして、ステップＳ５１でコンピュータ１２は、そのようなナレーション候補テキストが選択されたかどうか、判断する。どれかのナレーション候補テキストが選択されると、次のステップＳ５３で、コンピュータ１２は、このナレーションテキストの音声データを取得する。

この実施例では、音声モデルを図１のデータベース２２またはコンピュータ１２の内部メモリに登録しておき、ナレーションテキストを決定すると、その音声モデルを使って音声合成の手法で、ナレーション音声を作成する。ただし、音声データは、音声合成による他、たとえばプロのナレータが発声した音声データを内部メモリやデータベース２２内に収録しておき、その音声データを編集することによって、ナレーション音声を作成するようにしてもよい。

そして、ステップＳ５５において、コンピュータ１２は、ステップＳ５３で取得し、また作成したナレーション音声データを、ステップＳ４１で選択した写真に紐付けして、データベース２２に登録する。

このようにして、１枚の写真についてのナレーション音声データが写真に付与されるが、次のステップＳ５７で、ナレーション付与をしたい写真が未だあるかどうか判断し、まだナレーション付与を続行するときは終了ボタン７２（図１６）を押さないので、先のステップＳ４１に戻るが、終了ボタン７２を押したなら、このステップＳ５７で“ＹＥＳ”となり、図２のナレーション付与ステップＳ７が終了する。

ただし、先のステップＳ４９で表示したナレーション候補をステップＳ５１で選択しなかったときには、コンピュータ１２は、次のステップＳ５９でさらにナレーション候補があるかどうか判断し、もしあれば、次のステップＳ６１でナレーション候補を更新して、再び、ナレーション候補テキスト表示領域６６に表示し（ステップＳ４９）、ユーザの選択を待つ。

また、ステップＳ５９で適当なナレーション候補がないと判断したときには、コンピュータ１２は、ユーザによる変更キーワードを受け付ける。ユーザはキーワードを入力するときには、指示ボタン６９（図１６）を操作し、キーワード入力領域７０にキーワードを入力する。このとき、入力するキーワードは、ナレーションパターン（表４）の名詞１および名詞２に対応する｛人、物、場所、時候、行為｝、副詞や形容詞に対応する｛どんな｝をそれぞれ入力するものとする。ただし、指定しないカテゴリや項目があってもよい。

このようにして、ユーザがキーワードを入力した後には、コンピュータ１２は、ステップＳ４９で、上で説明したように、ユーザ入力キーワードから、シソーラス辞書７４や共起辞書７６を使って「単語」を決定し、その単語を表１のナレーションパターンに当てはめて、ナレーションテキストを生成し、表示する。以後、先に説明したように、ユーザは、その表示されたナレーション候補テキストを選択し、ナレーションテキストを決定する。

このようにして、図２に示す各ステップを実行することによって、ナレーション付の思い出ビデオのようなビデオコンテンツが作成できる。ただし、上述の実施例では映像効果を付与したが、この映像効果の付与は特にはなくてもよい。

また、上述の説明は、ナレーション付与ステップＳ７は生成ステップＳ６の後で実行するように説明した。しかしながら、ナレーション付与は、ステップＳ６の生成ステップの中で、たとえば映像効果付与などと平行して実行するようにしてもよいことはもちろんである。

さらに、上述の実施例ではナレーション作成手段が作成したナレーションテキストは変更しなかったが、ユーザの入力によって適宜変更できるようにすることも可能である。

また、実施例の音声合成技術を使えば、視聴者である痴呆症者の名前の呼びかけも簡単に作成することができる。

この発明の一実施例のビデオコンテンツ作成装置を示すブロック図である。図１実施例の全体動作を示すフロー図である。図１実施例のＧＵＩの一例を示す図解図である。図２のステップＳ１で利用する写真入力およびメタ情報登録時のＧＵＩの表示の一例を示す図解図である。図４においてリージョンの切り出しを示す図解図である。図５のリージョンのメタ情報を示す図解図である。写真とメタ情報との関連を例示する図解図である。図２のステップＳ３での写真の選択および再生順設定動作時のＧＵＩの一例を示す図解図である。図８のＧＵＩにおける再生順設定領域を示す図解図である。図２のステップＳ４でのプレイリスト作成時のＧＵＩの一部を示す図解図である。図１１のＧＵＩに形成される新規プレイリスト登録欄を示す図解図である。図８のＧＵＩに形成されるプレイリストの一部の一部を示す図解図である。プレイリスト登録に用いる楽曲一覧の一例を示す図解図である。登録済みプレイリストの一例を示す図解図である。図２のステップＳ６での思い出ビデオ生成動作を詳細に示すフロー図である。図８のＧＵＩにおけるナレーション作成領域を示す図解図である。図２のステップＳ７でのナレーション付与動作を詳細に示すフロー図である。ナレーション付与に用いるシソーラス辞書を示す図解図である。ナレーション付与に用いる共起辞書を示す図解図である。

符号の説明

１０ …ビデオコンテンツ作成装置
１２ …コンピュータ
１４ …内部メモリ
１６ …モニタ
２０ …写真データ入力装置
２２ …データベース
２６ …ＧＵＩ
２８ …写真表示編集領域
３０ …サムネイル表示領域
３２，３４ …メタ情報入力領域
６４ …ナレーション作成領域
６６ …ナレーション候補テキスト表示領域
７２ …キーワード入力領域

Claims

写真画像データを入力する写真データ入力手段、
前記写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、
前記写真画像データを関連する前記メタ情報とともに格納する記憶手段、
前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
前記生成手段は、前記メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成手段、および前記ナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録手段を含む、ビデオコンテンツ作成装置。
前記ナレーション候補テキスト作成手段は、少なくとも１つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記メタ情報に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーション候補テキストを作成する、請求項１記載のビデオコンテンツ作成装置。
前記単語決定手段はキーワードから前記単語を引き出す辞書を含む、請求項２記載のビデオコンテンツ作成装置。
前記単語決定手段は、前記キーワードを前記メタ情報から抽出するキーワード抽出手段を含む、請求項３記載のビデオコンテンツ作成装置。
前記単語決定手段は、ユーザによる前記キーワードの入力を受け付けるキーワード入力手段を含む、請求項３または４記載のビデオコンテンツ作成装置。
ビデオコンテンツ作成装置のコンピュータに、
画像データを入力する写真データ入力ステップ、
前記写真画像データに関連してメタ情報を付与するためのメタ情報付与ステップ、
前記写真画像データを関連する前記メタ情報とともに記憶手段に格納する記憶ステップ、
前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索ステップ、および
前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成ステップ実行させ、そして
前記生成ステップにおいては、前記メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成ステップ、および前記ナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録ステップを含む、ビデオコンテンツ作成プログラム。
写真画像データを関連するメタ情報とともに格納する記憶手段、
前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
前記検索手段によって検索した写真画像データに従ってサムネイル画像を表示するサムネイル画像表示領域および写真リスト欄を有する再生順序設定領域を含むＧＵＩ画面を表示する表示手段を備え、
前記サムネイル画像表示領域で表示しているサムネイル画像を前記写真リスト欄にドラッグアンドドロップすることによって、前記検索した写真データのうち実際に使用する複数の写真を選択し、
前記写真リスト欄におけるリスト搭載順を変更することによって前記複数の再生順序を変更できるようにし、
前記写真リスト欄に搭載している写真の写真画像データとそれに関連するメタ情報とを前記記憶手段から読み出す読出し手段、および
前記読出し手段が読み出した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
前記ＧＵＩ画面に、ナレーション候補テキストを表示するナレーション候補テキスト表示領域および前記ナレーション候補テキストを選択するかどうかを指示するための指示入力部を有するナレーション作成領域を形成し、さらに
前記生成手段は、
前記読出し手段が読み出した前記メタ情報に基づいてナレーション候補テキストを作成して前記ナレーション候補テキスト表示領域に表示するナレーション候補テキスト表示手段、
前記指示入力部で前記ナレーション候補テキスト表示領域に表示された前記ナレーション候補テキストが選択されたとき、そのナレーション候補テキストに応じたナレーション音声データを作成するナレーション音声データ作成手段、および
前記読出し手段が読み出した写真画像データに紐付けして前記ナレーション音声データを登録する登録手段を含む、コンテンツ作成装置。
前記ナレーション候補テキスト表示手段は、少なくとも１つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記メタ情報に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーション候補テキストを作成する、請求項７記載のビデオコンテンツ作成装置。
写真画像データを入力する写真データ入力手段、
前記写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、
前記写真画像データを関連する前記メタ情報とともに格納する記憶手段、
前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
前記生成手段は、前記メタ情報に基づいてナレーションテキストを作成するナレーションテキスト作成手段、および前記ナレーションテキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録手段を含み、
前記ナレーションテキスト作成手段は、少なくとも１つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記メタ情報に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーションテキストを作成する、ビデオコンテンツ作成装置。