JP4291294B2 - ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム - Google Patents

ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム Download PDF

Info

Publication number
JP4291294B2
JP4291294B2 JP2005103585A JP2005103585A JP4291294B2 JP 4291294 B2 JP4291294 B2 JP 4291294B2 JP 2005103585 A JP2005103585 A JP 2005103585A JP 2005103585 A JP2005103585 A JP 2005103585A JP 4291294 B2 JP4291294 B2 JP 4291294B2
Authority
JP
Japan
Prior art keywords
narration
meta information
image data
photo
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005103585A
Other languages
English (en)
Other versions
JP2006287521A (ja
Inventor
教彰 桑原
和宏 桑原
清 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005103585A priority Critical patent/JP4291294B2/ja
Priority to US11/260,444 priority patent/US7694213B2/en
Priority to GB0522104A priority patent/GB2419768B/en
Publication of JP2006287521A publication Critical patent/JP2006287521A/ja
Application granted granted Critical
Publication of JP4291294B2 publication Critical patent/JP4291294B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Television Signal Processing For Recording (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

この発明はビデオコンテンツ作成装置に関し、特にたとえば、痴呆症者の過去の写真を使って思い出ビデオのようナレーションビデオコンテンツを作成する、ビデオコンテンツ作成装置に関する。
高齢者人口が急増している昨今、痴呆症者(認識症者ともいうが、この明細書では便宜上、この語を用いる。)に対して充実した介護を提供することは緊急の課題と言える。しかし、一般に痴呆症者の介護者として世話に当たる家族は、24時間常に痴呆症者から目を離すことができず、そのストレスを原因とする痴呆症者への虐待が最近、社会的な問題となっている。こういった痴呆症者、介護者の両者のストレスを軽減するには、痴呆症者の心理的な安定を引き出すことが重要である。そのための手法として昔の映画や音楽、本人の写真などを視聴させる回想法がある。しかし、話しかけを実施する人が必要であり在宅では行いにくい。
このため、非特許文献1において、思い出ビデオを用いる手法が提案されている。思い出ビデオとは、痴呆症者の昔の写真のスライドショービデオに、BGMやナレーションを加えたものである。
安田ほか:痴呆症者への思い出写真ビデオの作成と集中度の評価。第28回高次脳機能障害学会総会(2004)
思い出ビデオは痴呆症者の安定した精神状態を形成する上で有効性が確認されているが、特に、ナレーションは重要な要素である。
しかしながら、思い出ビデオのナレーション付与作業は、写真からナレーションを想起し、想起したナレーションを収録し、そしてそのナレーションデータを映像編集ソフトでしかるべき場所に貼り付ける、という経験やノウハウなくしてはとてもできない煩雑な作業が必要であり、一般の介護者が簡単に行えるものではない。
それゆえに、この発明の主たる目的は、新規な、ビデオコンテンツ作成装置を提供することである。
この発明の他の目的は、たとえば、痴呆症者の過去の写真を使う思い出ビデオのようなナレーション付きのビデオコンテンツを作成できる、ビデオコンテンツ作成装置を提供することである。
請求項1の発明は、写真画像データを入力する写真データ入力手段、写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、生成手段は、メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成手段、およびナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録手段を含む、ビデオコンテンツ作成装置である。
請求項1の発明では、たとえばイメージスキャナなどを含む写真データ入力装置(20。実施例で相当する部分または要素を示す参照符号。以下同様。)から、写真画像データをコンピュータ(12)に入力する。コンピュータ内にはその写真画像データにメタ情報を付与するための手段、たとえばDublin Core、Image Regions、FOAFなどを設けておく。これらのメタ情報付与手段によって、入力した写真画像データに関連するメタ情報を付与して、コンピュータは、写真画像データを関連するメタ情報とともに記憶手段(22)に格納する。検索手段(12,S2)が、メタ情報を用いて記憶手段か写真画像データを検索する。生成手段(12,S6)は、その検索した写真画像データを、メタ情報に従って編集することによって、たとえばAVI形式やFlashムービー形式で、スライドショーのようなビデオコンテンツを生成する。ここで、生成手段に含まれるナレーション作成手段(12,S7)は、メタ情報に従ってナレーションテキストを作成する。そして、音声データ登録手段(12,S53,S55)は、そのナレーションテキストに従った音声データを取得し、または作成し、その音声データを写真画像データと紐付けして、つまり、関連して記憶手段に登録する。上記写真が痴呆症者の昔の写真であれば、ビデオコンテンツは思い出ビデオと呼べる。
請求項1の発明では、メタ情報を用いて写真画像データを編集するので、ビデオコンテンツの製作にあまり慣れていなくても、たとえば痴呆症者の昔の写真を用いて、比較的簡単に、思い出ビデオのようなビデオコンテンツを作成することができる。しかも、メタ情報に従ってナレーションを作成できるので、ナレーションによって思い出ビデオを観る痴呆症者の興味や集中力を持続させ易く、思い出ビデオの効果の一層の向上が期待できる。
請求項2の発明は、ナレーション候補テキスト作成手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、およびメタ情報に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーション候補テキストを作成する、請求項1記載のビデオコンテンツ作成装置である。
請求項2の発明では、ナレーションパターン設定手段(12,22,表4)によって、基本的には名詞である少なくとも1つの単語を含むナレーションパターンを設定しておき、単語決定手段によって決定した単語をナレーションパターン中の単語に割り当てることによって、ナレーション候補テキストを作成する。このように、単語を予め設定しているナレーションパターンに当てはめるだけでナレーション候補テキストが生成できるので、簡単である。
請求項3の発明は、単語決定手段はキーワードから単語を引き出す辞書を含む、請求項2記載のビデオコンテンツ作成装置である。
請求項3の発明では、キーワードから、たとえばシソーラス辞書や共起辞書を使ってその単語を引き出すので、単語の当てはめ、ひいてはナレーション作成が容易に行える。
請求項4の発明は、単語決定手段は、キーワードをメタ情報から抽出するキーワード抽出手段を含む、請求項3記載のビデオコンテンツ作成装置である。
請求項4の発明では、キーワード抽出手段(12,S47)は、記憶手段に登録しているメタ情報から必要なキーワード、たとえば、人、物、場所、時候などを抽出する。そして、そのキーワードに従って、先の単語決定手段が単語を決定する。
請求項5の発明は、単語決定手段は、ユーザによるキーワードの入力を受け付けるキーワード入力手段を含む、請求項3または4記載のビデオコンテンツ作成装置である。
請求項5の発明では、単語決定手段は、ユーザが入力したキーワード゛に基づいて単語を決定することができる。したがって、メタ情報から有意なキーワード抽出が行われなかったとしても、ナレーションを作成することはできる。
請求項6の発明は、ビデオコンテンツ作成装置のコンピュータに、画像データを入力する写真データ入力ステップ、写真画像データに関連してメタ情報を付与するためのメタ情報付与ステップ、写真画像データを関連するメタ情報とともに記憶手段に格納する記憶ステップ、メタ情報を用いて記憶手段から写真画像データを検索する検索ステップ、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成ステップ実行させ、そして生成ステップにおいては、メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成ステップ、およびナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録ステップを含む、ビデオコンテンツ作成プログラムである。
請求項6の発明でも請求項1の発明と同様の効果がある。
請求項7の発明は、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データに従ってサムネイル画像を表示するサムネイル画像表示領域および写真リスト欄を有する再生順序設定領域を含むGUI画面を表示する表示手段を備え、サムネイル画像表示領域で表示しているサムネイル画像を写真リスト欄にドラッグアンドドロップすることによって、検索した写真データのうち実際に使用する複数の写真を選択し、写真リスト欄におけるリスト搭載順を変更することによって複数の再生順序を変更できるようにし、写真リスト欄に搭載している写真の写真画像データとそれに関連するメタ情報とを記憶手段から読み出す読出し手段、および読出し手段が読み出した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、GUI画面に、ナレーション候補テキストを表示するナレーション候補テキスト表示領域およびナレーション候補テキストを選択するかどうかを指示するための指示入力部を有するナレーション作成領域を形成し、さらに生成手段は、読出し手段が読み出したメタ情報に基づいてナレーション候補テキストを作成してナレーション候補テキスト表示領域に表示するナレーション候補テキスト表示手段、指示入力部でナレーション候補テキスト表示領域に表示されたナレーション候補テキストが選択されたとき、そのナレーション候補テキストに応じたナレーション音声データを作成するナレーション音声データ作成手段、および読出し手段が読み出した写真画像データに紐付けしてナレーション音声データを登録する登録手段を含む、コンテンツ作成装置である。
請求項8の発明は、ナレーション候補テキスト表示手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、およびメタ情報に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーション候補テキストを作成する、請求項7記載のビデオコンテンツ作成装置である。
請求項9の発明は、写真画像データを入力する写真データ入力手段、写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、生成手段は、メタ情報に基づいてナレーションテキストを作成するナレーションテキスト作成手段、およびナレーションテキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録手段を含み、ナレーションテキスト作成手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、およびメタ情報に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーションテキストを作成する、ビデオコンテンツ作成装置である。
この発明によれば、たとえば痴呆症者の過去の写真にメタ情報を付与し、そのメタ情報を利用して写真画像を編集することによって、比較的簡単に、思い出ビデオのようなビデオコンテンツを作成することができる。しかも、メタ情報に従ったナレーションを適用するので、思い出ビデオを観る痴呆症者の興味や集中力を持続させ易く、思い出ビデオの効果の一層の向上が期待できる。
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1を参照して、この実施例のビデオコンテンツ作成装置10は、コンピュータ12を含む。このコンピュータ12としては、パーソナルコンピュータやワークステーションが利用可能である。
コンピュータ12にはハードディスクやRAMのような内部メモリ14が設けられていて、その内部メモリ14には、メタ情報を入力するためのツールとして、たとえば、いずれも商品名である、Dublin Core (http://dublincore.org)、Image Regions (http://www.w3.org)、FOAF (http://www.foaf−project.org)、Jena2(2.1) (http://jena.sourceforge.net)などが設定されている。これらはいずれも、写真画像データに関連するメタ情報を入力または登録もしくは付与する手段として機能する。
ここで、メタ情報とは、データに関する構造化した情報を意味し、実施例の場合、取り扱う写真画像データの詳細を構造的に記述する情報である。
Dublin Coreはメタ情報を取り扱う代表的なツールとして知られていて、さらに、写真中の人物の顔やオブジェクトの領域(以後、「リージョン」と呼ぶ。)を複数個指定し、これをメタ情報として保持するためにImage Regionsを利用する。リージョンが人の場合には、FOAFを利用して人のメタ情報を付与する。リージョンは静止画である写真に対して、そこへのズーム、リージョン間のパンといったエフェクトを加えるために用いる。メタ情報をRDFの形式でデータベースに格納するために、Jena2(2.1)を使用する。
コンピュータ12は図示しないが、グラフィックボードまたはプロセサやサウンドボードまたはプロセサを内蔵していて、それらを通して、GUI画面や他のグラフィックス(映像)がモニタ16に表示されるとともに、スピーカ18からBGMなどの音声が出力される。
コンピュータ12にはさらに、写真データ入力装置20が接続される。この写真データ入力装置20は、イメージスキャナ、ディジタルカメラ(デジカメ)、インタネット(Web)などの少なくとも1つを含む。イメージスキャナは、痴呆症者の過去の写真をスキャンしてカラーまたはモノクロの写真画像データを入力する。デジカメはリアルタイムで撮影した写真画像データを入力できる他、過去の写真を撮影してそれらの写真画像データを入力するという使い方もできる。インタネットは、遠隔地から送信される痴呆症者の過去の写真の写真画像データを入力し、さらには必要に応じて痴呆症者の過去にまつわる事象の写真画像データを取り込むために使用できる。さらに他の種類の写真データ入力装置が用いられてもよい。
さらに、コンピュータ12には、インタフェース24を介してデータベース22が結合される。この実施例では、データベース22にはPostgreSQL 7.4(http://www.postgresql.org)というリレーショナルデータベースを用いる。
なお、図示していないが、コンピュータ12は当然、キーボードやマウスなどの入力手段を持っている。
ここで、図1実施例の動作の説明に先立って、映像効果の付与について説明する。
発明者等は、映像編集の経験のある複数のクリエータに、写真から思い出ビデオに変換する際に付加できる映像効果(各写真に付与したエフェクト,写真間のトランジション)について、どのようなものが想定できるか、聞き取り調査した。その結果は、以下のA-1〜A−3およびB−1〜B−5であった。
(A) エフェクト
A-1:写真中の人物の顔を含む矩形領域(以下,リージョンと呼ぶ)に対するズームアップ,パンという,いわゆるケンバーンズ(Ken Burns)効果(http://en.wikipedia.org/wiki/Ken_Burns参照)。
A−2:パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインする。
A−3:カラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていく。
(B)トランジション
B-1:前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる。
B-2:次の写真をスライドインさせる。
B-3:前の写真をディゾルブして次の写真に遷移する。
B-4:前の写真をページピール(右下隅から捲り上げるような効果)して次の写真に遷移する。
B-5:前の写真を中心の縦軸で回転させて、次の写真に遷移する。
上記の結果を踏まえて、表1に示すような思い出ビデオをレンダリングするためのテンプレートを作成した。表1の「使用された情報」に挙げた項目を写真に付与すべきアノテーション(anotation:注釈。「メタ情報」ということもある。)とし、アノテーションオントロジ(ontology)として設計した。アノテーション付与の枠組みとして、セマンティックWeb(これは、検索性能の向上や利便性を高める次世代Web技術で、「メタ情報(内容を説明する付加情報)」と「オントロジ(メタデータを記述する用語の定義)」という2つの技術を用いる。)の枠組みを用いた。すなわち、アノテーションは、RDF(Resource Description Framework)で記述される。これは、将来的には他人がアノテーションした写真を自分や家族の思い出ビデオに利用するような情報交換を考えたとき、Webとの親和性を考慮したためである。
Figure 0004291294
さらに、発明者等は、既存のボキャブラリを可能な限り利用するという方針をたて、図1実施例のための実験では、撮影された日付や出来事に関しては、書誌情報に関する標準的なボキャブラリである上述のDublin Coreで記述した。また、写真中の人物の情報を記述するためには、人の情報を記述するための標準的なボキャブラリである上述のFOAFを用いた。そして、写真中の人物領域を記述するためには,上述のImage Regionを使用し、写真の色調に関してはExif(http://it.jeita.or.jp/document/publica/standard/exif/english/jeida49e.htm参照)の色空間情報から取得できる。また、写真中の人物(被写体)との関係については、FOAFでknowsプロパティが定義されているが、思い出ビデオ作成においては本人と被写体の間柄をより詳細に定義する必要があるため、FOAFのknowsの属性を拡張して定義されたRELATIONSHIP(http://vocab.org/relationship/参照)を利用した。これを用いて、親子関係、親戚関係などを記述した。そのサンプルが後述の図7に示される。
さらに、表1に挙げたエフェクト、トランジションに対して、思い出ビデオ作成に用いる映像効果のオントロジを表2のように定義した。
Figure 0004291294
そして、写真のアノテーションから映像効果への変換ルールを記述し、テンプレートとして使用する。表3に、表1の「RT−8」のレンダリングテンプレートの表現例を示す。ただし、表1に示す他の識別子に付いても同様にテンプレートを作成しておくものとする。
Figure 0004291294
ここでは、レンダリングテンプレート自身もRDFのステートメントとして記述し、 上述のRDQLを用いて、レンダリングテンプレートを検索することを想定している。なお、レンダリングオントロジについては、インタオペラビリティ(相互操作性)の必要性は低いため、別の独自形式を定義してもよい。
以下に説明する実施例では、以上説明した表3に示すようなテンプレートを利用して、思い出ビデオというビデオコンテンツに表1すなわち表2のような映像効果(エフェクト、トランジション)を付与する。
図1の実施例のビデオコンテンツ作成装置10を用いて思い出ビデオを作成するためには、コンピュータ12などは図2に示す手順で動作する。
まず、ステップS1で、写真画像データを入力するとともに、メタ情報を登録する。具体的には、図1の写真データ入力装置20を用いて、主として、当該痴呆症者の過去の写真の写真画像データをコンピュータ12に入力する。
このとき、図3に示すGUI(Graphical User Interface)画面26がモニタ16に表示される。このGUI26は、モニタ画面の左方の大部分を占める、写真表示編集領域28を含む。この写真表示編集領域28は、そこに入力した写真画像データの写真を表示し、さらには、リージョンを指定するなどの編集作業のために利用される。GUI26は、モニタ画面の右方に形成されるサムネイル表示領域30を含む。サムネイル表示領域30には、入力しかつ後述のようにして検索した写真画像データから使用する写真を選択するためにサムネイル画像を表示する。
GUI26には、モニタ画面の下方に形成される、第1メタ情報入力領域32、モニタ画面のほぼ中央に形成される第2メタ情報入力領域34、およびモニタ画面の右下方に形成される再生順設定領域36が設けられる。メタ情報入力領域32には、領域28に表示もされている写真全般に関わるDublin Core で定義されたメタ情報を入力する。また、メタ情報入力領域34はポップアップ形式で入力時に現れる領域であり、それを用いて、FOAFを利用してリージョンが人の場合のメタ情報を入力する。そして、再生順設定領域36は、思い出ビデオに取り込んだ写真を再生する順番を設定するために利用され、後に説明するように、ドラッグアンドドロップで順番を入れ替えることができる。
ステップS1での写真入力およびメタ情報登録について、具体的に説明する。図4を参照し、今、写真データ入力装置20から図4に示すような写真(図面では線画であるが、実際は写真である。他の図面でも同様。)の写真画像データが入力されると、コンピュータ12は、モニタ16のGUI26の写真表示編集領域28にその画像データで表される写真(静止画)を表示する。それとともに、コンピュータ12は、その写真のサムネイル画像をサムネイル表示領域30に表示する。
そして、図示しないマウス等を利用して、その写真中で2つのリージョン、リージョン1およびリージョン2を設定すると、図5に示すように、写真表示編集領域28中に、リージョン1およびリージョン2をそれぞれ特定する矩形枠29aおよび29bが表示される。このようなリージョン1およびリージョン2を指定すると、Image Regionsで定義される形式で、図6に示す各リージョンのメタ情報が設定される。つまり、リージョン1の原点(矩形枠の左上の角)の座標(x11,y11)およびそれの対角の座標(x12,y12)が登録され、さらにそのリージョン1の高さh1および幅w1もメタ情報として登録される。同様に、リージョン2についても、原点座標、対角座標、高さ、および幅が、それぞれ、x21,y21、x22,y22、h2、およびw2として登録される。
このようにしてステップS1で写真を入力し、メタ情報を登録すると、たとえば図7に示すようなデータベースができる。この図7では右に、図5に示した、実際の写真が表示されリージョンが指定されている写真表示編集領域28が描かれている。そして、楕円形の中に「dc:」とあり、それに関連する矩形の中のデータが、Dublin Coreで登録したメタ情報である。たとえば「dc:date」では日付「20040716(2004年7月16日)」が、「dc:title」では名称「at Disney Animal Kingdom(ディズニー動物王国にて)」が、「dc:description」では説明文「They are very happy.(彼等は非常に楽しそう)」がメタ情報として登録される。
楕円形のなかに「imgReg:」とあるメタ情報は、Image Regionsでリージョンを指定したときのメタ情報である。「imgReg:has region」はリージョンが設定されていることを示すメタ情報であり、「imgReg:Rectangle」はリージョンが矩形であることを示し、「imgReg:regionDepict」はリージョンの説明で、「imgReg:boundingBox」はリージョンの原点位置とサイズ(高さh、幅w)とを含む。「imgReg:coords」はリージョンの原点位置および対角位置の座標である。
また、「foaf:gender」で与えられるメタ情報は、リージョンが人である場合の性別(例示では「female(女)」)であり、「foaf:name」で与えられるメタ情報は名前(例示では「Haruka(はるか)」)であり、「foaf:Person」で与えられるメタ情報はViewer(この思い出ビデオを観る人)と写真に写った人との関係を示し、例示では、「孫(grandchild)」であることがわかる。
なお、図7に示す各メタ情報は、それぞれ以下に示される。
xmlns:imgReg=“http://www.w3.org/2004/02/image−regions#”
xmlns:foaf=“xmlns.com/foaf/0.1”
xmlns:dc=“http://purl.org/dc/elements/1.1/”
このようにして、図2のステップS1で写真入力と、メタ情報登録が行なわれると、コンピュータ12は、その写真と、それに付与したメタ情報とをデータベース22に格納する。なお、上の説明では1枚の写真とそれのメタ情報について説明したが、入力装置20で写真画像データを入力する都度、同じようにして、図7に示すようなメタ情報が登録され、そのメタ情報を付与した写真データがデータベース22に格納される。
その後、図2のステップS2では、ステップS1で入力した写真のうち、そのとき使う写真を検索する。ただし、写真の検索では、上で説明したメタ情報が利用される。メタ情報を利用した写真の検索条件としては、たとえば、以下のものが利用できる。
まず、FOAFではリージョンの種類が人であるとき、その人を特定するメタ情報を付与するのであるから、このFOAFのメタ情報を利用して、「特定の人物の写っている写真」を検索することができる。複数の人物を同時に検索できるが、この場合には、検索した名前の全員が写っている写真が対象となる。
Dublin Coreのメタ情報を利用する場合には、「撮影年月日」で検索できる。たとえば、「From (第1指定日)〜To(第2指定日)」で第1指定日以降第2指定日以前に撮影した全ての写真が検索できる。「From (指定日)」でその指定日以降に撮影した全ての写真が検索できる。同様に、「To(指定日)」でその指定日以前に撮影した全ての写真が検索できる。また、「特定のプロパティに特定の値が含まれている写真」を検索できる。たとえば、「dc:title」に「Disney」の文字が含まれる写真など。ただし、複数同時に選択または検索可能であるが、複数選択時には、設定された検索条件を同時に充足する写真だけが対象となる。
このようにして、ステップS2で写真の選択が終了したら、次に、ステップS3で、検索した写真から実際に使用する写真を選択するとともに、および複数の写真を選択したときには複数の写真の再生順序を指定または決定する。このステップS3のためのGUI26が図8に示される。ただし、便宜上この図8は図7以前の写真とは異なる写真を使用していることに留意されたい。
コンピュータ12は、たとえば図示しないメニューによって、ステップS3が選択されたときには、図8に示すGUI26をモニタ16に表示する。この図8のGUI26では、モニタ画面の右下方に、図3でも示した、再生順設定領域36が形成される。この再生順序設定領域36の拡大図が図9に示される。
再生順序設定領域36は、写真リスト欄38を含み、図8に示すように、サムネイル表示領域30に表示されたサムネイル画像を写真リスト欄38にドラッグアンドドロップすることによって、使用する写真を選択できる。つまり、ステップS2の写真検索ステップで検索した写真のサムネイル画像が、すべてサムネイル表示領域30に表示されるので、その一覧画像の中の写真を写真リスト欄38にドラッグアンドドロップすることによって、写真を選択することができる。なお、写真リスト欄38には、名称(name)、タイトル(title)、日付(date)の各コラムが設定される。
また、再生順序設定領域36には、図9に示すように、ソート指定欄40と、思い出ビデオのスライドショーの生成を指示する生成ボタン42、写真の削除のために使用する削除ボタン44、および選択した写真のプレビューをするときに押す(クリックする)プレビューボタン46が設けられる。カーソルを写真リスト欄38のどれかの写真に合わせ、その状態でプレビューボタン46が操作されると、図8に示すプレビュー領域48に、プレビュー画像が表示される。
なお、ソート指定欄40には、選択した写真をソーティングするときのプロパティ、たとえば登録日などが設定される。そして、このソート指定欄40に特定のプロパティが、たとえばプルダウンメニューによって設定されると、コンピュータ12は、たとえばそのプロパティに対する値の昇順で写真をソートする。
さらに、写真リスト欄38に登録した写真リストの順序で再生されるので、もし、再生順序を変更したい場合には、その写真リスト欄38の1行をドラッグアンドドロップして動かすことによって、リスト搭載順すなわち再生の順番を入れ替えればよい。
つづいて、図2のステップS4で、写真の再生時に流すBGMのプレイリストを登録または選択する。この実施例では、たとえばMP3形式の楽曲ファイルをサポートしていて、その中からBGMとして使う楽曲をプレイリストに登録すれば、BGMがそのプレイリストに沿って、再生される。また、プレイリストとしてたとえばM3U形式を用いれば、Winamp(アプリケーション名)などの一般的なソフトで作成したプレイリストをそのまま使用できる。
ステップS4では、まず、図示しないメニユーで、「プレイリスト選択または登録」を選ぶ。そうすると、図10に示すGUI26がモニタ16に表示される。そして、このGUI26のプレイリスト作成ボタン52をクリックすると、図11に示す、新規プレイリスト登録欄54が表示される。この登録欄54には、プレイリストの名称(図示の例では、「Sample」)を設定するための名称欄56および入力した名称でよいときの決定(了解)ボタン58が形成される。そして、名称欄56に名称を入力し、了解ボタン58をクリックすると、図12に示す、空のプレイリスト60が表示される。
図13に示す、MP3ファイル一覧62を表示し、その中の適宜の楽曲をプレイリスト60にドラッグアンドドロップすることによって、プレイリスト60に、BGMとして使用する楽曲を順次選択または登録することができる。図示の例では、「MYアルバム」という楽曲一覧62(図13)を用いて、主として、童謡が選択された。
このようにして、写真データの入力、メタ情報の登録、写真の検索、選択、楽曲の選択などの各ステップが実行され、図9に示す生成ボタン42を押すと、思い出ビデオの生成を開始する。したがって、図2のステップS5では、生成ボタン42がクリックされたかどうか判断する。もし“YES”ならそのまま次のステップS6に進むが、“NO”なら、図2の任意のステップS1−S4に戻って該当の作業を再開することができる。
つまり、図2の各ステップS1−S4はそれぞれ、メニューでの選択によって、任意の時間に任意の作業量で何回も実行可能であるので、オペレータは、時間のあるときに、必要なだけ必要な作業を行なえばよい。いずれの場合にも、前回までの作業の結果はデータベース22に格納されているので、今回の作業では、まず、データベース22から前回までのデータを読み出し、その後それに続行した処理またはそれを変更する処理を行う。
そして、ステップS5で生成ボタン42のオンが検出されると、次のステップS6で、思い出ビデオのスライドショービデオ(RVML)を生成する。
ここで、「RVML」とは、swfを完全に表現できるように設計されたXMLの一種であり、すべてのバージョンのswf動画はRVMLとして表現できる。ただし、swfは、Flashのバージョンやフレームレートなどの情報を持つファイルヘッダを除くと、基本的にはタグの列だけである。たとえば、定義タグで図形を定義し、操作タグでその図形をフレームに配置し、表示タグで現在のフレームを画面に描画する、というパターンが1フレームに相当し、これを繰り返す。
そして、生成されたRVMLは、RVMLからFlashツールであるKineticFusion(http://www.kinesissoftware.com)を使用すれば、Flashムービー形式の思い出ビデオが作成できる。
図2のステップS6は、具体的には、図15に示す手順で実行される。最初のステップS11では、コンピュータ12は、生成ボタン42の操作に応答して、まず、BGMとしてのプレイリスト60(図14)の楽曲の再生を開始する。以後、楽曲は、そのプレイリスト60に沿って、順次切り替わり、かつ連続的に再生される。つまり、コンピュータ12は、プレイリスト60に登録した楽曲データを読み出し、それをサウンドボードまたはプロセサで処理させることによって、スピーカ18(図1)から、当該プレイリストの楽曲が音声として再生される。
次のステップS13では、コンピュータ12は、モニタ16の表示画面に形成されたGUI26の写真表示編集領域28(図3)の幅をSw、高さをShとして設定する。
ついで、ステップS15で、コンピュータ12は、写真個数nをインクリメント(n=n+1)する。そして、次のステップS17では、写真リスト欄38(図9)に挙げられたn番目の写真がフェードイン態様で、表示編集領域28に表示される。つまり、コンピュータ12は、データベース22(図1)から写真リスト欄38のn番目の写真とそれに付随するメタ情報とを読み出し、n番目の写真を表示する。ただし、最初はn=1であるので、1番目の写真がフェードイン表示される。
そして、次のステップS18において、コンピュータ12は、その写真についてナレーションが付与されているかどうか判断し、既にナレーションが付与されて登録されている場合には、このナレーションをステップS19で再生する。したがって、このステップS19において、既登録のナレーションが確認できる。
ただし、ナレーションが未だ付与されていないときには、その後、ステップS20での一定時間のポーズの後、次のステップS21で、コンピュータ12は、そのn番目の写真にリージョンが指定されているかどうか、たとえばImage Regionsのメタ情報があるかで判断する。リージョンが指定されているなら、次のステップS23で、コンピュータ12は、リージョン番号mをインクリメント(m+1)する。そして、ステップS25で、m番目のリージョンのImage Regionsのメタ情報を参照する。このメタ情報に、m番目のリージョンの位置データやサイズデータが含まれる。したがって、次のステップS27で、コンピュータ12は、そのようなメタ情報および先に設定した表示領域の高さShおよび幅Swを利用して、m番目のリージョンを、領域28の中央に位置合わせする。
一例として、そのリージョンの幅をw1、高さをh1とすると、拡大率をmin[Sw/w1, Sh/h1]として、そのリージョンがちょうど表示画面28の中央に収まるまで、1フレームずつ、表示画面28に対して写真画像を横軸にdX、縦軸にdY移動し、dZ分拡大して表示する。
ただし、このステップS27では、そのリージョンの画像を表示領域の中央に位置合わせするだけでなく、たとえば、左上、右下など他の位置に位置合わせするようにしてもよい。
その後、ステップS29でのポーズの後、次のステップS31で、コンピュータ12は、残りリージョンがなくなったかどうかを判断する。つまり、Image Regionsのメタ情報からリージョン個数がわかるので、このステップS31では、ステップS23でインクリメントした結果がそのリージョン個数に等しくなったかどうか判断すればよい。
残りリージョンがあれば、次のステップS32において、コンピュータ12は、表1に示す識別子RT−1、RT−2およびRT−4で示される映像効果A−1、A−2を付与する。
具体的には、コンピュータ12は、図7のようなメタ情報のうち、リージョン座標値(imgReg:coords)およびリージョン境界値(imgReg:boundingBox)から、複数のリージョン間間隔、X方向(横方向)間隔およびY方向(縦方向)間隔を算出する。そして、それらのリージョン間間隔が所定の閾値以上か以下かを判別する。そして、X方向(横方向)間隔およびY方向(縦方向)間隔のいずれかが閾値以下のときには、ケンバーンズ効果を使用するべく、写真中の人物の顔を含むリージョンに対するズームアップをした後、次のリージョンへパンさせる。逆に、X方向(横方向)間隔およびY方向(縦方向)間隔のいずれかが閾値以上のときには、パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインさせる。
また、図7に示すfoaf:personで示す被写体情報が、視聴者に思い出深い被写体であると、その被写体のリージョンだけにズームアップをし、その後、リージョン間間隔に応じたパンかフェードアウト、フェードインからの処理を行う。
ただし、このステップS32において識別子RT−1、−2および−4のような映像効果をA−1およびA−2を自動的に付与するためには、表3で例示した変換テンプレートが用いられる。
その後、先のステップS23に戻り、ステップS23−S32を繰り返し実行する。
ステップS31で“NO”なら、つまり、写真リスト欄38でn番目のその写真の全てのリージョンの処理が終わったなら、次のステップS33で、コンピュータ12は、n番目の写真を写真表示編集領域28からフェードアウトさせる。
続いて、ステップS35において、コンピュータ12は、処理すべき写真の残りがなくなったかどうかを判断する。つまり、図9で示される写真リスト中の写真の数は予め判っているので、このステップS35では、ステップS15でインクリメントした結果がその枚数に等しくなったかどうか判断すればよい。
写真が未だ残っていれば、次のステップS36において、コンピュータ12は、表1に示す識別子RT−3、RT−5、RT−6、RT−7およびRT−8で示される映像効果A−3やB−1およびB−5を付与する。
具体的には、コンピュータ12は、メタ情報のうち、図7には図示していない、写真の色調のメタ情報を前述のExifの色空間情報から取得し、その色情報が、前の写真がモノクロで今回の写真がカラーのような色変化を示しているかどうか判断する。色変化情報があれば、コンピュータ12は、今回のカラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていくという映像効果を付与する。
また、コンピュータ12は、図7に示すメタ情報のうち、撮影日(date)のデータを取得し、前の写真と今回の写真との間の年代差を算出する。そして、その年代差が所定の閾値以上か以下か判別する。前の写真との間の年代差が閾値以下のときには、コンピュータ12は、前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる、という映像効果を付与する。前の写真との間の年代差が閾値以上のときには、コンピュータ12は、前の写真を中心の縦軸で回転させて、今回の写真に遷移する、という映像効果を付与する。
さらに、コンピュータ12は、図7に示すメタ情報のうち、撮影日や出来事(title)を参照して、シナリオが一貫しているかどうか、判断する。これは、たとえば、写真が年代順に取り込まれているか、とか同じ年代であれば季節の順序に従っているかなどを判断すればよい。そして、シナリオが一貫していると判断したときには、前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる、という映像効果を付与する。
さらに、上述のようにして算出した写真の年代差が所定の閾値以下ではあるが、かつシナリオの転換点であるような場合、たとえば、進学した、結婚した、子供が生まれた、などのような場合には、コンピュータ12は、前の写真を中心の縦軸で回転させて、今回の写真に遷移する、という映像効果を付与する。
ただし、このステップS36での映像効果を自動的に付与するためには、表3で例示した変換テンプレートが用いられる。
なお、先のステップS35で写真残数があると判断したときには、先のステップS15に戻り、ステップS15−S36を繰り返し実行する。ステップS35で“NO”なら、コンピュータ12はステップS37でBGMを停止し、終了する。
このようにして、ステップS6すなわち図15に従って、写真画像データをそれに関連するメタ情報を用いて編集しさらには映像効果付与することによって、一連のビデオコンテンツ(思い出ビデオ)が生成(レンダリング)される。そして、レンダリングが終了すると、レンダリング結果は、前述のRVMLの形式でコンピュータ12のハードディスクなどの内部メモリ14(図1)に保存する。そして、RVMLからFlashムービーなどに変換して、他の記憶媒体に格納することによって、他のパソコンなどで再生することもできる。つまり、一連のビデオコンテンツは何らかの記憶装置または記憶媒体に格納されて、痴呆症者の介護のために利用される。
図2に戻って、先のステップS6が終了した後この実施例では、ナレーション付与を行う。ただし、このナレーション付与ステップは、ステップS6の生成ステップの中で実行するようにしてもよいが、この実施例では、ステップS6の後にステップS7を実行するものとして説明する。
ナレーション付与を実行するに際しては、図4に示すGUI26に形成されるナレーションボタン31を操作する。ユーザは、生成したスライドショーにナレーションを付与する必要があるとき、マウス(図示せず)でこのナレーションボタン31をクリックする。そうすると、図16に示すように、GUI26のほぼ中央に、写真表示編集領域28その他にオーバーラップする形で、ナレーション作成領域64が、ポップアップ形式で表示される。
このナレーション作成領域64には、ナレーション候補テキスト表示領域66が形成される。ナレーション候補テキスト表示領域66は、後に説明するように、メタ情報から取得したキーワードもしくはユーザが入力したキーワードに基づいてコンピュータ12がナレーション候補テキストを作成したとき、そのナレーション候補テキスト(文)を表示するための領域である。このナレーション候補テキスト表示領域66に関連して、OKボタン68が配置される。このOKボタン68は、ナレーション候補テキスト表示領域66に表示されたナレーションテキスト文を選択するかどうかを指示するためのものであり、表示されているナレーション候補を使用するならそれをクリックすればよい。
ただし、ナレーション候補テキスト表示領域66には、1つだけの候補ではなく、複数の候補が一度に表示されるようにしてもよく、その場合には、ユーザは、その領域66を直接クリックして1つまたは複数のナレーションテキストを選択するようにすればよい。
ナレーション候補テキスト表示領域66の下方には、指示ボタン69が形成される。たとえば、コンピュータ12が適当なナレーション候補テキストを作成できなかったような場合に、ユーザが適当なキーワードを手動で入力するときにこの指示ボタン69をマウスでクリックする。そうすると、その下のキーワード入力領域70が有効化される。したがって、ユーザは図示しないキーボードを使用してキーワードを入力することができる。このキーワード入力領域70は、好ましくは、図16に示すよう第2、カテゴリ毎にキーワードを入力することができるように、複数(この実施例では5つ)のカテゴリに区分けされている。この入力領域70を見れば、ユーザは、意図したキーワードが入力されたかどうか確認することができる。そして、意図どおりのキーワードを入力していることを確認したとき、ユーザは、入力領域70の右にあるOKボタン7を操作すればよい。それによって、キーワード入力が終了できる。
キーワード入力OKボタン71の右には、終了ボタン72が設定される。この終了ボタン72は、ナレーション付与作業を終了するときに操作する。
このようにして、ナレーション付与ボタン31を操作することによって、GUI26が図16に示す状態となり、その状態で、図17に示すナレーション付与動作を実行することができる。
図17の最初のステップS41で、コンピュータ12は、ナレーションを付与すべき写真が選択されたかどうか判断する。ユーザが写真を選択するためには、先に説明したように、サムネイル表示領域30に表示されたサムネイル画像をクリックすればよい。そして、コンピュータ12は、サムネイル表示領域30での操作によってステップS41で写真が選択されたと判断すると、次のステップS43において、選択したサムネイル画像で表される写真を、写真表示編集領域28に表示する。ただし、このときGUI26はナレーション作成領域64がその写真表示編集領域28にオーバーラップした「ナレーション付与モード」になっているので、この領域28で写真の編集をすることはできない。
次のステップS45において、コンピュータ12は、先に述べた方法で登録されているメタ情報を取得し、次のステップS47で、そのメタ情報からキーワードを抽出する。そして、ステップS49において、コンピュータ12は、そのキーワードに基づいて、ナレーション候補テキストをナレーション候補テキスト表示領域66に表示する。
ここで、ナレーション候補の生成方法について、説明する。
この実施例のシステム10では、コンピュータ12の内部メモリ(図示せず)またはデータベース22(図1)に、表4に示すような、典型的なナレーションパターンを予め設定しておく。その意味で、これら内部メモリおよび/またはデータベース22がナレーションパターン設定手段として機能する。そして、この表4に示す単語X1‐X5を、メタ情報から抽出したキーワードに基づいて当てはめることによって、ナレーションテキストを自動生成する。
Figure 0004291294
ただし、単語X1‐X5の与え方は、一例として、表5に従う。
Figure 0004291294
たとえば、表4の第1パターン「X1ですね(orですか)」や第2パターン「これはX1ですね(orですか)」を使うときには、単語X1には、人、物、場所、時候のいずれかである名詞2を当てはめる。ただし、その名詞2にも何種類かあり、それが{([副詞]+形容詞)または(名詞1+の)+名詞2}で表されている。これを分解すると、単語X1に当てはめられる単語は、「形容詞+名詞2」(たとえば、「きれいな」)、「副詞+形容詞+名詞2」(たとえば、「大変きれいな花」)、「形容詞+名詞1の名詞2」(たとえば、「きれいな庭の花」)、「副詞+形容詞+名詞1の名詞2」(たとえば、「大変きれいな庭の花」)、そして「名詞1の名詞2」(たとえば、「庭の花」)のいずれかとなる。
表4の第3パターン「X2とX3しましたね(orしましたか)」を使うときには、単語X2には、人である名詞2を当てはめる。ただし、そのX2の場合の名詞2は、第1パターンや第2パターンのときと同様に、{([副詞]+形容詞)または(名詞1+の)+名詞2}で定義され得る。また、単語X3には、行為である名詞2を当てはめる。このときの名詞2は、{([副詞]+名詞2)}で定義される。つまり、副詞が付いたか、付かない名詞2(行為)(たとえば、「楽しく旅行」または「旅行」)である。
表4の第4パターン「X4でX3しましたね(orしましたか)」を使うときには、単語X4には、場所である名詞2を当てはめる。ただし、その名詞2には、上述の場合と同じく、{([副詞]+形容詞)または(名詞1+の)+名詞2}で定義される。なお、単語X3については上述のとおりである。たとえば、場所としては、「遊園地」、「デパート」などが例示できる。
表4の第5パターン「X5でX3しましたね(orしましたか)」を使うときには、単語X5には、時候および/または場所である名詞2を当てはめる。ただし、その名詞2には、上述の場合と同じく、{([副詞]+形容詞)または(名詞1+の)+名詞2}で定義される。時候としては、春夏秋冬、何月などが例示できる。なお、単語X3については上述のとおりである。
さらに、上記において、名詞2に与える単語は、一般名詞の概念構造から、ナレーションにしようするのに粒度として適当なものを選択して用いる。そして、副詞、形容詞、名詞1については、その名詞2と適合するものを割り当てる。ただし、この「適合」については、図示しないが、適合表を作成し、名詞2を決定した後、その適合表を参照して副詞、形容詞、名詞1を採用する。
このような表1のナレーションパターンのX1−X5に表2のように定義できる単語を当てはめる訳であるが、実施例では、この「単語」を、写真に付加したメタ情報から取得しようとするものである。
図18および図19には、実施例において単語決定手段として機能するシソーラス辞書74および共起辞書76が図解される。このようなシソーラス辞書74や共起辞書76は、ともに、データディクショナリ(データ辞書)の一種であり、実施例では、図1に示すデータベース22またはコンピュータ12の内部メモリに予め設定されている。
シソーラス辞書74は、図18に示すように、表記の揺れや、関連語、同義語、類似語などを概念的に類似したキーワードのツリー構造または網構造の階層構造として示したものであり、カテゴリ毎にまとめられている。図18の例では、カテゴリとして、「場所」および「行為」が示されている。たとえば、「偕楽園」、「後楽園」、「兼六園」などは「公園」という概念でくくられ、いずれも固有名詞である「ディズニーランド」や「USJ」は、「遊園地」という概念に当てはめられ、これら「公園」および「遊園地」は、別の概念たとえば「デパート」とともに、カテゴリとしては「場所」に含まれることを示している。「行為」というカテゴリについても同様である。「○○旅行」はまとめて「旅行」で表し、「旅行」は、「散歩」、「おでかけ」などともに、「行為」のカテゴリに分類されている。先のナレーションパターンでの「名詞2」として適当な他のカテゴリ「人」、「時候」などについても、同様にキーワードを集積している。
特定の単語と単語との関係、結びつきを共起関係といい、共起辞書76には、図19に示すように、各カテゴリたとえば「場所」および「行為」にそれぞれ含まれるキーワード間の共起関係が示されている。この共起辞書76によれば、一例として、場所の「デパート」というキーワードは行為のなかでは、「おでかけ」というキーワードとしか繋がらないが、「公園」といえば、「おでかけ」、「散歩」および「旅行」という複数のキーワードに強いつながりを持つことがわかる。
このようなツールを利用して、表4のナレーションパターンに単語、特に名詞2を適用することによって、ステップS49において、ナレーション候補テキストを作成する。
ナレーション候補の具体例を説明する。図7に示すメタ情報には、日付(dc:date)として「2004.07.16」があり、タイトル(dc:title)として「ディズニー動物王国にて」があり、人(faof:person)として「rel:grandchildOf」がありさらに、名前
(foaf:name)として「はるか」が含まれる。
まず、日付が「2004.7.16」であることから、シソーラス辞書74を参照すれば、図18には図示していないが、カテゴリ「時候」としては「夏」であることがわかる。「ディズニー動物王国にて」というタイトルに含まれる「ディズニー」を図18のシソーラス辞書74で検索すると、それは、「遊園地」に包含され、その「遊園地」は「場所」のカテゴリに該当することがわかる。さらに、図19の共起辞書76を参照すると、「遊園地」は3つの行為「おでかけ」、「散歩」、「旅行」に共起関係を有することがわかる。さらに、「人」として「孫」があり、その名前が「はるか」であることがわかる。このようにして、メタ情報からキーワードを抽出し、そのキーワードから、ナレーションパターンに適用可能な「単語」を検索すると、時候が「夏」で、場所が「遊園地」で、行為が「おでかけ」、「散歩」または「旅行」で、人が「孫のはるか」であることがそれぞれわかる。
したがって、コンピュータ12は、ステップS49で、一例として表6に示すような3つのナレーションテキストを生成する。
Figure 0004291294
表6の第1の候補は、第1のナレーションパターンを選択して単語を適用したものであり、第2の候補は、第3のナレーションパターンを選択して単語を適用したもので、第3の候補は、第5のナレーションパターンを選択して単語を適用してものである。
そして、ステップS49で、このようなナレーションテキストを、ナレーション候補として、図16のナレーション候補テキスト表示領域66に一度に、または順次表示する。
そして、ステップS51でコンピュータ12は、そのようなナレーション候補テキストが選択されたかどうか、判断する。どれかのナレーション候補テキストが選択されると、次のステップS53で、コンピュータ12は、このナレーションテキストの音声データを取得する。
この実施例では、音声モデルを図1のデータベース22またはコンピュータ12の内部メモリに登録しておき、ナレーションテキストを決定すると、その音声モデルを使って音声合成の手法で、ナレーション音声を作成する。ただし、音声データは、音声合成による他、たとえばプロのナレータが発声した音声データを内部メモリやデータベース22内に収録しておき、その音声データを編集することによって、ナレーション音声を作成するようにしてもよい。
そして、ステップS55において、コンピュータ12は、ステップS53で取得し、また作成したナレーション音声データを、ステップS41で選択した写真に紐付けして、データベース22に登録する。
このようにして、1枚の写真についてのナレーション音声データが写真に付与されるが、次のステップS57で、ナレーション付与をしたい写真が未だあるかどうか判断し、まだナレーション付与を続行するときは終了ボタン72(図16)を押さないので、先のステップS41に戻るが、終了ボタン72を押したなら、このステップS57で“YES”となり、図2のナレーション付与ステップS7が終了する。
ただし、先のステップS49で表示したナレーション候補をステップS51で選択しなかったときには、コンピュータ12は、次のステップS59でさらにナレーション候補があるかどうか判断し、もしあれば、次のステップS61でナレーション候補を更新して、再び、ナレーション候補テキスト表示領域66に表示し(ステップS49)、ユーザの選択を待つ。
また、ステップS59で適当なナレーション候補がないと判断したときには、コンピュータ12は、ユーザによる変更キーワードを受け付ける。ユーザはキーワードを入力するときには、指示ボタン69(図16)を操作し、キーワード入力領域70にキーワードを入力する。このとき、入力するキーワードは、ナレーションパターン(表4)の名詞1および名詞2に対応する{人、物、場所、時候、行為}、副詞や形容詞に対応する{どんな}をそれぞれ入力するものとする。ただし、指定しないカテゴリや項目があってもよい。
このようにして、ユーザがキーワードを入力した後には、コンピュータ12は、ステップS49で、上で説明したように、ユーザ入力キーワードから、シソーラス辞書74や共起辞書76を使って「単語」を決定し、その単語を表1のナレーションパターンに当てはめて、ナレーションテキストを生成し、表示する。以後、先に説明したように、ユーザは、その表示されたナレーション候補テキストを選択し、ナレーションテキストを決定する。
このようにして、図2に示す各ステップを実行することによって、ナレーション付の思い出ビデオのようなビデオコンテンツが作成できる。ただし、上述の実施例では映像効果を付与したが、この映像効果の付与は特にはなくてもよい。
また、上述の説明は、ナレーション付与ステップS7は生成ステップS6の後で実行するように説明した。しかしながら、ナレーション付与は、ステップS6の生成ステップの中で、たとえば映像効果付与などと平行して実行するようにしてもよいことはもちろんである。
さらに、上述の実施例ではナレーション作成手段が作成したナレーションテキストは変更しなかったが、ユーザの入力によって適宜変更できるようにすることも可能である。
また、実施例の音声合成技術を使えば、視聴者である痴呆症者の名前の呼びかけも簡単に作成することができる。
この発明の一実施例のビデオコンテンツ作成装置を示すブロック図である。 図1実施例の全体動作を示すフロー図である。 図1実施例のGUIの一例を示す図解図である。 図2のステップS1で利用する写真入力およびメタ情報登録時のGUIの表示の一例を示す図解図である。 図4においてリージョンの切り出しを示す図解図である。 図5のリージョンのメタ情報を示す図解図である。 写真とメタ情報との関連を例示する図解図である。 図2のステップS3での写真の選択および再生順設定動作時のGUIの一例を示す図解図である。 図8のGUIにおける再生順設定領域を示す図解図である。 図2のステップS4でのプレイリスト作成時のGUIの一部を示す図解図である。 図11のGUIに形成される新規プレイリスト登録欄を示す図解図である。 図8のGUIに形成されるプレイリストの一部の一部を示す図解図である。 プレイリスト登録に用いる楽曲一覧の一例を示す図解図である。 登録済みプレイリストの一例を示す図解図である。 図2のステップS6での思い出ビデオ生成動作を詳細に示すフロー図である。 図8のGUIにおけるナレーション作成領域を示す図解図である。 図2のステップS7でのナレーション付与動作を詳細に示すフロー図である。 ナレーション付与に用いるシソーラス辞書を示す図解図である。 ナレーション付与に用いる共起辞書を示す図解図である。
符号の説明
10 …ビデオコンテンツ作成装置
12 …コンピュータ
14 …内部メモリ
16 …モニタ
20 …写真データ入力装置
22 …データベース
26 …GUI
28 …写真表示編集領域
30 …サムネイル表示領域
32,34 …メタ情報入力領域
64 …ナレーション作成領域
66 …ナレーション候補テキスト表示領域
72 …キーワード入力領域

Claims (9)

  1. 写真画像データを入力する写真データ入力手段、
    前記写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、
    前記写真画像データを関連する前記メタ情報とともに格納する記憶手段、
    前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
    前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
    前記生成手段は、前記メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成手段、および前記ナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録手段を含む、ビデオコンテンツ作成装置。
  2. 前記ナレーション候補テキスト作成手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記メタ情報に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーション候補テキストを作成する、請求項1記載のビデオコンテンツ作成装置。
  3. 前記単語決定手段はキーワードから前記単語を引き出す辞書を含む、請求項2記載のビデオコンテンツ作成装置。
  4. 前記単語決定手段は、前記キーワードを前記メタ情報から抽出するキーワード抽出手段を含む、請求項3記載のビデオコンテンツ作成装置。
  5. 前記単語決定手段は、ユーザによる前記キーワードの入力を受け付けるキーワード入力手段を含む、請求項3または4記載のビデオコンテンツ作成装置。
  6. ビデオコンテンツ作成装置のコンピュータに、
    画像データを入力する写真データ入力ステップ、
    前記写真画像データに関連してメタ情報を付与するためのメタ情報付与ステップ、
    前記写真画像データを関連する前記メタ情報とともに記憶手段に格納する記憶ステップ、
    前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索ステップ、および
    前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成ステップ実行させ、そして
    前記生成ステップにおいては、前記メタ情報に基づいてナレーション候補テキストを作成するナレーション候補テキスト作成ステップ、および前記ナレーション候補テキストが選択されたとき当該ナレーション候補テキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録ステップを含む、ビデオコンテンツ作成プログラム。
  7. 写真画像データを関連するメタ情報とともに格納する記憶手段、
    前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
    前記検索手段によって検索した写真画像データに従ってサムネイル画像を表示するサムネイル画像表示領域および写真リスト欄を有する再生順序設定領域を含むGUI画面を表示する表示手段を備え、
    前記サムネイル画像表示領域で表示しているサムネイル画像を前記写真リスト欄にドラッグアンドドロップすることによって、前記検索した写真データのうち実際に使用する複数の写真を選択し、
    前記写真リスト欄におけるリスト搭載順を変更することによって前記複数の再生順序を変更できるようにし、
    前記写真リスト欄に搭載している写真の写真画像データとそれに関連するメタ情報とを前記記憶手段から読み出す読出し手段、および
    前記読出し手段が読み出した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
    前記GUI画面に、ナレーション候補テキストを表示するナレーション候補テキスト表示領域および前記ナレーション候補テキストを選択するかどうかを指示するための指示入力部を有するナレーション作成領域を形成し、さらに
    前記生成手段は、
    前記読出し手段が読み出した前記メタ情報に基づいてナレーション候補テキストを作成して前記ナレーション候補テキスト表示領域に表示するナレーション候補テキスト表示手段、
    前記指示入力部で前記ナレーション候補テキスト表示領域に表示された前記ナレーション候補テキストが選択されたとき、そのナレーション候補テキストに応じたナレーション音声データを作成するナレーション音声データ作成手段、および
    前記読出し手段が読み出した写真画像データに紐付けして前記ナレーション音声データを登録する登録手段を含む、コンテンツ作成装置。
  8. 記ナレーション候補テキスト表示手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記メタ情報に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーション候補テキストを作成する、請求項7記載のビデオコンテンツ作成装置。
  9. 写真画像データを入力する写真データ入力手段、
    前記写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、
    前記写真画像データを関連する前記メタ情報とともに格納する記憶手段、
    前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
    前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
    前記生成手段は、前記メタ情報に基づいてナレーションテキストを作成するナレーションテキスト作成手段、および前記ナレーションテキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録手段を含み、
    前記ナレーションテキスト作成手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記メタ情報に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーションテキストを作成する、ビデオコンテンツ作成装置。
JP2005103585A 2004-11-01 2005-03-31 ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム Expired - Fee Related JP4291294B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005103585A JP4291294B2 (ja) 2005-03-31 2005-03-31 ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム
US11/260,444 US7694213B2 (en) 2004-11-01 2005-10-27 Video content creating apparatus
GB0522104A GB2419768B (en) 2004-11-01 2005-10-28 Video content creating apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005103585A JP4291294B2 (ja) 2005-03-31 2005-03-31 ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム

Publications (2)

Publication Number Publication Date
JP2006287521A JP2006287521A (ja) 2006-10-19
JP4291294B2 true JP4291294B2 (ja) 2009-07-08

Family

ID=37408965

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005103585A Expired - Fee Related JP4291294B2 (ja) 2004-11-01 2005-03-31 ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム

Country Status (1)

Country Link
JP (1) JP4291294B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4992664B2 (ja) * 2007-10-29 2012-08-08 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
JP6900792B2 (ja) * 2017-06-06 2021-07-07 トヨタ自動車株式会社 対話文動画の自動生成装置

Also Published As

Publication number Publication date
JP2006287521A (ja) 2006-10-19

Similar Documents

Publication Publication Date Title
US7054508B2 (en) Data editing apparatus and method
US7694213B2 (en) Video content creating apparatus
JP4424389B2 (ja) 動画作成装置、動画作成方法、およびプログラム
US8201073B2 (en) System and method for automating the creation of customized multimedia content
CN101300567B (zh) 在Web上的媒体共享和创作的方法
JP4433327B2 (ja) 情報処理装置および方法、並びにプログラム
JP2004032763A (ja) ビデオクリップレットを使用してビデオコンポジションを自動的にオーサリングするシステム及び方法
JP2001028722A (ja) 動画像管理装置及び動画像管理システム
JP2002049907A (ja) デジタルアルバム作成装置およびデジタルアルバム作成方法
JP2001092838A (ja) マルチメディア情報収集管理装置およびプログラムを格納した記憶媒体
JP2001306599A (ja) 映像の階層的管理方法および階層的管理装置並びに階層的管理プログラムを記録した記録媒体
Kustanowitz et al. Motivating annotation for personal digital photo libraries: Lowering barriers while raising incentives
JP4291294B2 (ja) ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム
JP4043472B2 (ja) ビデオコンテンツ作成装置
JP4446124B2 (ja) ビデオコンテンツ作成方法
JP2009140453A (ja) 情報処理装置および方法、並びにプログラム
JP2008067334A (ja) 画像処理装置および方法、並びにプログラム
JP4219906B2 (ja) ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム
US7610554B2 (en) Template-based multimedia capturing
JP2007143030A (ja) ビデオコンテンツ作成装置
JP2007041861A (ja) コンテンツ編集装置、コンピュータ読み取り可能なプログラム及びそれを記録した記録媒体
Singh et al. Reliving on demand: a total viewer experience
JP2008065792A (ja) 画像処理装置および方法、並びにプログラム
JP2002288178A (ja) マルチメディア情報収集管理装置およびプログラム
Nguyễn Re-processing archival images: artists as darkroom technicians

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080313

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080318

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090324

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090402

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120410

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130410

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140410

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees