JP2007143030A - ビデオコンテンツ作成装置 - Google Patents
ビデオコンテンツ作成装置 Download PDFInfo
- Publication number
- JP2007143030A JP2007143030A JP2005337186A JP2005337186A JP2007143030A JP 2007143030 A JP2007143030 A JP 2007143030A JP 2005337186 A JP2005337186 A JP 2005337186A JP 2005337186 A JP2005337186 A JP 2005337186A JP 2007143030 A JP2007143030 A JP 2007143030A
- Authority
- JP
- Japan
- Prior art keywords
- narration
- meta information
- photo
- video
- viewer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
【構成】 ビデオコンテンツ作成装置10は、コンピュータ12を含み、コンピュータ12は、写真データ入力装置20から入力された写真画像データとそれに関連して設定されたメタ情報とをデータベース22に登録する。写真をそのメタ情報に基づいて検索した後、思い出ビデオに使う写真を選択して一連の思い出ビデオを生成(レンダリング)する。その生成の途中またはその後、コンピュータ12は、メタ情報に含まれる血縁関係の記述(foaf:Person)に従って、その思い出ビデオの視聴者の視点から見たナレーションテキストを作成し、そのナレーションテキストの音声データを写真画像データとともにデータベース22に登録することによって、たとえばRVML形式のビデオムービーのようなビデオコンテンツを作成する。
【効果】 メタ情報に従って視聴者の視点に立ったナレーションを付与できるので、違和感のない自然なナレーション付の思い出ビデオを作成することができる。
【選択図】 図1
【効果】 メタ情報に従って視聴者の視点に立ったナレーションを付与できるので、違和感のない自然なナレーション付の思い出ビデオを作成することができる。
【選択図】 図1
Description
この発明はビデオコンテンツ作成装置に関し、特にたとえば、認知症者の過去の写真をナレーションとともにその認知症社(視聴者)に提示できる、思い出ビデオのようなビデオコンテンツを作成する、ビデオコンテンツ作成装置に関する。
高齢の認知症者に視聴覚刺激を提示することで、彼(女)らを活性化することを目的とした研究が幾つかなされている。たとえば、非特許文献1に示すビデオレスパイトでは、ビデオの視聴者である認知症者に語り掛けを行うキャラクタが提示される。また、非特許文献2に示すプロジェクトCIRCAでは、昔の有名な歌や画像、映像を含んだ、よくデザインされたマルチメディアコンテンツが利用されている。
発明者等は、認知症者の長期記憶を刺激するという観点から、視聴覚刺激の素材として、思い出ビデオを選定した。思い出ビデオは認知症者の古いアルバム中の写真を用いて作成されたスライドショービデオである。その臨床的な有効性は非特許文献3で実験的に示されている。
しかし、思い出ビデオを作成するのは単純な作業ではない。まず、古いアルバムを用意し、そこから適当な写真を選択する。使用する写真は、視聴者である認知症者の遠い昔の記憶を呼び覚ますものでなくてはならない。次に、ビデオカメラで写真をムービー仕立てに撮影するが、必要に応じてパン、ズームの映像効果(非特許文献4に示すいわゆるケンバーンズ効果)を付与する。またナレーションは、認知症者をビデオにより一層引き付けるために付与される。
通常これらは、映像編集のスキルを有するボランティアが実施しており、介護家族が気軽に作成できるようなものではない。加えて、認知症者が思い出ビデオを繰り返し視聴することでそれに飽きてしまい、結果として思い出ビデオが当初のように認知症者を引き付ける効果は、次第に失せてしまうことも考えられる。
Lund, D.A., Hill, R.D., Caserta, M.S., and Wright, S.D.: Video Respite: an innovative resource for family, professional caregivers, and persons with dementia, The Gerontologist, Vol. 35, Issue 5 (1995) 683-687. Gowans, G., Campbell, J., Alm, N., Dye, R., Astell, A., and Ellis, M.: Designing a multimedia conversation aid for reminiscence therapy in dementia care environments, Extended abstracts of the 2004 conference on Human Factors and Computing Systems (2004) 825 - 836. 安田ほか:認知症者への思い出写真ビデオの作成と集中度の評価。第28回高次脳機能障害学会総会(2004) http://en.wikipedia.org/wiki/Ken_Burns
Lund, D.A., Hill, R.D., Caserta, M.S., and Wright, S.D.: Video Respite: an innovative resource for family, professional caregivers, and persons with dementia, The Gerontologist, Vol. 35, Issue 5 (1995) 683-687. Gowans, G., Campbell, J., Alm, N., Dye, R., Astell, A., and Ellis, M.: Designing a multimedia conversation aid for reminiscence therapy in dementia care environments, Extended abstracts of the 2004 conference on Human Factors and Computing Systems (2004) 825 - 836. 安田ほか:認知症者への思い出写真ビデオの作成と集中度の評価。第28回高次脳機能障害学会総会(2004) http://en.wikipedia.org/wiki/Ken_Burns
視聴者に飽きられない魅力的な思い出ビデオを作成するために、どのような映像効果、あるいはオーディオ効果が加えられるべきかを明確にする必要がある。そのため発明者等は、3つの代表的な効果、すなわち前述のケンバーンズ効果、BGM、およびナレーションに対して、それらの有効性を評価するための、以下のような実験を実施した。
上記のすべての効果を使用した思い出ビデオと、それら効果の1つを除外したビデオを、3人の認知症者のために用意した。それぞれのビデオの長さはおよそ20分である。2週間の実験期間中に介護家族には、毎日1回、映像効果、オーディオの効果を変え、上記すべてのタイプのビデオを認知症者が視聴するように依頼した。認知症者がビデオに飽きた場合には、ビデオを別のタイプに変えるように依頼した。介護家族には、認知症者がどの程度の長い間、そのタイプのビデオを視聴したか、またどの程度集中してそれを視聴したか、「1」から「5」の尺度で介護家族の主観で評価し記録してもらった。実験期間が終わった後に、介護家族のニーズを調査するために、インタビューも実施した。
その結果、以下のような知見が得られた。
その結果、以下のような知見が得られた。
(1) ナレーションは、魅力的な思い出ビデオに非常に有効である。
(2) 写真中のよく知った人々の顔に対して、ズームアップすることも不可欠である。
(3) さらに、ナレーションとズームが連動していることが重要である。すなわち、ナレーションが写真中の特定の人に関するものなら、ナレーションはその人のズームアップの際に付与されなければならない。
このように、思い出ビデオは認知症者の安定した精神状態を形成する上で有効性が確認されているが、特に、ナレーションは重要な要素である。
しかしながら、思い出ビデオのナレーション付与には、煩雑な作業が必要であり、一般の介護者が簡単に行えるものではない。
それゆえに、この発明の主たる目的は、新規な、ビデオコンテンツ作成装置を提供することである。
この発明の他の目的は、たとえば、適切なナレーションを付与したビデオコンテンツを作成できる、ビデオコンテンツ作成装置を提供することである。
請求項1の発明は、複数の写真をナレーションとともに視聴者に提示できるビデオコンテンツを作成するための装置であって、写真画像データを入力する写真データ入力手段、写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、写真画像データを関連するメタ情報とともに格納する記憶手段、メタ情報を用いて記憶手段から写真画像データを検索する検索手段、および検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、生成手段は、メタ情報に基づいて視聴者の視点に従ったナレーションテキストを作成するナレーションテキスト作成手段、およびナレーションテキストに従った音声データを写真画像と関連して記憶手段に登録する音声データ登録手段を含む、ビデオコンテンツ作成装置である。
請求項1の発明では、たとえばイメージスキャナなどを含む写真データ入力装置(20:実施例で相当する部分または要素を例示する参照符号。以下同様。)から、写真画像データをコンピュータ(12)に入力する。コンピュータ内にはその写真画像データにメタ情報を付与するための手段、たとえばDublin Core、Image Regions、FOAFなどを設けておく。これらのメタ情報付与手段によって、入力した写真画像データに関連するメタ情報を付与して、コンピュータは、写真画像データを関連するメタ情報とともに記憶手段(22)に格納する。検索手段(12、S2)が、メタ情報を用いて記憶手段か写真画像データを検索する。生成手段(12、S6)は、その検索した写真画像データを、メタ情報に従って編集することによって、たとえばRVML形式で、スライドショーのようなビデオコンテンツを生成する。ここで、生成手段に含まれるナレーション作成手段(12、S7)は、メタ情報に従ってナレーションテキストを作成する。この場合、ナレーションテキストは、このビデオコンテンツを視聴する視聴者からの視点でのナレーションテキストとして作成される。そして、音声データ登録手段(12、S53、S55)は、そのナレーションテキストに従った音声データを取得し、または作成し、その音声データを写真画像データと紐付けして、つまり、関連して記憶手段に登録する。上記写真が認知症者(視聴者)の昔の写真であれば、ビデオコンテンツは思い出ビデオと呼べる。
請求項1の発明によれば、メタ情報を用いて写真画像データを編集するので、ビデオコンテンツの製作にあまり慣れていなくても、たとえば認知症者の昔の写真を用いて、比較的簡単に、思い出ビデオのようなビデオコンテンツを作成することができる。しかも、ナレーションの視点を視聴者の視点とすることによって、ビデオコンテンツに対して、違和感のない適切なナレーションを付与することができる。したがって、適切なナレーションによって思い出ビデオを観る認知症者の興味や集中力を持続させ易く、思い出ビデオの効果の一層の向上が期待できる。
請求項2の発明は、写真画像には視聴者およびその視聴者の少なくとも1人の関係者が含まれ、メタ情報は視聴者と少なくとも1人の関係者との関係を記述しており、生成手段は、関係に基づいて少なくとも1人の関係者の視聴者の視点からの関係を計算する計算手段を含み、ナレーションテキスト作成手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および視聴者の視点からの関係に基づいて単語を決定する単語決定手段を含み、単語決定手段で決定した単語をナレーションパターンの単語に当てはめることによって、ナレーションテキストを作成する、請求項1記載のビデオコンテンツ作成装置である。
請求項2の発明では、ナレーションパターン設定手段(12、22、表4)によって、基本的には名詞である少なくとも1つの単語を含むナレーションパターンを設定しておき、計算手段で求めた直接の関係(たとえば、視聴者から見た息子、あるいは視聴者からみた部下のような)に基づいて単語決定手段によって決定した単語を、ナレーションパターン中の単語に割り当てることによって、ナレーションテキストを作成する。
請求項3の発明は、関係者は血縁者であり、関係は血縁関係である、請求項2記載のビデオコンテンツ作成装置である。
請求項3の発明のように血縁関係を記述するようにすれば、視聴者からの各血縁関係者への視点が明確になる。
この発明によれば、たとえば認知症者の過去の写真にメタ情報を付与し、そのメタ情報を利用して写真画像を編集することによって、思い出ビデオのようなビデオコンテンツを作成する場合、写真中の視聴者との関係(メタ情報のうち、たとえばfoaf:PersonのRELATIONSHIPで記述される)に基づいて視点変換を行うので、視聴者にとって適切なナレーションがふよされたビデオコンテンツを製作することがでる。
この発明の上述の目的、その他の目的、特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。
図1を参照して、この実施例のビデオコンテンツ作成装置10は、コンピュータ12を含む。このコンピュータ12としては、パーソナルコンピュータやワークステーションが利用可能である。
コンピュータ12にはハードディスクやRAMのような内部メモリ14が設けられていて、その内部メモリ14には、メタ情報を入力するためのツールとして、たとえば、DublinCore(http://dublincore.org)、ImageRegions(http://www.w3.org)、FOAF (http://www.foaf-project.org)、Jena2(2.1)(http://jena.sourceforge.net)などが設定されている。これらはいずれも、写真画像データに関連するメタ情報を入力または登録もしくは付与する手段として機能する。
ここで、メタ情報とは、データに関する構造化した情報を意味し、実施例の場合、取り扱う写真画像データの詳細を構造的に記述する情報である。このようなメタ情報を付与することをアノテーション(annotation)という。
Dublin Coreはメタ情報を取り扱う代表的なツールとして知られていて、さらに、写真中の人物の顔やオブジェクトの領域(以後、「リージョン」と呼ぶ。)を複数個指定し、これをメタ情報として保持するためにImage Regionsを利用する。リージョンが人の場合
には、FOAFを利用して人のメタ情報を付与する。リージョンは静止画である写真に対して、そこへのズーム、リージョン間のパンといったエフェクトを加えるために用いる。メタ情報をRDFの形式でデータベースに格納するために、Jena2(2。1)を使用する。
には、FOAFを利用して人のメタ情報を付与する。リージョンは静止画である写真に対して、そこへのズーム、リージョン間のパンといったエフェクトを加えるために用いる。メタ情報をRDFの形式でデータベースに格納するために、Jena2(2。1)を使用する。
コンピュータ12は図示しないが、グラフィックボードまたはプロセサやサウンドボードまたはプロセサを内蔵していて、それらを通して、GUI画面や他のグラフィックス(映像)がモニタ16に表示されるとともに、スピーカ18からBGM(バックグラウンドミュージック)などの音声が出力される。
コンピュータ12にはさらに、写真データ入力装置20が接続される。この写真データ入力装置20は、イメージスキャナ、ディジタルカメラ(デジカメ)、インターネット(Web)などの少なくとも1つを含む。イメージスキャナは、認知症者の過去の写真をスキャンしてカラーまたはモノクロの写真画像データを入力する。デジカメはリアルタイムで撮影した写真画像データを入力できる他、過去の写真を撮影してそれらの写真画像データを入力するという使い方もできる。インターネットは、遠隔地から送信される認知症者の過去の写真の写真画像データを入力し、さらには必要に応じて認知症者の過去にまつわる事象の写真画像データを取り込むために使用できる。さらに他の種類の写真データ入力装置が用いられてもよい。
さらに、コンピュータ12には、インタフェース24を介してデータベース22が結合される。この実施例では、データベース22にはPostgreSQL7.4(http://www.postgresql.org)というリレーショナルデータベースを用いる。
なお、図示していないが、コンピュータ12は当然、キーボードやマウスなどの入力手段を持っている。
図1の実施例のビデオコンテンツ作成装置10を用いて思い出ビデオを作成するためには、コンピュータ12などは図2に示す手順で動作する。
まず、ステップS1で、思い出ビデオに使用する可能性のある写真画像データを入力するとともに、各写真に対してアノテーションを付与する。具体的には、図1の写真データ入力装置20を用いて、主として、当該認知症者の過去の写真の写真画像データをコンピュータ12に入力する。
このとき、図3に示すGUI(Graphical User Interface)画面26がモニタ16に表示される。このGUI26は、モニタ画面の左方の大部分を占める、写真表示編集領域28を含む。この写真表示編集領域28は、そこに入力した写真画像データの写真を表示し、さらには、リージョンを指定するなどの編集作業のために利用される。GUI26は、モニタ画面の右方に形成されるサムネイル表示領域30を含む。サムネイル表示領域30には、入力しかつ後述のようにして検索した写真画像データから使用する写真を選択するためにサムネイル画像を表示する。
GUI26には、モニタ画面の下方に形成される、第1メタ情報入力領域32、モニタ画面のほぼ中央に形成される第2メタ情報入力領域34、およびモニタ画面の右下方に形成される再生順設定領域36が設けられる。メタ情報入力領域32には、領域28に表示もされている写真全般に関わるDublin Core で定義されたメタ情報を入力する。また、メタ情報入力領域34はポップアップ形式で入力時に現れる領域であり、それを用いて、FOAFを利用してリージョンが人の場合のメタ情報を入力する。そして、再生順設定領域36は、思い出ビデオに取り込んだ写真を再生する順番を設定するために利用され、後に説明するように、ドラッグアンドドロップで順番を入れ替えることができる。
ステップS1での写真入力およびメタ情報登録について、具体的に説明する。図4を参照し、今、写真データ入力装置20から図4に示すような写真(図面では線画であるが、実際は写真である。他の図面でも同様。)の写真画像データが入力されると、コンピュータ12は、モニタ16のGUI26の写真表示編集領域28にその画像データで表される写真(静止画)を表示する。それとともに、コンピュータ12は、その写真のサムネイル画像をサムネイル表示領域30に表示する。
そして、図示しないマウス等を利用して、その写真中で2つのリージョン、リージョン1およびリージョン2を設定すると、図5に示すように、写真表示編集領域28中に、リージョン1およびリージョン2をそれぞれ特定する矩形枠29aおよび29bが表示される。このようなリージョン1およびリージョン2を指定すると、Image Regionsで定義される形式で、図6に示す各リージョンのメタ情報が設定される。つまり、リージョン1の原点(矩形枠の左上の角)の座標(x11、y11)およびそれの対角の座標(x12、y12)が登録され、さらにそのリージョン1の高さh1および幅w1もメタ情報として登録される。同様に、リージョン2についても、原点座標、対角座標、高さ、および幅が、それぞれ、x21、y21、x22、y22、h2、およびw2として登録される。
このようにしてステップS1で写真を入力し、メタ情報を登録すると、たとえば図7に示すようなデータベースができる。この図7では右に、図5に示した、実際の写真が表示されリージョンが指定されている写真表示編集領域28が描かれている。そして、楕円形の中に「dc:」とあり、それに関連する矩形の中のデータが、Dublin Coreで登録したメタ情報である。たとえば「dc:date」では日付「20040716(2004年7月16日)」が、「dc:title」では名称「at Disney Animal Kingdom(ディズニー動物王国にて)」が、「dc:description」では説明文「They are very happy.(彼等は非常に楽しそう)」がメタ情報として登録される。
楕円形のなかに「imgReg:」とあるメタ情報は、Image Regionsでリージョンを指定したときのメタ情報である。「imgReg:has region」はリージョンが設定されていることを示すメタ情報であり、「imgReg:Rectangle」はリージョンが矩形であることを示し、「imgReg:regionDepict」はリージョンの説明で、「imgReg:boundingBox」はリージョンの原点位置とサイズ(高さh、幅w)とを含む。「imgReg:coords」はリージョンの原点位置および対角位置の座標である。
また、「foaf:gender」で与えられるメタ情報は、リージョンが人である場合の性別(例示では「female(女)」)であり、「foaf:name」で与えられるメタ情報は名前(例示では「Haruka(はるか)」)であり、「foaf:Person」で与えられるメタ情報はViewer(この思い出ビデオを観る人)と写真に写った人との関係を示し、例示では、「孫(grandchild)」であることがわかる。
なお、図7に示す各メタ情報は、それぞれ以下に示される。
xmlns:imgReg=“http://www.w3.org/2004/02/image-regions#”
xmlns:foaf=“xmlns.com/foaf/0.1”
xmlns:dc=“http://purl.org/dc/elements/1.1/”
このようにして、図2のステップS1で写真入力と、メタ情報登録が行なわれると、コンピュータ12は、その写真と、それに付与したメタ情報とをデータベース22に格納する。なお、上の説明では1枚の写真とそれのメタ情報について説明したが、入力装置20で写真画像データを入力する都度、同じようにして、図7に示すようなメタ情報が登録され、そのメタ情報を付与した写真データがデータベース22に格納される。
xmlns:foaf=“xmlns.com/foaf/0.1”
xmlns:dc=“http://purl.org/dc/elements/1.1/”
このようにして、図2のステップS1で写真入力と、メタ情報登録が行なわれると、コンピュータ12は、その写真と、それに付与したメタ情報とをデータベース22に格納する。なお、上の説明では1枚の写真とそれのメタ情報について説明したが、入力装置20で写真画像データを入力する都度、同じようにして、図7に示すようなメタ情報が登録され、そのメタ情報を付与した写真データがデータベース22に格納される。
ステップS1では、さらに、さらにナレーションについてもアノテーションを付与してデータベース化した。つまり、前にも述べたように、思い出ビデオにとってナレーションが重要であるが、ナレーション付与は、非常に手間がかかる作業である。したがって、この実施例では、ナレーション付与作業の時間短縮のため、数千の典型的なナレーションテキストと、それらに対応する音声データとを含む、ナレーションデータベースを構築し、データベース22(図1)に登録した。
後に詳細に説明するように、典型的なナレーションテキストは、日本語の文法に基づいた簡単な規則を使用して作成した。典型的なナレーションテキストは、その規則に対して、副詞、形容詞、および幾つかの名詞の組み合わせを与えて生成した。また、これらの語は、ナレーションのアノテーションに使用し、これらの語の組み合わせは共起確率に基づいて決定した。そして、音声合成技術を使って、またはプロのナレーターがそれらを読み上げて音声データを作成し、それをデータベース化し、同じくデータベース22に登録した。
このとき、ビデオ製作者が、何千ものナレーションデータから、全ての写真の、全ての写真中の人物に対して、最も適切なナレーションを容易に選択できるようにするために、この実施例では、ナレーションと写真の両方のアノテーションを関連付けてナレーションデータを絞り込むようにしたので、ビデオ製作者は、絞り込まれたナレーションから適切なものを選択するだけで、ナレーションデータの設定が可能である。
図8はナレーションに付与されたアノテーションの例である。ナレーションのアノテーションには独自のボキャブラリーを定義した。図8でnaはこのボキャブラリーのネームスペースを表す。”Narration1.wav”のナレーションテキストは、na:textによって指定される。そして”Narration1.wav”はna:keywordによって指定される、幾つかのインスタンスを指す。図中の左のインスタンスはナレーションテキストに関連する人を示す。それはna:referToによりfoaf:Personのインスタンスを指している。一方、右側のインスタンスは、その人がどのように見えるかを示しており、dc:descriptionが当該のナレーションテキストを作る際に使用した語を示している。
その後、図2のステップS2では、ステップS1で入力した写真のうち、そのとき使う写真を検索し、使用する写真の組を選択する。ただし、写真の検索では、上で説明したメタ情報が利用される。メタ情報を利用した写真の検索条件としては、たとえば、以下のものが利用できる。
まず、FOAFではリージョンの種類が人であるとき、その人を特定するメタ情報を付与するのであるから、このFOAFのメタ情報を利用して、「特定の人物の写っている写真」を検索することができる。複数の人物を同時に検索できるが、この場合には、検索した名前の全員が写っている写真が対象となる。
Dublin Coreのメタ情報を利用する場合には、「撮影年月日」で検索できる。たとえば、「From (第1指定日)〜To(第2指定日)」で第1指定日以降第2指定日以前に撮影した全ての写真が検索できる。「From (指定日)」でその指定日以降に撮影した全ての写真が検索できる。同様に、「To(指定日)」でその指定日以前に撮影した全ての写真が検索できる。また、「特定のプロパティに特定の値が含まれている写真」を検索できる。たとえば、「dc:title」に「Disney」の文字が含まれる写真など。ただし、複数同時に選択または検索可能であるが、複数選択時には、設定された検索条件を同時に充足する写真だけが対象となる。
そして、検索した写真から実際に使用する写真の組を選択する場合、その組の複数の写真の再生順序を指定または決定する。再生順を設定するためには、たとえば、図9のようなGUI26において、サムネイル表示領域30に表示されるので、その一覧画像の中の写真を再生順序設定領域36にドラッグアンドドロップすることによって、選択した写真の再生順を設定することができる。ただし、ここでは、その具体的な詳細は省略する。
このステップS2で使用する写真の組を選択したとき、好ましくは、それらの写真の各々に優先順位を付与しておく、この優先順位は、思い出ビデオに使用したい順位のことである。たとえば後に説明するように、思い出ビデオ全体の総時間数がたとえば20分とか30分とか限られているとき、映像効果やナレーションに必要な時間を計算すると写真の枚数を減らさざるを得ないとき、最も低い優先順位の写真から除いていく作業をする。
つづいて、図2のステップS3で、写真の再生時に流すBGMおよびナレーションを選択する。この実施例では、たとえばMP3形式の楽曲ファイルをサポートしていて、その中からBGMとして使う楽曲をプレイリストとして登録すれば、BGMがそのプレイリストに沿って、再生されるようにしているが、BGMについてはここではこれ以上の説明は省略する。
次に図2のステップS4では、プレビューをするかどうか判断する。写真の選択などをすべて終えたときにこのステップS4で“YES”が判断されることになるが、そうでないときには、“NO”と判断され、ステップS2やステップS3に戻って作業を続ける。つまり、図2の各ステップS1−S4はそれぞれ、メニューでの選択によって、任意の時間に任意の作業量で何回も実行可能であるので、製作者は、時間のあるときに、必要なだけ必要な作業を行なえばよい。いずれの場合にも、前回までの作業の結果はデータベース22に格納されているので、今回の作業では、まず、データベース22から前回までのデータを読み出し、その後それに続行した処理またはそれを変更する処理を行う。
そして、ステップS4で“YES”を判断したときには、続くステップS5で、セマンティクスを考慮したメディア同期の手法に則り、ケンバーンズ効果、BGMおよびナレーションを付与することによって、たとえばRVML形式の思い出ビデオをレンダリングする。
なお、「RVML」とは、swfを完全に表現できるように設計されたXMLの一種であり、すべてのバージョンのswf動画はRVMLとして表現できる。ただし、swfは、Flashのバージョンやフレームレートなどの情報を持つファイルヘッダを除くと、基本的にはタグの列だけである。たとえば、定義タグで図形を定義し、操作タグでその図形をフレームに配置し、表示タグで現在のフレームを画面に描画する、というパターンが1フレームに相当し、これを繰り返す。
そして、生成されたRVMLは、RVMLからFlashツールであるKineticFusion(http://www.kinesissoftware.com)を使用すれば、Flashムービー形式の思い出ビデオが作成できる。
図2のステップS5は、具体的には、図10に示す手順で実行される。最初のステップS11では、コンピュータ12は、まず、BGMとしてのプレイリスト(図示せず)の楽曲の再生を開始する。以後、楽曲は、そのプレイリストに沿って、順次切り替わり、かつ連続的に再生される。つまり、コンピュータ12は、プレイリストに登録した楽曲データを読み出し、それをサウンドボードまたはプロセサで処理させることによって、スピーカ18(図1)から、当該プレイリストの楽曲が音声として再生される。
次のステップS13では、コンピュータ12は、モニタ16の表示画面に形成されたGUI26の写真表示編集領域28(図3)の幅をSw、高さをShとして設定する。
ついで、ステップS15で、コンピュータ12は、写真個数nをインクリメント(n=n+1)する。そして、次のステップS17では、再生順設定領域36(図9)に挙げられたn番目の写真がフェードイン態様で、表示編集領域28に表示される。つまり、コンピュータ12は、データベース22(図1)から再生順のn番目の写真とそれに付随するメタ情報(アノテーション)とを読み出し、n番目の写真を表示する。ただし、最初はn=1であるので、1番目の写真がフェードイン表示される。
そして、次のステップS18において、コンピュータ12は、その写真についてナレーションが付与されているかどうか判断し、既にナレーションが付与されて登録されている場合には、このナレーションをステップS19で再生する。したがって、このステップS19において、既登録のナレーションが確認できる。
ただし、ナレーションが未だ付与されていないときには、その後、ステップS20での一定時間のポーズの後、次のステップS21で、コンピュータ12は、そのn番目の写真にリージョンが指定されているかどうか、たとえばImage Regionsのメタ情報があるかで判断する。リージョンが指定されているなら、次のステップS23で、コンピュータ12は、リージョン番号mをインクリメント(m+1)する。そして、ステップS25で、m番目のリージョンのImage Regionsのメタ情報を参照する。このメタ情報に、m番目のリージョンの位置データやサイズデータが含まれる。したがって、次のステップS27で、コンピュータ12は、そのようなメタ情報および先に設定した表示領域の高さShおよび幅Swを利用して、m番目のリージョンを、領域28の中央に位置合わせする。
一例として、そのリージョンの幅をw1、高さをh1とすると、拡大率をmin[Sw/w1、 Sh/h1]として、そのリージョンがちょうど表示画面28の中央に収まるまで、1フレームずつ、表示画面28に対して写真画像を横軸にdX、縦軸にdY移動し、dZ分拡大して表示する。
ただし、このステップS27では、そのリージョンの画像を表示領域の中央に位置合わせするだけでなく、たとえば、左上、右下など他の位置に位置合わせするようにしてもよい。
その後、ステップS29でのポーズの後、次のステップS31で、コンピュータ12は、残りリージョンがなくなったかどうかを判断する。つまり、Image Regionsのメタ情報からリージョン個数がわかるので、このステップS31では、ステップS23でインクリメントした結果がそのリージョン個数に等しくなったかどうか判断すればよい。
残りリージョンがあれば、次のステップS32において、コンピュータ12は、表1に示す識別子RT−1、RT−2およびRT−4で示される映像効果A−1、A−2を付与する。
ここで、映像効果について説明する。発明者等は、映像編集の経験のある複数のクリエータ(製作者)に、写真から思い出ビデオに変換する際に付加できる映像効果(各写真に付与したエフェクト、写真間のトランジション)について、どのようなものが想定できるか、聞き取り調査した。その結果は、以下のA-1〜A−3およびB−1〜B−5であった。
(A) エフェクト
A-1:写真中の人物の顔を含む矩形領域(以下、リージョンと呼ぶ)に対するズームアップ、パンという、いわゆるケンバーンズ(Ken Burns)効果。
A−2:パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインする。
A−3:カラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていく。
(B)トランジション
B-1:前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバ
ーラップさせる。
B-2:次の写真をスライドインさせる。
B-3:前の写真をディゾルブして次の写真に遷移する。
B-4:前の写真をページピール(右下隅から捲り上げるような効果)して次の写真に遷
移する。
B-5:前の写真を中心の縦軸で回転させて、次の写真に遷移する。
(A) エフェクト
A-1:写真中の人物の顔を含む矩形領域(以下、リージョンと呼ぶ)に対するズームアップ、パンという、いわゆるケンバーンズ(Ken Burns)効果。
A−2:パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインする。
A−3:カラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていく。
(B)トランジション
B-1:前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバ
ーラップさせる。
B-2:次の写真をスライドインさせる。
B-3:前の写真をディゾルブして次の写真に遷移する。
B-4:前の写真をページピール(右下隅から捲り上げるような効果)して次の写真に遷
移する。
B-5:前の写真を中心の縦軸で回転させて、次の写真に遷移する。
上記の結果を踏まえて、表1に示すような思い出ビデオをレンダリングするためのテンプレートを作成した。表1の「使用された情報」に挙げた項目を写真に付与すべきアノテーションとし、アノテーションオントロジ(ontology)として設計した。アノテーション付与の枠組みとして、セマンティクWeb(これは、検索性能の向上や利便性を高める次世代Web技術で、「メタ情報(内容を説明する付加情報)」と「オントロジ(メタデータを記述する用語の定義)」という2つの技術を用いる。)の枠組みを用いた。すなわち、アノテーションは、RDF(Resource Description Framework)で記述される。これは、将来的には他人がアノテーションした写真を自分や家族の思い出ビデオに利用するような情報交換を考えたとき、Webとの親和性を考慮したためである。
さらに、発明者等は、既存のボキャブラリーを可能な限り利用するという方針をたて、図1実施例のための実験では、撮影された日付や出来事に関しては、書誌情報に関する標準的なボキャブラリーである上述のDublin Coreで記述した。また、写真中の人物の情報を記述するためには、人の情報を記述するための標準的なボキャブラリーである上述のFOAFを用いた。そして、写真中の人物領域を記述するためには、上述のImage Regionを使用し、写真の色調はExif(http://it.jeita.or.jp/document/publica/standard/exif/english/jeida49e.htm参照)の色空間情報から取得できる。また、写真中の人物(被写体)との関係については、FOAFでknowsプロパティが定義されているが、思い出ビデオ作成においては本人(視聴者)と被写体(関係者)との間柄をより詳細に定義する必要があるため、FOAFのknowsの属性を拡張して定義されたRELATIONSHIP(http://vocab.org/relationship/参照)を利用した。これを用いて、親子関係、親戚関係などを記述した。そのサンプルが先の図7に示される。
さらに、表1に挙げたエフェクト、トランジションに対して、思い出ビデオ作成に用いる映像効果のオントロジを表2のように定義した。
そして、写真のアノテーションから映像効果への変換ルールを記述し、テンプレートとして使用する。表3に、表1の「RT−8」のレンダリングテンプレートの表現例を示す。ただし、表1に示す他の識別子に付いても同様にテンプレートを作成しておくものとする。
ここでは、レンダリングテンプレート自身もRDFのステートメントとして記述し、上述のRDQLを用いて、レンダリングテンプレートを検索することを想定している。なお、レンダリングオントロジについては、インタオペラビリティ(相互操作性)の必要性は低いため、別の独自形式を定義してもよい。
ステップS32に戻って、具体的には、コンピュータ12は、図7のようなメタ情報のうち、リージョン座標値(imgReg:coords)およびリージョン境界値(imgReg:boundingBox)から、複数のリージョン間間隔、X方向(横方向)間隔およびY方向(縦方向)間隔を算出する。そして、それらのリージョン間間隔が所定の閾値以上か以下かを判別する。そして、X方向(横方向)間隔およびY方向(縦方向)間隔のいずれかが閾値以下のときには、ケンバーンズ効果を使用するべく、写真中の人物の顔を含むリージョンに対するズームアップをした後、次のリージョンへパンさせる。逆に、X方向(横方向)間隔およびY方向(縦方向)間隔のいずれかが閾値以上のときには、パンの代わりに、ズームアップされたリージョンをフェードアウトして、次のリージョンをフェードインさせる。
また、図7に示すfoaf:personで示す被写体情報が、視聴者に思い出深い被写体であると、その被写体のリージョンだけにズームアップをし、その後、リージョン間間隔に応じたパンかフェードアウト、フェードインからの処理を行う。
ただし、このステップS32において識別子RT−1、−2および−4のような映像効果をA−1およびA−2を自動的に付与するためには、表3で例示した変換テンプレートが用いられる。
その後、先のステップS23に戻り、ステップS23−S32を繰り返し実行する。
ステップS31で“NO”なら、つまり、写真リスト欄38でn番目のその写真の全てのリージョンの処理が終わったなら、次のステップS33で、コンピュータ12は、n番目の写真を写真表示編集領域28からフェードアウトさせる。
続いて、ステップS35において、コンピュータ12は、処理すべき写真の残りがなくなったかどうかを判断する。つまり、図9で示される写真リスト中の写真の数は予め判っているので、このステップS35では、ステップS15でインクリメントした結果がその枚数に等しくなったかどうか判断すればよい。
写真が未だ残っていれば、次のステップS36において、コンピュータ12は、表1に示す識別子RT−3、RT−5、RT−6、RT−7およびRT−8で示される映像効果A−3やB−1およびB−5を付与する。
具体的には、コンピュータ12は、メタ情報のうち、図7には図示していない、写真の色調のメタ情報を前述のExifの色空間情報から取得し、その色情報が、前の写真がモノクロで今回の写真がカラーのような色変化を示しているかどうか判断する。色変化情報があれば、コンピュータ12は、今回のカラー写真をまずモノクロ調に表示した後、徐々にカラー表示に遷移させていくという映像効果を付与する。
また、コンピュータ12は、図7に示すメタ情報のうち、撮影日(date)のデータを取得し、前の写真と今回の写真との間の年代差を算出する。そして、その年代差が所定の閾値以上か以下か判別する。前の写真との間の年代差が閾値以下のときには、コンピュータ12は、前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる、という映像効果を付与する。前の写真との間の年代差が閾値以上のときには、コンピュータ12は、前の写真を中心の縦軸で回転させて、今回の写真に遷移する、という映像効果を付与する。
さらに、コンピュータ12は、図7に示すメタ情報のうち、撮影日や出来事(title)を参照して、シナリオが一貫しているかどうか、判断する。これは、たとえば、写真が年代順に取り込まれているか、とか同じ年代であれば季節の順序に従っているかなどを判断すればよい。そして、シナリオが一貫していると判断したときには、前の写真をフェードアウトしながら次の写真をフェードインし、それらをオーバーラップさせる、という映像効果を付与する。
さらに、上述のようにして算出した写真の年代差が所定の閾値以下ではあるが、かつシナリオの転換点であるような場合、たとえば、進学した、結婚した、子供が生まれた、などのような場合には、コンピュータ12は、前の写真を中心の縦軸で回転させて、今回の写真に遷移する、という映像効果を付与する。
ただし、このステップS36での映像効果を自動的に付与するためには、表3で例示した変換テンプレートが用いられる。
なお、先のステップS35で写真残数があると判断したときには、先のステップS15に戻り、ステップS15−S36を繰り返し実行する。ステップS35で“NO”なら、コンピュータ12はステップS37でBGMを停止し、終了する。
このようにして、図10のフロー図に従って、写真画像データをそれに関連するメタ情報を用いて編集しさらには映像効果付与することによって、一連のビデオコンテンツ(思い出ビデオ)が生成(レンダリング)されるが、この映像効果付与と同時並行して、またはそれに続いて、ナレーション付与を行う。
ナレーション付与を実行するに際しては、図4に示すGUI26に形成されるナレーションボタン38を操作する。ユーザは、生成したスライドショーにナレーションを付与する必要があるとき、マウス(図示せず)でこのナレーションボタン38をクリックする。そうすると、図11に示すように、GUI26のほぼ中央に、写真表示編集領域28その他にオーバーラップする形で、ナレーション作成領域44が、ポップアップ形式で表示される。
このナレーション作成領域44には、ナレーション候補テキスト表示領域46が形成される。ナレーション候補テキスト表示領域46は、後に説明するように、メタ情報から取得したキーワードもしくはユーザが入力したキーワードに基づいてコンピュータ12がナレーション候補テキストを作成したとき、そのナレーション候補テキスト(文)を表示するための領域である。このナレーション候補テキスト表示領域46に関連して、OKボタン48が配置される。このOKボタン48は、ナレーション候補テキスト表示領域46に表示されたナレーションテキスト文を選択するかどうかを指示するためのものであり、表示されているナレーション候補を使用するならそれをクリックすればよい。
ただし、ナレーション候補テキスト表示領域46には、1つだけの候補ではなく、複数の候補が一度に表示されるようにしてもよく、その場合には、ユーザは、その領域46を直接クリックして1つまたは複数のナレーションテキストを選択するようにすればよい。
ナレーション候補テキスト表示領域46の下方には、指示ボタン50が形成される。たとえば、コンピュータ12が適当なナレーション候補テキストを作成できなかったような場合に、ユーザが適当なキーワードを手動で入力するときにこの指示ボタン50をマウスでクリックする。そうすると、その下のキーワード入力領域52が有効化される。したがって、ユーザは図示しないキーボードを使用してキーワードを入力することができる。このキーワード入力領域52は、好ましくは、図11に示すように、カテゴリ毎にキーワードを入力することができるように、複数(この実施例では5つ)のカテゴリに区分けされている。この入力領域52を見れば、ユーザは、意図したキーワードが入力されたかどうか確認することができる。そして、意図どおりのキーワードを入力していることを確認したとき、ユーザは、入力領域52の右にあるOKボタン54を操作すればよい。それによって、キーワード入力が終了できる。
キーワード入力OKボタン71の右には、終了ボタン56が設定される。この終了ボタン72は、ナレーション付与作業を終了するときに操作する。
このようにして、ナレーション付与ボタン38を操作することによって、GUI26が図11に示す状態となり、その状態で、図12に示すナレーション付与動作を実行することができる。
図12の最初のステップS41で、コンピュータ12は、ナレーションを付与すべき写真が選択されたかどうか判断する。ユーザが写真を選択するためには、先に説明したように、サムネイル表示領域30に表示されたサムネイル画像をクリックすればよい。そして、コンピュータ12は、サムネイル表示領域30での操作によってステップS41で写真が選択されたと判断すると、次のステップS43において、選択したサムネイル画像で表される写真を、写真表示編集領域28に表示する。ただし、このときGUI26はナレーション作成領域44がその写真表示編集領域28にオーバーラップした「ナレーション付与モード」になっているので、この領域28で写真の編集をすることはできない。
次のステップS45において、コンピュータ12は、先に述べた方法で登録されているメタ情報を取得し、次のステップS47で、そのメタ情報からキーワードを抽出する。そして、ステップS49において、コンピュータ12は、そのキーワードに基づいて、ナレーション候補テキストをナレーション候補テキスト表示領域46に表示する。
ここで、ナレーション候補の生成方法について、説明する。
この実施例のシステム10では、コンピュータ12の内部メモリ(図示せず)またはデータベース22(図1)に、表4に示すような、典型的なナレーションパターンを予め設定しておく。その意味で、これら内部メモリおよび/またはデータベース22がナレーションパターン設定手段として機能する。そして、この表4に示す単語X1‐X5を、メタ情報から抽出したキーワードに基づいて当てはめることによって、ナレーションテキストを自動生成する。
ただし、単語X1‐X5の与え方は、一例として、表5に従う。
たとえば、表4の第1パターン「X1ですね(orですか)」や第2パターン「これはX1ですね(orですか)」を使うときには、単語X1には、人、物、場所、時候のいずれかである名詞2を当てはめる。ただし、その名詞2にも何種類かあり、それが{([副詞]+形容詞)または(名詞1+の)+名詞2}で表されている。これを分解すると、単語X1に当てはめられる単語は、「形容詞+名詞2」(たとえば、「きれいな」)、「副詞+形容詞+名詞2」(たとえば、「大変きれいな花」)、「形容詞+名詞1の名詞2」(たとえば、「きれいな庭の花」)、「副詞+形容詞+名詞1の名詞2」(たとえば、「大変きれいな庭の花」)、そして「名詞1の名詞2」(たとえば、「庭の花」)のいずれかとなる。
表4の第3パターン「X2とX3しましたね(orしましたか)」を使うときには、単語X2には、人である名詞2を当てはめる。ただし、そのX2の場合の名詞2は、第1パターンや第2パターンのときと同様に、{([副詞]+形容詞)または(名詞1+の)+名詞2}で定義され得る。また、単語X3には、行為である名詞2を当てはめる。このときの名詞2は、{([副詞]+名詞2)}で定義される。つまり、副詞が付いたか、付かない名詞2(行為)(たとえば、「楽しく旅行」または「旅行」)である。
表4の第4パターン「X4でX3しましたね(orしましたか)」を使うときには、単語X4には、場所である名詞2を当てはめる。ただし、その名詞2には、上述の場合と同じく、{([副詞]+形容詞)または(名詞1+の)+名詞2}で定義される。なお、単語X3については上述のとおりである。たとえば、場所としては、「遊園地」、「デパート」などが例示できる。
表4の第5パターン「X5でX3しましたね(orしましたか)」を使うときには、単語X5には、時候および/または場所である名詞2を当てはめる。ただし、その名詞2には、上述の場合と同じく、{([副詞]+形容詞)または(名詞1+の)+名詞2}で定義される。時候としては、春夏秋冬、何月などが例示できる。なお、単語X3については上述のとおりである。
さらに、上記において、名詞2に与える単語は、一般名詞の概念構造から、ナレーションに使用するのに粒度として適当なものを選択して用いる。そして、副詞、形容詞、名詞1については、その名詞2と適合するものを割り当てる。ただし、この「適合」については、図示しないが、適合表を作成し、名詞2を決定した後、その適合表を参照して副詞、形容詞、名詞1を採用する。
このような表1のナレーションパターンのX1−X5に表2のように定義できる単語を当てはめる訳であるが、実施例では、この「単語」を、写真に付加したメタ情報から取得しようとするものである。
図14および図15には、実施例において単語決定手段として機能するシソーラス辞書58および共起辞書60が図解される。このようなシソーラス辞書58や共起辞書60は、ともに、データディクショナリ(データ辞書)の一種であり、実施例では、図1に示すデータベース22またはコンピュータ12の内部メモリに予め設定されている。
シソーラス辞書58は、図14に示すように、表記の揺れや、関連語、同義語、類似語などを概念的に類似したキーワードのツリー構造または網構造の階層構造として示したものであり、カテゴリ毎にまとめられている。図14の例では、カテゴリとして、「場所」および「行為」が示されている。たとえば、「偕楽園」、「後楽園」、「兼六園」などは「公園」という概念でくくられ、いずれも固有名詞である「ディズニーランド」や「USJ」は、「遊園地」という概念に当てはめられ、これら「公園」および「遊園地」は、別の概念たとえば「デパート」とともに、カテゴリとしては「場所」に含まれることを示している。「行為」というカテゴリについても同様である。「○○旅行」はまとめて「旅行」で表し、「旅行」は、「散歩」、「おでかけ」などともに、「行為」のカテゴリに分類されている。先のナレーションパターンでの「名詞2」として適当な他のカテゴリ「人」、「時候」などについても、同様にキーワードを集積している。
特定の単語と単語との関係、結びつきを共起関係といい、共起辞書60には、図15に示すように、各カテゴリたとえば「場所」および「行為」にそれぞれ含まれるキーワード間の共起関係が示されている。この共起辞書76によれば、一例として、場所の「デパート」というキーワードは行為のなかでは、「おでかけ」というキーワードとしか繋がらないが、「公園」といえば、「おでかけ」、「散歩」および「旅行」という複数のキーワードに強いつながりを持つことがわかる。
このようなツールを利用して、表4のナレーションパターンに単語、特に名詞2を適用することによって、ステップS49において、ナレーション候補テキストを作成する。
ナレーション候補の具体例を説明する。図7に示すメタ情報には、日付(dc:date)として「2004.07.16」があり、タイトル(dc:title)として「ディズニー動物王国にて」があり、人(faof:person)として「rel:grandchildOf」がありさらに、名前(foaf:name)として「はるか」が含まれる。
まず、日付が「2004.7.16」であることから、シソーラス辞書58を参照すれば、図14には図示していないが、カテゴリ「時候」としては「夏」であることがわかる。「ディズニー動物王国にて」というタイトルに含まれる「ディズニー」を図14のシソーラス辞書58で検索すると、それは、「遊園地」に包含され、その「遊園地」は「場所」のカテゴリに該当することがわかる。さらに、図15の共起辞書60を参照すると、「遊園地」は3つの行為「おでかけ」、「散歩」、「旅行」に共起関係を有することがわかる。さらに、「人」として「孫」があり、その名前が「はるか」であることがわかる。このようにして、メタ情報からキーワードを抽出し、そのキーワードから、ナレーションパターンに適用可能な「単語」を検索すると、時候が「夏」で、場所が「遊園地」で、行為が「おでかけ」、「散歩」または「旅行」で、人が「孫のはるか」であることがそれぞれわかる。
したがって、コンピュータ12は、ステップS49で、一例として表6に示すような3つのナレーションテキストを生成する。
表6の第1の候補は、第1のナレーションパターンを選択して単語を適用したものであり、第2の候補は、第3のナレーションパターンを選択して単語を適用したもので、第3の候補は、第5のナレーションパターンを選択して単語を適用してものである。
そして、ステップS49で、このようなナレーションテキストを、ナレーション候補として、図11のナレーション候補テキスト表示領域46に一度に、または順次表示する。
そして、ステップS51でコンピュータ12は、そのようなナレーション候補テキストが選択されたかどうか、判断する。どれかのナレーション候補テキストが選択されると、次のステップS53で、コンピュータ12は、このナレーションテキストの音声データを取得する。
この実施例では、音声モデルを図1のデータベース22またはコンピュータ12の内部メモリに登録しておき、ナレーションテキストを決定すると、その音声モデルを使って音声合成の手法で、ナレーション音声を作成する。ただし、音声データは、音声合成による他、たとえばプロのナレーターが発声した音声データを内部メモリやデータベース22内に収録しておき、その音声データを編集することによって、ナレーション音声を作成するようにしてもよい。
そして、ステップS55において、コンピュータ12は、ステップS53で取得し、また作成したナレーション音声データを、ステップS41で選択した写真に紐付けして、データベース22に登録する。
このようにして、1枚の写真についてのナレーション音声データが写真に付与されるが、次のステップS57で、ナレーション付与をしたい写真が未だあるかどうか判断し、まだナレーション付与を続行するときは終了ボタン56(図11)を押さないので、先のステップS41に戻るが、終了ボタン72を押したなら、このステップS57で“YES”となり、ナレーション付与ステップS7が終了する。
ただし、先のステップS49で表示したナレーション候補をステップS51で選択しなかったときには、コンピュータ12は、次のステップS59でさらにナレーション候補があるかどうか判断し、もしあれば、次のステップS61でナレーション候補を更新して、再び、ナレーション候補テキスト表示領域46に表示し(ステップS49)、ユーザの選択を待つ。
また、ステップS59で適当なナレーション候補がないと判断したときには、コンピュータ12は、ユーザによる変更キーワードを受け付ける。ユーザはキーワードを入力するときには、指示ボタン50(図11)を操作し、キーワード入力領域52にキーワードを入力する。このとき、入力するキーワードは、ナレーションパターン(表4)の名詞1および名詞2に対応する{人、物、場所、時候、行為}、副詞や形容詞に対応する{どんな}をそれぞれ入力するものとする。ただし、指定しないカテゴリや項目があってもよい。
このようにして、ユーザがキーワードを入力した後には、コンピュータ12は、ステップS49で、上で説明したように、ユーザ入力キーワードから、シソーラス辞書58や共起辞書60を使って「単語」を決定し、その単語を表1のナレーションパターンに当てはめて、ナレーションテキストを生成し、表示する。以後、先に説明したように、ユーザは、その表示されたナレーション候補テキストを選択し、ナレーションテキストを決定する。
上で説明した写真およびナレーションのアノテーションを使用することで、実施例のシステム10では、写真に対して適切なナレーションの候補を絞り込むが、その際に、考慮しなければならないことは、ナレーションの視点である。つまり、写真のアノテーションで特に人物に付与される間柄(RELATIONSHIP)はそれを付与する人の視点からなされる一方、ナレーションに現れる人との間柄、すなわち図8中でのfoaf:PersonのインスタンスのRELATIONSHIP属性はこの思い出ビデオの視聴者(viewer)の視点から付与されるべきである。より具体的には、写真のアノテーションの付与者つまり製作者は、介護家族、たとえば認知症者の息子(娘)であることが一般的であろう。その場合、写真中の認知症者の息子に対して本人という間柄が付与される。それに対して、「あなたの息子さん、かわいいですね」というナレーションを、その写真中の人物に関連付けるためには、写真中の人物に対するアノテーションを、視聴者である認知症者の視点に応じて変換する必要がある。
図15および図16で具体例を説明する。ここでは理解しやすいように、RELATIONSHIPに性別の概念を加えて、mother(母)、father(父)、son(息子)、daughter(娘)、sister(姉妹)、brother(兄弟)という拡張を行っている。
図15に示す写真には、クレア(Clare)とヘンリー(Henry)という夫婦と彼らの息子であるトーマス(Thomas)および娘であるアリシア(Alicia)が一緒に写っている。そして、図15の写真のアノテーション(RELATIONSHIP)として、図16(A)に示すように、以下の間柄が定義されているとする。
{Clare is mother of Thomas} {クレアはトーマスの母である}
{Henry is father of Thomas} {ヘンリーはトーマスの父である}
{Alicia is sister of Thomas} {アリシアはトーマスの妹である}
このとき、この写真に対してアノテーションを付与した製作者がThomas(トーマス)であり、思い出ビデオの視聴者がClare(クレア)の場合、写真中のそれぞれの人物とクレアとの間柄をクレアの視点から計算する必要がある。図16(B)にその例を示す。
{Clare is mother of Thomas} {クレアはトーマスの母である}
{Henry is father of Thomas} {ヘンリーはトーマスの父である}
{Alicia is sister of Thomas} {アリシアはトーマスの妹である}
このとき、この写真に対してアノテーションを付与した製作者がThomas(トーマス)であり、思い出ビデオの視聴者がClare(クレア)の場合、写真中のそれぞれの人物とクレアとの間柄をクレアの視点から計算する必要がある。図16(B)にその例を示す。
この実施例における視点変換のアルゴリズムの一例を説明する。この視点変換計算処理を実行するとき、コンピュータ12(図1)は、各ノードの、視聴者ノードからそのノードまで辿ったリンクの血縁関係の履歴をたとえば内部メモリ14(図1)に記録する。
1.視聴者のノード(図では楕円で示す)を起点にして血縁関係のリンクを辿る。
2.到着ノードにマークがない場合、そのノードにマークする。
3.2.のノードから初めて辿るノードがある場合、そのノードに移動して2.の処理に戻る。
4.2.のノードから初めて辿るノードがない場合、親ノード(直前のノード)に戻る。
5.親ノードが視聴者ノードの場合、処理を終了する。
6.親ノードが視聴者ノードではない場合、2.の処理に戻る。
1.視聴者のノード(図では楕円で示す)を起点にして血縁関係のリンクを辿る。
2.到着ノードにマークがない場合、そのノードにマークする。
3.2.のノードから初めて辿るノードがある場合、そのノードに移動して2.の処理に戻る。
4.2.のノードから初めて辿るノードがない場合、親ノード(直前のノード)に戻る。
5.親ノードが視聴者ノードの場合、処理を終了する。
6.親ノードが視聴者ノードではない場合、2.の処理に戻る。
図16の例に当てはめると、図17において点線で示すように、1.の処理を実行する。この場合、2.の処理に従って、視聴者であるクレアのノードから辿って最初に到達するノードはトーマスのノードであるので、そのトーマスのノードにマークがあるかどうか見る。ただし、マークとは過去にそのノードに到達したことがあるかどうかを示すフラグのようなものであり、未達のノードではたとえば「0」であるが、既達のノードでは「1」が付与される。トーマスのノードは未達であったので、その時点でマーク「1」を付与する。
続いて、3.の処理に従って、そのトーマスのノードから、初めて辿るノードがあるかどうか判断する。図17の例では、アリシアのノードもヘンリーのノードもマークは「0」である。したがって、アリシアのノードに移動し、このアリシアのノードにマーク「1」を付ける。同様に、ヘンリーのノードに移動して、そのヘンリーのノードにもマーク「1」を付与する。
図17の例では、ここまでの処理が終わった後には、初めて辿るノードはなくなるので、4.の処理に従って、トーマスのノードに戻る。このノードは視聴者クレアのノードではないので、再び2.の処理を実行するが、そのときには未達のノードがもはや存在しないので、4.の処理に従ってそのトーマスのノードの直前のノードつまりクレアのノードに戻る。クレアのノードは視聴者のノードであるので、処理を終了する。
このようにして、製作者から視聴者の視点に変換するために、血縁関係(foaf:Person)のリンクを辿り、各ノードの履歴を記録する。その記録から次のような関係が導き出される。
{Thomas is son of Clare} {トーマスはクレアの息子である}
{Alicia is daughter of Clare} {アリシアはクレアの娘である}
{Henry is husband of Clare} {ヘンリーはクレアの夫である}
たとえば、クレームレアとトーマスの関係は逆(母)であるので、トーマスの性別を考慮すれば、息子となる。アリシアは、トーマス(息子)の妹であるので、娘である。ヘンリーは、トーマス(息子)の父であるので、夫となる。
{Thomas is son of Clare} {トーマスはクレアの息子である}
{Alicia is daughter of Clare} {アリシアはクレアの娘である}
{Henry is husband of Clare} {ヘンリーはクレアの夫である}
たとえば、クレームレアとトーマスの関係は逆(母)であるので、トーマスの性別を考慮すれば、息子となる。アリシアは、トーマス(息子)の妹であるので、娘である。ヘンリーは、トーマス(息子)の父であるので、夫となる。
これを表7に示す。
これら視聴者からの直接の血縁関係が、この写真のためのナレーションを絞り込むのに使用される。たとえばトーマスはクレアの息子でることが導出されたことから、先に説明したキーワードとして「息子」というキーワードを用いることによってデータベースからナレーションを検索することができる。
なお、上の実施例ではメタ情報foaf:PersonのRELATIONSHIPにおいては血縁関係を記述するようにし、その血縁関係に基づいて各被写体の視聴者からの視点から見た血縁を計算するようにした。しかしながら、このように「関係」としては、血縁関係に限らず、視聴者の会社時代の上司や部下などの関係、あるいは視聴者が仮に学校の先生であったとすれば、「校長先生」、「生徒」、「学生」などの関係も記述できる。いずれの場合も、上述のアルゴリズム1.-6.を用いて視聴者の視点からの「関係」を計算で求めることができる。
10 …ビデオコンテンツ作成装置
12 …コンピュータ
14 …内部メモリ
16 …モニタ
20 …写真データ入力装置
22 …データベース
26 …GUI
28 …写真表示編集領域
32、34 …メタ情報入力領域
44 …ナレーション作成領域
46 …ナレーション候補テキスト表示領域
52 …キーワード入力領域
12 …コンピュータ
14 …内部メモリ
16 …モニタ
20 …写真データ入力装置
22 …データベース
26 …GUI
28 …写真表示編集領域
32、34 …メタ情報入力領域
44 …ナレーション作成領域
46 …ナレーション候補テキスト表示領域
52 …キーワード入力領域
Claims (3)
- 複数の写真をナレーションとともに視聴者に提示できるビデオコンテンツを作成するための装置であって、
写真画像データを入力する写真データ入力手段、
前記写真画像データに関連してメタ情報を付与するためのメタ情報付与手段、
前記写真画像データを関連する前記メタ情報とともに格納する記憶手段、
前記メタ情報を用いて前記記憶手段から写真画像データを検索する検索手段、および
前記検索手段によって検索した写真画像データをメタ情報に従って編集することによって一連のビデオコンテンツを生成する生成手段を備え、
前記生成手段は、前記メタ情報に基づいて前記視聴者の視点に従ったナレーションテキストを作成するナレーションテキスト作成手段、および前記ナレーションテキストに従った音声データを前記写真画像と関連して前記記憶手段に登録する音声データ登録手段を含む、ビデオコンテンツ作成装置。 - 前記写真画像には前記視聴者およびその視聴者の少なくとも1人の関係者が含まれ、前記メタ情報は前記視聴者と前記少なくとも1人の関係者との関係を記述しており、
前記生成手段は、前記関係に基づいて前記少なくとも1人の関係者の前記視聴者の視点からの関係を計算する計算手段を含み、
前記ナレーションテキスト作成手段は、少なくとも1つの単語を含むナレーションパターンを予め設定しておくナレーションパターン設定手段、および前記視聴者の視点からの関係に基づいて前記単語を決定する単語決定手段を含み、前記単語決定手段で決定した単語を前記ナレーションパターンの前記単語に当てはめることによって、前記ナレーションテキストを作成する、請求項1記載のビデオコンテンツ作成装置。 - 前記関係者は血縁者であり、前記関係は血縁関係である、請求項2記載のビデオコンテンツ作成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005337186A JP2007143030A (ja) | 2005-11-22 | 2005-11-22 | ビデオコンテンツ作成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005337186A JP2007143030A (ja) | 2005-11-22 | 2005-11-22 | ビデオコンテンツ作成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007143030A true JP2007143030A (ja) | 2007-06-07 |
Family
ID=38205305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005337186A Withdrawn JP2007143030A (ja) | 2005-11-22 | 2005-11-22 | ビデオコンテンツ作成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007143030A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011082789A (ja) * | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | 音声付き動画制作・配信サービスシステム |
JP2022548331A (ja) * | 2019-09-26 | 2022-11-17 | 株式会社ソニー・インタラクティブエンタテインメント | 人工知能(ai)制御のカメラパースペクティブジェネレータ及びaiブロードキャスタ |
-
2005
- 2005-11-22 JP JP2005337186A patent/JP2007143030A/ja not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011082789A (ja) * | 2009-10-07 | 2011-04-21 | Exlink Co Ltd | 音声付き動画制作・配信サービスシステム |
JP2022548331A (ja) * | 2019-09-26 | 2022-11-17 | 株式会社ソニー・インタラクティブエンタテインメント | 人工知能(ai)制御のカメラパースペクティブジェネレータ及びaiブロードキャスタ |
JP7320672B2 (ja) | 2019-09-26 | 2023-08-03 | 株式会社ソニー・インタラクティブエンタテインメント | 人工知能(ai)制御のカメラパースペクティブジェネレータ及びaiブロードキャスタ |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8161452B2 (en) | Software cinema | |
US7694213B2 (en) | Video content creating apparatus | |
Silver et al. | Finding fidelity: Advancing audiovisual analysis using software | |
JP2002366964A (ja) | 動画作成方法およびシステム | |
Perniss | Collecting and analyzing sign language data: Video requirements and use of annotation software | |
Hardman et al. | Canonical processes of semantically annotated media production | |
Evans et al. | Creating object-based experiences in the real world | |
Schuler et al. | Designing user interfaces for hypermedia | |
Whittemore | Metadata and memory: Lessons from the canon of memoria for the design of content management systems | |
Shenker | Through the lens of the Shoah: The Holocaust as a paradigm for documenting genocide testimonies | |
Malek | Subjunctive nostalgia of postmemorial art: Remediated family archives in the Iranian diaspora | |
Otto et al. | Camera, Intervention and Cultural Critique: An Introduction | |
Sinfield | The Boundaries of Education: Using mobile devices for connecting people to places | |
Ashmore | The role of digital video in language documentation | |
JP4446124B2 (ja) | ビデオコンテンツ作成方法 | |
Bardiot | Rekall: An environment for notation/annotation/denotation | |
JP4291294B2 (ja) | ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム | |
JP2007143030A (ja) | ビデオコンテンツ作成装置 | |
JP4043472B2 (ja) | ビデオコンテンツ作成装置 | |
Englert | Popular and mobile: Reflections on using YouTube as an archive from an African studies perspective | |
US7610554B2 (en) | Template-based multimedia capturing | |
Leake et al. | ChunkyEdit: Text-first video interview editing via chunking | |
JP4219906B2 (ja) | ビデオコンテンツ作成装置およびビデオコンテンツ作成プログラム | |
Nguyễn | Re-processing archival images: artists as darkroom technicians | |
Kanellopoulos | Semantic annotation and retrieval of documentary media objects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20090203 |