JP3987483B2 - マルチメディア・コンテンツ流通システム - Google Patents
マルチメディア・コンテンツ流通システム Download PDFInfo
- Publication number
- JP3987483B2 JP3987483B2 JP2003400458A JP2003400458A JP3987483B2 JP 3987483 B2 JP3987483 B2 JP 3987483B2 JP 2003400458 A JP2003400458 A JP 2003400458A JP 2003400458 A JP2003400458 A JP 2003400458A JP 3987483 B2 JP3987483 B2 JP 3987483B2
- Authority
- JP
- Japan
- Prior art keywords
- card
- agent
- image
- video
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000009826 distribution Methods 0.000 title claims description 10
- 239000003795 chemical substances by application Substances 0.000 claims description 93
- 230000009471 action Effects 0.000 claims description 49
- 238000000034 method Methods 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 13
- 230000009467 reduction Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 239000000872 buffer Substances 0.000 claims description 9
- 230000033001 locomotion Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 6
- 230000000875 corresponding effect Effects 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000003860 storage Methods 0.000 claims description 2
- 230000003139 buffering effect Effects 0.000 claims 1
- 239000000463 material Substances 0.000 description 15
- 230000000007 visual effect Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 210000004709 eyebrow Anatomy 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 241000255777 Lepidoptera Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008602 contraction Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Description
しかし、これまでのシステムでは、映像コンテンツが扱えないなど、テレビ放送型システムとして最も重要である、動的なコンテンツの表現が不十分であった。
また、マルチメディア・コンテンツ流通システムの端末システムにおいて、表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードを受信する手段と、映像,画像,音声及びエージェントのアニメーションの動作データを受信するデータ受信手段と、カード処理手段と、映像表示手段と、画像表示手段と、音声再生手段と、エージェント表示手段とを備え、前記データ受信手段は、受信したデータをバッファするバッファ手段を有しており、カード処理手段は、受信したカードを処理し、カードで指定された映像,画像又はアニメーションの動作データを前記バッファ手段から読み出し、前記映像表示手段,画像表示手段,音声再生手段又はエージェント表示手段により表示することを特徴とする。
そして、前記カードで指定されたエージェントの動作は、開始時間情報を含んでおり、前記カード処理手段が読み出したエージェントの動作データを受け取った前記エージェント表示手段は、前記音声再生手段から経過時間情報を得て、前記開始時間により該データの動作の表示を開始することで、音声とエージェントの動作を同期させることもできる。
前記送られてきたエージェントの動作データは、エージェントを複数の部分に分割した、それぞれの部分ごとの動作データであり、前記カードで指定する動作データは、部分ごとの動作データを指定しており、前記エージェント表示手段は、部分ごとの動作データをバッファから読み出して表示してもよい。
その上、サーバ・システムにおいて、さらに、カード編集手段を備えており、該カード編集手段は、カードに入力されたテキストを解析し、該解析の結果を用いて、所定の動作選択ルールによりエージェントの動作を前記動作のライブラリから選択するとともに、テキストを前記音声合成手段により音声合成し、対応する動作の開始時間を音声合成の経過時間から得ることで、エージェントの動作を生成するエージェント動作生成手段を含んでもよい。
上述したこれらのシステムを構築させるプログラムも本発明である。
また、提供された番組の視覚表現として、カメラワークや音声による情報と同期したエージェント・アニメーション等を楽しむことができる。
<マルチメディア・コンテンツ流通システム(SPOC)の概要>
図1は、本発明の実施形態である、ネットワーク上において、ストーリーに基づくマルチメディア・コンテンツ流通システム(SPOC)の概要を示す図である。
SPOCは、大きく分けて図1のように3つのアプリケーションに分けられる。
(A)作成者(デザイナ)がコンテンツに用いる画像や映像を複雑な作業なしで容易に収集、蓄積できるよう支援するためのアプリケーションである素材収集ツール(Material Collector)110
(B)デザイナが(A)の機能によって収集した画像や映像を用いてコンテンツを作成するためのアプリケーションであるカード編集ツール(Editor)120
(C)作成されたコンテンツをエージェントによってコンシューマに提供するためのアプリケーションである番組表示ツール(Viewer)130
次に、それぞれの機能とコンテンツの構造について説明する。
(A)素材収集ツール(Material Collector)110
パソコンやデジタルカメラ、デジタルムービー・カメラの普及によって画像や映像を併せた意見や情報を表現する機会は増えてきている。しかし、特に映像をネットワーク上で情報公開に利用するには一般に次のような作業が必要である。
(1)撮影
(2)ストリーミング形式のファイルに変換
(3)ファイルのネットワーク上公開領域へのアップロード
これらの作業は、特別な技術を持たないユーザがデザイナになる際に障害となることが考えられる。そのため作業の簡略化を行うための機能を持たせた。現在、多くのパソコンやモバイルの多くがWEBブラウザをサポートしているため、USBカメラとマイクを使い、WEBブラウザ越しに直接ネットワークを介して、撮影しながら公開領域に映像ファイルを作成することによって、撮影直後に、コンテンツの作成に映像ファイルを用いることができることとした。
(B)カード編集ツール(Editor)120
この機能は、デザイナがコンテンツを作成するための機能である。POCでは、画像と100文字程度のテキストからなるPOCカードと呼ばれるデータ単位によって、ユーザからの投稿を管理している。SPOCでもこのカード形式を引き継いだ。このカードについては、後で詳しく説明する。
コンテンツは番組と呼ばれる単位で管理される。番組は1枚以上のカードから成る。カードはそれぞれ表示していく順番をつけることによって構成される。カードには、映像の時間軸に対する断片(ex.計3分の映像ファイルの内、20秒目から32秒目の映像部分を指定するなど)、または映像・画像は拡大率、縮小率、表示する範囲を指定する(ex.600×480ピクセルの画像を2倍に拡大し、表示する範囲を座標(400,400)中心とするなど)、エージェントのアニメーション動作等の加工した資料とテキストからなる。エディタ120の機能は大きく分けて以下のようなものが含まれている。
(1)カードの作成
(2)カードに付加する映像ファイル、画像ファイルの指定と映像部分の抜き出し、または映像や画像の拡大率、縮小率の指定と表示範囲の指定、及びテキストの入力
(3)エージェント・アニメーションの作成
(4)作成されたカードの表示する並び順の決定
以上がコンテンツである番組の作成に必要な手順である。このエディタ120についても、後で詳しく説明する。
(C)番組表示ツール(Viewer)130
ユーザがコンテンツの番組を見るための機能である。ビューア130は、大きく分けて2つの部分に分かれる。エージェント部分と映像や画像の表示部分である。
エージェントは、テキストからの音声合成から得られた音声ファイルとジェスチャーによって見る、聞くことができる情報提供を行う。カードがメディアに映像を指定していれば、エージェントの音声に併せてカードで定義された映像部分をユーザに対して提供する。エージェント・アニメーションについては、後で詳しく説明する。
また、SPOCでは、静的な画像を動的な視覚変化のある画像に変化させるためにデジタルカメラワークを利用した。カメラワークは、TV番組などでは重要な役割を果たす。大西はデジタルカメラワークというテクニックを提案した(非特許文献6参照)。これは静的な画像が擬似的にチルトやズームといったカメラワークのように見えるよう描画していくテクニックである。これを、SPOCシステムでは自動的に行うようにした。これについては後で詳しく説明する。
図面図3〜図9を用いて番組表示を説明する。
図3に、サーバ側のビューア130から端末側に、カード形式による番組構成150が送られて、ウエブのブラウザ内のインターフェース200で表示されている様子を示す。このブラウザ内のインターフェース200は、例えば、ブラウザ内に表示する表示ソフトとして、普及しているMacromedia flashで実装することができる。本実施形態でも、このMacromedia flashで実装している。
図4にインターフェース200の番組表示210内の詳細が示されている。図4において、番組表示210内には、視覚素材表示212と、音声と同期して動くエージェント・アニメーション214が表示されている。
図5(a)には、カードと表示との関係を示しており、図5(b)には、端末側の構成を示している。図5(a)に示されているように、カード内のテキストが、音声合成サーバ148により、テキストから音声合成され、端末側にストリーミング・サーバ142から送られる。視覚素材表示212では、映像、画像、および映像や画像を動くカメラで写したように表示する。
映像データや画像データなど、テキストに比べ容量の多いファイルによる情報提供を行う場合に問題となるのが、カードとカードの間における映像・画像ファイルのサーバからファイルへの転送に必要な待機時間である。このシステムでは、バッファを設けることによって待機時間を削減している。これは番組を構成している1枚目のカードで指定された映像・画像ファイルを表示している間に、2,3,…枚目のカードで指定された映像ファイル330,画像ファイル320,エージェント・アニメーションのデータ(アニメーション・ライブラリ)350等をあらかじめ、磁気ディスク230上にあるバッファに転送しておく。これによって、カードからカードへの処理の切れ目でも転送待ちが生じにくくなる。
サーバ側のビューア130から、番組を構成するカード、画像ファイル,映像ファイル,音声ファイルや、アニメーションを表示するためのアニメーション・データ等が送られてくる。端末側のアプリケーション(ブラウザ+表示ソフト(Macromedia flash)+ストリーミングで送られた映像の表示ソフト+音声再生ソフト(例えばMP3プレイヤー))で、送られてきたカードを順次解析しながら、テレビの番組のように、図4に示した様に表示する。
カメラワークは対象となる画像や映像に定義されている拡大・縮小率と表示範囲を利用して自動的に行われる。図6に、このシステムでのデジタルカメラワークの概要を示す。カメラワークは、同一の画像ファイル330から異なる拡大・縮小率(拡縮率)、異なる表示範囲332,333の指定によって作成された視覚素材を含む、2枚のカード(1)312、カード(2)313が連続して並べられたときに行われる。このように、同一画像を基に作成されたカードが続く時は、何らかのカード間の関係があるとみなす。そして、画像の拡縮率を、表示範囲をいきなり変更するのではなく、徐々に変化していくように画像の描画を行い、ターゲットAからターゲットBに表示を徐々に移動させ、2枚のカードをつなげる。仮に、異なる画像ファイルによるカードが間に入った場合、カメラワーク処理は起らない。
カード(1)とカード(2)の画像が同じファイルである場合、デジタル・カメラワークが行われる(S410)。その場合、まず、カード(1)とカード(2)の、x,y座標と拡大・縮小率(拡縮率)の差を求める。
例えば、図7(a)に示されているカード(1)の画像Aの座標(画像の左上の座標を画像の座標としている)は(x,y)=(100,300)であり、拡縮率は100%である。なお、x,y座標の単位はピクセル(pix)である。図7(b)に示されているように、カード(2)の画像Bの座標(画像の左上の座標を画像の座標としている)は(x,y)=(400,600)であり、拡縮率は150%である。したがって、カード(1)とカード(2)の、x座標の差は300で、y座標の差は300であり、拡縮率の差は50%である。
次に、カード(1)の画像の、x座標,y座標,拡縮率のそれぞれの差から、次のカード(カード(2))の画像を表示する時間(所定時間)で割ることにより、変化分ΔpixやΔ%を求める。
この変化分づつ、カード(1)の画像Aを変化させて表示して(図7(c)参照)、所定時間後に、カード(2)の画像Bとなる(S412)。
なお、映像においても、同じ映像ファイルを指定したカード(1),カード(2)に対して、カード(1)で指定した映像の終了フレームの画像と、カード(2)で指定した映像の開始フレームの画像に対して、上述と同様の処理を行うことで、同様にデジタル・カメラワークの処理を実現することができる。
図8に、図4に示した番組表示210内のエージェント214のアニメーション例を示す。
ウエブを基としたアプリケーションを介して、アニメーション化したキャラクタを制御するために、RISAアニメーション・システムをマクロメディア・フラッシュ(Macromedia Flash)で実装している。RISAが行ったジェスチャと顔の表情の変化のスナップ・ショットが、図8に示されている。
このアニメーション・システムの基礎的アイディアは、各身体部分のアニメーション断片を集合することで、エージェント・アニメーションを構成する。エージェントの身体は、12の部分(頭,2つの眉、2つの目,2つの瞳,口,2つの手,2つの腕)に分割される。小さいアニメーション断片が各身体部分に定義される(例えば、右の眉を30度上に動かす,右腕を身体の前に動かす)。動作ライブラリの全体の数は、手のジェスチャに対する逆の動作を含んで、300以上である。これらのアニメーションを組み合わせることで、様々な種類のエージェント動作が作成される。組み合わせ自体はほとんど無限であるが、これらのいくつかは、非言語の合図としては意味ある動作として表現されていないと思われる。
RISAアニメーション・システムは、XMLで記述されているカード310中の<agent>タグの中に書かれたスクリプトを、時間順に順次実行することにより、エージェン・アニメーションと台詞の音声(MP3等の形式)とをビューアー上で同期させることを実現している。
図9において、音声再生ソフト(例えば、MP3プレーヤー)で音声ファイル340の再生が開始されると、音声ファイルのプレーヤーに対して、音声ファイル中の現在のポジションを問い合わせることにより、音声開始後の経過時間を知ることができる。
アクション・コマンド(actionタグで記述)中のアニメーション開始時間が、音声経過時間と一致したら、エージェント・アニメーション・ライブラリ(体の部分的なアニメーションの集合)350の中から、該当するIDのアニメーションを実行する。
例えば、以下のようなアクション・コマンドがカード中のエージェント・タグに記述されているとする。
<Action ID="188" Srt="0.02" />
<Action ID="189" Srt="0.06" />
音声再生開始と同時に、RISAアニメーション・システムは、音声ファイルのプレーヤーへの問い合わせを開始する。音声ファイルのプレーヤーに問い合わせ、音声の再生が開始後0.02秒経過したことがわかると、アニメーション・ライブラリの中から188というIDのアニメーションを実行する。同様に、音声開始後0.06秒経過したことがわかると、189番のアニメーションを実行する。これにより、音声と同期してアニメーションを表示することが可能になる。
図10〜図16を用いて、エディタの詳細について説明する。
まず、図10,図11を用いて、エディタの概要と視覚素材の編集について説明する。
図10は、エディタ120の概要を説明する図である。
素材収集ツール110によって収集された映像や画像は、エディタ120によってカード形式の情報単位として編集されて、番組コンテンツに組み込まれる。エディタ120には、カードの並び順番を決定し、番組構成を行う番組エディタ、個々のカードの編集を行うカード・エディタがある。
図10において、番組コンテンツは、次の手順によって作成される。
まず、番組エディタで新規カードを作成する。
(1)−1 カード・エディタを呼び出し、収集した映像や画像を見ながら、映像の場合は、開始と終了のフレームを特定することで、カードに必要な部分を指定して抜き出す。
(1)−2 拡大・縮小率、表示範囲を指定する。
(2)テキストを加える。
このようにして、順次、カードの編集を行っていく。
(3)編集後のカード群を、ドラッグ&ドロップで順番を入れ替えながら、必要に応じて、カードの編集を繰り返すことによって番組コンテンツが作成される。
作成されたコンテンツのデータはデータベースサーバに記録される。
このシステムでは、番組に語り手を実装するため、エージェント動作生成システム(CAST)を開発した。CASTは、エディタ120により起動されて、エージェント・アニメーション・スケジュールを自動的に計算するとともに、エージェントに対する同期した音声を合成する。CASTへの入力は、エディタ120のテキスト・フィールドにタイプされたテキストである。ユーザがテキストをタイプすると、CASTに送られる。
CASTは、次に示す4つの主なモジュールで構成されている。
(1)エージェント動作選択モジュール(Agent Behavior Selection Module:ABS)
(2)言語タグ付与モジュール(Language Tagging Module:LTM)
(3)フラッシュ対応キャラクタ・アニメーション・システム(Flash-based character animation system:RISA (RIStex animated Agent system))
(4)テキスト音声エンジン(Text-to-Speech engine:TTS)(音声合成ツール)
CASTの処理を図12のフローチャートに示す。図12において、テキスト入力を受け取る(S502)と、テキストをエージェント動作選択モジュール(ABS)へ送る。ABSは、言語タグ付与モジュール(LTM)により分析して(S504)、言語情報を得る。そして、この言語情報に基づき、適切な身振りと顔の表情を選択する(S506)。
エージェント動作選択モジュール(ABS)は、テキスト音声エンジン(TTS)を呼び出すことで、タイミング情報を得て(S508)、エージェントの動きセットのために、タイム・スケジュールを計算する(S510)。エージェント動作選択モジュール(ABS)からの出力は、RISAにより解釈され実行できる、アニメーション命令の集合である(S512)。
以下に、各モジュールにおける処理を詳しく説明する。
エージェント動作選択モジュール(ABS)への入力は単純なテキストであり、出力は、RISAアニメーション・システムに対する命令の集合である。ABSに対するシステム・アーキテクチャは、BEAT(非特許文献7参照)に基づいている。しかしながら、BEATは英語用として開発されており、日本語の言語情報に対する適切な非言語動作を選択することはできない。このため、日本語のテキストを用いて、適切なエージェントの動きを選択する機構を設計・開発する必要があった。このため、次のような機構が必要である。
−−非言語動作を決定する日本語言語情報を注釈
−−動作選択ルールを日本語テキストに適用して非言語動作を選択
−−日本語特有の構文単位である文節単位ごとに動作を割り当て
これらの各々に対して、次の節で説明する。
言語情報を入力テキストに対して注釈するために、日本語に対する自然言語処理ツール(非特許文献8参照)を使用して、言語タグ・モジュール(Language Tagging Module(LTM))を実装した。言語タグ・モジュール(LTM)では、入力テキストは文(sentence)に分割されて、1つずつ処理される。
最も大きい注釈の単位は、発話(UTTERANCE)であり、これは句(CLAUSE)に分割される。アクション(ACTION)タグは動詞句に割り当てられ、目的(OBJECT)タグは名詞句に割り当てられる。文節(BUNSETSU)タグは各文節単位に割り当てられる。最小の単位は単語自身であり、音声情報と見出し語を含んでいる。システムは、前に出てくる単語の履歴を残しており、入力された単語が与えれられたカード内で処理されていない場合、新規(NEW)と示す。
言語理論によると、文の情報構造は、2つの部分、主題(theme)と題述(rheme)で構成されている。
主題(theme)は、先行する句又は文と首尾一貫した関連を形成する文の部分である。題述(rheme)は、主題部分で導入された議論に新しい情報を提出する部分である。題述は新しい情報を表現しているので、身振りや顔の表情を用いて強調している可能性が高い。
一般的に、主題は文の始まり部分に置かれており、題述部分は主題に続いている。日本語では、「は」のような話題指標後置詞(topic marking postposition)で、主題部の最後が印されている。日本語のこの特徴を利用して、与えられた主題を特定している。主題は、文の始めで開始し、話題指標後置詞で終了する。題述部分は、文の残りの部分である。
さらに、実際の人間の表現やニュース・キャスタの動作を分析し、我々のアイディアに対して、さらに知見を得た。例えば、ビート・ジェスチャ(beat gesture)は、しばしば、疑問又は強調の副詞と同時に生じている。
これらの全ての知見に基づいて、図13に示す動作選択ルールを作成した。ルール1として、強調する概念に対する特定の映像的ジェスチャ(iconic gesture:形や概念を表現するジェスチャ)は、ジェスチャ・ライブラリ(例えば、「大きい」を表現するジェスチャ・アニメーションがライブラリ中にある)に定義されており、これはビート・ジェスチャ(beat gesture:拍子を取る様なジェスチャ)に優先して選択される。特定のジェスチャが概念に対して定義されていない場合は、ビート・ジェスチャがデフォルトとして使用される。複数のルールが適用できる場合、システムは、異なる身体の部品を使用して、適用できる全ての非言語動作を選択する。例えば、テキストのある部分が題述(rheme)であるとともに新規情報(new)である場合、ビート・ジェスチャ(ルール1),「眉を上げる」(ルール5),「見つめる」(ルール10)が同時に表示される。もっとルールが追加される必要があるが、これらのルールは、エージェントの多様な非言語表現を生成することができる。
出力の例が図14に示されている。終了(end)タグは、場所を節約するために省略されている。
図14において、最初に、発話(utterance)が主題(theme)とともに開始される(Aの部分)と、エージェントはユーザから目をそらすとともに話し始める(タグ(1)参照)。次に、題述(rheme)の開始(Bの部分)で、見つめる動作が選択される(タグ(2)参照)。題述の部分に指示詞があるので、直示的ジェスチャ(deictic gesture)が文節単位に対して選択される(タグ(3)参照)。その上、「眉を上げる」もルール5にしたがって選択される(タグ(4))。このようにして、エージェントは、直示的ジェスチャをしている間、眉を上げる。
非言語動作を決定後、次のステップは、アニメーション・システムにより実行されるタイム・スケジュールを作成することである。非言語動作とエージェントの話とを同期させるため、ABS中のスケジュール・モジュールは、TSSエンジンにアクセスして、各音素のタイミング情報(音素タイプ,開始時刻,及び持続時間)と文節境界を得る。リップ・シンクに対するViseme(口の形状)は音素タイプにより割り当てられる。スケジュール・モジュールの出力は、RISAアニメーション・システムにより実行されるインストラクション・セットの形式とされる。インストラクション・セットの各命令は、アニメーションの動作のタイプと開始時刻を特定する。図14に示した部分の命令の例が、図15に示されている。
例えば、動作 AID='A669'において、右手の指差ジェスチャ(タグ(2)参照)は2.8799秒に開始し、元の位置に3.4003秒に戻る(タグ(13)参照)。動作タイプがVISEMEである場合(例えば、タグ(4)参照)、口の形状タイプと開始時刻は、リップシンクに対して特定する。最後に、アニメーション動作命令は、カード・エディタに戻され、カード内に格納される。
カードの構成を説明する。前で述べた、エディタの2段階処理の結果、カードが生成され、カード・データベースに格納される。カード情報は、XML形式で記述されている。XMLの例を図16に示す。
図16において、<CARDS>(タグ(2)参照)は、新規の番組の始まりを意味する。これは、多数のCARD要素から構成されている。<CARD>要素(タグ(3)参照)は番組の構成ブロックであり、ID,BOX,IMAGE,AGENT,及びCOMMENT要素から構成されている。
<ID>(タグ(4)参照)は、CARDのIDを特定する。<BOX>(タグ(5)参照)は、番組中のカードの順番を特定している。<IMAGE>要素(タグ(6))は、いくつかの副要素から構成されており、これらは視覚素材の詳細を特定している。<IMAGEURL>(タグ(7)参照)は、画像およびビデオ・クリップ(映像)が格納されているURLアドレスを特定している。<XSCALE>と<YSCALE>(タグ(8),(9)参照)は、水平と垂直のズーム・スケールを割合(%)で特定している。<XPOS>と<YPOS>(タグ(10),(11)参照)は、表示内における、素材の水平と垂直の位置を特定している。<INIPOS>と<ENDPOS>(タグ(12),(13)参照)は、映像素材の開始/終了フレームを特定している。画像の場合、データの値は「0」である。これらのタグのデータは、視覚素材を編集するときに特定される。
<AGENT>要素(タグ(15)参照)は、CASTにより生成されたアニメーション命令群が含まれており、所定のカードに対するエージェントの動作を特定している。最後に、<COMMENT>(タグ(27)参照)は、カードに対応したナレーションを特定している。
ビューア130がカードを受け取ると、上述のように記述されたXMLタグを解釈して、その内容に従って全ての素材を取得し、端末に対して送る。この処理を繰り返すことにより、このシステムは、連続したカードからテレビのような番組を生成する。
Claims (7)
- マルチメディア・コンテンツ流通システムのサーバ・システムにおいて、
表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードで構成された番組を格納した番組記憶手段と、
前記画像,前記映像,前記エージェント・アニメーションの動作のライブラリを格納した記憶手段と、
前記テキストを音声合成する音声合成手段と、
前記番組記憶手段から、番組を構成するカードを読み出して、該カードのテキストを前記音声合成手段で音声合成させるとともに、カードで指定された画像又は映像を読み出し、エージェント・アニメーションの動作を前記ライブラリから読み出して、カード・データ,画像又は映像のデータ,音声及びエージェント・アニメーションの動作データを送信する番組表示手段と
を備え、該番組表示手段は、画像又は映像及びエージェントのアニメーションの動作データを、これらを指定しているカードより先に送信していることを特徴とするマルチメディア・コンテンツ流通システムのサーバ・システム。 - マルチメディア・コンテンツ流通システムの端末システムにおいて、
表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードを受信する手段と、
映像,画像,音声及びエージェントのアニメーションの動作データを受信するデータ受信手段と、
カード処理手段と、映像表示手段と、画像表示手段と、音声再生手段と、エージェント表示手段とを備え、
前記データ受信手段は、受信したデータをバッファするバッファ手段を有しており、
カード処理手段は、受信したカードを処理し、カードで指定された映像,画像又はアニメーションの動作データを前記バッファ手段から読み出し、前記映像表示手段,画像表示手段,音声再生手段又はエージェント表示手段により表示することを特徴とするマルチメディア・コンテンツ流通システムの端末システム。 - 請求項2に記載の端末システムにおいて、
前記カードで指定された画像又は映像は、ファイル,位置及び拡大・縮小率で指定しており、
前記画像表示手段又は映像表示手段は、指定されたファイルが前のカードと同じファイルである場合、位置及び拡大・縮小率の差を求めて、該差から求めた変化率で変化させるカメラワーク生成手段を含むことを特徴とする端末システム。 - 請求項2に記載の端末システムにおいて、
前記カードで指定されたエージェントの動作は、開始時間情報を含んでおり、
前記カード処理手段が読み出したエージェントの動作データを受け取った前記エージェント表示手段は、前記音声再生手段から経過時間情報を得て、前記開始時間により該データの動作の表示を開始することで、音声とエージェントの動作を同期させることを特徴とする端末システム。 - 請求項4に記載の端末システムにおいて、
前記送られてきたエージェントの動作データは、エージェントを複数の部分に分割した、それぞれの部分ごとの動作データであり、
前記カードで指定する動作データは、部分ごとの動作データを指定しており、
前記エージェント表示手段は、部分ごとの動作データをバッファから読み出して表示することを特徴とする端末システム。 - 請求項1に記載のサーバ・システムにおいて、
さらに、カード編集手段を備えており、
該カード編集手段は、カードに入力されたテキストを解析し、該解析の結果を用いて、所定の動作選択ルールによりエージェントの動作を前記動作のライブラリから選択するとともに、テキストを前記音声合成手段により音声合成し、対応する動作の開始時間を音声合成の経過時間から得ることで、エージェントの動作を生成するエージェント動作生成手段を含むことを特徴とするサーバ・システム。 - 請求項1又は6に記載のサーバ・システム、若しくは請求項2〜請求項5のいずれかに記載された端末システムを、コンピュータ・システムに構築させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003400458A JP3987483B2 (ja) | 2003-11-28 | 2003-11-28 | マルチメディア・コンテンツ流通システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003400458A JP3987483B2 (ja) | 2003-11-28 | 2003-11-28 | マルチメディア・コンテンツ流通システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005165438A JP2005165438A (ja) | 2005-06-23 |
JP3987483B2 true JP3987483B2 (ja) | 2007-10-10 |
Family
ID=34724725
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003400458A Expired - Lifetime JP3987483B2 (ja) | 2003-11-28 | 2003-11-28 | マルチメディア・コンテンツ流通システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3987483B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20090002292A (ko) | 2007-06-26 | 2009-01-09 | 삼성전자주식회사 | 가상 캐릭터를 동기화하고 공유하는 장치 및 방법 |
US20200401794A1 (en) * | 2018-02-16 | 2020-12-24 | Nippon Telegraph And Telephone Corporation | Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs |
JP7157340B2 (ja) * | 2018-02-16 | 2022-10-20 | 日本電信電話株式会社 | 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム |
-
2003
- 2003-11-28 JP JP2003400458A patent/JP3987483B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005165438A (ja) | 2005-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021109678A1 (zh) | 视频生成方法、装置、电子设备及存储介质 | |
JP6972743B2 (ja) | オンライン会話ストリームに文書対話を持ち込むためのシステムおよび方法、コンピュータに実装された方法、プログラム、及びコンピュータ化システム | |
JP5140949B2 (ja) | ディジタル情報を処理する方法、システム及び装置 | |
US10372790B2 (en) | System, method and apparatus for generating hand gesture animation determined on dialogue length and emotion | |
WO2007111707A2 (en) | System and method for translating text to images | |
US20090113278A1 (en) | System and methods for generating automatic and user-controllable movies of presentations on small devices | |
CN110602516A (zh) | 基于视频直播的信息交互方法、装置及电子设备 | |
CN109474843A (zh) | 语音操控终端的方法、客户端、服务器 | |
JP2008003968A (ja) | 情報処理システム、情報処理方法及びプログラム | |
US11178356B2 (en) | Media message creation with automatic titling | |
JP2011175598A (ja) | 手話アニメーション生成装置及び手話アニメーション生成プログラム | |
Bywood | Technology and audiovisual translation | |
JP2023062173A (ja) | ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置 | |
CN117252966B (zh) | 动态漫画生成方法及装置、存储介质及电子设备 | |
US20180276185A1 (en) | System, apparatus and method for formatting a manuscript automatically | |
JP3987483B2 (ja) | マルチメディア・コンテンツ流通システム | |
US20230027035A1 (en) | Automated narrative production system and script production method with real-time interactive characters | |
Amir et al. | Automatic generation of conference video proceedings | |
JP2003219355A (ja) | ムービー編集システム及びムービー編集サービスサーバ | |
Nakano et al. | Multimodal story-based communication: Integrating a movie and a conversational agent | |
JP2006195900A (ja) | マルチメディアコンテンツ生成装置及び方法 | |
KR101396020B1 (ko) | 컨텐츠 편집툴을 이용한 멀티미디어 컨텐츠 편집 서비스제공 방법 | |
JP7128222B2 (ja) | 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム | |
KR20100134022A (ko) | 실사 토킹 헤드 생성, 콘텐트 생성, 분배 시스템 및 방법 | |
Nakano et al. | Cards-to-presentation on the web: generating multimedia contents featuring agent animations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Effective date: 20060228 Free format text: JAPANESE INTERMEDIATE CODE: A712 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060303 |
|
A521 | Written amendment |
Effective date: 20060228 Free format text: JAPANESE INTERMEDIATE CODE: A821 |
|
A977 | Report on retrieval |
Effective date: 20061011 Free format text: JAPANESE INTERMEDIATE CODE: A971007 |
|
A131 | Notification of reasons for refusal |
Effective date: 20061114 Free format text: JAPANESE INTERMEDIATE CODE: A131 |
|
A521 | Written amendment |
Effective date: 20070111 Free format text: JAPANESE INTERMEDIATE CODE: A523 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070710 |
|
A61 | First payment of annual fees (during grant procedure) |
Effective date: 20070712 Free format text: JAPANESE INTERMEDIATE CODE: A61 |
|
R150 | Certificate of patent (=grant) or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (prs date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100720 Year of fee payment: 3 |