JP3987483B2 - マルチメディア・コンテンツ流通システム - Google Patents

マルチメディア・コンテンツ流通システム Download PDF

Info

Publication number
JP3987483B2
JP3987483B2 JP2003400458A JP2003400458A JP3987483B2 JP 3987483 B2 JP3987483 B2 JP 3987483B2 JP 2003400458 A JP2003400458 A JP 2003400458A JP 2003400458 A JP2003400458 A JP 2003400458A JP 3987483 B2 JP3987483 B2 JP 3987483B2
Authority
JP
Japan
Prior art keywords
card
agent
image
video
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003400458A
Other languages
English (en)
Other versions
JP2005165438A (ja
Inventor
敏泰 村山
有紀子 中野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Agency
National Institute of Japan Science and Technology Agency
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Agency, National Institute of Japan Science and Technology Agency filed Critical Japan Science and Technology Agency
Priority to JP2003400458A priority Critical patent/JP3987483B2/ja
Publication of JP2005165438A publication Critical patent/JP2005165438A/ja
Application granted granted Critical
Publication of JP3987483B2 publication Critical patent/JP3987483B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

本発明は、ストーリーを基にしたマルチメディア・コンテンツ流通システムに関するものである。
メーリングリストや、電子掲示板システムなど、ネットワークを利用したコミュニティを通じて膨大な情報が流通している。このようなアプリケーションを利用して、より豊富で質の高い情報を流通させ、知識として蓄積していくためには、システムデザインにおいて、コミュニティ内のコミュニケーションを活性化させるための工夫が必要である。この問題への1つのアプローチが、チャットシステムやテレビ会議システム等へのエージェント技術の適用である(非特許文献1,2参照)。これらのシステムでは、擬人化エージェントが仮想空間でユーザの分身として振舞い、人間同士のコミュニケーションを媒介する。一方、擬人化エージェントを用いて、人対コンピュータのコミュニケーションの円滑化を目指すシステムもある。webページ上でのコマーシャル・エージェントや、ニュースキャスター・エージェント等は最近多く見かけられる例である(非特許文献3参照)。これらはコミュニティ・メンバーに情報提供を行うエージェントである。しかし、従来、このような情報提供エージェントを実装する際には、エージェントの動作やその実行のタイミングを記したスクリプトを人手で作成する必要があり、コンテンツが日々更新されるようなサービスに利用することは難しかった。
さて、従来のシステムとして、放送型コミュニティ支援システム(Public Opinion Channel:POC)(非特許文献4参照)がある。POCは、100字程度のメッセージ,URL,画像からなる知識カードを情報発信の最小単位とする。ユーザが知識カードをPOCシステムに投稿すると、それがコミュニティのメンバーにも視聴可能となる。また、POCの拡張であるEgoChatシステム(非特許文献5参照)では、2人の分身エージェントが番組内容を会話的に演じることが可能になった。
しかし、これまでのシステムでは、映像コンテンツが扱えないなど、テレビ放送型システムとして最も重要である、動的なコンテンツの表現が不十分であった。
Hideyuki Nakanishi, Chikara Yoshida, Toshikazu Nishimura and Toru Ishida. FreeWalk: A 3D Virtual Space for Casual Meetings. IEEE Multimedia, Vol.6, No.2, pp.20-28, 1999. 高橋徹 武田英明 TelMeA: 非同期コミュニティシステムにおけるAvatar-likeエージェントの効果とWebベースシステムへの実装,電子情報通信学会論文誌 D-I, Vol.J84-D-I No.8 pp.1244-1255, 2001. ANANOVA, http://www.ananova.com. FUKUHARA, T., FUJIHARA, N., AZECHI, S., KUBOTA, H., and NISHIDA, T.:Public Opinion Channel: A network-based interactive broadcasting system for supporting a knowledge-creating community, In R.J.Howlett, N.S.Ichalkaranje, L.C.Jain, and G.Tonfoni(eds.); Internet-Based Intelligent Information Processing Systems, World Scientific Publishing, chapter 7(pp.227-268)(2003). 久保田秀和 西田豊明 ユーザの過去の発言を利用した複数エージェントによる創造的な対話の生成, 電子情報通信学会論文誌, Vol. J84-D-I, No.8, 2001. M. Onishi H et al., "Automatic Image Production Using Digital Camera Work,"Meeting on Image Recognition and Understanding 2002 (MIRU2000), vol.I2002,pp.331-336. Cassell, J., Vilhjalmsson, H., Bickmore, T. "BEAT: the Behavior Expression Animation Toolkit." Proceedings of SIGGRAPH '01, pp. 477-486, 2001. Sadao Kurohashi and Makoto Nagao. 1994. A Syntactic Analysis Method of Long Japanese Sentences Based on the Detection of Conjunctive Structures. Computational Linuguistics, 20(4): 507-534, 1994.
本発明の目的は、カードで表現された番組における映像表現を向上させるとともに、ネットワークを介して接続されている端末側の処理を軽減することである。
上述の目的を達成するために、本発明は、マルチメディア・コンテンツ流通システムのサーバ・システムにおいて、表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードで構成された番組を格納した番組記憶手段と、前記画像,前記映像,前記エージェント・アニメーションの動作のライブラリを格納した記憶手段と、前記テキストを音声合成する音声合成手段と、前記番組記憶手段から、番組を構成するカードを読み出して、該カードのテキストを前記音声合成手段で音声合成させるとともに、カードで指定された画像又は映像を読み出し、エージェント・アニメーションの動作を前記ライブラリから読み出して、カード・データ,画像又は映像のデータ,音声及びエージェント・アニメーションの動作データを送信する番組表示手段とを備え、該番組表示手段は、画像又は映像及びエージェントのアニメーションの動作データを、これらを指定しているカードより先に送信することを特徴とする。
また、マルチメディア・コンテンツ流通システムの端末システムにおいて、表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードを受信する手段と、映像画像,音声及びエージェントのアニメーションの動作データを受信するデータ受信手段と、カード処理手段と、映像表示手段と、画像表示手段と、音声再生手段と、エージェント表示手段とを備え、前記データ受信手段は、受信したデータをバッファするバッファ手段を有しており、カード処理手段は、受信したカードを処理し、カードで指定された映像,画像又はアニメーションの動作データ前記バッファ手段から読み出し、前記映像表示手段,画像表示手段,音声再生手段又はエージェント表示手段により表示することを特徴とする。
前記カードで指定された画像又は映像は、ファイル,位置及び拡大・縮小率で指定しており、前記画像表示手段又は映像表示手段は、指定されたファイルが前のカードと同じファイルである場合、位置及び拡大・縮小率の差を求めて、該差から求めた変化率で変化させるカメラワーク生成手段を含むこともできる。
そして、前記カードで指定されたエージェントの動作は、開始時間情報を含んでおり、前記カード処理手段が読み出したエージェントの動作データを受け取った前記エージェント表示手段は、前記音声再生手段から経過時間情報を得て、前記開始時間により該データの動作の表示を開始することで、音声とエージェントの動作を同期させることもできる。
前記送られてきたエージェントの動作データは、エージェントを複数の部分に分割した、それぞれの部分ごとの動作データであり、前記カードで指定する動作データは、部分ごとの動作データを指定しており、前記エージェント表示手段は、部分ごとの動作データをバッファから読み出して表示してもよい。
その上、サーバ・システムにおいて、さらに、カード編集手段を備えており、該カード編集手段は、カードに入力されたテキストを解析し、該解析の結果を用いて、所定の動作選択ルールによりエージェントの動作を前記動作のライブラリから選択するとともに、テキストを前記音声合成手段により音声合成し、対応する動作の開始時間を音声合成の経過時間から得ることで、エージェントの動作を生成するエージェント動作生成手段を含んでもよい。
上述したこれらのシステムを構築させるプログラムも本発明である。
上述した本発明の構成により、端末側では、特別な環境を用意する必要がなく、映像やエージェント・アニメーションによる番組を視聴することができる。
また、提供された番組の視覚表現として、カメラワークや音声による情報と同期したエージェント・アニメーション等を楽しむことができる。
本発明の実施形態を、図面に基づいて説明する。
<マルチメディア・コンテンツ流通システム(SPOC)の概要>
図1は、本発明の実施形態である、ネットワーク上において、ストーリーに基づくマルチメディア・コンテンツ流通システム(SPOC)の概要を示す図である。
SPOCは、大きく分けて図1のように3つのアプリケーションに分けられる。
(A)作成者(デザイナ)がコンテンツに用いる画像や映像を複雑な作業なしで容易に収集、蓄積できるよう支援するためのアプリケーションである素材収集ツール(Material Collector)110
(B)デザイナが(A)の機能によって収集した画像や映像を用いてコンテンツを作成するためのアプリケーションであるカード編集ツール(Editor)120
(C)作成されたコンテンツをエージェントによってコンシューマに提供するためのアプリケーションである番組表示ツール(Viewer)130
次に、それぞれの機能とコンテンツの構造について説明する。
(A)素材収集ツール(Material Collector)110
パソコンやデジタルカメラ、デジタルムービー・カメラの普及によって画像や映像を併せた意見や情報を表現する機会は増えてきている。しかし、特に映像をネットワーク上で情報公開に利用するには一般に次のような作業が必要である。
(1)撮影
(2)ストリーミング形式のファイルに変換
(3)ファイルのネットワーク上公開領域へのアップロード
これらの作業は、特別な技術を持たないユーザがデザイナになる際に障害となることが考えられる。そのため作業の簡略化を行うための機能を持たせた。現在、多くのパソコンやモバイルの多くがWEBブラウザをサポートしているため、USBカメラとマイクを使い、WEBブラウザ越しに直接ネットワークを介して、撮影しながら公開領域に映像ファイルを作成することによって、撮影直後に、コンテンツの作成に映像ファイルを用いることができることとした。
(B)カード編集ツール(Editor)120
この機能は、デザイナがコンテンツを作成するための機能である。POCでは、画像と100文字程度のテキストからなるPOCカードと呼ばれるデータ単位によって、ユーザからの投稿を管理している。SPOCでもこのカード形式を引き継いだ。このカードについては、後で詳しく説明する。
コンテンツは番組と呼ばれる単位で管理される。番組は1枚以上のカードから成る。カードはそれぞれ表示していく順番をつけることによって構成される。カードには、映像の時間軸に対する断片(ex.計3分の映像ファイルの内、20秒目から32秒目の映像部分を指定するなど)、または映像・画像は拡大率、縮小率、表示する範囲を指定する(ex.600×480ピクセルの画像を2倍に拡大し、表示する範囲を座標(400,400)中心とするなど)、エージェントのアニメーション動作等の加工した資料とテキストからなる。エディタ120の機能は大きく分けて以下のようなものが含まれている。
(1)カードの作成
(2)カードに付加する映像ファイル、画像ファイルの指定と映像部分の抜き出し、または映像や画像の拡大率、縮小率の指定と表示範囲の指定、及びテキストの入力
(3)エージェント・アニメーションの作成
(4)作成されたカードの表示する並び順の決定
以上がコンテンツである番組の作成に必要な手順である。このエディタ120についても、後で詳しく説明する。
(C)番組表示ツール(Viewer)130
ユーザがコンテンツの番組を見るための機能である。ビューア130は、大きく分けて2つの部分に分かれる。エージェント部分と映像や画像の表示部分である。
エージェントは、テキストからの音声合成から得られた音声ファイルとジェスチャーによって見る、聞くことができる情報提供を行う。カードがメディアに映像を指定していれば、エージェントの音声に併せてカードで定義された映像部分をユーザに対して提供する。エージェント・アニメーションについては、後で詳しく説明する。
また、SPOCでは、静的な画像を動的な視覚変化のある画像に変化させるためにデジタルカメラワークを利用した。カメラワークは、TV番組などでは重要な役割を果たす。大西はデジタルカメラワークというテクニックを提案した(非特許文献6参照)。これは静的な画像が擬似的にチルトやズームといったカメラワークのように見えるよう描画していくテクニックである。これを、SPOCシステムでは自動的に行うようにした。これについては後で詳しく説明する。
先に述べたSPOCの機能(A)素材コレクタ110、(B)エディタ120、(C)ビューア130は、バックグラウンドのサーバによって必要な処理を行っている。主なサーバは、図2に示すように、ウエブサーバ(HTTPサーバ)140、データベース・サーバ144、ストリーミングサーバ142、音声合成サーバ148である。ウエブサーバ140は、主に端末とサーバとのトランザクション(例えば、カードの新規作成や修正、削除)のCGIによる処理と、ユーザに対するウエブ・ブラウザを通した端末側のインターフェイスの公開を行う。また、ユーザの特定に必要なセッション管理の機能も提供している。データベース・サーバ144は、ウエブサーバ140のCGIを通したユーザ毎のカードのデータの作成、修正、削除、また、番組に必要なXMLデータを一括に管理する。ストリーミング・サーバ142は、WEBアプリケーションから送られる映像データのストリーミング形式での保存、管理、カードによって指定された部分の映像ファイルの作成、管理、また、ビューアへの映像やエージェントの音声のストリーミング・サービスを行う。音声合成サーバ148はエージェントの会話に必要な音声をユーザの音声合成環境に依存させないためにある。基本的にはカードのテキスト作成時にテキストから音声ファイルを作成し、ストリーミング・サーバ142を通じてビューア130に送られる。
<ビューアによる番組の表示>
図面図3〜図9を用いて番組表示を説明する。
図3に、サーバ側のビューア130から端末側に、カード形式による番組構成150が送られて、ウエブのブラウザ内のインターフェース200で表示されている様子を示す。このブラウザ内のインターフェース200は、例えば、ブラウザ内に表示する表示ソフトとして、普及しているMacromedia flashで実装することができる。本実施形態でも、このMacromedia flashで実装している。
図4にインターフェース200の番組表示210内の詳細が示されている。図4において、番組表示210内には、視覚素材表示212と、音声と同期して動くエージェント・アニメーション214が表示されている。
図5(a)には、カードと表示との関係を示しており、図5(b)には、端末側の構成を示している。図5(a)に示されているように、カード内のテキストが、音声合成サーバ148により、テキストから音声合成され、端末側にストリーミング・サーバ142から送られる。視覚素材表示212では、映像、画像、および映像や画像を動くカメラで写したように表示する。
サーバ側のビューア130は、番組コンテンツをXML形式で受け取り、記述されたカード単位で端末側のコンシューマに情報提供を行う。エージェント214は、カードに記述されたテキストを、ジェスチャを伴いながら音声で伝える。これに合わせてカードで定義された映像や画像、またはカード間をつなぐカメラワークによる動的な画像を作りながらの視覚変化のある番組コンテンツによる情報提供を行う。
映像データや画像データなど、テキストに比べ容量の多いファイルによる情報提供を行う場合に問題となるのが、カードとカードの間における映像・画像ファイルのサーバからファイルへの転送に必要な待機時間である。このシステムでは、バッファを設けることによって待機時間を削減している。これは番組を構成している1枚目のカードで指定された映像・画像ファイルを表示している間に、2,3,…枚目のカードで指定された映像ファイル330,画像ファイル320,エージェント・アニメーションのデータ(アニメーション・ライブラリ)350等をあらかじめ、磁気ディスク230上にあるバッファに転送しておく。これによって、カードからカードへの処理の切れ目でも転送待ちが生じにくくなる。
サーバ側のビューア130から、番組を構成するカード、画像ファイル,映像ファイル,音声ファイルや、アニメーションを表示するためのアニメーション・データ等が送られてくる。端末側のアプリケーション(ブラウザ+表示ソフト(Macromedia flash)+ストリーミングで送られた映像の表示ソフト+音声再生ソフト(例えばMP3プレイヤー))で、送られてきたカードを順次解析しながら、テレビの番組のように、図4に示した様に表示する。
<デジタル・カメラワーク>
カメラワークは対象となる画像や映像に定義されている拡大・縮小率と表示範囲を利用して自動的に行われる。図6に、このシステムでのデジタルカメラワークの概要を示す。カメラワークは、同一の画像ファイル330から異なる拡大・縮小率(拡縮率)、異なる表示範囲332,333の指定によって作成された視覚素材を含む、2枚のカード(1)312、カード(2)313が連続して並べられたときに行われる。このように、同一画像を基に作成されたカードが続く時は、何らかのカード間の関係があるとみなす。そして、画像の拡縮率を、表示範囲をいきなり変更するのではなく、徐々に変化していくように画像の描画を行い、ターゲットAからターゲットBに表示を徐々に移動させ、2枚のカードをつなげる。仮に、異なる画像ファイルによるカードが間に入った場合、カメラワーク処理は起らない。
図7に示した、フローチャートで、デジタル・カメラワーク処理の詳細を説明する。図7において、カード(1)の画像Aの表示が終了する(S402)と、次のカード(2)の画像Bが、カード(1)の画像Aと同じファイルかチェックする(S404)。同じファイルでない場合、デジタル・カメラワークの処理は行われず、カード(2)の画像を表示する。
カード(1)とカード(2)の画像が同じファイルである場合、デジタル・カメラワークが行われる(S410)。その場合、まず、カード(1)とカード(2)の、x,y座標と拡大・縮小率(拡縮率)の差を求める。
例えば、図7(a)に示されているカード(1)の画像Aの座標(画像の左上の座標を画像の座標としている)は(x,y)=(100,300)であり、拡縮率は100%である。なお、x,y座標の単位はピクセル(pix)である。図7(b)に示されているように、カード(2)の画像Bの座標(画像の左上の座標を画像の座標としている)は(x,y)=(400,600)であり、拡縮率は150%である。したがって、カード(1)とカード(2)の、x座標の差は300で、y座標の差は300であり、拡縮率の差は50%である。
次に、カード(1)の画像の、x座標,y座標,拡縮率のそれぞれの差から、次のカード(カード(2))の画像を表示する時間(所定時間)で割ることにより、変化分ΔpixやΔ%を求める。
この変化分づつ、カード(1)の画像Aを変化させて表示して(図7(c)参照)、所定時間後に、カード(2)の画像Bとなる(S412)。
なお、映像においても、同じ映像ファイルを指定したカード(1),カード(2)に対して、カード(1)で指定した映像の終了フレームの画像と、カード(2)で指定した映像の開始フレームの画像に対して、上述と同様の処理を行うことで、同様にデジタル・カメラワークの処理を実現することができる。
<エージェント・アニメーション>
図8に、図4に示した番組表示210内のエージェント214のアニメーション例を示す。
ウエブを基としたアプリケーションを介して、アニメーション化したキャラクタを制御するために、RISAアニメーション・システムをマクロメディア・フラッシュ(Macromedia Flash)で実装している。RISAが行ったジェスチャと顔の表情の変化のスナップ・ショットが、図8に示されている。
このアニメーション・システムの基礎的アイディアは、各身体部分のアニメーション断片を集合することで、エージェント・アニメーションを構成する。エージェントの身体は、12の部分(頭,2つの眉、2つの目,2つの瞳,口,2つの手,2つの腕)に分割される。小さいアニメーション断片が各身体部分に定義される(例えば、右の眉を30度上に動かす,右腕を身体の前に動かす)。動作ライブラリの全体の数は、手のジェスチャに対する逆の動作を含んで、300以上である。これらのアニメーションを組み合わせることで、様々な種類のエージェント動作が作成される。組み合わせ自体はほとんど無限であるが、これらのいくつかは、非言語の合図としては意味ある動作として表現されていないと思われる。
図9を用いて、RISAアニメーション・システムが、カード上のアクション表示から、音声と同期したアニメーションを表示しているかを説明する。
RISAアニメーション・システムは、XMLで記述されているカード310中の<agent>タグの中に書かれたスクリプトを、時間順に順次実行することにより、エージェン・アニメーションと台詞の音声(MP3等の形式)とをビューアー上で同期させることを実現している。
図9において、音声再生ソフト(例えば、MP3プレーヤー)で音声ファイル340の再生が開始されると、音声ファイルのプレーヤーに対して、音声ファイル中の現在のポジションを問い合わせることにより、音声開始後の経過時間を知ることができる。
アクション・コマンド(actionタグで記述)中のアニメーション開始時間が、音声経過時間と一致したら、エージェント・アニメーション・ライブラリ(体の部分的なアニメーションの集合)350の中から、該当するIDのアニメーションを実行する。
例えば、以下のようなアクション・コマンドがカード中のエージェント・タグに記述されているとする。
<Action ID="188" Srt="0.02" />
<Action ID="189" Srt="0.06" />
音声再生開始と同時に、RISAアニメーション・システムは、音声ファイルのプレーヤーへの問い合わせを開始する。音声ファイルのプレーヤーに問い合わせ、音声の再生が開始後0.02秒経過したことがわかると、アニメーション・ライブラリの中から188というIDのアニメーションを実行する。同様に、音声開始後0.06秒経過したことがわかると、189番のアニメーションを実行する。これにより、音声と同期してアニメーションを表示することが可能になる。
<編集ツール(エディタ)120の詳細>
図10〜図16を用いて、エディタの詳細について説明する。
まず、図10,図11を用いて、エディタの概要と視覚素材の編集について説明する。
図10は、エディタ120の概要を説明する図である。
素材収集ツール110によって収集された映像や画像は、エディタ120によってカード形式の情報単位として編集されて、番組コンテンツに組み込まれる。エディタ120には、カードの並び順番を決定し、番組構成を行う番組エディタ、個々のカードの編集を行うカード・エディタがある。
図10において、番組コンテンツは、次の手順によって作成される。
まず、番組エディタで新規カードを作成する。
(1)−1 カード・エディタを呼び出し、収集した映像や画像を見ながら、映像の場合は、開始と終了のフレームを特定することで、カードに必要な部分を指定して抜き出す。
(1)−2 拡大・縮小率、表示範囲を指定する。
(2)テキストを加える。
このようにして、順次、カードの編集を行っていく。
(3)編集後のカード群を、ドラッグ&ドロップで順番を入れ替えながら、必要に応じて、カードの編集を繰り返すことによって番組コンテンツが作成される。
作成されたコンテンツのデータはデータベースサーバに記録される。
図11に、視覚素材(映像及び画像)のズーム・スケールと焦点された領域を特定することの操作例を示す。図11において、同じ画像320に対して、カード1では、ターゲットAに焦点を当ててズームしており、カード2では、ターゲットBに焦点を当ててズームしている。ユーザは、この処理を直感的にGUI(ズーム・バー)を操作することで行うことができる。映像においても同様に指定することができる。
<エージェント・アニメーション>
このシステムでは、番組に語り手を実装するため、エージェント動作生成システム(CAST)を開発した。CASTは、エディタ120により起動されて、エージェント・アニメーション・スケジュールを自動的に計算するとともに、エージェントに対する同期した音声を合成する。CASTへの入力は、エディタ120のテキスト・フィールドにタイプされたテキストである。ユーザがテキストをタイプすると、CASTに送られる。
CASTは、次に示す4つの主なモジュールで構成されている。
(1)エージェント動作選択モジュール(Agent Behavior Selection Module:ABS)
(2)言語タグ付与モジュール(Language Tagging Module:LTM)
(3)フラッシュ対応キャラクタ・アニメーション・システム(Flash-based character animation system:RISA (RIStex animated Agent system))
(4)テキスト音声エンジン(Text-to-Speech engine:TTS)(音声合成ツール)
CASTの処理を図12のフローチャートに示す。図12において、テキスト入力を受け取る(S502)と、テキストをエージェント動作選択モジュール(ABS)へ送る。ABSは、言語タグ付与モジュール(LTM)により分析して(S504)、言語情報を得る。そして、この言語情報に基づき、適切な身振りと顔の表情を選択する(S506)。
エージェント動作選択モジュール(ABS)は、テキスト音声エンジン(TTS)を呼び出すことで、タイミング情報を得て(S508)、エージェントの動きセットのために、タイム・スケジュールを計算する(S510)。エージェント動作選択モジュール(ABS)からの出力は、RISAにより解釈され実行できる、アニメーション命令の集合である(S512)。
以下に、各モジュールにおける処理を詳しく説明する。
<エージェント動作選択モジュール(ABS)>
エージェント動作選択モジュール(ABS)への入力は単純なテキストであり、出力は、RISAアニメーション・システムに対する命令の集合である。ABSに対するシステム・アーキテクチャは、BEAT(非特許文献7参照)に基づいている。しかしながら、BEATは英語用として開発されており、日本語の言語情報に対する適切な非言語動作を選択することはできない。このため、日本語のテキストを用いて、適切なエージェントの動きを選択する機構を設計・開発する必要があった。このため、次のような機構が必要である。
−−非言語動作を決定する日本語言語情報を注釈
−−動作選択ルールを日本語テキストに適用して非言語動作を選択
−−日本語特有の構文単位である文節単位ごとに動作を割り当て
これらの各々に対して、次の節で説明する。
(言語情報を注釈)
言語情報を入力テキストに対して注釈するために、日本語に対する自然言語処理ツール(非特許文献8参照)を使用して、言語タグ・モジュール(Language Tagging Module(LTM))を実装した。言語タグ・モジュール(LTM)では、入力テキストは文(sentence)に分割されて、1つずつ処理される。
最も大きい注釈の単位は、発話(UTTERANCE)であり、これは句(CLAUSE)に分割される。アクション(ACTION)タグは動詞句に割り当てられ、目的(OBJECT)タグは名詞句に割り当てられる。文節(BUNSETSU)タグは各文節単位に割り当てられる。最小の単位は単語自身であり、音声情報と見出し語を含んでいる。システムは、前に出てくる単語の履歴を残しており、入力された単語が与えれられたカード内で処理されていない場合、新規(NEW)と示す。
言語理論によると、文の情報構造は、2つの部分、主題(theme)と題述(rheme)で構成されている。
主題(theme)は、先行する句又は文と首尾一貫した関連を形成する文の部分である。題述(rheme)は、主題部分で導入された議論に新しい情報を提出する部分である。題述は新しい情報を表現しているので、身振りや顔の表情を用いて強調している可能性が高い。
一般的に、主題は文の始まり部分に置かれており、題述部分は主題に続いている。日本語では、「は」のような話題指標後置詞(topic marking postposition)で、主題部の最後が印されている。日本語のこの特徴を利用して、与えられた主題を特定している。主題は、文の始めで開始し、話題指標後置詞で終了する。題述部分は、文の残りの部分である。
さらに、実際の人間の表現やニュース・キャスタの動作を分析し、我々のアイディアに対して、さらに知見を得た。例えば、ビート・ジェスチャ(beat gesture)は、しばしば、疑問又は強調の副詞と同時に生じている。
(動作の選択)
これらの全ての知見に基づいて、図13に示す動作選択ルールを作成した。ルール1として、強調する概念に対する特定の映像的ジェスチャ(iconic gesture:形や概念を表現するジェスチャ)は、ジェスチャ・ライブラリ(例えば、「大きい」を表現するジェスチャ・アニメーションがライブラリ中にある)に定義されており、これはビート・ジェスチャ(beat gesture:拍子を取る様なジェスチャ)に優先して選択される。特定のジェスチャが概念に対して定義されていない場合は、ビート・ジェスチャがデフォルトとして使用される。複数のルールが適用できる場合、システムは、異なる身体の部品を使用して、適用できる全ての非言語動作を選択する。例えば、テキストのある部分が題述(rheme)であるとともに新規情報(new)である場合、ビート・ジェスチャ(ルール1),「眉を上げる」(ルール5),「見つめる」(ルール10)が同時に表示される。もっとルールが追加される必要があるが、これらのルールは、エージェントの多様な非言語表現を生成することができる。
出力の例が図14に示されている。終了(end)タグは、場所を節約するために省略されている。
図14において、最初に、発話(utterance)が主題(theme)とともに開始される(Aの部分)と、エージェントはユーザから目をそらすとともに話し始める(タグ(1)参照)。次に、題述(rheme)の開始(Bの部分)で、見つめる動作が選択される(タグ(2)参照)。題述の部分に指示詞があるので、直示的ジェスチャ(deictic gesture)が文節単位に対して選択される(タグ(3)参照)。その上、「眉を上げる」もルール5にしたがって選択される(タグ(4))。このようにして、エージェントは、直示的ジェスチャをしている間、眉を上げる。
(アクション・スケジュール)
非言語動作を決定後、次のステップは、アニメーション・システムにより実行されるタイム・スケジュールを作成することである。非言語動作とエージェントの話とを同期させるため、ABS中のスケジュール・モジュールは、TSSエンジンにアクセスして、各音素のタイミング情報(音素タイプ,開始時刻,及び持続時間)と文節境界を得る。リップ・シンクに対するViseme(口の形状)は音素タイプにより割り当てられる。スケジュール・モジュールの出力は、RISAアニメーション・システムにより実行されるインストラクション・セットの形式とされる。インストラクション・セットの各命令は、アニメーションの動作のタイプと開始時刻を特定する。図14に示した部分の命令の例が、図15に示されている。
例えば、動作 AID='A669'において、右手の指差ジェスチャ(タグ(2)参照)は2.8799秒に開始し、元の位置に3.4003秒に戻る(タグ(13)参照)。動作タイプがVISEMEである場合(例えば、タグ(4)参照)、口の形状タイプと開始時刻は、リップシンクに対して特定する。最後に、アニメーション動作命令は、カード・エディタに戻され、カード内に格納される。
<カード構成の詳細>
カードの構成を説明する。前で述べた、エディタの2段階処理の結果、カードが生成され、カード・データベースに格納される。カード情報は、XML形式で記述されている。XMLの例を図16に示す。
図16において、<CARDS>(タグ(2)参照)は、新規の番組の始まりを意味する。これは、多数のCARD要素から構成されている。<CARD>要素(タグ(3)参照)は番組の構成ブロックであり、ID,BOX,IMAGE,AGENT,及びCOMMENT要素から構成されている。
<ID>(タグ(4)参照)は、CARDのIDを特定する。<BOX>(タグ(5)参照)は、番組中のカードの順番を特定している。<IMAGE>要素(タグ(6))は、いくつかの副要素から構成されており、これらは視覚素材の詳細を特定している。<IMAGEURL>(タグ(7)参照)は、画像およびビデオ・クリップ(映像)が格納されているURLアドレスを特定している。<XSCALE>と<YSCALE>(タグ(8),(9)参照)は、水平と垂直のズーム・スケールを割合(%)で特定している。<XPOS>と<YPOS>(タグ(10),(11)参照)は、表示内における、素材の水平と垂直の位置を特定している。<INIPOS>と<ENDPOS>(タグ(12),(13)参照)は、映像素材の開始/終了フレームを特定している。画像の場合、データの値は「0」である。これらのタグのデータは、視覚素材を編集するときに特定される。
<AGENT>要素(タグ(15)参照)は、CASTにより生成されたアニメーション命令群が含まれており、所定のカードに対するエージェントの動作を特定している。最後に、<COMMENT>(タグ(27)参照)は、カードに対応したナレーションを特定している。
ビューア130がカードを受け取ると、上述のように記述されたXMLタグを解釈して、その内容に従って全ての素材を取得し、端末に対して送る。この処理を繰り返すことにより、このシステムは、連続したカードからテレビのような番組を生成する。
実施形態のシステム(SPOC)の概要を示す図である。 サーバサイドの構成を示す図である。 カードによる番組の提供を説明する図である。 番組の表示構成を示す図である。 端末側で番組を表示するための構成を示す図である。 デジタル・カメラワークを説明する図である。 デジタル・カメラワークの処理を説明するフローチャートである。 エージェント・アニメーションの表示例である。 エージェント・アニメーションの処理を説明する図である。 エディタの機能概要を説明する図である。 視覚素材の編集を説明する図である。 エージェント・アニメーションの生成処理を説明するフローチャートである。 アニメーションの動作選択ルールを示す図である。 テキストに対して、注釈と動作選択ルールを適用した結果の出力例を示す図である。 動作選択の結果を動作命令とした結果の出力例を示す図である。 XMLで記述されたカードの例を示す図である。

Claims (7)

  1. マルチメディア・コンテンツ流通システムのサーバ・システムにおいて、
    表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードで構成された番組を格納した番組記憶手段と、
    前記画像,前記映像,前記エージェント・アニメーションの動作のライブラリを格納した記憶手段と、
    前記テキストを音声合成する音声合成手段と、
    前記番組記憶手段から、番組を構成するカードを読み出して、該カードのテキストを前記音声合成手段で音声合成させるとともに、カードで指定された画像又は映像を読み出し、エージェント・アニメーションの動作を前記ライブラリから読み出して、カード・データ,画像又は映像のデータ,音声及びエージェント・アニメーションの動作データを送信する番組表示手段と
    を備え、該番組表示手段は、画像又は映像及びエージェントのアニメーションの動作データを、これらを指定しているカードより先に送信していることを特徴とするマルチメディア・コンテンツ流通システムのサーバ・システム。
  2. マルチメディア・コンテンツ流通システムの端末システムにおいて、
    表示すべき画像又は映像の指定,エージェント・アニメーションの動作,及びテキストを記述した複数のカードを受信する手段と、
    映像,画像,音声及びエージェントのアニメーションの動作データを受信するデータ受信手段と、
    カード処理手段と、映像表示手段と、画像表示手段と、音声再生手段と、エージェント表示手段とを備え、
    前記データ受信手段は、受信したデータをバッファするバッファ手段を有しており、
    カード処理手段は、受信したカードを処理し、カードで指定された映像画像又はアニメーションの動作データ前記バッファ手段から読み出し、前記映像表示手段,画像表示手段,音声再生手段又はエージェント表示手段により表示することを特徴とするマルチメディア・コンテンツ流通システムの端末システム。
  3. 請求項2に記載の端末システムにおいて、
    前記カードで指定された画像又は映像は、ファイル,位置及び拡大・縮小率で指定しており、
    前記画像表示手段又は映像表示手段は、指定されたファイルが前のカードと同じファイルである場合、位置及び拡大・縮小率の差を求めて、該差から求めた変化率で変化させるカメラワーク生成手段を含むことを特徴とする端末システム。
  4. 請求項2に記載の端末システムにおいて、
    前記カードで指定されたエージェントの動作は、開始時間情報を含んでおり、
    前記カード処理手段が読み出したエージェントの動作データを受け取った前記エージェント表示手段は、前記音声再生手段から経過時間情報を得て、前記開始時間により該データの動作の表示を開始することで、音声とエージェントの動作を同期させることを特徴とする端末システム。
  5. 請求項4に記載の端末システムにおいて、
    前記送られてきたエージェントの動作データは、エージェントを複数の部分に分割した、それぞれの部分ごとの動作データであり、
    前記カードで指定する動作データは、部分ごとの動作データを指定しており、
    前記エージェント表示手段は、部分ごとの動作データをバッファから読み出して表示することを特徴とする端末システム。
  6. 請求項1に記載のサーバ・システムにおいて、
    さらに、カード編集手段を備えており、
    該カード編集手段は、カードに入力されたテキストを解析し、該解析の結果を用いて、所定の動作選択ルールによりエージェントの動作を前記動作のライブラリから選択するとともに、テキストを前記音声合成手段により音声合成し、対応する動作の開始時間を音声合成の経過時間から得ることで、エージェントの動作を生成するエージェント動作生成手段を含むことを特徴とするサーバ・システム。
  7. 請求項1又は6に記載のサーバ・システム、若しくは請求項2〜請求項5のいずれかに記載された端末システムを、コンピュータ・システムに構築させるプログラム。
JP2003400458A 2003-11-28 2003-11-28 マルチメディア・コンテンツ流通システム Expired - Lifetime JP3987483B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003400458A JP3987483B2 (ja) 2003-11-28 2003-11-28 マルチメディア・コンテンツ流通システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003400458A JP3987483B2 (ja) 2003-11-28 2003-11-28 マルチメディア・コンテンツ流通システム

Publications (2)

Publication Number Publication Date
JP2005165438A JP2005165438A (ja) 2005-06-23
JP3987483B2 true JP3987483B2 (ja) 2007-10-10

Family

ID=34724725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003400458A Expired - Lifetime JP3987483B2 (ja) 2003-11-28 2003-11-28 マルチメディア・コンテンツ流通システム

Country Status (1)

Country Link
JP (1) JP3987483B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090002292A (ko) 2007-06-26 2009-01-09 삼성전자주식회사 가상 캐릭터를 동기화하고 공유하는 장치 및 방법
US20200401794A1 (en) * 2018-02-16 2020-12-24 Nippon Telegraph And Telephone Corporation Nonverbal information generation apparatus, nonverbal information generation model learning apparatus, methods, and programs
JP7157340B2 (ja) * 2018-02-16 2022-10-20 日本電信電話株式会社 非言語情報生成装置、非言語情報生成モデル学習装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2005165438A (ja) 2005-06-23

Similar Documents

Publication Publication Date Title
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
JP6972743B2 (ja) オンライン会話ストリームに文書対話を持ち込むためのシステムおよび方法、コンピュータに実装された方法、プログラム、及びコンピュータ化システム
JP5140949B2 (ja) ディジタル情報を処理する方法、システム及び装置
US10372790B2 (en) System, method and apparatus for generating hand gesture animation determined on dialogue length and emotion
WO2007111707A2 (en) System and method for translating text to images
US20090113278A1 (en) System and methods for generating automatic and user-controllable movies of presentations on small devices
CN110602516A (zh) 基于视频直播的信息交互方法、装置及电子设备
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
JP2008003968A (ja) 情報処理システム、情報処理方法及びプログラム
US11178356B2 (en) Media message creation with automatic titling
JP2011175598A (ja) 手話アニメーション生成装置及び手話アニメーション生成プログラム
Bywood Technology and audiovisual translation
JP2023062173A (ja) ビデオ生成方法及びその装置、ニューラルネットワークのトレーニング方法並びにその装置
CN117252966B (zh) 动态漫画生成方法及装置、存储介质及电子设备
US20180276185A1 (en) System, apparatus and method for formatting a manuscript automatically
JP3987483B2 (ja) マルチメディア・コンテンツ流通システム
US20230027035A1 (en) Automated narrative production system and script production method with real-time interactive characters
Amir et al. Automatic generation of conference video proceedings
JP2003219355A (ja) ムービー編集システム及びムービー編集サービスサーバ
Nakano et al. Multimodal story-based communication: Integrating a movie and a conversational agent
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
KR101396020B1 (ko) 컨텐츠 편집툴을 이용한 멀티미디어 컨텐츠 편집 서비스제공 방법
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
KR20100134022A (ko) 실사 토킹 헤드 생성, 콘텐트 생성, 분배 시스템 및 방법
Nakano et al. Cards-to-presentation on the web: generating multimedia contents featuring agent animations

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Effective date: 20060228

Free format text: JAPANESE INTERMEDIATE CODE: A712

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060303

A521 Written amendment

Effective date: 20060228

Free format text: JAPANESE INTERMEDIATE CODE: A821

A977 Report on retrieval

Effective date: 20061011

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Effective date: 20061114

Free format text: JAPANESE INTERMEDIATE CODE: A131

A521 Written amendment

Effective date: 20070111

Free format text: JAPANESE INTERMEDIATE CODE: A523

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070710

A61 First payment of annual fees (during grant procedure)

Effective date: 20070712

Free format text: JAPANESE INTERMEDIATE CODE: A61

R150 Certificate of patent (=grant) or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (prs date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100720

Year of fee payment: 3