JP4077656B2 - 発言者特定映像装置 - Google Patents
発言者特定映像装置 Download PDFInfo
- Publication number
- JP4077656B2 JP4077656B2 JP2002130344A JP2002130344A JP4077656B2 JP 4077656 B2 JP4077656 B2 JP 4077656B2 JP 2002130344 A JP2002130344 A JP 2002130344A JP 2002130344 A JP2002130344 A JP 2002130344A JP 4077656 B2 JP4077656 B2 JP 4077656B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- speaker
- screen
- conversation
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Transfer Between Computers (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
【発明の属する技術分野】
本発明は、ネットワークを利用して複数の発言者がテキストデータまたは音声データにより同期あるいは非同期で会話を行う場合に使用される発言者特定映像装置およびそのプログラムならびに発言者特定映像表示方法に関するものである。
【0002】
【従来の技術】
従来、ネットワークに接続される端末を利用する複数の発言者間において、同期あるいは非同期で情報交換を行えることが知られている。例えば、この同期あるいは非同期の情報交換(以下、単に会話という)には、遠隔地にいる複数の発言者が実時間で会話しあう遠隔地会議システム(同期した場合)や、不特定の複数の発言者がネットワーク上に点在するサーバで開設されている会話場所(チャットルーム)にて実時間で会話しあうチャット(同期した場合)や、サーバに保持される電子掲示板に投稿して会話しあう電子掲示板システム(非同期の場合)や、端末に備えられるメールソフトのメーリングリストを利用して、複数人に一斉に電子メールを送信し、当該複数人から返信メールを受信することで会話する電子メール(非同期の場合)等がある。
【0003】
ところが、ネットワークに接続される端末を利用して行われている複数の発言者による会話において、送受信されるデータの多くは、テキストデータや音声データのみであった。それゆえ、会話に参加している発言者の中で、誰が発言しているのかをスムーズに認識しようとすると、テキストデータや音声データだけでは情報量が少なく、認識しづらく(発言者の特定が困難)、また、発言者の発言内容も理解しづらい場合があり、会話に参加している参加者にとっては、臨場感に乏しく、集中力が欠如しがちになっていた。これらを解消するために、当該テキストデータや音声データに映像を付加するものが実現されている。
【0004】
例えば、テキストデータや音声データに映像が付加された状態での複数の発言者による会話として、会話に参加している参加者を実際に撮像した画像である実動画像と、当該参加者が発言した音声とを送受信するテレビ会議システム、動画像を圧縮画像または静止画を単一画像(静止画像)として送受信する簡易遠隔地会議システム、実動画像からビデオアバターを生成し仮想空間に配置するコミュニケーションシステムが挙げられる。また、複数人により会話した結果である情報(会話情報)を共有することを主な目的とした仮想白板、会話に参加する参加者の代理として人工知能が内蔵されたロボットによる代理会議といった様々な従来技術が存在する。
【0005】
また、テキストデータや音声データに付加される映像を表現する従来技術に関しては、会話に参加する参加者が使用している端末において、当該端末の表示画面に向けた視線の方向によって映像が変化する視線一致ディスプレイ(視線一致技術に基づくもの)や、複数の端末から入力されたテキストデータをキーワードとして、このキーワード同士をマッチングし、このマッチング結果を、テキストデータや音声データに付加される映像に反映させるキーワードマッチングによる画像処理などがある。
【0006】
【発明が解決しようとする課題】
しかし、従来のネットワークに接続される端末を利用してテキストデータまたは音声データに映像を付加した会話のものには、以下に示す問題点が存在した。実動画像と音声とを送受信するテレビ会議システムや、圧縮画像と静止画像とを送受信する簡易遠隔地会議システムは、テキストデータまたは音声データを送受信する従来の遠隔地会議システムに比べ、送受信するデータ容量が格段に多く、特に、テレビ会議システムでは、実動画像として会議に参加している参加者の画像を送受信するので、プライバシー面での問題が発生し易いと共に、大掛かりな設備費やカメラなどの特定器具の準備が必要となってしまうという問題がある。
【0007】
また、チャットなどの一例として、一般的なアバタチャットなどでは、発言者が端末から入力したテキストデータを、発言者の発言代理人である仮想空間上のCGキャラクタを介して会話させるシステムも存在するが、各CGキャラクタの人数に対応する画面構成、ショットの種類、あるいは、画面切替タイミングなどの画面状態についての考慮が全くなされていないため、会話に参加している各発言者にとって会話に対応する画面状態が認識し難い状態となってしまっていた。
【0008】
そのため、発言者の特定の困難さが解消されず、そして前後の流れを踏まえた会話の内容を理解しづらく、臨場感に乏しく、その結果、集中力が欠如し易い状態となってしまうなどの問題点が存在した。
【0009】
本発明は、前記問題点に鑑み創案されたものであり、大掛かりな設備を必要とせずに、ネットワークに接続される端末を利用して複数の発言者が会話を行う場合に、その発言者の特定が容易で、また、会話の内容が理解し易く、さらに、会話に付加された映像に臨場感がある発言者特定映像装置を提供することを目的とする。
【0010】
【課題を解決するための手段】
本発明は、前記目的を達成するため、以下に示すような発言者特定映像装置に係るものとした。すなわち、請求項1に記載の発言者特定映像装置は、発言者を識別するための識別データが付加されているテキストデータまたは音声データによりネットワークに接続される端末を利用して複数の発言者が同期あるいは非同期で会話を行う場合に、前記発言者の特定が容易となる発言者特定映像装置であって、会話を行うための前記テキストデータまたは前記音声データによる会話データを入力するデータ入力部と、このデータ入力部に入力された会話データを解析して前記識別データおよびその会話データの構造的な特徴を示す構造データを抽出すると共に、前記会話データの内容的な特徴を示す内容解析データを抽出するデータ解析抽出部と、CGキャラクタを含む映像の画面構成を決める画面構成手段と、この画面構成手段の画面構成についての遷移確率および発言者の発言長さデータに基づいてその画面構成を遷移させる画面遷移手段と、この画面遷移手段の遷移タイミングを決める画面遷移タイミング手段と、を備える映像生成表示部と、前記各データを記憶するための記憶部と、を備え、前記データ解析抽出部は、前記構造データとして、少なくとも、前記発言者の発言長さを示す発言長さデータと発言者の発言順の通し番号を示す通し番号データとを解析して抽出する会話構造解析抽出手段を備えると共に、前記内容解析データとして、少なくとも、発言者名の引用の有無及び参話者の名前の引用を示す発言者名引用データと他発言者における発言内容の引用の有無を示す発言内容引用データとを解析して抽出する会話内容解析抽出手段を備え、前記画面構成手段は、前記画面構成が発言者のワンショットであるとき、画面の垂直方向l、カメラと被写体の距離D及び画面の高さを1として正規化したサイズrとして、前記発言者を撮影するカメラの垂直画角がθ=2 tan −1(l/2rD)になる前記画面構成を決めると共に、前記画面構成が発言者のワンショット以外であるとき、前記発言者名引用データ及び前記発言内容引用データがある場合には該当する参話者と発言者とを含む最低人数が撮影できる最小画角に、そうでない場合には前発言者を含む最低人数が撮影できる最小画角になる前記画面構成を決める構成とした。
【0011】
このように構成されることにより、発言者特定映像装置は、はじめに、データ入力部により、発言者を識別するための識別データが付加されているテキストデータまたは音声データによる会話データが端末から入力される。
【0012】
識別データが付加されている会話データが入力されると、データ解析抽出部は、その会話データを解析して、発言者を識別するための識別データやその会話データの構造的な特徴となる例えば、発言者の発言長さを示す発言長さデータなどの構造データを抽出し、かつ、会話データの内容的な特徴を示す例えば、発言者名の引用の有無を示す発言者名引用データなどの内容解析データを抽出して映像生成表示部に出力している。なお、ここで使用される識別データは、送信側で付される識別IDや、また、発言者が付加するニックネームや、あるいは、送信側のネットワーク通信における物理的IDなどである。また、会話データが音声データである場合には、あらかじめ登録されている音声データとの比較を行うことで発言者の特定(声紋一致による発言者の特定)を行い、この比較結果に基づいた識別データを生成し、当該音声データに付加してもよい。
【0013】
そして、映像生成表示部では、識別データおよび構造データならびに内容解析データに基づいて、仮想空間における発言者の発言代理人としてのCGキャラクタを含む映像を生成し、会話データを入力してきた端末の表示画面に当該映像を表示させる。このとき、例えば、TVML(TV Program Making Language)を用いてCGキャラクタの配置および背景画を設定し、映像を作成してもよい。そして、CGキャラクタを含む映像は、記憶部に記憶されてあらかじめ準備された、過去の対話番組について所定の視点から分析して統計的算出から作成された対話番組データにより、画面構成、画面遷移、画面遷移タイミングに沿って構成されることになる。そして、この映像生成表示部では、各CGキャラクタに、入力された会話データに基づいて音声合成された音声合成データが付加される。
【0015】
このように構成されることにより、発言者特定映像装置では、データ解析抽出部が、構造データの内、少なくとも、発言者の発言長さを示す発言長さデータと、発言者の発言順の通し番号を示す通し番号データと、どの発言者が発言しているかを示す発言者データとを、解析して抽出する。そして、内容解析抽出手段が、内容解析データの内、少なくとも、発言者名の引用の有無を示す発言者名引用データと、他発言者における発言内容の引用の有無を示す発言内容引用データとを、解析して抽出して、映像生成表示部に各データを受け渡している。
【0017】
このように構成されることにより、発言者特定映像装置は、対話番組データから画面構成、画面遷移、画面遷移タイミングについて、画面構成手段、画面遷移手段、画面遷移タイミング手段により、発言者の会話を行うCGキャラクタを含む映像の構成を行っている。
【0018】
また、請求項2記載の発言者特定映像装置は、請求項1に記載の発言者特定映像装置において、データ解析抽出部は、前記会話データに基づいて、前記CGキャラクタの表情を変えるための表情データを抽出する表情データ解析抽出手段を備える構成とした。
このように構成されることにより、データ解析部の表情データ解析抽出手段により各発言者の発言に対応してCGキャラクタの表情を反映させることができる。
【0019】
そして、請求項3に記載の発言者特定映像装置は、請求項1又は請求項2に記載の発言者特定映像装置において、前記データ解析抽出部は、前記会話データに基づいて、前記CGキャラクタの配置についてカメラ視線位置を含めた八角形の頂点位置に配置すると共に、前記内容解析データに基づいて、前記カメラ視線位置に対面する位置に、前記CGキャラクタの着座基準点を決定し、この着座基準点の左右に順次残りの前記CGキャラクタの配置を決定する発言者配置解析手段を備える構成とした。
【0020】
このように構成されることにより、発言者配置解析手段によりCGキャラクタの配置がCGキャラクタを映像とする場合に、内容解析データに基づいて決定されることになり、会話の中心的な役割を担うCGキャラクタをカメラ視線位置に対して対面する着座基準位置に決定し、順次、発言回数が多いなどのCGキャラクタを着座基準位置に近い位置に配置することができる。
【0026】
【発明の実施の形態】
以下、発明の実施の形態について図面を参照しながら説明する。
(発言者特定映像装置の構成)
図1は発言者特定映像装置を示すブロック図である。
図1に示すように、発言者特定映像装置1は、ネットワーク6(インターネット等)を介して、発言者が所有する複数の端末に接続されており、端末の入力部8を介してテキストデータまたは音声データの会話データを受信して、当該会話データが入力されるデータ入力部としてのデータ送受信部2と、このデータ送受信部2に入力される発言者からの会話データを解析して所定のデータを抽出するデータ解析抽出部3と、このデータ解析抽出部3で解析して抽出された各データにより発言者のCGキャラクタを生成して、端末の表示画面である映像表示部7上に表示させる映像生成表示部4と、各データを記憶する記憶部5とを備えている。
【0027】
なお、この実施の形態の説明では、発言者特定映像装置1を中心機構とし、各端末を末端機構とした集中制御型システムとして説明しているが、各端末の代わりに発言者特定映像装置1を複数備えた分散制御型システムとしても差し障りはない。つまり、この場合、発言者特定映像装置1が映像表示部7と入力部8とを備えることになる。
【0028】
まず、端末について説明する。端末は、ネットワーク上に接続されているPC、携帯端末(モバイルコンピュータ、PDA等)、携帯電話等であって、この端末は、映像表示部7と入力部8とを備えている。映像表示部7は、発言者特定映像装置1から送信されたCGキャラクタを含む映像を表示するものである。入力部8は、発言者の音声データあるいはテキストデータを会話データとして入力するためのものであり、ここでは、キーボードあるいは音声マイクなどを備えている。
【0029】
そして、端末の入力部8から入力されたデータが音声データである場合には、端末に備えられている音声抽出ソフトにより入力された音声データが、どの発言者によるものであるかについて比較手段(図示せず)などが用いられて、あらかじめ記憶されている音声データと比較された後に、識別データが作成されて、この識別データが音声データに付された状態で発言者特定映像装置1に送信する構成としても良い(例えば、特開2001−69436)。
【0030】
次に、発言者特定映像装置1について説明する。データ送受信部2は、端末の入力部8から送られてくる発言者の識別データ、会話データ(テキストデータ、音声データ)を受信すると共に、データ解析抽出部3および映像生成表示部4により、発言者のCGキャラクタを含む映像に基づいた会話状態を示す映像データを、発言者あるいはネットワーク(インターネット等)に接続されている端末装置(PC等)に送信されるように構成されている。なお、ここで使用される会話データは、キーボードなどから入力されるテキストデータと、音声マイクから入力される音声データである。また、このデータ送受信部2で受信した会話データは、一度記憶部5に記憶される。
【0031】
データ解析抽出部3は、データ送受信部2で受信された会話データから発言者の識別データを抽出し、会話データの構造的な特徴を示す構造データおよび識別データについて解析して抽出する会話構造解析抽出手段3Aと、その会話データについて内容的な特徴を示す内容解析データについて解析して抽出する会話内容解析抽出手段3Dと、発言者の映像上の配置を決めるための配置データを会話データから解析して抽出する発言者配置解析手段3Hと、発言者のCGキャラクタのジェスチャあるいは感情表現を付加するためのデータを会話データから解析して抽出するジェスチャ解析手段3Jとを備えている。
【0032】
会話構造解析抽出手段3Aは、会話データに付加されている識別データを分離するか、会話データからどの発言者が発言しているのかを解析して識別データを抽出する発言者解析手段3aと、会話データから発言者の発言順の通し番号を解析して通し番号データとして抽出する通し番号解析手段3bと、会話データの構造的な特徴を示す発言者の発言長さデータを解析して抽出する発言長さ解析手段3cとを備えている。
【0033】
発言者解析手段3aは、会話データに付随するあるいは内在する識別データを解析して抽出するものである。また、ここで使用される識別データは、送信側の端末装置のアプリケーションで付加される識別IDや、また、発言者が会話データに付加するニックネームや、あるいは、送信側の端末装置の備えるシステムのネットワーク通信における物理的IDなどがある。また、会話データが音声データである場合は、あらかじめ登録されている発言者ごとの音声データとの一致度を検出することで識別番号を付して識別データとすることも可能となる(特開2001−69436を参照)。
【0034】
通し番号解析手段3bは、通し番号データを会話データの時系列における蓄積経過から一定時間ごとに発言者の発言順として、基本的には蓄積時刻の順番に基づいて特定するものである。なお、この通し番号解析手段3bは、通し番号データとして、発言内容から各発言者の配置を解析して決める発言者配置解析手段3Hの配置データを考慮して決められるものであっても良い。
【0035】
発言長さ解析手段3cは、会話データが音声データである場合、実際の発言時間を解析(測定)して発言長さを抽出(特定)するものであり、また、会話データがテキストデータである場合、音声合成速度から計算(解析)した発言者の発言長さを抽出(特定)するものである。
【0036】
会話内容解析抽出手段3Dは、会話データから他の発言者の名前、ニックネーム、などの他発言者の引用についての有無を示す発言者名引用データとして解析して抽出する発言者名引用解析手段3dと、会話データから他発言者の発言内容についての引用の有無を示す発言内容引用データを解析して抽出する発言内容引用解析手段3eと、会話データから発言者のCGキャラクタの表情を変えるための表情データを解析して抽出する表情データ解析抽出手段3fなどを備えている。
【0037】
発言者配置解析手段3Hは、発言者の最大数を7人として、カメラ視線位置を含めて8角形の頂点位置に各発言者が配置されるように、時系列に沿って並べた会話データの中を解析して各発言者の配置位置を決定するものである。なお、発言者が8人以上である場合は、あらかじめ決めた司会者(会話の進行役として設定する、例えば、はじめに発言した第一発言者)が他の発言者の発言を代理して行うようにしている。
【0038】
ここで、発言者配置解析手段3Hによる解析結果に基づいて、映像生成表示部4で生成される仮想空間上における発言者の人数に応じた配置状態を図5に示す。図5は、2人から7人までの配置状態を平面的に示す模式図である。なお、発言者の人数が、偶数人である場合は、司会者の位置を着座基準点とした場合、この司会者に対して右側と左側のどちらとなっても構わない。
【0039】
そして、この発言者配置解析手段3Hでは、発言内容から発言の中心となる発言者を司会者(第一発言者)として、各発言者の映像上の配置を設定している。この発言者配置解析手段3Hでは、各発言者の配置を考慮する場合、その司会者の位置を基準配置とし、時系列に沿って並べた会話データの中を調べて、次の要素(A)〜(C)を元に発言者の配置順を決定していく。以下、発言者を単に話者と称し、また、発言者の発言を聞いているものまたは発言者の発言に応答しようとしているものを参話者とし、発言者と参話者とをあわせて、出演者(司会者も含む)と称することもある。
【0040】
すなわち、要素(A)として、続けて発言する発言者同士がより近くなるように映像画面上に配置する。要素(B)として、発言回数が多い発言者が司会者により近くなるように映像画面上に配置する。要素(C)として、各参話者の初回の発言が早い順番に司会者に近くなるよう映像画面上で配置する。
前記した要素(A)〜(C)を用いて、発言者配置解析手段3Hは、以下に示す所定の算出方法により発言者の配置を設定するためのデータを抽出している。
【0041】
ここでは、説明のため、発言者Aの発言(utterance)をUi(A)(添え数字iはテキストデータを時系列順に並べたときの順番)、Bの発言をUi(B)のように表記する。このとき、テキストデータが「Aの発言」「Bの発言」「Aの発言」の順になっている場合は[U1(A),U2(B),U3(A)]として表す。
【0042】
これらの数値を用いて表したとき、前記の要素(A)はminiΣ(i=0〜k)2sin(hπ/8)(但しk=発言者の数、h=[Ui-1(A),Ui(B)]=仮想空間上の前記八角形の対角線を1とした場合の話者Aと話者Bの距離を計算したもの)つまり、配置可能であるすべての配置組み合わせに対して、出演者間の距離を時系列データに沿って算出した総和が最小になる着座パターンを選び出し、これに決定する。この総和が同じになる配置パターンが2つ以上存在する場合については、要素(B)における決定法を適用する。
【0043】
要素(B)によって配置を決定するためには、時系列に並べたテキストデータの全要素に対して、発言者毎に要素出現回数をカウントし、出現回数が多い要素に対して着座基準点近くに配置する。参話者毎の要素出現回数のカウントが同数である対象参話者については要素(C)における決定方法を適用する。
【0044】
要素(C)によって配置を決定するためには、時系列に並べたテキストデータの要素を順番に調べ、対象参話者の発言中で最も初めに要素が出現する参話者から順に着座基準点近くから配置する。
【0045】
このように、発言者配置解析手段3Hでは、以上で述べた手法に基づいて出演者の選抜・位置・空間配置の決定を行なうことによって、後記する映像生成表示手段4において、参話者の位置関係を無理のないカメラアングルで表現することが可能となり、映像化の際に、発言者同士を結んだ軸である会話軸を最小限設定するだけで済み、当該会話軸を超えた不要なスイッチング(ショット切替)を必要最小限に抑える事が可能となる。
【0046】
なお、発言者解析手段3a、発言者名引用解析手段3d、発言内容引用解析手段3e、表情データ解析抽出手段3f、ジェスチャ解析手段3Jは、ここでは、形態素解析を行って、文字列マッチングあるいは文字列テンプレートマッチングにより各データを抽出している。
【0047】
また、ここでは、会話データについて各手段により解析したテキストデータの結果を用いてTVML変換手段(図示を省略)により、あらかじめ用意されているCGキャラクタに対応させて映像となるように、TVMLの台本を生成している。
【0048】
例えば、識別番号Aの発言者が、会話データとして発言内容を示すテキストデータに「Good evening」というデータが受信された場合、これを文字列変換し、「character: talk(name=A,text=”Good evening”)と直し(図6参照)、これをTVMLプレーヤーというアプリケーションに渡し、最終的に、図3で示すような画面を生成し、CGキャラクタが「Good evening」としゃべる映像と合成音声を同時に出力するようにしている。なお、この合成音声については、図示および詳細な説明は略しているが、当該発言者特定映像装置1に備えられている一般的な音声合成装置(音声合成手段)によって、会話データ(テキストデータおよび音声データ)から合成音声が生成され、CGキャラクタの動作に同期するように付加されている。
【0049】
また、ジェスチャ解析手段3Jは、各CGキャラクタのジェスチャの自動付加、発言の継続を促すジェスチャの付加、感情表現のジェスチャ再生についてTVML形式により各CGキャラクタが映像となったときに、そのCGキャラクタに表現あるいは表情をもたせた映像として反映させるデータを、会話データから解析して抽出するためのものである。
【0050】
<ジェスチャの自動付加>
ここで、ジェスチャ解析手段3Jによって解析された結果に基づいて、映像生成表示部4で生成される映像について説明する。映像生成表示部4では、ジェスチャ解析手段3Jによる解析結果によって、生成される映像に、自動的にジェスチャが付加される(ジェスチャの自動付加)。例えば、ここで説明するジェスチャの自動付加は、CGキャラクタによる討論番組をより自然に見せるために付加する演出を行うためのものであり、ジェスチャ解析手段3Jにより会話データから必要となる解析データ(解析結果)が抽出されている。
【0051】
<発言の継続を促すジェスチャの付加>
討論番組は基本的に対面会話の形式で行われる。そこで、映像生成表示部4により自動生成するCGキャラクタを含む映像も、出演者が対面した状態で討論を行う形式の番組を自動生成することとなる。
【0052】
一般に、対面会話において発言が長い場合、参話者は短い節の「アック」と呼ばれるものを発する。この「アック」とは具体的には相槌、うなずき、微笑などによって示され、相手の発言を受け止め、話の継続を促す動作をいう。参話者は、「アック」を発することで、発言者に対して、自分が発言者の話に耳を傾けているということを示すと共に、発言者の話がまだ途中であることを認識していることを示す役割がある。この様な「アック」は、話の終わりや文法的切れ目近くにおいてその77%が発せられ、そのうち45%が、話者の発言にかぶって行われるという統計がなされている。また、30単語以上の長い会話において、「アック」はおよそ9単語前後の主要なインターバル内に起こり、およそ80%が15単語内に少なくとも一回起こるという。
【0053】
これらの統計データに基づき、ジェスチャ解析手段3Jは、会話データを解析した場合、TVML変換手段(図示を省略)によりTVML台本を生成する際(漢字かな混じり文において)に、50文字以上の長い発言においては、対話参話者にうなずかせ、対面会話が自然な形で行われるように解析データ(解析結果)を抽出している。ジェスチャ解析手段3Jにおいて、うなずくタイミングの算出は、50文字程度のテキストごとに、話の終わり又は文法的な切れ目を会話データより検出し、乱数でばらつきをもたせ決定したタイミングによってCGキャラクタがうなずく動作を付加するように解析データが抽出される。
【0054】
<感情表現のジェスチャ再生>
また、近年、電子メール、チャット、掲示板などのインターネットメディアにおいて、独特の感情表現形式が広く用いられている。代表的なものを次に示す。「スマイリー」:[:-P ]記号の組合せにより顔の表情を表現したものや、また、
[!+]や[?+](+は0個以上の任意の個数)記号を複数個重ねた感情表現の強調 例)「なんで????」など、あるいは、[(文末文字の)母音+]や[文章][ー+]語尾伸ばしによる感情表現の強調 例)「うひゃぁぁぁぁ!」、さらに、(笑)(泣)などがある。
【0055】
これらの感情表現には、発言者の感情の表現、きつい表現を和らげる、細かなニュアンスを表現する、強調を表現する、といった役割があるという。そこで、テキストデータの中に、これらの感情表現形式(以下、表現データという)が含まれている際に、ジェスチャ解析手段3Jは、表現データを解析して抽出する。その解析結果に基づいて、映像生成表示部4では、それぞれの表現形態について、あらかじめ設定した適当なジェスチャをCGキャラクタに付加させることができる。なお、CGキャラクタの表情を変える表情データについても表情データ解析抽出手段3fが解析して抽出することで、CGキャラクタの表情も豊かにさせることもできる。
【0056】
なお、CGキャラクタの表情あるいはジェスチャを付加する方法として、予め端末の入力部8で入力される会話データにタグ付けがなされたデータを送受信することで行っても構わない。このタグを付す方法としては、あらかじめ決められた印をテキストデータの発言内容に付加するものとして、感情表現を表す印(この例の場合タグで囲んでいる。)を発言時に付加し、それを送受信する。この方法をとる場合には、データ解析抽出部3において、この印を検知する工程と、データ映像生成表示部において検知したものをCGキャラクタに反映させる工程を設けることで対応することになる。
【0057】
また、会話データをXML形式でメタデータ化し、送受信する場合、これをデータ解析抽出部3において、既存のXMLパーサー(図示を省略)をもちいてタグ検出を行い、このタグ情報も映像生成表示部4に渡し、映像生成表示部4では、TVMLの機能として整備されているキャラクタ表情生成を行うようにしてもよい。さらに、発言内容から文字列マッチングにより感情表現を検出し付加する方法としても構わない。
【0058】
つぎに、映像生成表示部4について説明する。映像生成表示部4は、データ解析抽出部3から受け取った各データに基づいて仮想空間上における発言者の発言者代理人であるCGキャラクタを含む映像を、発言者が所有する端末の映像表示部7に表示させるためのものである。この映像生成表示部4は、発言者の発言者代理人であるCGキャラクタを含む映像の画面構成を決めるための画面構成手段4aと、この画面構成手段4aの画面構成について遷移確率および発言者の発言長さデータに基づいてその画面構成を遷移させる画面遷移手段4bと、この画面遷移のタイミングを決める画面遷移タイミング手段4cとを備えている。そして、この映像生成表示部4は、過去に撮影された討論番組における実際の対話番組に関するデータを解析してその結果を対話番組データとして作成される映像に反映されるように構成されている。
【0059】
なお、対話番組データは、記憶部5に記憶されている。また、CGキャラクタは、あらかじめCGにより生成されているものを用いたり、あるいは、発言者が用意したものを用いたりして、TVMLによる映像に反映させるようにしている。
【0060】
この対話番組データとしては、この実施の形態では、討論番組制作時において、視聴者の視線で客観的に討論を見ることができるような、第三者的な視点から映像作りが行われたものの中から、さらに画面構成の工夫により話者同士の位置関係がわかり易くされ、ショットの挿入により参話者間の関係が示唆され、視聴者の興味を引きつける、といった演出が行なわれたものが厳選されて記憶部5に記憶されている。また、通常、これらの演出は、映像を作る上で重要な要素のひとつであって、番組制作者の経験則に基づいて行なわれており、この経験則が対話番組データとして映像生成表示部4に反映できるように構成されている。
【0061】
具体的には、対話番組データとして、この経験則を統計的に算出するため、実際に放送された討論番組42討論、30時間、9000カット分を様々な角度から分析して、この分析結果を用いて、映像化に関する主な演出として「画面構成」、「画面遷移(ショット決定)」、「画面遷移タイミング(スイッチングタイミング)」の規則についての統計的算出を行なったものを画面構成手段4a、画面遷移手段4b、画面遷移タイミング手段4cにより生成される映像に反映できるように構成されている。
【0062】
なお、番組制作者の経験則を統計的に算出する際、主観的な演出や、間違ったテキスト解釈による演出付加を避けるため、テキストの表層的な特徴だけを用いて効果的な演出を付与する算出方法として分析した結果を反映させている。
【0063】
ここで、対話番組データについて説明する。対話番組データの構成は、複数の発言者による対話の発言毎に、発言者のワンショット(1S)を撮る画面構成を用いて、発言毎のワンショットを、対話の流れに沿って順番につなぎ番組を構成していく討論番組におけるカメラワークの基本を参照している。
このワンショットは、出演者の発言を客観的立場から見ることができるように、ここでは、目線をはずした角度からのアングルを用いている。
【0064】
また、視聴者が対話の流れをスムーズに理解できる様に演出するためには、ワンショット以外に、出演者の位置関係が分かり易い複数のショットを撮る必要がある。この複数のショットには、発言者同士を直線でつなぐ会話軸の同じ側から撮るショット(会話軸同一ショット)や、画面上で発言者の視線方向にスペースをあけて撮るショット(発言者視線方向ショット)などがある。映像生成表示部4の説明に戻る。
【0065】
画面構成手段4aでは、これらの対話番組データに沿って、データ解析抽出部3で抽出された画面構成に関するデータに基づいて、CGキャラクタ毎に自動的に画面構成が行なわれるように構成されている。
【0066】
具体的には、画面構成手段4aでは、例えば、構成する画面が「発言者のワンショット」であるとき、この発言者を撮影するカメラの垂直画角がθ=2tan−1(l/2rD)(lは画面の垂直方向、Dはカメラと被写体の距離rは画面の高さを1として正規化したサイズ(ワンショットでr=0.6))になるような画面構成の映像を生成している。
【0067】
この画面構成手段4aによって施される処理には、例えば、発言内容に参加者の名前の引用である発言者名引用データ、他の発言者が発言した発言内容の引用である発言内容引用データがある場合には、一例として、該当する発言者のいる方向の画面をあき気味にする(真中から20%ずらす)視線処理があり、そうでない場合には前発言者のいる方向の画面をあき気味にした画面を生成する処理が挙げられる。
【0068】
また、画面構成手段4aにおいて、構成する画面が「発言者のワンショット」以外である場合、例えば、発言者と参話者を写す話者周辺のショットを映像とした場合、つまり、この「参話者のショット」では、発言内容に参話者の名前の引用である発言者名引用データ、他の発言者が発言した発言内容の引用である発言内容引用データがある場合は、該当する参話者と発言者を含む最低人数が撮影できる最小画角に、そうでない場合には前発言者を含む最低人数が撮影できる最小画角にした画面構成の映像が生成される。
【0069】
画面遷移手段4bは、画面構成手段4aで構成された画面を遷移確率および発言者の発言長さデータに基づいて遷移させるものである。例えば、画面構成手段4aで構成された画面が、「発言者のワンショット」であり、この「発言者のワンショット」をつないで討論番組を構成させる場合に、一回の発言が長い時などは、長時間の固定ショットだけでは視聴者が退屈してしまうため、画面遷移手段4bは、視聴者の興味を引きつけておくために画面に動きと変化を与える事を目的として、適宜その他のショットに画面構成を遷移させて行くものである(他のショットを挿入していくものである)。
【0070】
この画面遷移手段4bでは、ショットの挿入の際、不必要なショットの乱用は、視聴者の混乱を招く恐れがあり、短いカット切り替えは、視聴者に緊張を強いる事になるので安易に繰り返すべきではなく、また、パンニングなどを使った連続的なカメラ移動は、画面を気ぜわしいものとするので討論番組には不向きであること等が考慮されて画面構成の遷移が設定されている。
【0071】
つまり、画面遷移手段4bでは、周囲の状況を示すためのロングショットや、発言に対するリアクションを行う参話者を捉えたショットなどを適宜挿入し、出演している発言者の相互関係を明らかにしながら、視聴者の注意を促しつつ、画面に変化を与えるようなショットを選択する必要がある。
【0072】
したがって、実際の討論番組におけるショットの種類を映像中の出演者に注目して大別すると、(1)発言者(話者)のワンショット(1S)と、(2)発言者を含む複数人ショット(話者周辺ショット)と、(3)参話者1Sと、(4)参話者を含む複数人ショット(参話者周辺ショット)と、(5)ドリーショットとに分けられるので、これらのことを考慮して画面遷移手段4bでは、前記各ショット(1)〜(5)の画面構成を遷移させるように構成されている。
【0073】
画面遷移手段4bでは、画面構成手段4aにより画面構成された画面構成データである各ショット(1)〜(5)について、当該各ショット(1)〜(5)の遷移確率が設定される。この遷移確率としては、対話番組データに基づいた統計処理の結果、各ショット(1)〜(5)に対して55%、16%、11%、7%、10%(各ショットのカット数/全体のカット数)の割合であった。なお、会話開始時に限ると、ショット(1)〜(5)が各70%、19%、1%、5%、5%と、発言者が写される遷移確率が高く、また、その後挿入されるショットの種類については、特に直前のショットとの関係が高いことがわかった。これらの関係を表1として示し、図2のフローチャート中に反映させている。
なお、表1について一列目の数値をA1〜A5で図2の点線で囲むA1〜A5で示すように反映させている。また、2列目以降は同様に、図2の点線で囲むA1〜A5の下方の数値に反映されている。
【0074】
【表1】
【0075】
画面遷移タイミング手段4cは画面遷移手段4bによって設定された次のショットに画面を遷移するタイミングを決定するものである。この画面遷移タイミング手段4cで行っているショット切替えのタイミングの算出方法について説明する。ショットを切り替えるタイミングを、前記各ショット(1)〜(5)に示す種類だけに基づいて決めると、対話番組データに基づいた統計処理の結果、例えば、発言者のワンショットの場合、切り替えタイミングを実データで調査したところ、標準偏差を利用した予測値である16秒±12秒に入っていたものが20%にしかならなかった。これは全てのショットについて同様であった。そこで、ショットを切り替えるためのタイミングを決める主な要因の洗い出しを、実際に放送された討論番組42討論、30時間、9000カット分から行なった。
【0076】
その結果、画面遷移タイミング手段4cによって画面を遷移させるタイミングは以下に記載した時点が適切であるとした。(1Y)番組構成上の理由でスーパーインポーズや説明フリップが映されたとき(Super)、(2Y)発言中に参話者の名前が引用されたとき(名前引用)、(3Y)参話者がジェスチャを起したとき(ジェスチャフォローショット(ジェスチャ))、(4Y)ひとつの発言が長く画面に変化をつけるほうが演出上望ましいとき(長い発言)、(5Y)他の参話者の発言を引用したとき(発言引用)等である。
【0077】
そして、前記(1Y)〜(5Y)までの要因とショットの継続時間について対話番組データ(討論番組)を対象として調査した結果を表2に表す。
【0078】
【表2】
【0079】
この表2に示すように、例えば、話者1Sの場合、スーパーインポーズ(Super)が行われたショットの平均継続時間は25.51秒で、その標準偏差は10.34秒であった。ショットの継続時間(遷移タイミング)は、この表2を基準として算出した。つまり、スーパーインポーズ(Super)が行われるようなショットは25.51±10.34秒の継続時間からランダムに決定される。このように、(1Y)〜(5Y)までの要因とショットの継続時間(目的変数)とを算出して画面遷移タイミングに反映させた。結果、重相関係数0.83(予測精度70%)まで予測精度を高めることができたので、これら前記(1Y)〜(5Y)までの要因をそれぞれ以下の項目から抽出した。
【0080】
すなわち、予測精度を高める要因を抽出する方法としては、(1a)各参話者の初回発言時のスーパーインポーズ挿入および入力テキスト内に参考URLが存在するときの説明フリップ挿入と、(1b)入力された入力テキストと発言者名のパターンマッチングによる要因の抽出と、(1c)自動付与されたCGキャラクタジェスチャ(後記する)の動作タイミングと、(1d)入力テキストの長さを標準的話速(150文字/分)で計算して得られた発言持続時間と、(1e)入力テキスト同士のパターンマッチングによる要因の抽出とが挙げられる。
なお、予測精度は、実際に撮影された討論番組構成に対しての再現性の類似度を示している。
【0081】
そして、前記(1a)〜(1e)の方法で、前記(1Y)〜(5Y)までの要因を抽出し、得られた統計値を基準に、各要因に応じた残差(各ショットの予測残差)の分散でばらつきを持たせ、画面遷移タイミング手段4cのスイッチングタイミング(画面遷移のタイミング)を決定した。
【0082】
このように、映像生成表示手段4では、過去の実際に放送された討論番組42討論、30時間、9000カット分(対話番組データ)から、画像構成手段4a、画像遷移手段4bおよび画像遷移タイミング手段4cにより、画像構成、画像遷移、画像遷移タイミングなどが設定され、TVML形式で発言者のCGキャラタを含んだ映像が生成されて、端末の映像表示画部7に表示されるように構成されている。
【0083】
なお、記憶部5は、各データを記憶するためのものであり、例えば、ハードディスクなどのデータを記憶することができるものであれば、特に限定されるものではない。
【0084】
つぎに、図1ないし図6を参照して図2および図3ならびに図6を中心に、発言者特定映像装置1の作用について説明する。図6は発言者特定映像装置1における情報の全体の流れを模式的に説明する模式図である。
図6に示すように、発言者特定映像装置1の概略的な流れをはじめに説明する。発言者特定映像装置1では、発言者が、端末の入力部8からネットワーク6およびデータ送受信部2(図1参照)を介して会話データ(テキストデータ)が入力される。すると、発言者特定映像装置1のデータ解析抽出部3では、このテキストデータからTVML台本が作成される。また、このデータ解析抽出部3では、会話構造解析抽出手段3Aによって、発話順、回数、長さ等の構造データが抽出され、会話内容解析抽出手段3Dおよびジェスチャ解析手段3Jによって、名前引用・感情表現などの内容解析データが抽出される。
【0085】
そして、発言者特定映像装置1の映像生成表示部4では、データ解析抽出部3で解析された構造データ、内容解析データおよびTVML台本により演出(ショット・時間[遷移タイミング]・ジェスチャ)が決定され、コントロールモジュールを介してCGキャラクタによる映像が対話番組として出力制御される。
【0086】
つぎに、発言者特定映像装置1による動作について、詳しく説明する。
はじめに、各発言者は、端末の入力部8からテキストデータあるいは音声データを会話データとして入力して、ネットワーク6を介して、その会話データをデータ送受信部2に送信する。会話データを受信したら、データ解析抽出部3の各手段により、必要なデータを解析して抽出する。このデータ解析抽出部3では、入力された会話データ順に、抽出した識別データと通し番号とに基づいて、出演者(発言者と参話者)が決定(選抜)される。なお、この実施の形態では、最初に発言した発言者を第一発言者とし、この第一発言者を司会者として設定している。
【0087】
つまり、従来の電子掲示板やメーリングリストを利用したものなどの対話の多くは、偶発的にコミュニティを形成している場合が多く、通常、参話者間で明確な役割分担が行なわれていない。そこで、この発言者特定映像装置1では、複数の発言者から入力された会話データにおいて、この複数の会話データによって繰り広げられる対話全体を方向付けるきっかけを与える役割をもつ最初に発言をした発言者を司会者として扱うことにした。
【0088】
更に、ネットワーク上の偶発的なコミュニティ内での対話の多くは、不特定多数の発言者が参話している場合が多いため、この不特定多数の発言者をすべて一つの番組(仮想空間上)内にCGキャラクタとして出演(出力)させてしまうと、人数が多くなり過ぎることで、視聴者(発言者)が出演者(発言者、参話者)を識別することが困難になってしまう恐れがある。
【0089】
人間が似通った性質や形状の多数のものを同時に識別し、無理なく識別認識できる最大値は7であると言われているため、このデータ解析抽出部3では、発言者の内、出演する最大数を7人に制限することにした。テキストデータの中に、7人以上の発言者が存在する場合には、発話頻度の高い発言者上位7人を出演者と決定する。それ以外の発言者の発話に関しては、前記した司会者が代理発話をし、番組を進行するものとした。
【0090】
つぎに、発言者特定映像装置1のデータ解析抽出部3では、抽出した識別データと通し番号とに基づいて、出演者(発言者、参話者)の空間配置位置の決定が行われる。
出演者(発言者、参話者)の空間配置を決定する際、前記したように発言者の最大数が7人であるため、メインとなる映像を捉えるカメラを加え、8角形上に配置する事が基本とされる。この場合、図5に示すように、カメラの対向位置に司会者を配置することにする。このように配置することで、最大人数時に等間隔に座ることができ、且つ、少人数時に出演する発言者同士の間隔が開きすぎて相対位置がわかりにくくなるのを防ぐことができる。また、発言者が少人数の場合、発言者を司会者に隣接した位置に配置することで、狭い画角でも多くの発言者を撮る事ができる(図5参照)。
【0091】
さらに、データ解析抽出部3では、出演する発言者の空間配置順の決定が行われる。
司会者(第一発言者)の位置を基準配置とし、時系列に沿って並べた発話データの中を調べて、すでに説明した所定の要素(A)、(B)、(C)を元に発言者の配置順が決定される。
【0092】
つまり、図6に示すように、発言者の空間配置順の決定できるように会話データから解析して必要なデータが抽出され、映像生成表示部4を介してCGキャラクタが対話番組データに沿って構成された状態(対話番組)で表示(出力)されるものである。なお、この実施の形態では、入力された会話テキストデータからTV討論番組を自動生成するシステムを、発言者特定映像装置1として、パーソナルコンピュータ上で実現した。
この図6に示すように、入力された会話データ(テキストデータ)から、発言者の空間的配置と、配置順を決定し、これを基に、CGキャラクタの初期設定を表したTVML台本が生成される。
【0093】
同時に、番組内のCGキャラクタが会話内容をしゃべるシーンを表したTVML台本が生成される。以上二つのTVML台本を単純に接続して1本の台本とし、これをTVMLプレーヤーで再生することで、適切に配置されたCGキャラクタが討論するシーンができあがる。
【0094】
以上に対して、また、画面構成手段4a、画面遷移手段4b、および画面遷移タイミング手段4cによって、カメラスイッチングとCGキャラクタのジェスチャの付与が行われる。この実施の形態では、これらをTVML台本に直接記述せず、TVMLプレーヤーの外部割り込み機能を用いて、リアルタイムでカメラスイッチングとジェスチャのトリガーを与えることで実現した。
【0095】
図6にTVML台本の一部分を記した。TVMLプレーヤーはこの台本を1行ずつ読み込み、(50行目):RabiというCGキャラクタが「Good evening」と話すシーンをリアルタイムで生成し、合成音声と共に出力する。(51行目):続けてRabiにカメラがクローズアップするシーンを生成する。(52行目): Rabiがおじぎをするシーンを生成。(53行目):tmp.movという動画像ファイルをフレーム0から200まで再生するというように番組を再生していく。この様にTVMLはCGキャラクタのみならず、動画、静止画、スーパーインポーズ、音声など、テレビ番組に必要な全ての要素を記述できる言語である。発言者特定映像装置1では、このTVML言語が用いられて出力映像音声が生成されている。
【0096】
カメラスイッチングジェネレータ(図示せず)とジェスチャージェネレータ(図示せず)から入力されたテキストデータを解析した結果に基づいて、これらの効果を発生し、TVMLプレーヤーにトリガーを送信することで、望みの効果を実現する。なお、TVMLプレーヤーの外部割り込み機能とは、ある一本のTVML台本を再生している最中に、外部のアプリケーションから1行のTVML台本(例:カメラクローズアップ)をシェアードメモリ経由でTVMLプレーヤーに送信し、割り込み動作させる機能である。
【0097】
そして、発言者特定映像装置1では、図2に示すように、画面構成と画面遷移および画面遷移タイミングと、対話番組データの構成とに沿ってTVMLによる映像としてカメラスイッチング、ジェスチャが付与された動きのある番組(映像)が生成される。
【0098】
ここでは、対話番組データの遷移確率として、各55%、16%、11%、7%、10%(各ショットのカット数/全体のカット数)の割合を用いている。さらに、発言話開始時に限ると、(1)〜(5)ショットが各70%、19%、1%、5%、5%と、発言者が写される遷移確率が高いことについても反映させるようにした。そして、その後挿入されるショットの種類については、特に直前のショットとの関係が高いことについても反映させている。
【0099】
また、画面遷移タイミング手段4cのタイミングとして、ワンショットを映像化し、平均69秒に標準偏差10.84を乱数で加える。決定したショットが話者周辺であった場合発話時間に発話内容文字数をsとした時平均0.08sに標準偏差0.048sを乱数で加える。初回発話以外で画面遷移において決定したショットが発言者のワンショットであった場合、ワンショットを映像化し、平均13.25秒に標準偏差8.36を乱数で加える。
【0100】
同様にして、話者込み周辺ショットは平均7.125秒に標準偏差4.51を乱数で加える。また、ドリーショットは、平均15.54秒に標準偏差8.911を乱数で加える。さらに、参話者周辺ショットは平均4.96秒に標準偏差3.206を乱数で加える。そして、参話者ワンショットは平均4.56秒に標準偏差2.386を乱数で加える。このようにして、画面遷移タイミング手段4cの画面遷移タイミングとしている。
【0101】
図2に示すように、例えば、発言開始時は乱数により、話者の1Sと、話者を含む複数人ショット(話者周辺ショット)と、参話者1Sと、参話者を含む複数人ショット(参話者周辺ショット)と、ドリーショットとをそれぞれ、0.70/0.19/0.01/0.05/0.05の割合で撮影した映像を使用する。その後の挿入ショットは前ショットにより決定した映像を使用する。
【0102】
話者の1Sの後は、話者の1S、話者周辺ショット、参話者1S、参話者周辺ショット、ドリーショットを0.11/0.32/0.35/0.15/0.08とし、さらに、話者周辺ショットの後は話者の1S、話者周辺ショット、参話者1S、参話者周辺ショット、ドリーショットを0.85/0.04/0.08/0.02/0.1とする。
【0103】
そして、参話者ワンショットのあとは、話者の1S、話者周辺ショット、参話者1S、参話者周辺ショット、ドリーショットを0.72/0.06/0.19/0.02/0.01とし、参話者周辺ショットの後は、話者の1S、話者周辺ショット、参話者1S、参話者周辺ショット、ドリーショットを0.73/0.14/0.08/0.02/0.01とし、ドリーショットの後は話者の1S、話者周辺ショット、参話者1S、参話者周辺ショット、ドリーショットを0.73/0.11/0.11/0.04/0.01の割合で挿入する。
【0104】
参話者のワンショットに決まった場合は、内容解析データ中に名前引用、発言引用者があった場合にはその発言者を、ない場合には前発言者を映像化する。同様に、参話者周辺ショットに決定した場合は、内容解析データ中に名前引用、発言引用者があった場合にはその発言者を、ない場合には前話者を含め、発言者が含まれないショットを算出し映像化する。
【0105】
なお、画面遷移タイミング手段4aでは、具体的には、以下のようなタイミングにより画面遷移タイミングとしている。
すなわち、各発言者の初回発話時、画面遷移において決定したショットが発言者のワンショットであった場合、ワンショットを映像化し、平均69秒に標準偏差10.84を乱数で加える。決定したショットが話者周辺であった場合発話時間に発話内容文字数をsとした時平均0.08sに標準偏差0.048sを乱数で加える。初回発話以外で画面遷移において決定したショットが発言者のワンショットであった場合、ワンショットを映像化し、平均13.25秒に標準偏差8.36を乱数で加える。
【0106】
同様にして、話者込み周辺ショットは平均7.125秒に標準偏差4.51を乱数で加える。また、ドリーショットは、平均15.54秒に標準偏差8.911を乱数で加える。さらに、参話者周辺ショットは平均4.96秒に標準偏差3.206を乱数で加える。そして、参話者ワンショットは平均4.56秒に標準偏差2.386を乱数で加える。このようにして、画面遷移タイミング手段4cの画面遷移タイミングとしている。
【0107】
前記した構成により決定した画面構成、画面遷移、画面遷移タイミング、発言内容、識別番号、CGキャラクタを用いて、発言通し番号順にCGキャラクタが発言する映像を生成する。
【0108】
図3に示すように、実際に生成した映像の一例に基づいて説明する。
はじめに、発言者特定映像装置1で扱う会話データとして電子掲示板をCGキャラクタで示した対話番組形式として表題100が表示される。
【0109】
ここでは、識別番号A(第1発言者を(Rabi)ウサギのCGキャラクタとして表示)を司会者として、会話データ「Good evening」というデータが受信された場合、これを文字列変換し「character: talk(name=A,text=”Good evening”)と直し、これをTVMLプレーヤーというアプリケーションに渡し、図3の画面を生成し、CGキャラクタが「Good evening」としゃべる映像と合成音声を同時に出力する。
この映像に画面構成と画面切り替えのタイミングである画面遷移タイミングを付加し話者の特定を促進する演出を付加する。
【0110】
つぎに、今回の対話番組やメーリングリストなどの対話から今回は、五人の発言者が会話を行うことが、画面構成手段4aにより映像全体が表示される話者周辺ショットを示す第1映像画面101が示される。
【0111】
この第1映像画面101では、8角形の中心となる位置でカメラ位置の対角線上に、今回の会話の中心的な発言を行った発言者Aの発言者代理人であるウサギのCGキャラクタであるウサギキャラクタUcが司会者となって配置されている。なお、ここでは、映像の下枠に文字により会話内容が表示されるように映像が構成されている。
【0112】
そして、第2映像画面102に示すように、はじめに、ワンショットでウサギキャラクタUcにより挨拶などが、そのウサギキャラクタUcの映像と共に、文字データが表示される。このとき、文字データに見合った表情により、ウサギキャラクタUcがあたかも文字データを話しているような表情をして所定時間で表示される。なお、ウサギキャラクタUcのみならず、他のCGキャラクタについて、図4に示すように、入力されている表現データあるいは感情表現データによりジェスチャを変化させることや、また、表情について平常、喜怒哀楽を示すように変換させることができる。
【0113】
さらに、第3映像画面103に示すように、ウサギキャラクタUcは、左隣に着席している発言者Bの発言者代理人である少女キャララクタGcに話しかける場合、第1映像画面101でも分かるように、全体の構成を考えた位置取りにおいて、少女キャララクタGc側を向いた状態で話を続けている。この第2映像画面102から第3映像画面103までの画面構成および画面遷移ならびに画面遷移タイミングについて、図2に示すように、あらかじめ準備されている対話番組データの構成に沿って切り替わって表示されている。
【0114】
すなわち、図2に示すように、S1のショット=話者1Sが乱数を介して選択されて、S2のショットにより画面構成が第2映像画面102で表示された状態となる。そして、S3の経路を介して識別記号についてS4として判断がなされる。今回は、識別番号は既知であるため、Yesの経路から「切り替えタイミング=69.0+標準偏差値(10.84)待ち」の時間だけ第2映像画面102を表示し後、乱数を介してショットが決定される。今回は、S5で示すように、ショット=話者周辺として第3映像画面103が選択され、S6の分岐にポイントで「発言時間残りあり」が判定される。今回の例では、「発言時間残りあり」がYesの経路を選択して、再び、S2の「ショット」によりS5で選択された「ショット=話者周辺」として第3映像画面103が表示される。
【0115】
同様に、画面構成、画面遷移、画面遷移タイミングについて対話番組データの構成である図2のフローチャートに沿って、第4映像画面104、第5映像画面105、各映像画面が決定されて、文字データと共に表示される。なお、第5映像画面105では、発言時間が残り少ないことが分かるため、図2において、S7の経路により次映像画面が決定する。図3では、第6映像画面として少女キャラクタGcに対するショット=参話者1Sとして表示されている。なお、この第6映像画面に示す少女キャラクタGcにおいても、全体の参加者の配置を常に意識した構図となっており、ウサギキャラクタUcに向かって自分の意見を述べるように表示されている。また、各CGキャラクタは、会話の流れの中で、うなずいたり、表情を変えたりすることも可能となる。
【0116】
このように、画面構成(ショット)データ、画面遷移データ、および画面遷移タイミングデータと、対話番組データとにより出演者(発言者、参話者)において、誰が、何について、誰に向かって話をしているか等の客観的な認識が容易に行える状態で会話を行うことが可能となる。
【0117】
なお、ここでは発言者特定映像装置として説明したが、各部の動作をコンピュータプログラム言語として記述し、コンピュータの主制御部(CPUなど)に展開して、記憶部5に記憶されている各データを利用して機能するプログラムとみなすことも可能である。
【0118】
【発明の効果】
本発明は、以上説明してきたような発言者特定映像装置、および、そのプログラムならびに、発言者特定映像表示方法に係る構成であるため、以下に示すような優れた効果を奏する。
請求項1の発明によれば、テキストデータあるいは音声データである会話データから、会話データの発言者をCGキャラクタとして映像化することにより、従来のテキストデータ又は音声ファイルのみの会話データの送受信に比べ、発言者を特定することが容易になると共に、また、会話の内容が理解し易く、さらに、会話データを臨場感がある映像とすることが可能となる。また、発言者の識別IDと発言内容を記したテキスト(又は音声ファイル)以外の情報を用いていないため、様々なアプリケーションに応用できる。
【0119】
また、請求項1の発明によれば、インターネットのチャット、電子会議などの非同期通信において、発言者を直感的に理解しづらいケースであっても、全体の配置、画面構成などが考慮されたCGキャラクタの映像により発言者を容易に理解できる。更に、テレビ電話会議などの映像を使用する場合も、対話番組データが参照されることにより、カメラをスイッチングするタイミングやサイズなどを自動的に調整することも可能であり、応用範囲が広い。
【0120】
さらに、実際にプログラムとして実装した場合は、メーリングリストにおける会話データが入力されて、映像と音声とからなる討論番組に変換されるので、「読む」「クリックする」のように能動的に楽しむテキストデータコンテンツを「観る」「聞く」という受動的に楽しむテレビコンテンツに変換することができる。
【0121】
そして、一般に複数の話者による対話データをテレビ番組に変換することが可能となったことで、様々な応用が考えられる。例えば、WEBページ内の会話文、電子掲示板、メーリングリスト、チャット、雑誌原稿における対話文、といった様々なメディアで展開されている内容をテレビとして視聴でき、かつ、会話内容がCGキャラクタの発言といった形式になり、より認識し易い状態の映像にすることが可能となる。
また、討論番組における映像構成に関する分析結果、出演者の空間配置、ジェスチャなどに関する知識を使ってCGキャラクタによる討論番組を生成することができ、同様に、仮想空間上における、静止画/動画アバターによる遠隔地会議、ロボットカメラによる自動対談番組収録などにも、演出付加手法として応用する事ができる。
【0122】
請求項1の発明によれば、会話構造解析抽出手段が、構造データとして、発言長さデータと、通し番号データとを会話データから解析して抽出すると共に、内容解析データとして、会話内容解析抽出手段が、発言者名引用データと、発言内容引用データとを会話データから解析して抽出するため、対話を行うためにCGキャラクタに自然な動作を与えることができる。
【0123】
請求項1の発明によれば、前記映像生成表示部の備える画面構成手段、画面遷移手段および画面遷移タイミング手段と、対話番組データの構成とに沿って生成される発言者のCGキャラクタによって、どの発言者が誰に対して会話を行っているかを分かり易く、認識し易い映像を提供することができる。
【0124】
請求項2の発明によれば、発言者のCGキャラクタにさらに豊かな表情を与えることができるため、映像を視聴している視聴者がより自然な対話映像として提供することができる。
【0125】
請求項3の発明によれば、発言者配置解析手段によりCGキャラクタの配置が内容解析データに基づいて決定され、会話の中心的な役割を担うCGキャラクタをカメラ視線位置に対して対面する着座基準位置に決定し、順次、発言回数が多いなどのCGキャラクタを着座基準位置に近い位置に配置することができる。そのため、発言者の選抜・位置・空間配置の決定を行なうことによって、映像生成表示手段において、参話者の位置関係を無理のないカメラアングルで表現することが可能となり、映像化の際に、発言者同志を結んだ軸である会話軸を最小限設定するだけで済み、当該会話軸を超えた不要なスイッチング(ショット切替)を必要最小限に抑える事が可能となる。
【図面の簡単な説明】
【図1】 本発明に係る発言者特定映像装置を模式的に示すブロック図である。
【図2】 本発明に係る発言者特定映像装置で用いる映像を設定するためのフローチャートである。
【図3】 本発明に係る発言者特定映像装置による画像構成と画面遷移の状態を示す模式図である。
【図4】 本発明に係るCGキャラクタの表情を模式的に示す模式図である。
【図5】 本発明に係る発言者特定映像装置による発言者の配置を設定する状態を平面的に示す模式図である。
【図6】 本発明に係る発言者特定映像装置の全体の流れを模式的に説明する模式図である。
【符号の説明】
1 発言者特定映像装置
2 データ送受信部(データ入力部)
3 データ解析抽出部
3A 会話構造解析抽出手段
3a 発言者解析手段
3b 通し番号解析手段
3c 発言長さ解析手段
3D 会話内容解析抽出手段
3d 発言者名引用解析手段
3e 発言内容引用解析手段
3f 表情データ解析抽出手段
3H 発言者配置解析手段
3J ジェスチャ解析手段
4 映像生成表示部
4a 画面構成手段
4b 画面遷移手段
4c 画面遷移タイミング手段
5 記憶部
6 ネットワーク
7 映像表示部(表示画面)
8 入力部
Claims (3)
- 発言者を識別するための識別データが付加されているテキストデータまたは音声データによりネットワークに接続される端末を利用して複数の発言者が同期あるいは非同期で会話を行う場合に、前記発言者の特定が容易となる発言者特定映像装置であって、
会話を行うための前記テキストデータまたは前記音声データによる会話データを入力するデータ入力部と、
このデータ入力部に入力された会話データを解析して前記識別データおよびその会話データの構造的な特徴を示す構造データを抽出すると共に、前記会話データの内容的な特徴を示す内容解析データを抽出するデータ解析抽出部と、
CGキャラクタを含む映像の画面構成を決める画面構成手段と、この画面構成手段の画面構成についての遷移確率および発言者の発言長さデータに基づいてその画面構成を遷移させる画面遷移手段と、この画面遷移手段の遷移タイミングを決める画面遷移タイミング手段と、を備える映像生成表示部と、
前記各データを記憶するための記憶部と、を備え、
前記データ解析抽出部は、前記構造データとして、少なくとも、前記発言者の発言長さを示す発言長さデータと発言者の発言順の通し番号を示す通し番号データとを解析して抽出する会話構造解析抽出手段を備えると共に、前記内容解析データとして、少なくとも、発言者名の引用の有無及び参話者の名前の引用を示す発言者名引用データと他発言者における発言内容の引用の有無を示す発言内容引用データとを解析して抽出する会話内容解析抽出手段を備え、
前記画面構成手段は、前記画面構成が発言者のワンショットであるとき、画面の垂直方向l、カメラと被写体の距離D及び画面の高さを1として正規化したサイズrとして、前記発言者を撮影するカメラの垂直画角がθ=2 tan −1(l/2rD)になる前記画面構成を決めると共に、前記画面構成が発言者のワンショット以外であるとき、前記発言者名引用データ及び前記発言内容引用データがある場合には該当する参話者と発言者とを含む最低人数が撮影できる最小画角に、そうでない場合には前発言者を含む最低人数が撮影できる最小画角になる前記画面構成を決めることを特徴とする発言者特定映像装置。 - 前記データ解析抽出部は、前記会話データに基づいて、前記CGキャラクタの表情を変えるための表情データを抽出する表情データ解析抽出手段を備えることを特徴とする請求項1に記載の発言者特定映像装置。
- 前記データ解析抽出部は、前記会話データに基づいて、前記CGキャラクタの配置についてカメラ視線位置を含めた八角形の頂点位置に配置すると共に、前記内容解析データに基づいて、前記カメラ視線位置に対面する位置に、前記CGキャラクタの着座基準点を決定し、この着座基準点の左右に順次残りの前記CGキャラクタの配置を決定する発言者配置解析手段を備えることを特徴とする請求項1又は請求項2に記載の発言者特定映像装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002130344A JP4077656B2 (ja) | 2002-05-02 | 2002-05-02 | 発言者特定映像装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002130344A JP4077656B2 (ja) | 2002-05-02 | 2002-05-02 | 発言者特定映像装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003323628A JP2003323628A (ja) | 2003-11-14 |
JP4077656B2 true JP4077656B2 (ja) | 2008-04-16 |
Family
ID=29543437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002130344A Expired - Fee Related JP4077656B2 (ja) | 2002-05-02 | 2002-05-02 | 発言者特定映像装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4077656B2 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2140341B1 (en) * | 2007-04-26 | 2012-04-25 | Ford Global Technologies, LLC | Emotive advisory system and method |
JP2008287310A (ja) * | 2007-05-15 | 2008-11-27 | Nippon Hoso Kyokai <Nhk> | コンテンツ生成装置及びコンテンツ生成プログラム |
WO2009075211A1 (ja) * | 2007-12-10 | 2009-06-18 | Sharp Kabushiki Kaisha | 自動発話者判別記録装置及び自動発話者判別記録システム |
JP4725918B2 (ja) * | 2009-08-06 | 2011-07-13 | 有限会社Bond | 番組画像配信システム、番組画像配信方法及びプログラム |
JP2011160151A (ja) * | 2010-01-29 | 2011-08-18 | Toshiba Corp | 電子機器、動画再生システム、及び動画再生方法 |
KR101685922B1 (ko) * | 2010-04-05 | 2016-12-13 | 삼성전자주식회사 | 가상 세계 처리 장치 및 방법 |
JP5647813B2 (ja) * | 2010-05-12 | 2015-01-07 | シャープ株式会社 | 映像提示システム、プログラム及び記録媒体 |
US9336187B2 (en) * | 2012-05-14 | 2016-05-10 | The Boeing Company | Mediation computing device and associated method for generating semantic tags |
JP7427408B2 (ja) * | 2019-10-07 | 2024-02-05 | シャープ株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7102457B2 (ja) * | 2020-04-24 | 2022-07-19 | 株式会社バーチャルキャスト | コンテンツ配信システム、コンテンツ配信方法、およびコンピュータプログラム |
JP6872066B1 (ja) * | 2020-07-03 | 2021-05-19 | 株式会社シーエーシー | コンピュータを介したコミュニケーションを実施するためのシステム、方法及びプログラム |
CN114787759A (zh) * | 2020-10-14 | 2022-07-22 | 住友电气工业株式会社 | 交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序 |
KR102616058B1 (ko) * | 2022-04-06 | 2023-12-21 | 네이버 주식회사 | 음성 기록을 시각화하여 재연하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 |
-
2002
- 2002-05-02 JP JP2002130344A patent/JP4077656B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003323628A (ja) | 2003-11-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6042015B1 (ja) | オンライン面接評価装置、方法およびプログラム | |
Hayashi | Turn allocation and turn sharing | |
CA2529603C (en) | Intelligent collaborative media | |
US8791977B2 (en) | Method and system for presenting metadata during a videoconference | |
US10217466B2 (en) | Voice data compensation with machine learning | |
JP4077656B2 (ja) | 発言者特定映像装置 | |
JP2005277462A (ja) | 会議支援システム、議事録生成方法、およびコンピュータプログラム | |
CN112653902B (zh) | 说话人识别方法、装置及电子设备 | |
JP2011055160A (ja) | 会議中継装置及びコンピュータプログラム | |
CN111870935B (zh) | 业务数据处理方法、装置、计算机设备以及存储介质 | |
US20040107106A1 (en) | Apparatus and methods for generating visual representations of speech verbalized by any of a population of personas | |
US20200210464A1 (en) | Apparatus, systems and methods for providing conversational assistance | |
JP2021184189A (ja) | オンライン会議システム | |
JP2015061194A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
TW201141226A (en) | Virtual conversing method | |
Gan | Choreographing affective relationships across distances: multigenerational engagement in video calls between migrant parents and their left-behind children in China | |
Dutt et al. | Video, talk and text: How do parties communicate coherently across modalities in live videostreams? | |
US20240154833A1 (en) | Meeting inputs | |
JP2006236149A (ja) | コミュニケーション装置 | |
WO2024032111A1 (zh) | 在线会议的数据处理方法、装置、设备、介质及产品 | |
CN116527840B (zh) | 一种基于云边协同的直播会议智能字幕显示方法和系统 | |
WO2023074898A1 (ja) | 端末、情報処理方法、プログラム、および記録媒体 | |
KR20100134022A (ko) | 실사 토킹 헤드 생성, 콘텐트 생성, 분배 시스템 및 방법 | |
US20230291594A1 (en) | Systems and Methods for Creation and Application of Interaction Analytics | |
Li et al. | Beyond Conversational Discourse: A Framework for Collaborative Dialogue Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071024 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080201 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110208 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120208 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130208 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |