JP2016038601A - Cgキャラクタ対話装置及びcgキャラクタ対話プログラム - Google Patents

Cgキャラクタ対話装置及びcgキャラクタ対話プログラム Download PDF

Info

Publication number
JP2016038601A
JP2016038601A JP2014159272A JP2014159272A JP2016038601A JP 2016038601 A JP2016038601 A JP 2016038601A JP 2014159272 A JP2014159272 A JP 2014159272A JP 2014159272 A JP2014159272 A JP 2014159272A JP 2016038601 A JP2016038601 A JP 2016038601A
Authority
JP
Japan
Prior art keywords
character
macro
response
script
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014159272A
Other languages
English (en)
Inventor
井上 誠喜
Seiki Inoue
誠喜 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2014159272A priority Critical patent/JP2016038601A/ja
Publication of JP2016038601A publication Critical patent/JP2016038601A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

【課題】簡単に表現力の高いCG映像を生成する。【解決手段】入力される文字列に対応した応答を、CGキャラクタを用いて出力するCGキャラクタ対話装置において、前記文字列を用いて予め設定された応答データベースを検索し、前記文字列に対応する応答情報と、前記応答情報に対応する表情又は動作を前記CGキャラクタに実行させるマクロデータを抽出するためのマクロ抽出キーワードとを抽出する応答抽出手段と、マクロ抽出キーワードを用いて、予め記憶手段に記憶された複数のマクロデータから対応するマクロデータを抽出する対象マクロ抽出手段と、マクロデータに含まれるパラメータに前記応答情報の内容を挿入してスクリプトを生成するスクリプト生成手段と、スクリプトに対応するCG映像を再生する再生手段とを有することにより、上記課題を解決する。【選択図】図1

Description

本発明は、CGキャラクタ対話装置及びCGキャラクタ対話プログラムに関し、特に、簡単に表現力の高いCG映像を生成するためのCGキャラクタ対話装置及びCGキャラクタ対話プログラムに関する。
従来では、コンピュータ内で生成された三次元仮想空間上のCG(Computer Graphics)キャラクタを使った自然言語対話システムが多く存在している。例えば、使用者(ユーザ)が、キーボードやマイク等を使って日本語を入力し、CGキャラクタが入力された日本語に対応する内容(応答)を出力するシステムである。
このようなシステムでは、既存の自然言語対話エンジン等をベースにして、ユーザが入力した情報を認識し、予め設定された応答文から対応する日本語テキストを抽出し、抽出した日本語テキストを音声等で出力している。なお、自然言語対話エンジンでは、Q&A(質問/応答)の例を数多く用意し、入力された日本語に近い質問文を検索し、対応する応答文を出力している。
なお、上述したようにCGキャラクタ等を使ったアニメーション等の制作は、高い専門性と多くの制作時間を必要とする。例えば、人物のCGキャラクタを実際の人のように動かすには、関節等を基準にして人の動きを細かくデータ化する必要がある。したがって、対応する日本語テキストの内容を使って実際の対話システムを構築するには、多くの知識やプログラム開発に関する熟練した技術が必要となる。そこで、CGキャラクタの柔軟で高機能な制御方法として、スクリプトによる制御が実現されている(例えば、特許文献1参照)。特許文献1では、複数のスクリプトを纏めて指定できるマクロ機能を用いることで、スクリプトによるCG映像を実現している。
特開2014−109988号公報
上述したCGキャラクタを利用した対話システムでは、CGキャラクタの振る舞いについての効果的な演出を行うシステムがない。特許文献1に示す手法では、マクロを用いることで、スクリプトを書くだけで、カメラワークやCGキャラクタの動きを指定して映像をリアルタイムに出力することができるが、入力文に対応する映像制御処理が自然言語対話エンジンと一体化したモジュール内で行われているため、この部分を設計するには、言語処理の知識とCGキャラクタ制御の知識、更にはプログラム開発の知識が必要となる。また、特許文献1の手法は、個々のアプリケーションに応じて、設計、開発されるため、利用対象を変更する場合だけでなく、動作の変更や追加を行うにも、プログラムを再度構築する必要があり、そのための手間と労力が必要となる。
本発明は、上述した問題点に鑑みなされたものであり、簡単に表現力の高いCG映像を生成するためのCGキャラクタ対話装置及びCGキャラクタ対話プログラムを提供することを目的とする。
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。
一つの態様として、本発明は、入力される文字列に対応した応答を、CGキャラクタを用いて出力するCGキャラクタ対話装置において、前記文字列を用いて予め設定された応答データベースを検索し、前記文字列に対応する応答情報と、前記応答情報に対応する表情又は動作を前記CGキャラクタに実行させるマクロデータを抽出するためのマクロ抽出キーワードとを抽出する応答抽出手段と、前記応答抽出手段により抽出されたマクロ抽出キーワードを用いて、予め記憶手段に記憶された複数のマクロデータから対応するマクロデータを抽出する対象マクロ抽出手段と、前記対象マクロ抽出手段により得られるマクロデータに含まれるパラメータに前記応答情報の内容を挿入してスクリプトを生成するスクリプト生成手段と、前記スクリプト生成手段により得られたスクリプトに対応するCG映像を再生する再生手段とを有する。
また、一つの態様として、本発明は、コンピュータを、上述したCGキャラクタ対話装置が有する各手段として機能させるためのCGキャラクタ対話プログラムである。
本発明によれば、簡単に表現力の高いCG映像を生成することができる。
CGキャラクタ対話装置の機能構成の一例を示す図である。 CGキャラクタ対話処理の一例を示すフローチャートである。 CGキャラクタ対話処理の第1実施例を示す図である。 TVMLスクリプトの一例を示す図である。 CGキャラクタ対話処理の第2実施例を示す図である。 第3実施例におけるCGキャラクタ対話処理の一例を示すフローチャートである。 第3実施例における応答データベース例を示す図である。 本実施形態におけるCG映像の画面表示例を示す図である。
<本発明について>
本発明は、例えばCGキャラクタを用いた自然言語形式の対話装置等において、Q&A等の応対例の中に、CGキャラクタ及びシーン生成用のスクリプトを挿入しておくことで、視覚的なCGキャラクタの応答を豊かにした表現力の高いCG映像の生成を可能とする。
なお、以下に示す実施形態では、例えばスクリプト等によるCG映像(CGアニメーション等)を実現し、更に複数のスクリプトを纏めて簡単に指定するマクロ機能を用いる。これにより、CG映像の生成に関する専門的な知識を必要とせず、高品質なCG映像の生成を実現する。
以下に、上述したような特徴を有する本発明におけるCGキャラクタ対話装置及びCGキャラクタ対話プログラムを好適に実施した形態について、図面を用いて詳細に説明する。なお、本実施形態において生成されたCGキャラクタの一例として、例えば人(人体)を用いるがこれに限定されるものではなく、例えば動物等の他のCGキャラクタであってもよい。
また、本実施形態におけるCG映像を生成するためのスクリプトの一例として、例えばTVML(TV program Making Language)スクリプトを用いるが、これに限定されるものではなく、他のスクリプトを用いてもよい。
<CGキャラクタ対話装置:機能構成例>
本実施形態におけるCGキャラクタ対話装置の機能構成例について図を用いて説明する。図1は、CGキャラクタ対話装置の機能構成の一例を示す図である。図1に示すCGキャラクタ対話装置10は、入力手段11と、出力手段12と、記憶手段13と、音声認識手段14と、応答抽出手段15と、対象マクロ抽出手段16と、スクリプト生成手段17と、再生手段18と、画面生成手段19と、送受信手段20と、制御手段21とを有する。
入力手段11は、CGキャラクタ対話装置10を使用するユーザ等からの各種指示の開始や終了、設定の入力等の各種入力を受け付ける。具体的には、入力手段11は、例えば本実施形態における音声認識指示、応答抽出指示、対象マクロ抽出指示、スクリプト生成指示、再生指示、画面生成指示、送受信指示等の各指示を受け付ける。
入力手段11により取得される情報の入力は、例えばキーボードやマウス等の入力インタフェース等による入力でもよく、また画面を用いたタッチパネル形式の入力等でもよい。また、予め設定された複数の操作ボタンの所定位置を所定回数押下することによる入力等でもよい。更に、入力手段11は、例えばマイクロフォン等により音声を入力する音声入力手段を有していてもよい。
出力手段12は、入力手段11により入力された内容や、入力内容に基づいて実行された内容等の出力を行う。なお、出力手段12は、例えば画面表示により出力する場合には、ディスプレイモニタ等の表示手段を有する。また、入力手段11と出力手段12とは、例えばタッチパネル等のように入出力が一体型であってもよい。
また、出力手段12は、例えばCGキャラクタによるCG映像の生成に関するテキストデータをTVMLスクリプトに記述し、そのTVMLスクリプトを、例えばTVMLプレイヤー等で構成される再生手段18にて再生させる。TVMLプレイヤーとは、TVMLスクリプトで記述された内容を解析し、そこに記載された素材データ(例えば、画像や映像、音声、文字データ)や番組制作エンジン(例えば、スタジオセット、照明、小道具等が予め設定されたツール)等を用いて、対応するスタジオセットにCGキャラクタ等を登場させてセリフをしゃべらせたり、動作させたり、表情を変える等の演出がされた映像を生成し、生成した映像を再生して出力手段12等に出力するものである。
また、出力手段12は、必要に応じてCGキャラクタの動作に対応した音声を出力する。そのため、出力手段12は、ディスプレイ等による画面表示デバイスやスピーカ等による音声出力デバイス等を有する。出力手段12は、再生手段18により再生されたTVMLスクリプトに対応する映像又は音声を上述の表示デバイスや音声出力デバイスを用いて出力する。
記憶手段13は、本実施形態において必要となる各種情報を記憶する。具体的には、記憶手段13は、例えば入力手段11から入力される入力情報(例えば、質問情報等)、入力情報に対応する応答データベース(例えば、Q&A情報(例えば、応対例等)、マクロ抽出情報(キーワード)等)、予め登録された単語毎のモーションデータ(BVHデータ)、CGキャラクタ(各種のキャラクタデータ)、TVMLスクリプト、番組制作エンジン、素材データ等を記憶する。また、記憶手段13は、例えばマクロデータ(マクロ定義)、各種パラメータデータ、本実施形態において生成されるCG映像等を記憶する。なお、記憶手段13に記憶される情報は、上述した情報に限定されるものではない。
また、記憶手段13は、記憶された各種情報を必要に応じて所定のタイミングで読み出したり、書き込んだりすることができる。記憶手段13は、上述したような多種の情報の集合物であり、それらの情報を、例えばキーワード等を用いて検索し、抽出することができるように体系的に構成されているデータベースとしての機能を有していてもよい。記憶手段13は、例えばハードディスクやメモリ等からなる。また、上述した記憶手段13に記憶される各情報は、CGキャラクタ対話装置10の外部に接続されるデータベース等に記憶しておき、必要に応じて読み出しや書き込みを行ってもよい。
音声認識手段14は、入力手段11から音声入力された場合に、その音声を認識して文字情報を取得する。音声認識手段14は、例えば入力された音声を文章に変換し、変換した文章を形態素解析等を行うことで、質問等に対応する文字列(例えば、単語、句、節、文章)等を抽出するが、音声認識の内容はこれに限定されるものではない。なお、本実施形態のような対話型の装置構成では、音声による入力が好ましいが、本実施形態では、これに限定されるものではなく、文字入力であってもよい。この場合には、CGキャラクタ対話装置10は、音声認識手段14を有していなくてもよい。
応答抽出手段15は、音声認識手段等により認識された文字列、又は、入力手段11や送受信手段20により入力された文字列等に基づいて、記憶手段13に記憶された応答情報を検索し、対応する応答等を抽出する。応答抽出手段15は、例えば自然言語対話エンジンとしての機能を有する。
ここで、本実施形態における応答情報には、質問(Q:Question)に対応する回答(A:Answer)の他に、CGキャラクタの表情や動作を変化させるためのマクロを抽出するためのマクロ抽出キーワードが設定されている。したがって、応答抽出手段15は、質問に対応する回答を抽出すると共に、回答に付加された1又は複数のマクロ抽出キーワードを抽出することができる。
なお、応答抽出手段15は、入力される文字列と、予め設定された入力条件とに対応する応答情報又はマクロ抽出キーワードを抽出してもよい。
対象マクロ抽出手段16は、応答抽出手段15により抽出された1又は複数のマクロ抽出キーワード(文字列等)に基づいて、記憶手段13に記憶された複数のマクロデータ(マクロ定義)を参照し、対応するTVMLスクリプトを抽出する。マクロデータとは、分かりやすい日本語等のキーワードに対応付けられた1又は複数のTVMLスクリプトである。
なお、対象マクロ抽出手段16は、入力されたマクロ抽出キーワードに対応するマクロが抽出できなかった場合には、その旨を示すエラーメッセージを出力手段12の画面に表示して、ユーザに通知してもよい。これにより、ユーザは、例えば音声や文字列等による質問を再度入力することができる。
また、対象マクロ抽出手段16は、マクロ抽出キーワードに対して、例えば完全一致や前方一致、部分一致等により該当するマクロを抽出してもよく、類似度の高い(例えば、類似度が所定の閾値以上)のマクロを抽出してもよい。抽出されたマクロが複数ある場合には、抽出された複数のマクロに対応する回答リストを表示し、その中からユーザに選択させてもよく、類似度又は過去の使用頻度が最も高いマクロを抽出することができるが、これに限定されるものではない。
スクリプト生成手段17は、CGキャラクタに回答(応答情報)の出力や、その回答にあった表情や動作等をさせるためのスクリプト生成を行う。例えば、スクリプト生成手段17は、テキスト形式の番組台本(TVMLスクリプト)を記述するだけで、背景セットの読み込みやカメラ視点の設定、モーションキャプチャデータの標準的なフォーマットであるBVH形式のモーション、音楽(BGM)の再生、更に音声合成(SAPI:Speech API)との連携により、発話に応じた口形の変形を行うことができる。
例えば、スクリプト生成手段17は、対象マクロ抽出手段16により得られるマクロデータ(スクリプト)に含まれる変数(パラメータ)部分に応答情報の内容を挿入して、入力される質問に回答したり、CGキャラクタの表情や動作を変更したCG映像を生成するためのスクリプトを生成する。
また、スクリプト生成手段17は、予め設定されたマクロに対応するCG動作(モーション)に対し、各動作の前後のつなぎが滑らかになるように補正等を行うスクリプトを生成することで、自然な動作のCG映像を生成することができる。
再生手段18は、スクリプト生成手段17により生成されたスクリプトからCG映像を再生する。具体的には、再生手段18は、例えばCGキャラクタの表情や動作を生成する1又は複数のマクロのそれぞれに対応するTVMLスクリプトを連結して一連のCG映像を再生する。例えば、再生手段18の一例であるTVMLプレイヤーが、TVMLスクリプトと素材データ等を読み込み、順次スクリプトを解釈しながらCG映像を生成し、リアルタイムに出力手段12に出力する。
画面生成手段19は、本実施形態におけるCG映像を生成する処理において必要となる各種設定情報や対話用の質問等を入力するための画面を生成する。生成した画面は、出力手段12等の画面に表示される。また、画面生成手段19は、ユーザ等が入力手段11により入力された情報や、生成されたCG映像等を表示するための画面レイアウト等を生成することができるが、これに限定されるものではない。
送受信手段20は、例えばインターネットやLAN(Local Area Network)等に代表される通信ネットワークを介して外部装置と各種情報の送受信を行うための通信手段である。送受信手段20は、外部装置等にすでに記憶されている各種情報等を受信することができ、またCGキャラクタ対話装置10で処理された結果を、通信ネットワーク等を介して外部装置等に送信することもできる。
制御手段21は、CGキャラクタ対話装置10の各構成部全体の制御を行う。具体的には、制御手段21は、例えばユーザ等による入力手段11からの指示等に基づいて、CGキャラクタ対話処理に関する各制御を行う。ここで、各制御とは、例えば上述した音声認識手段14による入力された音声の認識や、対象マクロ抽出手段16によるマクロデータの抽出、スクリプト生成手段17によるスクリプトの生成、再生手段18によるスクリプトの再生、画面生成手段19による表示画面の生成等があるが、これに限定されるものではない。
上述したCGキャラクタ対話装置10の例としては、例えばPC(Personal Computer)やサーバ等であるが、これに限定されるものではなく、例えばスマートフォンやタブレット端末等の通信端末、携帯電話、ゲーム機器等にも適用することができる。
上述した本実施形態によれば、言語処理やCG映像の生成、コンピュータプログラムに関する専門知識や技術等を持っていなくても、簡単に表現力の高いCGキャラクタによる対話装置を構築することができる。また、本実施形態では、応答情報(データベース)に対してマクロを抽出する情報を設定しておくだけでよいため、修正や追加等を容易に行うことができる。
<CGキャラクタ対話処理について>
ここで、上述したCGキャラクタ対話装置10で処理されるCGキャラクタ対話処理の一例について、フローチャートを用いて説明する。図2は、CGキャラクタ対話処理の一例を示すフローチャートである。
図2の例に示すCGキャラクタ対話処理は、質問情報の一例として入力された音声情報を認識し、音声に対応する文字情報を取得する(S01)。なお、S01の処理において、音声ではなく文字情報が入力された場合には、S01の処理を行わなくてもよい。
次に、CGキャラクタ対話処理は、S01の処理で得られた文字情報を用いて記憶手段13等に記憶された応答データベースを参照し、文字情報に対応するる応答情報とマクロ抽出キーワードとを取得する(S02)。次に、マクロ抽出キーワードを用いて、記憶手段13からマクロ定義(マクロデータ)を参照し、キーワードに対応する対象マクロを検索し(S03)、抽出された応答情報(回答)と対象マクロとに対応するスクリプト(TVMLスクリプト)を生成する(S04)。S04の処理では、例えば、対象マクロに対応するスクリプトの変数部分に、応答情報やCGキャラクタの表情、動作を変更させるための情報を挿入することで、TVMLスクリプトを生成する。なお、スクリプトの生成内容については、これに限定されるものではなく、例えばカメラワークの設定、スタジオセットの照明の変更、小道具(例えば、CGキャラクタが着用する帽子や眼鏡、鞄、靴、洋服、机、椅子等)の変更、BGM等の変更等を行ってもよい。
次に、CGキャラクタ対話処理は、生成されたTVMLスクリプト等に対応するCG映像を、出力手段12等により再生する(S05)。次に、CGキャラクタ対話処理は、処理を終了するか否かを判断し(S06)、処理を終了しない場合(S06において、NO)、S01に戻る。また、ユーザからの終了指示や、所望するCG映像の生成が終了した場合等により、処理を終了する場合(S06において、YES)、CGキャラクタ対話処理を終了する。
<CGキャラクタ対話処理の第1実施例>
次に、本実施形態におけるCGキャラクタ対話処理の第1実施例について図を用いて説明する。図3は、CGキャラクタ対話処理の第1実施例を示す図である。図3の例では、上述したCGキャラクタ対話装置10における音声認識手段14と、応答抽出手段15と、スクリプト生成手段17と、再生手段18が示されている。図3に示す第1実施例では、CG映像生成スクリプトとしてTVMLスクリプトを用いると共に、TVMLスクリプトを解釈してリアルタイムにCG映像を生成するツールとして、再生手段18の一例であるTVMLプレイヤーを用いている。
第1実施例では、CG映像の制御処理を行うための設定を外部ファイル化すると共に、制作者側がCG映像の生成の専門家ではなくても、簡単にCG映像の設計や変更等が行えるように、簡易な日本語又はスクリプト(テキスト)を記述する方式とする。これにより、Q&A等の応答データベースに容易に統合することができる。また、記述された日本語又はスクリプトは、CG映像の生成用スクリプトに簡単に変更できるものとし、CG映像生成用スクリプトを利用することにより、CGキャラクタの表情変更や動作(振る舞い)の変更だけでなく、小道具(小物等)や音楽の変更、カメラワークの変更等、多彩なシーンの変更を可能とする。
そこで、第1実施例では、自然言語対話エンジンで利用するQ&Aの応答文に付随してCGキャラクタやシーン制御のためのテキスト記述を追加する。また、自然言語対話エンジンで応答文が決定され、追記したテキスト記述が読み出された後、応答文及びこのテキスト記述を用いてCG映像生成スクリプトを生成し、生成したスクリプトを用いてCG映像を生成する。
第1実施例では、例えば図3に示すような音声情報(例えば、「名前は何ですか」)が入力された場合、音声認識手段14による音声認識により文字列情報を取得する。次に、応答抽出手段15により記憶手段13に記憶された応答データベース(図3の(a))を参照し、認識した文字列情報に対応する応答情報を抽出する。図3の例では、「名前は何ですか」の文字列に対応した質問情報(Q)として類似度が最も高い「名前は?」が抽出され、その回答(A)である「花子です。」が応答情報として抽出される。このとき、応答データベースには、単に応答情報だけでなく、CGキャラクタに表情や動作等の表現を行わせるマクロを抽出するためのマクロ抽出キーワードも含まれている。なお、マクロ抽出キーワードは、例えば括弧書きのように予め設定された記述フォーマットで他の情報と識別可能に記述されている。
したがって、第1実施例では、このマクロ抽出キーワード(図3の例では、「(笑顔)」)も合わせて抽出し、スクリプト生成手段17により、抽出したマクロ抽出キーワードを用いて、記憶手段13等に記憶されたキーワード毎に対応付けられたマクロデータ(図3の(b))の中から、マクロ抽出キーワードに対応するスクリプト(マクロ)を抽出する。
第1実施例では、Q&A情報だけでなく、回答部分にCG映像を生成するためのテキスト記述を含んでいる。したがって、スクリプト生成手段17は、図3(c)の1行目に示すような応答文に対応したTVMLスクリプト、及び、映像生成用のテキスト記述からマクロデータを抽出して、図3(c)の2行目に示すようなTVMLスクリプトを生成する。
生成されたTVMLスクリプトは、TVMLプレイヤーによって解釈され、映像及び音声等が出力画面30に出力される。図3の例では、対話処理として、例えば音声出力(発話、セリフ出力)やCG映像のスーパーインポーズ表示として、応答情報である「花子です」が出力される。更に、第1実施例では、CGキャラクタ31の表情が笑顔になる。なお、第1実施例では、CGキャラクタ31に応答情報に対応する手話動作等を行わせてもよい。
なお、TVMLスクリプトは、キャラクタの表情に限らず、キャラクタの動作や、カメラワーク、音楽の再生、小道具(小物)の表示、動き等、映像生成に関する種々の要素を制御することができる。
<TVMLスクリプト例>
図4は、TVMLスクリプトの一例を示す図である。図4の例では、背景をセットするスクリプト(スタジオセット用スクリプト)、CGキャラクタを表示するスクリプト、CGキャラクタの表情を設定するスクリプト、CGキャラクタの発話とスーパーインポーズとを画面に表示するスクリプト、カメラワークを設定するスクリプトが示されているが、スクリプトの種類については、これに限定されるものではない。
第1実施例では、例えば図4に示すようなTVMLスクリプトによる背景のセット、CGキャラクタ表示、CGキャラクタの表情の変更、発話とスーパーインポーズの表示、及びカメラワーク、照明の変更等のうち、少なくとも1つを応答データベースやマクロデータ等を用いて自由に設定することができる。これにより、簡単に種々の状況に応じたCGキャラクタによる対話装置を構築することができる。
なお、それぞれの設定は、例えば上述したように応答データベースにおけるテキスト(マクロ抽出キーワード)の編集を行うだけでよく、言語処理やCGに関する専門的な知識は必要ない。更に、コンピュータプログラムに関する専門知識や技術も不要であるため、制作者側は、応答を出力する際に、CGキャラクタに適切な表情や動作を踏まえた処理を行うことができる。
<第2実施例>
次に、本実施形態におけるCGキャラクタ対話処理の第2実施例について説明する。図5は、CGキャラクタ対話処理の第2実施例を示す図である。
上述した第1実施例では、応答データベース内にマクロ抽出キーワードを記述し、そのマクロ抽出キーワードを用いて対象マクロを抽出する構成にしていたが、これに限定されるものではなく、例えば応答データベース内にマクロそのものを入力してもよい。言い換えると、第1実施例では、Q&Aの応答文の中に映像制御用の簡単な日本語テキストを入れ、マクロ機能によりTVMLスクリプトに変換したが、第2実施例では、応答文の中にCG映像の生成に関するTVMLスクリプトを直接記述する。
また、第2実施例では、上述した第1実施例と組み合わせてマクロ抽出キーワードとTVMLスクリプトとを記述してもよい。この場合、マクロ抽出キーワードやTVMLスクリプトの記述は、1行でもよく複数行でもよい。例えば、第2実施例では、応答データベースがリスト形式で記述される場合に、TVMLスクリプトがリスト中のどの部分であるかを明確にするため、TVMLスクリプトの開始及び終了を示す識別情報を付けて記述してもよい。
図5の例では、スクリプトの開始を示す識別情報として「#begin」が記述され、またスクリプトの終了を示す識別情報として「#end」が記述されているが、これに限定されるものではなく、他の識別情報でもよい。
図5の例では、TVMLスクリプトを含んだQ&A情報を示しており、#beginから#endまでに1又は複数行のTVMLスクリプトを記述することができる。また、第2実施例では、図5の例のように、マクロ抽出キーワード「(怒り)」と、TVMLスクリプト「sound:play(name=music1)」とを両方記述してもよい。
図5の例において、小道具の一例である小物「book」、「pen」や音楽「music1」等の情報(素材データ)は、事前に読み込んでおいてもよく、その応答を出力するタイミングで読み込んでもよい。
<第3実施例>
次に、本実施形態におけるCGキャラクタ対話処理の第3実施例について説明する。本実施形態では、応答情報に対応してCGキャラクタの表情等を変えるが、例えば同じ質問を何度もされたり、応答内容等に応じて感情状態が変化したり、誹謗中傷的な文章が入力してきた場合には、笑顔の表情のままだと不自然になる。そのため、第3実施例では、応答抽出手段15が、例えばマクロ抽出キーワード等を入力条件等に応じて変更する。なお、入力条件に応じてマクロ抽出キーワードを変更する場合には、例えばif文等のようなスクリプトを記述してもよい。更に、第3実施例では、マクロ抽出キーワードと共に、応答情報を変更してもよい。
図6は、第3実施例におけるCGキャラクタ対話処理の一例を示すフローチャートである。なお、以下の説明では、マクロ抽出キーワードの変更を行う例を示すが、これに限定されるものではなく、TVMLスクリプトの変更を行ってもよい。
図6の例に示す第3実施例では、入力された音声情報を認識して文字情報を取得する(S11)。なお、S11の処理において、音声ではなく文字情報が入力された場合には、S11の処理を行わなくてもよい。
次に、第3実施例では、S11の処理で得られた文字情報を用いて応答データベースを参照し、対応する応答情報とマクロ抽出キーワードとを取得する(S12)。
次に、第3実施例では、応答抽出手段15において、マクロ抽出キーワードの変更が必要か否かを判断する(S13)。変更が必要な否かの判断は、例えば同じ質問を所定回数(例えば、3回)以上連続してしてきた場合や感情状態の変化、誹謗中傷的な発言等の予め設定されたNGワード等が入力された場合に、マクロ抽出キーワードを変更する処理を行う。
ここで、マクロ抽出キーワードの変更が必要である場合(S13において、YES)、マクロ抽出キーワードを変更する(S14)。なお、変更内容としては、例えば予め設定された入力条件に応じて、(笑顔)→(悲しみ)、(笑顔)→(怒り)等のように変更する等があるが、これに限定されるものではなく、例えば、(笑顔)→(スタジオセットが真っ暗になる)のように、CGキャラクタの表情とは違う演出内容のマクロを抽出するキーワードに変更してもよい。また、(笑顔)→(ズームアップ)、(怒り)等のように1つのキーワードから複数のキーワードに変更してもよい。また逆に、複数のキーワードから1つのキーワードに変更してもよい。
S14の処理後、又はS13の処理において、マクロ抽出キーワードの変更が必要ない場合(S13において、NO)、変更されたマクロ抽出キーワードを用いて記憶手段13からマクロ定義(マクロデータ)を参照して、キーワードに対応する対象マクロを検索し(S15)、抽出された応答情報(回答)と対象マクロとに対応するスクリプト(TVMLスクリプト)を生成して(S16)、CG映像を生成し、生成されたCG映像を出力手段12等により再生表示する(S17)。
次に、第3実施例では、処理を終了するか否かを判断し(S18)、処理を終了しない場合(S18において、NO)、S11に戻る。また、ユーザからの終了指示や、所望するCG映像の生成が終了した場合等により、処理を終了する場合(S18において、YES)、第3実施例におけるCGキャラクタ対話処理を終了する。
第3実施例によれば、入力される音声情報や文字情報の内容に応じてCGキャラクタの表情や動作、スタジオセットの演出等を簡単な設定で、容易に制御することができる。
なお、第3実施例における上述したマクロ抽出キーワードや応答情報の変更は、例えば応答データベース内にif文等の条件判断処理を記述しておくことで、簡単に変更をすることができる。
<第3実施例における応答データベース例>
図7は、第3実施例における応答データベース例を示す図である。図7(a)は、質問回数(例えば、同一文字列(同一質問)の入力回数)に応じて応答情報及びマクロ抽出キーワードを変更する応答データベース例を示し、図7(b)は、質問の文字列が入力された時点におけるCGキャラクタの感情状態に応じて応答情報及びマクロ抽出キーワードを変更する応答データベース例を示している。
質問回数に応じて応答やCGキャラクタの表情等を変更する場合、応答抽出手段15は、ユーザ(使用者)からの同一又は類似する質問の回数をカウントしておく。また、応答抽出手段15は、質問の文字列情報及び質問回数に応じて、記憶手段13に予め記憶された図7(a)に示すような応答データベースを参照して、回数に応じた応答情報及びマクロ抽出キーワードを取得する。
例えば、「名前は?」という質問が1回された場合には、「花子です。」という応答情報(CGキャラクタのセリフ)と、CGキャラクタの表情を笑顔にするマクロを抽出するためのキーワード「(笑顔)」とが取得される。また、所定時間内の対話において、「名前は?」という質問が2回された場合には、「またー、花子ですよ。」という応答情報と、CGキャラクタの表情を不満顔にするマクロを抽出するためのキーワード「(不満)」とが取得される。また、所定時間内の対話において、「名前は?」という質問が3回以上された場合には、「何度きくの、花子だってば。」という応答情報と、CGキャラクタの表情を怒り顔にするマクロを抽出するためのキーワード「(怒り)」とが取得される。
これにより、質問回数に応じた応答やCGキャラクタの表情の変更を行うことができる。
また、第3実施例では、CGキャラクタの感情状態に応じて応答やCGキャラクタの表情等を変更する場合、応答抽出手段15は、CGキャラクタとユーザ(使用者)との対話の内容から、現時点(質問が入力された時点)でのCGキャラクタの感情を管理しておく。例えば、応答抽出手段15は、感情状態として、笑顔(HAPPY)、怒り(ANGRY)、悲しみ(SAD)、恐れ(FEAR)等のような情報を予め設定しておき、最近(例えば、1〜10日間程度)の対話履歴の中で、楽しい内容の対話をした場合には、「笑顔(HAPPY)」の値をカウントし、悲しい内容の対話をした場合には、「悲しみ(SAD)」の値をカウントし、これらのカウント値の最大値に応じて、質問に対する応答やCGキャラクタの表情の変更を行う。
応答抽出手段15は、入力される文字列情報(質問)及び感情状態に応じて、記憶手段13に予め記憶された図7(b)に示すような応答データベースを参照して、回数に応じた応答情報及びマクロ抽出キーワードを取得する。
例えば、「かわいいね」という質問がされた場合に、そのときの感情状態(値が最大である感情)が「笑顔(HAPPY)」であれば、「ありがとう。」という応答情報(CGキャラクタのセリフ)と、CGキャラクタの表情を笑顔にするマクロを抽出するためのキーワード「(笑顔)」とが取得される。また、感情状態が「怒り(ANGRY)」であれば、「そう。」という応答情報と、CGキャラクタの表情を怒り顔にするマクロを抽出するためのキーワード「(怒り)」とが取得される。
なお、図7(b)の例では、応答データベース内に感情状態の値をカウントさせるパラメータ(図7(b)の例ではHAPPY+=1)を付加してもよい。これにより、対話を続けていくうちに、CGキャラクタの感情を変化させることができ、対話内容に対応させた自然な表情や動作に変更することができる。
なお、図7(a)、図7(b)の例では、質問及び入力条件に対応させて応答情報及びマクロ抽出キーワードの両方を変更しているが、これに限定されるものではなく、応答情報又はマクロ抽出キーワードのみを変更してもよい。
更に、第3実施例では、上述した手法を応用して、予め設定された複数の応答情報やマクロ抽出キーワード、TVMLスクリプト等を、ランダムに選択してもよい。
<画面表示例>
図8は、本実施形態におけるCG映像の画面表示例を示す図である。本実施形態では、出力画面30に表示されるCG映像中のCGキャラクタ31の表情や動作等を応答に応じて変更して表示することができる。
例えば、図8(a)に示す出力画面30−1のように、「そんな言葉は使わないでください。」といった応答情報を出力する場合、上述した手法を用いて簡単にCGキャラクタ31の表情を怒り顔にして表示させることができる。
また、図8(b)に示す出力画面30−2のように、「あなたは技研について詳しいのですね。」といった応答情報を出力する場合、応答情報に対応する画像32をCG映像に挿入するといった演出等を行うこともできる。更に、本実施形態では、映像等を追加して表示させる等の演出効果やカメラワークの変更等も行うことができる。
なお、本実施形態に対応する表示例については、これに限定されるものではなく、例えばCGキャラクタ31に応答情報に対応する手話動作をさせたり、手を振る、お辞儀をする、走り回る等の所定の動作を行わせることができる。また、CGキャラクタ31に帽子や眼鏡を着用させたり、本やペン等の小道具(小物)を持たせることもできる。
<実行プログラム>
ここで、上述したCGキャラクタ対話装置10は、例えば、CPU(Central Processing Unit)、RAM(Random Access Memory)等の揮発性の記憶媒体、ROM(Read Only Memory)等の不揮発性の記憶媒体、マウスやキーボード、ポインティングデバイス等の入力装置、画像やデータを表示する表示部、並びに外部と通信するためのインタフェースを備えたコンピュータによって構成することができる。
したがって、CGキャラクタ対話装置10が有する各機能は、これらの機能を記述したプログラムをCPUに実行させることによりそれぞれ実現可能となる。また、これらのプログラムは、磁気ディスク(フロッピィーディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の記録媒体に格納して頒布することもできる。
つまり、上述した各構成における処理をコンピュータに実行させるための実行プログラム(CGキャラクタ対話プログラム)を生成し、例えば、汎用のパーソナルコンピュータやサーバ等にそのプログラムをインストールすることにより、CGキャラクタ対話処理を実現することができる。
上述したように本発明によれば、簡単に表現力の高いCG映像を生成することができる。具体的には、例えばCG映像の生成に詳しくない一般ユーザが、簡単な日本語入力で、自然なアニメーション映像を得ることができる。また、煩雑なCGアニメーション用スクリプトを予めマクロ定義しておくことにより、セットや出演者の変更、スーパーインポーズ表示、画像や映像等との合成表示等の出力映像の変更や高機能化を容易に実現することができる。
また、本発明は、例えばテレビ番組のような映像コンテンツを、CG、音声合成等を用いて制作する分野に適用することができる。また、本発明は、映像を生成するビューアーにスクリプトやパラメータを送ることによってビューアーを制御し、映像を再生する分野に適用することができる。また、本発明は、CGキャラクタの動作を変化させて動画映像を作成するアニメーション分野等に適用することができる。
以上本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。また、上述した各実施例の一部又は全部を組み合わせることも可能である。
10 CGキャラクタ対話装置
11 入力手段
12 出力手段
13 記憶手段
14 音声認識手段
15 応答抽出手段
16 対象マクロ抽出手段
17 スクリプト生成手段
18 再生手段
19 画面生成手段
20 送受信手段
21 制御手段
30 出力画面
31 CGキャラクタ
32 画像

Claims (6)

  1. 入力される文字列に対応した応答を、CGキャラクタを用いて出力するCGキャラクタ対話装置において、
    前記文字列を用いて予め設定された応答データベースを検索し、前記文字列に対応する応答情報と、前記応答情報に対応する表情又は動作を前記CGキャラクタに実行させるマクロデータを抽出するためのマクロ抽出キーワードとを抽出する応答抽出手段と、
    前記応答抽出手段により抽出されたマクロ抽出キーワードを用いて、予め記憶手段に記憶された複数のマクロデータから対応するマクロデータを抽出する対象マクロ抽出手段と、
    前記対象マクロ抽出手段により得られるマクロデータに含まれるパラメータに前記応答情報の内容を挿入してスクリプトを生成するスクリプト生成手段と、
    前記スクリプト生成手段により得られたスクリプトに対応するCG映像を再生する再生手段とを有することを特徴とするCGキャラクタ対話装置。
  2. 前記応答データベースは、前記応答情報に対応する表情又は動作を前記CGキャラクタに実行させるためのスクリプトを含むことを特徴とする請求項1に記載のCGキャラクタ対話装置。
  3. 前記応答データベースは、前記マクロ抽出キーワード又は前記スクリプトの開始及び終了を示す識別情報を含むことを特徴とする請求項2に記載のCGキャラクタ対話装置。
  4. 前記応答抽出手段は、
    前記文字列と予め設定された入力条件とに対応する前記応答情報又は前記マクロ抽出キーワードを抽出することを特徴とする請求項1乃至3の何れか1項に記載のCGキャラクタ対話装置。
  5. 前記入力条件は、前記文字列の入力回数又は前記文字列が入力された時点における前記CGキャラクタの感情状態であることを特徴とする請求項4に記載のCGキャラクタ対話装置。
  6. コンピュータを、請求項1乃至5の何れか1項に記載のCGキャラクタ対話装置として機能させるためのCGキャラクタ対話プログラム。
JP2014159272A 2014-08-05 2014-08-05 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム Pending JP2016038601A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014159272A JP2016038601A (ja) 2014-08-05 2014-08-05 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014159272A JP2016038601A (ja) 2014-08-05 2014-08-05 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム

Publications (1)

Publication Number Publication Date
JP2016038601A true JP2016038601A (ja) 2016-03-22

Family

ID=55529658

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014159272A Pending JP2016038601A (ja) 2014-08-05 2014-08-05 Cgキャラクタ対話装置及びcgキャラクタ対話プログラム

Country Status (1)

Country Link
JP (1) JP2016038601A (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124934A (ja) * 2017-02-03 2018-08-09 日本放送協会 手話cg生成装置、及びプログラム
JP2018129068A (ja) * 2018-03-16 2018-08-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2018128947A (ja) * 2017-02-10 2018-08-16 日本放送協会 Cg生成装置、及びプログラム
JP2019086858A (ja) * 2017-11-02 2019-06-06 株式会社UsideU 顧客応対システム及び顧客応対方法
WO2020149271A1 (ja) * 2019-01-15 2020-07-23 株式会社シーエスレポーターズ 仮想空間におけるキャラクタの制御方法
WO2020170441A1 (ja) * 2019-02-22 2020-08-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JP2022524944A (ja) * 2020-02-27 2022-05-11 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクション方法、装置、電子機器及び記憶媒体
JP2022531072A (ja) * 2020-03-31 2022-07-06 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
JP7411369B2 (ja) 2019-10-01 2024-01-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 コミュニケーションシステム、応対端末装置およびそのプログラム
US12002487B2 (en) 2019-02-22 2024-06-04 Sony Group Corporation Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018124934A (ja) * 2017-02-03 2018-08-09 日本放送協会 手話cg生成装置、及びプログラム
JP2018128947A (ja) * 2017-02-10 2018-08-16 日本放送協会 Cg生成装置、及びプログラム
JP2019086858A (ja) * 2017-11-02 2019-06-06 株式会社UsideU 顧客応対システム及び顧客応対方法
JP2018129068A (ja) * 2018-03-16 2018-08-16 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020149271A1 (ja) * 2019-01-15 2020-07-23 株式会社シーエスレポーターズ 仮想空間におけるキャラクタの制御方法
WO2020170441A1 (ja) * 2019-02-22 2020-08-27 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
JPWO2020170441A1 (ja) * 2019-02-22 2021-12-16 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US12002487B2 (en) 2019-02-22 2024-06-04 Sony Group Corporation Information processing apparatus and information processing method for selecting a character response to a user based on emotion and intimacy
JP7411369B2 (ja) 2019-10-01 2024-01-11 エヌ・ティ・ティ・コミュニケーションズ株式会社 コミュニケーションシステム、応対端末装置およびそのプログラム
JP2022524944A (ja) * 2020-02-27 2022-05-11 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクション方法、装置、電子機器及び記憶媒体
JP2022531072A (ja) * 2020-03-31 2022-07-06 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
JP7227395B2 (ja) 2020-03-31 2023-02-21 北京市商▲湯▼科技▲開▼▲發▼有限公司 インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体

Similar Documents

Publication Publication Date Title
JP2016038601A (ja) Cgキャラクタ対話装置及びcgキャラクタ対話プログラム
US10998005B2 (en) Method and apparatus for presenting media information, storage medium, and electronic apparatus
US20230316643A1 (en) Virtual role-based multimodal interaction method, apparatus and system, storage medium, and terminal
CN110941954B (zh) 文本播报方法、装置、电子设备及存储介质
KR102503413B1 (ko) 애니메이션 인터랙션 방법, 장치, 기기 및 저장 매체
WO2021109678A1 (zh) 视频生成方法、装置、电子设备及存储介质
CN110830852B (zh) 一种视频内容的处理方法及装置
KR100856786B1 (ko) 3d 버추얼 에이전트를 사용한 멀티미디어 나레이션 저작시스템 및 그 제공 방법
CN112188266A (zh) 视频生成方法、装置及电子设备
JP2023552854A (ja) ヒューマンコンピュータインタラクション方法、装置、システム、電子機器、コンピュータ可読媒体及びプログラム
US20180143741A1 (en) Intelligent graphical feature generation for user content
JP2014109988A (ja) モーション映像生成装置及びモーション映像生成プログラム
US20230027035A1 (en) Automated narrative production system and script production method with real-time interactive characters
JP4917920B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
JP2010140278A (ja) 音声情報可視化装置及び音声情報可視化プログラム
Gu et al. Innovative Digital Storytelling with AIGC: Exploration and Discussion of Recent Advances
KR102541008B1 (ko) 화면해설 컨텐츠를 제작하는 방법 및 장치
JP5041853B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
KR102281298B1 (ko) 인공지능 기반 동영상 합성을 위한 시스템 및 방법
CN117370605A (zh) 一种虚拟数字人驱动方法、装置、设备和介质
US20200410982A1 (en) Information processing apparatus and information processing method and computer-readable storage medium
JP4917917B2 (ja) コンテンツ生成装置及びコンテンツ生成プログラム
US11182417B1 (en) Method and system for facilitating conversion of content based on user preferences
KR101647442B1 (ko) 비주얼 컨텐츠 제작 시스템, 방법 및 컴퓨터 판독 가능한 기록 매체
Xu et al. Accurate synchronization of gesture and speech for conversational agents using motion graphs