JP5877418B2

JP5877418B2 - シナリオ生成装置およびシナリオ生成方法

Info

Publication number: JP5877418B2
Application number: JP2011269644A
Authority: JP
Inventors: 杉山治; 篠沢一彦; 今井倫太
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2011-12-09
Filing date: 2011-12-09
Publication date: 2016-03-08
Anticipated expiration: 2031-12-09
Also published as: JP2013119155A

Description

本発明は、コンピュータエージェントによる制御対象の発話とジェスチャとを関連付けたシナリオを生成するシナリオ生成装置およびシナリオ生成方法に関する。

人同士の会話においてジェスチャが果たす役割については、会話の観察を通して、その役割、種類、そしてその生成過程が明らかにされてきた。ジェスチャの役割は、伝達内容の表現をはじめとして、コミュニケーションのメタ調節、情動的「きずな」づくりなど多岐に渡る。人の用いる発話とジェスチャは、「成長点」と呼ばれる最小の心理的単位から共起し、互いに意味を補完しながら会話を構成していく過程がこれまでの研究から明らかになっている。

ロボットやエージェントの発話とジェスチャの生成は、これら人の発話とジェスチャの機能を再現することを目標に開発されてきた（たとえば、非特許文献１、非特許文献２）。

また、たとえば、特許文献１には、複数の可動部または音声出力部のいずれかの部位を使用していない場合にその部位を有効に活用して対話対象の発話を誘発する行動のできる移動型ロボットが開示されている。

一方で、Cassell らは、自然言語処理の研究を発展させ、ECA(Embodied Conversational Agent) を使って、仮想空間上のモノを説明するために、エージェントの発話とジェスチャを生成するシステムを開発した（非特許文献３、非特許文献４）。ヒューマノイドロボットでは、ＨＲＩ（Honda Research Institute）のVictor らが、入力されたテキストをもとに、ASIMO の音声とジェスチャを自動的に同期させるモデルを提案した（非特許文献５）。Victorらの開発したシステムでは、実際に人の表出するジェスチャを観察し、そのパターンを基に確率モデルを用いて、エンブレム、表象、繰り返しなど、これまでの研究で明らかになった主要なジェスチャと音声を同期させることができる。これらの関連研究では、ロボットのジェスチャと音声の同期を人同士の会話を観察し、再現することを主眼に研究が進められている。

特開２００８−２７９５２９号公報

B. Hartmann, M. Mancini, and C. Pelachaud．"Implementing expressive gesture synthesis for embodied conversational agents．"In In Gesture in Human-Computer Interaction and Simulation, volume 3881, pages 188-199. Springer, 2006. S. Kopp and I. Wachsmuth．"Synthesizing multi- modal utterances for conversational agents．"Comp. Anim. Virtual Worlds, 15(1):3952, 2004. J. Cassell, H. Ho gni Vilhja lmsson, and T. Bickmore. "Beat: the behavior expression animation toolkit."In SIGGRAPH 2001: Proceedings of ACM SIGGRAPH, pages 477486, New York, NY, USA, 2001. K. Striegnitz, P. Tepper, A. Lovett, J. Cassell, "Knowledge Representation for Generating Locating Gestures in Route Directions". In Proceedings of Workshop on Spatial Language and Dialogue (5th Workshop on Language and Space). October 23-25, Delmenhorst, Germany, 2005. V. Ng-Thow-Hing, P. Luo and S. Okita, "Synchronized Gesture and Speech Production for Humanoid Robots,"The 2010 IEEE/RSJ International Confer- ence on Intelligent Robots and Systems October 18- 22, Taipei, Taiwan, 2010.

しかしながら、これまで開発されてきたコミュニケーションロボットは、人の身体機能の一部を模倣するように開発されてきた。逆に言えば、アンドロイドなどの一部のロボットを除き、これらのロボットは人間が表出可能な全てのジェスチャを表現することは不可能である。例を挙げれば、指がないロボットはオーケーサインなどのエンブレムジェスチャを表出することができない。

そのため、開発者はコミュニケーションロボットのジェスチャを生成するとき、個々のロボットの制約にあわせて、意図が伝わるように表出するジェスチャを編集していくことになる。結果として、これらのジェスチャはモデルとなった人間のジェスチャとは異なった動きになることが多い。

また、体を揺らしたり、瞬きするなどの会話の調整機能をそのまま再現できないため、それらを代替する別の動きを加えるといった変更も追加される。必然的にロボットの音声とジェスチャの組み合わせは、人のものとは異なってくると考えられる。人のジェスチャを再現することに加えて、このような、個々のロボットに合わせて、音声とジェスチャを編集していく心理モデルを構築することは困難である。

さらに、これらのアサイン手法が、普遍的なものであるのかという議論も存在する。ロボットを使う人数が増え、時間が経過するにつれて、その音声やジェスチャのアサインや作成方法についてもいろいろな方法が編み出されていくと考えられる。それらのユーザの習熟や発展に沿って、システムも進化していくことが求められる。しかしながら、従来、このような進化の枠組みが存在しなかった。

この発明は、以上のような問題点を解決するためになされたものであって、人がコミュニケーションロボットのような制御対象に、発話とジェスチャを割り当てるときのパターンの抽出結果に基づいて、発話とジェスチャの組合せのシナリオの作成を自動化することが可能なシナリオ生成装置またはシナリオ提供方法を提供することである。

この発明の他の目的は、シナリオの自動作成のためのシステムを発展的に開発していくことが可能なシナリオ生成装置またはシナリオ提供方法を提供することである。

この発明の１つの局面に従うと、制御対象の発話に対してジェスチャを割り当てたシナリオを作成するためのシナリオ生成装置であって、シナリオ生成装置はサーバ装置であり、発話に対応するテキストデータとジェスチャを制御するためのジェスチャ制御情報とを格納するための記憶手段とを備え、ジェスチャ制御情報は、制御対象によるジェスチャの動きを制御する動き制御情報と、動き制御情報を特定するためのジェスチャ特定情報とを含み、制御対象の発話に対応するテキストデータのうち、所定長のテキストデータを、所定の終端パターンに基づいて、複数のテキスト切片候補に分割する分割手段と、複数のテキスト切片候補と予め定められた複数のジェスチャとの組合せ候補の各々について、所定の終端パターンでテキスト切片候補が区切られる第１の尤度と、テキスト切片候補の再生時間または再生時間とジェスチャ時間との比のうち少なくとも１つに基づく第２の尤度とに基づき、組合せ候補のうち、最も尤度の高い組合せ候補を、シナリオ中の組合せとして選択する選択手段と、テキストデータのうち、選択された組合せに対応するテキスト切片に続く、所定長のテキストデータに対して、テキストデータの最終端まで、分割手段および選択手段による組合せの選択を繰り返し、テキスト切片とジェスチャ特定情報との組を順次再生順に並べることでシナリオを作成するシナリオ作成手段と、記憶手段に対して、ネットワークを介して、動き制御情報を登録する手段と、を備える。

好ましくは、第２の尤度は、テキスト切片候補の再生時間に基づく尤度と、再生時間とジェスチャ時間との比に基づく尤度との積である。

好ましくは、選択手段は、第１および第２の尤度に加えて、テキスト切片候補中に存在するキーワードに基づく第３の尤度の乗算により、尤度を算出する。

好ましくは、第１ないし第３の尤度は、それぞれに対応する尤度評価モジュールにより算出され、選択手段に対して、尤度評価モジュールを登録するための手段をさらに備える。

この発明の他の局面に従うと、制御対象の発話に対してジェスチャを割り当てたシナリオをサーバ装置において作成するためのシナリオ生成方法であって、発話に対応するテキストデータとジェスチャを制御するためのジェスチャ制御情報とを格納する記憶装置内の情報に基づいて、演算装置が、制御対象の発話に対応するテキストデータのうち、所定長のテキストデータを、所定の終端パターンに基づいて、複数のテキスト切片候補に分割するステップを備え、ジェスチャ制御情報は、制御対象によるジェスチャの動きを制御する動き制御情報と、動き制御情報を特定するためのジェスチャ特定情報とを含み、演算装置が、複数のテキスト切片候補と予め定められた複数のジェスチャとの組合せ候補の各々について、所定の終端パターンでテキスト切片候補が区切られる第１の尤度と、テキスト切片候補の再生時間または再生時間とジェスチャ時間との比のうち少なくとも１つに基づく第２の尤度とに基づき、組合せ候補のうち、最も尤度の高い組合せ候補を、シナリオ中の組合せとして選択するステップと、演算装置が、テキストデータのうち、選択された組合せに対応するテキスト切片に続く、所定長のテキストデータに対して、テキストデータの最終端まで、テキスト切片候補に分割する処理および組合せの選択の処理を繰り返し、テキスト切片とジェスチャ特定情報との組を順次再生順に並べることでシナリオを作成するステップと、記憶装置に対して、ネットワークを介して、動き制御情報を登録するステップと、を備える。

この発明によれば、人がコミュニケーションロボットのような制御対象に、発話とジェスチャを割り当てるときのパターンの抽出結果に基づくことで、ジェスチャを見る人間にとって自然な発話とジェスチャの組合せシナリオの作成を自動化することが可能である。

または、この発明によれば、複数の人間がジェスチャの作成や発話とジェスチャの組合せの尤度の決定方法の作成に関与することにより、シナリオの自動作成のためのシステムを発展的に開発していくことが可能である。

コミュニケーションロボットのための発話とジェスチャのアサインパターンの抽出とその発展的開発の流れを示す図である。サーバ装置２０００のコンピュータシステムのブロック図である。発話へのジェスチャのアサイン処理を説明するためのフローチャートである。作成されるシナリオの例を示す概念図である。シナリオ生成装置のプロトタイプの構成を説明するための概念図である。 robovie（登録商標）mR2の外観示す図である。シナリオ生成のシステムのＵＩ部１０でのユーザインタフェースを示す図である。様々なパラメータ値におけるジョンソンＳＵ分布を示す図である。実験環境を示す図である。式（３）で得られた各評価値を式（４）で正規化したNgi をプロットしたものである。実験で得られた全ての試行の、各命令における音声とジェスチャの再生時間の比率のヒストグラムを示す図である。正規分布とジョンソンＳＵ分布による尤度評価モデル近似曲線を示す図である。正規分布とジョンソンＳＵ分布による尤度評価モデル近似曲線を示す図である。算出した各シナリオのスコアをANOVA(一要因被験者内分析) を用いて評価した。評価結果を示す図である。算出した各シナリオのスコアをANOVA(一要因被験者内分析) を用いて評価した。評価結果を示す図である。

以下、本発明の実施の形態のシナリオ生成システムの構成について、図に従って説明する。なお、以下の実施の形態において、同じ符号を付した構成要素および処理工程は、同一または相当するものであり、必要でない場合は、その説明は繰り返さない。

以下に説明するように、本実施の形態では、人間の心理モデルを再現するのではなく、作成されたロボットの音声とジェスチャの組み合わせのデータを収集し、そのパターンを抽出することで、確率的に音声とジェスチャの組み合わせを生成する。人同士の会話におけるジェスチャと発話の既存概念をあえて導入せず、過去の履歴データを元に発話とジェスチャを組み合わせることで、対象となるコミュニケーションロボットに合わせた、より実用的なシナリオ生成システムを開発することができる。

また、本実施の形態では、履歴データを用いる上で、SOA(Service-Oriented Architecture) を用いたロボットの音声とジェスチャのアサインシステムを構築するものとしている。

近年、業務上、一処理に相当するソフトウェアをサービスと見立て、それらのサービスをネットワーク上で連携させてシステムの全体を構築していくサービス指向アーキテクチャ(SOA) を用いたシステムが次々と発表されてきている。これらのシステムは、２つの大きな利点をもつ。

第１の利点は、システムを利用するユーザが必要とするコンピュータリソースが少ないことである。これらのシステムが必要とするサービスは、ほとんどの処理がネットワーク上にあるサーバで実行されるため、ユーザはブラウザを開くだけでサービスを利用できることが多い。

第２の利点は、ユーザの利用履歴をサービス提供側が収集できることである。サービスがどのように利用されているかを解析することで、より進んだサービスを提供していくことができる。

これら２つの利点は、ロボットを使ったシステムがまさに必要とするものである。ユーザの要求に応えたサービスを実現するには、音声認識、音声合成、顔認識、位置取得など様々な処理を行わなければならない。

これらをそれぞれのユーザローカルの環境に全て導入することは相当のコンピュータリソースを必要とし、サービスが普及する上での大きな壁になっている。また、ロボットがどのような行動をとるべきかを決定し、そのインタフェースを継続的に開発していくには、膨大な量のユーザ・操作者の利用履歴の収集と分析が不可欠であると考えられる。

したがって、ＳＯＡベースのシステムで、以下に説明するような手法を運用することで、ユーザの編集履歴を収集し、発展的にロボットの音声とジェスチャのアサインシステムを開発していくことが望ましい。

以下では、ロボットの行動（音声とジェスチャの組み合わせ）を生成するモデルを、ユーザの編集履歴から構築することを目的として、これらＳＯＡベースのロボットサービスのシステム構成とその流れについて説明する。

ただし、本発明は、このようなＳＯＡベースのシステムのシステムに必ずしも限定されるものではなく、ＳＯＡベースのシステムにおける各サービスと等価な機能を実現できるものであれば、他のシステム構成であってもよい。

また、以下の説明において、「コンピュータエージェント」とは、物理的な実在としてのロボットにおいて、発話とジェスチャとを組み合わせたシナリオに従って、このようなロボットに、対応する発話およびジェスチャを実行させるためのソフトウェアプログラムでありうる。ただし、「コンピュータエージェント」とは、より一般的には、制御対象に対して、シナリオに従って、対応する発話およびジェスチャを実行させるためのソフトウェアプログラムであってもよい。この場合、「制御対象」とは、発話またはジェスチャに対する自由度が人間に比べて少ないものであって、物理的な実体としての視覚対象に限らず、たとえば、ディスプレイ上に表示されるキャラクタ画像のような視覚対象であってもよい。

（コミュニケーションロボットのための発話とジェスチャのアサインパターンの抽出）
図１は、コミュニケーションロボットのための発話とジェスチャのアサインパターンの抽出とその発展的開発の流れを示す図である。

図１に示されるように、本実施の形態のシナリオ生成システムは、クライエント装置側で実行されるユーザインタフェース部１０と、サーバ装置２０００側で実行されるロボット命令生成(Robot Instruction Generation, 以下、ＲＩＧと呼ぶ)サービス部３０と、データベース及びデータストレージ(Data Base and Data Storage, 以下、ＤＢＤＳと呼ぶ)サービス部４０と、そして音声とジェスチャのアサイン評価(Speech-Gesture Assignment Evaluation, 以下、ＳＧＡＥと呼ぶ)サービス部５０との４つのコンポーネントから構成される。

ユーザ２は、クライエント装置のブラウザ上のインタフェース１０から、ＲＩＧサービス部３０を用いてロボットの命令(音声とジェスチャの組み合わせ) を作成することができる。ＲＩＧサービス３０で生成されたリソースとその音声とジェスチャの組み合わせ情報は、ＤＢＤＳサービス部４０により、データベースまたはストレージサーバ等の記憶装置により構成される記憶部４２に登録される。

特に限定されないが、ユーザインタフェース部１０からＲＩＧサービス部３０への情報の受け渡しは、ＲＥＳＴＡＰＩ（Representational State Transfer Application Programming Interface）を用いることができる。

ＳＧＡＥサービス部５０は、記憶部４２に蓄積されている、入力テキストデータに対するテキスト切片とジェスチャの情報に基づいて、それらの組合せの各々について特徴量を抽出し、入力値として用いる。そして、内部に登録された各尤度評価モジュール５４によって、ロボットの音声とジェスチャの組み合わせの尤度を計算し、生成部５６により、シナリオを、後に説明する手順にしたがって、生成する。なお、計算された尤度やシナリオについては、生成部５６からユーザインタフェース部１０に、送信される。

本システムには、ロボット命令生成のためのインタフェースのユーザ以外に、ジェスチャのクリエータ４と、尤度評価サービスの分析者（開発者）６が介在する。

ジェスチャのクリエータ４は、文字通り、ロボットのジェスチャを専用のツールで作成して、ＤＢＤＳサービス部４０に登録する人のことをさす。ジェスチャのクリエータ４は、インタフェースを使うユーザがその役割を兼ねてもよい。しかし、作成にはロボットの軸配置などを把握するなど専門となる知識が必要となり、役割を明確化するために、ここでは、別の存在として定義するものとする。特に限定されないが、ジェスチャのクリエータ４も、専用のインタフェースにより、ネットワークを介して、ジェスチャを制御するための情報をＤＢＤＳサービス部４０に登録することが可能である。

ロボットの命令を作るユーザ２は、ジェスチャクリエータ４の作成したジェスチャを用い、シナリオ生成システムにより、そのジェスチャと音声を割り当てることでロボットの命令を作成する。

特に限定はされないが、本実施の形態では、特定のロボットに限定されずに、より広範囲なロボットに適用できるようにするため、ロボットのジェスチャは自動的に生成できず、登録されるものであるという立場で説明することとする。

一方、分析者６は、ＳＧＡＥサービス部５０を実現するために、蓄積された履歴データを解析し、各尤度評価モジュールを定義し登録する人のことをさす。ロボットの音声とジェスチャの割り当てには、様々な要素が介在すると考えられ、システムは一度の実装で完成するものではなく、発展的に開発されていくものだと考えられる。このような発展的な開発のために、ＳＧＡＥサービス部５０は学習を継続的に行い、その結果を定期的に反映するフレームワークになる。分析者６は、尤度評価モジュール５４とそのパラメータ算出モジュール（図示せず）をＳＧＡＥサービス部５０に実装し、システムに組み込む。パラメータ算出モジュールは、特に限定されないが、たとえば、最小二乗法に基づく構成とすることができる。システムは定期的に、履歴データからパラメータ算出モジュールに基づいて、パラメータを更新し、その結果を尤度評価モジュール５４に反映する。このようなステップを繰り返すことで、全体のサービスは自動化しつつも、尤度評価モジュール５４の追加、パラメータの更新による発展的開発が可能になる。

（ハードウェアの構成）
図２は、サーバ装置２０００のコンピュータシステムのブロック図である。

図２において、サーバ装置２０００のコンピュータ本体２０１０は、メモリドライブ２０２０、ディスクドライブ２０３０に加えて、ＣＰＵ２０４０と、ディスクドライブ２０３０及びメモリドライブ２０２０に接続されたバス２０５０と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ２０６０とに接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ２０７０と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク（ＨＤＤ）２０８０と、ネットワーク等を介して外部機器、たとえば、ストレージサーバ等と通信するための通信インタフェース２０９０とを含む。

ＣＰＵ２０４０が、プログラムに基づいて実行する演算処理により、上述したＲＩＧサービス部３０、ＤＢＤＳサービス部４０、ＳＧＡＥサービス部５０の機能が実現される。

サーバ装置２０００に、上述した実施の形態の情報処理装置等の機能を実行させるプログラムは、ＣＤ−ＲＯＭ２２００、またはメモリ媒体２２１０に記憶されて、ディスクドライブ２０３０またはメモリドライブ２０２０に挿入され、さらにハードディスク２０８０に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ本体２０１０に送信され、ハードディスク２０８０に記憶されても良い。プログラムは実行の際にＲＡＭ２０７０にロードされる。

サーバ装置２０００は、さらに、入力装置としてのキーボード２１００およびマウス２１１０と、出力装置としてのディスプレイ２１２０とを備える。

上述したようなサーバーとして機能するためのプログラムは、コンピュータ本体２０１０に、情報処理装置等の機能を実行させるオペレーティングシステム（ＯＳ）は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。サーバ装置２０００がどのように動作するかは周知であり、詳細な説明は省略する。

また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。

なお、ユーザインタフェース部１０を実行するクライエント装置についても、基本的なハードウェア構成は、図２の構成と同様である。
（発話へのジェスチャのアサイン処理）
以下、テキストデータから、発話にジェスチャを割り当てる処理について、説明する。

図３は、発話へのジェスチャのアサイン処理を説明するためのフローチャートである。

以下では、テキストとして、以下のようなものを例にとることにする。すなわち、ユーザインタフェース部１０より、以下のようなテキストデータが入力されるものとする。

「この研究は、人がコミュニケーションロボットの発話とジェスチャを割り当てるときのパターンを抽出し、自動化するシステムの構築を目指します。そして、そのシステムを発展的に開発していく手法を提案します。従来のコミュニケーションロボットにおける発話とジェスチャのアサイン手法は、人同士の会話における発話とジェスチャの役割を分析し、その役割をモデル化することでロボットに実装されてきました。しかし、…」
図３を参照して、発話へのジェスチャのアサイン処理が開始されると（Ｓ１００）、ＲＩＧサービス部３０では、まず、上述したテキストデータについて、最初から所定の長さ分のデータを抜き出す。ここでは、たとえば、２センテンス分のデータを取り出すものとする。もちろん、何センテンス分のデータを抽出するかは、特に、限定されるものではない。

ＲＩＧサービス部３０は、続いて、この２センテンス分のテキストデータから、終端パターン（たとえば、日本語では、句点や読点、英語であれば、カンマやピリオド）に基づいて、テキストデータを分割した複数のテキスト切片を作成する（Ｓ１０２）。

上述したテキストの例では、たとえば、以下のようになる。

切片１：「この研究は、」
切片２：「この研究は、人がコミュニケーションロボットの発話とジェスチャを割り当てるときのパターンを抽出し、」
切片３：「この研究は、人がコミュニケーションロボットの発話とジェスチャを割り当てるときのパターンを抽出し、自動化するシステムの構築を目指します。」
切片４：「この研究は、人がコミュニケーションロボットの発話とジェスチャを割り当てるときのパターンを抽出し、自動化するシステムの構築を目指します。そして、」
切片５：「この研究は、人がコミュニケーションロボットの発話とジェスチャを割り当てるときのパターンを抽出し、自動化するシステムの構築を目指します。そして、そのシステムを発展的に開発していく手法を提案します。」
なお、「終端パターン」とは、後に説明するように、人間がコンピュータエージェントの発話として、一定以上の確率でテキストを区切る傾向のあるテキスト中の特定パターンのことを意味し、上述したような句点や読点、あるいは、カンマやピリオドに必ずしも限定されるものではない。

なお、説明としては、テキスト切片は、ｉ個得られたものとする。

さらに、ＲＩＧサービス部３０は、予め登録されたｊ個のジェスチャと、上記ｉ個のテキスト切片との（ｉ×ｊ）個の組合せの候補を生成し、ＤＢＤＳサービス部によりこれらの候補データをデータストレージに格納する（Ｓ１０２）。

続いて、ＳＧＡＥサービス部５０は、後に詳しく説明するような、各候補データに対応するような尤度評価モジュール１〜ｍ（ｍは２以上の整数）のそれぞれの尤度をすべて乗算することで、各候補データについての尤度を算出する（Ｓ１０４）。

なお、尤度評価モジュールとしては、以下のようなものを用いることができる。

１）実験的・経験的に得られた「終端パターン」でテキストを区切る尤度を計算する尤度評価モジュール１
尤度評価モジュール１以外に、少なくとも１つ、以下のような尤度評価モジュールを、予め実験的・経験的に得られた尤度に基づいて構成しおき、尤度評価モジュール１に組み合わせることができる。

２）テキスト中のキーワードに対して対応するジェスチャを割り当てる尤度を計算する尤度評価モジュール２
３）ジェスチャの再生時間に対して、これを選択する尤度を計算する尤度評価モジュール３
４）テキスト切片の音声の再生時間とジェスチャの再生時間の比率に基づき、音声とジェスチャを組み合わせる尤度を計算する尤度評価モジュール４
なお、尤度評価モジュールとしては、テキスト切片とジェスチャについて、他の要因に基づく尤度を考慮する場合には、必要に応じて、他の尤度評価モジュールを追加することが可能である。

続いて、ＳＧＡＥサービス部５０は、最も尤度の高い候補を選択する（Ｓ１０６）。

ＳＧＡＥサービス部５０は、候補として選択済みのテキスト切片が、入力されたテキストデータの最終端まで到達したかを判断し（Ｓ１０８）、最終端に到達していなければ、処理をステップＳ１０２に戻す。

一方、最終端に到達していれば、たとえば、サーバ装置２０００において、生成部５６が、最も尤度の高い候補を順次連ねることによりシナリオを生成する。

たとえば、最初に、切片２が選択された場合は、次には、切片２よりも後のテキストについて、再び、２センテンス分のテキストについて、ステップＳ１０２からＳ１０６までの処理を繰り返す。

図４は、作成されるシナリオの例を示す概念図である。

図４に示すように、シナリオは、入力されたテキストについて、順次、尤度の高いテキスト切片とジェスチャを特定するジェスチャＩＤとの組合せを、テキストの再生順に並べたものである。

（シナリオ生成装置のプロトタイプの構成）
図１では、シナリオ生成装置において、クライエント装置側ではユーザインタフェース部１０が機能し、サーバ装置側では、ＲＩＧサービス部３０、ＤＢＤＳサービス部４０、ＳＧＡＥサービス部５０を、ＳＯＡベースのシステムとして構成するものとした。

以下では、図１に示したシナリオ生成装置の機能の実現性を検討するためのプロトタイプの構成について説明する。ただし、以下のようなプロトタイプの構成において、ロボット命令生成の機能として、図１で説明したＳＧＡＥサービス部５０のシナリオ自動生成の機能を合わせもつものとして、シナリオ生成装置を実現することも可能である。

図５は、シナリオ生成装置のプロトタイプの構成を説明するための概念図である。

図５に示した構成は、図１に示したシナリオ生成装置の構成を簡略して実現したものである。以下の説明では、主として、図５に示したプロトタイプの構成による実験結果について説明する。

図５を参照して、システムは、ユーザインタフェース（ＵＩ）アプリケーション部（以下、ＵＩ部）１０と、ロボット命令生成(ＲＩＧ)サーバ３０と、データベース・データストレージ(ＤＢＤＳ)部４０と、そして、ロボットレンダラー部３０００の４つのモジュールから成り立つ。

特に限定されないが、ロボット命令生成(ＲＩＧ)サーバ３０と、ＤＢＤＳ部４０と、ロボットレンダラー部３０００とは、それぞれ、別のサーバ装置上で動作することが可能である。あるいは、これらは、同一のサーバ装置上で動作させる構成としてもよい。

さらに、たとえば、ロボットレンダラー部３０００の機能は、クライエント装置側で実行してもよい。すなわち、図３に示した各部の機能を、サーバ装置とクライエント装置とで、どのようにして分散して処理するかは、特に限定されない。あるいは、すべての機能を１つのコンピュータ装置上で実行してもよい。

シナリオ生成のためのシステムは、ＵＩ部１０への入力を受けて、以下の２通りの処理を行う。

（１）ＵＩ部１０への入力を受けて、ロボットの命令を生成する。この処理はＵＩ部１０と、ロボット命令生成サーバ３０を用いて行われ、その結果は、ＤＢＤＳ部４０に格納される。これらの処理過程は図３中、実線の矢印で表される。

（２）ＵＩ部１０への入力を受けて、ロボットの動作を制御を行う。この処理はＵＩ部１０と、ＤＢＤＳ部４０、ロボットレンダラー部３０００を用いて行われる。これら処理過程は図３中、点線の矢印で表される。

ロボットの命令の生成は、以下の手順で行われる。

まず、ＵＩ部１０は、入力されたテキストを元にロボットの音声を生成し、その合成音声情報をＤＢＤＳ部４０のデータベースに登録する。同時に、合成された音声は、ＤＢＤＳ部４０のデータストレージサーバに保存される。次に、ＵＩ部１０で選択されたジェスチャＩＤに基づいて、データベース上に登録されたジェスチャ情報を取得する。最後に、合成した音声とジェスチャのモーションを組み合わせて、ロボット命令（シナリオ）を生成し、ＤＢＤＳ部４０のデータベースに登録する。ここでも、ジェスチャのモーションを制御するための情報は、予めジェスチャクリエータにより作成され、それぞれ、ジェスチャＩＤと関連付けられて、ＤＢＤＳ部４０に格納されているものとする。

一方、ロボットの行動制御は、次の手順で行われる。

まず、ＵＩ部１０は、Ｗｅｂソケットクライアントを用いて、ロボットレンダラー３０００上のＷｅｂソケットサーバに、あるＩＤで特定されるロボット命令の再生を指示する。ロボットレンダラー３０００上のＷｅｂソケットサーバ３００２はその指示を受けて、命令解析モジュール３００４に、ロボット命令のＩＤを送る。命令解析モジュール３００４は、受け取ったロボット命令のＩＤをキーとして、ロボット命令生成サーバ３０の命令シリアライズモジュール３８に命令内容を問い合わせ、その内容をダウンロードする。命令解析モジュール３００４は、命令内容を解析し、必要な音声、ジェスチャファイルのＵＲＩ情報を取り出し、リソースマネージャ３００８に指示して、そのリソースをＤＢＤＳ部４０のデータストレージサーバからダウンロードする。最後に、命令解析モジュール３００４は、命令の実行を、アクチュエータコントローラ３００６に指示する。アクチュエータコントローラ３００６はリソースマネージャ３００８が確保したリソースを用いて、ロボット１０００にモーションの命令を送り、音声とジェスチャを再生する。なお、一度、リソースマネージャ３００８によって取得された音声、ジェスチャのリソースは重複してダウンロードされることはない。

以上の処理を行うことで、実装したプロトタイプシステムは、ロボットの命令を生成するとともに、その命令を蓄積するという処理と、その命令の実行という処理の双方を行うことができる。

（ロボット）
本実施の形態では、システムが制御するロボットとして、robovie（登録商標）mR2を用いるものとして説明する。

図６は、robovie（登録商標）mR2の外観示す図である。図６（ａ）は正面図を、図６（ｂ）は側面図を、図６（ｃ）は、ロボットの自由度を示す。

このロボットは、机の上に置いて使うことを想定して、設計されており、その高さは３０．０ｃｍ、半径は１５．０ｃｍ、重量は２．０ｋｇである。人間の上半身をもとに設計されており、頭部に３自由度、目に２自由度、まぶたに２自由度、腕に４自由度、腰に１自由度の動作軸を持つ。ロボットの特徴として、腹部にipod touch/iphone（登録商標）接続のための空間があり、そこにipod touch/iphone（登録商標）を格納することで、携帯端末からシリアルケーブルを介して、ロボットの制御をおこなうことができる点がある。制御ソフトウェアを携帯端末側で実行させることでパソコンを介さずにロボットを制御することが可能となる。以上の特徴により、robovie（登録商標）mR2 は可搬性に優れ、家庭環境にも容易に導入できるロボットとなっている。本実施の形態で説明する実験においては、ユーザが手軽にロボットの再生コンテンツ(音声、モーションの組み合わせ) を作成できる環境を目指し、図３のシステムを用いてrobovie（登録商標） mR2 の再生コンテンツを作成した。

（ユーザインタフェースの設計）
図７は、シナリオ生成のプロトタイプシステムのＵＩ部１０でのユーザインタフェースを示す図である。

システムにおけるテキストとジェスチャのアサインは、命令生成ウィンドウを基準に行われる。ウィンドウは、命令番号、合成ボタン、テキストを入力するためのテキストエリア、ジェスチャを選択するチェックボックスから成り立つ。命令番号は、組み合わされた音声とジェスチャが再生される順番を示す。ユーザはテキストエリアにテキストを入力し、チェックボックス中からジェスチャひとつを選択する。

その後、合成ボタンを押すことで、ロボットの音声とジェスチャのアサインを行うことができる。合成が完了すると、システムは確認画面を出し、合成が終了したことをユーザに通知する。また、合成ボタンのラベル名を「合成」から「再生」に変更する。ユーザは再生ボタンを押すことで、割り当てた音声とジェスチャの組み合わせが妥当であるかどうかを確認することができる。ジェスチャと音声の割り当ては何度でもやり直すことができ、ユーザは自分で納得するまで、合成する音声の長さと割り当てるジェスチャの長さを調整することができる。命令生成ウィンドウは、ＵＩ部１０上部の「追加」ボタンで追加することができる。命令生成ウィンドウ順番に作成していくことで、最終的に再生したい文章全体の音声とジェスチャの組み合わせを作成する。

（音声とジェスチャのアサインの評価(ＳＧＡＥ)）
図１に示したサービスの設計音声とジェスチャのアサイン評価(ＳＧＡＥ)サービスは、ＤＢＤＳサービス部４０に登録されたロボットの音声とジェスチャの履歴に基づいて、登録された複数の尤度評価モジュールが算出する尤度の総乗から、音声とジェスチャの組み合わせを評価する。ここでは、本実施の形態における尤度評価モジュールの設計方法について述べる。

尤度評価モジュールiの尤度をLiとすると、ＳＧＡＥサービス５０が最終的に算出する尤度L は以下の式で与えられる。

尤度評価モジュールがどのように尤度を算出すかは、様々な方法が考えられるが、本実施の形態では、以下の２つのどちらかで尤度を算出・決定することとする。

１）非連続のデータが与えられた場合：ルールベースの尤度決定
２）連続するデータが与えられた場合：確率密度関数を基にした尤度算出
ルールベースによる尤度決定は、非連続なデータの分析に用いる。本実施の形態では、主にアサインされた音声の元となるテキストを分析するときに用いる。これまでの既存研究においても、テキストを文法解析、もしくは形態素解析し、そこに含まれるキーワードや品詞を元にアサインするジェスチャを決める手法が採用されてきた。本実施の形態においても、テキストを形態素解析し、得られたジェスチャのアサインパターンを基に尤度評価モジュールを定義する。

一方、確率密度関数による尤度算出は、連続した値を分析する際に用いる。音声の再生時間や、ジェスチャの再生時間、またはそれらの比率など、数値によって分析できるものは確率密度関数により、そのパターンを近似する。

このような分析に最も用いられる確率分布は、ガウス分布（正規分布）であるが、解析して得られたデータは、必ずしも左右対称の分布を示さない。むしろ、その分布は、左右非対称で偏りを示す場合が多い。このような要求を満たすため、本実施の形態では、近似式として、ジョンソンＳＵ分布を用いた。ジョンソンＳＵ分布は、歪度（分布の非対称性）と尖度（裾の厚さ）を適当に与えることで正規分布の形状をかなり自由に操作できるという特徴を持ち、その確率密度関数は以下の式（２）で与えられる。

確率密度関数(2) は、γ，δ，λ、ε の４変数によって、その中心、裾の広がり、歪度、尖度を決定することができる。

図８は、様々なパラメータ値におけるジョンソンＳＵ分布を示す図である。

図８に示すように、ジョンソンＳＵ分布により、様々な分布を定義することが可能である。

これらルールベースと、確率密度関数を用いた近似式のいずれかの手法を用いることで本実施の形態では、ＳＧＡＥサービス部５０の尤度評価モジュールを設計する。

（ＳＧＡＥサービス部５０構築のためのデータ収集）
本実施の形態で提案するロボットの音声とジェスチャのアサイン評価(ＳＧＡＥ) サービス部５０は、過去に構築されたロボットの命令（音声とジェスチャの組み合わせ）から、アサインされた組み合わせを評価する。従って、ＳＧＡＥサービス部５０を構築するためには、予めユーザによるロボット命令の生成履歴が必要となる。

これらＳＧＡＥサービス部５０の尤度評価モジュールに必要な履歴データを収集するために実験を行なった。実験において、被験者は、図５で説明したプロトタイプシステムを用いて、教示されたドキュメントの文章を分割し、分割したそれぞれの文にジェスチャをアサインした。分割された文章、文章に割り当てられたジェスチャはシステム中のデータベースに保存される。実験後、データベースに格納された情報に基づいて、尤度評価モジュールを定義した。

（実験概要）
図９は、実験環境を示す図である。

実験では、被験者はテーブルの正面に座り、ラップトップを制御する。ラップトップには、図５で述べたプロトタイプシステムのＵＩ部１０が立ち上がっており、robovie（登録商標） mR2 の発話とジェスチャをアサインすることができる。

図９中、右側のディスプレイは、説明に必要な画像が描画される(画像がディスプレイに描画されているかどうかは実験条件によって異なる)。今回の実験では、大学生の男女２７名（男性：１３名、女性：１４名）に参加してもらい、ロボットの発話とジェスチャのアサイン作業を行った後、アンケートに答えてもらった。

（実験手順）
実験手順は次のとおりである。

（１）まず、実験者は、被験者にこれからロボットに説明させる文章を手渡す。

（２）被験者はまずロボットに説明させる文章を音読し、その内容を把握する。

（３）実験者は、実際に最初の２文を作成しながら（これら実験者が作成したコンテンツは解析対象から外される）、被験者に実装したプロトタイプシステムのユーザインタフェースの使い方を説明し、質問を受け付ける。

（４）被験者は、与えられた文章をロボットが説明できるよう、ロボットの命令（音声とジェスチャの組み合わせ）を文章分、作成する。

（５）全ての命令の作成が終了し、再生確認を終えたら、アンケートに記述する。

本実施の形態では、ジェスチャのパターンとして、ジェスチャの種類と共に、その再生時間の長さについても着目した。そこで、時系列別のジェスチャと文章を組み合わせる条件１と、種類の違うモーションと文章を組み合わせる条件２の計２種類の条件で音声とジェスチャのアサインを行なった。それぞれの条件について、その詳細を表１にまとめる。

各条件において、ロボットの命令の元となる文章は、文章構造によるテキスト分割のパターンを分析するため、複雑な文章構造になりやすい専門的な内容を説明するものとし、ウィキペディアのページから取得した文章に基づいて作成した。それぞれの文章は、音声合成ソフトXimeraで音声合成すると、その長さは６０．０秒程度の内容となり、誤差は０．５秒以内である。

なお、Ximeraについては、以下の文献に開示がある。

文献：H. Kawai, T. Toda, J. Ni, M. Tsuzaki, and K. Tokuda, ”Ximera: A New Tts from ATR Based on Corpus-Based Technologies,”ISCA Speech Synthesis Workshop, pp. 179-184, 2004.
一方、ジェスチャについては、２つのパターンを用意した。条件１では、再生時間の違いによるユーザの選択傾向を分析することを目的として、２．０秒から２０．０秒までの２．０秒ごと、計１０種類の繰り返しジェスチャを用意した。ジェスチャの種類によってアサインが変わらないよう、ジェスチャのクリエータには、話者のイメージを表現する表象的ジェスチャにはならないように注意し、体の一部を交互に動かす繰り返しジェスチャとして作成してもらった。

一方、条件２では、エンブレム(”byebye”)、表象的(直示的（指さし）、および描写的ジェスチャ)、繰り返しジェスチャをアサインしてもらった。これらのジェスチャは、それぞれ音声の長さに対応できるように、５．０秒、１０．０秒の２種類の選択肢を用意した。直示的ジェスチャは指し示す対象が必要となるため、条件２においてはディスプレイに、糖尿病による合併症を説明する図が表示される（図の内容は、文章の内容と対応する）。

（実験データを用いたＳＧＡＥサービス部５０の尤度決定モジュールの構成）
以下では、実験で収集した音声とジェスチャのアサイン履歴に基づいて、ＳＧＡＥサービス部５０の尤度評価モジュールを定義する。本実施の形態では、ルールベースの評価を２通り、確率密度に基づく評価を２通り、計４つの分析を行った。それぞれの内容を以下に示す。

１）文章構造解析に基づく、テキスト終端パターンの分析
２）ジェスチャとキーワードのアサインパターンの分析
３）ジェスチャの再生時間に基づく、アサインパターンの分析
４）音声とジェスチャの再生時間の比率に基づく、アサインパターンの分析
分析によって得られたルール、もしくは近似式から決定される尤度の総積（式（１）) から、音声とジェスチャの組み合わせを評価する。

（文章構造解析に基づく、テキスト終端パターンによる分析）
実験で得られたデータを分析すると、音声の元となるテキストの分割パターンに、文章構造の影響、特に句読点の影響が顕著に見られた。本節では、入力されたテキストの終端パターンから、尤度を決定するルールを導く。分析は、実験条件１，２全ての音声とジェスチャの組み合わせを対象として行なった。

被験者が分割したテキストの終端をみると、そのほとんどが、句読点で分割されていた。

特に句点「。」では、ほぼ１００％の確率で分割されており、顕著なパターンといえる。次に読点「、」による分割が多い。逆に、句読点以外の場所で分割されているケースは、稀であった。読点による分割は、その前にくる文章構造から、その分割割合に偏りが見られた。読点の前の文章構造のパターンは様々であったが、本実施の形態では、その中でも分割の割合が高い、動詞と前置詞の組み合わせ、動詞句（あるいは動詞節）による読点分割と、それ以外の読点分割に分けてその割合を計算した。句点、読点（動詞句、動詞句以外）、その他による分割の割合を、表２に示す。表２に示されるように、隣接するパターンの割合を比較すると、２．０倍程度の開きがあることがわかる。

文章構造に基づく尤度評価モジュールは、表２に示されるパターンと割合を用いて、与えられたロボットの音声とジェスチャの組み合わせの尤度を決定する。

（人が自身で説明する場合とロボットの行動を生成する場合におけるテキスト終端パターンの違いの検証）
本実施の形態が提案する手法の有効性を示すためには、提案手法を使って人−人と人−ロボットのデータでそれぞれモデル化した場合，尤度関数のパラメータが全く異なったものになることと共に、モデル化に使用したロボットを制御する場合には提案手法のほうが良い結果をもたらすことを示す必要がある。

ジェスチャに関して、人とロボットのジェスチャを合わせて、対照実験を設定することが困難であるため、このモジュールを例に挙げて、人の自身の行動モデルと作成者の音声とジェスチャをアサインするモデルのパラメータが異なることを示し、その有効性を検証する。

人の自身の行動モデルと、ロボットの音声とジェスチャをアサインする際のモデルの違いについて調べるために、実験の教示時に被験者がシナリオを朗読した音声の解析を行なった。解析では、２人の解析者を用意し、朗読に使用したシナリオに対して、「被験者の朗読を聞き、文章を区切っていると思う部分に斜線を入れる」ように教示した。そして、２人の被験者が共に、「文章を区切っている」と解釈した部分をテキストの終端とし、本文中の「文章構造解析に基づく、テキスト終端パターンによる分析」と同様に、句点、読点（動詞句区切り）、読点（動詞句区切り以外）、その他に分類して、その平均値と割合を求めた。表３に、朗読の解析結果とアサインの解析結果のデータの比較を示す。

表３において、平均値は、被験者が一つのシナリオについて入れた該当する終端パターンの平均値を示す。割合は、該当する終端パターンの全終端パターンにおける割合を表す（アサインにおける割合は、シナリオ中に存在する該当の終端パターンの総数と、実際にその終端パターンで区切られた数の割合を示すため、母数が異なる）。表３に示されるように、それぞれの句点の平均値は、ほぼ同一になるもののその他の終端パターンについては、アサイン時は句点の平均値から減少していくのに対し、朗読時は増加し、必然的にその割合も変化する。

この違いは、人が自身で朗読するときは、イントネーションや緩急をつけて、文章の区切りをつけられるのに対し、ロボットにおいては音声合成機能（本実施の形態においては、音声合成ソフトXimera）の限界のため、そのような表現が難しいことに起因すると考えられる。つまり、表現の多様性が保証されている環境下においては、人は文章を短く切って説明しようとするのに対し、区切りの表現手段が限られている環境下においては、文章を長く区切るように方針を転換していると考えられる。

以上の結果より、人が自身で発話する場合とロボットに表現させる場合では、その文章の区切り方についてパターンが異なることが示された。このような文章の区切り間隔に関する方針の転換は、聞き手にとってどのような効果を及ぼすのかを以下さらに検討する。上記の仮説を検証するために、被験者が作成したシナリオの中で、音声とジェスチャの組み合わせの長さの平均が、ａ）最も長いシナリオと、ｂ）最も短いシナリオを、実験を行った９名(男性４名、女性５名) の被験者に比較してもらい、どちらが好ましいか評価してもらった。結果、全ての被験者がａ）のシナリオの方が良いと回答した。以上の結果より、ロボットの音声とジェスチャのアサインにおける文章区切りの方針転換は、聞き手に対しても好ましい印象を与える効果を持つといえる。
（ジェスチャとキーワードのアサインパターンの分析）
音声に対して割り当てられるジェスチャは、ランダムな確率になるのかについて以下検討する。これまでの関連研究では、あるキーワードが音声テキスト中に含まれると、エンブレムや表象などのジェスチャが適用されるアルゴリズムを採用しているシステムが多い。音声テキスト中のあるキーワードやその組み合わせによって、特定の種類のジェスチャがアサインされる傾向があることは自明のことであると考えられる。

ここでも、音声テキスト中に含まれるキーワードとジェスチャのアサインパターンを分析し、ルールベースに尤度を決定する尤度評価モジュールを定義する。これまで既存研究で分類されたジェスチャの種類はあえて使わず、登録された個別のジェスチャとキーワードの関係のみによって尤度を決定する方針を採る。

本実施の形態では、形態素解析ソフトChasenを利用して、アサインされたテキストを形態素解析し、名詞、動詞、形容詞、副詞、接続詞の６種類の品詞に関して、それぞれのワードにアサインされたジェスチャとその割合を分析し、マトリックスを作成した。

なお、Chasenについては、以下に開示がある。

文献：松本裕治，北内啓，山下達雄，平野善隆，松田寛, 高岡一馬, 浅原正幸, ”日本語形態素解析システム『茶筌』version 2.2.1 使用説明書,”, Dec, 2000.
分析された結果の中で特に特徴的なキーワード、「バイバイ」と「図」に関して、アサインされたジェスチャのラベルと、その割合を表４、表５に示す。

アサインされているジェスチャの中で、ラベルに”byebye”が含まれるジェスチャは、ロボットが手を振るエンブレムジェスチャである。後半のshort/long でその長さが５秒であるか、１０秒であるかが示される。対して、”point”が含まれるジェスチャは、ロボットがディスプレイを見ながら、指をさす直示的ジェスチャであり、長さに関する定義は”byebye”のものと同様である。最後に”high”を含むジェスチャは両手を頭の高さまで広げ、下ろすという、大きさや程度が大きいことを示すための描画的ジェスチャである。これらの例から、本節で定義したキーワードとジェスチャのアサインが機能していることが確認できたと考える。

テキストを解析する際、複数のキーワード（名詞、動詞、形容詞、副詞、接続詞）が抽出される場合がある。この場合は、それぞれのキーワードのマトリックスを解析し、もっとも候補ジェスチャが少ないもの（候補ジェスチャが少ないということは、あるジェスチャが選択的にアサインされていることを意味する）を採用する。また、該当するマトリックスがひとつもない場合は、１．０を返すこととする。

テキストとジェスチャのアサインパターンに基づく尤度評価モジュールは、表4, 5 に示されるパターンと割合に代表される関係マトリックス群を用いて、与えられたロボットの音声とジェスチャの組み合わせの尤度を決定する。
（ジェスチャの再生時間に基づく、アサインパターンの分析）
本実施の形態では、ロボットのジェスチャは、自動生成するものではなく、ジェスチャのクリエータによって作成され、ＤＢＤＳサービス部４０に登録されるものである。

ロボットのジェスチャを作ることを仮定したとき、どれくらいの長さのモーションがユーザに好まれるかということについてはまだ明らかにされていない。ここでは、ジェスチャの長さに対する被験者の選択傾向を評価する尤度評価モジュールを定義する。

まず、実験の条件１において、割り振られた全てのジェスチャに関して、選択された回数を求めた。課題の特性上、文章を短く区切り、短いジェスチャを割り当てるとより多くのロボット命令を作れる。そのため、短いジェスチャが選択される回数は長いジェスチャと比べて増加する傾向にある。この不均衡を解消するため、選択傾向の評価には、それぞれのジェスチャが選択された回数に、そのジェスチャが文章全体に占める割合を乗算した値Egi を用いた。Egi はi 番目のジェスチャgi の評価値を表し、以下の式によって与えられる。

ここで、cgi は全ての試行を通してそのジェスチャが採用された数、dgi は該当するジェスチャの長さ、式の分母は音声の長さdsj の総和、つまり、文章の長さ(実験条件により、６０．０秒程度となる) を表す(分割後の音声の平均時間は７．０秒となった)。

図１０は、式（３）で得られた各評価値を式（４）で正規化したNgi をプロットしたものである。

これらの分布を近似するジョンソンＳＵ分布のパラメータγ，δ，λ、εを最小二乗法を用いて、以下の式（５）のように求めた。

このようにして得られたパラメータによるジョンソンＳＵ分布の推移を図１０に示す。プロットされている値に比べて、近似曲線が低い位置にあるのは、プロットされている点はその値の合計が１．０になるのに対し、近似式はその面積が１．０になる関数であるためである。

ジェスチャの再生時間に基づく尤度評価モジュールは、式（２）とパラメータ式（５）によって定義される確率密度関数に基づき、与えられたロボットの音声とジェスチャの組み合わせの尤度を決定する。

この尤度評価モジュールは、ジェスチャの再生時間に基づいているが、図１０に示される分布の意味は、音声とジェスチャの組み合わせの長さ（再生時間）が短すぎれば、より長い組み合わせを模索し、逆に長すぎれば、より短い組み合わせを模索するという人の選択傾向だと考えられる。

今回の実験において、その長短の判断が分かれる境目は１０．０秒付近だということが示された。従って、この尤度評価モジュールを導入することで、システムは発話音声が１０．０秒以下になった場合、より長い組み合わせを探し、逆に１０．０秒以上になった場合はより短い組み合わさを模索するように動作する。
（音声とジェスチャの再生時間の比率に基づく、アサインパターンの分析）
ロボットの音声とジェスチャをアサインするとき、ユーザの観点から重要であると考えられる要因の一つが、音声とジェスチャの再生時間の比率である。ユーザはなるべく、音声とジェスチャの長さが一致するように組み合わせを決定するものと考えられる。本節では、音声とジェスチャの再生時間に基づく、尤度評価モジュールを定義する。

図１１は、実験で得られた全ての試行（条件１,条件２を含む）の、各命令における音声とジェスチャの再生時間の比率のヒストグラムを示す図である。

命令i における、比率ri は以下の式（６）で計算される。

ここで、si は、命令i における音声の再生時間、giは、命令i におけるジェスチャの再生時間を表す。

図１１を見ると、比率１．０までは正規分布に対応した増加を見せるが、１．０を越えたところで、急激に値が減少する傾向が見える。このヒストグラムの分布を近似するジョンソンＳＵ分布のパラメータγ，δ，λ、εを最小二乗法を用いて、以下の式（７）のように求めた。

上記、パラメータによって近似される確率密度の分布が図１１に示される。

ジェスチャと音声の再生時間の比率に基づく尤度評価モジュールは、式（２）とパラメータ式（７）によって定義される確率密度関数に基づき、与えられたロボットの音声とジェスチャの組み合わせの尤度を決定する。
（ジョンソンＳＵ分布による近似の有効性の検証）
本実施の形態では、プロトタイプシステムによって得られた音声とジェスチャの組み合わせの履歴データのパターンが、ガウス分布による近似と比較して、尖度が違ったり、歪んでいたり、左右非対称である場合においても、より正確にその分布を近似できるようにジョンソンＳＵ分布を用いて、近似を行なった。本節では、その有効性について検証する。

図１２および図１３は、正規分布とジョンソンＳＵ分布による尤度評価モデル近似曲線を示す図である。

図中、点線によって示される曲線が、ガウス分布による近似曲線である。対して、実線によって示される曲線がジョンソンＳＵ分布による近似曲線である。

図１２を見るとわかるように、ジェスチャの再生時間の選択傾向の近似に関しては、２つの近似にあまり変化はなかった（ジョンソンＳＵ分布の方が残差がわずかに小さい）。

対して、図１３から、ジェスチャと音声の再生時間の比率分布に関しては、ジョンソンＳＵ分布の方がその特徴を捉えていることがわかる。ジェスチャと音声の再生時間の比率の分布は、比率が１．０を越えた時点で発生確率が急速に低下する傾向がある（歪んでいる）。本実施の形態で提案したジョンソンＳＵ分布による近似はその特徴を捉えることができたと考える。
（ＳＧＡＥサービス部５０のシミュレーション）
上記、実験データを元にして構成したＳＧＡＥサービス５０の尤度評価モジュールが出力する尤度の総積が、実際に適切な音声とジェスチャの組み合わせを提示できるのか、厳密に検証することは非常に難しい問題である。

音声とジェスチャの組み合わせ総数は、相当な数に達し、それら全てを検証することは困難である。

対して、モジュール一つ一つの評価をすることは、サービス全体の評価につながらない。例えば、キーワードのみでジェスチャを選択したとしても、音声とジェスチャの長さの比率が１．０から極端に遠くなれば、その組み合わせに対する評価は低くなると考えられる。一方、音声とジェスチャの比率を一定に保とうとすれば、文章構造を反映してテキストを分割することが困難になる。

ここでは、ＳＧＡＥサービス部５０の簡単な検証のため、シミュレーションを行い、特徴的な組み合わせを作成した３名の被験者の音声とジェスチャの組み合わせを、別の被験者が評価し、評価が高い組み合わせと、算出される尤度が高い組み合わせが一致することを確認する。

（シミュレーション手順）
シミュレーションでは、条件１のシナリオと条件２のシナリオの２種類のシナリオに関して、それぞれ被験者たちが作ったジェスチャと音声の組み合わせの尤度を求め、その平均を求めた。そして、それぞれのシナリオについて、以下の３種類をを選出した。

Min.上述したように定義した尤度評価モジュールによって算出した尤度の平均が最も低いシナリオ
Mid.上述したように定義した尤度評価モジュールによって算出した尤度の平均が中間値であるシナリオ
Max.上述したように定義した尤度評価モジュールによって算出した尤度の平均が最も高いシナリオ
そして、男女９名(うち、男性３名、女性６名) の被験者が３つのシナリオを評価し、聞き取りやすいと思った順に不等号・等号を用いて並び替えてもらった。表６に、用いた不等号と、そのスコアを示す。

それぞれのシナリオの評価方法は、次のとおりである。

（１）一番、評価が低いシナリオのスコアを１とする
（２）一番低いシナリオから、加算スコアに基づいて、スコアを順に加算していく
例えば、Max.> Min.>> Mid.という評価をした場合、シナリオMid.の評価１．０、Min.の評価は３．０、Max.の評価は４．０となる。
（シミュレーション結果）
図１４および図１５は、算出した各シナリオのスコアをANOVA(一要因被験者内分析) を用いて評価した。評価結果を示す図である。

図１４に示されるように、条件１のシナリオに対する評価では、評価のスコアに対して、有意な差が確認された(p < .01; F = 10.77)。また、多重比較検定(LSD) において、尤度の平均が最大のシナリオが、尤度の平均が最小のシナリオより評価が有意に高いこと(p < .05)、また、尤度の平均が中間値であるシナリオが、平均値が最小のシナリオより評価が有意に高いこと(p < .05) が確認された。以上の結果より、尤度の平均が最小値のシナリオより、中間値、最大値のシナリオの方が高く評価されることが示された。条件１のシナリオにおいては、尤度が中間値のシナリオと最大値のシナリオ間には、有意な差は確認できなかった。

一方、図１５に示すように、条件２のシナリオに対する評価でも、スコアに対して、有意な差が確認された(p < .05; F = 4.90)。

また、多重比較検定において、尤度の平均が最大のシナリオが、尤度の平均が中間値のシナリオと比べて評価が有意に高いこと(p < .05) が示された。他の条件間には有意な差は確認できなかった。

以上により、少なくとも、尤度が最大のスコアとなるシナリオは、ユーザにとって、好ましいとの評価を受けていることがわかる。

したがって、入力された文章を分割して、作成し得るロボットの命令（音声とジェスチャの組み合わせ）をＳＧＡＥサービス部５０を用いて評価し、もっとも高い尤度を持つ組み合わせを選択していくことで、ロボットの命令生成を自動化することが可能である。

シナリオ生成装置によれば、たとえば、ブログのテキストを身振り手振りを交えながら、説明してくれるロボットサービスを作ることが可能になる。ひいては、膨大な量のｈｔｍｌコンテンツをロボットサービスに取り込むことが可能になる。

しかも、ジェスチャクリエータ４や、分析者６が、ロボットコンテンツの作成者２とは、独立した存在であるので、シナリオ生成装置を利用して、システムを発展的に開発していくことが可能となる。

今回開示された実施の形態は、本発明を具体的に実施するための構成の例示であって、本発明の技術的範囲を制限するものではない。本発明の技術的範囲は、実施の形態の説明ではなく、特許請求の範囲によって示されるものであり、特許請求の範囲の文言上の範囲および均等の意味の範囲内での変更が含まれることが意図される。

２ユーザ、４ジェスチャクリエータ、６分析者、１０ユーザインタフェース部、３０ＲＩＧサービス部、４０ＤＢＤＳサービス部、４２記憶部、５０ＳＧＡＥサービス部、５４尤度評価モジュール、５６生成部、２０００サーバ装置。

Claims

制御対象の発話に対してジェスチャを割り当てたシナリオを作成するためのシナリオ生成装置であって、前記シナリオ生成装置はサーバ装置であり、
前記発話に対応するテキストデータと前記ジェスチャを制御するためのジェスチャ制御情報とを格納するための記憶手段とを備え、前記ジェスチャ制御情報は、前記制御対象によるジェスチャの動きを制御する動き制御情報と、前記動き制御情報を特定するためのジェスチャ特定情報とを含み、
前記制御対象の前記発話に対応するテキストデータのうち、所定長のテキストデータを、所定の終端パターンに基づいて、複数のテキスト切片候補に分割する分割手段と、
前記複数のテキスト切片候補と予め定められた複数のジェスチャとの組合せ候補の各々について、前記所定の終端パターンで前記テキスト切片候補が区切られる第１の尤度と、前記テキスト切片候補の再生時間または前記再生時間とジェスチャ時間との比のうち少なくとも１つに基づく第２の尤度とに基づき、前記組合せ候補のうち、最も尤度の高い組合せ候補を、前記シナリオ中の組合せとして選択する選択手段と、
前記テキストデータのうち、前記選択された組合せに対応するテキスト切片に続く、前記所定長のテキストデータに対して、前記テキストデータの最終端まで、前記分割手段および前記選択手段による組合せの選択を繰り返し、前記テキスト切片と前記ジェスチャ特定情報との組を順次再生順に並べることで前記シナリオを作成するシナリオ作成手段と、
前記記憶手段に対して、ネットワークを介して、前記動き制御情報を登録する手段と、を備える、シナリオ生成装置。
前記第２の尤度は、前記テキスト切片候補の再生時間に基づく尤度と、前記再生時間と前記ジェスチャ時間との比に基づく尤度との積である、請求項１記載のシナリオ生成装置。
前記選択手段は、前記第１および前記第２の尤度に加えて、前記テキスト切片候補中に存在するキーワードに基づく第３の尤度の乗算により、尤度を算出する、請求項１または２記載のシナリオ生成装置。
前記第１ないし第３の尤度は、それぞれに対応する尤度評価モジュールにより算出され、前記選択手段に対して、前記尤度評価モジュールを登録するための手段をさらに備える、請求項３に記載のシナリオ生成装置。
制御対象の発話に対してジェスチャを割り当てたシナリオをサーバ装置において作成するためのシナリオ生成方法であって、
前記発話に対応するテキストデータと前記ジェスチャを制御するためのジェスチャ制御情報とを格納する記憶装置内の情報に基づいて、演算装置が、前記制御対象の前記発話に対応するテキストデータのうち、所定長のテキストデータを、所定の終端パターンに基づいて、複数のテキスト切片候補に分割するステップを備え、前記ジェスチャ制御情報は、前記制御対象によるジェスチャの動きを制御する動き制御情報と、前記動き制御情報を特定するためのジェスチャ特定情報とを含み、
演算装置が、前記複数のテキスト切片候補と予め定められた複数のジェスチャとの組合せ候補の各々について、前記所定の終端パターンで前記テキスト切片候補が区切られる第１の尤度と、前記テキスト切片候補の再生時間または前記再生時間とジェスチャ時間との比のうち少なくとも１つに基づく第２の尤度とに基づき、前記組合せ候補のうち、最も尤度の高い組合せ候補を、前記シナリオ中の組合せとして選択するステップと、
演算装置が、前記テキストデータのうち、前記選択された組合せに対応するテキスト切片に続く、前記所定長のテキストデータに対して、前記テキストデータの最終端まで、前記テキスト切片候補に分割する処理および前記組合せの選択の処理を繰り返し、前記テキスト切片と前記ジェスチャ特定情報との組を順次再生順に並べることで前記シナリオを作成するステップと、
前記記憶装置に対して、ネットワークを介して、前記動き制御情報を登録するステップと、
を備える、シナリオ生成方法。