JP2007272773A

JP2007272773A - 対話型インターフェイス制御システム

Info

Publication number: JP2007272773A
Application number: JP2006100310A
Authority: JP
Inventors: Kazuhiro Omura; 和弘大村; Kazushi Soga; 一志曽我; Kazuyuki Sato; 和之佐藤
Original assignee: Xing Inc
Current assignee: Xing Inc
Priority date: 2006-03-31
Filing date: 2006-03-31
Publication date: 2007-10-18

Abstract

【課題】利用者を飽きさせない対話型インターフェイスを実現する対話型インターフェイス制御システムを提供する。
【解決手段】パーソナルコンピュータ１４のマイクロフォン６８から入力された利用者の音声からその音声の特徴に対応する音特徴情報を抽出する音特徴抽出手段１７２と、その音特徴抽出手段１７２により抽出された音特徴情報に基づいて特徴定義情報を作成する特徴定義手段１８２と、その特徴定義手段１８２により作成された特徴定義情報に基づいて映像表示装置６０に表示される人型映像１８８、１８８′を制御する人型映像制御手段１６４とを、有することから、対話を重ねるうちに対話型インターフェイスが利用者の音声を反映したものに変化してゆく所謂育成シミュレーションとしての要素をその対話型インターフェイスに付与できる。
【選択図】図６

Description

本発明は、端末装置において利用者と音声による対話を行う対話型インターフェイスを制御する対話型インターフェイス制御システムに関する。

近年における通信技術の向上に伴い、共通の通信回線を介して種々の端末装置を相互に連携させる所謂ユビキタス（Ubiquitous）環境の実現が唱えられるようになった。このユビキタス環境では、パーソナルコンピュータ、携帯電話機、及びデジタル家電等のコンピュータが相互に連携して動作する他、共通のコンテンツやインターフェイス等を利用することができる。

斯かるユビキタス環境におけるインターフェイスの一形態として、端末装置において利用者と音声による対話を行う対話型インターフェイスが提案されている。例えば、特許文献１に記載されたキャラクタインターフェイスシステムがそれである。この技術によれば、利用者との対話内容を認識する対話認識部と、その対話認識部による認識結果に基づいて利用者プロファイル情報を編集する利用者プロファイル情報管理部と、その利用者プロファイル情報管理部により編集される利用者プロファイル情報と所定の対話知識とに基づいて利用者との対話内容を制御する対話制御部とを、備えていることから、利用者との間で音声による自然な対話が可能な対話型インターフェイスを提供できるとされている。

特開２００２−３４１９８５号公報

しかし、前述したような従来の技術は、利用者との対話を次回以降の対話に十分にはフィードバックできないものであった。このため、どれだけ対話を重ねても対話型インターフェイスの応答等に好ましい変化が生じず、利用者が飽きてしまうという弊害があった。すなわち、利用者を飽きさせない対話型インターフェイスは、未だ開発されていないのが現状である。

本発明は、以上の事情を背景として為されたものであり、その目的とするところは、利用者を飽きさせない対話型インターフェイスを実現する対話型インターフェイス制御システムを提供することにある。

斯かる目的を達成するために、本発明の要旨とするところは、音声入力部、映像表示部、及び音声出力部を有する端末装置を備え、その端末装置の映像表示部に人型映像を表示させると共に音声入力部及び音声出力部を介して利用者と音声による対話を行う対話型インターフェイスを制御する対話型インターフェイス制御システムであって、前記端末装置の音声入力部から入力された利用者の音声からその音声の特徴に対応する音特徴情報を抽出する音特徴抽出手段と、その音特徴抽出手段により抽出された音特徴情報に基づいて特徴定義情報を作成する特徴定義手段と、その特徴定義手段により作成された特徴定義情報に基づいて前記端末装置の映像表示部に表示される人型映像を制御する人型映像制御手段とを、有することを特徴とするものである。

このようにすれば、前記端末装置の音声入力部から入力された利用者の音声からその音声の特徴に対応する音特徴情報を抽出する音特徴抽出手段と、その音特徴抽出手段により抽出された音特徴情報に基づいて特徴定義情報を作成する特徴定義手段と、その特徴定義手段により作成された特徴定義情報に基づいて前記端末装置の映像表示部に表示される人型映像を制御する人型映像制御手段とを、有することから、対話を重ねるうちに対話型インターフェイスが利用者の音声を反映したものに変化してゆく所謂育成シミュレーションとしての要素を付与できる。すなわち、利用者を飽きさせない対話型インターフェイスを実現する対話型インターフェイス制御システムを提供することができる。

ここで、好適には、前記特徴定義手段により作成された特徴定義情報を記憶する特徴定義データベースを有するものである。このようにすれば、対話型インターフェイスとの間で対話を行う毎にその対話において作成された特徴定義情報を蓄積してゆくことで、実用的な態様で対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、好適には、前記端末装置の音声入力部から入力される利用者の音声を文字情報に変換する文字化手段と、その文字化手段により変換された文字情報から語彙情報を抽出する入力語彙抽出手段と、その入力語彙抽出手段により抽出された語彙情報に基づいて、入力された音声に対応する意味情報を解釈する意味解釈手段と、その意味解釈手段により解釈された意味情報に基づいて応答情報を生成する応答情報生成手段と、前記特徴定義手段により作成された特徴定義情報に基づいて、前記応答情報生成手段により生成された応答情報に応じた語彙情報を選択する応答語彙選択手段と、前記応答情報生成手段により生成された応答情報及び前記応答語彙選択手段により選択された語彙情報に基づいて応答音声を合成し、前記端末装置の音声出力部から出力させる音声合成手段とを、有するものである。このようにすれば、対話を重ねるうちに対話型インターフェイスの応答における語彙が利用者の音声における語彙を反映したものに変化してゆき、実用的且つ娯楽性に優れた態様で対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、好適には、前記意味解釈手段により解釈された意味情報を記憶する意味解釈データベースを備えたものである。このようにすれば、対話型インターフェイスとの間で対話を行う際に意味情報を一時的に記憶することで、実用的な態様で対話型インターフェイスとの対話が実現できるという利点がある。

また、好適には、前記入力語彙抽出手段により抽出された語彙情報に基づいて、入力された音声に対応する言い回し情報を解析する言い回し解析手段を有し、前記特徴定義手段は、その言い回し解析手段により解析される言い回し情報に基づいて前記特徴定義情報を作成するものである。このようにすれば、対話を重ねるうちに対話型インターフェイスの応答が利用者の音声における言い回しを反映したものに変化してゆき、更にきめ細かな対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、好適には、前記音特徴抽出手段は、前記端末装置の音声入力部から入力される利用者の音声のイントネーションに対応してイントネーション特徴情報を抽出するイントネーション特徴抽出手段、その音声の強弱に対応して強弱特徴情報を抽出する強弱特徴抽出手段、その音声の速度に対応して速度特徴情報を抽出する速度特徴抽出手段、及びその音声の音高に対応して音高特徴情報を抽出する音高特徴抽出手段のうち少なくとも１つを含むものであり、前記特徴定義手段は、前記音特徴抽出手段により抽出されたイントネーション特徴情報、強弱特徴情報、速度特徴情報、及び音高特徴情報のうち少なくとも１つの情報に基づいて前記特徴定義情報を作成するものである。このようにすれば、実用的な態様で対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、好適には、前記人型映像制御手段は、前記端末装置の映像表示部に表示される人型映像の表情を制御する表情制御手段、その人型映像の態度を制御する態度制御手段、及びその人型映像の服飾を制御する服飾制御手段のうち少なくとも１つを含むものである。このようにすれば、前記端末装置の映像表示部に表示される人型映像を前記特徴定義情報に応じて実用的な態様で制御できるという利点がある。

以下、本発明の好適な実施例を図面に基づいて詳細に説明する。

図１は、本発明の一実施例である対話型インターフェイス制御システム１０（以下、制御システム１０と称する）を例示する図である。この図１に示すように、本実施例の制御システム１０は、対話型インターフェイスサービス提供会社によって運営されるセンタ装置１２と、端末装置であるパーソナルコンピュータ１４（以下、コンピュータ１４と称する）、携帯電話機１６、及びカーナビゲーション装置１８（以下、カーナビ装置１８と称する）と、有線乃至は無線による所定の通信回線２０とを、備えて構成されている。上記センタ装置１２及びコンピュータ１４は、何れも上記通信回線２０に接続されており、その通信回線２０を介して相互に情報の通信が可能とされている。また、上記携帯電話機１６は中継基地局２２を介して上記通信回線２０に接続されており、上記センタ装置１２とその携帯電話機１６との間でも相互に情報の通信が可能とされている。また、上記カーナビ装置１８は中継基地局２４を介して上記通信回線２０に接続されており、上記センタ装置１２とそのカーナビ装置１８との間でも相互に情報の通信が可能とされている。

図２は、前記センタ装置１２の構成を例示する図である。このセンタ装置１２は、中央演算処理装置であるＣＰＵ２６により随時書込読出メモリであるＲＡＭ３０の一時記憶機能を利用しつつ読出専用メモリであるＲＯＭ２８に予め記憶されたプログラムに従って信号処理を行う所謂ノイマン式コンピュータであり、ファイルの管理や入出力制御、上記通信回線２０を介してのアクセス等の管理、その通信回線２０を介しての通信制御等の各種制御を実行するサーバである。また、図２に示すように、ＣＲＴ（Cathode-ray Tube）やＴＦＴ（Thin Film Transistor Liquid Crystal）等の映像表示装置３２と、その映像表示装置３２による映像の表示を制御するための映像表示制御装置であるビデオボード３４と、キーボード等の入力装置３６と、その入力装置３６による入力を処理するための入力インターフェイス３８と、上記ＣＰＵ２６等を前記通信回線２０に接続するためのモデム４０と、記憶装置であるハードディスク４２とを、備えて構成されている。また、そのハードディスク４２には、顧客データベース４３、特徴定義データベース４４、意味解釈データベース４６、言語データベース４８、特徴判定データベース５０、及び応答テンプレートデータベース５２等の各種データベースが設けられている。これらデータベースの内容については後述する。

図３は、前記コンピュータ１４の構成を例示する図である。このコンピュータ１４は、中央演算処理装置であるＣＰＵ５４により随時書込読出メモリであるＲＡＭ５８の一時記憶機能を利用しつつ読出専用メモリであるＲＯＭ５６に予め記憶されたプログラムに従って信号処理を行う所謂ノイマン式コンピュータであり、一般的にデスクトップパソコンやノートパソコン等と称される家庭用パーソナルコンピュータである。また、図３に示すように、映像表示部として機能するＣＲＴやＴＦＴ等の映像表示装置６０と、その映像表示装置６０による映像の表示を制御するための映像表示制御装置であるビデオボード６２と、キーボード等の入力装置６４と、その入力装置６４による入力を処理するための入力インターフェイス６６と、音声入力部として機能するマイクロフォン６８と、そのマイクロフォン６８から入力される音声情報をディジタル変換して上記ＣＰＵ５４等に供給するＡ／Ｄ変換部７０と、音声出力部として機能するスピーカ７２と、そのスピーカ７２による音声の出力を制御するための音声出力制御装置であるサウンドボード７４と、そのサウンドボード７４から出力される音声情報をアナログ変換して上記スピーカ７２に供給するＤ／Ａ変換部７６と、上記ＣＰＵ５４等を前記通信回線２０に接続するためのモデム７８と、記憶装置であるハードディスク８０とを、備えて構成されている。また、そのハードディスク８０には、人型映像データベース８１、音素データベース８２、語彙データベース８４、及び音声データベース８６等の各種データベースが設けられている。これらデータベースの内容については後述する。

図４は、前記携帯電話機１６の構成を例示する図である。この図４に示すように、前記携帯電話機１６は、制御部８８と、読出専用メモリであるＲＯＭ９０と、操作部９２と、映像表示部９４と、アンテナ９６と、送受信部９８と、モデム部１００と、音声コーディック部１０２と、アナログフロントエンド１０４と、音声出力部として機能するスピーカ１０６と、音声入力部として機能するマイクロフォン１０８と、音源部１１０と、フラッシュＲＯＭ等の記憶部１１２とを、備えて構成されている。また、その記憶部１１２には、人型映像データベース８１、音素データベース８２、語彙データベース８４、及び音声データベース８６等の各種データベースが設けられている。これら人型映像データベース８１、音素データベース８２、語彙データベース８４、及び音声データベース８６は、好適には、前記コンピュータ１４のハードディスク８０に設けられていたものと等価である。

上記制御部８８は、上記ＲＯＭ９０に予め記憶されたプログラムに従って入力信号を処理する所謂マイクロコンピュータであり、所定の文字ボタン等を備えた操作部９２からの入力に従って文字入力が実行されるように制御したり、その操作部９２から入力された電話番号に従って通信或いは通話チャンネルを成立させると共に相互の通信或いは通話が可能となるように制御したり、その操作部９２から入力されたＵＲＬに従って所定のウェブサイトにアクセスしたり、メールの作成及び送受信を制御する等の基本的な制御を実行する。例えば、前記携帯電話機１６の通話状態においては、上記アンテナ９６を介して送受信部９８に受けた通話信号等がモデム部１００を介して音声コーディック部１０２においてデジタルコード信号から音声信号に変換され、アナログフロントエンド１０４によりスピーカ１０６が駆動されて音声が出力される。同時に、上記マイクロフォン１０８により音声から変換された音声信号が上記アナログフロントエンド１０４を介して上記音声コーディック部１０２に送られてそこでディジタル信号に変換され、上記モデム部１００、送受信部９８、及びアンテナ９６を介して送信される。また、通信状態において、上記制御部８８は、上記操作部９２から入力された信号を通信先へ送信すると同時に、通信先から受信された信号を映像表示部９４に表示させる。また、他の通信端末からの着信があったと判定される場合には、上記記憶部１１２に予め記憶された着信メロディ情報を読み出し、その着信メロディ情報に基づいて上記音源部１１０により所定のメロディ（呼出音）を発生させて前記スピーカ１０６から出力させたり、呼出音非出力モードにおいては図示しないバイブレータを駆動させて振動を発生させたりする。

図５は、前記カーナビ装置１８の構成を例示する図である。このカーナビ装置１８は、自動車等に搭載されて用いられ、地図画面上にその自動車の現在位置を表示させると共に、目的地へのルートをガイドするカーナビゲーションシステムにおける端末装置であり、図５に示すように、中央演算処理装置であるＣＰＵ１１４と、読出専用メモリであるＲＯＭ１１６と、随時書込読出メモリであるＲＡＭ１１８と、所定の映像を表示させる映像表示部として機能すると共に利用者の接触に応じて上記ＣＰＵ１１４等への入力を行うタッチパネルディスプレイ１２０と、そのタッチパネルディスプレイ１２０に所定の映像を表示させる表示装置１２２と、その表示装置１２２による表示を制御する表示制御部１２４と、利用者の指や図示しない備え付けのペン等によるタッチパネルディスプレイ１２０への接触により入力を行うタッチパネル１２６と、そのタッチパネル１２６による入力を制御する入力制御部１２８と、音声入力部として機能するマイクロフォン１３０と、そのマイクロフォン１３０から入力される音声情報をディジタル変換して上記ＣＰＵ１１４等に供給するＡ／Ｄ変換部１３２と、音声出力部として機能するスピーカ１３４と、上記ＣＰＵ１１４等により出力される音声情報をアナログ変換してそのスピーカ１３４に供給するＤ／Ａ変換部１３６と、記憶媒体であるＤＶＤ（Digital Versatile Disk）等のディスクに書き込まれた情報を読み出し、その情報に基づく映像を上記タッチパネルディスプレイ１２０に表示させると共に音声を上記スピーカ１３４から出力させるディスクプレイヤ１３８と、ＧＰＳ（Global Positioning System）衛星から電波による情報を受信するためのＧＰＳアンテナ１４０及びＧＰＳ受信部１４２と、前記中継基地局２４等との間で情報通信を行うためのアンテナ１４４及び送受信部１４６と、それらアンテナ１４４及び送受信部１４６を介して上記ＣＰＵ１１４等を前記通信回線２０に接続するためのモデム１４８と、記憶装置であるハードディスク１５０とを、備えて構成されている。このハードディスク１５０には、人型映像データベース８１、音素データベース８２、語彙データベース８４、及び音声データベース８６等の各種データベースが設けられている。これら人型映像データベース８１、音素データベース８２、語彙データベース８４、及び音声データベース８６は、好適には、前記コンピュータ１４のハードディスク８０に設けられていたものと等価である。

上記ＣＰＵ１１４は、上記ＲＡＭ１１８の一時記憶機能を利用しつつ上記ＲＯＭ１１６に予め記憶されたプログラムに従って入力信号を処理する所謂マイクロコンピュータであり、上記タッチパネルディスプレイ１２０を介しての入力操作に応じてそのタッチパネルディスプレイ１２０に表示される映像を切り替えたり、上記ＧＰＳアンテナ１４０及びＧＰＳ受信部１４２により受信されるＧＰＳ衛星からの電波に基づいて自動車の緯度及び経度等の位置座標を測定し、その測定結果に応じて上記タッチパネルディスプレイ１２０に表示される地図画面上に自動車の現在位置を表示させたり、その地図画面上に目的地へのルートを表示させたり、その目的地へのルートをガイドするガイド音声を出力させるといった基本的な制御を行う。例えば、前記カーナビ装置１８による目的地までのナビゲーション進行状態においては、上記ディスクプレイヤ１３８によりＤＶＤ等のメディアから情報が読み出され、その情報に基づく地図画面が上記タッチパネルディスプレイ１２０に表示される。また、そのタッチパネルディスプレイ１２０を介しての入力操作に応じてその地図画面の縮尺が変化させられる。上記タッチパネルディスプレイ１２０に表示される案内画面に従いそのタッチパネルディスプレイ１２０による入力操作に応じて目的地が設定されると、その目的地までのナビゲーションが開始される。斯かるナビゲーションでは、上記ＧＰＳアンテナ１４０及びＧＰＳ受信部１４２によりＧＰＳ衛星からの電波が受信され、その電波に基づいて自動車の現在位置が上記タッチパネルディスプレイ１２０の地図画面上に表示される。このＧＰＳ衛星からの電波が変化する毎すなわち自動車の現在位置が変化する毎に上記タッチパネルディスプレイ１２０に表示される地図画面が更新される。また、それに伴い上記ディスクプレイヤ１３８により読み出された情報に基づくガイド音声（案内音声）が上記Ｄ／Ａ変換部１３６を介して上記スピーカ１３４から出力される。そのような処理が継続させられ、前記カーナビ装置１８が搭載された自動車が目的地に到達したと判定された時点でナビゲーションが終了させられる。また、斯かるナビゲーション制御に加えて、前記カーナビ装置１８は、上記アンテナ１４４及び送受信部１４６により前記中継基地局２４及び通信回線２０を介して前記センタ装置１２等との間における情報の送受信制御を行う。

図６は、前記センタ装置１２のＣＰＵ２６及びコンピュータ１４のＣＰＵ５４に備えられた制御機能の要部を説明する機能ブロック線図である。ここで、本実施例の対話型インターフェイス制御システム１０は、前記コンピュータ１４、携帯電話機１６、及びカーナビ装置１８をはじめとする種々の端末装置を出力媒体として以下に詳述する対話型インターフェイスの制御を行い得るものであるが、説明の重複を避けるため、本実施例では前記コンピュータ１４を端末装置として対話型インターフェイスの制御を行う態様について説明する。

本実施例の対話型インターフェイスは、好適には、前記コンピュータ１４にインストールされた他のアプリケーションであるメーラやテレビ放送録画管理アプリケーション等と連携して動作させられ、例えば前記コンピュータ１４の起動時にメールの受信を知らせたり、テレビ番組の録画が正常に行われたことを通知するといった態様で用いられる。なお、図６に示す文字化手段１５２、入力語彙抽出手段１５４、応答語彙選択手段１６０、音声合成手段１６２、人型映像制御手段１６４、及び音特徴抽出手段１７２は、前記コンピュータ１４のＣＰＵ５４に機能的に備えられたものであり、意味解釈手段１５６、人工知能エンジン１５８、利用者識別手段１８１、特徴定義手段１８２、及び言い回し解析手段１８４は、前記センタ装置１２のＣＰＵ２６に機能的に備えられたものである。

上記文字化手段１５２は、前記コンピュータ１４のマイクロフォン６８から入力される利用者の音声を文字情報（テキスト情報）に変換する。前記ハードディスク８０の音素データベース８２に記憶された音素情報は、音声情報を文字情報（連続する複数の音素から成る情報）に変換するための情報であり、上記文字化手段１５２は、具体的には、前記音素データベース８２に記憶された音素情報から、前記マイクロフォン６８からＡ／Ｄ変換部７０（図６においては省略）を介して入力される音声情報に基づいて、その音声情報を音素を単位とする文字情報に変換する。この変換は、好適には、上記音声情報を分節音素（子音及び母音）と、韻律音素（アクセント等）とから成る文字情報に変換するものであるが、単に五十音の文字情報に変換するといった簡単なものであってもよい。

前記入力語彙抽出手段１５４は、前記文字化手段１５２により変換された文字情報から語彙情報を抽出する。前記ハードディスク８０の語彙データベース８４は、少なくとも日本語における多数の語彙に対応する語彙情報を記憶するものであり、その語彙情報は、音素の連続である文字情報から単語（名詞、動詞、形容詞、助詞等）としての語彙を抽出するために用いられる。前記入力語彙抽出手段１５４は、具体的には、前記語彙データベース８４に記憶された語彙情報から、前記文字化手段１５２により変換された文字情報に基づいて、その文字情報に含まれる語彙を抽出する。この入力語彙抽出手段１５４により抽出された語彙情報（纏まりとして抽出された文字情報）は、前記通信回線２０を介して前記センタ装置１２へ入力（送信）される。

前記意味解釈手段１５６は、前記入力語彙抽出手段１５４により抽出された語彙情報に基づいて、前記コンピュータ１４のマイクロフォン６８から入力された音声に対応する意味情報を解釈する。前記ハードディスク４２の言語データベース４８は、少なくとも日本語における単語、熟語、成句、慣用句、構文、言い回し、方言等に対応する言語情報を記憶するものであり、その言語情報は、語彙の連続である文字情報の意味を解釈（解析）するために用いられる。前記意味解釈手段１５６は、具体的には、前記言語データベース４８に記憶された言語情報から、前記入力語彙抽出手段１５４により抽出された語彙情報に基づいて、その語彙情報の連続が文章としてどのような意味を成すのかを解釈する。この意味解釈手段１５６により解釈された意味情報は、前記ハードディスク４２の意味解釈データベース４６に一時的に記憶される。

前記人工知能エンジン１５８は、前記意味解釈データベース４６に記憶された意味情報を読み出し、その意味情報に基づいて対話型インターフェイスからの応答音声に対応する応答情報を生成する。すなわち、前記意味解釈手段１５６により解釈された意味情報に基づいて応答情報を生成する応答情報生成手段として機能する。前記応答テンプレートデータベース５２には、本実施例の対話型インターフェイスからの応答に関するテンプレート（定型文）をはじめとする、応答情報を生成するために用いられる種々の情報が記憶されており、前記人工知能エンジン１５８は、具体的には、前記応答テンプレートデータベース５２に記憶された情報から、前記意味解釈手段１５６により解釈された意味情報に基づいて、本実施例の対話型インターフェイスからの応答音声に対応する応答情報を生成する。また、この応答情報の生成において前記特徴定義データベース４４に記憶された特徴定義情報が反映されてもよい。この人工知能エンジン１５８により生成された応答情報は、好適には、複数の語彙情報の連続である所定の意味を有する文章としての文字情報（テキスト）として、前記通信回線２０を介して前記コンピュータ１４へ入力（返信）される。また、この文字情報の送信と共に、乃至はその送信に先行して、前記ハードディスク４２の特徴定義データベース４４から音声入力主体である利用者（後述する利用者識別手段１８１により識別される利用者）に係る特徴定義情報が読み出され、前記通信回線２０を介して前記コンピュータ１４へ入力される。

前記応答語彙選択手段１６０は、前記人工知能エンジン１５８により生成された応答情報に応じた語彙情報を選択する。この語彙情報の選択は、前記特徴定義データベース４４から読み出された特徴定義情報に基づいて行われる。すなわち、前記応答語彙選択手段１６０は、具体的には、前記語彙データベース８４に記憶された語彙情報から、前記特徴定義データベース４４から読み出された特徴定義情報に基づき、前記人工知能エンジン１５８により生成された応答情報に対応する語彙情報を選択し、複数の語彙情報の連続としての文章を形成（再構成）する。斯かる特徴定義情報に基づく語彙情報の選択については、前記人型映像制御手段１６４による特徴定義情報に基づく人型映像の制御と共に図１１を用いて後述する。

前記音声合成手段１６２は、前記人工知能エンジン１５８により生成された応答情報及び前記応答語彙選択手段１６０により選択された語彙情報に基づいて応答音声を合成し、前記Ｄ／Ａ変換部７６等を介して前記スピーカ７２から出力させる。前記音声データベース８６は、文字情報に応じて音声情報（人工音声）を発生させるための情報を記憶するものであり、前記音声合成手段１６２は、その音声データベース８６に記憶された情報から、前記人工知能エンジン１５８により生成された応答情報及び前記応答語彙選択手段１６０により選択された語彙情報に基づいて、本実施例の対話型インターフェイスの応答音声に相当する音声を前記スピーカ７２から出力させる。以上のようにして、音声入力部である前記マイクロフォン６８から入力された利用者の音声に応じた応答音声が音声出力部である前記スピーカ７２から出力され、本実施例の対話型インターフェイスと利用者との間における音声での対話が実現される。

前記人型映像制御手段１６４は、上述した対話型インターフェイスとの対話と同期して、前記映像表示装置６０にその対話型インターフェイスの人型映像を表示させる表示制御を行う。前記ハードディスク８０の人型映像データベース８１には、前記ビデオボード６２等を介して前記映像表示装置６０に本実施例の対話型インターフェイスの人型映像を表示させるための情報として、人型映像の体躯に相当する基本的な映像を表示させるための情報の他、表情を変化させるための情報、態度乃至は姿勢を変化させるための情報、及び髪型、服装、装飾品等の服飾を変化させるための情報をはじめとする各種情報が記憶されている。また、前記人型映像制御手段１６４は、人型映像の表情を制御する表情制御手段１６６、人型映像の態度を制御する態度制御手段１６８、及び人型映像の服飾を制御する服飾制御手段１７０等を含んでおり、前記人型映像データベース８１に記憶された情報から、前記人工知能エンジン１５８により生成された応答情報や前記応答語彙選択手段１６０により選択された語彙情報等に基づいて、前記映像表示装置６０に表示される人型映像の表情、態度、及び服飾等を制御する。この人型映像の表情、態度、及び服飾等の制御は、前記特徴定義データベース４４から読み出された特徴定義情報に基づいて行われる。

図７、図８は、前記人型映像制御手段１６４により前記映像表示装置６０に表示される人型映像１８８、１８８′を例示している。この図７に示す人型映像１８８は、髪型が「おかっぱ」、服装が「半袖黒シャツ＋フレアスカート」、表情が「笑顔」である例を示しており、図８に示す人型映像１８８′は、髪型が「ワンレン」、服装が「タンクトップ＋前垂らしオーバーオール（ヘソ出しルック）」、表情が「気怠げ」である例を示している。これらの人型映像１８８、１８８′は、前述した応答音声における応答語彙選択と同じく特徴定義情報に基づいて制御されるものであるため、必然的に前記スピーカ７２から出力される応答音声と親和したものとされる。例えば、比較的大人しくフォーマルな服飾が施された人型映像１８８に対応する対話型インターフェイスでは、図７の画面に付加的に表示された文字映像（テロップ）に示すように、「お帰りなさい。今日はメールが２通来ています。それから、お気に入りの番組を録画しておきました。」といった比較的丁寧な応答音声が出力される。また、比較的ワイルドで蓮っ葉な服飾が施された人型映像１８８′に対応する対話型インターフェイスでは、図８の画面に付加的に表示された文字映像に示すように、「お帰り〜。今日はメール２通来てるよ〜。あとさ、アンタが好きな番組、録画しといたよ〜」といった比較的怠惰で投げやりな応答音声が出力される。なお、これら図７に示す人型映像１８８と図８に示す人型映像１８８′との間には態度の差が見られないが、例えば人型映像１８８の両手を前で組ませたり、人型映像１８８′を立て肘で横臥させたりというように、姿勢を変化させること等により態度を制御することができる。ここでは、最も簡単な二次元映像としての人型映像１８８、１８８′を例示しているが、前記人型映像制御手段１６４により制御される人型映像は、三次元（３Ｄ）映像等であってもよい。また、斯かる特徴定義情報に基づく人型映像の制御については、その特徴定義情報に基づく出力語彙情報の選択と共に図１１を用いて後述する。

前記音特徴抽出手段１７２は、前記マイクロフォン６８から入力された利用者の音声からその音声の特徴に対応する音特徴情報を抽出する。この音特徴抽出手段１７２は、音声のイントネーションに対応してイントネーション特徴情報を抽出するイントネーション特徴抽出手段１７４、音声の強弱に対応して強弱特徴情報を抽出する強弱特徴抽出手段１７６、音声の速度に対応して速度特徴情報を抽出する速度特徴抽出手段１７８、及び音声の音高に対応して音高特徴情報を抽出する音高特徴抽出手段１８０を含んでおり、前記マイクロフォン６８から入力された利用者の音声からその音声のイントネーション特徴情報、強弱特徴情報、速度特徴情報、及び音高特徴情報を抽出する。また、好適には、前記マイクロフォン６８から入力された音声をよく知られた周波数解析やフォルマント解析（母音の音響解析）等により解析し、その解析結果としての音特徴情報を抽出する。この音特徴抽出手段１７２により抽出された音特徴情報は、その音特徴情報の抽出対象である音声に対応する語彙情報と共に前記通信回線２０を介して前記センタ装置１２へ入力（送信）される。

前記利用者識別手段１８１は、前記音特徴抽出手段１７２により抽出された音特徴情報に基づいて、前記コンピュータ１４のマイクロフォン６８から入力された音声に対応する利用者を識別する。前記ハードディスク４２の顧客データベース４３は、本実施例の対話型インターフェイスを利用する利用者（顧客）を識別するための情報として、その利用者の識別番号、氏名、性別、生年月日等の他に、その利用者の音声に対応する音特徴情報が各利用者毎に記憶されている。この顧客データベース４３に記憶される音特徴情報は、好適には、その利用者の音声の周波数特性すなわち声紋であり、前記利用者識別手段１８１は、具体的には、前記顧客データベース４３に各利用者毎に記憶された音特徴情報から、前記音特徴抽出手段１７２により抽出された音特徴情報に基づいて、本実施例の対話型インターフェイスの利用主体である利用者を識別する。この利用者識別手段１８１による利用者の識別は、好適には、本実施例の対話型インターフェイスの利用開始に際して行われ、最も簡単には、前記コンピュータ１４のマイクロフォン６８から入力される「おはよう」、「今帰ったよ」等の予め定められた起動音声に応じてその音声に対応する利用者が識別される。なお、前記顧客データベース４３や特徴定義データベース４４等に対話型インターフェイスの名前（例えば「リカ」等）を登録できるようにしてもよく、斯かる態様において、前記利用者識別手段１８１は、好適には、前記コンピュータ１４のマイクロフォン６８を介して対話型インターフェイスの名前を呼ぶ利用者の音声に応じてその音声に対応する利用者の識別を行う。斯かる利用者の識別が行われると、その識別された利用者に対応して前記特徴定義データベース４４に記憶された特徴定義情報が読み出され、本実施例の対話型インターフェイスにおける端末装置である前記コンピュータ１４へ送信される。

前記特徴定義手段１８２は、前記音特徴抽出手段１７２により抽出された音特徴情報に基づいて特徴定義情報を作成する。前記特徴定義データベース４４には、本実施例の対話型インターフェイスの特徴を定めるための特徴定義情報が各利用者毎に例えば利用者の識別情報や音特徴情報（声紋）等と関連付けられて記憶されており、前記特徴定義手段１８２は、本実施例の対話型インターフェイスと利用者との間で対話が行われる毎にその特徴定義データベース４４の記憶内容を更新する。前記ハードディスク４２の特徴判定データベース５０には、前記音特徴情報や後述する言い回し情報を特徴化するための情報（対応関係）が記憶されており、前記特徴定義手段１８２は、具体的には、その特徴判定データベース５０に記憶された情報から、前記音特徴抽出手段１７２により抽出された音特徴情報に基づいて、本実施例の対話型インターフェイスにおける応答音声の語彙選択及び人型映像表示制御の基準となる特徴定義情報を作成する。図９は、この特徴定義手段１８２による音特徴情報に基づく特徴定義情報の作成（更新）について説明する図である。この図９に示すように、前記特徴定義手段１８２は、前記イントネーション特徴抽出手段１７４により抽出されるイントネーション特徴情報やリズム特徴情報に基づいて、その音声が「うきうき（している）」、「明るい」、「暗い」、「寂しい」等の特徴を検出する。また、前記強弱特徴抽出手段１７６により抽出される強弱特徴情報に基づいて、その音声が「元気」、「弱々しい」、「はつらつ（としている）」等の特徴を検出する。また、前記速度特徴抽出手段１７８により抽出される速度特徴情報に基づいて、その音声が「いらいら（している）」、「スムーズ」、「迷い（を持っている）」等の特徴を検出する。また、前記音高特徴抽出手段１８０により抽出される音高特徴情報に基づいて、その音声が「女性的」、「男性的」、「高ぶり（が感じられる）」、「落ち着き（が感じられる）」等の特徴を抽出する。そして、そのようにして検出された特徴を、前記特徴定義データベース４４に記憶された音声の入力主体である利用者に対応する特徴定義情報（その時点までに作成されているもの）と対比して、「今日は、いつもより楽しそう」、「今日の話し振りは、いつもより男っぽい」といった判定を行う。この判定に基づく応答情報を前記人工知能エンジン１５８により生成して、前記通信回線２０を介して前記コンピュータ１４へ送信し、前記応答語彙選択手段１６０及び音声合成手段１６２等を介してスピーカ７２から出力させるようにしてもよい。また、この判定に対応する応答情報を前記人型映像制御手段１６４による人型映像の制御に反映させてもよい。前記特徴定義手段１８２は、上述のようにして検出された特徴の一部を反映して前記特徴定義データベース４４の記憶内容を更新する。このようにして、本実施例の対話型インターフェイスとの対話を行う毎にその利用者に対応する特徴定義情報が音特徴情報を反映して新たなものとされる。

前記言い回し解析手段１８４は、前記入力語彙抽出手段１５４により抽出された語彙情報に基づいて、前記コンピュータ１４のマイクロフォン６８から入力された音声に対応する言い回し情報を解析する。この言い回しとは、敬語、若者言葉、老人言葉、スラング等の言葉使いや、大阪弁、名古屋弁、琉球語等の方言のように、まとまりのある言語体系を示しており、前記言い回し解析手段１８４は、具体的には、前記言語データベース４８に記憶された情報から、前記入力語彙抽出手段１５４により抽出された語彙情報に基づいて、その語彙情報が属する言語体系としての言い回し情報（属性情報）を解析する。また、前記特徴定義手段１８２は、斯かる言い回し解析手段１８４により解析される言い回し情報に基づいて前記特徴定義情報を作成する。具体的には、前記特徴判定データベース５０に記憶された情報から、前記言い回し解析手段１８４により解析された言い回し情報に基づいて、本実施例の対話型インターフェイスにおける応答音声の語彙選択及び人型映像表示制御の基準となる特徴定義情報を作成する。図１０は、前記特徴定義手段１８２による言い回し情報に基づく特徴定義情報の作成（更新）について説明する図である。この図１０に示すように、前記言語データベース４８には、好適には、入力言語と、その入力言語の意味と、その入力言語の属性との対応関係が記憶されており、例えば入力言語が「今帰りました」である場合には、その入力言語の意味は「挨拶・起動」、その入力言語の属性は「丁寧、女性的」というように、入力言語に応じた意味及び属性が検索できるようになっている。前記特徴定義手段１８２は、上述した音特徴情報に基づく特徴定義情報の作成と同様に、前記マイクロフォン６８から入力される音声に対応する属性情報を統計的に分析して利用者の入力音声の傾向を踏まえた判定を行う。この判定を応答音声及び人型映像の表示に反映させてもよいことは、上述した音特徴情報に基づく特徴定義情報の作成と同様である。また、上述のようにして検出された特徴の一部を反映して前記特徴定義データベース４４の記憶内容を更新する。このようにして、本実施例の対話型インターフェイスとの対話を行う毎にその利用者に対応する特徴定義情報が言い回し情報を反映して新たなものとされる。

図１１は、前記特徴定義データベース４４を用いた対話型インターフェイスへの特徴のフィードバックについて説明する図である。本実施例の対話型インターフェイスでは、初期設定としてその対話型インターフェイスの性別（男性又は女性）、衣装（フォーマル、カジュアル、ワイルド、イケイケ等）、好きな色（黒、赤、青、緑等）、血液型（Ａ型、Ｂ型、Ｏ型、又はＡＢ型等）、性格（おとなしい、積極的、陽気、あけすけ、粗暴、怠惰等）を決定できるようになっており、そのようにして決定された初期設定は前記ハードディスク４２の特徴定義データベース４４にその利用者と関連付けられて記憶される。前述したように、本実施例の対話型インターフェイスの利用に際しては、斯かる特徴定義データベース４４から利用者に対応する特徴定義情報が端末装置である前記コンピュータ１４へ送信され、その特徴定義情報に基づいて応答語彙の選択や人型映像の表示制御等が行われる。このため、本実施例の対話型インターフェイスを利用し始めて間もない頃は、その対話型インターフェイスの応答音声及び人型映像は、利用者が前記入力装置６４等を介して入力する等して決定された初期設定に沿ったものとなる。だがその後、本実施例の対話型インターフェイスとの間で利用者が対話を重ねる毎に、その利用者により入力される音声の音特徴情報や言い回し情報に基づいて前述した特徴定義情報の更新が行われ、継続して検出される特徴が次第に固定化されていくことで、その特徴定義情報によって定められる対話型インターフェイスの応答パターン及び人型映像の表情、態度、服飾等があたかも自然に成長してゆくように、その利用者の音声を反映したものに変化してゆく。すなわち、対話を重ねるうちに対話型インターフェイスが自ずから利用者の音声を反映したものに変化してゆく所謂育成シミュレーションが実現される。なお、図１１に示すように、前記利用者識別手段１８１により誤って利用者が識別された場合に備え、その利用者識別手段１８１により識別された利用者に対応して記憶された特徴定義情報と著しく異なる音特徴情報や言い回し情報が検出された場合には対話を中断させる制御を行ってもよい。

本実施例の対話型インターフェイスの応答音声における話し方の変更例としては、気軽な言葉をかけるようになる、関西弁を使うようになる等が考えられる。また、人型映像の態度の変更例としては、丁寧なお辞儀をするようになる、たまに会話を無視するようになる等が考えられる。また、人型映像の衣装の変更例としては、カジュアルな衣装を好んで着るようになる、利用者との会話の中でファッションの話が「似合っている」、「可愛いね」、「ダサいね」等で類似の衣装を着るか、異なる衣装を着るかを決める等が考えられる。斯かる変更の形態は、例えば図１１に示すように、前記ハードディスク４２等に設けられた育成方針テーブル１９０に予め定められた関係に応じて決定され、利用者の性別が男であって対話型インターフェイスの性別も男である場合には、利用者に似せる（音特徴及び言い回しを可及的に近づける）ようにその対話型インターフェイスの特徴定義情報が更新される。また、利用者の性別が男であって対話型インターフェイスの性別が女である場合には、利用者の理想像（例えば弱気な男には積極的なタイプの女というように、一般的に理想の関係とされる女性像）となるようにその対話型インターフェイスの特徴定義情報が更新される。また、また、利用者の性別が女であって対話型インターフェイスの性別が男である場合には、利用者の理想像（例えば身勝手な女には優しく忠実な男というように、一般的に理想の関係とされる男性像）となるようにその対話型インターフェイスの特徴定義情報が更新される。また、利用者の性別が女であって対話型インターフェイスの性別も女である場合には、利用者に似せる（音特徴及び言い回しを可及的に近づける）ようにその対話型インターフェイスの特徴定義情報が更新される。なお、この育成方針は飽くまで最も簡単な一例であり、複雑なパラメータを組み合わせることによりなかなか利用者の思い通りに成長しない（すなわち攻略性が高くなる）ように育成方針テーブル１９０を定める態様も考えられる。

図１２は、端末装置である前記コンピュータ１４のＣＰＵ５４による対話型インターフェイス制御の要部を説明するフローチャートであり、所定の周期で繰り返し実行されるものである。

先ず、ステップ（以下、ステップを省略する）ＳＡ１において、音声入力部である前記マイクロフォン６８から所定の起動音声が入力される等して本実施例の対話型インターフェイスの利用が開始されたか否かが判断される。このＳＡ１の判断が否定される場合には、それをもって本ルーチンが終了させられるが、ＳＡ１の判断が肯定される場合には、ＳＡ２において、前記通信回線２０を介して前記センタ装置１２から利用者に対応する特徴定義情報が取得（ダウンロード）され、前記ＲＡＭ５８等に記憶される。次に、ＳＡ３において、前記人型映像データベース８１に記憶された情報から、ＳＡ２にて取得された特徴定義情報に基づいて、前記映像表示装置６０における人型映像の表示制御が開始される。

次に、ＳＡ４において、前記マイクロフォン６８から音声が入力されたか否かが判断される。このＳＡ４の判断が否定される場合には、ＳＡ９以下の処理が実行されるが、ＳＡ４の判断が肯定される場合には、前記文字化手段１５２の動作に対応するＳＡ５において、前記音素データベース８２に記憶された音素情報から、前記マイクロフォン６８からＡ／Ｄ変換部７０を介して入力される音声情報に基づいて、その音声情報が音素を単位とする文字情報に変換される。次に、前記入力語彙抽出手段１５４の動作に対応するＳＡ６において、前記語彙データベース８４に記憶された語彙情報から、ＳＡ５にて変換された文字情報に基づいて、その文字情報に含まれる語彙が抽出される。次に、前記音特徴抽出手段１７２の動作に対応するＳＡ７において、前記マイクロフォン６８から入力された利用者の音声からその音声のイントネーション特徴情報、強弱特徴情報、速度特徴情報、及び音高特徴情報が抽出される。次に、ＳＡ８において、ＳＡ６にて抽出された入力語彙情報及びＳＡ７にて抽出された音特徴情報が、前記通信回線２０を介して前記センタ装置１２へ入力（送信）される。

次に、ＳＡ９において、入力情報に応じて前記センタ装置１２からの応答（返信）があったか否かが判断される。このＳＡ９の判断が否定される場合は、ＳＡ１２以下の処理が実行されるが、ＳＡ９の判断が肯定される場合には、前記応答語彙選択手段１６０の動作に対応するＳＡ１０において、前記語彙データベース８４に記憶された語彙情報から、ＳＡ２にて取得された特徴定義情報に基づき、前記センタ装置１２から返信（受信）された応答情報に対応して語彙情報が選択され、複数の語彙情報の連続としての文章が形成される。次に、前記音声合成手段１６２の動作に対応するＳＡ１１において、前記音声データベース８６に記憶された情報から、前記センタ装置１２から返信された応答情報及びＳＡ１０にて選択された語彙情報に基づいて、対話型インターフェイスの応答音声に相当する音声が前記スピーカ７２から出力される。次に、ＳＡ１２において、対話型インターフェイスの利用終了であるか否かが判断される。このＳＡ１２の判断が否定される場合には、ＳＡ４以下の処理が再び実行されるが、ＳＡ１２の判断が肯定される場合には、前記映像表示装置６０に所定の利用終了映像が表示され、対話型インターフェイスの人型映像の表示制御が終了させられた後、本ルーチンが終了させられる。以上の制御において、ＳＡ３及びＳＡ１３が前記人型映像制御手段１６４の動作に対応する。

図１３は、前記センタ装置１２のＣＰＵ２６による対話型インターフェイス制御の要部を説明するフローチャートであり、所定の周期で繰り返し実行されるものである。

先ず、ＳＢ１において、前記通信回線２０を介して前記コンピュータ１４から特徴定義情報の送信要求があったか否かが判断される。このＳＢ１の判断が否定される場合には、ＳＢ５以下の処理が実行されるが、ＳＢ１の判断が肯定される場合には、前記利用者識別手段１８１の動作に対応するＳＢ２において、前記顧客データベース４３に各利用者毎に記憶された音特徴情報から、前記コンピュータ１４から送信（入力）される利用者の音声の音特徴情報等に基づいて、対話型インターフェイスの利用主体である利用者が識別される。次に、ＳＢ３において、ＳＢ２にて利用者が正常に識別されたか否かが判断される。このＳＢ３の判断が否定される場合には、それをもって本ルーチンが終了させられるが、ＳＢ３の判断が肯定される場合には、ＳＢ４において、ＳＢ２にて識別された利用者に対応する特徴定義情報が前記特徴定義データベース４４から読み出され、前記通信回線２０を介して前記コンピュータ１４へ送信される。

次に、ＳＢ５において、前記通信回線２０を介して前記コンピュータ１４から語彙情報及び音特徴情報等の入力があったか否かが判断される。このＳＢ５の判断が否定される場合には、それをもって本ルーチンが終了させられるが、ＳＢ５の判断が肯定される場合には、前記意味解釈手段１５６の動作に対応するＳＢ６において、前記言語データベース４８に記憶された言語情報から、前記コンピュータ１４から入力された語彙情報に基づいて、その語彙情報の連続が文章としてどのような意味を成すのかが解釈される。次に、ＳＢ７において、ＳＢ６にて解釈された意味情報が前記意味解釈データベース４６に記憶される。次に、応答情報生成手段すなわち前記人工知能エンジン１５８の動作に対応するＳＢ８において、ＳＢ７にて前記意味解釈データベース４６に記憶された意味情報が読み出され、前記応答テンプレートデータベース５２に記憶された情報から、その読み出された意味情報に基づいて、対話型インターフェイスからの応答に対応する応答情報を生成する。

次に、ＳＢ９において、ＳＢ８にて生成された応答情報が前記通信回線２０を介して前記コンピュータ１４へ送信（返信）される。次に、前記言い回し解析手段１８４の動作に対応するＳＢ１０において、前記言語データベース４８に記憶された情報から、前記コンピュータ１４から入力された語彙情報に基づいて、その語彙情報が属する言語体系としての言い回し情報が解析される。次に、ＳＢ１１において、前記特徴判定データベース５０に記憶された情報から、前記コンピュータ１４から入力された音特徴情報及びＳＢ１０にて解析された言い回し情報に基づいて、対話型インターフェイスにおける応答音声の語彙選択及び人型映像表示制御の基準となる特徴定義情報が作成される。そして、ＳＢ１２において、ＳＢ１１にて作成された特徴定義情報に応じて前記特徴定義データベース４４における利用者に対応する特徴定義情報が更新された後、本ルーチンが終了させられる。以上の制御において、ＳＢ１１及びＳＢ１２が、前記特徴定義手段１８２の動作に対応する。

以上、本実施例の対話型インターフェイス制御システム１０に備えられた前記コンピュータ１４、携帯電話機１６、及びカーナビ装置１８のうち、端末装置としてコンピュータ１４を用いた例を説明したが、斯かる対話型インターフェイス制御は、前記携帯電話機１６及びカーナビ装置１８等にも適用され得る。すなわち、複数種類の端末装置により共通の対話型インターフェイスを実現できる。本実施例の対話型インターフェイス制御が前記携帯電話機１６に適用される場合、前記コンピュータ１４と同様にその対話型インターフェイスによりメールの受信を知らせるといった態様が好ましく、前記マイクロフォン１０８が音声入力部として、前記映像表示部９４が映像表示部として、前記スピーカ１０６が音声出力部としてそれぞれ用いられる。また、前記文字化手段１５２、入力語彙抽出手段１５４、応答語彙選択手段１６０、音声合成手段１６２、人型映像制御手段１６４、及び音特徴抽出手段１７２が前記制御部８８に機能的に備えられて、それらの制御機能により前記中継基地局２２及び通信回線２０を介して前記センタ装置１２との間で前述した処理と同様の対話型インターフェイス制御が実行される。また、本実施例の対話型インターフェイス制御が前記カーナビ装置１８に適用される場合、対話型インターフェイスの応答音声を前述したカーナビゲーションシステムのガイド音声とする等の態様が好ましく、前記マイクロフォン１３０が音声入力部として、前記タッチパネルディスプレイ１２０が映像表示部として、前記スピーカ１３４が音声出力部としてそれぞれ用いられる。また、前記文字化手段１５２、入力語彙抽出手段１５４、応答語彙選択手段１６０、音声合成手段１６２、人型映像制御手段１６４、及び音特徴抽出手段１７２が前記ＣＰＵ１１４に機能的に備えられて、それらの制御機能により前記中継基地局２４及び通信回線２０を介して前記センタ装置１２との間で前述した処理と同様の対話型インターフェイス制御が実行される。

このように、本実施例によれば、端末装置である前記コンピュータ１４の音声入力部として機能するマイクロフォン６８から入力された利用者の音声からその音声の特徴に対応する音特徴情報を抽出する音特徴抽出手段１７２（ＳＡ７）と、その音特徴抽出手段１７２により抽出された音特徴情報に基づいて特徴定義情報を作成する特徴定義手段１８２（ＳＢ１１及びＳＢ１２）と、その特徴定義手段１８２により作成された特徴定義情報に基づいて前記コンピュータ１４の映像表示部として機能する映像表示装置６０に表示される人型映像１８８、１８８′を制御する人型映像制御手段１６４（ＳＡ３及びＳＡ１３）とを、有することから、対話を重ねるうちに対話型インターフェイスが利用者の音声を反映したものに変化してゆく所謂育成シミュレーションとしての要素を付与できる。すなわち、利用者を飽きさせない対話型インターフェイスを実現する対話型インターフェイス制御システム１０を提供することができる。

また、前記特徴定義手段１８２により作成された特徴定義情報を記憶する特徴定義データベース４４を有するものであるため、対話型インターフェイスとの間で対話を行う毎にその対話において作成された特徴定義情報を蓄積してゆくことで、実用的な態様で対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、前記コンピュータ１４のマイクロフォン６８から入力される利用者の音声を文字情報に変換する文字化手段１５２（ＳＡ５）と、その文字化手段１５２により変換された文字情報から語彙情報を抽出する入力語彙抽出手段１５４（ＳＡ６）と、その入力語彙抽出手段１５４により抽出された語彙情報に基づいて、入力された音声に対応する意味情報を解釈する意味解釈手段１５６（ＳＢ６）と、その意味解釈手段１５６により解釈された意味情報に基づいて応答情報を生成する応答情報生成手段として機能する人工知能エンジン１５８（ＳＢ８）と、前記特徴定義手段１８２により作成された特徴定義情報に基づいて、前記人工知能エンジン１５８により生成された応答情報に応じた語彙情報を選択する応答語彙選択手段１６０（ＳＡ１０）と、前記人工知能エンジン１５８により生成された応答情報及び前記応答語彙選択手段１６０により選択された語彙情報に基づいて応答音声を合成し、音声出力部として機能する前記スピーカ７２から出力させる音声合成手段１６２（ＳＡ１１）とを、有するものであるため、対話を重ねるうちに対話型インターフェイスの応答における語彙が利用者の音声における語彙を反映したものに変化してゆき、実用的且つ娯楽性に優れた態様で対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、前記意味解釈手段１５６により解釈された意味情報を記憶する意味解釈データベース４６を備えたものであるため、対話型インターフェイスとの間で対話を行う際に意味情報を一時的に記憶することで、実用的な態様で対話型インターフェイスとの対話が実現できるという利点がある。

また、前記入力語彙抽出手段１５４により抽出された語彙情報に基づいて、入力された音声に対応する言い回し情報を解析する言い回し解析手段１８４を有し、前記特徴定義手段１８２は、その言い回し解析手段１８４により解析される言い回し情報に基づいて前記特徴定義情報を作成するものであるため、対話を重ねるうちに対話型インターフェイスの応答が利用者の音声における言い回しを反映したものに変化してゆき、更にきめ細かな対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、前記音特徴抽出手段１７２は、前記マイクロフォン６８から入力される利用者の音声のイントネーションに対応してイントネーション特徴情報を抽出するイントネーション特徴抽出手段１７４、その音声の強弱に対応して強弱特徴情報を抽出する強弱特徴抽出手段１７６、その音声の速度に対応して速度特徴情報を抽出する速度特徴抽出手段１７８、及びその音声の音高に対応して音高特徴情報を抽出する音高特徴抽出手段１８０を含むものであり、前記特徴定義手段１８２は、前記音特徴抽出手段１７２により抽出されたイントネーション特徴情報、強弱特徴情報、速度特徴情報、及び音高特徴情報に基づいて前記特徴定義情報を作成するものであるため、実用的な態様で対話型インターフェイスの育成シミュレーションを実現できるという利点がある。

また、前記人型映像制御手段１６４は、前記映像表示装置６０に表示される人型映像１８８等の表情を制御する表情制御手段１６６、その人型映像１８８等の態度を制御する態度制御手段１６８、及びその人型映像１８８等の服飾を制御する服飾制御手段１７０を含むものであるため、前記コンピュータ１４の映像表示装置６０に表示される人型映像１８８等を前記特徴定義情報に応じて実用的な態様で制御できるという利点がある。

以上、本発明の好適な実施例を図面に基づいて詳細に説明したが、本発明はこれに限定されるものではなく、更に別の態様においても実施される。

例えば、前述の実施例では、前記文字化手段１５２、入力語彙抽出手段１５４、応答語彙選択手段１６０、音声合成手段１６２、人型映像制御手段１６４、及び音特徴抽出手段１７２が端末装置である前記コンピュータ１４に、前記意味解釈手段１５６、人工知能エンジン１５８、特徴定義手段１８２、及び言い回し解析手段１８４が前記センタ装置１２にそれぞれ備えられた態様について説明したが、本発明はこれに限定されるものではなく、例えば、前記文字化手段１５２、入力語彙抽出手段１５４、応答語彙選択手段１６０、音声合成手段１６２、人型映像制御手段１６４、及び音特徴抽出手段１７２の一部乃至は全部が前記センタ装置１２に備えられた態様、前記意味解釈手段１５６、人工知能エンジン１５８、特徴定義手段１８２、及び言い回し解析手段１８４の一部乃至は全部が端末装置である前記コンピュータ１４に備えられた態様、それら制御機能が前記センタ装置１２とは別のサーバに備えられた態様等、種々の態様が考えられる。また、前記特徴定義データベース４４等が前記センタ装置１２とは別のサーバの記憶装置に設けられたものであっても構わない。

また、前述の実施例では、前記対話型インターフェイス制御システム１０における端末装置として、前記コンピュータ１４、携帯電話機１６、及びカーナビ装置１８を例示したが、例えば、ＰＤＡ（Personal Digital Assistant）、コンシューマゲーム機、デジタル家電等を端末装置としてもよい。すなわち、音声入力部、映像表示部、及び音声出力部を有する機器に本発明は広く適用され得る。

また、前述の実施例では特に言及していないが、前記特徴判定データベース５０や教育方針テーブル１９０のように対話型インターフェイスの育成（特徴定義情報の更新）に係る情報の内容は、端末装置を用いる利用者からは閲覧できないように構成するのが望ましい。また、前記特徴定義データベース４４に記憶された利用者毎の特徴定義情報は、初期設定を除いて端末装置による入力操作によっては変更できず、前記特徴定義手段１８２を介してのみ自動更新されるように構成するのが望ましい。

その他、一々例示はしないが、本発明はその趣旨を逸脱しない範囲内において種々の変更が加えられて実施されるものである。

本発明の一実施例である対話型インターフェイス制御システムを例示する図である。図１の対話型インターフェイス制御システムに備えられたセンタ装置の構成を例示する図である。図１の対話型インターフェイス制御システムにおける端末装置であるパーソナルコンピュータの構成を例示する図である。図１の対話型インターフェイス制御システムにおける端末装置である携帯電話機の構成を例示する図である。図１の対話型インターフェイス制御システムにおける端末装置であるカーナビ装置の構成を例示する図である。図２のセンタ装置のＣＰＵ及び図３のパーソナルコンピュータのＣＰＵに備えられた制御機能の要部を説明する機能ブロック線図である。図３のパーソナルコンピュータの映像表示装置に表示される対話型インターフェイスの人型映像を例示する図である。図３のパーソナルコンピュータの映像表示装置に表示される対話型インターフェイスの人型映像を例示する図である。図３のセンタ装置のＣＰＵによる音特徴情報に基づく特徴定義情報の作成について説明する図である。図３のセンタ装置のＣＰＵによる言い回し情報に基づく特徴定義情報の作成について説明する図である。図３のセンタ装置の特徴定義データベースを用いた対話型インターフェイスへの特徴のフィードバックについて説明する図である。図３のパーソナルコンピュータのＣＰＵによる対話型インターフェイス制御の要部を説明するフローチャートである。図２のセンタ装置のＣＰＵによる対話型インターフェイス制御の要部を説明するフローチャートである。

符号の説明

１０：対話型インターフェイス制御システム
１４：パーソナルコンピュータ（端末装置）
１６：携帯電話機（端末装置）
１８：カーナビゲーション装置（端末装置）
４４：特徴定義データベース
４６：意味解釈データベース
６０：映像表示装置（映像表示部）
６８：マイクロフォン（音声入力部）
７２：スピーカ（音声出力部）
９４：映像表示部
１０６：スピーカ（音声出力部）
１０８：マイクロフォン（音声入力部）
１２０：タッチパネルディスプレイ（映像表示部）
１３０：マイクロフォン（音声入力部）
１３４：スピーカ（音声出力部）
１５２：文字化手段
１５４：入力語彙抽出手段
１５６：意味解釈手段
１５８：人工知能エンジン（応答情報生成手段）
１６０：応答語彙選択手段
１６２：音声合成手段
１６４：人型映像制御手段
１６６：表情制御手段
１６８：態度制御手段
１７０：服飾制御手段
１７２：音特徴抽出手段
１７４：イントネーション特徴抽出手段
１７６：強弱特徴抽出手段
１７８：速度特徴抽出手段
１８０：音高特徴抽出手段
１８２：特徴定義手段
１８４：言い回し解析手段
１８８、１８８′：人型映像

Claims

音声入力部、映像表示部、及び音声出力部を有する端末装置を備え、該端末装置の映像表示部に人型映像を表示させると共に音声入力部及び音声出力部を介して利用者と音声による対話を行う対話型インターフェイスを制御する対話型インターフェイス制御システムであって、
前記端末装置の音声入力部から入力された利用者の音声から該音声の特徴に対応する音特徴情報を抽出する音特徴抽出手段と、
該音特徴抽出手段により抽出された音特徴情報に基づいて特徴定義情報を作成する特徴定義手段と、
該特徴定義手段により作成された特徴定義情報に基づいて前記端末装置の映像表示部に表示される人型映像を制御する人型映像制御手段と
を、有することを特徴とする対話型インターフェイス制御システム。
前記特徴定義手段により作成された特徴定義情報を記憶する特徴定義データベースを有するものである請求項１の対話型インターフェイス制御システム。
前記端末装置の音声入力部から入力される利用者の音声を文字情報に変換する文字化手段と、
該文字化手段により変換された文字情報から語彙情報を抽出する入力語彙抽出手段と、
該入力語彙抽出手段により抽出された語彙情報に基づいて、入力された音声に対応する意味情報を解釈する意味解釈手段と、
該意味解釈手段により解釈された意味情報に基づいて応答情報を生成する応答情報生成手段と、
前記特徴定義手段により作成された特徴定義情報に基づいて、前記応答情報生成手段により生成された応答情報に応じた語彙情報を選択する応答語彙選択手段と、
前記応答情報生成手段により生成された応答情報及び前記応答語彙選択手段により選択された語彙情報に基づいて応答音声を合成し、前記端末装置の音声出力部から出力させる音声合成手段と
を、有するものである請求項１又は２の対話型インターフェイス制御システム。
前記意味解釈手段により解釈された意味情報を記憶する意味解釈データベースを備えたものである請求項３の対話型インターフェイス制御システム。
前記入力語彙抽出手段により抽出された語彙情報に基づいて、入力された音声に対応する言い回し情報を解析する言い回し解析手段を有し、
前記特徴定義手段は、該言い回し解析手段により解析される言い回し情報に基づいて前記特徴定義情報を作成するものである請求項３又は４の対話型インターフェイス制御システム。
前記音特徴抽出手段は、
前記端末装置の音声入力部から入力される利用者の音声のイントネーションに対応してイントネーション特徴情報を抽出するイントネーション特徴抽出手段、
該音声の強弱に対応して強弱特徴情報を抽出する強弱特徴抽出手段、
該音声の速度に対応して速度特徴情報を抽出する速度特徴抽出手段、
及び該音声の音高に対応して音高特徴情報を抽出する音高特徴抽出手段
のうち少なくとも１つを含むものであり、
前記特徴定義手段は、前記音特徴抽出手段により抽出されたイントネーション特徴情報、強弱特徴情報、速度特徴情報、及び音高特徴情報のうち少なくとも１つの情報に基づいて前記特徴定義情報を作成するものである請求項１から５の何れかの対話型インターフェイス制御システム。
前記人型映像制御手段は、
前記端末装置の映像表示部に表示される人型映像の表情を制御する表情制御手段、
該人型映像の態度を制御する態度制御手段、
及び該人型映像の服飾を制御する服飾制御手段
のうち少なくとも１つを含むものである請求項１から６の何れかの対話型インターフェイス制御システム。