JP2004037910A

JP2004037910A - 対話システム及び対話型しりとりシステム

Info

Publication number: JP2004037910A
Application number: JP2002195904A
Authority: JP
Inventors: Mikio Sasaki; 笹木　美樹男; Ryuichi Suzuki; 鈴木　竜一
Original assignee: Denso Corp
Current assignee: Denso Corp
Priority date: 2002-07-04
Filing date: 2002-07-04
Publication date: 2004-02-05
Anticipated expiration: 2022-07-04
Also published as: JP4198403B2

Abstract

【課題】ユーザ及び対話システムの一方又は双方が誤認識をするような場合でも、ユーザの感情を損ねることなく対話やしりとりを継続し、適宜終了できる対話システムを提供する。
【解決手段】対話型しりとりシステム１では、ユーザの発話内容の誤りや、ユーザとの対話を通じて認定される音声認識部１０による認識の誤りにより、しりとり対話に不整合が生じたとしても、直ちにユーザ側の発話内容が否定されるわけではない。つまり、実際の正誤に必ずしも拘束されず、総合的な勝負の判断により戦略的に対話が評価され、ユーザとの対話を継続するのがよいと判断された場合には、対話が継続される。従って、ユーザを否定してその心証をみだりに損ねることなく、一定条件の下対話を継続させて適宜終了させることができる。
【選択図】　図３

Description

【０００１】
【発明の属する技術分野】
本発明は、システム−ユーザ間で対話を行うための対話システム及び対話型しりとりシステムに関する。
【０００２】
【従来の技術】
従来より、例えばカーナビゲーションシステムにおいてレストラン等の目的地の位置情報を問い合わせたりする情報検索のための対話システム，たわいのない会話をしてユーザを楽しませる娯楽用の対話システム、或いは、しりとり等のゲームに応用した対話システム等、システムとユーザとの対話を可能にした対話システムが知られている。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の対話システムでは、以下のような問題点があった。
１）システムにユーザが正しく入力できる場合、認識語彙さえ十分にあればシステムはいついかなるときでも誰に対しても同一内容の対話を展開する。このため、この機械的な対話の単調さにユーザが飽きてしまう。
【０００４】
２）音声で機械とやりとりを行う場合、双方の誤認識に起因して対話が継続されなくなり、対話の楽しさが損なわれることがある。
また、従来の対話型しりとりシステムでは、以下のような問題点があった。
１）システムにユーザが正しく入力できる場合、語彙さえ十分にあればシステムは決して負けることなくしりとりを継続する。このため、ユーザがいつも負けることになり気分を害する。
【０００５】
２）特に音声で機械とやりとりを行う場合、双方の誤認識に起因してしりとりが継続されなくなり、楽しさが損なわれることがある。
本発明は、こうした問題に鑑みなされたものであり、たとえユーザ及び対話システムの一方又は双方が誤認識をするような場合でも、ユーザの感情を特に損ねることなく対話やしりとりを継続し、適宜終了できる対話システムを提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記課題に鑑み、請求項１記載の対話システムにおいては、ユーザから対話のための入力がなされると、認識手段がこの入力内容を認識する。そして、選択手段が認識手段による認識に応じて、予め記憶された対話対象語の中からユーザに向けた対話語を選択し、出力手段が選択手段によって選択された対話語を出力することで、ユーザとの間で対話を行うものである。
【０００７】
そしてさらに、認定手段が、認識手段による認識に基づき、対話上の不整合がある場合にその不整合を認定し、その不整合が認定された際に、判定手段が、予め定める条件に基づいて対話の評価を行い、対話の継続の有無を判定する。そして、上記選択手段は、判定手段の判定結果に基づき、対話の継続又は終了用に予め設定された対話語を選択する。
【０００８】
ここでいう「ユーザの入力」は、例えばマイク等を介した音声入力でもよいし、マウスやキーボード等を介した入力であってもよい。また、「出力手段による出力」もスピーカ等を介した音声出力でもよいし、ディスプレイ画面に表示する画像出力等であってもよい。
【０００９】
特に音声による入出力によりシステムとユーザ（ユーザ）との対話を実現する場合には、請求項２に記載のようになる。
すなわち、音声認識手段が、ユーザから音声入力がなされると、この入力された音声を認識する。そして、発話語選択手段が、この音声認識手段によって認識された語に応じて予め記憶された発話対象語の中から発話語を選択し、発話手段が、この発話語選択手段によって選択された語を音声として出力することでユーザとの間で対話を行う。尚、ここでいう「発話語」とは、上記「対話語」において音声にて出力するものを意味する。
【００１０】
そしてさらに、認定手段が、上記音声認識手段による認識に基づき、対話上の不整合がある場合にその不整合を認定し、その不整合が認定された際に、判定手段が、予め定める条件に基づいた対話の評価と、その評価に基づく対話継続の有無の判定を行う。そして、上記発話語選択手段は、この判定手段の判定結果に基づき、対話の継続又は終了用に予め設定された発話語を選択する。
【００１１】
かかる構成によれば、音声認識手段によりユーザの音声が正常に認識され、その対話が整合してる場合には、そのまま対話が継続される。一方、ユーザの発話内容との関係で対話がかみ合わない，矛盾する，或いは誤っている等により不整合であると認定されたとしても、直ちにユーザ側の発話内容が否定されるわけではない。つまり、実際の正誤に必ずしも拘束されず、予め定める条件に基づいて対話が評価され、戦略上ユーザとの対話を継続するのがよいと判断された場合には、対話が継続される。この場合、対話が不整合と認定された場合に引き続き対話を継続させる際に用いる発話語のバリエーションが予め設定されており、発話語選択手段が、その中から適切な発話語を適宜選択する。
【００１２】
従って、ユーザの発言に誤りがあったとしても、それをみだりに否定してその心証を損ねることなく、一定条件の下対話を継続させ、適宜終了させることができる。
この「対話上の不整合」は、例えば請求項３に記載のように、ユーザの発話内容の誤り（つまり人間の誤り）、ユーザとの対話を通じて認定される音声認識手段による認識の誤り、又は判定手段の評価の誤り（つまりシステムの誤り）から認定される。つまり後に詳述するが、この「人間の誤り」には、人間の聞き誤りと人間の回答誤りがあり、「システムの誤り」には、ユーザの発話に対する誤認識と、正常な認識後の発話内容の評価の誤りに基づく発話語の選択誤りがある。尚、その後者のシステム側の誤りについては、システム自身が積極的に認定できるものではないため、予め定める条件の下、ユーザとの対話を通じてシステム側が納得する又は妥協する等により認定する。
【００１３】
また、上記「予め定める条件」は、例えば請求項４に記載のように、ユーザプロファイル，確率，音声情報，経過時間，応答速度，及び対話状況のいずれか又は組み合わせにより設定することができる。
例えばユーザプロファイルによるユーザの年齢，性格，地位等の属性に基づき、対話の有効性を厳しく判断したり、逆に緩やかに判断することができる。また、確率的に何回に一回はユーザ側の誤りを許容するといったようにしたり、例えばユーザの口調が強い等の音声情報によって、ユーザの感情が高ぶっている，怒りを感じている等を認定し、緩やかな判断をするようにしてもよい。また、対話を開始してからの経過時間が一定時間を超えると対話を終了させる方向に発話語を選択するようにしたり、応答速度により検知されるユーザの焦りにより判断を緩やかにしたりもできる。さらに、渋滞時等の対話状況（状況プロファイル）により対話内容を変更したりすることもできる。尚、これはあくまで一例にすぎず、上記「予め定める条件」には、様々なバリエーションやその組み合わせが考えられる。そして、そのバリエーションによりユーザにシステムとの対話を一層面白く感じるさせことができるのである。
【００１４】
つまり、上記対話の評価には、ユーザの誤りやユーザとの対話によるシステム側の誤りの認識、或いは、正誤によらない戦略上の問題等が勘案される。その結果、ユーザ側の認識・思考・発話及びシステム側の認識の各々に誤りが存在しうる場合でも、ユーザの心証を特に損ねずに対話を継続させ、適宜終了させることができるのである。
【００１５】
また、ユーザによっては同じ語彙に対する発音等が異なる場合がある。このため、請求項５に記載のように、音声認識手段が音声の認識をロバスト化して、ユーザの発話に柔軟に対応できるようにするのがよい。
その場合、請求項６に記載のように、ロバスト化において、多様なアクセントや声色を標準化して認識できるようにするのが好ましい。これは、例えばいわゆる不特定他者音声認識によって実現することができる。
【００１６】
また、請求項７に記載のように、ロバスト化において、ユーザの独り言をカットするようにすると、対話の誤認を防止することができて好ましい。これらの独り言については予め認識辞書に登録しておき、ユーザの発話からその独り言を認識した上で発話内容から削除することにより実現できる。
【００１７】
また、請求項８に記載のように、ロバスト化において、応答速度を速くして処理時間を短くすることにより、円滑な対話を実現することができる。その際、対話の無音判定時間を短くすることで応答速度を速くすることができるが、この無音判定時間を短くすれば文の切れ目が判定困難になる。そこで、対話内容に応じた無音判定時間の設定が必要になる。また、話者特性（ゆっくりしゃべる、早口、など）に応じた応答速度（発話速度）の設定も有効である。
【００１８】
さらに、請求項９に記載のように、上記判定手段は、予め定める条件により、ユーザの誤りを許す／許さない、譲歩する／譲歩しない、又は問い返すを使い分けるようにすると、対話のバリエーションが豊かになる。
また、請求項１０に記載のように、発話語選択手段は、予め定める条件により、回答パターンを変化させるように発話語を選択するとよい。
【００１９】
つまり、後述する実施例でも述べるように、同じ発話内容であっても、ユーザによって或いは状況に応じて適宜言い方（表現）を変えることで、対話のおもしろさを向上させることができる。
さらに、請求項１１に記載のように、発話語選択手段が予め定める条件により、作為的に誤りを混入させるように発話語を選択するようにすると、人間らしさが感じられ、ユーザに親しみが感じられるようになる。
【００２０】
以上のような対話システムは、以下に述べる対話型しりとりシステムとして構成することができる。
すなわち、請求項１２に記載の対話型しりとりシステムでは、音声認識手段が、ユーザから音声入力がなされると、この入力された音声を認識する。そして、発話語選択手段が、この音声認識手段によって認識された語の最後の一音を頭字とする語を、予め記憶された発話対象語の中から選択し、発話手段が、この発話語選択手段によって選択された語を音声として出力することで、ユーザとの間でしりとりを行う。
【００２１】
そしてさらに、認定手段が、上記音声認識手段による認識に基づき、対話上の不整合がある場合に、その不整合を認定し、その不整合が認定された際に、判定手段が、予め定める条件に基づいて対話の評価を行い、しりとりの継続の有無を判定する。そして、上記発話語選択手段は、この判定手段の判定結果に基づき、しりとりの継続又は終了用に予め設定された発話語を選択する。
【００２２】
かかる構成によれば、音声認識手段によりユーザの音声が正常に認識され、そのしりとりゲームが正しく進行している場合には、次の発話処理を行い、そのまましりとりが継続される。一方、ユーザの発話内容との関係でしりとりとして不整合であると認定されたとしても、直ちにユーザ側の負けが宣言されるわけではない。つまり、実際の正誤に必ずしも拘束されず、予め定める条件に基づいてしりとりの内容及びその間のユーザとの対話が評価され、戦略上しりとりを継続するのがよいと判断された場合には継続される。従って、ユーザの負けを宣言してその機嫌をみだりに損ねることなくしりとりを継続させ、適宜終了させることができる。
【００２３】
この「対話上の不整合」は、例えば請求項１３に記載のように、上記と同様にユーザの発話内容の誤り（つまり人間の誤り）、ユーザとの対話を通じて認定される音声認識手段による認識の誤り、又は判定手段の評価の誤り（つまりシステムの誤り）から認定される。
【００２４】
また、上記「予め定める条件」は、請求項１４に記載のように、上記と同様にユーザプロファイル，確率，音声情報，経過時間，応答速度，及び対話状況のいずれか又は組み合わせにより設定することができる。
さらに、請求項１５に記載のように、上記判定手段は、予め定める条件により、ユーザの誤りを許す／許さない、譲歩する／譲歩しない、又は問い返すを使い分けるようにすると、上述のように対話のバリエーションが豊かになる。
【００２５】
また、請求項１６に記載のように、上記発話語選択手段が、予め定める条件により、発話対象語の中から故意に誤りである語を選択し、発話手段が、この誤りである語を発話するとともにシステムの負けを宣言するようにすれば、ユーザに対して親近感を形成させることができる。
【００２６】
また、請求項１７に記載のように、データベースにしりとりの回答頻度の高い語彙を連ねたパスを予め格納し、発話語選択手段が、予め定める条件により、データベースを参照して回答頻度の高い語彙を導くための発話語を選択するようにするのもよい。尚、ここでいう「回答頻度」は、個々のユーザの回答頻度であってもよいし、当該システムで過去にしりとりゲームを行った者の全体の回答頻度であってもよい。このようにすれば、ユーザにとって語彙が思いつきやすくスムーズにしりとりを継続することができるため、状況に応じてユーザの気分を良くすることができる。
【００２７】
さらに請求項１８に記載のように、さらに、回答予測手段がユーザの回答を予測し、発話語選択手段が、この回答予測手段による予測結果に基づいて、発話対象語の中から発話語を選択するようにするのもよい。例えば、それまでのしりとり対話の履歴を参照して、ｘで始まる単語の発話が少ない場合（つまりユーザが思いつき難い場合）、難易度を高く設定する場合にはこのｘを語尾とする単語を選択し、逆に難易度を低く設定する場合には、当該ｘを語尾とする単語を選択しないようにすることができる。
【００２８】
かかる構成によれば、ユーザが回答を思いつきやすい単語と、思いつきにくい単語とを戦略的に用いることで、一層しりとり対話の面白さを高めることができる。
また、請求項１９に記載のように、計時手段が、システム側の発話からの時間を計時し、発話語選択手段が、この計時手段が予め定める経過時間を計時したときに、ユーザをしりとりの解答に導くためのヒントを選択することで、ユーザの負けを減らし、ユーザの気分を良好に維持することができる。
【００２９】
さらに、請求項２０に記載のように、難易度設定手段が、予め定める条件により、しりとりの難易度を設定し、発話語選択手段は、この難易度設定手段により設定された難易度に基づいて、発話対象語の中から発話語を選択するようにしてもよい。この難易度は、回答までの時間の設定，ジャンルの限定，ヒントの有無，上記履歴に基づく語彙の選択等により、設定することができる。
【００３０】
かかる構成により、ユーザのレベルを考慮した難易度のしりとりゲームを実現することができ、ユーザの心証を害さずに楽しくゲームを進めることができる。尚、このような対話システム又は対話型しりとりシステムの各手段をコンピュータにて実現する機能は、例えば、コンピュータ側で起動するプログラムとして備えることができる（請求項２１）。このようなプログラムの場合、例えば、ＦＤ、ＭＯ、ＤＶＤ、ＣＤ−ＲＯＭ、ハードディスク等のコンピュータ読取可能な記録媒体に記録し、必要に応じてコンピュータにロードして起動することにより用いることができる。この他、ＲＯＭやバックアップＲＡＭをコンピュータ読取可能な記録媒体としてプログラムを記録しておき、このＲＯＭ或いはバックアップＲＡＭをコンピュータに組み込んでもよい。
【００３１】
【発明の実施の形態】
以下、本発明の実施の一形態を図面と共に説明する。尚、本実施形態は、本発明の対話システムを対話型しりとりシステムとして構成したものであり、図１はその対話型しりとりシステムの全体構成を表すブロック図である。
【００３２】
同図に示すように、対話型しりとりシステム１は、音声認識部１０，対話管理部２０，しりとり処理部３０，及び音声合成部４０等から構成されている。
そして、ユーザの発話音声は、図示しないマイクを介してまず音声認識部１０に入力される。音声認識部１０は、しりとりの語彙や対話に必要な語彙が格納された辞書１１を参照して、この発話音声の内容を認識し、この認識結果を対話管理部２０に出力する。対話管理部２０は、この認識結果から対話の進行を管理し、しりとり処理部３０やユーザプロファイル２１，状況プロファイル２２，及び発話データベース２３を参照して応答内容を生成し、音声合成部４０に出力する。
【００３３】
ユーザプロファイル２１は、ユーザの性別、年齢、嗜好、性格、職業、地位等といった登録ユーザの属性を示すデータを格納したデータベースである。また、状況プロファイル２２は、本システムが現在どこでどのように使用されているかを表す使用環境等を格納したデータベースである。さらに、発話データベース２３は、ユーザプロファイル２１に格納された個々のユーザの属性に対応して、発話の種類を格納したデータベースである。例えば、同じ対話語であっても、ユーザが地位の高い大人の属性を有する場合に敬語を駆使した対話語を対応させたり、ユーザが若者や子供等の場合にフレンドリーな対話語を対応させたりする等、種々のバリエーションでの発話の種類が格納されている。
【００３４】
しりとり処理部３０は、しりとり専用の語彙を格納した語彙データベース３１を備え、後述するしりとりの正誤判断，しりとりの回答予測，しりとりの応答生成を、この語彙データベース３１を参照して行い、最終的に総合的なしりとりの勝負の判断を行う。図２にしりとり処理部３０の機能の一例を示す。
【００３５】
同図に示すように、しりとり処理部３０では、現在の時刻，しりとり開始からの経過時間，しりとりの各応答時間等を逐次検出する一方で、ユーザプロファイル，状況プロファイル，時事情報，設定入力等に基づいて、現在のユーザの発話に対して戦略上適切な評価を行い、選択した発話語（判定結果）を出力する。
【００３６】
ここで、設定入力とは、例えば意図的に誤りを入れる／入れない，ユーザの好みの言葉を選択する／しない，嫌いな言葉を選択する／しない，回答しやすい言葉を選択する／しないといった具合に、ゲームの面白さを高める上での種々の設定であり、しりとりゲームの開始前にユーザ又は第三者により予め設定される。
【００３７】
また、後述する音声のロバスト化のために、ユーザの発話音声の特徴を記録しておいたりする。また、判定結果について複数の適合値が見つかったような場合等には、乱数入力によりそのいずれかを選択するようにすることもできる。
そして、図１に戻り、音声合成部４０は、対話管理部２０にて生成された応答内容を音声に変換し、図示しないスピーカを介して発話し、これをユーザに伝える。
［１．全体の流れ］
次に、本対話型しりとりシステム１が実行するしりとりゲームに関する処理について、図３に示すフローチャートに基づいて説明する。
【００３８】
まず、しりとりの開始に際してユーザとの間で導入対話を行う（Ｓ１１０）。この導入対話では、システム側から例えば「こんにちは」，「これからしりとりを始めるよ」，「君のお名前は？」，「どこから来たの？」，「何歳？」，「どんな仕事をやってるの？」といった発話が行われ、これに対するユーザの発話を認識してユーザプロファイル２１や状況プロファイル２２を参照し（Ｓ１２０）、ユーザの認証や属性判別等をして発話データベース２３における発話の種類を選択するとともに、しりとりのジャンル設定や難易度の設定等を行う。
【００３９】
そして、本システム側からしりとりを開始する場合にはまず、しりとり開始からの経過時間をチェックした後（Ｓ１３０）、語彙データベース３１から最初の語彙として適切な一語を選択して発話する（Ｓ１４０，１５０）。この最初の語彙としては、例えば、ユーザプロファイル２１を基にユーザが容易に思いついて比較的解答しやすいものを選択し、スムーズにしりとりを開始することが考えられる。
【００４０】
次に、ユーザからこれに続く適切と思われるしりとりの単語が発話されると、このユーザ発話を音声認識する（Ｓ１６０）。そして、この認識した単語がしりとりとして正しいかどうかを評価する（Ｓ１７０）。
そして、しりとりのルールに照らして正しいと判断された場合には（Ｓ１８０：ＹＥＳ）、Ｓ１３０に戻り、経過時間をチェックした後、次の応答語彙を生成してしりとりを継続する（Ｓ１４０〜Ｓ１７０）。一方、正しくないと判断された場合には（Ｓ１８０：ＮＯ）、総合的な勝負の判断を行う（Ｓ１９０）。この総合的な判断は、後述する「２．音声対話における誤りの分類」等に基づき、経過時間情報，ユーザプロファイル，時間帯，本システムの使用環境（状況プロファイル）等により判断する。
【００４１】
例えば、ユーザが偉い人であれば適当なところでわざとシステムの負けを宣言してゲームを終了したり、ユーザがゲームにのめり込むような子供である場合に厳しく勝敗を決定したりすることが考えられる。また、ユーザの主張や反論によりそのままゲームを継続させたり、しりとりゲーム開始からの一定時間経過によりシステムの負けを宣言してゲームを終了するようにしてもよい。
【００４２】
そして、上記総合的な判断により、ユーザの勝ちと判断されれば（Ｓ２００）、システムがユーザの勝ちを宣言する発話を行う（Ｓ２１０）。
一方、システムの勝ちと判断されれば（Ｓ２００）、システムが勝ちを宣言する発話を行う（Ｓ２２０）。このとき、ユーザからの主張（反論）があるか否かを確認し（Ｓ２４０）、何もなければ（Ｓ２４０：ＮＯ）、そのままゲームを終了する。一方、Ｓ２４０においてユーザからの主張がある場合には（Ｓ２４０：ＹＥＳ）、ユーザとの対話を行う。
【００４３】
そして、Ｓ２００において勝ち負けが決まらない場合（Ｓ２００）、及びＳ２４０においてユーザとの対話を行った場合には、ユーザの機嫌を損ねないように戦略上わざと負けるかどうかを判断する（Ｓ２３０）。そして、わざと負けると判断した場合には（Ｓ２３０：ＹＥＳ）、システムがユーザの勝ちを宣言する発話を行って一連の処理を終了する（Ｓ２１０）。一方、わざと負けることをしないと判断した場合には（Ｓ２３０：ＮＯ）、Ｓ１３０に戻ってそのまましりとりを継続し、次の応答を生成する。
［２．音声対話における誤りの分類］
２．１　　　　　人間の誤り
しりとりのプロセスにおいて人間側で生じうる誤りプロセスには下記の２つがある。
（１）「人間の聞き誤り」として、システムの発話を誤認識する場合がある。
（２）「人間の回答あやまり」として、しりとりの応答として誤った答えを作成する場合がある。
２．２　　　　　システムの誤り
また、しりとりのプロセスにおいてシステム側で生じうる誤りプロセスには下記の２つがある。
（１）「入力語に対するシステムの認識誤り」として、例えば音声認識部１０における誤認識がこれに相当する。これは、ユーザの発話に対するシステムの音声認識に誤りがあるが、その後発話を進める上でのシステムの判断（評価）に誤りがない場合である。
（２）「システムの判断誤り」がある。これは、ユーザの発話に対するシステムの音声認識に誤りがない場合でも、その後発話を進める上でのシステムの判断（評価）に誤りがある場合である。
【００４４】
ただし、プログラムや装置上のバグがなければ、しりとりの論理や個々のタスクについて決められた条件判断についてシステムが誤りを犯すとは考えにくい。このため、基本的には上記の入力語が音声認識で誤認識され、結果としてシステムの判断誤りに”見える”ケースが多いと考えられる。一方で、いくつかある選択肢から状況やユーザプロファイル、確率計算に応じてひとつの戦略を選択する場合が重要である（下記参照）。
（例）例えば、ユーザがしりとりにならない発話をしたと判断した場合、
１）ユーザの誤りを許す
２）ユーザの誤りをゆるさない
３）わざと負ける
４）問い返す
などの対応戦略が考えられる。もしこれらの中からひとつの戦略を選ぶ場合、経過時間やユーザプロファイル、時間帯、使用環境（状況プロファイル：交通渋滞、パーキングエリア他）によって戦略を選択していくことになる。システム側は、これらの戦略を選ぶ際にその選び方がユーザに適しているか否かの判断を誤る可能性がある。例えば、本システムが車両に搭載され、車内でゲームが進行している場合に、使用環境において交通渋滞であると判断した直後に、車が流れ出したような場合が該当する。
［３．適応化する機能］
尚、上述した緒機能は下記のように集約される。
３．１　　　　　わざと負ける
ゲームの時間（経過時間）が長くなったり、音声認識がうまくいかない、或いは対話のやりとりがうまくいかない場合には、システム側はわざと負けることを選択することができる。
３．２　　　　　人間のいい直しを許す
最初に言った回答をシステムが認識した後でも、次の応答を返す以前にユーザが「ちょっとまって」などと割り込んでこれをすばやく取り消し、言い直す場合でも受け付ける。
３．３　　　　　人間のいい誤りを許す
（１）人間が本当に間違って言った場合
ａ）指定ジャンル以外の言葉を言った
ｂ）本当にしりとりにならない言葉を言った
ｃ）考えている最中の独り言を誤認識した
（２）システムが認識した結果、人間の言い誤りと判定した場合
３．４　　　　　回答パターンを微妙に変化させる
システムが勝った場合或いはユーザが返答に困っている場合などに、単に「僕の勝ちだね」というだけではなく、「もうすこしがんばりましょう」などと励ましの言葉を入れたりする。「僕の負けだね」は「あー負けちゃった」などと適宜言い方を変えることが自然さを感じさせる上で有効である。このためには例えば、
システムが負けた場合の発話クラス（同じ内容の発話）として、
１）僕の負けだね
２）私の負けです、お強いですね
３）君の勝ちだね
４）うーん、もう思いつかないな、えーと、あー時間がない
５）あー負けちゃった
６）ｘｘｘ、あ、これは前に言ったね、うーんギブアップ。
などの中からユーザのプロファイル（性別、年齢層、職業など）やゲームの経過時間などから適宜選択して違う回答を出せるようにする。
３．５　　　　　ヒントを出す
ユーザが回答に困っている場合、つまり、例えば回答待ちの時間が一定時間を超過した場合や、「えーと」，「うーん」等の発話を認識した場合、或いは複数回間違った回答をしようとした場合には、例えば下記のようなヒントを出す。
＜動物しりとりの例＞
「魚や鳥の名前でもいいよ」
「”み”のつく鳥がいるよね」
「”す”のつく魚は何だったかな」
尚、この機能は、しりとりを開始する際の後述する難易度の選定や回答予測機能、回答データベースにも関連する。
［４．認識のロバスト化］
４．１　　　　　多様なアクセントや声色、話速への対応
同じ単語でも人によってさまざまな言い方をするため、例えば「みみずく」をゆっくり「みーみーず　く！」と発話された場合でも認識できるように考えられる言い方を予め認識辞書（辞書１１）中に記述しておく。アクセントや声色にも影響されるが、現時点ではその手段はいわゆる不特定他者音声認識によって吸収する。
４．２　　　　　独り言をカットする
ユーザが何をいっていいかわからない場合、その間の独り言が認識語にはいってしまう。この場合、
「えーと何があるかな」
「うーんわからないな」
などの考えられる独り言を予め認識辞書に登録しておき、認識した上で発話内容から削除する。
４．３　　　　　応答速度を早くする
発話開始スイッチ（発話の際に雑音や余計な音声が入らないようにするために、発話開始時に押すスイッチ）の不要な音声認識の場合、通常、発話音声から無音区間を検出することで文の切れ目を判定することが多い。ここでその無音判定時間を短くすれば、システムの処理時間は短くなるが、逆に文の切れ目が判定困難になる。そこで、対話内容に応じた無音判定時間の設定が必要になる。また、話者特性（ゆっくりしゃべる、早口、など）に応じた設定も有効である。
［５．その他の機能］
５．１　　　　　履歴しりとり
履歴を言うしりとりもできるようにする。
（例）「りんご」
『りんご、ゴリラ』
「りんご、ゴリラ、らっきょう」
『りんご、ゴリラ、らっきょう、うさぎ』
のように、システム及びユーザが、それまでのしりとりの履歴を記憶するしりとりゲームである。
５．２　　　　　難易度を設定する
下記要素で難易度をつける。
【００４５】
・応答時間の限定：１０秒以内、３０秒以内、１分以内、無制限
・語彙限定：動物しりとり、たべものしりとり、国名しりとり、他
・ヒントの有無：
・わざと負けるかどうか：
これらは、ユーザの属性に合わせて設定する。
５．３　　　　　しりとりにおける回答のデータベース化
しりとりにおいては回答しやすいパスを予めデータベース化しておくことができる。
（例）・きつね、ねこ、コアラ、らくだ、だちょう、うさぎ、ぎんぎつね、。。。
【００４６】
・りんご、ごま、マカロニ、にんにく、くり、。。。
これにより、ユーザが思いつきやすく解答しやすくなる。
５．４　　　　　しりとりにおける回答の予測
ボキャブラリのネットワーク構造の解析により、発話「りんご」に対して「ご」で始まる単語が予測できるため、その予測単語集合：（ご）＝｛ごりら、ごま、ごぼう、ごーや、ｅｔｃ．｝をもとに、
１）ヒントを出す
２）予測単語集合Ｐ（ｘ）に含まれるが、まだ一度も発話されていない単語の数Ｎ（Ｐ（ｘ））が、あるしきい値Ｎｔｈに対して
Ｎ（Ｐ（ｘ））≦Ｎｔｈ
の場合、これは回答を思いつきにくい問題であると判断して、ｘで終わるような単語を発話しない。逆に難易度の高い設定であるならばＮ（Ｐ（ｘ））の小さいｘで終わるような単語を選んで発話する。
【００４７】
また、これらの回答の予測結果とユーザプロファイルを組み合わせて、
・ユーザの嫌いな言葉を言わない、ユーザにも言わせない
・ユーザの好きな言葉を選択して応答する、或いはユーザに言わせられるよ　うにする
などが考えられる。逆にユーザにストレスを与えたい場合には、
・ユーザの嫌いな言葉を言わせる、あるいはユーザに言わせる
・ユーザの嫌いな言葉を選択して応答する、あるいはユーザに言わせられるようにする
などが考えられる。
５．５　　　　　対話におけるキーワードの予測
上記のしりとりにおける語尾−語頭の関係を対話におけるキーワードの連想関係、意味関係に置き換えれば、ある発話中の単語に対して応答に用いる関連（又は連想）キーワード（キーフレーズでもよい）群を特定することができる。例えば、
ＫＷ（りんご）＝｛くだもの、みかん、たべもの、赤い、私の好きなくだもの、
アップル、玉露、硬い、甘ずっぱい、青い、ｅｔｃ．｝
と表現できる。さらに、このキーワード群の個々の単語に対しても同様に、
ＫＷ（私の好きなくだもの）＝｛みかん、キーウィ、いちご、パイナップル、りんご、デザート、食事、おやつ、フルーツ、ビタミン、野菜、肉、魚、おなかがすいた、他｝
とこの連関ネットワークを広げることができる。このようにして活性化されたキーワードやキーフレーズを連想ゲームに用いることもできるし、また、対話の話題展開につなげることもできるが、そこにおいてしりとりのときと同様にユーザプロファイル情報を用いてユーザの好きなキーワードあるいはユーザの嫌いなキーワードまたはどちらでもない（特に嗜好性のない）キーワードなどを意図的に選択することができる。
５．６　　　　　意図的に誤りを混入する
わざと聞き間違えたようなふりをして
「ゴリラ」と正しく認識したものを→「えっコアラ？」、「甲羅？」
「りんご」と正しく認識したものを→「えっビンゴ？」
などと取り違えたふりをして聞き返す等して面白さを演出する。
【００４８】
尚、本実施形態のように音声入力でなくテキスト入力の場合には、かな漢字変換誤りなどをわざと入れることも考えられる。例えば図２に示すように、ユーザが魚の「すずき」と回答したのを、「鈴木君がどうかしたの？」「鈴木ｘｘ大臣のこと？」などと取り違えたふりをして聞き返す等して面白さを演出する。
［実施例］
図４に、対話型しりとりシステム１にて実行されるしりとりにおける条件分岐とシステムの発話戦略の実施例を示す。以下に、各条件における動作内容を説明する。
［１．　システムの発話『りんご』に対して人間（ユーザ）が正しく「ゴリラ」と発話する場合］
Ｃａｓｅ−１ａ）　システムが正しく「ゴリラ」と音声認識し、語の接続が正しいと判断する。これを踏まえて次の語『ラッパ』を発話する。ユーザも接続が正しいという印象をもつ。この場合、しりとりの結果は「未定」となり、しりとりは継続される。
【００４９】
Ｃａｓｅ−１ｂ）　システムが「ごま」と誤認識するが、語の接続は正しいと判断する。システムはこれを踏まえて次の語『まり』を発話する。ユーザはおかしいと思うがそのまま続ける。
Ｃａｓｅ−１ｃ）　システムが「ごま」と誤認識するが、語の接続は正しいと判断する。これを踏まえて次の語『まり』を発話する。ユーザはおかしいと思い、自分の勝ち（システムの負け）を宣言する。システムはこれを受け入れ、負けを宣言する。
【００５０】
Ｃａｓｅ−１ｄ）　システムが「ごま」と誤認識するが、語の接続は正しいと判断する。しかし、「ごま」はしりとりの経緯から見て２回目の発話であり、既に出ているのでこれはユーザの負けと判断し、システムの勝ちを宣言する。しかし、ユーザがこれに納得せずに自分が正しいことを主張する場合には、しりとりの結果は「未決」となり、上述したユーザとの対話の中でシステムがわざと負けるか否かを判断する。
【００５１】
Ｃａｓｅ−１ｅ）　システムが「コレラ」と誤認識し、語の接続がおかしいと判断する。しかし、戦略的に穏便にしりとりを継続すべく、この間違い（本当はユーザは正しい）を許容し、次の語『ラッパ』を発話する。この場合、しりとりの結果は「未定」となり、しりとりは継続される。
【００５２】
Ｃａｓｅ−１ｆ）　システムが「コレラ」と誤認識し、語の接続がおかしいと判断する。システムは自分の勝ちを宣言するが、ユーザはその判定をおかしいと思う場合には、抗議の発話をする。一方、ここでユーザが何も抗議しなければそのままユーザの負けとなる。
【００５３】
Ｃａｓｅ−１ｇ）　システムが「コレラ」と誤認識し、語の接続がおかしいと判断。システムは戦略により「そろそろ負けてやろうか」と考えて『ライオン』を発話し、わざと負け、システムの負けを宣言する。
［２．　システム発話『りんご』に対してユーザが「ゴリラ」（２回目）を発話する場合］
Ｃａｓｅ−２ａ）　システムが「ゴリラ」と認識し、その発話が２回目であることからユーザの負けと判断する。システムは自分の勝ちを宣言する。
【００５４】
Ｃａｓｅ−２ｂ）　システムが「ごま」と誤認識し、『まり』と応答する。ユーザは自分の言った言葉「ゴリラ」に対してしりとりになっていないことに気が付かないか或いは気が付いても、システムの間違いを許容し、しりとりを継続する。
Ｃａｓｅ−２ｃ）　システムが「ごま」と誤認識し、『まり』と応答する。ユーザは自分の言った言葉「ゴリラ」に対してしりとりなっていないことに気が付いて自分の勝ちをシステムに宣言する。システムはこれを素直に受け入れて負けを宣言し、しりとりは終了する。
【００５５】
Ｃａｓｅ−２ｄ）　システムが「ごま」と誤認識し、戦略によりそろそろ負けてやろうと考えて『マリオン』と応答すると同時に自分の負けを宣言する。一方、ユーザは自分の言った言葉「ゴリラ」に対してしりとりなっていないことに気が付いて自分の勝ちを当然と納得する。
【００５６】
Ｃａｓｅ−２ｅ）　システムが「ごま」（２回目）と誤認識し、『２回目だよ。私の勝ち』と言ってユーザの負けを宣言する。一方、ユーザは自分の発話した「ゴリラ」が２回目であることに気づいて自分の負けを納得する。
Ｃａｓｅ−２ｆ）　システムが「ごま」（２回目）と誤認識し、『”ごま”は２回目だよ。私の勝ち』と言ってユーザの負けを宣言する。一方、ユーザは自分は「ゴリラ」と正しく発話した（実は２回目）ので自分の勝ちを主張する。勝敗は未決だが戦略により必要に応じてシステムが負けを認める。
【００５７】
Ｃａｓｅ−２ｇ）　システムが「コレラ」と誤認識し、『りんご』に対するしりとりになっていないことに気が付くが許容し、『ラッパ』と応答してしりとりを継続する。
Ｃａｓｅ−２ｈ）　システムが「コレラ」と誤認識し、『りんご』に対するしりとりになっていないと判断して自分の勝ち（ユーザの負け）を宣言する。これに対してユーザは自分のいった「ゴリラ」が２回目であることに気がつかないまま自分の発話がしりとりとして正しいことを主張する。システムがその後「コレラ」ではなく「ゴリラ」と言ったのだと理解できれば「ゴリラ」が２回目であることを説明してユーザを納得させる。理解できなければ、少なくとも自分の勝ちではないと判断してそのまましりとりの継続を選択することもできる。
【００５８】
Ｃａｓｅ−２ｉ）　システムが「コレラ」と誤認識し、『りんご』に対するしりとりになっていないことに気づくが、戦略により「そろそろ負けてやろうか」と考えて『ライオン』を発話してわざと負け、その負けを宣言する。
［３．　システム発話『りんご』に対してユーザが「ドラマ」と発話する場合］
Ｃａｓｅ−３ａ）　システムが「ドラマ」と正しく認識し、しりとりになっていないことに気づいても、戦略により許容してしりとりを継続し、『まり』と発話する。
【００５９】
Ｃａｓｅ−３ｂ）　システムが「ドラマ」と正しく認識し、しりとりになっていないことに気づいて自分の勝ちを宣言する。
Ｃａｓｅ−３ｃ）　システムが「ドラマ」と正しく認識し、しりとりになっていないことに気づくが、戦略により「そろそろ負けてやろうか」と考えて『マリオン』を発話してわざと負け、その負けを宣言する。
【００６０】
Ｃａｓｅ−３ｄ）　システムが「ゴリラ」と誤認識し、正しいしりとりであると判断して『ラッパ』と応答する。一方、ユーザは「ドラマ」と発話したのに『ラッパ』と返ってきたのでおかしいと感じるが許容し、そのまま継続する。
Ｃａｓｅ−３ｅ）　システムが「ゴリラ」と誤認識し、正しいしりとりであると判断して『ラッパ』と応答する。一方、ユーザは「ドラマ」と発話したのに『ラッパ』と返ってきたのでおかしいと感じ、自分の勝ちを主張する。システムは戦略により負けを認め、その負けを宣言する。
【００６１】
Ｃａｓｅ−３ｆ）　システムが「ケラマ」と誤認識し、しりとりになっていないことに気づいても許容してしりとりを継続し、『まり』と発話する。しりとりの結果は「未定」となり、しりとりは継続される。
Ｃａｓｅ−３ｇ）　システムが「ケラマ」と誤認識し、しりとりになっていないことに気づいて自分の勝ちを宣言する。
【００６２】
Ｃａｓｅ−３ｈ）　システムが「ケラマ」と誤認識し、しりとりになっていないことに気づくが、戦略により「そろそろ負けてやろうか」と考えて『マリオン』を発話してわざと負け、その負けを宣言する。
［４．　システム発話『りんご』に対してユーザが「ゴメス」（未知語）と発話する場合］
Ｃａｓｅ−４ａ）　システムが「ゴリラ」と誤認識し、正しいしりとりであると判断して『ラッパ』と応答する。一方、ユーザは「ゴメス」と発話したのに『ラッパ』と返ってきたのでおかしいと感じるが許容し、そのまま継続する。
【００６３】
Ｃａｓｅ−４ｂ）　システムが「ゴージャス」と誤認識し、正しいしりとりであると判断して『すいか』と応答する。一方、ユーザはシステム内部の誤認識に気づかず、正しいしりとりであると判断してそのまま継続する。
Ｃａｓｅ−４ｃ）　システムが「ｘｘｘ」（２回目）と誤認識し、ユーザの負けを宣言する。これに対して、ユーザは正しく言ったと主張する。その結果、戦略により継続するか必要に応じてシステムが負けを認める。
【００６４】
Ｃａｓｅ−４ｄ）　システムが「こりす」と誤認識し、しりとりになっていないと判断するが許容してしりとりを継続し、『すいか』と発話する。しりとりの結果は「未定」となり、しりとりは継続される。
Ｃａｓｅ−４ｅ）　システムが「こりす」と誤認識し、しりとりになっていないことに気づいて自分の勝ちを宣言する。しかし、ユーザがこれに納得せずに自分が正しいことを主張する場合には、しりとりの結果は「未決」となり、上述したユーザとの対話の中でシステムがわざと負けるか否かを判断する。
【００６５】
Ｃａｓｅ−４ｆ）　システムが「こりす」と誤認識し、しりとりになっていないことに気づくが、戦略により「そろそろ負けてやろうか」と考えて『スワン』を発話してわざと負け、その負けを宣言する。
以上に説明したように、本実施形態の対話型しりとりシステム１は、ユーザの発話内容の誤りや、ユーザとの対話を通じて認定される音声認識部１０による認識の誤りにより、しりとり対話に不整合が生じたとしても、直ちにユーザ側の発話内容が否定されるわけではない。つまり、実際の正誤に必ずしも拘束されず、総合的な勝負の判断により戦略的に対話が評価され、ユーザとの対話を継続するのがよいと判断された場合には、対話が継続される。従って、ユーザをみだりに否定してその心証を損ねることなく、一定条件の下対話を継続させて適宜終了させることができる。
【００６６】
特に、総合的な勝負の判断は、ユーザプロファイル，確率，音声情報，経過時間，応答速度，及び対話状況等により、様々なバリエーションで予め設定することができ、そのバリエーションによりユーザがシステムとの対話を一層面白く感じることができる。
【００６７】
尚、本実施形態において、音声認識部１０が音声認識手段に該当し、対話管理部２０及びしりとり処理部３０が、発話語選択手段，認定手段，判定手段，回答予測手段，計時手段，及び難易度設定手段に該当し、音声合成部４０が発話手段に該当する。
【００６８】
以上、本発明の一実施形態について説明したが、本発明の実施の形態は、上記に示したものに何ら限定されることなく、本発明の技術的範囲に属する限り種々の形態をとり得ることはいうまでもない。
例えば、上記実施形態では、本発明の対話システムを対話型しりとりシステムとして実現した例を示したが、しりとりシステム以外の対話システムであってもよいことはもちろんである。
【００６９】
また、上記実施形態では対話を音声により行う例を示したが、テキスト入力により対話を実現するものであってもよい。
【図面の簡単な説明】
【図１】本発明の一実施形態にかかる対話型しりとりシステムの概略構成を表すブロック図である。
【図２】対話型しりとりシステムの処理機能の例を表す説明図である。
【図３】対話型しりとりシステムにおける処理を表すフローチャートである。
【図４】しりとり対話における実施例を表す説明図である。
【符号の説明】
１・・・対話型しりとりシステム、　１０・・・音声認識部、１１・・・辞書、　２０・・・対話管理部、　２１・・・ユーザプロファイル、２１・・・ユーザプロファイル、　２２・・・発話データベース、３０・・・しりとり処理部、　３１・・・語彙データベース、４０・・・音声合成部

Claims

ユーザから対話のための入力がなされると、該入力内容を認識する認識手段と、
該認識手段による認識に応じて、予め記憶された対話対象語の中からユーザに向けた対話語を選択する選択手段と、
該選択手段によって選択された対話語を出力する出力手段と、
を備え、ユーザとの間で対話を行う対話システムであって、さらに、
前記認識手段による認識に基づき、対話上の不整合がある場合に、その不整合を認定する認定手段と、
該認定手段が不整合を認定した際に、予め定める条件に基づいて対話の評価を行い、対話の継続の有無を判定する判定手段と、
を備え、
前記選択手段は、前記判定手段の判定結果に基づき、対話の継続又は終了用に予め設定された対話語を選択することを特徴とする対話システム。
ユーザから音声入力がなされると、該入力された音声を認識する音声認識手段と、
該音声認識手段によって認識された語に応じて、予め記憶された発話対象語の中から発話語を選択する発話語選択手段と、
該発話語選択手段によって選択された語を音声として出力する発話手段と、
を備え、ユーザとの間で対話を行う対話システムであって、さらに、
前記音声認識手段による認識に基づき、対話上の不整合がある場合に、その不整合を認定する認定手段と、
該認定手段が不整合を認定した際に、予め定める条件に基づいた対話の評価と、その評価に基づく対話継続の有無の判定を行う判定手段と、
を備え、
前記発話語選択手段は、前記判定手段の判定結果に基づき、対話の継続又は終了用に予め設定された発話語を選択することを特徴とする対話システム。
前記対話上の不整合は、前記ユーザの発話内容の誤り、前記ユーザとの対話を通じて認定される前記音声認識手段による認識の誤り、又は前記判定手段の評価の誤りから認定されることを特徴とする請求項２記載の対話システム。
前記予め定める条件は、ユーザプロファイル，確率，音声情報，経過時間，応答速度，及び対話状況のいずれか又はいずれかの組み合わせにより設定されることを特徴とする請求項２又は請求項３記載の対話システム。
前記音声認識手段は、前記音声の認識をロバスト化することを特徴とする請求項２〜４のいずれかに記載の対話システム。
前記ロバスト化において、多様なアクセントや声色を標準化して認識できるようにすることを特徴とする請求項５記載の対話システム。
前記ロバスト化において、前記ユーザの独り言をカットすることを特徴とする請求項５又は請求項６記載の対話システム。
前記ロバスト化において、応答速度を速くすることを特徴とする請求項５〜７のいずれかに記載の対話システム。
前記判定手段は、予め定める条件により、ユーザの誤りを許す／許さない、譲歩する／譲歩しない、又は問い返すを使い分けることを特徴とする請求項２〜８のいずれかに記載の対話システム。
前記発話語選択手段は、予め定める条件により、回答パターンを変化させるように前記発話語を選択することを特徴とする請求項２〜９のいずれかに記載の対話システム。
前記発話語選択手段は、予め定める条件により、作為的に誤りを混入させるように前記発話語を選択することを特徴とする請求項２〜１０のいずれかに記載の対話システム。
ユーザから音声入力がなされると、該入力された音声を認識する音声認識手段と、
該音声認識手段によって認識された語の最後の一音を頭字とする語を、予め記憶された発話対象語の中から選択する発話語選択手段と、
該発話語選択手段によって選択された語を音声として出力する発話手段と、
を備え、ユーザとの間でしりとりを行う対話型しりとりシステムであって、さらに、
前記音声認識手段による認識に基づき、対話上の不整合がある場合に、その不整合を認定する認定手段と、
該認定手段が不整合を認定した際に、予め定める条件に基づいた対話の評価と、その評価に基づく対話継続の有無の判定を行う判定手段と、
を備え、
前記発話語選択手段は、前記判定手段の判定結果に基づき、しりとりの継続又は終了用に予め設定された発話語を選択することを特徴とする対話型しりとりシステム。
前記対話上の不整合は、前記ユーザの発話内容の誤り、前記ユーザとの対話を通じて認定される前記音声認識手段による認識の誤り、又は前記判定手段の評価の誤りから認定されることを特徴とする請求項１２記載の対話型しりとりシステム。
前記予め定める条件は、ユーザプロファイル，確率，音声情報，経過時間，応答速度，及び対話状況のいずれか又はいずれかの組み合わせにより設定されることを特徴とする請求項１２又は請求項１３記載の対話型しりとりシステム。
前記判定手段は、予め定める条件により、ユーザの誤りを許す／許さない、譲歩する／譲歩しない、又は問い返すを使い分けることを特徴とする請求項１２〜１４のいずれかに記載の対話型しりとりシステム。
前記発話語選択手段は、予め定める条件により、前記発話対象語の中から故意に誤りである語を選択し、
前記発話手段が、該誤りである語を発話するとともに、システムの負けを宣言することを特徴とする請求項１２〜１５のいずれかに記載の対話型しりとりシステム。
請求項１２〜１６のいずれかに記載の対話型しりとりシステムにおいて、さらに、しりとりの回答頻度の高い語彙を連ねたパスを予め格納したデータベースを備え、
前記発話語選択手段は、予め定める条件により、前記データベースを参照して前記回答頻度の高い語彙を導くための発話語を選択することを特徴とする対話型しりとりシステム。
請求項１２〜１７のいずれかに記載の対話型しりとりシステムにおいて、さらに、前記ユーザの回答を予測する回答予測手段を備え、
前記発話語選択手段が、該回答予測手段による予測結果に基づいて、前記発話対象語の中から発話語を選択することを特徴とする対話型しりとりシステム。
請求項１２〜１８のいずれかに記載の対話型しりとりシステムにおいて、さらに計時手段を備え、
前記発話語選択手段は、該計時手段が当該システム側の発話から予め定める経過時間を計時したときに、ユーザをしりとりの解答に導くためのヒントを選択することを特徴とする対話型しりとりシステム。
請求項１２〜１９のいずれかに記載の対話型しりとりシステムにおいて、さらに、予め定める条件により、しりとりの難易度を設定する難易度設定手段を備え、
前記発話語選択手段は、該難易度設定手段により設定された難易度に基づいて、前記発話対象語の中から発話語を選択することを特徴とする対話型しりとりシステム。
請求項１〜２０のいずれかに記載の対話システム又は対話型しりとりシステムの前記各手段としてコンピュータを機能させるためのプログラム。