JP2010197858A

JP2010197858A - 音声対話システム

Info

Publication number: JP2010197858A
Application number: JP2009044460A
Authority: JP
Inventors: Yuzo Takahashi; 優三高橋; Takashi Kato; 隆加藤
Original assignee: Urimina; URIMINA KK; Gifu University NUC
Current assignee: Urimina; URIMINA KK; Gifu University NUC
Priority date: 2009-02-26
Filing date: 2009-02-26
Publication date: 2010-09-09

Abstract

【課題】話者側からの聞返し及び確認に係る音声を認識し、これに基づいた回答や処理を実行することが可能な音声対話システムを提供することを課題とする。
【解決手段】音声対話システムの対話コンピュータ２は、音声情報９を音声情報取得手段１０と、共通聞返辞書１２ｂ及び個別聞返辞書１２ｃを有する対話語彙辞書１２ａを記憶する辞書記憶手段１３と、対話語彙辞書１２ａに基づいて対話文３を生成する対話文生成手段１５と、対話文３を音声出力する対話文出力手段１６と、話者が発する聞返音声を検出し、聞返情報１５として取得する聞返情報取得手段１８と、共通聞返辞書１２ｂ及び個別聞返辞書１２ｃに基づいて、応答する応答文２２を生成する応答文生成手段２３と、応答文２２を音声出力する応答文出力手段２４とを具備する。
【選択図】図２

Description

本発明は、音声対話システムに関するものであり、特に、通常の会話の中で頻繁に行われる会話内容の確認のための所謂「聞返し」に係る音声を認識し、これに基づいてスムーズな対話を成立させることが可能な音声対話システムに関するものである。

従来から、話者が発声する音声をマイク等の音声入力手段によって受付け、これを音声情報として取得し、さらに当該音声情報を解析することにより音声を認識する音声認識技術の開発が進められている。係る技術によって、キーボードやマウス等の操作入力機器を利用することなく、音声入力のみでコンピュータ等を操作することが可能となり、コンピュータの操作に不慣れな高齢者や手肢の動きが制限される要介護者であっても、コンピュータ等の操作が容易に行えるようになる。また、カーナビゲーションシステム等に音声入力及び音声認識技術を採用することにより、運転者がハンドルから手を離すことなく、目的地の設定や案内の開始を音声によって実行することが可能となり、安全性を高めることができる。このように、音声入力及び音声認識に係る技術は、幅広い分野で使用され、さらに新たな技術分野での使用が期待されている。

ここで、音声認識に係る技術において、話者の発声した音声を正確に認識できない場合、システム等の誤動作やエラーに繋がるおそれがある。そのため、音声入力の際の認識率（判別率）が実用化の点で特に重要となる。そこで、音声認識の過程において、話者の音声を認識する際に、適切な聞返し処理を行うことにより、誤認識を抑制することができる音声認識装置が開発されている（特許文献１参照）。これによると、音声入力によって特定された文章に含まれる語彙の確信度に応じて、話者に対する聞返しの要否を判定し、聞返しが必要と判断された場合に話者に対して聞返しの問い掛けを行うものである。これにより、認識の確信度が低い語彙について再確認を装置側が問い掛けることにより、当該語彙についての確信度を向上させることができ、最終定に高い認識率を維持した状態で音声認識を行うことが可能な音声認識装置を構築することができる。

しかしながら、上記に示した音声認識装置の場合、下記に掲げるような問題点を生じる可能性があった。すなわち、従来技術において、聞返しの要否を判断し、問い掛けを行う主体は、あくまでも音声認識装置側に限定され、カーナビゲーション等の音声入力時の認識率を向上させることを主たる目的とするものであった。そのため、聞返しに応答する対象も人間である話者に限定されていた。

一方、音声認識技術を利用し、医学生等の訓練者が問診技術に係る訓練を実施可能な問診シミュレータ等の教育訓練装置の開発も進められている。この場合、訓練者から問診シミュレータに対して質問、若しくは質問に対する回答に対し、さらに行う再質問（次質問）が音声によって行われることがある。このとき、問診シミュレータからは、音声に係る質問に対し、音声または画面上に表示された文字情報として質問に対する回答が出力されていた。このとき、訓練生が問診シミュレータからの回答に係る音声出力を聞き逃す場合、或いは周囲の雑音やノイズによって一部の回答内容しか聞き取れなかった場合がある。しかしながら、従来型の問診シミュレータの場合、訓練生が回答に係る音声出力に対し、再出力を求めたり、音声出力された回答の内容の認識が正しいのか否かについての確認を行うことができなかった。すなわち、話者（訓練者）側からの内容確認や再出力の要求等の所謂「聞返し」を行う処理ができない場合があった。その結果、音声認識技術に基づいて行われる訓練者と問診シミュレータ等との間で交わされる対話がスムーズに実施されることができず、問診シミュレータとしての十分な効果が得られないことがあった。さらに、聞返しによる確認ができないため、誤った認識の内容で話者がさらに発言をすすめるため、音声対話システムにおける話者の音声の認識率が著しく低下するおそれがあった。

そこで、本発明は、上記実情に鑑み、話者側からの聞返しを可能とし、当該聞返しに基づいた音声出力処理をコンピュータが実行することが可能な音声対話システムの提供を課題とするものである。

上記の課題を解決するため、本発明の音声対話システムは、「話者の音声を検出し、音声情報として取得する音声情報取得手段と、前記音声情報に基づいて前記音声の内容を認識するための音声認識辞書、及び認識された前記音声に対応し、前記話者と対話するための語彙を含んで予め構築された対話辞書を記憶する辞書記憶手段と、取得した前記音声情報及び前記音声認識辞書に基づいて前記音声の内容を認識する音声認識手段と、認識された前記音声に対し、前記話者と対話するための対話文を前記対話辞書を利用して生成する対話文生成手段と、生成された前記対話文を前記話者に対して出力する対話文出力手段と、出力された前記対話文を認識した前記話者が発する音声による聞返し、前記対話文の内容に関する確認、及び前記対話文に関する要求を含む聞返音声を検出し、聞返情報として取得する聞返情報取得手段と、前記聞返情報に基づいて前記聞返音声の内容を認識するための聞返音声認識辞書を記憶する聞返辞書記憶手段と、取得した前記聞返情報及び前記聞返音声認識辞書に基づいて前記聞返音声の内容を認識する聞返音声認識手段と、認識された前記聞返音声に対する応答文を前記対話辞書を利用して生成する応答文生成手段と、生成された前記応答文を前記話者に対して出力する応答文出力手段と」を具備して主に構成されている。

ここで、音声情報取得手段、音声認識辞書等の辞書記憶手段、及び音声認識手段は、周知の音声認識技術を利用することができる。また、聞返情報取得手段とは、音声認識処理に基づいて話者に対して音声または文字情報として出力した対話文に対する確認や要求等を含む聞返音声を検出し、聞返情報として取得するものである。すなわち、通常の会話においても、聞き逃しや聞き漏らし等が発声し、発声者に対して再度発声してくれるように頼むことや、内容の確認を行うことがある。つまり、“・・・ですね？”、“・・・と同じ意味ですね？”、或いは、“もう一度仰ってください”等の確認及び要求を含む聞返しの音声が相当する。この話者の聞返しの発言（音声）を聞返情報として取得し、これを認識することが行われる。なお、対話文に対して聞返音声以外の音声が発せられた場合には、通常の音声情報として取得され、新たな対話文の生成及び出力処理が行われる。

聞返情報を取得し、これを認識した後、対話辞書に基づいて応答文が生成され、出力される。ここで、応答文は、聞返音声に対応する内容を含み、例えば、聞返音声が“もう一度仰ってください”であれば、先に音声出力をした対話文を再び出力できるような処理を行う。ここで、話者の音声に対する対話文及び聞返音声に対する応答文の出力は、話者がその内容を視覚又は聴覚を通じて認識することができるもので足り、例えば、スピーカー等の音声出力機器を介して音声出力するものであっても、或いは液晶ディスプレイ等を利用して文字情報として出力するもののいずれであっても構わない。

したがって、本発明の音声対話システムによれば、音声若しくは文字等による対話文の出力に対し、話者が何らかの確認や要求等を含む聞返音声を発声した場合、これを認識し、その内容に応じた応答文を音声若しくは文字等によって出力することが可能となる。その結果、話者及び音声対話システムの間で交わされる対話において、通常の会話の中で頻繁に行われる聞返しを認識し、これに対する応答をすることができる。対話中の誤認識の可能性が低くなり、スムーズな対話が可能となる。特に、音声を発する話者（人間）側からの聞返しに対し、システム側が対応することが可能となり、シミュレータ等の音声認識機器を構築する上で有用な効果を得ることができる。

さらに、本発明の音声対話システムは、上記構成に加え、「前記対話辞書は、前記話者との全ての対話において共通的に想定され、前記対話文の再出力要求、前記対話文の出力音量の調整、前記対話文の出力速度の調整を含む音声を前記聞返音声として認識可能な複数の語彙が予め記憶された共通聞返辞書を含んで構築され、前記応答文作成手段は、前記共通聞返辞書を利用し、前記対話文の再出力、前記対話文の出力音量の増減、前記対話文の出力速度の加減を含んだ前記応答文を生成する共通応答生成手段」を具備するものであっても構わない。

したがって、本発明の音声対話システムによれば、対話辞書は、各々の対話で共通に想定される語彙を予め記憶した共通聞返辞書を含んでいる。すなわち、音声出力された対話文の再出力（例えば、“もう一度仰って下さい”、“えっ？”、“はぁ？”等）の音声、“もっと大きな声で”或いは“もっとゆっくり話して”等の話者からの確認や要求は、一般の会話の中であっても頻繁に使用され、いずれの対話においても発生する頻度が極めて高いことが予想される。そのため、これらの聞返音声を、特に共通聞返辞書に予め記憶しておくことにより、話者から対話文に対して発せられたこれらの言葉を容易に認識することができ、これに対する応答文の生成及び出力を容易に行うことができる。

さらに、本発明の音声対話システムは、上記構成に加え、「前記対話辞書は、前記話者とのそれぞれ個別の対話において想定され、前記対話文を全く同一に繰り返すオウム返し音声、前記対話文を同意の語彙に置換し、前記対話文の内容の確認を行う置換確認音声、及び前記対話文に関連する単語を含み、前記対話文の内容の確認を行う関連単語音声を前記聞返音声として認識可能な複数の語彙が予め記憶された個別聞返辞書を含んで構築され、前記応答文生成手段は、前記個別聞返辞書を利用し、前記オウム返し音声に対する応答、前記置換確認音声に対する認否、及び前記関連単語音声に対する認否を含む前記応答分を生成する個別応答生成手段を」具備するものであっても構わない。

したがって、本発明の音声対話システムによれば、対話辞書は、各対話毎に個別に想定される語彙を予め記憶した個別聞返辞書を含んで構成されている。すなわち、通常の会話の中で一方が発した音声を、他方がそのまま繰返して発する所謂「オウム返し」の音声や、対話文の内容を認識した上で確認するための同意の語彙に言替えたり、関連する単語による音声を含む聞返音声が出力されることが予想される。係る聞返音声は、各対話毎に特有の内容を含むものであり、先に示した共通聞返辞書と区別して構築することが行われる。そのため、それぞれの対話毎に個別聞返辞書のみを変更し、共通聞返辞書をそのまま残す構成の対話辞書を構築することも可能である。

さらに、本発明の音声対話システムは、上記構成に加え、「前記対話文出力手段及び前記応答文出力手段は、前記対話文及び前記応答文の少なくとも一方が音声によって出力される」ものであっても構わない。

したがって、本発明の音声対話システムによれば、話者による音声及び聞返音声の発声、及び音声対話システム側からの対話文または応答文のいずれもを音声によって行うことが可能となり、両者の間の対話をスムーズに行うことができる。

本発明の効果として、通常の会話の中で頻繁に交わされる所謂「聞返し」に対応した音声認識処理に係るシステムを構築することができる。これにより、聞返しによる音声の誤認識を解消し、安定した対話を音声対話システムとの間で実施することができる。

本実施形態の音声対話システムの概略構成を示す説明図である。音声対話システムにおける対話コンピュータの機能的構成を示すブロック図である。対話コンピュータの処理の流れを示すフローチャートである。対話コンピュータの処理の流れを示すフローチャートである。

以下、本発明の一実施形態である対話システム１（以下、単に「対話システム１」と称す）について、図１乃至図４に基づいて説明する。ここで、図１は本実施形態の対話システム１の概略構成を示す説明図であり、図２は対話システム１における対話コンピュータ２の機能的構成を示すブロック図であり、図３及び図４は対話コンピュータ２の処理の流れを示すフローチャートである。

本実施形態の対話システム１は、図１乃至図４に示すように、音声認識装置として機能する対話コンピュータ２によって主に構成されている。ここで、対話コンピュータ２は、図１及び図２に特に示すように、市販のパーソナルコンピュータを利用して構成され、話者Ｓが発する音声Ｖ及び対話コンピュータ２からの音声Ｖ及び対話コンピュータから出力される音声Ｖに対応する対話文３についての確認及び聞返し等を行う聞返音声Ｖ’を取得するマイク等の音声入力機器４と、各種データの入力及び操作を行うためのキーボード等の操作入力機器５と、各種データ等を表示する液晶ディスプレイ６と、対話文３を出力するためのスピーカ等の音声出力機器７とがそれぞれコンピュータ本体８に接続されて主に構成されている。

また、コンピュータ本体８の内部には、接続された各機器４，５，６，７等との信号を送受するためのインターフェイスや制御機構、インターネット等のネットワーク環境への接続を可能とする通信機能、及び対話型対話システム１として機能させるための音声対話システム用ソフトウェア（図示しない）を内蔵するハードディスク等の記憶手段２７、音声対話システム用ソフトウェアに基づいて各種処理を行うためのＣＰＵを含む演算処理部等を含んで構成されている。これらのパーソナルコンピュータの構成及び機能については、既に周知のものであるため、ここでは説明を省略する。

ここで、対話コンピュータ２は、その機能的構成として、図２に示すように、話者Ｓから対話コンピュータ２に対して発せられる音声Ｖを音声入力機器４を介して検出し、音声情報９として取得する音声情報取得手段１０と、取得した音声情報９に基づいて音声Ｖの内容を認識するための音声認識辞書１１、認識された音声Ｖに対応し、話者Ｓと対話するための語彙を含んで予め構築された対話語彙辞書１２ａ、対話文３に対する話者Ｓによる聞返音声Ｖ’を認識するための共通聞返辞書１２ｂ及び個別聞返辞書１２ｃを有する対話辞書１２をそれぞれ記憶する辞書記憶手段１３と、取得した音声情報９及び記憶された音声認識辞書１１に基づいて音声Ｖの内容を認識する音声認識手段１４と、認識された音声Ｖに対し、話者Ｓと対話するための対話文３を対話辞書１２に含まれる対話語彙辞書１２ａを利用して生成する対話文生成手段１５と、生成された対話文３を話者Ｓに対し、スピーカー等の音声出力機器７を介して音声によって出力する対話文出力手段１６と、音声出力された対話文３の内容について話者Ｓが応え、発声する内容確認等のための聞返音声Ｖ’を検出し、聞返情報１７として取得する聞返情報取得手段１８と、取得した聞返情報１７及び聞返音声認識辞書１９に基づいて聞返音声Ｖ’の内容を認識する聞返音声認識手段２１と、認識された聞返音声Ｖ’に対する応答文２２を対話辞書１２を利用して生成する応答文生成手段２３と、生成された応答文２２を話者に対して音声出力機器７を介して出力する応答文出力手段２４とを主に具備している。また、辞書記憶手段１３には、聞返情報１７に基づいて聞返音声Ｖ’の内容を認識するための聞返音声認識辞書１９が記憶されている。

さらに、本実施形態の対話システム１は、その他の機能的構成として、応答文生成手段２３の中に、辞書記憶手段１３に記憶された共通聞返辞書１２ｂに基づいて、個々の対話文３に共通する聞返音声Ｖ’に係る応答文２２を生成する共通応答生成手段２５と、辞書記憶手段１３に記憶された個別聞返辞書１２ｃに基づいて、個々の対話文３に特有の聞返音声Ｖ’に係る応答文２２を生成する個別応答生成手段２６とを含んで構成されている。また、辞書記憶手段１３を包含し、音声情報９等の各種情報を記憶するための記憶手段２７を有している。

ここで、聞返音声Ｖ’に応答するための共通聞返辞書１２ｂ及び個別聞返辞書１２ｃについて、さらに詳細に説明する。共通聞返辞書１２ｂには、話者Ｓとの対話において共通して想定される聞返しに係る音声を認識するための語彙が含まれている。例えば、対話文３に対し、“もう一度話して下さい”、“聞こえませんでした”等の対話文３の音声出力を再び対話コンピュータ２に対して要求するような音声（再出力要求音声）、或いは“もっと大きな声で言ってください”、“もっと小さな声で言ってください”等の音声出力の音量の増減の調整を要求する音声（出力音量の調整要求音声）、“もっとゆっくり言ってください”等の対話文３の再生速度の調整を要求する音声（再生速度の調整要求音声）を含む聞返音声を認識するための語彙が含まれている。これにより、対話コンピュータ２によって出力された対話文３を話者Ｓが聞き逃したり、一部を聞き漏らした場合であっても、対話コンピュータ２に対して聞返しを行い、話者Ｓが対話内容を誤認識することを防ぐことが可能となる。

一方、個別聞返辞書１２ｃは、それぞれの対話において想定される特有の聞返に係る音声を認識するための語彙が含まれている。例えば、対話文３に対し、対話文３をそのまま繰り返す、所謂「オウム返し」の聞返音声Ｖ’を認識するもの、対話文３を同意の語彙で言換えまたは置換した言換音声、対話文に関連する単語を使用して確認した関連音声を含む聞返音声を認識するためのものである。すなわち、個別聞返辞書１２ｃは、主に対話文３の内容についての確認を対話コンピュータ２に対して行うものを認識するためのものである。

次に、本実施形態の対話システム１における音声対話の処理の一例について、図３及び図４に基づいて説明する。初めに、話者Ｓは対話システム１の音声入力機器４に対して音声Ｖを発声する。これに対し、対話システム１の対話コンピュータ２は、話者Ｓの発した音声Ｖを音声入力機器４を介して検出する（ステップＳ１）。ここで、音声Ｖが検出される場合（ステップＳ１においてＹＥＳ）、これを音声情報９として取得する（ステップＳ２）。一方、音声Ｖの検出がされない場合（ステップＳ１においてＮＯ）、音声Ｖが検出されるまでステップＳ１の処理を継続する。そして、対話システム１は、取得した音声情報９の内容を音声認識辞書１１を利用して認識する（ステップＳ３）。ここで、係る認識は周知の音声認識技術を応用することによって達せられる。なお、音声認識辞書１１には、予め話者Ｓが発すると想定される複数の語彙が登録され、取得された音声情報９に含まれる語彙と、当該音声認識辞書１１に登録された語彙とを照合することにより、音声認識をすることが可能となっている。

これにより、対話システム１は、話者Ｓの発した音声Ｖの内容を認識することができる。そして、係る音声Ｖに対応し、話者Ｓと対話システム１との間で対話を成立させるための対話文３が生成される（ステップＳ４）。ここで、対話文３を生成するために、対話辞書１２に含まれる対話語彙辞書１２ａが利用される。対話語彙辞書１２ａには、認識された音声Ｖに含まれる語彙と関連づけられた語彙が予め登録され、当該語彙を抽出し、文章化して作成することにより対話文３が生成される。係る対話文３の作成処理については、周知の音声認識技術及び文章作成技術を応用することができる。そして、電子データとして生成された対話文３が音声出力機器７（スピーカー等）を介して話者Ｓに対して音声出力される（ステップＳ５）。なお、音声認識による音声情報９及び作成した対話文３に係る電子データを記憶手段２７に記憶することができる。

その後、対話システム１は、音声出力された対話文３に対し、話者Ｓから発せられる音声Ｖを検出する（ステップＳ６）。ここで、音声Ｖが検出される場合（ステップＳ６においてＹＥＳ）、当該音声Ｖが対話文３に対する確認や要求等を含む聞返音声Ｖ’であるか否かを判定する（ステップＳ７）。すなわち、話者Ｓから発せられた音声が聞返音声Ｖ’に相当する場合（ステップＳ７においてＹＥＳ）、これを聞返情報１７として取得する（ステップＳ８）。一方、話者Ｓから発せられた音声が聞返音声Ｖ’でない場合（ステップＳ７においてＮＯ）、、換言すれば通常の音声Ｖとして認識される場合、ステップＳ２の処理に移行し、通常の音声Ｖによる音声情報９として取得され、ステップＳ２からステップＳ６に係る処理が繰り返される。すなわち、本実施形態の場合、対話文３の出力に対して必ずしも聞返音声Ｖ’が話者Ｓから発せるものではなく、通常の音声Ｖが発せられる可能性もある。そこで、聞返音声Ｖ’の判定を行うことにより、通常の音声Ｖによる対話が可能となる。なお、通常の音声Ｖか聞返音声Ｖ’かの判定は、辞書記憶手段１３に記憶された音声認識辞書１１または対話辞書１２に含まれる語彙によって行われる。このとき、それぞれの音声Ｖ（聞返音声Ｖ’）の内容について認識処理は未だ実施されていない。

ここで、聞返情報１７を取得した場合（ステップＳ８）、取得した聞返情報１７の内容を認識し、辞書記憶手段１３の対話辞書１２における共通聞返辞書１２ｂまたは個別聞返辞書１２ｃのいずれかに対応したものであるかの判定を行う（ステップＳ９）。ここで、聞返情報１７が共通聞返辞書１２ｂの内容に対応するものである場合（ステップ９においてＹＥＳ）、共通聞返辞書１２ｂを利用して聞返情報１７の内容を認識する（ステップＳ１０）。共通聞返辞書１２ｂは、前述したように、話者Ｓとのそれぞれの対話において、共通化された確認のための問い掛けや、再出力等の要求を含む語彙が予め登録されている。そして、一方、聞返情報１７が対話についての個別の内容に基づくもので有る場合（ステップＳ９においてＮＯ）、換言すれば、共通聞返辞書１２ｂによる認識がされない場合、個別聞返辞書１２ｃを利用して聞返情報１７の内容を認識する（ステップＳ１１）。なお、聞返音声Ｖ’に対する音声認識は、周知の音声認識技術を利用することができる。

その後、それぞれの辞書１２ｂ，１２ｃによって認識された聞返音声Ｖ’の内容に基づいて応答文２２を生成し（ステップＳ１２）、これを話者Ｓに対して音声出力機器７を介して音声によって出力する（ステップＳ１３）。その後、係る応答文２２に対する話者Ｓから発せられる音声Ｖを検出する（ステップＳ１４）。ここで、音声Ｖを検出する場合（ステップＳ１４においてＹＥＳ）、ステップＳ７の処理に移行し、当該音声Ｖが再び聞返音声Ｖ’であるか、或いは応答文１８との対話に係る対話文３かを判定処理し、上記の対話処理を繰り返す。一方、応答文１８に対する音声Ｖが検出されない場合（ステップＳ１４においてＮＯ）、システム終了の指示の有無を検出する（ステップＳ１５）。これにより、音声Ｖまたは聞返音声Ｖ’による対話システム１と話者Ｓとの間の対話が成立することとなる。

一方、ステップＳ６において応答文２２に対する話者Ｓからの音声Ｖの検出がない場合（ステップＳ６においてＮＯ）、ステップＳ７からステップＳ１４の処理をキャンセルし、上記と同様にシステム終了の指示の有無を検出する（ステップＳ１５）。そして、システム終了の指示が有る場合（ステップＳ１５においてＹＥＳ）、システムを終了する（ステップＳ１６）。一方、システム終了の指示がない場合（ステップＳ１５においてＮＯ）、ステップＳ１の処理に戻り、新たに話者Ｓによって音声Ｖが発せられるのを待機する。

これにより、話者Ｓと対話システム１との間で行われる対話において、話者Ｓが聞き逃したり、聞き漏らした対話文３について、聞返音声Ｖ’を発することにより、当該聞返音声Ｖ’に相当する応答文２２を出力することが可能となる。これにより、話者Ｓと対話システム１との間の対話を確実に行うことができる。すなわち、従来の対話形式の音声認識システムでは、聞返しや確認に係る音声を単純に認識するのみであり、これに対する対応を音声認識システムはとることが困難であった。これに対し、例えば、本実施形態の対話システム１を音声認識システムの一部機能として採用した場合、上述の聞返音声Ｖ’の認識及びこれに対応する応答文２２の出力に係る処理は、通常の音声認識に係る処理と区別することができる。その結果、音声認識によって最終的に出力される認識結果の認識率が向上し、誤認識の少ない安定した文章を出力することが可能となる。

以上、本発明について好適な実施形態を挙げて説明したが、本発明はこれらの実施形態に限定されるものではなく、以下に示すように、本発明の要旨を逸脱しない範囲において、種々の改良及び設計の変更が可能である。

すなわち、本実施形態の対話システム１において、共通聞返辞書１２ｂ及び個別聞返辞書１２ｃの双方を有する対話辞書１１を具備するものを示したがこれに限定されるものではなく、想定される語彙が限定されるものである場合には、これらの辞書を統合した聞返辞書を構築するものであっても構わない。さらに、必要に応じて対話語彙辞書１２ａとも統合し、一つの辞書として構築するものであっても構わない。

さらに、本実施形態の対話システム１において、対話文３の出力及び応答文２２の出力を音声出力機器７を介して音声によって出力するものを示したが、これに限定されるものではない。すなわち、対話システム１の対話コンピュータ２からのこれらの出力は、話者Ｓが視覚または聴覚等を通じて認識可能であるものでよく、音声による以外の方法、例えば、液晶ディスプレイ６に表示して出力するものであっても構わない。さらに、音声及び表示の双方で行うものであっても構わない。

１対話システム（音声対話システム）
２対話コンピュータ
３対話文
４音声入力機器
７音声出力機器
９音声情報
１０音声情報取得手段
１１音声認識辞書
１２対話辞書
１２ａ対話語彙辞書
１２ｂ共通聞返辞書
１２ｃ個別聞返辞書
１３辞書記憶手段
１４音声認識手段
１５対話文生成手段
１６対話文出力手段
１７聞返情報
１８聞返情報取得手段
２１聞返音声認識手段
２２応答文
２３応答文生成手段
２４応答文出力手段
２５共通応答生成手段
２６個別応答生成手段
Ｓ話者
Ｖ音声
Ｖ’ 聞返音声

特開２００８ー５２１７８号公報

Claims

話者の音声を検出し、音声情報として取得する音声情報取得手段と、
前記音声情報に基づいて前記音声の内容を認識するための音声認識辞書、及び認識された前記音声に対応し、前記話者と対話するための語彙を含んで予め構築された対話辞書を記憶する辞書記憶手段と、
取得した前記音声情報及び前記音声認識辞書に基づいて前記音声の内容を認識する音声認識手段と、
認識された前記音声に対し、前記話者と対話するための対話文を前記対話辞書を利用して生成する対話文生成手段と、
生成された前記対話文を前記話者に対して出力する対話文出力手段と、
出力された前記対話文を認識した前記話者が発する音声による聞返し、前記対話文の内容に関する確認、及び前記対話文に関する要求を含む聞返音声を検出し、聞返情報として取得する聞返情報取得手段と、
前記聞返情報に基づいて前記聞返音声の内容を認識するための聞返音声認識辞書を記憶する聞返辞書記憶手段と、
取得した前記聞返情報及び前記聞返音声認識辞書に基づいて前記聞返音声の内容を認識する聞返音声認識手段と、
認識された前記聞返音声に対する応答文を前記対話辞書を利用して生成する応答文生成手段と、
生成された前記応答文を前記話者に対して出力する応答文出力手段と
を具備することを特徴とする聞返対話システム。
前記対話辞書は、
前記話者との全ての対話において共通的に想定され、前記対話文の再出力要求、前記対話文の出力音量の調整、前記対話文の出力速度の調整を含む音声を前記聞返音声として認識可能な複数の語彙が予め記憶された共通聞返辞書を含んで構築され、
前記応答文作成手段は、
前記共通聞返辞書を利用し、前記対話文の再出力、前記対話文の出力音量の増減、前記対話文の出力速度の加減を含んだ前記応答文を生成する共通応答生成手段をさらに具備することを特徴とする請求項１に記載の聞返対話システム。
前記対話辞書は、
前記話者とのそれぞれ個別の対話において想定され、前記対話文を全く同一に繰り返すオウム返し音声、前記対話文を同意の語彙に置換し、前記対話文の内容の確認を行う置換確認音声、及び前記対話文に関連する単語を含み、前記対話文の内容の確認を行う関連単語音声を前記聞返音声として認識可能な複数の語彙が予め記憶された個別聞返辞書を含んで構築され、
前記応答文生成手段は、
前記個別聞返辞書を利用し、前記オウム返し音声に対する応答、前記置換確認音声に対する認否、及び前記関連単語音声に対する認否を含む前記応答分を生成する個別応答生成手段をさらに具備することを特徴とする請求項１に記載の聞返対話システム。
前記対話文出力手段及び前記応答文出力手段は、
前記対話文及び前記応答文の少なくとも一方が音声によって出力されることを特徴とする請求項１乃至請求項３のいずれか一つに記載の聞返対話システム。