JP4623278B2 - 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム - Google Patents

音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム Download PDF

Info

Publication number
JP4623278B2
JP4623278B2 JP2004371151A JP2004371151A JP4623278B2 JP 4623278 B2 JP4623278 B2 JP 4623278B2 JP 2004371151 A JP2004371151 A JP 2004371151A JP 2004371151 A JP2004371151 A JP 2004371151A JP 4623278 B2 JP4623278 B2 JP 4623278B2
Authority
JP
Japan
Prior art keywords
response
response request
user
unit
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2004371151A
Other languages
English (en)
Other versions
JP2006178175A (ja
Inventor
玲史 近藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2004371151A priority Critical patent/JP4623278B2/ja
Publication of JP2006178175A publication Critical patent/JP2006178175A/ja
Application granted granted Critical
Publication of JP4623278B2 publication Critical patent/JP4623278B2/ja
Application status is Active legal-status Critical
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ユーザからの応答を要求する応答要求文を音声で出力し、その音声に対するユーザの応答を受け付ける音声対話装置、音声対話方法、プログラムおよびその装置の構築を支援する支援装置、生成装置、支援方法、生成方法およびプログラムに関する。

従来、設計者は、使いやすい音声対話装置を設計する際、音声対話の課題を熟知した上で、適切な対話フローを作り込んでいた。このため、業務フローに対する知識と音声対話に関する知識の両方を有している設計者でなければ、使いやすい音声対話装置を設計できなかった。

ところが、音声対話装置の普及に伴い、業務フローについては熟知しているが音声対話についてはそれほど詳しくない設計者が、音声対話装置を構築する可能性が高くなっている。当然のことながら、音声対話についてそれほど詳しくない設計者が、使いやすい音声対話装置を設計することは困難である。

特許文献1(特開平10−171627号公報)および特許文献2(特開平6−161704号公報)には、設計者が音声対話装置を構築することを支援する技術が開示されている。

特許文献1には、アプリケーション開発者が対話フローを記述することによって、対話フロー制御プログラムを生成する音声対話装置用アプリケーション開発装置が開示されている。

特許文献2には、複数の音声対話機能候補をグラフィカルに表示し、その表示された複数の音声対話機能候補の中からユーザによって選択された音声対話機能に基づいて対話フロープログラムを作成する音声インターフェースビルダシステムが開示されている。

また、特許文献3(特開平3−33796号公報)には、音声対話システムにおける応答出力の言い回しを複数の候補の中からランダムに選択し、その選択された言い回しを出力する対話システムが開示されている。

また、特許文献4(特開平10−20884号公報)および非特許文献1(人工知能学会研究会資料 SIG-SLUD-A303-11 (3/5))には、ユーザの熟練度または推定される利用目的に応じて、対話フローおよび音声ガイダンスを自動的に変更する音声対話システムが開示されている。これらの音声対話システムでは、ユーザの熟練度または推定される利用目的ごとに応答内容が予め決まっている。

また、特許文献5(特開2003−91299号公報)には、音声認識ができなかった回数に応じて、異なる表現の応答を出力する音声認識装置が記載されている。この音声認識装置では、音声認識ができなかった回数ごとに応答内容が予め決まっている。
特開平10−171627号公報 特開平6−161704号公報 特開平3−33796号公報 特開平10−20884号公報 特開2003−91299号公報 人工知能学会研究会資料 SIG-SLUD-A303-11 (3/5)

特許文献1および特許文献2に記載の対話フロープログラム生成装置は、設計者が、対話フローに関して必要な経験およびノウハウを有していないと、ユーザが使いやすい対話フローを作成できない。

なお、ユーザが使いやすい対話フローを作成するのに必要な経験およびノウハウは、例えば、利用者が聞き間違えやすい音声の組などの音声対話特有の知識、および、録音再生利用時の音声収録およびテキスト音声合成利用時のパラメータの適切な設定である。

また、特許文献3に記載の対話システムでは、応答出力がランダムに変更する。このため、この対話システムは、応答出力の内容によって、ユーザにとって使いやすくなったり、使いにくくなったりする。

特許文献4、特許文献5および非特許文献1に記載の音声対話システムでは、ユーザの熟練度、推定される利用目的、または音声認識ができなかった回数ごとに、応答内容が固定されている。換言すると、設計者が、ユーザの熟練度、推定される利用目的、または音声認識ができなかった回数ごとに、応答内容を設定する。

このため、音声対話についてそれほど詳しくない設計者がその応答内容を設定すると、音声対話装置がユーザにとって使いにくくなってしまう可能性がある。

本発明の目的は、音声対話に関する特別な知識を持たない設計者でも容易に設計できる、ユーザが使いやすい音声対話装置を提供することである。

上記の目的を達成するために、本発明の音声対話装置は、ユーザからの応答を要求する複数の応答要求文を格納する格納部と、前記格納部に格納されている複数の応答要求文の中から1つの応答要求文を選択する選択部と、前記選択部が選択した応答要求文を音声で出力する音声出力部と、前記音声出力部による応答要求文の音声出力の後に入力された前記ユーザの入力を受け付けてその内容に応じた出力を発生する入力受付部と、を含む音声対話装置において、前記格納部は、前記複数の応答要求文とともに各応答要求文の優先度とを格納し、前記音声出力部は、前記選択部により選択された応答要求文を音声で出力し、前記音声出力部が出力した音声に対するユーザの応答の有無を前記入力受付部の出力に基づいて判断する判断部を含み、前記選択部は、前記格納部が格納する複数の応答要求文の中から優先度の高い応答要求文を選択し、また、前記格納部に格納される優先度を前記判断部の判断結果に基づいて更新する。

また、本発明の音声対話方法は、ユーザからの応答を要求する複数の応答要求文と各応答要求文の優先度とを格納する格納部を含む音声対話装置が行う音声対話方法であって、前記格納部が格納する複数の応答要求文の中から優先度の高い応答要求文を選択する選択ステップと、前記選択された応答要求文を音声で出力する音声出力ステップと、前記音声に対応するユーザの応答の有無を判断する判断ステップと、前記格納部が格納する優先度を前記判断の結果に基づいて更新する更新ステップとを含む。

また、本発明のプログラムは、ユーザからの応答を要求する複数の応答要求文と各応答要求文の優先度とを格納する格納部と接続するコンピュータに音声対話処理を実行させるプログラムであって、前記格納部が格納する複数の応答要求文から優先度の高い応答要求文を選択する選択処理と、前記選択された応答要求文を音声で出力する音声出力処理と、前記音声に対するユーザの応答の有無を判断する判断処理と、前記格納部が格納する優先度を前記判断の結果に基づいて更新する更新処理と、を含む音声対話処理を前記コンピュータに実行させる。

上記の発明によれば、応答要求文の優先度がユーザの応答に基づいて更新される。このため、ユーザの応答に基づいて、ユーザが理解しやすい応答要求文が選択されるようにすることが可能となる。したがって、音声対話に関する特別な知識を持たない設計者でも容易に設計できる、ユーザが使いやすい音声対話装置を提供できる。

なお、前記ユーザの応答が無いと、前記複数の応答要求文の中から、すでに選択済みの応答要求文の次に優先度の高い応答要求文が新たに選択され、その後、優先度が更新されることが望ましい。

上記の発明によれば、ユーザの応答が無いと、音声で出力される応答要求文が変更される。

また、ユーザの応答が予め定められた応答と異なる場合または予め定められた時間内に前記ユーザの応答がない場合に、ユーザの応答が無いと判断することが望ましい。

また、前記格納部が複数あり、上記音声対話装置がユーザのプロファイルを格納するプロファイル格納部をさらに含み、プロファイル格納部が格納するプロファイルに基づいて、複数の格納部の中から1つの格納部が選択され、その選択された格納部が格納する複数の応答要求文から優先度の高い応答要求文が選択されることが望ましい。

上記の発明によれば、個々のユーザに合わせて応答要求文を設定することが可能になる。

また、前記プロファイル格納部は、前記ユーザの応答を前記ユーザのプロファイルとして格納することが望ましい。

上記の発明によれば、ユーザのプロファイルを実際のユーザの特徴に合わせて作成できる。

上記音声対話装置が、複数の対話セッションを順番に行う対話フローを格納する対話フロー格納部をさらに含み、前記格納部は、前記対話セッションごとに、前記複数の応答要求文と各応答要求文の優先度とを格納し、前記対話セッションごとにその対話セッションの複数の応答要求文から優先度の高い応答要求文が選択され、前記プロファイル格納部は、前記対話セッションごとに前記ユーザの応答を前記ユーザのプロファイルとして格納し、前記複数の対話セッションのいずれかが終了すると、その時点で前記プロファイル格納部が格納しているユーザのプロファイルに基づいて、前記複数の格納部の中から1つの格納部が選択されることが望ましい。

上記の発明によれば、対話フローの途中で、個々のユーザに合わせて応答要求文を設定することが可能になる。

また、前記ユーザの応答結果を外部に出力することが望ましい。

上記の発明によれば、外部でユーザの応答結果を解析することが容易にできる。

また、前記ユーザの応答結果に基づいてその統計情報が生成され、その統計情報を外部に出力することが望ましい。

上記の発明によれば、外部でのユーザの応答結果の解析が容易になる。

本発明の支援装置は、上記音声対話装置の格納部に格納される複数の応答要求文の生成を支援する支援装置であって、特定の表現に対応する他の表現を格納する表現格納部と、前記応答要求文を含む初期対話フローを受け付ける受付部と、前記受付部が受け付けた初期対話フローの応答要求文が前記特定の表現を有していると、その特定の表現を前記他の表現で示した応答要求文候補を生成する生成部とを含む。

また、本発明の支援方法は、特定の表現に対する他の表現を格納する表現格納部を含み、上記音声対話装置の格納部に格納される複数の応答要求文の生成を支援する支援装置が行う支援方法であって、前記応答要求文を含む初期対話フローを受け付ける受付ステップと、前記初期対話フローの応答要求文が前記特定の表現を有していると、その特定の表現を前記他の表現で示した応答要求文候補を生成する候補生成ステップとを含む。

また、本発明のプログラムは、特定の表現に対する他の表現を格納する表現格納部と接続し、上記音声対話装置の格納部に格納される複数の応答要求文の生成を支援する応答要求文生成支援処理をコンピュータに実行させるプログラムであって、前記応答要求文を含む初期対話フローを受け付ける受付処理と、前記初期対話フローの応答要求文が前記特定の表現を有していると、その特定の表現を前記他の表現で示した応答要求文候補を生成する候補生成処理と、を含む応答要求文生成支援処理を前記コンピュータに実行させる。

上記の発明によれば、音声対話に関する特別な知識を持たない設計者でも、応答要求文候補を設定することが可能になる。

本発明の生成装置は、上記支援装置と、前記生成部が生成した応答要求文候補に対するユーザの承認を受け付ける承認受付部と、前記承認受付部が前記ユーザの承認を受け付けると、その承認を受け付けた応答要求文候補を前記格納部に格納する格納制御部と、を含む。

本発明の生成方法は、上記支援方法が含む各ステップと、前記生成ステップで生成された応答要求文候補に対するユーザの承認を受け付ける承認受付ステップと、前記ユーザの承認が受け付けられると、その承認を受け付けた応答要求文候補を前記格納部に格納する格納制御ステップとを含む。

本発明のプログラムは、前記プログラムがコンピュータに実行させる応答要求文生成支援処理と、前記生成した応答要求文候補に対するユーザの承認を受け付ける承認受付処理と、前記ユーザの承認が受け付けられると、その承認を受け付けた応答要求文候補を前記格納部に格納する格納制御処理と、を含む応答要求文生成処理を前記コンピュータに実行させる。

上記の発明によれば、音声対話に関する特別な知識を持たない設計者でも、応答要求文候補を設定できる。

本発明によれば、音声対話に関する特別な知識を持たない設計者でも容易に設計できる音声対話装置によって、ユーザが使いやすい音声対話を実現することが可能になる。

次に、本発明の実施の形態について図面を参照して詳細に説明する。

図1は、本発明の第一の実施形態の音声対話装置を示したブロック図である。

図1において、音声対話装置は、対話フローデータベース11と、応答文候補データベース12と、応答文決定部13と、音声対話部14と、スピーカ15と、マイクロフォン16と、リジェクト検出部17と、対話履歴記録部18とを含む。

対話フローデータベース11は、対話セッションを行う対話フローを格納する。なお、1つの対話セッションは、音声対話装置からの出力と、その出力に対するユーザの応答との組で構成される。

図2は、対話フローデータベース11が格納する対話フローの一例を示した説明図である。図2では、対話セッションとして、出力#2と入力#1の組を示している。

応答文候補データベース12は、格納部の一例であり、ユーザからの応答を要求する複数の応答要求文と各応答要求文の優先度とを格納する。

本実施例では、応答文候補データベース12は、対話フローデータベース11が格納する対話セッション単位で、複数の応答要求文(候補)と各応答要求文の優先度とを格納する。

図3は、応答文候補データベース12の一例を示した説明図である。図3は、図2に示した出力#2の対話セッションでの、複数の応答要求文(候補1〜候補3)と、各応答要求文の優先度(候補1:優先度100、候補2:優先度90、候補3:優先度50)とを示している。なお、各応答要求文(候補)は、予め録音した音声に基づいて生成された音声データとして格納される。

応答文決定部13は、選択部の一例であり、応答文候補データベース12に含まれる優先度を参照して、対話セッションごとに、その対話セッションの複数の応答要求文から優先度の高い応答要求文を選択する。また、応答文決定部13は、応答文候補データベース12が格納する優先度をリジェクト検出部17の検出結果に基づいて更新する。

音声対話部14は、対話フローデータベース11が格納する対話フローに従い、応答文決定部13が選択した応答要求文をスピーカ15から音声で出力する。また、音声対話部14は、マイクロフォン16からユーザの音声を受け付け、その受け付けた音声に応じた出力を発生する。換言すると、音声対話部14は、スピーカ15とマイクロフォン16とを用いて、ユーザと音声を用いた対話を行う。

リジェクト検出部17は、スピーカ15が出力した音声に対するユーザの応答の有無を音声対話部14の出力に基づいて判断する。なお、音声対話部14の出力は、ユーザの応答の内容を示す。

リジェクト検出部17の判断の結果は、直接的または間接的に応答文決定部13に通知される。

応答文決定部13は、リジェクト検出部17の判断結果を受け付けると、その判断結果に基づいて、応答文候補データベース12が格納している優先度を更新する。

応答文決定部13は、例えば、リジェクト検出部17の判断結果がユーザの応答無しを示す場合、そのとき選択されている応答要求文の優先度を下げたり、または、他の応答要求文の優先度を上げたりする。

また、応答文決定部13は、例えば、リジェクト検出部17の判断結果がユーザの応答有りを示す場合、そのとき選択されている応答要求文の優先度を上げたり、または、他の応答要求文の優先度を下げたりしてもよい。

また、応答文決定部13は、例えば、リジェクト検出部17がユーザの応答が無いと判断すると、既に選択した応答要求文を含む1つの対話セッションに対応する複数の応答要求文の中から、その選択済みの応答要求文の次に優先度の高い応答要求文を新たに選択し、その後、その対話セッションに対応する複数の応答要求文の優先度を更新する。

本実施例では、リジェクト検出部17は、ユーザの応答の内容が対話フローで予め定められた内容と異なる場合、または、予め定められた時間内にユーザの応答が無い場合、スピーカ15が出力した音声に対するユーザの応答がない(以下「リジェクト応答」)と判断する。換言すると、リジェクト検出部17は、リジェクト応答を検出する。

対話履歴記録部18は、音声対話部14が出力する対話の履歴を記録する。対話履歴記録部18は、必要に応じて、履歴そのもの、あるいは対話履歴の統計情報を外部に出力する。

次に、第一の実施形態の動作を説明する。

図4は、第一の実施形態の動作を説明するための説明図である。以下、図4を参照して第一の実施形態の動作を説明する。

なお、音声対話部14は、対話フローデータベース11に格納されている対話フローにしたがって、対話開始時から対話終了時まで、ユーザと音声で対話する。

以下では、対話フローデータベース11は、図2に示した対話フローを格納しているものとする。

また、応答文候補データベース12は、図2に示した出力#1に対応する文として「いらっしゃいませ」の音声データのみを格納し、図2に示した出力#2に対応する文として図3に示した3種類の応答要求文を格納し、図2に示した出力#3に対応する文として「ご利用ありがとうございました」の音声データのみを格納しているものとする。なお、応答文候補データベース12は、さらに、対話セッションの出力#2に対応する3種類の応答要求文の優先度も格納しているものとする。

音声対話部14は、対話フローデータベース11に格納されている対話フローを開始すると、ステップS1を実行する。

ステップS1では、音声対話部14の対話処理が、対話フロー中の出力#1 (あいさつ) に到達する。音声対話部14は、対話処理が出力#1に到達したことを、応答文決定部13に通知する。

応答文決定部13は、その通知を受け付けると、応答文候補データベース12から出力#1に唯一対応する「いらっしゃいませ」の音声データを選択し、その選択した音声データを音声対話部14に通知する。

音声対話部14は、その通知された音声データを受け付けると、スピーカ15から「いらっしゃいませ」を音声で出力する。音声対話部14は、「いらっしゃいませ」を音声で出力すると、ステップS2を実行する。

ステップS2では、音声対話部14の対話処理が、対話フロー中の出力#2 (機能番号問い合わせ)に到達する。音声対話部14は、対話処理が出力#2に到達したことを、応答文決定部13に通知する。

応答文決定部13は、その通知を受け付けると、応答文候補データベース12が格納している出力#2に対応する複数の応答要求文の中から、最も優先度が高い応答要求文である候補1を、この時点での応答要求文として選択する。

応答文決定部13は、その選択した候補1「Aは1を、Bは2を、Cは3と発声してください」の音声データを音声対話部14に通知する。

音声対話部14は、その通知された音声データを受け付けると、スピーカ15から「Aは1を、Bは2を、Cは3と発声してください」を音声で出力して、ユーザに番号入力を促す。

スピーカ15から「Aは1を、Bは2を、Cは3と発声してください」が音声で出力されると、ユーザはステップS5を実行し、また、音声対話部14は、ステップS6を実行する。

ステップS5では、ユーザは、「Aは1を、Bは2を、Cは3と発声してください」の音声を確認し、その応答を行う。

しかしながら、以下では、ユーザが「Aは1を、Bは2を、Cは3と発声してください」の音声を理解できず、その応答要求文に対応した予め定められた応答(1、2または3の応答)をしなかったものとする。例えば、ユーザは何も言葉を発しなかったり、1、2または3と異なる言葉を発したりしたものとする。

ステップS6では、音声対話部14の対話処理が、対話フロー中の入力#1 (番号入力) に到達する。音声対話部14は、入力#1にて、出力#2に対するユーザの応答をマイクロフォン16から受け付ける。換言すると、入力#1にて、ユーザは、出力#2に対するユーザの応答を音声対話部14に入力する。

続いて、音声対話部14の対話処理が、対話フロー中の条件判断#1 (入力#1の入力内容) に到達する。

音声対話部14は、入力#1にてマイクロフォン16から入力されるユーザの言葉が、その応答要求文に対応して予め定められた応答(1、2または3の応答)であるか否か確認しながら、そのユーザの言葉に応じた出力をリジェクト検出部17に出力する。リジェクト検出部17は、音声対話部14の出力を受け付けると、ステップS7を実行する。

ステップS7では、リジェクト検出部17は、音声対話部14の出力に基づいてリジェクト応答の有無を検出する。なお、ステップS5にて、ユーザが応答要求文に対応して予め定められた応答をしなかったため、リジェクト検出部17は、音声対話部14の出力に基づいてリジェクト応答を検出する。

リジェクト検出部17は、リジェクト応答を音声対話部14および応答文決定部13に通知する。音声対話部14は、リジェクト応答を受け付けると、ステップS8を実行する。

ステップS8では、出力#2の再音声出力が必要な場合、音声対話部14の対話処理が、対話フロー中の出力#2 (機能番号問い合わせ) に戻る。音声対話部14は、応答文決定部13に対して、出力#2に対応する応答要求文を再度要求する。この再要求は、リジェクト検出部17がリジェクト応答を検出した際に、音声対話部14から応答文決定部13に通知されるため、この再要求は、リジェクト応答を兼ねる。

なお、出力#2の再音声出力が不要な場合、音声対話部14は、応答文決定部13に対して、出力#2に対応する応答要求文の再要求を行わない。

応答文決定部13は、出力#2に対応する応答要求文を再度要求されると、出力#2に対応する応答要求文の中から、すでに選択済みの応答要求文の次に優先度の高い応答要求文である候補2を新たに選択する。

応答文決定部13は、その新たに選択した候補2「処理Aをご希望の場合は、マイクロフォンに向かって、イチと発声して下さい。処理Bの場合は、ニーと、処理Cの場合は、サンを発声して下さい」の音声データを音声対話部14に通知する。

続いて、応答文決定部13は、音声対話部14からの再要求に基づいて、出力#2に対応する応答要求文の優先度を更新する。応答文決定部13は、例えば、先にリジェクトされた候補1の優先度の値を100から10を減じて90とし、リジェクトされなかった候補2と候補3の優先度の値を90、55からそれぞれ5を加えた95、55とする。

なお、応答文決定部13は、リジェクト検出部17からリジェクト応答を受け付けてから所定時間経過しても音声対話部14から再要求が通知されない場合、リジェクト検出部17からのリジェクト応答に基づいて、出力#2に対応する応答要求文の優先度を更新する。

音声対話部14は、候補2の音声データを受け付けると、ステップS10を実行する。

ステップS10では、音声対話部14は、スピーカ15から「処理Aをご希望の場合は、マイクロフォンに向かって、イチと発声して下さい。処理Bの場合は、ニーと、処理Cの場合は、サンを発声して下さい」を音声で出力して、再度ユーザに番号入力を促す。

音声対話部14は、候補2の音声を出力すると、ステップS11を実行する。

ステップS11では、音声対話部14は、マイクロフォン16から入力されるユーザの言葉が、その応答要求文に対応して予め定められた応答であるか否か確認しながら(条件判断#1)、そのユーザの言葉に応じた出力をリジェクト検出部17に出力する。

ステップS12では、ユーザは、「処理Aをご希望の場合は、マイクロフォンに向かって、イチと発声して下さい。処理Bの場合は、ニーと、処理Cの場合は、サンを発声して下さい」の音声を確認し、その応答を行う。以下では、ユーザがその音声を理解でき、「2」すなわち応答要求文に対応して予め定められた応答を発音したものとする。

ユーザが応答要求文に対応して予め定められた応答を発音すると、音声対話部14は、ステップS13を実行する。

ステップS13では、音声対話部14は、ユーザの音声「2」(応答要求文に対応して予め定められた応答)を認識し、リジェクト検出部17への出力を停止する。音声対話部14は、応答要求文に対応して予め定められた応答を認識すると、ステップS14を実行する。

ステップS14では、音声対話部14は処理Bを実行する。音声対話部14は、ステップS14が終了すると、ステップS15を実行する。

ステップS15では、音声対話部14の対話処理が、対話フロー中の出力#3(あいさつ)に到達し、音声対話部14は、対話処理が出力#3に到達したことを、応答文決定部13に通知する。

応答文決定部13は、その通知を受け付けると、応答文候補データベース12から出力#3に唯一対応する「ご利用ありがとうございました」の音声データを選択し、その選択した音声データを音声対話部14に通知する。

音声対話部14は、その音声データを受け付けると、スピーカ15から「ご利用ありがとうございました」を音声で出力する。音声対話部14は、「ご利用ありがとうございました」を音声で出力すると、対話処理を終了する。

また、音声対話部14は、対話セッションの出力番号(#)と、そのときに選択された応答要求文(候補番号)と、その応答要求文に対するユーザの応答とを含む対話履歴を、対話履歴記憶部18に出力する。

対話履歴記憶部18は、その対話履歴を記録する。対話履歴記憶部18は、必要に応じて、履歴そのもの、あるいは対話履歴の統計情報を外部に出力する。

図5は、履歴そのものを外部に出力する対話履歴記録部18の一例を示すブロック図である。なお、図5において、図1と同一のものには同一符号を付してある。

図5において、対話履歴記録部18は、入力部18aと、履歴メモリ部18bと、履歴出力部18cとを含む。

入力部18aは、音声対話部14から対話履歴を受け付ける。履歴メモリ部18bは、入力部18aが受け付けた対話履歴を格納する。履歴出力部18cは、履歴メモリ部18bが格納している対話履歴を外部に出力する。

図6は、対話履歴の統計情報を外部に出力する対話履歴記録部18の一例を示すブロック図である。なお、図6において、図5と同一のものには同一符号を付してある。

図6において、対話履歴記録部18は、入力部18aと、履歴メモリ部18bと、統計処理部18dと、統計情報出力部18eとを含む。

統計処理部18dは、履歴メモリ部18bが格納している対話履歴に基づいて統計情報生成する。統計情報出力部18eは、統計処理部18dが生成した統計情報を外部に出力する。

図7は、対話履歴の統計情報を外部に出力する対話履歴記録部18の他の例を示すブロック図である。なお、図7において、図5と同一のものには同一符号を付してある。

図7において、対話履歴記録部18は、入力部18aと、統計処理部18fと、統計メモリ18gと、統計情報出力部18hとを含む。

統計処理部18fは、入力部18aが受け付けた履歴情報に基づいて統計情報を生成すし、その生成した統計情報を統計メモリ部18gに格納する。具体的には、統計処理部18fは、入力部18aが履歴情報を受け付けると、その履歴情報を統計メモリ部18gの該当箇所に格納されている統計情報に加算し、その加算後の統計情報を統計メモリ部18gの該当箇所に格納する。

統計メモリ部18gは、統計処理部18fが生成した統計情報を格納する。統計情報出力部18hは、統計メモリ部18gが格納している統計情報を外部に出力する。

図8は、統計情報の一例を示した説明図である。なお、図8に示した統計情報は、条件判断#1における応答の統計情報の例である。

なお、図8に示した統計情報は、個別候補に対するユーザの応答件数を加算した統計情報を生成した例であるが、統計情報は、これに限らず、例えば、全応答件数に対する個別候補のユーザの応答件数の割合としてもよい。

図4に戻って、次の対話が開始される際、出力#2 (機能番号問い合わせ) に対応する候補1、2、3の優先度は、それぞれ90、95、55になっている。そのため、対話処理が出力#2に最初に達したとき、応答文決定部13は優先度が最大である候補2を選択する。

その結果、音声対話部14は、候補2の応答文を用いてスピーカ15「処理Aをご希望の場合は、マイクロフォンに向かって、イチと発声して下さい。処理Bの場合は、ニーと、処理Cの場合は、サンを発声して下さい」を出力する。

第一の実施形態では、リジェクトされた回数の多い応答要求文は、次第に使われなくなり、リジェクトされた回数の少ない応答要求文が、最初に使われるようになる。

次に、第一の実施形態の効果を説明する。

第一の実施形態によれば、応答要求文の優先度がユーザの応答に基づいて更新される。このため、音声対話が何度も繰り返されると、ユーザの応答に基づいて、ユーザが理解しやすい応答要求文が選択されるようになる。その結果、設計者が対話フロー作成時に音声対話についての知識にしたがって応答要求文を1つに決めなくても、ユーザにとって使いやすい対話が実現される。

したがって、ユーザにとって使いやすい音声対話装置が、音声対話に関する特別な知識を持たない設計者でも容易に設計されることが可能になる。

また、第一の実施形態では、応答文決定部13は、ユーザの応答が無いと、複数の応答要求文の中から、すでに選択済みの応答要求文の次に優先度の高い応答要求文を新たに選択し、その後、優先度を更新する。このため、ユーザの応答が無い場合、音声で出力される応答要求文が変更される。

したがって、同一対話セッションにおいて、最初に出力される応答要求文が聞き間違えやすかった場合や、録音状態が悪くて聞き取りにくい場合にも、再応答によりユーザが聞き取りやすくなる。このため、ユーザが理解しやすい応答要求文が出力される確率が高くなり、ユーザが利用しやすくなる。

また、第一の実施形態では、1つの対話セッションに複数の応答要求文を収録しておくことにより、収録の際に雑音が重畳したなどのリスクを抑えることができ、結果的に対話フロー構築に関する時間および労力を低減できる。

また、第一の実施形態では、対話履歴記録部18が、対話の履歴を記録し、その履歴またはその履歴の統計を外部に出力する。このため、応答文候補データベース12および対話フローデータベース11を作成する際に、対話履歴記録部18の出力を参考にすることが可能になる。

また、対話履歴記録部18の出力を用いて、対話が作成者(設計者)の意図したものになっているか否かの検証を行うことが可能になる。

また、対話履歴記録部18の出力に基づいて、外部装置が、警告出力を発することが可能になる。

外部装置は、例えば、特定の対話セッションにて応答がリジェクトになる割合が予め設定されたしきい値を超えている場合に、警告出力を発する。この場合、以下のような効果を奏する。

ある程度優先度の学習が進めば、リジェクトの少ない応答要求文が最初に出るようになるが、音声対話装置の管理者が、その前に、警告出力に応じて手動で優先度を書き換えることが可能になる。このため、より速やかに音声対話装置がユーザにとって使いやすくなる。

また、外部装置は、例えば、特定の対話セッションについて登録されている全ての応答要求文のリジェクト率が予め設定されたしきい値を超えた場合に、警告出力を発する。この場合、以下のような効果を奏する。

音声対話装置の管理者が、優先度の学習が進んでもこれ以上改善されないことを、警告出力に応じて知ることが可能になり、管理者は、応答要求文を見直すことが可能になる。

また、第一の実施形態では、録音再生利用時の音声収録や、テキスト音声合成利用時のパラメータを最適に設定しなくても、利用者が聞きやすい音声対話装置を作成できる。

なお、第一の実施形態では、ユーザが音声対話部14と音声をやりとりするための手段として、マイクロフォン16とスピーカ15を用いたが、その手段は、これらに限定するものではなく、ヘッドセットや、電話回線を用いても良い。

第一の実施形態では、音声対話部14は、マイクロフォン16に入力された音声を音声認識することによってユーザの応答を認識したが、ユーザの応答認識方法は、これに限定するものではなく、電話機のプッシュボタンによるDTMFトーン操作や、物理的なボタンによる操作でも構わない。また、それらの複数を併用することもできる。

第一の実施形態では、応答文候補データベース12に格納される複数の応答要求文として、それぞれ別の内容を用いたが、複数の応答要求文は、これに限らず、同一内容を互いに異なる声で出力させる音声データでもよいし、同一内容を互いに異なる出力速度で出力させる音声データでもよい。これによって、音声を収録する際に特別の注意を払わなくても、ユーザが聞き取りやすい発声が選ばれるようになる。

第一の実施形態では、応答文候補データベース12に格納される複数の応答要求文は、予め音声を録音したものを使用した。それに対して、応答文候補データベース12にテキストと音声合成用パラメータを格納し、音声対話部14がテキスト音声合成機能を持ち、応答文決定部13によって選択された応答要求文のテキストを応答文決定部13が選択したパラメータで読み上げてもよい。また、1つの対話セッションに対応する複数の応答要求文として、録音した音声と音声合成用テキストを混在させてもよい。

第一の実施形態では、応答文候補データベース12と対話フローデータベース11を別々のデータベースとしているが、一つのデータベースに一緒に格納しても構わない。

第一の実施形態では、応答文候補データベース12と対話フローデータベース11を一組としているが、図9に示すように、応答文候補データベース12と対話フローデータベース11の組を複数用意して、それらをユーザの属性を表す値であるユーザプロファイルによって切替えてもよい。

この場合、ユーザプロファイルは、例えば、ユーザの年齢を、15歳未満、15歳以上30歳未満、30歳以上の3値に分類したものを用いる。なお、ユーザプロファイルは、これに限らない。この場合、ユーザプロファイルは、会員制の音声対話装置では、セッション開始時にユーザ認証を行うことで、会員データベースから取得できる。

図9は、第二の実施形態を示したブロック図である。なお、図9において、図1に示したものと同一のものには同一符号を付してある。

図9において、第二の実施形態の音声対話装置は、応答文候補データベース12と対話フローデータベース11の組を複数有し、応答文決定部13と、音声対話部14と、スピーカ15と、マイクロフォン16と、リジェクト検出部17と、対話履歴記録部18と、プロファイル格納部19と、データベース切替条件格納部20と、データベース切替部21と、スイッチ22と、スイッチ23とを含む。

プロファイル格納部19は、音声対話部14からユーザの応答結果を受け取り、そのユーザの応答結果を、ユーザのプロファイルとして格納する。

データベース切替条件格納部20は、データベースの切替条件を格納する。データベース切替条件格納部20は、例えば、ユーザの応答内容と切替え先データベースとを関連づけて格納する。

データベース切替部21は、格納選択部の一例であり、プロファイル格納部19が格納するプロファイル、さらに言えば、プロファイル格納部19が格納するプロファイルと、データベース切替条件格納部20に格納されている情報とに基づいて、複数の組の中から1つの組を選択する。

また、データベース切替部21は、その選択結果を対話履歴記録部18に出力する。対話履歴記録部18は、その選択結果を受け付けると、プロファイル別に統計情報を生成する。

スイッチ22は、応答文決定部13と接続する応答文候補データベース12を切り替える。

スイッチ23は、音声対話部14と接続する対話フローデータベース11を切り替える。

次に、第二の実施形態の動作を説明する。なお、ここでは、第一の実施形態と異なる動作を中心に説明する。

ユーザを識別するための応答要求文を予め対話フローに入れておき、それに対するユーザの応答内容を、音声対話部14は、プロファイル格納部19に格納する。

データベース切替部21は、プロファイル格納部19が格納したユーザの応答内容と関連づけてデータベース切替条件格納部20に格納されている切替え先データベースが応答文決定部13および音声対話部14と接続するように、スイッチ22およびスイッチ23を切り替える。

なお、第二の実施形態は以下のように変形されてもよい。

音声対話部14は、各対話セッションに対するユーザの応答を、プロファイル格納部19に格納する。

データベース切替部21は、プロファイル格納部19に格納された応答内容が、予め定められた応答パタンと一致したら、予め定められた切替え先データベースが応答文決定部13および音声対話部14と接続するように、スイッチ22およびスイッチ23を切り替える。なお、予め定められた応答パタンは、予め定められた切替え先データベースと関連づけられたデータベース切替条件格納部20に格納されているものとする。

この場合、ユーザを識別するための応答要求文を予め対話フローに入れておく必要がなくなる。

また、第二の実施形態は、以下のように変形されてもよい。

第二の実施形態において、対話フローの途中のある時点までのリジェクトの記録を、そのままユーザプロファイルとみなすことができる。

この場合、該当時点以降の対話フローでは、そのユーザプロファイルによって、応答文候補データベース12と対話フローデータベース11の組を切り替えて用いることができる。

以下、対話フローの途中までのユーザの応答に基づいて、応答文候補データベース12と対話フローデータベース11の組を切り替える例を説明する。

以下では、応答文候補データベース12と対話フローデータベース11の組が4つ(組1〜組4)あり、組1でのユーザの応答に基づいて、応答文決定部13および音声対話部14と接続する組を他の組に切り替える例を説明する。なお、応答文候補データベース12と対話フローデータベース11の組は、4つに限らず、複数であればよい。

組1の対話フローデータベース11は、図10に示す対話フローを格納する。図10に示す対話フローは、複数の対話セッションを順番に行う対話フローである。具体的には、図10に示す対話フローは、音声対話装置からの出力#1−2とその出力#1−2に対するユーザの応答を入力する入力#1−1との組(対話セッション)と、音声対話装置からの出力#1−4とその出力#1−4に対するユーザの応答を入力する入力#1−2との組(対話セッション)とを含む。

組1の応答文候補データベース12は、図10の出力#1−2および出力#1−4に対応する複数の応答要求文として、図3に示した3つの文を格納する。

組2の対話フローデータベース11は、図11に示す対話フローを格納する。組2の応答文候補データベース12は、図11の出力#2−1に対応する複数の文として、図12に示した3つの文を格納する。

組3の対話フローデータベース11は、図13に示す対話フローを格納する。組3の応答文候補データベース12は、図13の出力#3−1に対応する複数の文として、図14に示した3つの文を格納する。

組4の対話フローデータベース11は、図15に示す対話フローを格納する。組4の応答文候補データベース12は、図15の出力#4−1に対応する複数の文として、図16に示した3つの文を格納する。

図17は、データベース切替条件格納部20の一例を示した説明図である。

次に、動作を説明する。

組1の対話フロー(図10参照)が実行されていくと、音声対話部14は、組1の入力#1−1の入力内容をプロファイル格納部19に格納する。

その後、組1の対話フローが進むと、音声対話部14は、組1の入力#1−2の入力内容をプロファイル格納部19に格納する。

その後、組1の対話フローが進むと、音声対話部14は、データベース切替部21へ切替指示を出力する。

データベース切替部21は、その切替指示を受け付けると、プロファイル格納部19に格納された入力#1−1および入力#1−2の入力内容を読み取り、その読み取った入力内容に対応する切替先の組をデータベース切替条件格納部20から読み取る。

データベース切替部21は、その読み取った切替先の組が応答文決定部13および音声対話部14と接続するように、スイッチ22およびスイッチ23を切り替える。

音声対話部14は、その切り替わった組の対話フローデータベースが格納する対話フローを先頭から実行する。

第二の実施形態では、応答文候補データベース12が複数あり、データベース切替部21は、プロファイル格納部19が格納するプロファイルに基づいて、複数の応答文候補データベース12の中から1つの応答文候補データベース12を選択し、応答文決定部13は、その選択された応答文候補データベース12が格納する複数の応答要求文から優先度の高い応答要求文を選択する。

この場合、個々のユーザに合わせて応答要求文を設定することが可能になる。

また、第二の実施形態では、プロファイル格納部19は、ユーザの応答をユーザのプロファイルとして格納する。この場合、ユーザのプロファイルを実際のユーザの特徴に合わせて作成できる。

また、第二の実施形態では、複数の対話セッションを順番に行う対話フローを格納する対話フローデータベース11を含み、応答文候補データベース12は、対話セッションごとに、複数の応答要求文と各応答要求文の優先度とを格納し、応答文決定部13は、対話セッションごとにその対話セッションの複数の応答要求文から優先度の高い応答要求文を選択し、プロファイル格納部19は、対話セッションごとにユーザの応答を前記ユーザのプロファイルとして格納し、データベース切替部21は、複数の対話セッションのいずれかが終了すると、その時点でプロファイル格納部19が格納しているユーザのプロファイルに基づいて、複数の応答文候補データベース12の中から1つの応答文候補データベース12を選択する。この場合、対話フローの途中で、個々のユーザに合わせて応答要求文を設定することが可能になる。

なお、各データベースを除いた音声対話装置は、メモリに記録されているプログラムを読み取り、その読み取ったプログラムを実行するコンピュータによって実現されてもよい。なお、このプログラムは、音声対話装置が実行する音声対話方法をコンピュータに実行させる。

次に、応答文候補データベース12を生成する生成装置について説明する。

図18は、本発明の一実施例の生成装置を示したブロック図である。本生成装置は、図1および図9に示した対話フローデータベース11および応答文候補データベース12を作成する。なお、図18において、図1および図9に示したものと同一のものには同一符号を付してある。

図18において、本生成装置は、音声対話知識データベース24と、受付部25と、コンピュータ26と、承認受付部27とを含む。

音声対話知識データベース24は、表現格納部の一例であり、特定の表現に対応する他の表現を格納する。

図19は、音声対話知識データベース24の一例を示した説明図である。図19において、音声対話知識データベース24は、例えば、特定の表現「1」に対する他の表現「一番」および「数字の1」を格納する。なお、音声対話知識データベース24は、特定の表現の品詞も格納する。

図18に戻って、受付部25は、応答要求文を含む初期対話フローを受け付ける。

コンピュータ26は、予め設定された生成プログラムを実行する。コンピュータ26は、その生成プログラムを実行することによって、種々の機能を実現する。

コンピュータ26は、例えば、受付部25が受け付けた初期対話フローを受け付ける。

また、コンピュータ26は、その受け付けた初期対話フローの応答要求文が、音声対話知識データベース24が格納している特定の表現を有していると、その特定の表現を他の表現で示した応答要求文候補を生成する。

承認受付部27は、コンピュータ26が生成した応答要求文候補に対するユーザの承認を受け付ける。

コンピュータ26は、承認受付部27が受け付けたユーザの承認を受け付ける。コンピュータ26は、そのユーザの承認を受け付けると、その承認を受け付けた応答要求文候補を応答文候補データベース12に格納する。

次に、生成装置の動作を説明する。

図20は、生成装置の動作を説明するためのフローチャートである。以下、図20を参照して生成装置の動作を説明する。

なお、生成装置を操作するユーザは、音声対話装置におけるユーザではなく、対話フローを作成する人なので、以下では作成者とする。

コンピュータ26は、ステップ201において、受付部25が受け付けた初期対話フローを入力として受け付ける。この初期対話フローは、テキスト、フロー記述言語、グラフィカルなフロー記述等の形式で入力される。コンピュータ26は、初期対話フローを受け付けると、ステップ202を実行する。

ステップ202において、コンピュータ26は、初期対話フローに含まれる応答要求文を、音声対話知識データベース24を用いて、複数の応答要求文に展開する。

例えば、初期対話フローの応答要求文として「プッシュボタンの 1を押して下さい」が含まれていた場合、コンピュータ26は、音声対話知識データベース24に記述された数詞「1」に関する知識に基づいて、その応答要求文を、「プッシュボタンの1を押して下さい」だけでなく、「プッシュボタンの1番を押して下さい」と「プッシュボタンの数字の1を押して下さい」とからなる3つの応答要求文に展開する。

コンピュータ26は、ステップ202を終了すると、ステップ203を実行する。

ステップ203において、コンピュータ26は、その展開した3つの応答要求文を応答要求文候補として作成者に提示する。これらの候補が良ければ、作成者は、承認受付部27を操作して、その候補を承認し、各候補(各応答要求文)に優先度を付与する。

コンピュータ26は、承認受付部27がユーザの承認を受け付けると、ステップ204を実行する。

ステップ204において、コンピュータ26は、そのユーザの承認を受け付ける。コンピュータ26は、そのユーザの承認を受け付けると、ステップ205を実行する。

ステップ205において、コンピュータ26は、受付部25から受け付けた処理対話フローとユーザの認証を受けた各応答要求文とに基づいて、複数の対話セッションを含む対話フローと、対話セッションに対応する複数の応答要求文を生成し、その対話フローを対話フローデータベース11に格納し、その複数の応答要求文を応答文候補データベース12に格納する。

なお、本実施例において、ステップ204において、作成者が候補を承認しなかった場合に、コンピュータ26は作成者にその候補を編集させる機能を持ってもよい。

また、本実施例において、音声対話知識データベース24内に優先度に関する情報を加えて格納しておき、ステップ202において、コンピュータ26が、その優先度の候補も一緒に生成して、ステップ203でその優先度をその候補と一緒に提示してもよい。

また、本実施例において、コンピュータ26は、候補を提示した時点で動作を終了してもよい。この場合、作成者が、応答文候補データベース12に応答要求文の音声を収録する前に、本装置(支援装置)を用いれば、本装置(支援装置)は、音声収録の候補作成を支援できる。

次に、本実施例の効果について説明する。

本実施例によれば、音声対話知識データベース24が特定の表現に対応する他の表現を格納し、受付部25が応答要求文を含む初期対話フローを受け付けると、コンピュータ26は、その受け付けた初期対話フローの応答要求文がその特定の表現を有している場合、その特定の表現を他の表現で示した応答要求文候補を生成する。

このため、音声対話に関する特別な知識を持たない設計者でも、応答要求文候補を設定することが可能になる。換言すると、音声対話システムの作成者は、音声対話に関する特別の知識を有しなくても、効果的に音声対話システムの対話フローを作成できる。

また、本実施例では、承認受付部27がコンピュータ26によって生成された応答要求文候補に対するユーザの承認を受け付けると、コンピュータ26は、その承認を受け付けた応答要求文候補を応答文候補データベース12に格納する。このため、音声対話に関する特別な知識を持たない設計者でも、応答要求文候補を設定できる。

以上説明した各実施形態において、図示した構成は単なる一例であって、本発明はその構成に限定されるものではない。

本発明の第一の実施形態の構成を示すブロック図である。 対話フローデータベース11が格納する対話フローの一例を表す説明図である。 応答文候補データベース12が格納する複数の応答要求文の一例を表す説明図である。 第一の実施形態の動作を説明するための説明図である。 対話履歴記録部18の一例を示すブロック図である。 対話履歴記録部18の他の例を示すブロック図である。 対話履歴記録部18のさらに他の例を示すブロック図である。 対話履歴記録部18が生成する統計情報の一例を示す説明図である。 本発明の第二の実施形態の構成を示すブロック図である。 組1の対話フローデータベース11が格納する対話フローの一例を表す説明図である。 組2の対話フローデータベース11が格納する対話フローの一例を表す説明図である。 組2の応答文候補データベース12が格納する複数の文の一例を表す説明図である。 組3の対話フローデータベース11が格納する対話フローの一例を表す説明図である。 組3の応答文候補データベース12が格納する複数の文の一例を表す説明図である。 組4の対話フローデータベース11が格納する対話フローの一例を表す説明図である。 組4の応答文候補データベース12が格納する複数の文の一例を表す説明図である。 データベース切替条件格納部20の一例を示す説明図である。 本発明の一実施例の生成装置の構成を示すブロック図である。 音声対話知識データベース24の一例を示す説明図である。 本生成装置の動作を説明するためのフローチャートである。

符号の説明

11 対話フローデータベース
12 応答文候補データベース
13 応答文決定部
14 音声対話部
15 スピーカ
16 マイクロフォン
17 リジェクト検出部
18 対話履歴記録部
18a 入力部
18b 履歴メモリ
18c 履歴出力部
18d 統計処理部
18e 統計情報出力部
18f 統計処理部
18g 統計メモリ部
18h 統計情報出力部
19 プロファイル格納部
20 データベース切替条件格納部
21 データベース切替部
22 スイッチ
23 スイッチ
24 音声対話知識データベース
25 受付部
26 コンピュータ
27 承認受付部

Claims (27)

  1. ユーザからの応答を要求する複数の応答要求文を格納する複数の格納部と、前記格納部に格納されている複数の応答要求文の中から1つの応答要求文を選択する選択部と、前記選択部が選択した応答要求文を音声で出力する音声出力部と、前記音声出力部による応答要求文の音声出力の後に入力された前記ユーザの入力を受け付けてその内容に応じた出力を発生する入力受付部と、を含む音声対話装置において、
    前記格納部は、前記複数の応答要求文とともに各応答要求文の優先度とを格納し、
    前記音声出力部は、前記選択部により選択された応答要求文を音声で出力し、
    前記音声出力部が出力した音声に対するユーザの応答の有無を前記入力受付部の出力に基づいて判断する判断部を含み、
    前記選択部は、前記格納部が格納する複数の応答要求文の中から優先度の高い応答要求文を選択し、また、前記格納部に格納される優先度を前記判断部の判断結果に基づいて更新し、
    ユーザのプロファイルを格納するプロファイル格納部と、
    前記プロファイル格納部が格納するプロファイルに基づいて、前記複数の格納部の中から1つの格納部を選択する格納選択部とをさらに含み、
    前記選択部は、前記格納選択部によって選択された格納部が格納する複数の応答要求文から優先度の高い応答要求文を選択する、音声対話装置。
  2. 前記選択部は、前記判断部が前記ユーザの応答が無いと判断すると、前記格納部が格納する複数の応答要求文の中から、すでに選択済みの応答要求文の次に優先度の高い応答要求文を新たに選択し、その後、前記格納部が格納する優先度を更新する、請求項1に記載の音声対話装置。
  3. 前記判断部は、前記入力受付部の出力が予め定められた応答と異なる場合または予め定められた時間内に前記入力受付部が前記出力を発生しない場合に、前記ユーザの応答が無いと判断する、請求項1または2に記載の音声対話装置。
  4. 前記プロファイル格納部は、前記ユーザの応答を前記ユーザのプロファイルとして格納する、請求項1ないし3のいずれか1項に記載の音声対話装置。
  5. 複数の対話セッションを順番に行う対話フローを格納する対話フロー格納部をさらに含み、
    前記格納部は、前記対話セッションごとに、前記複数の応答要求文と各応答要求文の優先度とを格納し、
    前記選択部は、前記対話セッションごとに、その対話セッションの複数の応答要求文から優先度の高い応答要求文を選択し、
    前記プロファイル格納部は、前記対話セッションごとに前記ユーザの応答を前記ユーザのプロファイルとして格納し、
    前記格納選択部は、前記複数の対話セッションのいずれかが終了すると、その時点で前記プロファイル格納部が格納しているユーザのプロファイルに基づいて、前記複数の格納部の中から1つの格納部を選択する、請求項に記載の音声対話装置。
  6. 前記ユーザの応答結果を外部に出力する出力部をさらに含む、請求項1ないしのいずれか1項に記載の音声対話装置。
  7. 前記出力部は、前記ユーザの応答結果に基づいてその統計情報を生成し、その統計情報を外部に出力する、請求項に記載の音声対話装置。
  8. 請求項1ないしのいずれか1項に記載の音声対話装置の格納部に格納される複数の応答要求文の生成を支援する支援装置であって、
    特定の表現に対応する他の表現を格納する表現格納部と、
    前記応答要求文を含む初期対話フローを受け付ける受付部と、
    前記受付部が受け付けた初期対話フローの応答要求文が前記特定の表現を有していると、その特定の表現を前記他の表現で示した応答要求文候補を生成する生成部と、を含む支援装置。
  9. 請求項に記載の支援装置と、
    前記生成部が生成した応答要求文候補に対するユーザの承認を受け付ける承認受付部と、
    前記承認受付部が前記ユーザの承認を受け付けると、その承認を受け付けた応答要求文候補を前記格納部に格納する格納制御部と、を含む生成装置。
  10. ユーザからの応答を要求する複数の応答要求文と各応答要求文の優先度とを格納する複数の格納部とユーザのプロファイルを格納するプロファイル格納部とを含む音声対話装置が行う音声対話方法であって、
    前記格納部が格納する複数の応答要求文の中から優先度の高い応答要求文を選択する選択ステップと、
    前記選択された応答要求文を音声で出力する音声出力ステップと、
    前記音声に対応するユーザの応答の有無を判断する判断ステップと、
    前記格納部が格納する優先度を前記判断の結果に基づいて更新する更新ステップと、
    前記プロファイル格納部が格納するプロファイルに基づいて、前記複数の格納部の中から1つの格納部を選択する格納選択ステップと、を含み、
    前記選択ステップは、前記格納選択ステップにて選択された格納部が格納する複数の応答要求文から優先度の高い応答要求文を選択する、音声対話方法。
  11. 前記ユーザの応答が無いと、前記格納部が格納する複数の応答要求文からすでに選択済みの応答要求文の次に優先度の高い応答要求文を新たに選択する再選択ステップをさらに含み、
    前記更新ステップは、前記再選択ステップが行われた後、前記格納部が格納する優先度を更新する、請求項10に記載の音声対話方法。
  12. 前記判断ステップは、前記ユーザの応答が予め定められた応答と異なる場合または予め定められた時間内に前記ユーザの応答がない場合に、前記ユーザの応答が無いと判断する、請求項10または11に記載の音声対話方法。
  13. 前記ユーザの応答結果を前記ユーザのプロファイルとして前記プロファイル格納部に格納するプロファイル格納ステップをさらに含む、請求項10ないし12のいずれか1項に記載の音声対話方法。
  14. 前記音声対話装置は、複数の対話セッションを順番に行う対話フローを格納する対話フロー格納部をさらに含み、
    前記格納部は、前記対話セッションごとに、前記複数の応答要求文と各応答要求文の優先度とを格納し、
    前記選択ステップは、前記対話セッションごとに、その対話セッションの複数の応答要求文から優先度の高い応答要求文を選択し、
    前記プロファイル格納ステップは、前記対話セッションごとに前記ユーザの応答を前記ユーザのプロファイルとして格納し、
    前記格納選択ステップは、前記複数の対話セッションのいずれかが終了すると、その時点で前記プロファイル格納部が格納しているユーザのプロファイルに基づいて、前記複数の格納部の中から1つの格納部を選択する、請求項13に記載の音声対話方法。
  15. 前記ユーザの応答結果を外部に出力する出力ステップをさらに含む、請求項10ないし14のいずれか1項に記載の音声対話方法。
  16. 前記出力ステップは、前記ユーザの応答結果に基づいてその統計情報を生成し、その統計情報を外部に出力する、請求項15に記載の音声対話方法。
  17. 特定の表現に対する他の表現を格納する表現格納部を含み、請求項10ないし16のいずれか1項に記載の音声対話方法を行う音声対話装置の格納部に格納される複数の応答要求文の生成を支援する支援装置が行う支援方法であって、
    前記応答要求文を含む初期対話フローを受け付ける受付ステップと、
    前記初期対話フローの応答要求文が前記特定の表現を有していると、その特定の表現を前記他の表現で示した応答要求文候補を生成する候補生成ステップと、を含む支援方法。
  18. 請求項17に記載の支援方法が含む各ステップと、
    前記生成ステップで生成された応答要求文候補に対するユーザの承認を受け付ける承認受付ステップと、
    前記ユーザの承認が受け付けられると、その承認を受け付けた応答要求文候補を前記格納部に格納する格納制御ステップと、を含む生成方法。
  19. ユーザからの応答を要求する複数の応答要求文と各応答要求文の優先度とを格納する複数の格納部およびユーザのプロファイルを格納するプロファイル格納部と接続するコンピュータに音声対話処理を実行させるプログラムであって、
    前記格納部が格納する複数の応答要求文から優先度の高い応答要求文を選択する選択処理と、
    前記選択された応答要求文を音声で出力する音声出力処理と、
    前記音声に対するユーザの応答の有無を判断する判断処理と、
    前記格納部が格納する優先度を前記判断の結果に基づいて更新する更新処理と、を含む音声対話処理を前記コンピュータに実行させ、
    前記音声対話処理は、前記プロファイル格納部が格納するプロファイルに基づいて、前記複数の格納部の中から1つの格納部を選択する格納選択処理をさらに含み、
    前記選択処理は、前記格納選択処理にて選択された格納部が格納する複数の応答要求文から優先度の高い応答要求文を選択する、プログラム。
  20. 前記音声対話処理は、前記ユーザの応答が無いと、前記格納部が格納する複数の応答要求文からすでに選択済みの応答要求文の次に優先度の高い応答要求文を新たに選択する再選択処理をさらに含み、
    前記更新処理は、前記再選択処理が行われた後、前記格納部が格納する優先度を更新する、請求項19に記載のプログラム。
  21. 前記判断処理は、前記ユーザの応答が予め定められた応答と異なる場合または予め定められた時間内に前記ユーザの応答がない場合に、前記ユーザの応答が無いと判断する、請求項19または20に記載のプログラム。
  22. 前記音声対話処理は、前記ユーザの応答結果を前記ユーザのプロファイルとして前記プロファイル格納部に格納するプロファイル格納処理をさらに含む、請求項19ないし21のいずれか1項に記載のプログラム。
  23. 前記コンピュータは、複数の対話セッションを順番に行う対話フローを格納する対話フロー格納部と接続し、
    前記格納部は、前記対話セッションごとに、前記複数の応答要求文と各応答要求文の優先度とを格納し、
    前記選択処理は、前記対話セッションごとに、その対話セッションの複数の応答要求文から優先度の高い応答要求文を選択し、
    前記プロファイル格納処理は、前記対話セッションごとに前記ユーザの応答を前記ユーザのプロファイルとして格納し、
    前記格納選択処理は、前記複数の対話セッションのいずれかが終了すると、その時点で前記プロファイル格納部が格納しているユーザのプロファイルに基づいて、前記複数の格納部の中から1つの格納部を選択する、請求項22に記載のプログラム。
  24. 前記音声対話処理は、前記ユーザの応答結果を外部に出力する出力処理をさらに含む、請求項19ないし23のいずれか1項に記載のプログラム。
  25. 前記出力処理は、前記ユーザの応答結果に基づいてその統計情報を生成し、その統計情報を外部に出力する、請求項24に記載のプログラム。
  26. 特定の表現に対する他の表現を格納する表現格納部と接続し、請求項19ないし25のいずれか1項に記載のプログラムを実行するコンピュータと接続する格納部に格納される複数の応答要求文の生成を支援する応答要求文生成支援処理をコンピュータに実行させるプログラムであって、
    前記応答要求文を含む初期対話フローを受け付ける受付処理と、
    前記初期対話フローの応答要求文が前記特定の表現を有していると、その特定の表現を前記他の表現で示した応答要求文候補を生成する候補生成処理と、を含む応答要求文生成支援処理を前記コンピュータに実行させるプログラム。
  27. 請求項26に記載のプログラムがコンピュータに実行させる応答要求文生成支援処理と、
    前記生成した応答要求文候補に対するユーザの承認を受け付ける承認受付処理と、
    前記ユーザの承認が受け付けられると、その承認を受け付けた応答要求文候補を前記格納部に格納する格納制御処理と、を含む応答要求文生成処理を前記コンピュータに実行させるプログラム。
JP2004371151A 2004-12-22 2004-12-22 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム Active JP4623278B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004371151A JP4623278B2 (ja) 2004-12-22 2004-12-22 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004371151A JP4623278B2 (ja) 2004-12-22 2004-12-22 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2006178175A JP2006178175A (ja) 2006-07-06
JP4623278B2 true JP4623278B2 (ja) 2011-02-02

Family

ID=36732349

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004371151A Active JP4623278B2 (ja) 2004-12-22 2004-12-22 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4623278B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806690A (zh) * 2013-06-19 2018-11-13 松下电器(美国)知识产权公司 声音对话方法及声音对话代理服务器

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181488A (ja) * 1998-12-17 2000-06-30 Denso Corp 音声認識装置及びナビゲーションシステム
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2001188779A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2002169587A (ja) * 2000-11-30 2002-06-14 Matsushita Electric Works Ltd 意思伝達装置
JP2004258233A (ja) * 2003-02-25 2004-09-16 Fujitsu Ltd 適応型音声対話システム及び方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1020884A (ja) * 1996-07-04 1998-01-23 Nec Corp 音声対話装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000181488A (ja) * 1998-12-17 2000-06-30 Denso Corp 音声認識装置及びナビゲーションシステム
JP2000194386A (ja) * 1998-12-24 2000-07-14 Omron Corp 音声認識応答装置及び方法
JP2001188779A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2002169587A (ja) * 2000-11-30 2002-06-14 Matsushita Electric Works Ltd 意思伝達装置
JP2004258233A (ja) * 2003-02-25 2004-09-16 Fujitsu Ltd 適応型音声対話システム及び方法

Also Published As

Publication number Publication date
JP2006178175A (ja) 2006-07-06

Similar Documents

Publication Publication Date Title
US9454960B2 (en) System and method for disambiguating multiple intents in a natural language dialog system
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
ES2621808T3 (es) Sistema y método de diálogo de múltiples intervalos
US9070366B1 (en) Architecture for multi-domain utterance processing
DE60201262T2 (de) Hierarchische sprachmodelle
JP3968133B2 (ja) 音声認識対話処理方法および音声認識対話装置
US7406413B2 (en) Method and system for the processing of voice data and for the recognition of a language
CN1249667C (zh) 声控服务
US6173266B1 (en) System and method for developing interactive speech applications
US6321196B1 (en) Phonetic spelling for speech recognition
US6925154B2 (en) Methods and apparatus for conversational name dialing systems
US9318114B2 (en) System and method for generating challenge utterances for speaker verification
US20120215539A1 (en) Hybridized client-server speech recognition
CN1280782C (zh) 给用户提供声音反馈的可扩展语音识别系统
US6873951B1 (en) Speech recognition system and method permitting user customization
Kamm User interfaces for voice applications
US8019610B2 (en) Automated sentence planning in a task classification system
US10297249B2 (en) System and method for a cooperative conversational voice user interface
US7539296B2 (en) Methods and apparatus for processing foreign accent/language communications
US10446141B2 (en) Automatic speech recognition based on user feedback
WO2009087860A1 (ja) 音声対話装置及び音声対話プログラムを記憶したコンピュータ読み取り可能な媒体
US20120290298A1 (en) System and method for optimizing speech recognition and natural language parameters with user feedback
US20030091163A1 (en) Learning of dialogue states and language model of spoken information system
US7260537B2 (en) Disambiguating results within a speech based IVR session
US20130090921A1 (en) Pronunciation learning from user correction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100526

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101006

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101019

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131112

Year of fee payment: 3