JP2008009153A

JP2008009153A - 音声対話システム

Info

Publication number: JP2008009153A
Application number: JP2006179985A
Authority: JP
Inventors: Takeshi Honma; 健本間; Hirohiko Sagawa; 浩彦佐川; Nobuo Hataoka; 信夫畑岡; Hiroaki Kokubo; 浩明小窪; Hisashi Takahashi; 久高橋; Takeshi Ono; 健大野; Minoru Togashi; 実冨樫; Daisuke Saito; 大介斎藤; Keiko Katsuragawa; 景子桂川
Original assignee: Xanavi Informatics Corp; Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd; Faurecia Clarion Electronics Co Ltd
Priority date: 2006-06-29
Filing date: 2006-06-29
Publication date: 2008-01-17

Abstract

【課題】大語彙を対象とした音声対話システムにおいて、語彙を短時間で、かつ確実に認識する。
【解決手段】音声対話システムに、入力された音声を音声データに変換する音声入力部２と、複数の単語が格納される第1の認識辞書と、第1の認識辞書に格納されている何れかの単語と対応付けられた第２の認識辞書とを記憶する音声認識辞書記憶部３と、第１の認識辞書を用いて、変換した音声データの中に含まれるキーワードを音声認識すると共に、その音声認識されたキーワードの信頼度を算出し、算出した信頼度が所定の閾値以上である場合、第２の認識辞書を用いて、音声データを音声認識する音声認識部４と、音声認識の結果を出力する出力部８と、各部の動作を制御する対話管理部６と、を設ける。そして、対話管理部６は、ユーザとの対話状況に応じて閾値を変更する。
【選択図】図１

Description

本発明は、音声対話システムおよび装置の技術に関する。

近年の音声認識技術は、実用レベルに達してきているものの、依然として大語彙を対象とした音声認識では、処理時間が長くかかる点、認識率が低い点といった問題がある。

とくに、音声認識技術を使った音声対話システムにおいて、データベース検索などの大語彙を対象とした作業を行う場合、誤認識のためにユーザとシステムの間の対話がスムーズに進まなくなり、タスク未達成になることや、ユーザに同じ内容の発話を多数回強要することなどが問題となっている。

これらの大語彙を対象とした音声認識に関する問題を解決するため、特許文献１では、入力されたユーザ発話から、最初にユーザ発話に含まれる話題に関する単語のみをワードスポッティングにより抽出し、その後、抽出された単語に応じて認識に使う辞書を再構成し、前に入力されたユーザ発話の音声データに対し再び認識処理を行うことによって、ユーザ発話全体を認識する技術が公開されている。また、特許文献１では、認識語の音声認識尤度が低い場合に、誤認識の可能性があると判断すること、また、ユーザへの問いかけを駆動するなどの動作を行うことについて記述されている。

特開２００４−３３４２２８号公報

特許文献１に記載した技術では、最初に、ユーザ発話の一部分を対象とした認識処理を行うが、この認識結果が誤認識であると、その後に読み込まれる認識辞書も間違ったものが選定されるため、最終的な結果として出力される認識結果も誤りとなるという問題がある。特に、特許文献１で使われるワードスポッティングや信頼度の利用は、未だ発展途上であり、誤った結果が出力される可能性がある。また、認識の精度は、周囲の雑音の状況、発話される語彙、個人差などにも影響されるため、同じような誤認識を繰り返してしまう可能性がある。また、従来技術では、最初の認識で使われる辞書に、ユーザ発話に存在する語彙が１つも登録されていない場合、ユーザ発話の入力を完了させる手段が無かった。

本発明では、これらの課題を解決し、大語彙を対象とした音声認識において、誤認識の表出を防止しつつ、かつ短い時間で入力する技術を提供する。

上記課題を解決するため、本発明の第１の態様は、音声対話システムであって、ユーザから入力された音声を音声データに変換する音声入力部と、複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第２の認識辞書とを記憶する音声認識辞書記憶部と、上記第１の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第２の認識辞書を用いて、上記音声データを音声認識する音声認識部と、上記音声認識部が行った音声認識の結果を出力する出力部と、上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、上記対話管理部は、ユーザとの対話状況に応じて上記閾値を変更する。

また、上記課題を解決するため、本発明の第２の態様は、ユーザから入力された音声を音声データに変換する音声入力部と、複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第２の認識辞書とを記憶する音声認識辞書記憶部と、上記第１の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第２の認識辞書を用いて、上記音声データを音声認識する音声認識部と、上記音声認識部が行った音声認識の結果を出力する出力部と、上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、上記対話管理部は、ユーザとの対話状況に応じて、上記第１の認識辞書に格納されるキーワードの数を変更する。

このように、本発明によれば、誤認識結果がシステム応答に表出することを防ぎ、語彙の入力にかかる時間を短縮化できる。

以下、本発明の実施形態について図面を用いて説明する。

なお、以下では、カーナビゲーションシステムでの行き先の施設名称を受け付ける音声対話システムを例に取り、実施形態を説明する。

本実施形態の音声対話システムの機能構成を図１に示す。

マイク１は、ユーザが発話した音声を電気信号へ変換し、音声入力部２へ送る。

音声入力部２は、マイク１からの音声信号をＡ/Ｄ変換して音声データに変換し、その音声データを音声データ記憶部３へ送る。また、音声入力部２は、対話管理部６の指示に従い、音声認識部４へ送る音声データをマイク１からの音声にするか、音声データ記憶部３からの音声にするかを選択する。

音声データ記憶部３は、音声入力部２から送られた音声データを保存する。

音声認識部４は、入力された音声データに対し、対話管理部６から指定された認識辞書を音声認識辞書記憶部５から読み込み、読み込んだ辞書を使用して音声認識処理を実行する。さらに、音声認識処理の結果得られた認識結果を対話管理部６へ送る。

音声認識辞書記憶部５は、音声認識に使用する辞書を保存する。

対話管理部６は、音声対話システムの各部の動作を制御する。具体的には、対話管理部６は、音声認識部４から送られた認識結果を所定の規則で音声認識結果記憶部７へ入力する。また、音声認識結果記憶部７の内容に応じて、応答音声のためのデータや画面出力のためのデータを生成し、その生成したデータを出力部８に出力する。また、音声認識結果記憶部７の内容に応じて、次の音声認識処理の対象とする音声データを音声入力部２へ指定し、かつ次の音声認識処理に使用する認識辞書を音声認識部４へ指示する。

音声認識結果記憶部７は、対話管理部６から送られた認識結果を所定の規則で保存する。

出力部８は、対話管理部６からの出力内容に応じ、画面表示内容または応答音声を出力する。

本実施形態では、音声対話システムが受理できる施設名称の発話としては、ユーザが「○○県の△△ホテル」というように都道府県名と施設名を続けて発話するパターンと、「△△ホテル」のように施設名だけを発話するパターンを想定する。また、「○○県」のような都道府県名だけの発話も受理できるものとする。これら発話パターンにおいて、ユーザ発話に頻出する語彙の種類は２つある。１つめは、「神奈川県」「東京都」などの都道府県名が挙げられる。２つめは、「ホテル」「駅」「公園」といった施設名称中に頻出する語彙が挙げられる。この施設名称中に頻出する語彙のことを共通語彙と呼ぶこととする。

そこで、第１の認識辞書に登録するキーワードとしては、都道府県名と共通語彙があるものとする。具体的な辞書の構成については、以下の第１実施形態の説明の中で記述する。

なお、上述した音声対話システムの各機能部は、ソフトウェアにより実現されてもいいし、各機能部を実行するために専用に設計された回路（ＡＳＩＣ（Application Specific Integrated Circuit）等）により実現されてもよい。

例えば、ソフトウェアにより実現する場合、音声対話システムに、ＣＰＵ（Central Processing Unit）、メモリ、Ｉ／Ｏインタフェースを有する情報処理装置を用いる。なお、Ｉ／Ｏインタフェースには、マイク１、ディスプレイ（図示しない）、スピーカ（図示しない）が接続されているものとする。また、メモリに、音声入力部２、音声認識部４、および対話管理部６の機能を実現するためのプログラムを記憶させておく。そして、音声入力部２、音声認識部４、および対話管理部６の各機能は、ＣＰＵがメモリに記憶されている上記のプログラムを実行することにより実現される。また、音声データ記憶部３、音声認識辞書記憶部５、および音声認識結果記憶部７は、メモリの所定の領域に形成される。

以下、図１に示す各機能部を備える音声対話システムが適用された実施形態について具体的に説明していく。

（第１実施形態）
先ず、本発明に関する第１実施形態を図２、図３のフローチャートを踏まえながら説明する。

図２、３は、本発明の実施形態の音声対話処理のフローチャートである。

対話が開始されると、まずＳ１０１０において、音声データ記憶部３および音声認識結果記憶部７が初期化される。

Ｓ１０２０では、ユーザに施設名の発話を促す応答音声と画面表示が生成される。具体的には、対話管理部６は、ユーザに施設名の発話を促す応答音声を生成し、出力部８を介して出力する。また、対話管理部６は、ユーザに施設名の発話を促す画像データを生成し、出力部８を介して表示する。例えば、出力部８は、「行き先の名称をお話下さい」との文字が含まれる画面を表示する。また、出力部８は、「行き先の名称をお話下さい」という応答音声を出力する。

Ｓ１０３０では、ユーザ発話を待ち受けるための第１の認識辞書が設定され、音声認識が実行される。具体的には、対話管理部６は、音声認識部４に、第１の認識辞書を指定した音声認識処理の指示を行う。音声認識部４は、対話管理部６から指定された第１の認識辞書を音声認識辞書記憶部５から読み込む。

ここで、第１の認識辞書の構成を図４に示す。図４は、本実施形態の第１の認識辞書の構成を模擬的に例示した図である。なお、図示する第１の認識辞書は、キーワードを未知語でつないでいる。この辞書は、ネットワーク文法と呼ばれる形式で記述されている。認識できる単語の語順は、矢印に従って示されており、”Ｓ”から”Ｅ”までのいずれかのパスを通る単語列を認識することができる。また、四角で表した要素には、その場所において認識できる単語の内訳を示している。図４のようなネットワーク文法形式の辞書を使用した音声認識の方法については、たとえば、鹿野らの文献（鹿野、他４名、「音声認識システム」，オーム社，２００１）に記載している方法により実現できる。

また、図４に示す「(未知語)」は、任意の音韻列を認識できるモデルを示しており、たとえば武田らが公開した方法（武田、小沼：「自由発話文理解のためのＧａｒｂａｇｅＨＭＭの利用の検討」，電子情報通信学会技術研究報告，ｖｏｌ．ＳＰ９２-１２７，ｐｐ.３３-４０，２００２）によって実現することができる。

図４の辞書では、都道府県と共通語彙をキーワードとして持ち、その他の部分を未知語でつないでいる。また、想定されるユーザの発話に合わせ、「の」「にある」といった助詞や、「です」といった文末の助動詞も備えている。この辞書によって生成される認識結果の例としては、「北海道/にある/(未知語)/温泉/です」「東京/の/ホテル/(未知語)」「(未知語)/公園」「東京都」などが挙げられる。

図２のＳ１０３０の説明にもどる。Ｓ１０３０では、さらに、ユーザ発話を受け付け、第１の認識辞書で認識処理を実行する。具体的には、マイク１が、ユーザが発話した音声を電気信号へ変換し、音声入力部２へ送信する。音声入力部２は、マイク１からの音声信号をＡ/Ｄ変換した音声データを生成し、その音声データを音声認識部３に送る。音声認識部３は、第１の辞書を用いて音声認識処理を行う。

なお、本実施形態では、ユーザが「東京都の国分寺駅」と発話した場合を例にして説明する。この場合、正しく認識されれば、ここでの結果は、「東京都/の/(未知語)/駅」と認識される。そして、この「東京都」と「駅」のそれぞれについて、所定の方法によって単語信頼度が計算される。単語信頼度の計算方法としては、音声認識尤度から各単語信頼度を計算する方法などが考案されている。たとえば、北岡らが公開した方法（北岡，赤堀，中川：「認識結果の正解確率に基づく信頼度とリジェクション」，電子情報通信学会論文誌，vol.J83-D-II，no.11，pp.2160-2170，2000）などにより計算を行うことができる。

Ｓ１０４０では、音声認識結果と信頼度を音声認識結果記憶部７に保存し、後に参照できるようにする。具体的には、音声認識部４は、音声認識結果および信頼度を対話管理部６に送信する。対話管理部６は、音声認識部４からの音声認識結果および信頼度を音声認識結果記憶部７に格納する。

Ｓ１０５０では、音声認識結果に未知語が含まれていたか否かを判断する。もし含まれていれば、後に辞書を変更して再認識を行う可能性があるため、Ｓ１０６０へ進み、先のユーザ発話の音声データを音声データ記憶部３に記憶する。一方、未知語が含まれていなかった場合には、再認識を行うことがないため、音声データの保存は行わずに、Ｓ１１１０のシステム応答生成処理へ進む。

具体的には、対話管理部６は、音声認識結果に未知語がふくまれていたか否かを判断し、未知語が含まれていれば、Ｓ１０６０に進む。そして、Ｓ１０６０では、対話管理部６は、音声入力部２を制御して、Ｓ１０３０で受信したユーザ発話の音声データを音声データ記憶部３に記憶する。

Ｓ１０７０では、対話管理部６は、音声認識結果記憶部７に保存されている第１の認識辞書による認識結果にしたがって、後の処理を選択する。ここでは、都道府県名と共通語彙の２種のキーワードの信頼度に対して、それぞれ、無条件に信頼するか確認するかを分ける閾値Ｔｐ１, Ｔａ１と、確認を行うか棄却するかを分ける閾値Ｔｐ２, Ｔａ２を設けるものとする。すなわち、対話管理部６は、予め、閾値Ｔｐ１およびＴａ１と、閾値Ｔｐ２およびＴａ２とを保持している。

そして、対話管理部６は、例えば、「都道府県名の信頼度がＴｐ１以上」、かつ「共通語彙の信頼度がＴａ１以上」だった場合、両キーワードは信頼できると判断し、都道府県名と共通語彙（ここでは、「東京都」と「駅」）の両キーワードを含む認識対象語彙群が登録された第２の認識辞書に切り替えた認識処理（図３のＳ１１２０以降）へ移る。また、対話管理部６は、「都道府県名の信頼度がＴｐ２未満」、または「共通語彙の信頼度がＴａ２未満」だった場合、キーワードは信頼できないと判断し、Ｓ１１１０へ移る。また、対話管理部６は、上記以外の場合、キーワードが正しいかをユーザ確認する必要があると判断し、Ｓ１０８０に進む。すなわち、対話管理部６は、「都道府県名の信頼度がＴｐ２以上」、かつ「共通語彙の信頼度がＴａ２以上」であって、かつ「都道府県名の信頼度がＴｐ１未満」、または「共通語彙の信頼度がＴａ１未満」の場合にＳ１０８０に進む。

Ｓ１０８０では、対話管理部６は、出力部８を介して、「東京都の駅でよろしいですか」、「東京都でよろしいですか」、「駅でよろしいですか」といった応答音声を出力する。

Ｓ１０９０では、「はい」、「いいえ」などの確認のための語彙を登録した確認用辞書を設定し、ユーザの発話を認識する。具体的には、対話管理部６は、音声認識部４に、確認用辞書を指定した音声認識処理の指示を行う。音声認識部４は、対話管理部６から指定された確認用辞書を音声認識辞書記憶部５から読み込む。そして、音声認識部４は、音声入力部２を介して、ユーザが発話した音声データ（確認発話）を受け付けて、確認用辞書を用いて確認発話を認識する。音声認識部４は、確認発話の認識結果を対話管理部６に出力する。

Ｓ１１００では、対話管理部６は、確認発話の認識結果を判断し、肯定語であればＳ１１２０（図３）以降の第２の認識辞書に切り替えた再認識へ移り、否定語であればＳ１１１０へ移り再びユーザ発話を促す応答音声を流す。なお、確認の方法に関して言えば、もし「東京都」「駅」の両方を確認する必要があるのであれば、前述のように「東京都の駅でよろしいですか」と問う方法の他に、「東京都でよろしいですか」「駅でよろしいですか」と２回に分けて問う方法でもよい。このように、Ｓ１０７０においてキーワードの信頼度に応じて次の処理を変えることにより、誤った第２の認識辞書が選定されることを防いでいる。

また、２種類のキーワードのうち、１つは信頼度が高く、もう１つは信頼度が低い場合においては、信頼度が高いキーワードだけをユーザに確認をとった後、Ｓ１１１０のシステム応答生成に移っても良い。

また、Ｓ１０７０で使われる信頼度閾値は、ユーザの発話回数または対話継続時間によって変化する。たとえば、ユーザの発話回数または対話継続時間が増えていくに従い、ユーザに確認を行う信頼度の範囲を広げていくことによって、より確認が挿入されやすくなる。これにより、タスク完遂への確実性が増す。かつ、高信頼度でキーワードを認識できた場合には、すぐに辞書を切り替えた再認識へ移るため、ユーザ発話回数を低減することも実現できる。また、ユーザの発話回数とユーザの発話時間の双方に閾値を設け、どちらか一方または両方が閾値を越えた場合に、信頼度閾値を変更するようにしてもよい。

Ｓ１１１０では、対話管理部６が、上記の処理で、キーワードが信用されず辞書を切り替えた認識ができないと判断された場合や、未知語が検出されていない場合において、辞書を絞り込んだ処理ができないと判断された場合のシステム応答を生成する。ここでは、「もう一度お話ください」のように単にユーザの再発話を促すものでも良いが、これまで高信頼度で認識されているキーワードを応答音声に含め、「東京都の何という施設ですか」「何県の何という駅ですか」というような応答音声を生成しても良い。

つぎに、Ｓ１１２０以降の処理を、図３を用いて説明する。Ｓ１１２０以降は、キーワードが信頼されたため、先のユーザ発話の音声データに対して辞書を変更して再認識を行う部分である。

Ｓ１１２０では、まず、信頼されたキーワードに従い、そのキーワードを含む語彙が登録されている第２の認識辞書を設定する。具体的には、対話管理部６は、音声認識部４に、第２の認識辞書を指定した音声認識処理の指示を行う。音声認識部４は、対話管理部６から指定された第２の認識辞書を音声認識辞書記憶部５から読み込む。音声認識部４は、読込んだ第２の認識辞書を用いて、先に発話された音声データに対して認識処理を行う（Ｓ１０６０で保存しておいた音声データに対する音声認識を行う）。

たとえば、「東京都」「駅」がキーワードとして認識されているのであれば、図５に示すような「東京都」「駅」というキーワードを含む認識対象語彙が登録された第２の認識辞書を設定する（ここでは、「東京都」「駅」というキーワードに関連する施設名称が含まれる第２の認識辞書を設定する）。なお、図５は、本実施形態の第２の認識辞書の構成を模擬的に例示した図である。そして、先に発話された音声データに対して認識処理を行う。正しく認識されれば、「東京都の国分寺駅」と認識される。また、この音声認識処理においても、上述したＳ１０３０と同様、所定の方法によって単語信頼度が計算される。

Ｓ１１３０では、上述したＳ１０４０と同様の手順により、音声認識結果と信頼度を音声認識結果記憶部に保存し、後に参照できるようにする。

Ｓ１１４０では、対話管理部６は、認識された施設名称の信頼度に応じて、後の処理を分岐する。ここでは、無条件に信頼するか確認するかを分ける閾値Ｔｎ１と、確認するか棄却するかを分ける閾値Ｔｎ２を設けるものとする。もし信頼度がＴｎ１以上であれば、認識された施設名称は正しいと判断しＳ１１８０へ進む。一方、信頼度がＴｎ２未満であれば、Ｓ１１９０へ移る。また、信頼度がＴｎ２以上Ｔｎ１未満であれば、Ｓ１１５０〜Ｓ１１７０でユーザに対して確認を行い、正しいと確認されればＳ１１８０へ、間違っていればＳ１１９０へ進む。なお、Ｓ１１５０〜Ｓ１１７０は、Ｓ１０８０〜Ｓ１１００と同様の処理であるためここでの説明は省略する。

Ｓ１１８０では、施設名称の入力が確定したことを示す応答音声と画面表示を出力する。本実施形態であれば、対話管理部６は、出力部８を介して、「国分寺駅を目的地に設定しました」という音声を出力する。なお、対話管理部６は、出力部８を介して、「国分寺駅を目的地に設定しました」という画像データをディスプレイ（図示せず）に表示するようにしてもよい。

つぎに、認識された施設名称が信頼できないと判断された場合に行う、Ｓ１１９０〜Ｓ１２２０の処理を説明する。

Ｓ１１９０では、第１の認識で得られたキーワードがユーザ確認済みかどうかによって分岐を行っている。対話管理部６は、キーワードが確認済みなのであればＳ１２００に進み、確認済みでなければＳ１２２０に進む。

Ｓ１２００では、対話管理部６は、例えば「東京都の何という駅ですか」といった確認済みキーワードを含めた応答音声を生成し、その応答音声を出力部８から出力する。

Ｓ１２１０では、Ｓ１１２０と同様の手順により、都道府県と共通語彙で選定した第２の認識辞書によってユーザ発話を待ち受け、認識処理を行い、Ｓ１１３０の処理に戻る。

一方、キーワードが高信頼度ではあるもののユーザの明示的な確認を受けていない場合は、キーワードが誤認識である可能性がある。そのため、Ｓ１２２０では、対話管理部６は、「もう一度お話ください」などの応答音声を生成して出力し、ユーザの再発話を受け付け、図２のＳ１０３０へ戻る。

以上説明したように、第１の認識の結果を信頼するための判定において、信頼度に応じた処理の分岐を行い、ユーザに適切な確認を行っていくことにより、より確実にタスクを終了させることができる。また、信頼度閾値をユーザの発話回数または対話時間に応じて変化させることにより、適宜確認を入れていくことによりタスク達成率を高めることができる。

また、Ｓ１０７０の判断条件として、音声認識信頼度を使わず、ユーザの発話回数または対話時間のみを判断基準としても良い。たとえば、ユーザ発話が増えた場合は、音声認識信頼度に寄らず必ず確認を入れるなどの対話戦略が考えられる。

（第２実施形態）
続いて、本発明の第２実施形態について図２、図３のフローチャートを踏まえながら説明する。なお、第２実施形態は、上述した第１実施形態のＳ１０７０の処理を変更したものであり、それ以外の部分は第１実施形態のものと同じである。そのため、以下では、第１実施形態と異なる部分を中心に説明する。

具体的には、第２実施形態は、第１の認識の後の分岐、つまり図２のＳ１０７０の条件分岐で、各ユーザ発話の継続時間やユーザの発話音声の大きさやユーザの発話音声の高さを判断基準として、信頼度閾値を変更するものである。これらのパラメータは、ユーザが訂正発話や再発話を行う際に、特徴的な変化をすることがある。対話管理部６は、それらを検出し、分岐の条件を変える。例えば、対話管理部６は、ユーザが再発話であることが確認できれば、このときの信頼度の閾値は、確認を行う範囲を大きく取るように設定し、必ず確認を入れるようにする。これにより、単に誤認識が繰り返されることを防ぐことができる。

また、Ｓ１０７０の判断条件として、音声認識信頼度を使わず、単に各ユーザ発話の継続時間やユーザの発話音声の大きさやユーザの発話音声の高さだけを判断基準としてもよい。

なお、上記の説明では、図２のＳ１０７０の処理について説明したが、図３のＳ１１４０においても同様に、各ユーザ発話の継続時間やユーザの発話音声の大きさやユーザの発話音声の高さを判断基準として、信頼度閾値を変更するようにしてもよい。

（第２実施形態の変形例１）
続いて、本発明の第２実施形態の変形例１について図２、図３のフローチャートを踏まえながら説明する。なお、第２実施形態の変形例１は、上述した第１実施形態のＳ１０７０の処理を変更したものであり、それ以外の部分は第１実施形態のものと同じである。そのため、以下では、第１実施形態と異なる部分を中心に説明する。

具体的には、第２実施形態の変形例１は、第１の認識の後の分岐、つまり図２のＳ１０７０の条件分岐で、信頼度閾値を雑音の大きさによって変更するものである。雑音が大きい状況では、音声認識の性能が低下することが予想される。そこで、確認を行う信頼度の範囲を増やすなどの条件変更を行うことが対策として取れる。これにより、雑音が大きく音声認識が困難な状況でも、タスク達成率を高めることができる。

また、Ｓ１０７０の判断条件として、音声認識信頼度を使わず、雑音の大きさのみを判断基準としても良い。たとえば、雑音が大きな場合では、必ず確認を入れるなどの対話戦略が考えられる。

なお、上記の説明では、図２のＳ１０７０の処理について説明したが、図３のＳ１１４０においても同様に、雑音の大きさによって信頼度閾値を変更するようにしてもよい。

（第２実施形態の変形例２）
続いて、本発明の第２実施形態の変形例２について、図２、図３のフローチャートを踏まえながら説明する。なお、第２実施形態の変形例２は、上述した第１実施形態のＳ１０７０の処理を変更したものであり、それ以外の部分は第１実施形態のものと同じである。そのため、以下では、第１実施形態と異なる部分を中心に説明する。

具体的には、第２実施形態の変形例２では、雑音の大きさと発話回数・対話時間情報を複合して、Ｓ１０７０の条件分岐の信頼度閾値を変更するようにしたものである。たとえば、雑音が少なく高認識率が期待できるときには、閾値の変更は発話回数だけに依存し、発話回数が多くなるほど確認を入れる信頼度の範囲を大きくしていく。一方、雑音が大きな場合、最初から確認する信頼度の範囲を大きくしておくなどが対策としてとられる。このことにより、どんな環境に対してでも、よりユーザがスムーズにタスクを完了させることが可能となる。

なお、上記の説明では、図２のＳ１０７０の処理について説明したが、図３のＳ１１４０においても同様に、雑音の大きさと発話回数・対話時間情報を複合して信頼度閾値を変更するようにしてもよい。

（第３実施形態）
続いて、本発明の第３実施形態について図２、図３、図６のフローチャートを踏まえながら説明する。第３実施形態は、第１実施形態のＳ１０８０〜Ｓ１１００（図２）の処理を図６に示す処理に置き換えたものであり、それ以外の部分は第１実施形態のものと同じである。そのため、以下では、第１実施形態と異なる部分を中心に説明する。

第３実施形態では、キーワードをユーザに確認する際に、肯定語と否定語を受け付ける確認用辞書のほかに、第１の認識辞書も併用する。そして、認識結果に都道府県や共通語彙といったキーワードが含まれていた場合は、図２のＳ１０４０へ戻り、キーワードの認識結果として採用する。

具体的には、図６に示すＳ３０１０では、上述したＳ１０８０と同様の手順により、対話管理部６が、出力部８を介して、「東京都の駅でよろしいですか」、「東京都でよろしいですか」、「駅でよろしいですか」といった応答音声を出力する。

Ｓ３０２０では、確認用辞書のほかに、第１の認識辞書も併用して、ユーザの発話を認識する。

Ｓ３０３０では、認識結果が肯定語だけの場合、Ｓ１１２０（図３）の処理に進み、認識結果が否定語だけの場合、Ｓ１１１０（図２）へ進む。また、認識結果に都道府県や共通語彙といったキーワードが含まれていた場合は、Ｓ１０４０（図２）へ戻る。

このように、第３実施形態では、ユーザに対する確認処理において、確認用辞書のほかに、第１の認識辞書も併用して、ユーザの発話を認識するようにしている。このことによって、確認の場面で「はい」、「いいえ」といった単語のほかに、「東京都の国分寺駅です」のような施設名称の再発話も受理（認識）できるため、ユーザ発話の回数を低減することができる。また、確認の際に併用する辞書としては、第１の認識辞書をそのまま使用するのではなくて、「いや」「じゃない」など、ユーザの訂正意図を表す語彙を含んだ辞書を使用してもよい。このようにすれば、「いや、東京の国分寺駅」のような、よりユーザにとって自然性の高い発話も受理することができる。

（第４実施形態）
続いて、本発明の第４実施形態について、図７、図８のフローチャートを踏まえながら説明する。

図７、８は、本発明の第４実施形態の音声対話処理のフローチャートである。なお、以下では、ユーザが「東京都の国立能楽堂」と発話した場合を例にして説明する。また、第１の認識辞書には、図４のように「国立能楽堂」内の語彙が共通語彙として登録されていないものとする。

第４実施形態では、先ず、上述した図２のＳ１０１０〜１０６０と同様の処理が実行される（Ｓ４０１０〜Ｓ４０６０）。本例では、Ｓ４０３０の認識処理において正しく認識された場合、「東京都/の/(未知語)」と認識される。よって、都道府県は認識されているものの、共通語彙は認識されていないこととなる（「コクリツオンガクドウ」という韻列には、第１の認識辞書に登録されている共通語彙が１つも含まれないため）。

この結果を受け、Ｓ４０７０では、２種類のキーワードのうち、共通語彙が認識されていないため、Ｓ４０７５に移る。

なお、本ステップにおいて、２種類のキーワードが高信頼度（所定の信頼度以上）で認識されていればＳ４０８０に進む。Ｓ４０８０では、認識したキーワードを含む語彙を登録した第２の認識辞書を設定してＳ４１００（図８）に進む。

Ｓ４０７５では、設定されているモードにより、Ｓ４０９０およびＳ４０９５のうちのいずれかに分岐する。具体的には、対話管理部６は、全種類のキーワードを高信頼度で認識できなかった場合に、予め設定されているモードにより、図９に示す第３の辞書を利用するか、図１０に示す第２の辞書を利用するかを判定する。なお、このモードは、例えば、音声対話システムを初期設定する際、ユーザが対話管理部６に設定しておく。

つぎに、Ｓ４０７５において、Ｓ４０９０に移行すると判定された場合を説明する。

Ｓ４０９０では、キーワード「東京都」は含むが、「駅」「ホテル」「公園」といった共通語彙は１つも含まない語彙を登録した第３の認識辞書が設定され、Ｓ４１００（図８）に移行する。ここで、第３の認識辞書の構成を図９に示す。図示する第３の認識辞書では、「東京都」を含む都道府県名と、助詞と、施設名称とが登録されている。すなわち、第３の認識辞書では、例えば、図４に示す認識辞書のように、「駅」「ホテル」「公園」といった共通語彙が含まれる語彙が登録されていない。

そして、Ｓ４１００において、図９に示す第３の辞書を使った認識では、正しく認識されれば「国立能楽堂」と認識される。これにより、キーワードを含まない語彙に対しても、ユーザの発話を受理することができる。

なお、本実施形態では、図７のＳ４０３０で設定する第１の認識辞書に登録するキーワード数は、ユーザの発話回数または対話継続時間に応じて調整されるものとする。また、Ｓ４０９０で設定される第３の認識辞書に関しても、第１の認識辞書のキーワード数の変化に対応して、キーワードを含まない語彙を網羅するように調整される。ユーザの発話回数が増え、タスク達成が困難と予想される場合において、第１の認識辞書に登録する共通語彙の数を少なくし、認識率を向上させることができる。このことにより、誤認識の表出を防ぎ、より確実にタスクを遂行することができる。また、ユーザの発話回数とユーザの発話時間の双方に依存して、キーワード数を変更するようにしてもよい。

つぎに、Ｓ４０７５において、Ｓ４０９５に移行すると判定された場合を説明する。

Ｓ４０９５では、たとえばユーザが「東京の国分寺駅」と発話した場合、認識結果の「東京都」だけを採用して、図１０に示す、東京都のすべての施設名称を登録した第２の認識辞書を選定するようにしている。なお、本ステップでは、「駅」だけを採用して、図１１のような全国の駅名を登録した第２の認識辞書を選定することも可能である。たとえば、タスク達成が困難で発話回数が増えていった場合、「駅」「ホテル」「温泉」といった共通語彙は、音韻の短さなどが原因で認識が困難なことが考えられる。この場合、都道府県名だけをキーワードとして採用し、一都道府県の全施設の辞書を第２の認識辞書に切り替えて再認識を行うことで、タスク達成を見込むことができる。また、ユーザが都道府県名を省略し「国分寺駅」と施設名だけを発話した場合など、１種類のキーワードしか含まれていない場合においても、全国の駅の名称が登録された第２の認識辞書を使って再認識することにより、語彙の入力を完了させることができる。これにより、キーワードの全種類が認識結果から得られなかった場合や、誤認識した場合においても、正しい辞書を選定することができる。

続いて、Ｓ４０８０、Ｓ４０９０、Ｓ４０９５のそれぞれの処理の後に行われるＳ４１００以降の処理を説明する。

図８に示すように、まず、Ｓ４１００において、上述した図３のＳ１１２０と同様の手順にしたがい、音声データの認識処理を実行する。

その後、図３に示すＳ１１３０、１１４０、１１５０、１１６０、１１７０、１１８０と同様の処理（Ｓ４１１０、４１２０、４１３０、４１４０、４１５０、４１６０）が行われる。

つぎに、Ｓ４１２０で「施設名称の信頼度がＴｎ２未満」と判定された場合、およびＳ４１５０で「認識結果が肯定的ではない」場合に進むＳ４１７０について説明する。

Ｓ４１７０では、図３のＳ１２２０と同様の処理が行われて、Ｓ４０３０（図７）の処理に戻る。

また、上述した第４実施形態を以下のように変形してもよい。

（第４実施形態の変形例１）
まず、第４実施形態の変形例１を示す。具体的には、第４実施形態の変形例１では、各ユーザ発話の継続時間、ユーザの発話音声の大きさ、ユーザの発話音声の高さを判断基準として、キーワード数を変更する。これらのパラメータは、ユーザが訂正発話や再発話を行う際に、特徴的な変化をすることがある。それらを検出し、キーワード数を少なくし、認識率を高める。また、ユーザが再発話であることが確認できた場合、複数の種類あるキーワードのうち、一部の種類のキーワードだけを採用するといった戦略を取ることができる。例えば、所定値以上の信頼度を有するキーワードを用いることとする。

たとえば、ユーザが「東京都の国分寺駅」と発話した場合において、「東京都」だけを採用して、図１０のような東京都のすべての施設名称を登録した第２の認識辞書を選定すること、または、「駅」だけを採用して、図１１のような全国の駅名を登録した第２の認識辞書を選定することがあげられる。これにより、認識率の悪い単語の影響を排除でき、単に誤認識が繰り返されることを防ぐことができる。

（第４実施形態の変形例２）
つぎに、第４実施形態の変形例２を示す。具体的には、変形例２は、第４実施形態において、雑音の大きさを判断基準として使用することにより、キーワード数を変更するようにしたものである。雑音が大きい状況では、音声認識の性能が低下することが予想される。そこで、キーワード数を少なくし、認識率を高めることが考えられる。また、第４実施形態の変形例１と同様、複数の種類あるキーワードのうち、一部の種類のキーワードだけを採用し、辞書を選定するという戦略もとることができる(Ｓ４０９５)。これにより、雑音が大きく音声認識が困難な状況でも、タスク達成率を高めることができる。

（第４実施形態の変形例３）
つぎに、第４実施形態の変形例３を示す。変形例３は、第４実施形態において、雑音の大きさと発話回数・対話時間情報を複合して、キーワード数を変更するようにしてものである。たとえば、雑音が少なく高認識率が期待できるときには、発話回数が多くなるほどキーワード数を減らしていく。一方、雑音が大きな場合、最初からキーワード数を少なくする、あるいはキーワードの種類を少なくするなどの対策が取られる。このことにより、どんな環境に対してでも、よりユーザがスムーズにタスクを完了させることが可能となる。

（第５実施形態）
続いて、本発明の第５実施形態について、図２、図３のフローチャートと、図１２の内部状態図とを用いて説明する。本実施形態は、図２のＳ１０７０の条件分岐において、音声認識結果記憶部５に保存されている最新の認識結果の信頼度だけでなく、過去の対話の認識結果の信頼度も判断基準とすることを特徴としている。以下、本実施形態での音声対話システムの内部状態を示す図１２に従い、場面ごとに説明する。なお、以下では、ユーザが最初に、「東京」とだけ発話した場合を例にする。

具体的には、音声対話システムは、ユーザに対して、行き先の名称の発話を促す音声出力を行う（Ｓ６０１０）。例えば、「行き先の名称をお話しください」という音声データを出力する。

これに対して、本実施形態では、ユーザが「東京」とだけ発話する（Ｓ６０２０）。音声対話システムは、ユーザが発話した音声を第１の認識辞書を利用して認識処理を実行する。そして、認識処理を実行した結果、Ｓ６０３０のように複数の候補が得られ、その中でも「東京」が最も信頼される認識結果として得られたとする。この結果は、音声認識結果記憶部７に保存される（Ｓ６０４０）。さらに、音声対話システムは、信頼できるキーワードを含めて、システムの応答音声として「東京の何という施設ですか」という音声が生成し、その生成した応答音声を出力する（Ｓ６０５０）。

次に、ユーザは「国分寺駅」と発話したとする（Ｓ６０５５）。音声対話システムは、ユーザが発話した音声データを第１の認識辞書を利用して認識処理を実行する。そして、認識処理を実行した結果、Ｓ６０６０のように「(未知語)/駅」がもっとも信頼できる結果として得られたとする。なお、ここでは、未知語が検出されたため、ユーザ発話の音声データは、音声データ記憶部３に保存される（Ｓ６０８０）。

なお、Ｓ６０６０で得られた結果は、音声認識結果記憶部７に記憶されるが、その際、前の対話で得られた結果に追加するようにする（Ｓ６０７０）。また、ここでは、過去の結果に対しては信頼度を一定値減算するものとする。こうすることにより、音声認識結果記憶部７において、都道府県名として「東京」、共通語彙として「駅」の２つが高信頼度であると判断され、この２つのキーワードを含む語彙が登録された第２の認識辞書により、音声データを再認識する（Ｓ６０８５）。この認識の結果、Ｓ６０９０に示すように「国分寺駅」がもっとも信頼できる結果として得られ、対話を終了することができる。すなわち、音声対話システムは、Ｓ６０９０の認識結果を音声認識結果記憶部７に記憶し（Ｓ６１００）、もっとも信頼できる認識結果を音声出力し（Ｓ６１１０）、対話を終了する。ここでは、音声対話システムは、「国分寺駅を目的地に設定しました」という音声データを出力して対話処理を終了する。

以上説明したように、本実施形態によれば、最新の認識結果の音声認識信頼度だけでなく、過去のユーザ発話の音声認識結果の信頼度も利用することにより、最初に「東京」とだけ発話し、次に「国分寺駅」と発話するような、漸次的な発話を受け付けることができる。また、最新の音声認識結果に誤認識が含まれていた場合においても、過去の結果も参照することにより、より信頼できる結果を採用することができる。

なお、音声認識結果記憶部７への認識結果の追加方法は、図１２に書いた限りではない。たとえば、音声認識結果記憶部７に保存されているキーワードについて、ユーザ確認によって正しいと確定しているものについては、その確定済みの情報も合わせて保存しておく。このことによって、たとえばユーザが最初に「東京」と発話し、それをユーザに対して「東京でよろしいですか」と確認し、「はい」などの発話があった場合、音声認識結果記憶部７に記憶されている都道府県名「東京」は確定済みと登録される。これにより、次にユーザが「国分寺駅」とだけ発話した場合、音声認識結果記憶部７に記憶されている「東京」を参照でき、第２の認識辞書として東京の駅を登録した辞書を選定し、再認識処理を実行できる。

また、音声認識結果記憶部７に信頼度を記憶するルールとして、図１２のような足し合わせる形式ではなく、最新の認識結果に高信頼度のキーワードがあった場合、音声認識結果記憶部にある同種のキーワードの情報をいったん消去し、最新の結果で上書きするような方法も考えられる。

（第６実施形態）
続いて、本発明の第６実施形態を説明する。第６実施形態では、対話の状況に応じて、信頼度閾値の変更とキーワード数の変更の両方を行うものである。たとえば、ユーザ発話回数が増えていった場合に、信頼度の閾値で確認を増やす範囲を大きくし、かつキーワード数を減らすことが考えられる。このことによって、より確実にタスク達成へ導くことができる。

なお、本発明は以上で説明した実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形が可能である。

本発明の実施形態の音声対話システムの機能構成図である。本発明の実施形態の音声対話処理のフローチャートである。本発明の実施形態の音声対話処理のフローチャートである。本実施形態の第１の認識辞書の構成を模擬的に例示した図である。特定のキーワードを含む認識対象語彙を登録した第２の認識辞書を模擬的に例示した図である。本発明の第３実施形態の音声対話処理のフローチャートである。本発明の第４実施形態の音声対話処理のフローチャートである。本発明の第４実施形態の音声対話処理のフローチャートである。キーワードを含まない認識対象語彙を登録した第３の認識辞書を模擬的に例示した図である。都道府県と共通語彙という２種類のキーワードがある場合において、一都道府県にあるすべての認識対象語彙を登録した第２の認識辞書を模擬的に例示した図である。都道府県と共通語彙という２種類のキーワードがある場合において、１つの共通語彙を含むすべての認識対象語彙を登録した第２の認識辞書を模擬的に例示した図である。本発明の第５実施形態の音声対話処理を説明するための内部状態図である。

符号の説明

１…マイク、２…声入力部、３…声データ記憶部、４…音声認識部、５…音声認識辞書記憶部、６…対話管理部、７…音声認識結果記憶部、８…出力部

Claims

ユーザから入力された音声を音声データに変換する音声入力部と、
複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第２の認識辞書とを記憶する音声認識辞書記憶部と、
上記第１の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第２の認識辞書を用いて、上記音声データを音声認識する音声認識部と、
上記音声認識部が行った音声認識の結果を出力する出力部と、
上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、
上記対話管理部は、ユーザとの対話状況に応じて上記閾値を変更すること
を特徴とする音声対話システム。
請求項１に記載の音声対話システムであって、
上記対話管理部は、上記音声認識されたキーワードの信頼度が上記所定の閾値に満たない場合、上記出力部を介して、再度の音声入力を求める出力又は上記音声認識されたキーワードの確認を求める出力を行うこと
を特徴とする音声対話システム。
請求項１又は２に記載の音声対話システムであって、
上記音声認識辞書記憶部は、上記第１の認識辞書および第２の認識辞書の何れにも格納されない単語を格納する第３の認識辞書を有し、
上記音声認識部は、上記信頼度が所定の閾値に満たない場合には、上記第３の辞書を用いて上記音声データの音声認識を行うこと
特徴とする音声対話システム。
ユーザから入力された音声を音声データに変換する音声入力部と、
複数の単語が格納される第1の認識辞書と、上記第1の認識辞書に格納されている何れかの単語と対応付けられた単語が格納される第２の認識辞書とを記憶する音声認識辞書記憶部と、
上記第１の認識辞書を用いて、上記変換した音声データの中に含まれるキーワードを音声認識すると共に、該音声認識されたキーワードの信頼度を算出し、該信頼度が所定の閾値以上である場合に、上記第２の認識辞書を用いて、上記音声データを音声認識する音声認識部と、
上記音声認識部が行った音声認識の結果を出力する出力部と、
上記音声入力部、上記音声認識辞書記憶部、上記音声認識部、および上記出力部の動作を制御する対話管理部と、を有し、
上記対話管理部は、ユーザとの対話状況に応じて、上記第１の認識辞書に格納されるキーワードの数を変更すること
を特徴とする音声対話システム。
請求項１〜４のいずれか一項に記載の音声対話システムであって、
上記対話状況には、上記音声認識結果中のユーザの発話回数、対話開始からの継続時間、各ユーザ発話の継続時間、ユーザの発話音声の大きさ、ユーザの発話音声の高さ、および雑音の大きさのうちの少なくとも何れかが含まれること
を特徴とする音声対話システム。
請求項１〜５のいずれか一項に記載の音声対話システムであって、
上記第１の認識辞書は、ユーザの発話順にキーワードと任意の音韻列を認識するモデルである未知語とを接続した規則に基づいて構成されていること
を特徴とする音声対話システム。
請求項１に記載の音声対話システムにおいて、
複数の上記音声認識されたキーワードの一部を用いて上記第２の認識辞書の選択を行うこと
を特徴とする音声対話システム。