JP2005338274A

JP2005338274A - 音声対話装置

Info

Publication number: JP2005338274A
Application number: JP2004154963A
Authority: JP
Inventors: Jun Ishii; 純石井; Yohei Okato; 洋平岡登
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2004-05-25
Filing date: 2004-05-25
Publication date: 2005-12-08
Anticipated expiration: 2024-05-25
Also published as: JP4554272B2

Abstract

【課題】ユーザがデータベースに登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる音声対話装置を得ることを目的とする。
【解決手段】検索部５により検索された正式名称の言い換え語を生成し、音声認識部４により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書２を生成する。これにより、ユーザがデータベース１に登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる。
【選択図】図１

Description

この発明は、ユーザの音声を認識して、その音声に対応する正式名称を検索して提示する音声対話装置に関するものである。

音声対話装置は、人間（ユーザ）と機械が音声によって対話するシステムであり、データベース検索や予約などの業務の自動化において実用性が高い。
従来の音声対話装置は、予め、正式名称をデータベースに登録し、その正式名称を認識語彙とする音声認識辞書を用意する。
そして、ユーザの音声を入力すると、音声認識辞書に格納されている認識語彙の中から、その音声に対応する認識語彙を特定する音声認識処理を実施する。
従来の音声対話装置は、その音声認識処理が完了すると、その認識語彙に対応する正式名称を提示する（例えば、非特許文献１，２参照）。

「音声認識の基礎」Ｌ．ＲＡＢＩＮＥＲ、Ｂ．Ｈ．ＪＵＡＮＧ、古井貞煕監訳、１９９５年１１月、ＮＴＴアドバンステクノロジ「小特集−音声対話システムの実力と課題−」中川聖一他、日本音響学会誌、ＶＯＬ．５４、Ｎｏ．１１、１９９８、ｐｐ．７８３−８２２、１９９８年１１月、（社）日本音響学会

従来の音声対話装置は以上のように構成されているので、ユーザが正式名称を発声すれば、データベースに登録されている正式名称を検索して提示することができる。しかし、ユーザがデータベースに登録されている正式名称を正確に知っているとは限らず、例えば、ユーザが正式名称の一部のみを発声したり、正式名称の一部を他の単語に置換して発声したりすると、ユーザの音声を正確に認識することができず、データベースに登録されている正式名称を検索して提示することができなくなるなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、ユーザがデータベースに登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる音声対話装置を得ることを目的とする。

この発明に係る音声対話装置は、検索手段により検索された正式名称の言い換え語を生成し、音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成するようにしたものである。

この発明によれば、検索手段により検索された正式名称の言い換え語を生成し、音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成するように構成したので、ユーザがデータベースに登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声対話装置を示す構成図であり、図において、データベース１は予め正式名称（例えば、施設の名称、地名、音楽の曲名、人名などの正式なテキスト表記）が登録されているメモリである。
音声認識辞書２は音声入力回数が１回目の場合、データベース１に登録されている全ての正式名称の他、その正式名称の言い換え語を認識語彙として格納している。
対応データ格納部３はデータベース１に登録されている正式名称と音声認識辞書２に格納されている認識語彙の対応関係を示す対応データを格納しているメモリである。

音声認識部４は音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する。なお、音声認識部４は音声認識手段を構成している。
検索部５は対応データ格納部３に格納されている対応データを参照して、データベース１に登録されている正式名称の中から、音声認識部４により特定された認識語彙に対応する正式名称を検索する。なお、対応データ格納部３及び検索部５から検索手段が構成されている。

検索結果提示部６は検索部５により検索された正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部５の検索結果をユーザに提示する。なお、検索結果提示部６は検索結果提示手段を構成している。
言い換え語生成部７は検索部５により検索された正式名称の言い換え語を生成し、音声認識部４により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書２を生成する。なお、言い換え語生成部７は辞書更新手段を構成している。

図２はこの発明の実施の形態１による音声対話装置の音声認識部４を示す構成図であり、図において、ＡＤ変換部１１はユーザの音声であるアナログの音声信号を入力すると、その音声信号をディジタル信号に変換して出力する。
音声特徴量抽出部１２はＡＤ変換部１１から出力されたディジタル信号を５ミリ秒〜２０ミリ秒程度の一定時間間隔でフレーム切り出しを行い、切り出し後のディジタル信号に対する音響分析を実施して音声特徴量ベクトルを抽出する。

標準パタン格納部１３は例えばサブワード音声単位の標準パタンを格納しているメモリであり、標準パタンは、例えば多数の話者の通常発声の音声データによってパラメータ学習されたＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）が該当する。
単語標準パタン生成部１４は音声認識辞書２に格納されている認識語彙のテキスト表記をサブワード音声単位のラベル表記に変換し、標準パタン格納部１３に格納されている標準パタンからラベルに対応するサブワード音声単位の標準パタンを選択して連結することで単語標準パタンを生成する。
照合部１５は単語標準パタン生成部１４により生成された単語標準パタンの中から、音声特徴量抽出部１２により抽出された音声特徴量ベクトルと最も照合スコアが高い単語標準パタンを選択し、その単語標準パタンに対応する単語を示すＩＤを音声認識結果として出力する。

この実施の形態１では、音声認識部４、検索部５、検索結果提示部６及び言い換え語生成部７が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、音声認識部４、検索部５、検索結果提示部６及び言い換え語生成部７の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図３はこの発明の実施の形態１による音声対話装置の処理内容を示すフローチャートである。

次に動作について説明する。
最初に、ユーザの音声入力が１回目（未だ音声認識処理や検索処理が実施されたことがない段階）である場合について説明する。
言い換え語生成部７は、ユーザの音声入力が１回目である場合（ステップＳＴ１）、未だ検索部５から検索結果が出力されていないので、データベース１に登録されている全ての正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ２）。

具体的には、次のようにして、音声認識辞書２を生成する。
例えば、施設名称がデータベース１に登録されている場合、データベース１には、施設名称のテキスト表記が格納されている。例えば「横浜国際総合競技場」や「横浜国際プール」などが格納されている。
言い換え語生成部７は、データベース１に登録されている正式名称の一部を脱落、置換、あるいは、倒置することによって言い換え語を生成する。

図４は言い換え語の具体例を示しており、「ヨコハマコクサイキョウギジョウ（横浜国際総合競技場）」の言い換え語として、部分的な脱落によって生成された「ヨコハマコクサイキョウギジョウ」、「ヨコハマコクサイ」、「ヨコハマキョウギジョウ」、「コクサイキョウギジョウ」、「キョウギジョウ」が生成されている。
また、部分的な置換によって「ヨコハマコクサイソウゴウウンドウジョウ」（競技場を運動場に置換）が生成されている。
言い換え語生成部７は、これらの言い換え語を含む音声認識辞書２を生成する。なお、正式名称である「ヨコハマコクサイソウゴウキョウギジョウ」も言い換え語と同様に、音声認識辞書２に格納している。

検索結果提示部６は、音声入力回数が１回目の場合は、未だ検索部５から検索結果が出力されていないので、検索部５の検索結果を提示することはなく、ユーザに発声を促す提示を行う（ステップＳＴ３）。例えば、「施設名を言ってください」を提示する。
なお、ユーザに発声を促す提示は、ディスプレイに表示してもよいし、音声で読み上げてもよい。

音声認識部４は、ユーザが施設名を発声すると、音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する（ステップＳＴ４）。音声認識部４の音声認識結果は、音声認識辞書２に格納されている認識語彙の中で、最も尤度（スコア）が高い認識語彙を表す情報であり、その認識語彙の単語番号や認識語彙のテキスト表記である。
具体的には、次のようにして、ユーザの音声に対応する認識語彙を特定する。

音声認識部４のＡＤ変換部１１は、ユーザの音声であるアナログの音声信号を入力すると、その音声信号をディジタル信号に変換して出力する。
音声認識部４の音声特徴量抽出部１２は、ＡＤ変換部１１からディジタル信号を受けると、そのディジタル信号を５ミリ秒〜２０ミリ秒程度の一定時間間隔でフレーム切り出しを実施する。
そして、音声特徴量抽出部１２は、切り出し後のディジタル信号に対する音響分析を実施して音声特徴量ベクトルＯ＝［ｏ（１），ｏ（２），・・・，ｏ（Ｔ）］（Ｔは総フレーム数）を抽出する。
ここで、音声特徴量とは、少ない情報量で音声の特徴を表現するものであり、例えば、ケプストラムや、ケプストラムの動的特徴の物理量で構成する特徴量ベクトルなどが該当する。

一方、音声認識部４の単語標準パタン生成部１４は、音声認識辞書２に格納されている認識語彙のテキスト表記［ｗｔ（１），ｗｔ（２），・・・，ｗ（Ｎ）］（括弧内は単語番号）をサブワード音声単位のラベル表記に変換する。ただし、ｗｔ（１）は「横浜駅（ヨコハマエキ）」、ｗｔ（２）は「神奈川県庁（カナガワケンチョウ）」などの施設名に関する言い換え語である。
そして、単語標準パタン生成部１４は、標準パタン格納部１３に格納されている標準パタンからラベルに対応するサブワード音声単位の標準パタンを選択して連結することで単語標準パタン［Λ（１），Λ（２），・・・，Λ（Ｎ）］（括弧内は単語番号）を生成する。

ここでは、サブワード音声単位（音素や音節などの音声片単位）の標準パタンを用いて単語標準パタンを生成するものについて示したが、前後環境依存の音素をサブワード音声単位とする標準パタンを用いて単語標準パタンを生成するようにしてもよい。
具体的には、次の通りである。
ただし、説明の便宜上、音声認識辞書２のｎ番目には「横浜駅（ヨコハマエキ）」の認識語彙が存在するとする。

音声認識辞書２のｎ番目の認識語彙は、音素系列で表すと、／ｙｏｋｏｈａｍａｅｋｉ／である。
「ヨコハマエキ」のサブワード音声単位のラベルは、中心音素が無音であって後続音素が／ｙ／である｛――ｙ｝と、中心音素が／ｙ／であって先行音素が無音、後続音素が／ｏ／である｛−ｙｏ｝と、中心音素が／ｏ／であって先行音素が／ｙ／、後続音素が／ｋ／である｛ｙｏｋ｝と、中心音素が／ｋ／であって先行音素が／ｏ／、後続音素が／ｏ／である｛ｏｋｏ｝と、中心音素が／ｏ／であって先行音素が／ｋ／、後続音素が／ｈ／である｛ｋｏｈ｝と、中心音素が／ｈ／であって先行音素が／ｏ／、後続音素が／ａ／である｛ｏｈａ｝と、中心音素が／ａ／であって先行音素が／ｈ／、後続音素が／ｍ／である｛ｈａｍ｝と、中心音素が／ｍ／であって先行音素が／ａ／、後続音素が／ａ／である｛ａｍａ｝と、中心音素が／ａ／であって先行音素が／ｍ／、後続音素が／ｅ／である｛ｍａｅ｝と、中心音素が／ｅ／であって先行音素が／ａ／、後続音素が／ｋ／である｛ａｅｋ｝と、中心音素が／ｋ／であって先行音素が／ｒ／、後続音素が／ｉ／である｛ｅｋｉ｝と、中心音素が／ｉ／であって先行音素が／ｋ／、後続音素が無音である｛ｋｉ−｝と、中心音素が無音であって先行音素が／ｉ／、後続音素が無音である｛ｉ――｝となる。
単語標準パタン生成部１４は、これらのサブワード音声単位ラベル｛――ｙ｝、｛−ｙｏ｝、｛ｙｏｋ｝、｛ｏｋｏ｝、｛ｋｏｈ｝、｛ｏｈａ｝、｛ｈａｍ｝、｛ａｍａ｝、｛ｍａｅ｝、｛ａｅｋ｝、｛ｅｋｉ｝、｛ｋｉ−｝、｛ｉ――｝に対応する標準パタンλ｛――ｙ｝、λ｛−ｙｏ｝、λ｛ｙｏｋ｝、λ｛ｏｋｏ｝、λ｛ｋｏｈ｝、λ｛ｏｈａ｝、λ｛ｈａｍ｝、λ｛ａｍａ｝、λ｛ｍａｅ｝、λ｛ａｅｋ｝、λ｛ｅｋｉ｝、λ｛ｋｉ−｝、λ｛ｉ――｝を標準パタン格納部１３から抽出する。これらを連結した標準パタンΛ（ｎ）が単語「横浜駅（よこはまえき）」の単語標準パタンとなる。

音声認識部４の照合部１５は、単語標準パタン生成部１４により生成された単語標準パタンの中から、音声特徴量抽出部１２により抽出された音声特徴量ベクトルと最も照合スコアが高い単語標準パタンを選択し、その単語標準パタンに対応する単語を示すＩＤを音声認識結果として出力する。
以下、照合部１５の照合方法を具体的に説明する。

照合部１５は、音声特徴量抽出部１２により抽出された音声特徴量ベクトルＯを下記の式（１）に代入して、単語標準パタンに対応する単語を示すＩＤを特定する。
式（１）において、第一項のＰ（Ｏ｜Λ（ｉ））は音響的な確率であり、単語標準パタン生成部１４により生成された［Λ（１），Λ（２），・・・，Λ（Ｎ）］（添え字は単語番号）を用いて計算する。
最近では、音響的な確率を計算するためにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ）を用いることが多い。なお、音響的な確率の計算方法については、上記の非特許文献１に詳しく説明されている。

また、式（１）の第二項であるＰ（Ｗ（ｉ））は単語Ｗ（ｉ）の生起確率を表すもので、言語的な確率である。
照合部１５は、式（１）によって得られた単語Ｗ（ｉ）のＩＤであるＩを音声認識結果として出力する。

検索部５は、上記のようにして、音声認識部４がユーザの音声に対応する認識語彙を特定すると、対応データ格納部３に格納されている対応データを参照して、データベース１に登録されている正式名称の中から、音声認識部４により特定された認識語彙に対応する正式名称を検索する（ステップＳＴ５）。

具体的には、次のようにして、認識語彙に対応する正式名称を検索する。
対応データ格納部３には、音声認識辞書２に格納されている認識語彙が、データベース１に登録されている何れの正式名称を基にして生成された単語であるかを示す対応データが格納されている（図５を参照）。
検索部５は、音声認識部４により特定された認識語彙をキーにして、対応データ格納部３から当該認識語彙に対応する正式名称を検索する。

図５の例では、音声認識辞書２に格納されている認識語彙「ヨコハマコクサイ」は、データベース１に登録されている「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」のそれぞれから生成されていることを示している。
したがって、音声認識部４により特定された認識語彙が「ヨコハマコクサイ」である場合は、その検索結果として「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索部５から出力される。

検索結果提示部６は、検索部５が音声認識部４の認識語彙に対応する正式名称を検索すると、その正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部５の検索結果をユーザに提示する（ステップＳＴ６）。
なお、検索部５により検索された正式名称の個数が１個であれば、一連の処理を終了するが（ステップＳＴ７）、２個以上であれば、更に絞込み検索を実施するため、検索結果提示部６が再度ユーザに発声を促す提示を行う（ステップＳＴ８）。例えば、「再度、施設名を言ってください」を提示する。

次に、ユーザの音声入力が２回目以上（既に音声認識処理や検索処理が実施されている段階）である場合について説明する。
言い換え語生成部７は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部４の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ９）。

具体的には、次のようにして、音声認識辞書２を生成する。
言い換え語生成部７は、ユーザの音声入力がｉ回目である場合、ｉ−１回目の音声入力に対する検索部５の検索結果に基づいて言い換え語を生成する。
例えば、検索部５の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図６に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、ｉ番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書２を生成する。
なお、言い換え語生成部７は、言い換え語を含む音声認識辞書２を生成すると、対応データ格納部３に格納されている対応データ（データベース１に登録されている正式名称と音声認識辞書２に格納されている認識語彙の対応関係）を更新する。
言い換え語生成部７が音声認識辞書２を生成すると、ステップＳＴ４の処理に移行するが、ステップＳＴ４以降の処理は、既に説明しているため説明を省略する。

以上で明らかなように、この実施の形態１によれば、検索部５により検索された正式名称の言い換え語を生成し、音声認識部４により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書２を生成するように構成したので、ユーザがデータベース１に登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる効果がある。
なお、検索部５により検索された正式名称の言い換え語だけを生成しているので、音声認識処理に必要のない無駄な言い換え語の生成が行われず、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態２．
図７はこの発明の実施の形態２による音声対話装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
言い換え語生成部２１は図１の言い換え語生成部７と同様に、検索部５により検索された正式名称の言い換え語を生成する。
言い換え語選択部２２は検索部５により検索される正式名称の個数が所定個以下である言い換え語を音声認識辞書２に加えるようにする。
なお、言い換え語生成部２１及び言い換え語選択部２２から辞書更新手段が構成されている。

この実施の形態２では、言い換え語生成部２１及び言い換え語選択部２２が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、言い換え語生成部２１及び言い換え語選択部２２の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図８はこの発明の実施の形態２による音声対話装置の処理内容を示すフローチャートである。

次に動作について説明する。
言い換え語生成部２１は、ユーザの音声入力が１回目である場合（ステップＳＴ１）、未だ検索部５から検索結果が出力されていないので、図１の言い換え語生成部７と同様に、データベース１に登録されている全ての正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ２）。

検索結果提示部６は、音声入力回数が１回目の場合は、未だ検索部５から検索結果が出力されていないので、検索部５の検索結果を提示することはなく、ユーザに発声を促す提示を行う（ステップＳＴ３）。例えば、「施設名を言ってください」を提示する。
音声認識部４は、ユーザが施設名を発声すると、上記実施の形態１と同様に、音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する（ステップＳＴ４）。

検索部５は、音声認識部４がユーザの音声に対応する認識語彙を特定すると、上記実施の形態１と同様に、対応データ格納部３に格納されている対応データを参照して、データベース１に登録されている正式名称の中から、音声認識部４により特定された認識語彙に対応する正式名称を検索する（ステップＳＴ５）。

検索結果提示部６は、検索部５が音声認識部４の認識語彙に対応する正式名称を検索すると、上記実施の形態１と同様に、その正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部５の検索結果をユーザに提示する（ステップＳＴ６）。
なお、検索部５により検索された正式名称の個数が１個であれば、一連の処理を終了するが（ステップＳＴ７）、２個以上であれば、更に絞込み検索を実施するため、検索結果提示部６が再度ユーザに発声を促す提示を行う（ステップＳＴ８）。

言い換え語生成部２１は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部４の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成する（ステップＳＴ２１）。

即ち、言い換え語生成部２１は、ユーザの音声入力がｉ回目である場合、ｉ−１回目の音声入力に対する検索部５の検索結果に基づいて言い換え語を生成する。
例えば、検索部５の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図６に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成する。

言い換え語選択部２２は、検索部５により検索される正式名称の個数が所定個（例えば、３個）以下の言い換え語を音声認識辞書２に加えるようにする（ステップＳＴ２２，ＳＴ２３）。
具体的には、次の通りである。

ここでは、説明の便宜上、検索部５により検索された正式名称の個数が３個以上であれば、その正式名称の言い換え語を音声認識辞書２に加えないというルールが規定されているものとする。
このようなルールが規定されているとき、ユーザが「キョウギジョウ」と発声することにより、例えば、「横浜国際総合競技場」、「平塚陸上競技場」、「藤沢総合競技場」、「大和陸上競技場」など、３個以上の検索結果が得られるものとする。

この場合、言い換え語選択部２２は、検索部５により検索された正式名称が３個以上あり、上記ルールを満足しないので、言い換え語生成部２１が言い換え語「キョウギジョウ」を音声認識辞書２に加えないようにする。

これに対して、例えば、１回目の音声検索によって、ユーザが「ヨコハマコクサイ」と発声することにより、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索されているとき、２回目の絞込み検索において、ユーザが「キョウギジョウ」と発声すると、「キョウギジョウ」に対する検索結果は、「横浜国際総合競技場」の１個であり、上記ルールを満足する（図９を参照）。
この場合、言い換え語選択部２２は、言い換え語生成部２１により生成された正式名称の言い換え語（例えば、横浜国際総合競技場に対する言い換え語「キョウギジョウ」）を音声認識辞書２に加えるようにする。

以上で明らかなように、この実施の形態２によれば、検索部５により検索される正式名称の個数が所定個以下であれば、その言い換え語を音声認識辞書２に加えるように構成したので、音声検索効率が悪い言い換え語が音声認識辞書２に加えられず、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態３．
図１０はこの発明の実施の形態３による音声対話装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
相違部分抽出部２３は検索部５により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書２に加える。なお、言い換え語生成部７及び相違部分抽出部２３から辞書更新手段が構成されている。

この実施の形態３では、相違部分抽出部２３が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、相違部分抽出部２３の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図１１はこの発明の実施の形態３による音声対話装置の処理内容を示すフローチャートである。

次に動作について説明する。
ユーザの音声入力が１回目である場合は、上記実施の形態１と同様であるため説明を省略する。
以下、ユーザの音声入力が２回目以上である場合について説明する。

言い換え語生成部７は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部４の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ２１）。

具体的には、ユーザの音声入力がｉ回目である場合、ｉ−１回目の音声入力に対する検索部５の検索結果に基づいて言い換え語を生成する。
例えば、検索部５の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図６に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、ｉ番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書２を生成する。

次に、相違部分抽出部２３は、検索部５により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書２に加える（ステップＳＴ３１）。
具体的には、次の通りである。

例えば、図１２の左側に示すような音声認識辞書２が生成されているとき、ユーザが音声入力で「ヨコハマコクサイ」と発声することにより、検索部５により「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索された場合、相違部分抽出部２３は、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」を入力して相互に比較する。

相違部分抽出部２３は、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」を相互に比較すると、その共通部分が「横浜国際」であるので、それら相違部分は「横浜国際美術館」の「美術館（ビジュツカン）」、「横浜国際総合競技場」の「総合競技場（ソウゴウキョウギジョウ）」と「競技場（キョウギジョウ）」、「横浜国際プール」の「プール」となる。
相違部分抽出部２３は、図１２に示すように、検索結果の相違部分である「横浜国際美術館」の「美術館（ビジュツカン）」、「横浜国際総合競技場」の「総合競技場（ソウゴウキョウギジョウ）」と「競技場（キョウギジョウ）」、「横浜国際プール」の「プール」の読みを音声認識辞書２に加える。
なお、相違部分抽出部２３は、検索結果の相違部分を音声認識辞書２に加えると、データベース１に登録されている正式名称と相違部分の対応関係を示す対応データを対応データ格納部３に格納する。
相違部分抽出部２３が検索結果の相違部分を音声認識辞書２に加えると、ステップＳＴ４の処理に移行するが、ステップＳＴ４以降の処理は、上記実施の形態１と同様であるため説明を省略する。

以上で明らかなように、この実施の形態３によれば、検索部５により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書２に加えるように構成したので、相違部分も言い換え語として格納され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態４．
図１３はこの発明の実施の形態４による音声対話装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
言い換え語生成部２４は検索部５により検索された正式名称の言い換え語を生成する。
言い換え語選択部２５は言い換え語生成部２４により生成された言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書２に加える。なお、言い換え語生成部２４及び言い換え語選択部２５から辞書更新手段が構成されている。

この実施の形態４では、言い換え語生成部２４及び言い換え語選択部２５が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、言い換え語生成部２４及び言い換え語選択部２５の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図１４はこの発明の実施の形態４による音声対話装置の処理内容を示すフローチャートである。

次に動作について説明する。
言い換え語生成部２４は、ユーザの音声入力が１回目である場合（ステップＳＴ１）、未だ検索部５から検索結果が出力されていないので、図１の言い換え語生成部７と同様に、データベース１に登録されている全ての正式名称の言い換え語を生成する（ステップＳＴ４１）。

言い換え語選択部２５は、言い換え語生成部２４が正式名称の言い換え語を生成すると、その言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を含む音声認識辞書２を生成する（ステップＳＴ４２）。

ここで、生起確率とは、言い換え語が発声され易さを表す指標であり、例えば、次の式（２）によって言い換え語Ｗ（ｉ）の生起確率Ｐ（Ｗ（ｉ））を求める。

式（２）において、Ｍは多数のユーザが音声入力を行った回数であり、Ｃ_ｉは言い換え語Ｗ（ｉ）が発声された回数である。Ｃ_ｉが多いほど、生起確率Ｐ（Ｗ（ｉ））が高いことになる。生起確率Ｐ（Ｗ（ｉ））は音声入力回数にしたがって変更してもよい。

図１５は言い換え語の生起確率を示している。
言い換え語選択部２５は、例えば、生起確率が０．０３以上の言い換え語を選択するものと設定されている場合、図１５の例では、言い換え語の「ビジュツカン」と「プール」の生起確率が０．０３より低いために除外される。

言い換え語生成部２４は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部４の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成する（ステップＳＴ４３）。

言い換え語選択部２５は、言い換え語生成部２４が正式名称の言い換え語を生成すると、１回目の音声入力の場合と同様にして、その言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を含む音声認識辞書２を生成する（ステップＳＴ４４）。
なお、言い換え語選択部２５は、言い換え語を含む音声認識辞書２を生成すると、対応データ格納部３に格納されている対応データ（データベース１に登録されている正式名称と音声認識辞書２に格納されている認識語彙の対応関係）を更新する。
言い換え語選択部２５が音声認識辞書２を生成すると、ステップＳＴ４の処理に移行するが、ステップＳＴ４以降の処理は、既に説明しているため説明を省略する。

以上で明らかなように、この実施の形態４によれば、言い換え語生成部２４により生成された言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書２に加えるように構成したので、ユーザにより発声される確率が低い言い換え語が除外され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態５．
図１６はこの発明の実施の形態５による音声対話装置を示す構成図であり、図において、図１３と同一符号は同一または相当部分を示すので説明を省略する。
生起確率付与部２６は言い換え語生成部２４により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書２に加える。なお、言い換え語生成部２４及び生起確率付与部２６から辞書更新手段が構成されている。

この実施の形態５では、生起確率付与部２６が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、生起確率付与部２６の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図１７はこの発明の実施の形態５による音声対話装置の処理内容を示すフローチャートである。

生起確率付与部２６は、言い換え語生成部２４が正式名称の言い換え語を生成すると、図１３の言い換え語選択部２５と同様に、その言い換え語の生起確率を計算する。
生起確率付与部２６は、言い換え語の生起確率を計算すると、図１５に示すように、生起確率付の言い換え語を含む音声認識辞書２を生成する（ステップＳＴ５１）。

検索結果提示部６は、音声入力回数が１回目の場合は、未だ検索部５から検索結果が出力されていないので、検索部５の検索結果を提示することはなく、ユーザに発声を促す提示を行う（ステップＳＴ３）。例えば、「施設名を言ってください」を提示する。
音声認識部４は、ユーザが施設名を発声すると、上記実施の形態１と同様に、音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する（ステップＳＴ４）。
ただし、この実施の形態５の音声認識部４は、上記の式（１）にしたがって尤度が最大の認識語彙を音声認識結果として出力するが、式（１）のＰ（Ｗ（ｉ））を各言い換え語の生起確率として尤度計算を行うようにする。

生起確率付与部２６は、言い換え語生成部２４が正式名称の言い換え語を生成すると、１回目の音声入力の場合と同様にして、その言い換え語の生起確率を計算する。
生起確率付与部２６は、言い換え語の生起確率を計算すると、生起確率付の言い換え語を含む音声認識辞書２を生成する（ステップＳＴ５２）。
なお、生起確率付与部２６は、言い換え語を含む音声認識辞書２を生成すると、対応データ格納部３に格納されている対応データ（データベース１に登録されている正式名称と音声認識辞書２に格納されている認識語彙の対応関係）を更新する。
生起確率付与部２６が音声認識辞書２を生成すると、ステップＳＴ４の処理に移行するが、ステップＳＴ４以降の処理は、既に説明しているため説明を省略する。

以上で明らかなように、この実施の形態５によれば、言い換え語生成部２４により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書２に加えるように構成したので、音声認識部４が尤度計算を実施する際に言い換え語の生起確率が利用され、音声認識精度を高めることができる効果を奏する。

実施の形態６．
図１８はこの発明の実施の形態６による音声対話装置を示す構成図であり、図において、図１３と同一符号は同一または相当部分を示すので説明を省略する。
インデックス付与部２７は検索部５により検索された正式名称のインデックスを生成する。
インデックス読み生成部２８はインデックス付与部２７により生成されたインデックスの読みを生成し、インデックスの読みを音声認識辞書２に加える。
なお、言い換え語生成部７、インデックス付与部２７及びインデックス読み生成部２８から辞書更新手段が構成されている。

この実施の形態６では、インデックス付与部２７及びインデックス読み生成部２８が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、インデックス付与部２７及びインデックス読み生成部２８の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図１９はこの発明の実施の形態６による音声対話装置の処理内容を示すフローチャートである。

言い換え語生成部７は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部４の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ６１）。

インデックス付与部２７は、検索部５により検索された正式名称のインデックスを生成する。
ここで、インデックスとは、検索部５の検索結果に対するＩＤであり、番号やアルファベットなどの文字である。例えば、インデックスが数字である場合は、１が「横浜国際美術館」、２が「横浜国際総合競技場」、３が「横浜国際プール」のようなインデックスを生成する。

インデックス読み生成部２８は、インデックス付与部２７が正式名称のインデックスを生成すると、そのインデックスの読みを生成し、図２０に示すように、インデックスの読みを音声認識辞書２に加える（ステップＳＴ６２）。
例えば、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」のインデックスとして、１，２，３が生成された場合、１の読みである「イチバン」を「横浜国際美術館」の言い換え語として加え、２の読みである「ニバン」を「横浜国際総合競技場」の言い換え語として加え、３の読みである「サンバン」を「横浜国際プール」の言い換え語として加える。

なお、インデックス読み生成部２８は、データベース１に登録されている正式名称とインデックスの対応関係を示す対応データを対応データ格納部３に格納する。
インデックス読み生成部２８がインデックスの読みを音声認識辞書２に加えると、ステップＳＴ４の処理に移行するが、ステップＳＴ４以降の処理は、上記実施の形態１と同様であるため説明を省略する。

以上で明らかなように、この実施の形態６によれば、検索部５により検索された正式名称のインデックスの読みを生成し、インデックスの読みを音声認識辞書２に加えるように構成したので、ユーザがインデックスを発声しても正式名称を検索することができるようになり、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態７．
図２１はこの発明の実施の形態７による音声対話装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
複数結果出力音声認識部３１は音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索部５に出力する。なお、複数結果出力音声認識部３１は音声認識手段を構成している。

この実施の形態７では、複数結果出力音声認識部３１が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、複数結果出力音声認識部３１の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図２２はこの発明の実施の形態７による音声対話装置の処理内容を示すフローチャートである。

次に動作について説明する。
ユーザの音声入力が１回目である場合、ステップＳＴ３でユーザが施設名を発声し、ユーザの音声入力が２回目以上である場合、ステップＳＴ８でユーザが施設名を発声すると、複数結果出力音声認識部３１は、ユーザの音声を入力する。
複数結果出力音声認識部３１は、ユーザの音声を入力すると、図１の音声認識部４と同様の音声認識処理を実施する。

しかし、複数結果出力音声認識部３１は、図１の音声認識部４のように、音声認識辞書２に格納されている認識語彙の中で、最も尤度（スコア）が高い認識語彙を特定するのではなく、音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定する（ステップＳＴ７１）。
即ち、音声認識辞書２に格納されている認識語彙の中から、尤度（スコア）が所定値以上の認識語彙を選択して出力する。あるいは、尤度の順位が上位Ｎ位までの認識語彙を選択して出力する。

複数結果出力音声認識部３１が、例えば尤度の順位が上位２位までの音声認識結果を出力するように設定されている場合において、１位が「ヨコハマソウゴウ」、２位が「ヨコハマソウコ」となる場合、「ヨコハマソウゴウ」に対応する「横浜国際総合競技場」と「ヨコハマソウコ」に対応する「横浜赤レンガ倉庫」が検索結果として出力される。図２３はこの検索結果を基にした言い換え語の例を示している。

検索部５は、複数結果出力音声認識部３１からユーザの音声に対応している可能性がある複数の認識語彙を受けると、対応データ格納部３に格納されている対応データを参照して、データベース１に登録されている正式名称の中から、複数の認識語彙に対応する正式名称をそれぞれ検索する（ステップＳＴ７２）。
以降の処理は、上記実施の形態１と同様であるため説明を省略する。

以上で明らかなように、この実施の形態７によれば、音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索部５に出力するように構成したので、上位Ｎ個に正しい音声認識結果が含まれていれば、１位の音声認識結果が正しくない場合でも、音声検索の失敗を防ぐことができる効果を奏する。

実施の形態８．
図２４はこの発明の実施の形態８による音声対話装置を示す構成図であり、図において、図２１と同一符号は同一または相当部分を示すので説明を省略する。
生起確率付与部３２は複数結果出力音声認識部３１から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部２４により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書２に加える。
なお、言い換え語生成部２４及び生起確率付与部３２から辞書更新手段が構成されている。

この実施の形態８では、生起確率付与部３２が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、生起確率付与部３２の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図２５はこの発明の実施の形態８による音声対話装置の処理内容を示すフローチャートである。

言い換え語生成部２４は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、複数結果出力音声認識部３１の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ４３）。

具体的には、ユーザの音声入力がｉ回目である場合、ｉ−１回目の音声入力に対する検索部５の検索結果に基づいて言い換え語を生成する。
複数結果出力音声認識部３１が、例えば尤度の順位が上位２位までの音声認識結果を出力するように設定されている場合において、１位が「ヨコハマソウゴウ」、２位が「ヨコハマソウコ」となる場合、「ヨコハマソウゴウ」に対応する「横浜国際総合競技場」と「ヨコハマソウコ」に対応する「横浜赤レンガ倉庫」が検索結果として出力される。
したがって、図２６に示すように、「横浜国際総合競技場」と「横浜赤レンガ倉庫」の言い換え語を生成する。

生起確率付与部３２は、複数結果出力音声認識部３１から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部２４により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を含む音声認識辞書２を生成する（ステップＳＴ８１）。
即ち、生起確率付与部３２は、認識結果順位が高い認識語彙に対応する言い換え語ほど生起確率が高くなるように、その言い換え語の生起確率を計算する。
したがって、「ヨコハマソウゴウ」の認識結果順位が１位であって、「ヨコハマソウコ」の認識結果順位が２位であれば、「ヨコハマソウゴウ」の検索結果である「横浜国際総合競技場」の言い換え語の生起確率を、「ヨコハマソウコ」の検索結果「横浜赤レンガ倉庫」の言い換え語の生起確率よりも高くしている。

なお、複数結果出力音声認識部３１は、上記実施の形態７と同様に、音声認識辞書２に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定するが、この実施の形態８では、上記の式（１）のＰ（Ｗ（ｉ））を各言い換え語の生起確率として尤度計算を行うようにする。

以上で明らかなように、この実施の形態８によれば、複数結果出力音声認識部３１から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部２４により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書２に加えるように構成したので、音声認識部４が尤度計算を実施する際に言い換え語の生起確率が利用され、音声認識精度を高めることができる効果を奏する。

実施の形態９．
図２７はこの発明の実施の形態９による音声対話装置を示す構成図であり、図において、図２１と同一符号は同一または相当部分を示すので説明を省略する。
音声認識結果除外部３３は言い換え語生成部２４により生成された言い換え語を音声認識辞書２に加える際、その音声認識辞書２から複数結果出力音声認識部３１により特定された認識語彙を除外する。
なお、言い換え語生成部２４及び音声認識結果除外部３３から辞書更新手段が構成されている。

この実施の形態９では、音声認識結果除外部３３が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、音声認識結果除外部３３の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図２８はこの発明の実施の形態９による音声対話装置の処理内容を示すフローチャートである。

言い換え語生成部２４は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、複数結果出力音声認識部３１の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成する（ステップＳＴ４３）。

具体的には、ユーザの音声入力がｉ回目である場合、ｉ−１回目の音声入力に対する検索部５の検索結果に基づいて言い換え語を生成する。
例えば、検索部５の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図６に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成する。

音声認識結果除外部３３は、言い換え語生成部２４が正式名称の言い換え語を生成すると、その言い換え語を含む音声認識辞書２を生成する。
その際、音声認識辞書２から、ｉ−１回目の音声入力において、複数結果出力音声認識部３１により特定された認識語彙を除外する（ステップＳＴ９１）。
例えば、１回目の音声入力における音声認識結果が「ヨコハマコクサイ」である場合、図２９に示すように、２回目の音声入力時に音声認識辞書２から「ヨコハマコクサイ」を除外している。

以上で明らかなように、この実施の形態９によれば、言い換え語生成部２４により生成された言い換え語を音声認識辞書２に加える際、その音声認識辞書２から複数結果出力音声認識部３１により特定された認識語彙を除外するように構成したので、ユーザにより発声される確率が低い言い換え語が除外され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態１０．
図３０はこの発明の実施の形態１０による音声対話装置を示す構成図であり、図において、図２１と同一符号は同一または相当部分を示すので説明を省略する。
付帯情報格納部３４は正式名称の付帯情報を格納している。付帯情報追加部３５は付帯情報格納部３４から検索部５により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書２に加える。
なお、言い換え語生成部７、付帯情報格納部３４及び付帯情報追加部３５から辞書更新手段が構成されている。

この実施の形態１０では、付帯情報格納部３４及び付帯情報追加部３５が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、付帯情報格納部３４及び付帯情報追加部３５の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図３１はこの発明の実施の形態１０による音声対話装置の処理内容を示すフローチャートである。

言い換え語生成部７は、ユーザの音声入力が２回目以上である場合（ステップＳＴ１）、既に検索部５では検索処理が実施されており、絞込み検索を実施する上で、検索部５により検索された正式名称と無関係な正式名称の言い換え語を生成しても、複数結果出力音声認識部３１の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部５により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書２を生成する（ステップＳＴ９）。

付帯情報追加部３５は、検索部５の検索結果を受けると、付帯情報格納部３４から検索部５により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書２に加える（ステップＳＴ１０１）。
ここで、付帯情報は、データベース１に登録されている正式名称の補足情報であり、例えば、施設名の正式名称が登録されている場合には、施設の住所や郵便番号や電話番号などが該当する。

図３２は検索結果である「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の住所が付帯情報として音声認識辞書２に加えられていることを示している。
「横浜国際美術館」の住所は「西区南幸町」であるので、「ニシク」と「ミナミサイワイチョウ」が音声認識辞書２に追加されている。
また、「横浜国際総合競技場」の住所は、「港北区小机町」であるので、「コウホクク」と「コヅクエチョウ」が音声認識辞書２に追加されている。

以上で明らかなように、この実施の形態１０によれば、付帯情報格納部３４から検索部５により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書２に加えるように構成したので、正式名称の付帯情報も言い換え語として格納され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

実施の形態１１．
図３３はこの発明の実施の形態１１による音声対話装置を示す構成図であり、図において、図３０と同一符号は同一または相当部分を示すので説明を省略する。
付帯情報抽出部３６は付帯情報格納部３４から検索部５により検索された正式名称の付帯情報を抽出する。
言い換え語生成部３７は付帯情報抽出部３６により抽出された付帯情報を含む言い換え語を音声認識辞書２に加える。
なお、付帯情報格納部３４、付帯情報抽出部３６及び言い換え語生成部３７から辞書更新手段が構成されている。

この実施の形態１１では、付帯情報抽出部３６及び言い換え語生成部３７が専用のハードウェア（例えば、ＣＰＵなどの中央処理装置を実装している専用のＩＣ集積回路）から構成されているものとして説明するが、付帯情報抽出部３６及び言い換え語生成部３７の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図３４はこの発明の実施の形態１１による音声対話装置の処理内容を示すフローチャートである。

付帯情報抽出部３６は、検索部５の検索結果を受けると、付帯情報格納部３４から検索部５により検索された正式名称の付帯情報を抽出する（ステップＳＴ１１１）。
検索部５の検索結果が例えば「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」であれば、これらの住所等を付帯情報として抽出する。

言い換え語生成部３７は、上記実施の形態１と同様に、検索部５により検索された正式名称の言い換え語を生成する。
また、言い換え語生成部３７は、正式名称の言い換え語に付帯情報抽出部３６により抽出された付帯情報を付加することにより、付帯情報を含む言い換え語を生成する。
例えば、付帯情報が住所の場合、図３５に示すように、「横浜国際美術館」の言い換え語として、「ニシクノヨコハマコクサイビジュツカン」など生成する。
言い換え語生成部３７は、付帯情報を含む言い換え語と、検索部５により検索された正式名称の言い換え語とを含む音声認識辞書２を生成する（ステップＳＴ１１２）。
なお、言い換え語生成部３７は、言い換え語を含む音声認識辞書２を生成すると、対応データ格納部３に格納されている対応データ（データベース１に登録されている正式名称と音声認識辞書２に格納されている認識語彙の対応関係）を更新する。

以上で明らかなように、この実施の形態１１によれば、検索部５により検索された正式名称の付帯情報を抽出し、その付帯情報を含む言い換え語を音声認識辞書２に加えるように構成したので、付帯情報を含む言い換え語も格納され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。

この発明の実施の形態１による音声対話装置を示す構成図である。この発明の実施の形態１による音声対話装置の音声認識部４を示す構成図である。この発明の実施の形態１による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。データベースに登録されている正式名称と音声認識辞書に格納されている認識語彙の対応関係を示す説明図である。言い換え語の具体例を示す説明図である。この発明の実施の形態２による音声対話装置を示す構成図である。この発明の実施の形態２による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態３による音声対話装置を示す構成図である。この発明の実施の形態３による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態４による音声対話装置を示す構成図である。この発明の実施の形態４による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態５による音声対話装置を示す構成図である。この発明の実施の形態５による音声対話装置の処理内容を示すフローチャートである。この発明の実施の形態６による音声対話装置を示す構成図である。この発明の実施の形態６による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態７による音声対話装置を示す構成図である。この発明の実施の形態７による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態８による音声対話装置を示す構成図である。この発明の実施の形態８による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態９による音声対話装置を示す構成図である。この発明の実施の形態９による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態１０による音声対話装置を示す構成図である。この発明の実施の形態１０による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。この発明の実施の形態１１による音声対話装置を示す構成図である。この発明の実施の形態１１による音声対話装置の処理内容を示すフローチャートである。言い換え語の具体例を示す説明図である。

符号の説明

１データベース、２音声認識辞書、３対応データ格納部（検索手段）、４音声認識部（音声認識手段）、５検索部（検索手段）、６検索結果提示部（検索結果提示手段）、７言い換え語生成部（辞書更新手段）、１１ＡＤ変換部、１２音声特徴量抽出部、１３標準パタン格納部、１４単語標準パタン生成部、１５照合部、２１言い換え語生成部（辞書更新手段）、２２言い換え語選択部（辞書更新手段）、２３相違部分抽出部（辞書更新手段）、２４言い換え語生成部（辞書更新手段）、２５言い換え語選択部（辞書更新手段）、２６生起確率付与部（辞書更新手段）、２７インデックス付与部（辞書更新手段）、２８インデックス読み生成部（辞書更新手段）、３１複数結果出力音声認識部（音声認識手段）、３２生起確率付与部（辞書更新手段）、３３音声認識結果除外部（辞書更新手段）、３４付帯情報格納部（辞書更新手段）、３５付帯情報追加部（辞書更新手段）、３６付帯情報抽出部（辞書更新手段）、３７言い換え語生成部（辞書更新手段）。

Claims

正式名称が登録されているデータベースと、音声認識辞書に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する音声認識手段と、上記データベースに登録されている正式名称の中から、上記音声認識手段により特定された認識語彙に対応する正式名称を検索する検索手段と、上記検索手段により検索された正式名称を提示する検索結果提示手段とを備えた音声対話装置において、上記検索手段により検索された正式名称の言い換え語を生成し、上記音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成する辞書更新手段を設けたことを特徴とする音声対話装置。
辞書更新手段は、検索手段により検索される正式名称の個数が所定個以下である言い換え語を音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、検索手段により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、検索手段により検索された正式名称の言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、検索手段により検索された正式名称の言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、検索手段により検索された正式名称のインデックスを生成して、そのインデックスの読みを音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。
音声認識手段は、音声認識辞書に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索手段に出力することを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、音声認識手段から出力された複数の認識語彙の認識結果順位を考慮して、検索手段により検索された正式名称の言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書に加えることを特徴とする請求項７記載の音声対話装置。
辞書更新手段は、言い換え語を音声認識辞書に加える際、その音声認識辞書から音声認識手段により特定された認識語彙を除外することを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、検索手段により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。
辞書更新手段は、検索手段により検索された正式名称の付帯情報を抽出し、その付帯情報を含む言い換え語を音声認識辞書に加えることを特徴とする請求項１記載の音声対話装置。