JP2005338274A - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP2005338274A JP2005338274A JP2004154963A JP2004154963A JP2005338274A JP 2005338274 A JP2005338274 A JP 2005338274A JP 2004154963 A JP2004154963 A JP 2004154963A JP 2004154963 A JP2004154963 A JP 2004154963A JP 2005338274 A JP2005338274 A JP 2005338274A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- speech recognition
- voice
- paraphrase
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 検索部5により検索された正式名称の言い換え語を生成し、音声認識部4により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書2を生成する。これにより、ユーザがデータベース1に登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる。
【選択図】 図1
Description
従来の音声対話装置は、予め、正式名称をデータベースに登録し、その正式名称を認識語彙とする音声認識辞書を用意する。
そして、ユーザの音声を入力すると、音声認識辞書に格納されている認識語彙の中から、その音声に対応する認識語彙を特定する音声認識処理を実施する。
従来の音声対話装置は、その音声認識処理が完了すると、その認識語彙に対応する正式名称を提示する(例えば、非特許文献1,2参照)。
図1はこの発明の実施の形態1による音声対話装置を示す構成図であり、図において、データベース1は予め正式名称(例えば、施設の名称、地名、音楽の曲名、人名などの正式なテキスト表記)が登録されているメモリである。
音声認識辞書2は音声入力回数が1回目の場合、データベース1に登録されている全ての正式名称の他、その正式名称の言い換え語を認識語彙として格納している。
対応データ格納部3はデータベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係を示す対応データを格納しているメモリである。
検索部5は対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、音声認識部4により特定された認識語彙に対応する正式名称を検索する。なお、対応データ格納部3及び検索部5から検索手段が構成されている。
言い換え語生成部7は検索部5により検索された正式名称の言い換え語を生成し、音声認識部4により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書2を生成する。なお、言い換え語生成部7は辞書更新手段を構成している。
音声特徴量抽出部12はAD変換部11から出力されたディジタル信号を5ミリ秒〜20ミリ秒程度の一定時間間隔でフレーム切り出しを行い、切り出し後のディジタル信号に対する音響分析を実施して音声特徴量ベクトルを抽出する。
単語標準パタン生成部14は音声認識辞書2に格納されている認識語彙のテキスト表記をサブワード音声単位のラベル表記に変換し、標準パタン格納部13に格納されている標準パタンからラベルに対応するサブワード音声単位の標準パタンを選択して連結することで単語標準パタンを生成する。
照合部15は単語標準パタン生成部14により生成された単語標準パタンの中から、音声特徴量抽出部12により抽出された音声特徴量ベクトルと最も照合スコアが高い単語標準パタンを選択し、その単語標準パタンに対応する単語を示すIDを音声認識結果として出力する。
図3はこの発明の実施の形態1による音声対話装置の処理内容を示すフローチャートである。
最初に、ユーザの音声入力が1回目(未だ音声認識処理や検索処理が実施されたことがない段階)である場合について説明する。
言い換え語生成部7は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、データベース1に登録されている全ての正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST2)。
例えば、施設名称がデータベース1に登録されている場合、データベース1には、施設名称のテキスト表記が格納されている。例えば「横浜国際総合競技場」や「横浜国際プール」などが格納されている。
言い換え語生成部7は、データベース1に登録されている正式名称の一部を脱落、置換、あるいは、倒置することによって言い換え語を生成する。
また、部分的な置換によって「ヨコハマコクサイソウゴウウンドウジョウ」(競技場を運動場に置換)が生成されている。
言い換え語生成部7は、これらの言い換え語を含む音声認識辞書2を生成する。なお、正式名称である「ヨコハマコクサイソウゴウキョウギジョウ」も言い換え語と同様に、音声認識辞書2に格納している。
なお、ユーザに発声を促す提示は、ディスプレイに表示してもよいし、音声で読み上げてもよい。
具体的には、次のようにして、ユーザの音声に対応する認識語彙を特定する。
音声認識部4の音声特徴量抽出部12は、AD変換部11からディジタル信号を受けると、そのディジタル信号を5ミリ秒〜20ミリ秒程度の一定時間間隔でフレーム切り出しを実施する。
そして、音声特徴量抽出部12は、切り出し後のディジタル信号に対する音響分析を実施して音声特徴量ベクトルO=[o(1),o(2),・・・,o(T)](Tは総フレーム数)を抽出する。
ここで、音声特徴量とは、少ない情報量で音声の特徴を表現するものであり、例えば、ケプストラムや、ケプストラムの動的特徴の物理量で構成する特徴量ベクトルなどが該当する。
そして、単語標準パタン生成部14は、標準パタン格納部13に格納されている標準パタンからラベルに対応するサブワード音声単位の標準パタンを選択して連結することで単語標準パタン[Λ(1),Λ(2),・・・,Λ(N)](括弧内は単語番号)を生成する。
具体的には、次の通りである。
ただし、説明の便宜上、音声認識辞書2のn番目には「横浜駅(ヨコハマエキ)」の認識語彙が存在するとする。
「ヨコハマエキ」のサブワード音声単位のラベルは、中心音素が無音であって後続音素が/y/である{――y}と、中心音素が/y/であって先行音素が無音、後続音素が/o/である{−yo}と、中心音素が/o/であって先行音素が/y/、後続音素が/k/である{yok}と、中心音素が/k/であって先行音素が/o/、後続音素が/o/である{oko}と、中心音素が/o/であって先行音素が/k/、後続音素が/h/である{koh}と、中心音素が/h/であって先行音素が/o/、後続音素が/a/である{oha}と、中心音素が/a/であって先行音素が/h/、後続音素が/m/である{ham}と、中心音素が/m/であって先行音素が/a/、後続音素が/a/である{ama}と、中心音素が/a/であって先行音素が/m/、後続音素が/e/である{mae}と、中心音素が/e/であって先行音素が/a/、後続音素が/k/である{aek}と、中心音素が/k/であって先行音素が/r/、後続音素が/i/である{eki}と、中心音素が/i/であって先行音素が/k/、後続音素が無音である{ki−}と、中心音素が無音であって先行音素が/i/、後続音素が無音である{i――}となる。
単語標準パタン生成部14は、これらのサブワード音声単位ラベル{――y}、{−yo}、{yok}、{oko}、{koh}、{oha}、{ham}、{ama}、{mae}、{aek}、{eki}、{ki−}、{i――}に対応する標準パタンλ{――y}、λ{−yo}、λ{yok}、λ{oko}、λ{koh}、λ{oha}、λ{ham}、λ{ama}、λ{mae}、λ{aek}、λ{eki}、λ{ki−}、λ{i――}を標準パタン格納部13から抽出する。これらを連結した標準パタンΛ(n)が単語「横浜駅(よこはまえき)」の単語標準パタンとなる。
以下、照合部15の照合方法を具体的に説明する。
式(1)において、第一項のP(O|Λ(i))は音響的な確率であり、単語標準パタン生成部14により生成された[Λ(1),Λ(2),・・・,Λ(N)](添え字は単語番号)を用いて計算する。
最近では、音響的な確率を計算するためにHMM(Hidden Markov Models)を用いることが多い。なお、音響的な確率の計算方法については、上記の非特許文献1に詳しく説明されている。
対応データ格納部3には、音声認識辞書2に格納されている認識語彙が、データベース1に登録されている何れの正式名称を基にして生成された単語であるかを示す対応データが格納されている(図5を参照)。
検索部5は、音声認識部4により特定された認識語彙をキーにして、対応データ格納部3から当該認識語彙に対応する正式名称を検索する。
したがって、音声認識部4により特定された認識語彙が「ヨコハマコクサイ」である場合は、その検索結果として「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索部5から出力される。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。例えば、「再度、施設名を言ってください」を提示する。
言い換え語生成部7は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST9)。
言い換え語生成部7は、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
なお、言い換え語生成部7は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
言い換え語生成部7が音声認識辞書2を生成すると、ステップST4の処理に移行するが、ステップST4以降の処理は、既に説明しているため説明を省略する。
なお、検索部5により検索された正式名称の言い換え語だけを生成しているので、音声認識処理に必要のない無駄な言い換え語の生成が行われず、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
図7はこの発明の実施の形態2による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
言い換え語生成部21は図1の言い換え語生成部7と同様に、検索部5により検索された正式名称の言い換え語を生成する。
言い換え語選択部22は検索部5により検索される正式名称の個数が所定個以下である言い換え語を音声認識辞書2に加えるようにする。
なお、言い換え語生成部21及び言い換え語選択部22から辞書更新手段が構成されている。
図8はこの発明の実施の形態2による音声対話装置の処理内容を示すフローチャートである。
言い換え語生成部21は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、図1の言い換え語生成部7と同様に、データベース1に登録されている全ての正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST2)。
音声認識部4は、ユーザが施設名を発声すると、上記実施の形態1と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成する。
具体的には、次の通りである。
このようなルールが規定されているとき、ユーザが「キョウギジョウ」と発声することにより、例えば、「横浜国際総合競技場」、「平塚陸上競技場」、「藤沢総合競技場」、「大和陸上競技場」など、3個以上の検索結果が得られるものとする。
この場合、言い換え語選択部22は、言い換え語生成部21により生成された正式名称の言い換え語(例えば、横浜国際総合競技場に対する言い換え語「キョウギジョウ」)を音声認識辞書2に加えるようにする。
図10はこの発明の実施の形態3による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
相違部分抽出部23は検索部5により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書2に加える。なお、言い換え語生成部7及び相違部分抽出部23から辞書更新手段が構成されている。
図11はこの発明の実施の形態3による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
具体的には、次の通りである。
相違部分抽出部23は、図12に示すように、検索結果の相違部分である「横浜国際美術館」の「美術館(ビジュツカン)」、「横浜国際総合競技場」の「総合競技場(ソウゴウキョウギジョウ)」と「競技場(キョウギジョウ)」、「横浜国際プール」の「プール」の読みを音声認識辞書2に加える。
なお、相違部分抽出部23は、検索結果の相違部分を音声認識辞書2に加えると、データベース1に登録されている正式名称と相違部分の対応関係を示す対応データを対応データ格納部3に格納する。
相違部分抽出部23が検索結果の相違部分を音声認識辞書2に加えると、ステップST4の処理に移行するが、ステップST4以降の処理は、上記実施の形態1と同様であるため説明を省略する。
図13はこの発明の実施の形態4による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
言い換え語生成部24は検索部5により検索された正式名称の言い換え語を生成する。
言い換え語選択部25は言い換え語生成部24により生成された言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書2に加える。なお、言い換え語生成部24及び言い換え語選択部25から辞書更新手段が構成されている。
図14はこの発明の実施の形態4による音声対話装置の処理内容を示すフローチャートである。
言い換え語生成部24は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、図1の言い換え語生成部7と同様に、データベース1に登録されている全ての正式名称の言い換え語を生成する(ステップST41)。
言い換え語選択部25は、例えば、生起確率が0.03以上の言い換え語を選択するものと設定されている場合、図15の例では、言い換え語の「ビジュツカン」と「プール」の生起確率が0.03より低いために除外される。
音声認識部4は、ユーザが施設名を発声すると、上記実施の形態1と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。
なお、言い換え語選択部25は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
言い換え語選択部25が音声認識辞書2を生成すると、ステップST4の処理に移行するが、ステップST4以降の処理は、既に説明しているため説明を省略する。
図16はこの発明の実施の形態5による音声対話装置を示す構成図であり、図において、図13と同一符号は同一または相当部分を示すので説明を省略する。
生起確率付与部26は言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書2に加える。なお、言い換え語生成部24及び生起確率付与部26から辞書更新手段が構成されている。
図17はこの発明の実施の形態5による音声対話装置の処理内容を示すフローチャートである。
言い換え語生成部24は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、図1の言い換え語生成部7と同様に、データベース1に登録されている全ての正式名称の言い換え語を生成する(ステップST41)。
生起確率付与部26は、言い換え語の生起確率を計算すると、図15に示すように、生起確率付の言い換え語を含む音声認識辞書2を生成する(ステップST51)。
音声認識部4は、ユーザが施設名を発声すると、上記実施の形態1と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。
ただし、この実施の形態5の音声認識部4は、上記の式(1)にしたがって尤度が最大の認識語彙を音声認識結果として出力するが、式(1)のP(W(i))を各言い換え語の生起確率として尤度計算を行うようにする。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。
生起確率付与部26は、言い換え語の生起確率を計算すると、生起確率付の言い換え語を含む音声認識辞書2を生成する(ステップST52)。
なお、生起確率付与部26は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
生起確率付与部26が音声認識辞書2を生成すると、ステップST4の処理に移行するが、ステップST4以降の処理は、既に説明しているため説明を省略する。
図18はこの発明の実施の形態6による音声対話装置を示す構成図であり、図において、図13と同一符号は同一または相当部分を示すので説明を省略する。
インデックス付与部27は検索部5により検索された正式名称のインデックスを生成する。
インデックス読み生成部28はインデックス付与部27により生成されたインデックスの読みを生成し、インデックスの読みを音声認識辞書2に加える。
なお、言い換え語生成部7、インデックス付与部27及びインデックス読み生成部28から辞書更新手段が構成されている。
図19はこの発明の実施の形態6による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
ここで、インデックスとは、検索部5の検索結果に対するIDであり、番号やアルファベットなどの文字である。例えば、インデックスが数字である場合は、1が「横浜国際美術館」、2が「横浜国際総合競技場」、3が「横浜国際プール」のようなインデックスを生成する。
例えば、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」のインデックスとして、1,2,3が生成された場合、1の読みである「イチバン」を「横浜国際美術館」の言い換え語として加え、2の読みである「ニバン」を「横浜国際総合競技場」の言い換え語として加え、3の読みである「サンバン」を「横浜国際プール」の言い換え語として加える。
インデックス読み生成部28がインデックスの読みを音声認識辞書2に加えると、ステップST4の処理に移行するが、ステップST4以降の処理は、上記実施の形態1と同様であるため説明を省略する。
図21はこの発明の実施の形態7による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
複数結果出力音声認識部31は音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索部5に出力する。なお、複数結果出力音声認識部31は音声認識手段を構成している。
図22はこの発明の実施の形態7による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合、ステップST3でユーザが施設名を発声し、ユーザの音声入力が2回目以上である場合、ステップST8でユーザが施設名を発声すると、複数結果出力音声認識部31は、ユーザの音声を入力する。
複数結果出力音声認識部31は、ユーザの音声を入力すると、図1の音声認識部4と同様の音声認識処理を実施する。
即ち、音声認識辞書2に格納されている認識語彙の中から、尤度(スコア)が所定値以上の認識語彙を選択して出力する。あるいは、尤度の順位が上位N位までの認識語彙を選択して出力する。
以降の処理は、上記実施の形態1と同様であるため説明を省略する。
図24はこの発明の実施の形態8による音声対話装置を示す構成図であり、図において、図21と同一符号は同一または相当部分を示すので説明を省略する。
生起確率付与部32は複数結果出力音声認識部31から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書2に加える。
なお、言い換え語生成部24及び生起確率付与部32から辞書更新手段が構成されている。
図25はこの発明の実施の形態8による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
複数結果出力音声認識部31が、例えば尤度の順位が上位2位までの音声認識結果を出力するように設定されている場合において、1位が「ヨコハマソウゴウ」、2位が「ヨコハマソウコ」となる場合、「ヨコハマソウゴウ」に対応する「横浜国際総合競技場」と「ヨコハマソウコ」に対応する「横浜赤レンガ倉庫」が検索結果として出力される。
したがって、図26に示すように、「横浜国際総合競技場」と「横浜赤レンガ倉庫」の言い換え語を生成する。
即ち、生起確率付与部32は、認識結果順位が高い認識語彙に対応する言い換え語ほど生起確率が高くなるように、その言い換え語の生起確率を計算する。
したがって、「ヨコハマソウゴウ」の認識結果順位が1位であって、「ヨコハマソウコ」の認識結果順位が2位であれば、「ヨコハマソウゴウ」の検索結果である「横浜国際総合競技場」の言い換え語の生起確率を、「ヨコハマソウコ」の検索結果「横浜赤レンガ倉庫」の言い換え語の生起確率よりも高くしている。
図27はこの発明の実施の形態9による音声対話装置を示す構成図であり、図において、図21と同一符号は同一または相当部分を示すので説明を省略する。
音声認識結果除外部33は言い換え語生成部24により生成された言い換え語を音声認識辞書2に加える際、その音声認識辞書2から複数結果出力音声認識部31により特定された認識語彙を除外する。
なお、言い換え語生成部24及び音声認識結果除外部33から辞書更新手段が構成されている。
図28はこの発明の実施の形態9による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成する。
その際、音声認識辞書2から、i−1回目の音声入力において、複数結果出力音声認識部31により特定された認識語彙を除外する(ステップST91)。
例えば、1回目の音声入力における音声認識結果が「ヨコハマコクサイ」である場合、図29に示すように、2回目の音声入力時に音声認識辞書2から「ヨコハマコクサイ」を除外している。
図30はこの発明の実施の形態10による音声対話装置を示す構成図であり、図において、図21と同一符号は同一または相当部分を示すので説明を省略する。
付帯情報格納部34は正式名称の付帯情報を格納している。付帯情報追加部35は付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書2に加える。
なお、言い換え語生成部7、付帯情報格納部34及び付帯情報追加部35から辞書更新手段が構成されている。
図31はこの発明の実施の形態10による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
ここで、付帯情報は、データベース1に登録されている正式名称の補足情報であり、例えば、施設名の正式名称が登録されている場合には、施設の住所や郵便番号や電話番号などが該当する。
「横浜国際美術館」の住所は「西区南幸町」であるので、「ニシク」と「ミナミサイワイチョウ」が音声認識辞書2に追加されている。
また、「横浜国際総合競技場」の住所は、「港北区小机町」であるので、「コウホクク」と「コヅクエチョウ」が音声認識辞書2に追加されている。
図33はこの発明の実施の形態11による音声対話装置を示す構成図であり、図において、図30と同一符号は同一または相当部分を示すので説明を省略する。
付帯情報抽出部36は付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出する。
言い換え語生成部37は付帯情報抽出部36により抽出された付帯情報を含む言い換え語を音声認識辞書2に加える。
なお、付帯情報格納部34、付帯情報抽出部36及び言い換え語生成部37から辞書更新手段が構成されている。
図34はこの発明の実施の形態11による音声対話装置の処理内容を示すフローチャートである。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
検索部5の検索結果が例えば「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」であれば、これらの住所等を付帯情報として抽出する。
また、言い換え語生成部37は、正式名称の言い換え語に付帯情報抽出部36により抽出された付帯情報を付加することにより、付帯情報を含む言い換え語を生成する。
例えば、付帯情報が住所の場合、図35に示すように、「横浜国際美術館」の言い換え語として、「ニシクノヨコハマコクサイビジュツカン」など生成する。
言い換え語生成部37は、付帯情報を含む言い換え語と、検索部5により検索された正式名称の言い換え語とを含む音声認識辞書2を生成する(ステップST112)。
なお、言い換え語生成部37は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
Claims (11)
- 正式名称が登録されているデータベースと、音声認識辞書に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する音声認識手段と、上記データベースに登録されている正式名称の中から、上記音声認識手段により特定された認識語彙に対応する正式名称を検索する検索手段と、上記検索手段により検索された正式名称を提示する検索結果提示手段とを備えた音声対話装置において、上記検索手段により検索された正式名称の言い換え語を生成し、上記音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成する辞書更新手段を設けたことを特徴とする音声対話装置。
- 辞書更新手段は、検索手段により検索される正式名称の個数が所定個以下である言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、検索手段により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、検索手段により検索された正式名称の言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、検索手段により検索された正式名称の言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、検索手段により検索された正式名称のインデックスを生成して、そのインデックスの読みを音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
- 音声認識手段は、音声認識辞書に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索手段に出力することを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、音声認識手段から出力された複数の認識語彙の認識結果順位を考慮して、検索手段により検索された正式名称の言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書に加えることを特徴とする請求項7記載の音声対話装置。
- 辞書更新手段は、言い換え語を音声認識辞書に加える際、その音声認識辞書から音声認識手段により特定された認識語彙を除外することを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、検索手段により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
- 辞書更新手段は、検索手段により検索された正式名称の付帯情報を抽出し、その付帯情報を含む言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154963A JP4554272B2 (ja) | 2004-05-25 | 2004-05-25 | 音声対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004154963A JP4554272B2 (ja) | 2004-05-25 | 2004-05-25 | 音声対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005338274A true JP2005338274A (ja) | 2005-12-08 |
JP4554272B2 JP4554272B2 (ja) | 2010-09-29 |
Family
ID=35491943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004154963A Expired - Fee Related JP4554272B2 (ja) | 2004-05-25 | 2004-05-25 | 音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4554272B2 (ja) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007205894A (ja) * | 2006-02-02 | 2007-08-16 | Alpine Electronics Inc | 車載用ナビゲーション装置及び検索施設表示方法 |
JP2008046260A (ja) * | 2006-08-11 | 2008-02-28 | Nissan Motor Co Ltd | 音声認識装置 |
JP2008134502A (ja) * | 2006-11-29 | 2008-06-12 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
JP2009169470A (ja) * | 2008-01-10 | 2009-07-30 | Nissan Motor Co Ltd | 情報案内システムおよびその認識辞書データベース更新方法 |
JP2009271465A (ja) * | 2008-05-12 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語追加装置、単語追加方法、そのプログラム |
JP2011065108A (ja) * | 2009-09-18 | 2011-03-31 | Konica Minolta Business Technologies Inc | 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム |
JP2011064969A (ja) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | 音声認識装置及び音声認識方法 |
US8279171B2 (en) | 2006-07-06 | 2012-10-02 | Panasonic Corporation | Voice input device |
JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
JP2019191646A (ja) * | 2018-04-18 | 2019-10-31 | 株式会社東芝 | 登録語管理装置、音声対話システム、登録語管理方法およびプログラム |
CN112349284A (zh) * | 2019-08-08 | 2021-02-09 | 本田技研工业株式会社 | 通知控制系统、通知控制装置、通知控制方法及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122685A (ja) * | 1998-10-09 | 2000-04-28 | Denso Corp | ナビゲーションシステム |
JP2000259178A (ja) * | 1999-03-08 | 2000-09-22 | Fujitsu Ten Ltd | 音声認識装置 |
-
2004
- 2004-05-25 JP JP2004154963A patent/JP4554272B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000122685A (ja) * | 1998-10-09 | 2000-04-28 | Denso Corp | ナビゲーションシステム |
JP2000259178A (ja) * | 1999-03-08 | 2000-09-22 | Fujitsu Ten Ltd | 音声認識装置 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007205894A (ja) * | 2006-02-02 | 2007-08-16 | Alpine Electronics Inc | 車載用ナビゲーション装置及び検索施設表示方法 |
US8279171B2 (en) | 2006-07-06 | 2012-10-02 | Panasonic Corporation | Voice input device |
JP2008046260A (ja) * | 2006-08-11 | 2008-02-28 | Nissan Motor Co Ltd | 音声認識装置 |
US8108215B2 (en) | 2006-11-29 | 2012-01-31 | Nissan Motor Co., Ltd. | Speech recognition apparatus and method |
JP2008134502A (ja) * | 2006-11-29 | 2008-06-12 | Nissan Motor Co Ltd | 音声認識装置、および音声認識方法 |
JP2009169470A (ja) * | 2008-01-10 | 2009-07-30 | Nissan Motor Co Ltd | 情報案内システムおよびその認識辞書データベース更新方法 |
JP2009271465A (ja) * | 2008-05-12 | 2009-11-19 | Nippon Telegr & Teleph Corp <Ntt> | 単語追加装置、単語追加方法、そのプログラム |
JP2011064969A (ja) * | 2009-09-17 | 2011-03-31 | Alpine Electronics Inc | 音声認識装置及び音声認識方法 |
JP2011065108A (ja) * | 2009-09-18 | 2011-03-31 | Konica Minolta Business Technologies Inc | 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム |
US8630852B2 (en) | 2009-09-18 | 2014-01-14 | Konica Minolta Business Technologies, Inc. | Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program |
JP2012226299A (ja) * | 2011-04-14 | 2012-11-15 | Hyundai Motor Co Ltd | 音声命令語処理装置及びその方法 |
JP2019191646A (ja) * | 2018-04-18 | 2019-10-31 | 株式会社東芝 | 登録語管理装置、音声対話システム、登録語管理方法およびプログラム |
CN112349284A (zh) * | 2019-08-08 | 2021-02-09 | 本田技研工业株式会社 | 通知控制系统、通知控制装置、通知控制方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4554272B2 (ja) | 2010-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
CN107016994B (zh) | 语音识别的方法及装置 | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
Zissman et al. | Automatic language identification | |
US7162423B2 (en) | Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
WO2009081861A1 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JPH08278794A (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
CN111402862A (zh) | 语音识别方法、装置、存储介质及设备 | |
JP4554272B2 (ja) | 音声対話装置 | |
US20070016420A1 (en) | Dictionary lookup for mobile devices using spelling recognition | |
CN113450757A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
US20050187767A1 (en) | Dynamic N-best algorithm to reduce speech recognition errors | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
JPH10274996A (ja) | 音声認識装置 | |
JP2000172294A (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
JP3911178B2 (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
CN116052655A (zh) | 音频处理方法、装置、电子设备和可读存储介质 | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP3472101B2 (ja) | 音声入力解釈装置及び音声入力解釈方法 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070405 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071015 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100413 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100706 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100714 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130723 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4554272 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |