JP2005338274A - 音声対話装置 - Google Patents

音声対話装置 Download PDF

Info

Publication number
JP2005338274A
JP2005338274A JP2004154963A JP2004154963A JP2005338274A JP 2005338274 A JP2005338274 A JP 2005338274A JP 2004154963 A JP2004154963 A JP 2004154963A JP 2004154963 A JP2004154963 A JP 2004154963A JP 2005338274 A JP2005338274 A JP 2005338274A
Authority
JP
Japan
Prior art keywords
unit
speech recognition
voice
paraphrase
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004154963A
Other languages
English (en)
Other versions
JP4554272B2 (ja
Inventor
Jun Ishii
純 石井
Yohei Okato
洋平 岡登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004154963A priority Critical patent/JP4554272B2/ja
Publication of JP2005338274A publication Critical patent/JP2005338274A/ja
Application granted granted Critical
Publication of JP4554272B2 publication Critical patent/JP4554272B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 ユーザがデータベースに登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる音声対話装置を得ることを目的とする。
【解決手段】 検索部5により検索された正式名称の言い換え語を生成し、音声認識部4により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書2を生成する。これにより、ユーザがデータベース1に登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる。
【選択図】 図1

Description

この発明は、ユーザの音声を認識して、その音声に対応する正式名称を検索して提示する音声対話装置に関するものである。
音声対話装置は、人間(ユーザ)と機械が音声によって対話するシステムであり、データベース検索や予約などの業務の自動化において実用性が高い。
従来の音声対話装置は、予め、正式名称をデータベースに登録し、その正式名称を認識語彙とする音声認識辞書を用意する。
そして、ユーザの音声を入力すると、音声認識辞書に格納されている認識語彙の中から、その音声に対応する認識語彙を特定する音声認識処理を実施する。
従来の音声対話装置は、その音声認識処理が完了すると、その認識語彙に対応する正式名称を提示する(例えば、非特許文献1,2参照)。
「音声認識の基礎」L.RABINER、B.H.JUANG、古井貞煕 監訳、1995年11月、NTTアドバンステクノロジ 「小特集−音声対話システムの実力と課題−」中川聖一他、日本音響学会誌、VOL.54、No.11、1998、pp.783−822、1998年11月、(社)日本音響学会
従来の音声対話装置は以上のように構成されているので、ユーザが正式名称を発声すれば、データベースに登録されている正式名称を検索して提示することができる。しかし、ユーザがデータベースに登録されている正式名称を正確に知っているとは限らず、例えば、ユーザが正式名称の一部のみを発声したり、正式名称の一部を他の単語に置換して発声したりすると、ユーザの音声を正確に認識することができず、データベースに登録されている正式名称を検索して提示することができなくなるなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、ユーザがデータベースに登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる音声対話装置を得ることを目的とする。
この発明に係る音声対話装置は、検索手段により検索された正式名称の言い換え語を生成し、音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成するようにしたものである。
この発明によれば、検索手段により検索された正式名称の言い換え語を生成し、音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成するように構成したので、ユーザがデータベースに登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声対話装置を示す構成図であり、図において、データベース1は予め正式名称(例えば、施設の名称、地名、音楽の曲名、人名などの正式なテキスト表記)が登録されているメモリである。
音声認識辞書2は音声入力回数が1回目の場合、データベース1に登録されている全ての正式名称の他、その正式名称の言い換え語を認識語彙として格納している。
対応データ格納部3はデータベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係を示す対応データを格納しているメモリである。
音声認識部4は音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する。なお、音声認識部4は音声認識手段を構成している。
検索部5は対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、音声認識部4により特定された認識語彙に対応する正式名称を検索する。なお、対応データ格納部3及び検索部5から検索手段が構成されている。
検索結果提示部6は検索部5により検索された正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部5の検索結果をユーザに提示する。なお、検索結果提示部6は検索結果提示手段を構成している。
言い換え語生成部7は検索部5により検索された正式名称の言い換え語を生成し、音声認識部4により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書2を生成する。なお、言い換え語生成部7は辞書更新手段を構成している。
図2はこの発明の実施の形態1による音声対話装置の音声認識部4を示す構成図であり、図において、AD変換部11はユーザの音声であるアナログの音声信号を入力すると、その音声信号をディジタル信号に変換して出力する。
音声特徴量抽出部12はAD変換部11から出力されたディジタル信号を5ミリ秒〜20ミリ秒程度の一定時間間隔でフレーム切り出しを行い、切り出し後のディジタル信号に対する音響分析を実施して音声特徴量ベクトルを抽出する。
標準パタン格納部13は例えばサブワード音声単位の標準パタンを格納しているメモリであり、標準パタンは、例えば多数の話者の通常発声の音声データによってパラメータ学習されたHMM(Hidden Markov Models)が該当する。
単語標準パタン生成部14は音声認識辞書2に格納されている認識語彙のテキスト表記をサブワード音声単位のラベル表記に変換し、標準パタン格納部13に格納されている標準パタンからラベルに対応するサブワード音声単位の標準パタンを選択して連結することで単語標準パタンを生成する。
照合部15は単語標準パタン生成部14により生成された単語標準パタンの中から、音声特徴量抽出部12により抽出された音声特徴量ベクトルと最も照合スコアが高い単語標準パタンを選択し、その単語標準パタンに対応する単語を示すIDを音声認識結果として出力する。
この実施の形態1では、音声認識部4、検索部5、検索結果提示部6及び言い換え語生成部7が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、音声認識部4、検索部5、検索結果提示部6及び言い換え語生成部7の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図3はこの発明の実施の形態1による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
最初に、ユーザの音声入力が1回目(未だ音声認識処理や検索処理が実施されたことがない段階)である場合について説明する。
言い換え語生成部7は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、データベース1に登録されている全ての正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST2)。
具体的には、次のようにして、音声認識辞書2を生成する。
例えば、施設名称がデータベース1に登録されている場合、データベース1には、施設名称のテキスト表記が格納されている。例えば「横浜国際総合競技場」や「横浜国際プール」などが格納されている。
言い換え語生成部7は、データベース1に登録されている正式名称の一部を脱落、置換、あるいは、倒置することによって言い換え語を生成する。
図4は言い換え語の具体例を示しており、「ヨコハマコクサイキョウギジョウ(横浜国際総合競技場)」の言い換え語として、部分的な脱落によって生成された「ヨコハマコクサイキョウギジョウ」、「ヨコハマコクサイ」、「ヨコハマキョウギジョウ」、「コクサイキョウギジョウ」、「キョウギジョウ」が生成されている。
また、部分的な置換によって「ヨコハマコクサイソウゴウウンドウジョウ」(競技場を運動場に置換)が生成されている。
言い換え語生成部7は、これらの言い換え語を含む音声認識辞書2を生成する。なお、正式名称である「ヨコハマコクサイソウゴウキョウギジョウ」も言い換え語と同様に、音声認識辞書2に格納している。
検索結果提示部6は、音声入力回数が1回目の場合は、未だ検索部5から検索結果が出力されていないので、検索部5の検索結果を提示することはなく、ユーザに発声を促す提示を行う(ステップST3)。例えば、「施設名を言ってください」を提示する。
なお、ユーザに発声を促す提示は、ディスプレイに表示してもよいし、音声で読み上げてもよい。
音声認識部4は、ユーザが施設名を発声すると、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。音声認識部4の音声認識結果は、音声認識辞書2に格納されている認識語彙の中で、最も尤度(スコア)が高い認識語彙を表す情報であり、その認識語彙の単語番号や認識語彙のテキスト表記である。
具体的には、次のようにして、ユーザの音声に対応する認識語彙を特定する。
音声認識部4のAD変換部11は、ユーザの音声であるアナログの音声信号を入力すると、その音声信号をディジタル信号に変換して出力する。
音声認識部4の音声特徴量抽出部12は、AD変換部11からディジタル信号を受けると、そのディジタル信号を5ミリ秒〜20ミリ秒程度の一定時間間隔でフレーム切り出しを実施する。
そして、音声特徴量抽出部12は、切り出し後のディジタル信号に対する音響分析を実施して音声特徴量ベクトルO=[o(1),o(2),・・・,o(T)](Tは総フレーム数)を抽出する。
ここで、音声特徴量とは、少ない情報量で音声の特徴を表現するものであり、例えば、ケプストラムや、ケプストラムの動的特徴の物理量で構成する特徴量ベクトルなどが該当する。
一方、音声認識部4の単語標準パタン生成部14は、音声認識辞書2に格納されている認識語彙のテキスト表記[wt(1),wt(2),・・・,w(N)](括弧内は単語番号)をサブワード音声単位のラベル表記に変換する。ただし、wt(1)は「横浜駅(ヨコハマエキ)」、wt(2)は「神奈川県庁(カナガワケンチョウ)」などの施設名に関する言い換え語である。
そして、単語標準パタン生成部14は、標準パタン格納部13に格納されている標準パタンからラベルに対応するサブワード音声単位の標準パタンを選択して連結することで単語標準パタン[Λ(1),Λ(2),・・・,Λ(N)](括弧内は単語番号)を生成する。
ここでは、サブワード音声単位(音素や音節などの音声片単位)の標準パタンを用いて単語標準パタンを生成するものについて示したが、前後環境依存の音素をサブワード音声単位とする標準パタンを用いて単語標準パタンを生成するようにしてもよい。
具体的には、次の通りである。
ただし、説明の便宜上、音声認識辞書2のn番目には「横浜駅(ヨコハマエキ)」の認識語彙が存在するとする。
音声認識辞書2のn番目の認識語彙は、音素系列で表すと、/yokohamaeki/である。
「ヨコハマエキ」のサブワード音声単位のラベルは、中心音素が無音であって後続音素が/y/である{――y}と、中心音素が/y/であって先行音素が無音、後続音素が/o/である{−yo}と、中心音素が/o/であって先行音素が/y/、後続音素が/k/である{yok}と、中心音素が/k/であって先行音素が/o/、後続音素が/o/である{oko}と、中心音素が/o/であって先行音素が/k/、後続音素が/h/である{koh}と、中心音素が/h/であって先行音素が/o/、後続音素が/a/である{oha}と、中心音素が/a/であって先行音素が/h/、後続音素が/m/である{ham}と、中心音素が/m/であって先行音素が/a/、後続音素が/a/である{ama}と、中心音素が/a/であって先行音素が/m/、後続音素が/e/である{mae}と、中心音素が/e/であって先行音素が/a/、後続音素が/k/である{aek}と、中心音素が/k/であって先行音素が/r/、後続音素が/i/である{eki}と、中心音素が/i/であって先行音素が/k/、後続音素が無音である{ki−}と、中心音素が無音であって先行音素が/i/、後続音素が無音である{i――}となる。
単語標準パタン生成部14は、これらのサブワード音声単位ラベル{――y}、{−yo}、{yok}、{oko}、{koh}、{oha}、{ham}、{ama}、{mae}、{aek}、{eki}、{ki−}、{i――}に対応する標準パタンλ{――y}、λ{−yo}、λ{yok}、λ{oko}、λ{koh}、λ{oha}、λ{ham}、λ{ama}、λ{mae}、λ{aek}、λ{eki}、λ{ki−}、λ{i――}を標準パタン格納部13から抽出する。これらを連結した標準パタンΛ(n)が単語「横浜駅(よこはまえき)」の単語標準パタンとなる。
音声認識部4の照合部15は、単語標準パタン生成部14により生成された単語標準パタンの中から、音声特徴量抽出部12により抽出された音声特徴量ベクトルと最も照合スコアが高い単語標準パタンを選択し、その単語標準パタンに対応する単語を示すIDを音声認識結果として出力する。
以下、照合部15の照合方法を具体的に説明する。
照合部15は、音声特徴量抽出部12により抽出された音声特徴量ベクトルOを下記の式(1)に代入して、単語標準パタンに対応する単語を示すIDを特定する。
式(1)において、第一項のP(O|Λ(i))は音響的な確率であり、単語標準パタン生成部14により生成された[Λ(1),Λ(2),・・・,Λ(N)](添え字は単語番号)を用いて計算する。
最近では、音響的な確率を計算するためにHMM(Hidden Markov Models)を用いることが多い。なお、音響的な確率の計算方法については、上記の非特許文献1に詳しく説明されている。
また、式(1)の第二項であるP(W(i))は単語W(i)の生起確率を表すもので、言語的な確率である。
照合部15は、式(1)によって得られた単語W(i)のIDであるIを音声認識結果として出力する。
Figure 2005338274
検索部5は、上記のようにして、音声認識部4がユーザの音声に対応する認識語彙を特定すると、対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、音声認識部4により特定された認識語彙に対応する正式名称を検索する(ステップST5)。
具体的には、次のようにして、認識語彙に対応する正式名称を検索する。
対応データ格納部3には、音声認識辞書2に格納されている認識語彙が、データベース1に登録されている何れの正式名称を基にして生成された単語であるかを示す対応データが格納されている(図5を参照)。
検索部5は、音声認識部4により特定された認識語彙をキーにして、対応データ格納部3から当該認識語彙に対応する正式名称を検索する。
図5の例では、音声認識辞書2に格納されている認識語彙「ヨコハマコクサイ」は、データベース1に登録されている「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」のそれぞれから生成されていることを示している。
したがって、音声認識部4により特定された認識語彙が「ヨコハマコクサイ」である場合は、その検索結果として「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索部5から出力される。
検索結果提示部6は、検索部5が音声認識部4の認識語彙に対応する正式名称を検索すると、その正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部5の検索結果をユーザに提示する(ステップST6)。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。例えば、「再度、施設名を言ってください」を提示する。
次に、ユーザの音声入力が2回目以上(既に音声認識処理や検索処理が実施されている段階)である場合について説明する。
言い換え語生成部7は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST9)。
具体的には、次のようにして、音声認識辞書2を生成する。
言い換え語生成部7は、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
なお、言い換え語生成部7は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
言い換え語生成部7が音声認識辞書2を生成すると、ステップST4の処理に移行するが、ステップST4以降の処理は、既に説明しているため説明を省略する。
以上で明らかなように、この実施の形態1によれば、検索部5により検索された正式名称の言い換え語を生成し、音声認識部4により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書2を生成するように構成したので、ユーザがデータベース1に登録されている正式名称を正確に知らない場合でも、その正式名称を検索して提示することができる効果がある。
なお、検索部5により検索された正式名称の言い換え語だけを生成しているので、音声認識処理に必要のない無駄な言い換え語の生成が行われず、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態2.
図7はこの発明の実施の形態2による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
言い換え語生成部21は図1の言い換え語生成部7と同様に、検索部5により検索された正式名称の言い換え語を生成する。
言い換え語選択部22は検索部5により検索される正式名称の個数が所定個以下である言い換え語を音声認識辞書2に加えるようにする。
なお、言い換え語生成部21及び言い換え語選択部22から辞書更新手段が構成されている。
この実施の形態2では、言い換え語生成部21及び言い換え語選択部22が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、言い換え語生成部21及び言い換え語選択部22の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図8はこの発明の実施の形態2による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
言い換え語生成部21は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、図1の言い換え語生成部7と同様に、データベース1に登録されている全ての正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST2)。
検索結果提示部6は、音声入力回数が1回目の場合は、未だ検索部5から検索結果が出力されていないので、検索部5の検索結果を提示することはなく、ユーザに発声を促す提示を行う(ステップST3)。例えば、「施設名を言ってください」を提示する。
音声認識部4は、ユーザが施設名を発声すると、上記実施の形態1と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。
検索部5は、音声認識部4がユーザの音声に対応する認識語彙を特定すると、上記実施の形態1と同様に、対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、音声認識部4により特定された認識語彙に対応する正式名称を検索する(ステップST5)。
検索結果提示部6は、検索部5が音声認識部4の認識語彙に対応する正式名称を検索すると、上記実施の形態1と同様に、その正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部5の検索結果をユーザに提示する(ステップST6)。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。
言い換え語生成部21は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成する(ステップST21)。
即ち、言い換え語生成部21は、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成する。
言い換え語選択部22は、検索部5により検索される正式名称の個数が所定個(例えば、3個)以下の言い換え語を音声認識辞書2に加えるようにする(ステップST22,ST23)。
具体的には、次の通りである。
ここでは、説明の便宜上、検索部5により検索された正式名称の個数が3個以上であれば、その正式名称の言い換え語を音声認識辞書2に加えないというルールが規定されているものとする。
このようなルールが規定されているとき、ユーザが「キョウギジョウ」と発声することにより、例えば、「横浜国際総合競技場」、「平塚陸上競技場」、「藤沢総合競技場」、「大和陸上競技場」など、3個以上の検索結果が得られるものとする。
この場合、言い換え語選択部22は、検索部5により検索された正式名称が3個以上あり、上記ルールを満足しないので、言い換え語生成部21が言い換え語「キョウギジョウ」を音声認識辞書2に加えないようにする。
これに対して、例えば、1回目の音声検索によって、ユーザが「ヨコハマコクサイ」と発声することにより、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索されているとき、2回目の絞込み検索において、ユーザが「キョウギジョウ」と発声すると、「キョウギジョウ」に対する検索結果は、「横浜国際総合競技場」の1個であり、上記ルールを満足する(図9を参照)。
この場合、言い換え語選択部22は、言い換え語生成部21により生成された正式名称の言い換え語(例えば、横浜国際総合競技場に対する言い換え語「キョウギジョウ」)を音声認識辞書2に加えるようにする。
以上で明らかなように、この実施の形態2によれば、検索部5により検索される正式名称の個数が所定個以下であれば、その言い換え語を音声認識辞書2に加えるように構成したので、音声検索効率が悪い言い換え語が音声認識辞書2に加えられず、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態3.
図10はこの発明の実施の形態3による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
相違部分抽出部23は検索部5により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書2に加える。なお、言い換え語生成部7及び相違部分抽出部23から辞書更新手段が構成されている。
この実施の形態3では、相違部分抽出部23が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、相違部分抽出部23の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図11はこの発明の実施の形態3による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
言い換え語生成部7は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST21)。
具体的には、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
次に、相違部分抽出部23は、検索部5により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書2に加える(ステップST31)。
具体的には、次の通りである。
例えば、図12の左側に示すような音声認識辞書2が生成されているとき、ユーザが音声入力で「ヨコハマコクサイ」と発声することにより、検索部5により「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」が検索された場合、相違部分抽出部23は、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」を入力して相互に比較する。
相違部分抽出部23は、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」を相互に比較すると、その共通部分が「横浜国際」であるので、それら相違部分は「横浜国際美術館」の「美術館(ビジュツカン)」、「横浜国際総合競技場」の「総合競技場(ソウゴウキョウギジョウ)」と「競技場(キョウギジョウ)」、「横浜国際プール」の「プール」となる。
相違部分抽出部23は、図12に示すように、検索結果の相違部分である「横浜国際美術館」の「美術館(ビジュツカン)」、「横浜国際総合競技場」の「総合競技場(ソウゴウキョウギジョウ)」と「競技場(キョウギジョウ)」、「横浜国際プール」の「プール」の読みを音声認識辞書2に加える。
なお、相違部分抽出部23は、検索結果の相違部分を音声認識辞書2に加えると、データベース1に登録されている正式名称と相違部分の対応関係を示す対応データを対応データ格納部3に格納する。
相違部分抽出部23が検索結果の相違部分を音声認識辞書2に加えると、ステップST4の処理に移行するが、ステップST4以降の処理は、上記実施の形態1と同様であるため説明を省略する。
以上で明らかなように、この実施の形態3によれば、検索部5により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書2に加えるように構成したので、相違部分も言い換え語として格納され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態4.
図13はこの発明の実施の形態4による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
言い換え語生成部24は検索部5により検索された正式名称の言い換え語を生成する。
言い換え語選択部25は言い換え語生成部24により生成された言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書2に加える。なお、言い換え語生成部24及び言い換え語選択部25から辞書更新手段が構成されている。
この実施の形態4では、言い換え語生成部24及び言い換え語選択部25が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、言い換え語生成部24及び言い換え語選択部25の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図14はこの発明の実施の形態4による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
言い換え語生成部24は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、図1の言い換え語生成部7と同様に、データベース1に登録されている全ての正式名称の言い換え語を生成する(ステップST41)。
言い換え語選択部25は、言い換え語生成部24が正式名称の言い換え語を生成すると、その言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を含む音声認識辞書2を生成する(ステップST42)。
ここで、生起確率とは、言い換え語が発声され易さを表す指標であり、例えば、次の式(2)によって言い換え語W(i)の生起確率P(W(i))を求める。
Figure 2005338274
式(2)において、Mは多数のユーザが音声入力を行った回数であり、Cは言い換え語W(i)が発声された回数である。Cが多いほど、生起確率P(W(i))が高いことになる。生起確率P(W(i))は音声入力回数にしたがって変更してもよい。
図15は言い換え語の生起確率を示している。
言い換え語選択部25は、例えば、生起確率が0.03以上の言い換え語を選択するものと設定されている場合、図15の例では、言い換え語の「ビジュツカン」と「プール」の生起確率が0.03より低いために除外される。
検索結果提示部6は、音声入力回数が1回目の場合は、未だ検索部5から検索結果が出力されていないので、検索部5の検索結果を提示することはなく、ユーザに発声を促す提示を行う(ステップST3)。例えば、「施設名を言ってください」を提示する。
音声認識部4は、ユーザが施設名を発声すると、上記実施の形態1と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。
検索部5は、音声認識部4がユーザの音声に対応する認識語彙を特定すると、上記実施の形態1と同様に、対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、音声認識部4により特定された認識語彙に対応する正式名称を検索する(ステップST5)。
検索結果提示部6は、検索部5が音声認識部4の認識語彙に対応する正式名称を検索すると、上記実施の形態1と同様に、その正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部5の検索結果をユーザに提示する(ステップST6)。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。
言い換え語生成部24は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成する(ステップST43)。
言い換え語選択部25は、言い換え語生成部24が正式名称の言い換え語を生成すると、1回目の音声入力の場合と同様にして、その言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を含む音声認識辞書2を生成する(ステップST44)。
なお、言い換え語選択部25は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
言い換え語選択部25が音声認識辞書2を生成すると、ステップST4の処理に移行するが、ステップST4以降の処理は、既に説明しているため説明を省略する。
以上で明らかなように、この実施の形態4によれば、言い換え語生成部24により生成された言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書2に加えるように構成したので、ユーザにより発声される確率が低い言い換え語が除外され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態5.
図16はこの発明の実施の形態5による音声対話装置を示す構成図であり、図において、図13と同一符号は同一または相当部分を示すので説明を省略する。
生起確率付与部26は言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書2に加える。なお、言い換え語生成部24及び生起確率付与部26から辞書更新手段が構成されている。
この実施の形態5では、生起確率付与部26が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、生起確率付与部26の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図17はこの発明の実施の形態5による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
言い換え語生成部24は、ユーザの音声入力が1回目である場合(ステップST1)、未だ検索部5から検索結果が出力されていないので、図1の言い換え語生成部7と同様に、データベース1に登録されている全ての正式名称の言い換え語を生成する(ステップST41)。
生起確率付与部26は、言い換え語生成部24が正式名称の言い換え語を生成すると、図13の言い換え語選択部25と同様に、その言い換え語の生起確率を計算する。
生起確率付与部26は、言い換え語の生起確率を計算すると、図15に示すように、生起確率付の言い換え語を含む音声認識辞書2を生成する(ステップST51)。
検索結果提示部6は、音声入力回数が1回目の場合は、未だ検索部5から検索結果が出力されていないので、検索部5の検索結果を提示することはなく、ユーザに発声を促す提示を行う(ステップST3)。例えば、「施設名を言ってください」を提示する。
音声認識部4は、ユーザが施設名を発声すると、上記実施の形態1と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する(ステップST4)。
ただし、この実施の形態5の音声認識部4は、上記の式(1)にしたがって尤度が最大の認識語彙を音声認識結果として出力するが、式(1)のP(W(i))を各言い換え語の生起確率として尤度計算を行うようにする。
検索部5は、音声認識部4がユーザの音声に対応する認識語彙を特定すると、上記実施の形態1と同様に、対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、音声認識部4により特定された認識語彙に対応する正式名称を検索する(ステップST5)。
検索結果提示部6は、検索部5が音声認識部4の認識語彙に対応する正式名称を検索すると、上記実施の形態1と同様に、その正式名称をディスプレイに表示し、あるいは、その正式名称を読み上げることにより、検索部5の検索結果をユーザに提示する(ステップST6)。
なお、検索部5により検索された正式名称の個数が1個であれば、一連の処理を終了するが(ステップST7)、2個以上であれば、更に絞込み検索を実施するため、検索結果提示部6が再度ユーザに発声を促す提示を行う(ステップST8)。
言い換え語生成部24は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成する(ステップST43)。
生起確率付与部26は、言い換え語生成部24が正式名称の言い換え語を生成すると、1回目の音声入力の場合と同様にして、その言い換え語の生起確率を計算する。
生起確率付与部26は、言い換え語の生起確率を計算すると、生起確率付の言い換え語を含む音声認識辞書2を生成する(ステップST52)。
なお、生起確率付与部26は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
生起確率付与部26が音声認識辞書2を生成すると、ステップST4の処理に移行するが、ステップST4以降の処理は、既に説明しているため説明を省略する。
以上で明らかなように、この実施の形態5によれば、言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書2に加えるように構成したので、音声認識部4が尤度計算を実施する際に言い換え語の生起確率が利用され、音声認識精度を高めることができる効果を奏する。
実施の形態6.
図18はこの発明の実施の形態6による音声対話装置を示す構成図であり、図において、図13と同一符号は同一または相当部分を示すので説明を省略する。
インデックス付与部27は検索部5により検索された正式名称のインデックスを生成する。
インデックス読み生成部28はインデックス付与部27により生成されたインデックスの読みを生成し、インデックスの読みを音声認識辞書2に加える。
なお、言い換え語生成部7、インデックス付与部27及びインデックス読み生成部28から辞書更新手段が構成されている。
この実施の形態6では、インデックス付与部27及びインデックス読み生成部28が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、インデックス付与部27及びインデックス読み生成部28の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図19はこの発明の実施の形態6による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
言い換え語生成部7は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、音声認識部4の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST61)。
具体的には、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
インデックス付与部27は、検索部5により検索された正式名称のインデックスを生成する。
ここで、インデックスとは、検索部5の検索結果に対するIDであり、番号やアルファベットなどの文字である。例えば、インデックスが数字である場合は、1が「横浜国際美術館」、2が「横浜国際総合競技場」、3が「横浜国際プール」のようなインデックスを生成する。
インデックス読み生成部28は、インデックス付与部27が正式名称のインデックスを生成すると、そのインデックスの読みを生成し、図20に示すように、インデックスの読みを音声認識辞書2に加える(ステップST62)。
例えば、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」のインデックスとして、1,2,3が生成された場合、1の読みである「イチバン」を「横浜国際美術館」の言い換え語として加え、2の読みである「ニバン」を「横浜国際総合競技場」の言い換え語として加え、3の読みである「サンバン」を「横浜国際プール」の言い換え語として加える。
なお、インデックス読み生成部28は、データベース1に登録されている正式名称とインデックスの対応関係を示す対応データを対応データ格納部3に格納する。
インデックス読み生成部28がインデックスの読みを音声認識辞書2に加えると、ステップST4の処理に移行するが、ステップST4以降の処理は、上記実施の形態1と同様であるため説明を省略する。
以上で明らかなように、この実施の形態6によれば、検索部5により検索された正式名称のインデックスの読みを生成し、インデックスの読みを音声認識辞書2に加えるように構成したので、ユーザがインデックスを発声しても正式名称を検索することができるようになり、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態7.
図21はこの発明の実施の形態7による音声対話装置を示す構成図であり、図において、図1と同一符号は同一または相当部分を示すので説明を省略する。
複数結果出力音声認識部31は音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索部5に出力する。なお、複数結果出力音声認識部31は音声認識手段を構成している。
この実施の形態7では、複数結果出力音声認識部31が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、複数結果出力音声認識部31の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図22はこの発明の実施の形態7による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合、ステップST3でユーザが施設名を発声し、ユーザの音声入力が2回目以上である場合、ステップST8でユーザが施設名を発声すると、複数結果出力音声認識部31は、ユーザの音声を入力する。
複数結果出力音声認識部31は、ユーザの音声を入力すると、図1の音声認識部4と同様の音声認識処理を実施する。
しかし、複数結果出力音声認識部31は、図1の音声認識部4のように、音声認識辞書2に格納されている認識語彙の中で、最も尤度(スコア)が高い認識語彙を特定するのではなく、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定する(ステップST71)。
即ち、音声認識辞書2に格納されている認識語彙の中から、尤度(スコア)が所定値以上の認識語彙を選択して出力する。あるいは、尤度の順位が上位N位までの認識語彙を選択して出力する。
複数結果出力音声認識部31が、例えば尤度の順位が上位2位までの音声認識結果を出力するように設定されている場合において、1位が「ヨコハマソウゴウ」、2位が「ヨコハマソウコ」となる場合、「ヨコハマソウゴウ」に対応する「横浜国際総合競技場」と「ヨコハマソウコ」に対応する「横浜赤レンガ倉庫」が検索結果として出力される。図23はこの検索結果を基にした言い換え語の例を示している。
検索部5は、複数結果出力音声認識部31からユーザの音声に対応している可能性がある複数の認識語彙を受けると、対応データ格納部3に格納されている対応データを参照して、データベース1に登録されている正式名称の中から、複数の認識語彙に対応する正式名称をそれぞれ検索する(ステップST72)。
以降の処理は、上記実施の形態1と同様であるため説明を省略する。
以上で明らかなように、この実施の形態7によれば、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索部5に出力するように構成したので、上位N個に正しい音声認識結果が含まれていれば、1位の音声認識結果が正しくない場合でも、音声検索の失敗を防ぐことができる効果を奏する。
実施の形態8.
図24はこの発明の実施の形態8による音声対話装置を示す構成図であり、図において、図21と同一符号は同一または相当部分を示すので説明を省略する。
生起確率付与部32は複数結果出力音声認識部31から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書2に加える。
なお、言い換え語生成部24及び生起確率付与部32から辞書更新手段が構成されている。
この実施の形態8では、生起確率付与部32が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、生起確率付与部32の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図25はこの発明の実施の形態8による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
言い換え語生成部24は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、複数結果出力音声認識部31の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST43)。
具体的には、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
複数結果出力音声認識部31が、例えば尤度の順位が上位2位までの音声認識結果を出力するように設定されている場合において、1位が「ヨコハマソウゴウ」、2位が「ヨコハマソウコ」となる場合、「ヨコハマソウゴウ」に対応する「横浜国際総合競技場」と「ヨコハマソウコ」に対応する「横浜赤レンガ倉庫」が検索結果として出力される。
したがって、図26に示すように、「横浜国際総合競技場」と「横浜赤レンガ倉庫」の言い換え語を生成する。
生起確率付与部32は、複数結果出力音声認識部31から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を含む音声認識辞書2を生成する(ステップST81)。
即ち、生起確率付与部32は、認識結果順位が高い認識語彙に対応する言い換え語ほど生起確率が高くなるように、その言い換え語の生起確率を計算する。
したがって、「ヨコハマソウゴウ」の認識結果順位が1位であって、「ヨコハマソウコ」の認識結果順位が2位であれば、「ヨコハマソウゴウ」の検索結果である「横浜国際総合競技場」の言い換え語の生起確率を、「ヨコハマソウコ」の検索結果「横浜赤レンガ倉庫」の言い換え語の生起確率よりも高くしている。
なお、複数結果出力音声認識部31は、上記実施の形態7と同様に、音声認識辞書2に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定するが、この実施の形態8では、上記の式(1)のP(W(i))を各言い換え語の生起確率として尤度計算を行うようにする。
以上で明らかなように、この実施の形態8によれば、複数結果出力音声認識部31から出力された複数の認識語彙の認識結果順位を考慮して、言い換え語生成部24により生成された言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書2に加えるように構成したので、音声認識部4が尤度計算を実施する際に言い換え語の生起確率が利用され、音声認識精度を高めることができる効果を奏する。
実施の形態9.
図27はこの発明の実施の形態9による音声対話装置を示す構成図であり、図において、図21と同一符号は同一または相当部分を示すので説明を省略する。
音声認識結果除外部33は言い換え語生成部24により生成された言い換え語を音声認識辞書2に加える際、その音声認識辞書2から複数結果出力音声認識部31により特定された認識語彙を除外する。
なお、言い換え語生成部24及び音声認識結果除外部33から辞書更新手段が構成されている。
この実施の形態9では、音声認識結果除外部33が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、音声認識結果除外部33の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図28はこの発明の実施の形態9による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
言い換え語生成部24は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、複数結果出力音声認識部31の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成する(ステップST43)。
具体的には、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成する。
音声認識結果除外部33は、言い換え語生成部24が正式名称の言い換え語を生成すると、その言い換え語を含む音声認識辞書2を生成する。
その際、音声認識辞書2から、i−1回目の音声入力において、複数結果出力音声認識部31により特定された認識語彙を除外する(ステップST91)。
例えば、1回目の音声入力における音声認識結果が「ヨコハマコクサイ」である場合、図29に示すように、2回目の音声入力時に音声認識辞書2から「ヨコハマコクサイ」を除外している。
以上で明らかなように、この実施の形態9によれば、言い換え語生成部24により生成された言い換え語を音声認識辞書2に加える際、その音声認識辞書2から複数結果出力音声認識部31により特定された認識語彙を除外するように構成したので、ユーザにより発声される確率が低い言い換え語が除外され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態10.
図30はこの発明の実施の形態10による音声対話装置を示す構成図であり、図において、図21と同一符号は同一または相当部分を示すので説明を省略する。
付帯情報格納部34は正式名称の付帯情報を格納している。付帯情報追加部35は付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書2に加える。
なお、言い換え語生成部7、付帯情報格納部34及び付帯情報追加部35から辞書更新手段が構成されている。
この実施の形態10では、付帯情報格納部34及び付帯情報追加部35が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、付帯情報格納部34及び付帯情報追加部35の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図31はこの発明の実施の形態10による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
言い換え語生成部7は、ユーザの音声入力が2回目以上である場合(ステップST1)、既に検索部5では検索処理が実施されており、絞込み検索を実施する上で、検索部5により検索された正式名称と無関係な正式名称の言い換え語を生成しても、複数結果出力音声認識部31の音声認識処理に多くの時間を要するだけで、音声の認識精度は向上しないので、検索部5により検索された正式名称の言い換え語を生成し、それらの正式名称と言い換え語を含む音声認識辞書2を生成する(ステップST9)。
具体的には、ユーザの音声入力がi回目である場合、i−1回目の音声入力に対する検索部5の検索結果に基づいて言い換え語を生成する。
例えば、検索部5の検索結果が「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」である場合、図6に示すように、「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の言い換え語を生成し、i番目の音声検索に使用する音声認識辞書として、これらの言い換え語を含む音声認識辞書2を生成する。
付帯情報追加部35は、検索部5の検索結果を受けると、付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書2に加える(ステップST101)。
ここで、付帯情報は、データベース1に登録されている正式名称の補足情報であり、例えば、施設名の正式名称が登録されている場合には、施設の住所や郵便番号や電話番号などが該当する。
図32は検索結果である「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」の住所が付帯情報として音声認識辞書2に加えられていることを示している。
「横浜国際美術館」の住所は「西区南幸町」であるので、「ニシク」と「ミナミサイワイチョウ」が音声認識辞書2に追加されている。
また、「横浜国際総合競技場」の住所は、「港北区小机町」であるので、「コウホクク」と「コヅクエチョウ」が音声認識辞書2に追加されている。
以上で明らかなように、この実施の形態10によれば、付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書2に加えるように構成したので、正式名称の付帯情報も言い換え語として格納され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
実施の形態11.
図33はこの発明の実施の形態11による音声対話装置を示す構成図であり、図において、図30と同一符号は同一または相当部分を示すので説明を省略する。
付帯情報抽出部36は付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出する。
言い換え語生成部37は付帯情報抽出部36により抽出された付帯情報を含む言い換え語を音声認識辞書2に加える。
なお、付帯情報格納部34、付帯情報抽出部36及び言い換え語生成部37から辞書更新手段が構成されている。
この実施の形態11では、付帯情報抽出部36及び言い換え語生成部37が専用のハードウェア(例えば、CPUなどの中央処理装置を実装している専用のIC集積回路)から構成されているものとして説明するが、付帯情報抽出部36及び言い換え語生成部37の処理内容が記述されているプログラムをメモリに格納し、コンピュータが当該プログラムを実行するようにしてもよい。
図34はこの発明の実施の形態11による音声対話装置の処理内容を示すフローチャートである。
次に動作について説明する。
ユーザの音声入力が1回目である場合は、上記実施の形態1と同様であるため説明を省略する。
以下、ユーザの音声入力が2回目以上である場合について説明する。
付帯情報抽出部36は、検索部5の検索結果を受けると、付帯情報格納部34から検索部5により検索された正式名称の付帯情報を抽出する(ステップST111)。
検索部5の検索結果が例えば「横浜国際美術館」、「横浜国際総合競技場」、「横浜国際プール」であれば、これらの住所等を付帯情報として抽出する。
言い換え語生成部37は、上記実施の形態1と同様に、検索部5により検索された正式名称の言い換え語を生成する。
また、言い換え語生成部37は、正式名称の言い換え語に付帯情報抽出部36により抽出された付帯情報を付加することにより、付帯情報を含む言い換え語を生成する。
例えば、付帯情報が住所の場合、図35に示すように、「横浜国際美術館」の言い換え語として、「ニシクノヨコハマコクサイビジュツカン」など生成する。
言い換え語生成部37は、付帯情報を含む言い換え語と、検索部5により検索された正式名称の言い換え語とを含む音声認識辞書2を生成する(ステップST112)。
なお、言い換え語生成部37は、言い換え語を含む音声認識辞書2を生成すると、対応データ格納部3に格納されている対応データ(データベース1に登録されている正式名称と音声認識辞書2に格納されている認識語彙の対応関係)を更新する。
以上で明らかなように、この実施の形態11によれば、検索部5により検索された正式名称の付帯情報を抽出し、その付帯情報を含む言い換え語を音声認識辞書2に加えるように構成したので、付帯情報を含む言い換え語も格納され、複数回の音声入力によってデータベース検索を行う際の効率化を図ることができる効果を奏する。
この発明の実施の形態1による音声対話装置を示す構成図である。 この発明の実施の形態1による音声対話装置の音声認識部4を示す構成図である。 この発明の実施の形態1による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 データベースに登録されている正式名称と音声認識辞書に格納されている認識語彙の対応関係を示す説明図である。 言い換え語の具体例を示す説明図である。 この発明の実施の形態2による音声対話装置を示す構成図である。 この発明の実施の形態2による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態3による音声対話装置を示す構成図である。 この発明の実施の形態3による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態4による音声対話装置を示す構成図である。 この発明の実施の形態4による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態5による音声対話装置を示す構成図である。 この発明の実施の形態5による音声対話装置の処理内容を示すフローチャートである。 この発明の実施の形態6による音声対話装置を示す構成図である。 この発明の実施の形態6による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態7による音声対話装置を示す構成図である。 この発明の実施の形態7による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態8による音声対話装置を示す構成図である。 この発明の実施の形態8による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態9による音声対話装置を示す構成図である。 この発明の実施の形態9による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態10による音声対話装置を示す構成図である。 この発明の実施の形態10による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。 この発明の実施の形態11による音声対話装置を示す構成図である。 この発明の実施の形態11による音声対話装置の処理内容を示すフローチャートである。 言い換え語の具体例を示す説明図である。
符号の説明
1 データベース、2 音声認識辞書、3 対応データ格納部(検索手段)、4 音声認識部(音声認識手段)、5 検索部(検索手段)、6 検索結果提示部(検索結果提示手段)、7 言い換え語生成部(辞書更新手段)、11 AD変換部、12 音声特徴量抽出部、13 標準パタン格納部、14 単語標準パタン生成部、15 照合部、21 言い換え語生成部(辞書更新手段)、22 言い換え語選択部(辞書更新手段)、23 相違部分抽出部(辞書更新手段)、24 言い換え語生成部(辞書更新手段)、25 言い換え語選択部(辞書更新手段)、26 生起確率付与部(辞書更新手段)、27 インデックス付与部(辞書更新手段)、28 インデックス読み生成部(辞書更新手段)、31 複数結果出力音声認識部(音声認識手段)、32 生起確率付与部(辞書更新手段)、33 音声認識結果除外部(辞書更新手段)、34 付帯情報格納部(辞書更新手段)、35 付帯情報追加部(辞書更新手段)、36 付帯情報抽出部(辞書更新手段)、37 言い換え語生成部(辞書更新手段)。

Claims (11)

  1. 正式名称が登録されているデータベースと、音声認識辞書に格納されている認識語彙の中から、ユーザの音声に対応する認識語彙を特定する音声認識処理を実施する音声認識手段と、上記データベースに登録されている正式名称の中から、上記音声認識手段により特定された認識語彙に対応する正式名称を検索する検索手段と、上記検索手段により検索された正式名称を提示する検索結果提示手段とを備えた音声対話装置において、上記検索手段により検索された正式名称の言い換え語を生成し、上記音声認識手段により次回の音声認識処理で利用される音声認識辞書として、その言い換え語を含む音声認識辞書を生成する辞書更新手段を設けたことを特徴とする音声対話装置。
  2. 辞書更新手段は、検索手段により検索される正式名称の個数が所定個以下である言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
  3. 辞書更新手段は、検索手段により複数の正式名称が検索された場合、複数の正式名称を比較して相違部分を抽出し、その相違部分を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
  4. 辞書更新手段は、検索手段により検索された正式名称の言い換え語の生起確率を計算し、その生起確率が所定値以上の言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
  5. 辞書更新手段は、検索手段により検索された正式名称の言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
  6. 辞書更新手段は、検索手段により検索された正式名称のインデックスを生成して、そのインデックスの読みを音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
  7. 音声認識手段は、音声認識辞書に格納されている認識語彙の中から、ユーザの音声に対応している可能性がある複数の認識語彙を特定し、複数の認識語彙を検索手段に出力することを特徴とする請求項1記載の音声対話装置。
  8. 辞書更新手段は、音声認識手段から出力された複数の認識語彙の認識結果順位を考慮して、検索手段により検索された正式名称の言い換え語の生起確率を計算し、生起確率付の言い換え語を音声認識辞書に加えることを特徴とする請求項7記載の音声対話装置。
  9. 辞書更新手段は、言い換え語を音声認識辞書に加える際、その音声認識辞書から音声認識手段により特定された認識語彙を除外することを特徴とする請求項1記載の音声対話装置。
  10. 辞書更新手段は、検索手段により検索された正式名称の付帯情報を抽出し、その付帯情報を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
  11. 辞書更新手段は、検索手段により検索された正式名称の付帯情報を抽出し、その付帯情報を含む言い換え語を音声認識辞書に加えることを特徴とする請求項1記載の音声対話装置。
JP2004154963A 2004-05-25 2004-05-25 音声対話装置 Expired - Fee Related JP4554272B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004154963A JP4554272B2 (ja) 2004-05-25 2004-05-25 音声対話装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004154963A JP4554272B2 (ja) 2004-05-25 2004-05-25 音声対話装置

Publications (2)

Publication Number Publication Date
JP2005338274A true JP2005338274A (ja) 2005-12-08
JP4554272B2 JP4554272B2 (ja) 2010-09-29

Family

ID=35491943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004154963A Expired - Fee Related JP4554272B2 (ja) 2004-05-25 2004-05-25 音声対話装置

Country Status (1)

Country Link
JP (1) JP4554272B2 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007205894A (ja) * 2006-02-02 2007-08-16 Alpine Electronics Inc 車載用ナビゲーション装置及び検索施設表示方法
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2009169470A (ja) * 2008-01-10 2009-07-30 Nissan Motor Co Ltd 情報案内システムおよびその認識辞書データベース更新方法
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2011065108A (ja) * 2009-09-18 2011-03-31 Konica Minolta Business Technologies Inc 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
JP2011064969A (ja) * 2009-09-17 2011-03-31 Alpine Electronics Inc 音声認識装置及び音声認識方法
US8279171B2 (en) 2006-07-06 2012-10-02 Panasonic Corporation Voice input device
JP2012226299A (ja) * 2011-04-14 2012-11-15 Hyundai Motor Co Ltd 音声命令語処理装置及びその方法
JP2019191646A (ja) * 2018-04-18 2019-10-31 株式会社東芝 登録語管理装置、音声対話システム、登録語管理方法およびプログラム
CN112349284A (zh) * 2019-08-08 2021-02-09 本田技研工业株式会社 通知控制系统、通知控制装置、通知控制方法及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122685A (ja) * 1998-10-09 2000-04-28 Denso Corp ナビゲーションシステム
JP2000259178A (ja) * 1999-03-08 2000-09-22 Fujitsu Ten Ltd 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000122685A (ja) * 1998-10-09 2000-04-28 Denso Corp ナビゲーションシステム
JP2000259178A (ja) * 1999-03-08 2000-09-22 Fujitsu Ten Ltd 音声認識装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007205894A (ja) * 2006-02-02 2007-08-16 Alpine Electronics Inc 車載用ナビゲーション装置及び検索施設表示方法
US8279171B2 (en) 2006-07-06 2012-10-02 Panasonic Corporation Voice input device
JP2008046260A (ja) * 2006-08-11 2008-02-28 Nissan Motor Co Ltd 音声認識装置
US8108215B2 (en) 2006-11-29 2012-01-31 Nissan Motor Co., Ltd. Speech recognition apparatus and method
JP2008134502A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2009169470A (ja) * 2008-01-10 2009-07-30 Nissan Motor Co Ltd 情報案内システムおよびその認識辞書データベース更新方法
JP2009271465A (ja) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> 単語追加装置、単語追加方法、そのプログラム
JP2011064969A (ja) * 2009-09-17 2011-03-31 Alpine Electronics Inc 音声認識装置及び音声認識方法
JP2011065108A (ja) * 2009-09-18 2011-03-31 Konica Minolta Business Technologies Inc 画像処理装置、音声認識処理装置、音声認識処理装置の制御方法、およびコンピュータプログラム
US8630852B2 (en) 2009-09-18 2014-01-14 Konica Minolta Business Technologies, Inc. Image processing apparatus, speech recognition processing apparatus, control method for speech recognition processing apparatus, and computer-readable storage medium for computer program
JP2012226299A (ja) * 2011-04-14 2012-11-15 Hyundai Motor Co Ltd 音声命令語処理装置及びその方法
JP2019191646A (ja) * 2018-04-18 2019-10-31 株式会社東芝 登録語管理装置、音声対話システム、登録語管理方法およびプログラム
CN112349284A (zh) * 2019-08-08 2021-02-09 本田技研工业株式会社 通知控制系统、通知控制装置、通知控制方法及存储介质

Also Published As

Publication number Publication date
JP4554272B2 (ja) 2010-09-29

Similar Documents

Publication Publication Date Title
JP6188831B2 (ja) 音声検索装置および音声検索方法
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
CN107016994B (zh) 语音识别的方法及装置
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
Zissman et al. Automatic language identification
US7162423B2 (en) Method and apparatus for generating and displaying N-Best alternatives in a speech recognition system
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
JP3848319B2 (ja) 情報処理方法及び情報処理装置
WO2009081861A1 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
JPH08278794A (ja) 音声認識装置および音声認識方法並びに音声翻訳装置
CN111402862A (zh) 语音识别方法、装置、存储介质及设备
JP4554272B2 (ja) 音声対話装置
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
CN113450757A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
CN102970618A (zh) 基于音节识别的视频点播方法
JPH10274996A (ja) 音声認識装置
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
JP5004863B2 (ja) 音声検索装置および音声検索方法
JP3911178B2 (ja) 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
CN116052655A (zh) 音频处理方法、装置、电子设备和可读存储介质
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP3472101B2 (ja) 音声入力解釈装置及び音声入力解釈方法
KR101250897B1 (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070405

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071015

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100413

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100706

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100714

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4554272

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees