JP2004145014A - Apparatus and method for automatic vocal answering - Google Patents
Apparatus and method for automatic vocal answering Download PDFInfo
- Publication number
- JP2004145014A JP2004145014A JP2002310066A JP2002310066A JP2004145014A JP 2004145014 A JP2004145014 A JP 2004145014A JP 2002310066 A JP2002310066 A JP 2002310066A JP 2002310066 A JP2002310066 A JP 2002310066A JP 2004145014 A JP2004145014 A JP 2004145014A
- Authority
- JP
- Japan
- Prior art keywords
- reading
- recognition
- voice
- speech
- speech synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識処理と音声合成処理とを行なって、入力された音声に自動で応答を行なう自動音声応答装置、及び自動音声応答方法に関する。
【0002】
【従来の技術】
近年、音声認識技術や音声合成技術の発達により、利用者からの音声に自動で応答する自動音声応答装置が実用化されている(例えば特許文献1参照)。自動音声応答装置は、音声ポータルやカーナビゲーションシステムといった自動応答サービスが必要とされる種々の分野で利用されている。
【0003】
図4は、従来の自動音声応答装置の構成を示す図である。図4に示すように、自動音声応答装置は、主に、音声認識処理部21と、対話処理部22と、音声合成処理部23とで構成されている。
【0004】
音声認識処理部21は、音声が入力されると、音響情報を保持する音響モデル24と文法情報部25とを利用して音声認識処理を行なう。また、音声認識処理部21は、認識した単語とこれに対応するスロット情報とを認識情報として、対話処理部22に出力する。なお、音響モデル24と文法情報部25とを利用した音声認識処理は、音声認識処理の一例であるが、近年最も利用されている。
【0005】
音響モデル24は、ある音声がいずれの文字に対応するかを決定するために参照される音響情報が登録されたデータベースである。文法情報部25は、音声認識用の文法を登録した文法辞書であり、ユーザが発声すると予想される単語又は単語列を登録している。単語列が登録されている場合は、文法情報部25には、単語の順番情報が状態遷移情報として更に登録される。
【0006】
また、文法情報部25には、単語毎に設定されたスロット情報が登録されている。スロット情報は、ある単語が発声された場合に音声認識の結果として返される戻り値であり、後述するアプリケーションデータベース26の識別子として利用される。
【0007】
対話処理部22は、スロット情報が入力されると、音声認識処理部21の識別結果に応じたプロンプトを決定し、プロンプトデータベース27から、決定されたプロンプトに対応するプロンプ文を抽出する。更に、対話処理部22は、アプリケーションデータベース26を参照して、このプロンプト文に含まれる変数を認識結果に対応する具体的な値に置き換える。プロンプト文はテキストデータであり、音声合成処理部23に入力される。
【0008】
音声合成処理部23は、ユーザ読み辞書28、基本読み辞書29、波形辞書30及び言語辞書31を備えている。音声合成処理部23は、プロンプト文が入力されると、出力音声を作成する。具体的には、音声合成処理部23は、言語辞書31を用いてプロンプト文を形態素解析し、基本読み辞書29及びユーザ読み辞書28を参照してプロンプト文に抑揚情報やポーズ情報、アクセント情報を付与し、更に、波形辞書に登録されている音声データを抽出して出力音声を作成する。
【0009】
なお、基本読み辞書29及びユーザ読み辞書28には、下記の表5に示すように、テキスト(主に単語)、それに対応するアクセント記号付きの発音、及び品詞情報が格納されている。
【0010】
【表5】
【0011】
なお、基本読み辞書は29、一般的なテキスト(主に単語)が登録された辞書であり、音声合成の開発者から予め提供される。また、ユーザ読み辞書28は、基本読み辞書に登録されていないテキストが登録された辞書であり、ユーザが個別な事情に対応して作成する。通常、音声合成処理部23は、ユーザ読み辞書28を、基本読み辞書29よりも優先して参照する。
【0012】
【特許文献1】
特開2000−242289号公報
【0013】
【発明が解決しようとする課題】
しかしながら、上記図4で示す自動音声応答装置を用いた自動応答サービスでは、入力された音声を認識し、これを音声出力するためには、音声認識用の文法情報部25と音声合成用の基本読み辞書29又はユーザ読み辞書28とに、認識させたい音声を登録する必要がある。
【0014】
例えば、「富士通研(フジツウケン)」を音声認識させたい場合、音声認識用の文法情報部25に、読みである単語「フジツウケン」を登録し、更に、ユーザ読み辞書28に、文字「富士通研」と読み「フジツーケン」とを登録する必要がある。なお、基本読み辞書29に、「富士通研」が既に登録されている場合は、ユーザ読み辞書28に登録する必要はないと考えられるが、音声合成処理部23による音声出力の正確さを高める点からは、ユーザ読み辞書28にも登録する必要がある。
【0015】
このように、上記図4で示す自動音声応答装置を用いて自動応答サービスを行なう場合は、運用管理上、辞書を二重に管理しなければならないという問題がある。
【0016】
また、上記図4で示す自動音声応答装置を用いた自動応答サービスでは、漢字の読み間違えの問題もある。例えば、人名の「長田さん」は、「ナガタさん」、「オサダさん」の二通りの読み方があるが、上記図4で示す自動音声応答装置では、その構成上、一つの漢字に対して一つの読みしか、基本読み辞書28又はユーザ読み辞書29に登録できないこととなっている。また、基本読み辞書28とユーザ読み辞書29それぞれに違う読みを登録しても、ユーザ読み辞書が優先されてしまう。
【0017】
このため、ユーザが「長田(ナガタ)さん」と発声し、音声認識処理部21で「ナガタさん」と認識されても、ユーザ読み辞書28に「長田さん(オサダさん)と登録されていれば、音声合成処理部23で「オサダさん」と出力されてしまう。
【0018】
また、上記図4で示す自動音声応答装置では、音声認識処理部21と音声合成処理部23との間では直接情報のやり取りは行なわれておらず、これらの間には対話処理部22が介在している。
【0019】
このため、ユーザが「長田(ナガタ)さん」と発声し、音声認識処理で「ナガタさん」と認識されても、対話処理部22が、アプリケーションデータベース26を参照してプロンプト文に含まれる変数を置き換える際に、「長田さん」と置き換えてしまうと、「オサダさん」と出力される場合がある。
【0020】
本発明の目的は、文法と辞書の管理を容易に行なうことができ、且つ、入力された音声に忠実に音声応答を行ない得る自動音声応答装置及び自動音声応答方法を提供することにある。
【0021】
【課題を解決するための手段】
上記目的を達成するために本発明にかかる自動音声応答装置は、音声認識処理を行なって、認識情報を出力する音声認識処理部と、前記認識情報に対応するプロンプトを決定し、前記認識情報と決定した前記プロンプトからプロンプト情報を作成する対話処理部と、前記プロンプト情報に基づいて音声合成処理を行なう音声合成処理部と、一又は複数の単語が音声認識用読み及び音声合成用読みと共に登録されている共通読みデータベースとを少なくとも有し、前記音声認識処理部は、前記共通読みデータベースに登録された単語を認識した場合に、前記認識した単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を出力し、前記対話処理部は、前記識別子に基づいて、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成することを特徴とする。
【0022】
上記本発明にかかる自動音声応答装置においては、前記音声認識処理部が、前記認識した単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた認識情報を出力する代わりに、前記認識した単語の音声合成用読みを含んだ前記認識情報を出力し、前記対話処理部が、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する代わりに、前記認識情報に含まれた単語の音声合成用読みを含んだプロンプト情報を作成する態様とすることもできる。
【0023】
また、上記本発明にかかる自動音声応答装置は、前記共通読みデータベースに登録されている音声認識用読みを用いて音声認識用の文法を作成し、前記音声認識用読みに対応する音声合成用読みを前記共通読みデータベースの中から特定するための識別子を前記文法に付加する文法生成部を有し、音声認識処理部が、前記文法生成部が生成した文法を用いることによって、前記認識した単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を作成する態様とすることもできる。
【0024】
更に、前記共通読みデータベースに登録されている音声認識用読みを用いて音声認識用の文法を作成し、前記音声認識用読みに対応する音声合成用読みを前記文法に付加する文法生成部を有し、音声認識処理部が、前記文法生成部が生成した文法を用いることによって、前記認識した単語の音声合成用読みを含んだ前記認識情報を作成する態様とすることもできる。
【0025】
また、上記本発明にかかる自動音声応答装置においては、前記共通読みデータベースの内容を編集するための編集手段を有しているのが好ましい。
【0026】
次に、上記目的を達成するために本発明にかかる自動音声応答方法は、音声認識処理を行ない、前記音声認識処理によって得られた認識情報に対応するプロンプトを決定し、前記認識情報と決定した前記プロンプトからプロンプト情報を作成し、前記プロンプト情報に基づいて音声合成処理を行なう自動音声応答方法であって、(a)前記音声認識処理において認識された単語が、一又は複数の単語が音声認識用読み及び音声合成用読みと共に登録されている共通読みデータベースに登録された単語である場合に、前記音声認識処理において認識された単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を出力する工程と、(b)前記識別子に基づいて、前記音声認識処理において認識された単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する工程とを少なくとも有することを特徴とする。
【0027】
上記本発明にかかる自動音声応答方法においては、前記(a)の工程において、前記音声認識処理において認識された単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた認識情報を出力する代わりに、前記音声認識処理において認識された単語の音声合成用読みを含んだ認識情報を出力し、前記(b)の工程において、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する代わりに、前記認識情報に含まれた単語の音声合成用読みを含んだプロンプト情報を作成する態様とすることもできる。
【0028】
本発明は、上記の本発明にかかる自動音声応答方法を具現化するためのプログラムであっても良い。このプログラムをコンピュータにインストールして実行することにより、本発明にかかる案内仲介方法を実行できる。
【0029】
このように、上記本発明にかかる自動音声応答装置及び自動音声応答方法においては、音声認識用の文法と、音声合成用の辞書を一本化するテーブル、即ち共通読みデータベースを用意することで、上記問題の解決を図っている。ここで、共通読みデータベースについて説明する。共通読みデータベースの内容の一例を下記の表1に示す。
【0030】
【表1】
【0031】
上記表1に示す共通読みデータベースは、識別番号毎の複数の名称で構成されており、名称i(1≦i≦N)は、テキスト▲1▼、音声認識用読み▲2▼、音声合成用読み▲3▼で構成されている。音声認識用読み▲2▼は、テキスト▲1▼の音声認識用の文法に記載する読みを記述したものである。音声合成用読み▲3▼は、テキスト▲1▼の音声合成用読みを記述したものである。
【0032】
日本語の場合は、音声認識用読み▲2▼はひらがな又はカタカナで記述される。また、音声合成用読み▲3▼は、アクセント記号と共にひらがな又はカタカナで記述される。英語の場合は、音声認識用読み▲2▼は、IPA(International Phonetic Alphabet)等で記述される。また、音声合成用読み▲3▼は、アクセント記号と共にIPAで記述される。
【0033】
また、識別番号1〜3から分るように、共通読みデータベースにおいては、テキスト▲1▼が同じであっても、音声認識用読み▲2▼が異なる場合は、名称を分けて記述される。一方、識別番号3から分るように、音声認識用読み▲2▼は複数登録(例:ぶちょう、ぶっちょう)が可能であるが、音声合成用読み▲3▼は一つ(ブチョー)しか登録できないようになっている。
【0034】
なお、通常は、一つの単語に対して、音声認識用読み▲2▼と音声合成用読み▲3▼との両方が登録される。但し、一般に自動音声応答装置が備えている基本読み辞書に登録されている音声合成用読みと、音声合成用読み▲3▼とが同じである場合は、識別番号1の名称2のように、音声合成用読み▲3▼の欄は空欄として、基本読み辞書に登録された読みが登録されているとみなされる。
【0035】
【発明の実施の形態】
以下、本発明の自動音声応答装置及び自動音声応答方法の一例について、図面を参照しながら説明する。最初に、図1を用いて本発明の自動音声応答装置の構成を説明する。図1は、本発明の自動音声応答装置の一例を示す構成図である。
【0036】
図1に示すように、本発明の自動音声応答装置は、音声認識処理部1、対話処理部2及び音声合成処理部3を有しており、この点で従来の自動音声応答装置と同様である。また、本発明の自動音声応答装置は、音響モデル4、文法情報部5、アプリケーションデータベース6、プロンプトデータベース7、波形辞書9、基本読み辞書8及び言語辞書10を有している点でも、従来の自動音声応答装置と同様である。
【0037】
但し、本発明の自動音声応答装置は、ユーザ読み辞書の代わりに、共通読みデータベース12と、編集手段11と、文法生成部13とを有しており、この点で、従来の自動音声応答装置と異なっている。また、このために、音声認識処理部1及び対話処理部2における処理も、従来の自動音声応答装置と異なっている。
【0038】
共通読みデータベース12は、上記表1で示したように、テキスト、音声認識用読み及び音声合成用読みで構成されている。編集手段11は、共通読みデータベース12の内容を編集するための手段である。自動音声応答装置の管理者は、対話例を想定し、編集手段11を用いて共通読みデータベース12の内容の追加、削除及び修正を行なう。
【0039】
文法生成部13は、共通読みデータベース12に登録された内容に基づいて文法を生成し、これを文法情報部5に登録する。なお、文法生成部13で行なわれる処理については後述の図2で具体的に説明する。
【0040】
次に、本発明の自動音声応答装置における処理及び本発明の自動音声応答方法について、具体的な対話例を挙げて説明する。なお、本発明の自動音声応答方法は、図1に示す自動音声応答装置を動作させることによって実行することができる。また、以下の説明では適宜図1を参照する。
【0041】
対話例は以下の通りである。
[対話例]
自動音声応答装置:「どなたの連絡先ですか? 名前をおっしゃってください。」
ユーザ :「長田(ながた)さん」
自動音声応答装置:「はい、長田(ながた)さんの連絡先は、○○○−△△△△−□□□□です。」
上記の対話例を実現するために、予め、自動音声応答装置の管理者は、編集手段11を用いて、以下の表2に示すテキスト▲1▼、音声認識用読み▲2▼及び音声合成用読み▲3▼を共通読みデータベース12に入力する。
【0042】
【表2】
【0043】
文法生成部13は、表1に示す内容に基づいて、文法を作成し、作成した文法を文法情報部5に登録する。この点について図2を用いて説明する。図2は、本発明の自動音声応答装置を構成する文法生成部における処理の一例を示す図である。
【0044】
図2に示すように、最初に、文法生成部13は、共通読みデータベース12から、名称1〜2及び識別番号1〜3に対応する音声認識用読みを抽出し、エントリ情報を設定する(ステップS1)。
【0045】
エントリ情報は、抽出した音声認識用読みに対応する音声合成用読みを、共通読みデータベースの中から特定するための識別子である。本例では、エントリ情報は、共通読みデータベース12の名前、名称番号及び識別番号を組み合わせて設定している。
【0046】
次に、文法生成部13は、抽出した音声認識用読みを音声認識処理で使用する単語として文法情報部5に登録し、更に、エントリ情報をこの音声認識用の読みが認識された場合のスロット情報(戻り値)として文法情報部5に登録する(ステップS2)。以下の表3に、文法情報部5に登録された単語及びスロット情報の例を示す。
【0047】
【表3】
【0048】
なお、本例では、共通読みデータベース12の名前を「user」と設定している。このため、例えば「(tableno user−1−1)」は、共通読みデータベース「user」における名称1の識別番号1を意味する。
【0049】
このように、本発明においては、共通読みデータベース12に新たに登録された単語について、文法生成部13が文法を生成する。このため、この新たに登録された単語を用いて音声認識処理が行なわれ、上記の対話例が実現される。上記の対話例を実現するために、自動音声応答装置で行なわれる処理について図3を用いて説明する。
【0050】
図3は、本発明の自動音声応答装置における処理の一例を示す図である。図3に示すように、最初に、上記の対話例で挙げた入力音声(ユーザ:「長田(ながた)さん」)が受信されると(ステップS11)、音声認識処理部1は音声認識処理を行ない、以下の表4に示す認識情報を対話処理部2に出力する(ステップS12)。
【0051】
【表4】
【0052】
上記表3から分るように、音声認識処理部1によって認識された単語は「長田(ながた)」であり、これは共通読みデータベース12に登録された単語である。このため、認識情報として出力されるスロット情報は、上記したエントリ情報を含むものとなる。なお、音声認識処理部1によって認識された単語が、共通読みデータベース12に登録されていない単語である場合は、スロット情報として従来と同様の戻り値が出力される。
【0053】
次に、認識情報が入力された対話処理部2は、認識情報に対応するプロンプトを決定する(ステップS13)。具体的には、対話処理部2は、スロット情報「tableno user−1−1」から、ユーザが要求する電話番号の相手方の名前「長田」を取得し、更に、アプリケーションデータベース6を参照して「長田」の電話番号情報を取得する。対話処理部2は、この得られた情報に基づいてプロンプトを決定する。
【0054】
次いで、対話処理部2は、決定したプロンプトに対応するプロンプト文をプロンプトデータベースから抽出する(ステップS14)。なお、本例では、プロンプトデータベース7には雛型となる複数のプロンプト文が登録されており、そこから該当するプロンプト文が抽出されているが、対話処理部2が一から日本語を組み立ててプロンプト文を作成する態様とすることもできる。なお、プロンプトデータベース7から抽出されたばかりのプロンプト文は、「はい、[ユーザ名]の連絡先は、[電話番号]です。」といったものであり、「ユーザ名」や「電話番号」は変数で記述されている。
【0055】
次に、本例ではスロット情報に共通読みデータベース12のエントリ情報が含まれているため、対話処理部2は、スロット情報からエントリ情報を抽出する(ステップS15)。また、対話処理部2は、アプリケーションデータベース26を参照して、プロンプト文の[電話番号]を具体的な値に置き換える。
【0056】
更に、対話処理部2は、抽出したエントリ情報「user−1−1」に基づいて、共通読みデータベース「user」から、名称番号1及び識別番号1として登録された音声合成用読み「ナガタ」を抽出し、これをプロンプト文に追加する(ステップS16)。
【0057】
この場合、プロンプト文は、例えば「はい、長田(発声:ナガタ)の連絡先は、○○○−△△△△−□□□□です。」のようになり、単語の読みが合成音声に対応した読みに置換されたものとなる(合成音声読み置換処理)。このプロンプト文は、プロンプト情報として音声合成処理部3へと出力される。なお、上記プロンプト文における「長田(発声:ナガタ)」の記述は、音声合成エンジンにおける単語の読みの記述方法によって異なるので、使用する音声合成エンジンに対応するように記述すれば良い。
【0058】
その後、音声合成処理部3は、プロンプト情報に基づいて音声合成処理を行ない(ステップS17)、出力音声を送信する(ステップS18)。この結果、ユーザに対して応答がなされたことになる。
【0059】
このように、本発明においては、音声認識用の文法と音声合成用の辞書とを一本化しているため、辞書を二重に管理する必要がなく、共通読みデータベースの管理のみを行なえば良い。また、共通読みデータベースに、例えば「長田(ながた)さん」と「長田(おさだ)さん」との両方を登録しておけば、入力された音声と対応する音声合成用読み▲3▼を特定するエントリ情報に基づいて、対話処理部がプロンプト情報を作成するため、入力音声に忠実に応答を行なうことが可能となる。
【0060】
また、本例においては、エントリ情報を含むスロット情報が認識情報として出力されているが、本発明においては、エントリ情報の代わりに、共通読みデータベース12に登録された音声合成用読みを含むスロット情報を認識情報として出力することもできる。この場合、対話処理部2は、図3に示すステップS16のように共通読みデータベース12にアクセスしなくても、プロンプト文に音声合成用読みを追加することができるので、処理速度の向上を図ることができる。また、この場合、文法生成部13は、図2で示すステップS1において、音声合成用読みを含むスロット情報を設定する。
【0061】
本発明の自動音声応答装置は、コンピュータに、図2に示すステップS1〜S2及び図3に示すS11〜S18を具現化させるプログラムをインストールし、このプログラムを実行することによって、実現することができる。この場合、コンピュータのCPU(central processing unit)によって、音声認識処理部1、対話処理部2、音声合成処理部3及び文法生成部13における処理が行われる。
【0062】
また、本発明では、音響モデル4、文法情報部5、アプリケーションデータベース6、プロンプトデータベース7、基本読み辞書8、波形辞書9、言語辞書10及び共通読みデータベース12は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、又はこのデータファイルが格納された記録媒体をコンピュータと接続された読取装置に搭載することによって実現されている。
【0063】
なお、共通読みデータベース12は、データ構造が複雑ではないので、テキストファイルとして記述することが可能である。この場合、編集手段としては、通常のテキストエディタを用いることができる。
【0064】
【発明の効果】
以上のように,本発明によれば、音声合成用の辞書と音声認識用の文法とを一元的に管理することが出来るようになり、管理コストを削減できる。また、ユーザが“長田(ながた)さん”と言えば、“長田(ながた)さん”と応答し、“長田(おさだ)さん”といえば、“長田(おさだ)さん”と応答する、というように、入力された音声に忠実に音声応答を行ないえる自動音声応答装置を提供することができる。
【図面の簡単な説明】
【図1】本発明の自動音声応答装置の一例を示す構成図である。
【図2】本発明の自動音声応答装置を構成する文法生成部における処理の一例を示す図である。
【図3】本発明の自動音声応答装置における処理の一例を示す図である。
【図4】従来の自動音声応答装置の構成を示す図である。
【符号の説明】
1 音声認識処理部
2 対話処理部
3 音声合成処理部
4 音響モデル
5 文法情報部
6 アプリケーションデータベース
7 プロンプトデータベース
8 基本読み辞書
9 波形辞書
10 言語辞書
11 編集手段
12 共通読みデータベース12
13 文法生成部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an automatic voice response apparatus and an automatic voice response method that perform voice recognition processing and voice synthesis processing to automatically respond to input voice.
[0002]
[Prior art]
In recent years, with the development of voice recognition technology and voice synthesis technology, an automatic voice response device that automatically responds to voice from a user has been put into practical use (for example, see Patent Document 1). The automatic voice response device is used in various fields that require an automatic response service such as a voice portal and a car navigation system.
[0003]
FIG. 4 is a diagram showing a configuration of a conventional automatic voice response device. As shown in FIG. 4, the automatic voice response apparatus mainly includes a voice
[0004]
When a speech is input, the speech
[0005]
The
[0006]
In the grammar information section 25, slot information set for each word is registered. The slot information is a return value returned as a result of voice recognition when a certain word is uttered, and is used as an identifier of the
[0007]
When the slot information is input, the
[0008]
The speech
[0009]
As shown in Table 5 below, the basic reading dictionary 29 and the
[0010]
[Table 5]
[0011]
The basic reading dictionary 29 is a dictionary in which general texts (mainly words) are registered, and is provided in advance by a speech synthesis developer. The
[0012]
[Patent Document 1]
JP 2000-242289 A
[Problems to be solved by the invention]
However, in the automatic response service using the automatic voice response device shown in FIG. 4, in order to recognize the input voice and output the voice, the grammar information section 25 for voice recognition and the basic It is necessary to register the voice to be recognized in the reading dictionary 29 or the
[0014]
For example, when the user wants to recognize “Fujitsu Lab” by voice recognition, register the word “Fujitsu Lab”, which is a reading, in the grammar information section 25 for voice recognition, and furthermore, enters the characters “Fujitsu Lab” in the
[0015]
As described above, when the automatic response service is performed using the automatic voice response apparatus shown in FIG. 4, there is a problem that the dictionary must be managed twice in terms of operation management.
[0016]
In the automatic response service using the automatic voice response device shown in FIG. 4, there is also a problem of misreading kanji. For example, the personal name "Mr. Nagata" has two ways of reading, "Mr. Nagata" and "Mr. Osada". However, in the automatic voice response apparatus shown in FIG. Only one reading can be registered in the
[0017]
For this reason, even if the user utters “Mr. Nagata” and is recognized as “Mr. Nagata” by the speech
[0018]
Further, in the automatic voice response apparatus shown in FIG. 4, no information is exchanged directly between the voice
[0019]
Therefore, even if the user utters “Mr. Nagata” and is recognized as “Mr. Nagata” in the voice recognition processing, the
[0020]
SUMMARY OF THE INVENTION An object of the present invention is to provide an automatic voice response apparatus and an automatic voice response method capable of easily managing a grammar and a dictionary and performing a voice response faithfully to an input voice.
[0021]
[Means for Solving the Problems]
To achieve the above object, an automatic voice response apparatus according to the present invention performs voice recognition processing, a voice recognition processing unit that outputs recognition information, and determines a prompt corresponding to the recognition information. A dialogue processing unit that creates prompt information from the determined prompt, a speech synthesis processing unit that performs speech synthesis processing based on the prompt information, and one or more words are registered together with a speech recognition reading and a speech synthesis reading. Having at least a common reading database, wherein the speech recognition processing unit, when recognizing a word registered in the common reading database, reads a speech synthesis reading of the recognized word from the common reading database. Outputting the recognition information including an identifier for identification; and the interactive processing unit outputs the recognized unit based on the identifier. Of extract audio synthesis reading, characterized in that to create the extracted prompt information including read for speech synthesis was.
[0022]
In the automatic voice response apparatus according to the present invention, the voice recognition processing unit outputs recognition information including an identifier for specifying a voice-synthesis reading of the recognized word from the common reading database. Instead, the recognition information including the speech synthesis reading of the recognized word is output, and the interaction processing unit extracts the speech synthesis reading of the recognized word, and includes the extracted speech synthesis reading. Instead of creating the prompt information, it is also possible to create prompt information including a speech synthesis reading of a word included in the recognition information.
[0023]
Also, the automatic voice response apparatus according to the present invention creates a grammar for voice recognition using the voice recognition reading registered in the common reading database, and generates a voice synthesis reading corresponding to the voice recognition reading. Has a grammar generation unit for adding an identifier for specifying from the common reading database to the grammar, the speech recognition processing unit, by using the grammar generated by the grammar generation unit, the The recognition information including an identifier for specifying a speech synthesis reading from the common reading database may be created.
[0024]
Further, a grammar generation unit is provided for creating a grammar for speech recognition using the speech recognition reading registered in the common reading database and adding a speech synthesis reading corresponding to the speech recognition reading to the grammar. Then, the voice recognition processing unit may use the grammar generated by the grammar generation unit to create the recognition information including the speech-for-speech reading of the recognized word.
[0025]
Further, the automatic voice response device according to the present invention preferably has editing means for editing the contents of the common reading database.
[0026]
Next, in order to achieve the above object, the automatic voice response method according to the present invention performs a voice recognition process, determines a prompt corresponding to recognition information obtained by the voice recognition process, and determines the prompt as the recognition information. An automatic voice response method for generating prompt information from the prompt and performing a voice synthesis process based on the prompt information, wherein (a) one or more words recognized in the voice recognition process are recognized by voice. In the case where the word is registered in the common reading database that is registered together with the voice reading and the voice synthesis reading, in order to specify the voice synthesis reading of the word recognized in the voice recognition process from the common reading database. Outputting the recognition information including the identifier of (b), and (b) performing recognition in the voice recognition processing based on the identifier. Extracting the words read for speech synthesis, and having at least a step of creating the extracted prompt information including read for speech synthesis was.
[0027]
In the above automatic voice response method according to the present invention, in the step (a), an identifier for specifying a voice synthesis reading of a word recognized in the voice recognition processing from the common reading database is included. Instead of outputting the recognized information, it outputs recognition information including the speech synthesis reading of the word recognized in the speech recognition processing, and in the step (b), the speech synthesis reading of the recognized word is output. Instead of creating the prompt information including the extracted and extracted speech synthesis reading, a mode may be adopted in which the prompt information including the speech synthesis reading of the word included in the recognition information is created.
[0028]
The present invention may be a program for realizing the above-described automatic voice response method according to the present invention. By installing and executing this program on a computer, the guidance mediating method according to the present invention can be executed.
[0029]
As described above, in the automatic voice response apparatus and the automatic voice response method according to the present invention, by preparing a table for unifying a grammar for voice recognition and a dictionary for voice synthesis, that is, by preparing a common reading database, The above problems are being solved. Here, the common reading database will be described. An example of the contents of the common reading database is shown in Table 1 below.
[0030]
[Table 1]
[0031]
The common reading database shown in Table 1 is composed of a plurality of names for each identification number, and the names i (1 ≦ i ≦ N) are text (1), reading for speech recognition (2), and reading for speech synthesis. It consists of reading (3). The voice recognition reading (2) describes the reading described in the voice recognition grammar of the text (1). Speech synthesis reading (3) describes a speech synthesis reading of text (1).
[0032]
In the case of Japanese, the voice recognition reading (2) is described in hiragana or katakana. In addition, the reading (3) for speech synthesis is described in hiragana or katakana together with accent symbols. In the case of English, the speech recognition reading (2) is described in IPA (International Phonetic Alphabet) or the like. The reading (3) for speech synthesis is described in IPA together with accent marks.
[0033]
Further, as can be seen from the
[0034]
Normally, both a speech recognition reading (2) and a speech synthesis reading (3) are registered for one word. However, if the voice synthesis reading registered in the basic voice reading dictionary provided in the automatic voice response device and the voice synthesis reading (3) are the same, as in the
[0035]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an example of an automatic voice response device and an automatic voice response method of the present invention will be described with reference to the drawings. First, the configuration of the automatic voice response apparatus of the present invention will be described with reference to FIG. FIG. 1 is a configuration diagram showing an example of the automatic voice response device of the present invention.
[0036]
As shown in FIG. 1, the automatic voice response apparatus according to the present invention includes a voice
[0037]
However, the automatic voice response device according to the present invention includes a
[0038]
As shown in Table 1 above, the
[0039]
The
[0040]
Next, the processing in the automatic voice response apparatus of the present invention and the automatic voice response method of the present invention will be described with reference to specific examples of dialogue. Note that the automatic voice response method of the present invention can be executed by operating the automatic voice response device shown in FIG. In the following description, FIG. 1 will be referred to as appropriate.
[0041]
An example of the dialogue is as follows.
[Example of dialogue]
Automatic voice response device: "Who is your contact? Tell me your name."
User: "Mr. Nagata"
Automatic voice response device: "Yes, contact information for Mr. Nagata is ○○○-△△△△-□□□□.”
In order to realize the above-mentioned dialogue example, the administrator of the automatic voice response apparatus uses the editing means 11 in advance to edit the text {1}, voice recognition reading {2}, and voice synthesis The reading (3) is input to the
[0042]
[Table 2]
[0043]
The
[0044]
As shown in FIG. 2, first, the
[0045]
The entry information is an identifier for specifying a speech synthesis reading corresponding to the extracted speech recognition reading from the common reading database. In this example, the entry information is set by combining the name, name number, and identification number of the
[0046]
Next, the
[0047]
[Table 3]
[0048]
In this example, the name of the
[0049]
As described above, in the present invention, the
[0050]
FIG. 3 is a diagram showing an example of a process in the automatic voice response apparatus of the present invention. As shown in FIG. 3, when the input voice (user: “Mr. Nagata”) mentioned in the above-described dialogue example is first received (step S11), the voice
[0051]
[Table 4]
[0052]
As can be seen from Table 3, the word recognized by the speech
[0053]
Next, the
[0054]
Next, the
[0055]
Next, in this example, since the slot information includes the entry information of the
[0056]
Further, based on the extracted entry information “user-1-1”, the
[0057]
In this case, the prompt sentence is, for example, "Yes, the contact information of Nagata (utterance: Nagata) is XX- △△△△-□□□□□." It is replaced by the corresponding reading (synthetic speech reading replacement processing). This prompt sentence is output to the speech synthesis processing unit 3 as prompt information. Note that the description of “Nagata (utterance: Nagata)” in the above-mentioned prompt sentence differs depending on the method of describing the reading of a word in the speech synthesis engine, and therefore may be described so as to correspond to the speech synthesis engine to be used.
[0058]
Thereafter, the voice synthesis processing unit 3 performs voice synthesis processing based on the prompt information (step S17), and transmits the output voice (step S18). As a result, a response has been made to the user.
[0059]
As described above, in the present invention, since the grammar for speech recognition and the dictionary for speech synthesis are unified, there is no need to manage the dictionary twice, and only the common reading database needs to be managed. . If both "Nagata-san" and "Osada-san" are registered in the common reading database, for example, the reading for voice synthesis corresponding to the input voice is {3}. Since the dialogue processing unit creates the prompt information based on the entry information specifying (i), it is possible to faithfully respond to the input voice.
[0060]
In this example, the slot information including the entry information is output as the recognition information. In the present invention, instead of the entry information, the slot information including the speech synthesis reading registered in the
[0061]
The automatic voice response system of the present invention can be realized by installing a program for realizing steps S1 to S2 shown in FIG. 2 and S11 to S18 shown in FIG. 3 in a computer and executing the program. . In this case, the processing in the speech
[0062]
Further, in the present invention, the acoustic model 4, the
[0063]
Since the data structure of the
[0064]
【The invention's effect】
As described above, according to the present invention, the dictionary for speech synthesis and the grammar for speech recognition can be centrally managed, and the management cost can be reduced. In addition, when the user says "Mr. Nagata", the user responds with "Mr. Nagata", and when the user says "Mr. Nagata", she says "Mr. Nagata". It is possible to provide an automatic voice response apparatus capable of giving a voice response faithfully to an input voice, such as responding.
[Brief description of the drawings]
FIG. 1 is a configuration diagram illustrating an example of an automatic voice response device according to the present invention.
FIG. 2 is a diagram illustrating an example of a process in a grammar generation unit included in the automatic voice response device according to the present invention.
FIG. 3 is a diagram showing an example of processing in the automatic voice response device of the present invention.
FIG. 4 is a diagram showing a configuration of a conventional automatic voice response device.
[Explanation of symbols]
DESCRIPTION OF
13 Grammar generator
Claims (9)
前記音声認識処理部は、前記共通読みデータベースに登録された単語を認識した場合に、前記認識した単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を出力し、
前記対話処理部は、前記識別子に基づいて、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成することを特徴とする自動音声応答装置。A voice recognition processing unit that performs voice recognition processing and outputs recognition information; a dialog processing unit that determines a prompt corresponding to the recognition information, and creates prompt information from the recognition information and the determined prompt; A voice synthesis processing unit that performs voice synthesis processing based on the information, and at least one or more words having a common reading database registered together with voice recognition reading and voice synthesis reading,
The speech recognition processing unit, when recognizing a word registered in the common reading database, the recognition including an identifier for specifying a speech synthesis reading of the recognized word from the common reading database. Output information,
The automatic voice response device, wherein the dialogue processing unit extracts a speech synthesis reading of the recognized word based on the identifier, and creates prompt information including the extracted speech synthesis reading.
前記対話処理部が、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する代わりに、前記認識情報に含まれた単語の音声合成用読みを含んだプロンプト情報を作成する請求項1記載の自動音声応答装置。The voice recognition processing unit outputs, instead of outputting recognition information including an identifier for specifying the recognized word for speech synthesis from the common reading database, reads the recognized word for speech synthesis. Outputting the recognition information including
The dialogue processing unit extracts a speech synthesis reading of the recognized word, and instead of creating prompt information including the extracted speech synthesis reading, a speech synthesis reading of the word included in the recognition information is performed. 2. The automatic voice response device according to claim 1, wherein prompt information including the following is created.
音声認識処理部が、前記文法生成部が生成した文法を用いることによって、前記認識した単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を作成する請求項1記載の自動音声応答装置。An identifier for creating a grammar for voice recognition using the voice recognition reading registered in the common reading database, and specifying a voice synthesis reading corresponding to the voice recognition reading from the common reading database. Has a grammar generation unit that adds to the grammar,
A speech recognition processing unit creates the recognition information including an identifier for specifying a speech synthesis reading of the recognized word from the common reading database by using the grammar generated by the grammar generation unit. The automatic voice response device according to claim 1, wherein
音声認識処理部が、前記文法生成部が生成した文法を用いることによって、前記認識した単語の音声合成用読みを含んだ前記認識情報を作成する請求項2記載の自動音声応答装置。A grammar generation unit that creates a grammar for voice recognition using the voice recognition reading registered in the common reading database, and adds a voice synthesis reading corresponding to the voice recognition reading to the grammar,
3. The automatic voice response apparatus according to claim 2, wherein the voice recognition processing unit generates the recognition information including a voice synthesis reading of the recognized word by using the grammar generated by the grammar generation unit.
(a)前記音声認識処理において認識された単語が、一又は複数の単語が音声認識用読み及び音声合成用読みと共に登録されている共通読みデータベースに登録された単語である場合に、前記音声認識処理において認識された単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を出力する工程と、
(b)前記識別子に基づいて、前記音声認識処理において認識された単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する工程とを少なくとも有することを特徴とする自動音声応答方法。A voice recognition process is performed, a prompt corresponding to the recognition information obtained by the voice recognition process is determined, prompt information is created from the recognition information and the determined prompt, and a voice synthesis process is performed based on the prompt information. An automatic voice response method,
(A) when one or more words recognized in the speech recognition processing are words registered in a common reading database registered together with a reading for speech recognition and a reading for speech synthesis, A step of outputting the recognition information including an identifier for identifying a speech synthesis reading of the word recognized in the processing from the common reading database,
(B) extracting a voice-synthesis reading of the word recognized in the voice recognition processing based on the identifier, and generating prompt information including the extracted voice-synthesis reading. Automatic voice response method.
前記(b)の工程において、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する代わりに、前記認識情報に含まれた単語の音声合成用読みを含んだプロンプト情報を作成する請求項6記載の自動音声応答方法。In the step (a), instead of outputting recognition information including an identifier for specifying a speech synthesis reading of a word recognized in the speech recognition processing from the common reading database, the speech recognition is performed. Outputting recognition information including a speech synthesis reading of the word recognized in the processing;
In the step (b), instead of extracting a speech synthesis reading of the recognized word and creating prompt information including the extracted speech synthesis reading, a speech synthesis of the word included in the recognition information is performed. 7. The automatic voice response method according to claim 6, wherein prompt information including read-ahead is created.
(a)前記音声認識処理において認識された単語が、一又は複数の単語が音声認識用読み及び音声合成用読みと共に登録されている共通読みデータベースに登録された単語である場合に、前記音声認識処理において認識された単語の音声合成用読みを前記共通読みデータベースの中から特定するための識別子が含まれた前記認識情報を出力するステップと、
(b)前記識別子に基づいて、前記音声認識処理において認識された単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成するステップとを少なくとも有することを特徴とするコンピュータに実行させるためのプログラム。A voice recognition process is performed, a prompt corresponding to the recognition information obtained by the voice recognition process is determined, prompt information is created from the recognition information and the determined prompt, and a voice synthesis process is performed based on the prompt information. A program for causing a computer to execute an automatic voice response method,
(A) when one or more words recognized in the speech recognition processing are words registered in a common reading database registered together with a reading for speech recognition and a reading for speech synthesis, Outputting the recognition information including an identifier for specifying a speech synthesis reading of a word recognized in the processing from the common reading database,
(B) extracting a speech synthesis reading of the word recognized in the speech recognition process based on the identifier, and creating prompt information including the extracted speech synthesis reading. A program to be executed by a computer.
前記(b)のステップにおいて、前記認識した単語の音声合成用読みを抽出し、抽出した音声合成用読みが含まれたプロンプト情報を作成する代わりに、前記認識情報に含まれた単語の音声合成用読みを含んだプロンプト情報を作成する請求項8記載のコンピュータに実行させるためのプログラム。In the step (a), instead of outputting recognition information including an identifier for specifying a speech synthesis reading of a word recognized in the speech recognition process from the common reading database, the speech recognition is performed. Outputting recognition information including a speech synthesis reading of the word recognized in the processing;
In the step (b), instead of extracting a speech synthesis reading of the recognized word and creating prompt information including the extracted speech synthesis reading, a speech synthesis of the word included in the recognition information is performed. The program for causing a computer according to claim 8 to create prompt information including a read-aloud.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002310066A JP4206253B2 (en) | 2002-10-24 | 2002-10-24 | Automatic voice response apparatus and automatic voice response method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002310066A JP4206253B2 (en) | 2002-10-24 | 2002-10-24 | Automatic voice response apparatus and automatic voice response method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004145014A true JP2004145014A (en) | 2004-05-20 |
JP4206253B2 JP4206253B2 (en) | 2009-01-07 |
Family
ID=32455695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002310066A Expired - Fee Related JP4206253B2 (en) | 2002-10-24 | 2002-10-24 | Automatic voice response apparatus and automatic voice response method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4206253B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009122773A1 (en) * | 2008-03-31 | 2009-10-08 | 三洋電機株式会社 | Speech device, speech control program, and speech control method |
WO2024096253A1 (en) * | 2022-11-01 | 2024-05-10 | 삼성전자주식회사 | Electronic device and control method thereof |
-
2002
- 2002-10-24 JP JP2002310066A patent/JP4206253B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009122773A1 (en) * | 2008-03-31 | 2009-10-08 | 三洋電機株式会社 | Speech device, speech control program, and speech control method |
WO2024096253A1 (en) * | 2022-11-01 | 2024-05-10 | 삼성전자주식회사 | Electronic device and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP4206253B2 (en) | 2009-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9424833B2 (en) | Method and apparatus for providing speech output for speech-enabled applications | |
US8825486B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
US6446041B1 (en) | Method and system for providing audio playback of a multi-source document | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7957969B2 (en) | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciatons | |
US7177795B1 (en) | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems | |
US6801897B2 (en) | Method of providing concise forms of natural commands | |
US8914291B2 (en) | Method and apparatus for generating synthetic speech with contrastive stress | |
KR101130351B1 (en) | Creating a speech recognition grammar for alphanumeric concepts | |
JP6806662B2 (en) | Speech synthesis system, statistical model generator, speech synthesizer, speech synthesis method | |
US9196251B2 (en) | Contextual conversion platform for generating prioritized replacement text for spoken content output | |
El Ouahabi et al. | Toward an automatic speech recognition system for amazigh-tarifit language | |
JP2020060642A (en) | Speech synthesis system and speech synthesizer | |
JP2011007862A (en) | Voice recognition device, voice recognition program and voice recognition method | |
JP2003162524A (en) | Language processor | |
JP4206253B2 (en) | Automatic voice response apparatus and automatic voice response method | |
JP3581044B2 (en) | Spoken dialogue processing method, spoken dialogue processing system, and storage medium storing program | |
US20030216921A1 (en) | Method and system for limited domain text to speech (TTS) processing | |
JP3958908B2 (en) | Transcription text automatic generation device, speech recognition device, and recording medium | |
US7054813B2 (en) | Automatic generation of efficient grammar for heading selection | |
WO2022196087A1 (en) | Information procesing device, information processing method, and information processing program | |
JP2001188556A (en) | Method and device for voice recognition | |
JPS60188995A (en) | Sentence enunciation | |
JPWO2002067244A1 (en) | Speech recognition method, speech recognition system and speech recognition program for spoken dialogue | |
JPS63140329A (en) | Sentence reading system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050308 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080930 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081020 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111024 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121024 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131024 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |