JP2006078829A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP2006078829A
JP2006078829A JP2004263563A JP2004263563A JP2006078829A JP 2006078829 A JP2006078829 A JP 2006078829A JP 2004263563 A JP2004263563 A JP 2004263563A JP 2004263563 A JP2004263563 A JP 2004263563A JP 2006078829 A JP2006078829 A JP 2006078829A
Authority
JP
Japan
Prior art keywords
dictionary
name
voice
category
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004263563A
Other languages
English (en)
Inventor
Toshihei Kashihara
敏平 樫原
Tatsuhiko Tanabe
龍彦 田部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chugoku Electric Power Co Inc
Original Assignee
Chugoku Electric Power Co Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chugoku Electric Power Co Inc filed Critical Chugoku Electric Power Co Inc
Priority to JP2004263563A priority Critical patent/JP2006078829A/ja
Publication of JP2006078829A publication Critical patent/JP2006078829A/ja
Withdrawn legal-status Critical Current

Links

Abstract

【課題】音声により所定の情報を入力する際に精度良くかつ短い処理時間で音声認識することができる音声認識装置および音声認識方法を提供する。
【解決手段】辞書切替部13は、制御部11からの制御信号に基づいて、辞書格納部14に格納されている住所辞書41の複数のカテゴリのうちの県名カテゴリを選択する。音声認識処理部12は、音声信号が示す特定の住所を表す音声を、この県名カテゴリに登録されている都道府県名データと照合して、音声認識を行い、たとえば音声認識結果データ「東京都」を辞書切替部13に出力する。辞書切替部13は、この音声認識結果データに基づいて、住所辞書41の県名カテゴリよりも下の階のカテゴリである東京都内の市名カテゴリを選択する。音声認識処理部12は、音声信号が示す音声を、この東京都内の市名カテゴリに登録されている東京都内の市名データと照合して、音声認識を行う。
【選択図】 図1

Description

本発明は、音声認識装置および音声認識方法に関し、特に、音声により所定の情報を入力する際に精度良くかつ短い処理時間で音声認識するのに好適な音声認識装置および音声認識方法に関する。
一般に、音声認識は、入力音声を辞書に登録されている単語や音声モデルと照合することにより行われているが、音声認識率を高めるには膨大なデータ量の辞書が必要となる。
以下に示す特許文献1には、音声以外の情報を入力する入力装置の使用状況および/または使用履歴に基づいて、次に入力される音声情報に施すべき処理内容および出力態様を自動的に切替え可能にするために、音声以外の情報を入力する入力装置(たとえば、キーボードやマウスなど)のそれぞれから使用の有無、または使用中か否かを示す信号を判定部に取り込み、これら入力装置の使用状況および/または使用履歴に基づいて、音声入力部から入力される音声情報の内容を判定し、判定内容に従って音声処理部に対して所定の処理を施すべく指示し、また出力部に対しては所定態様の出力を行うべく指示する音声入力装置が開示されている。
以下に示す特許文献2には、使用者が装置側の発する質問に正確に答えられない場合でも対話を継続して目的を達成するために、使用者が入力した音声を認識する音声認識部と、対話の階層毎に必要な音声認識辞書が全対話階層分格納されている辞書格納部と、辞書格納部内の辞書を選択結合して対話に必要な辞書を準備する辞書選択結合部と、応答音声格納部内の発声を促す音声を使用者に対して出力する応答音声出力部と、音声認識された使用者の音声が不明表現語辞書内の不明表現語であると不明表現語判定部により判定されたときに、次に遷移する可能性のある階層全ての辞書格納部内の辞書を辞書選択結合部に選択結合させることにより、対話を継続するのに有効な辞書を準備させて、応答音声出力部により使用者に対して音声を出力させる対話制御部とを備える音声対話装置が開示されている。
特開平8−63330号公報 特開2003−91297号公報
しかしながら、辞書のデータ量が膨大になると、照合レスポンスが低下するとともに、音声認識率の悪化を招くという問題がある。また、たとえば住所、氏名および電話番号のような所定の情報を音声により入力する場合には、入力音声を辞書に登録されているすべての単語や音声モデルと照合することは効率的でない。
上記特許文献1(特開平8−63330号公報)に開示されている音声入力装置は、たとえば、テキスト用辞書とコマンド用辞書とを切り替えて音声認識率を高めるには有効であるかもしれないが、テキスト用辞書自体としては一般的な辞書を用いるものであるので、たとえば住所、氏名および電話番号のような所定の情報を音声により入力する場合における音声認識の精度の向上および処理時間の短縮化には有効であるとはいえない。
上記特許文献2(特開2003−91297号公報)に開示されている音声入力装置は、たとえば、ナビゲーション装置において、運転者(使用者)が音声対話装置側の発する質問に正確に答えられない場合に対話を継続させるには有効であるかもしれないが、対話の階層毎に必要な音声認識辞書が全対話階層分格納されている辞書格納部を用意しておき、次に遷移する可能性のある階層全ての辞書格納部内の辞書を辞書選択結合部に選択結合させる必要があるので、たとえば住所、氏名および電話番号のような所定の情報を音声により入力する場合における音声認識の精度の向上および処理時間の短縮化には有効であるとはいえない。
本発明の目的は、音声により所定の情報を入力する際に精度良くかつ短い処理時間で音声認識することができる音声認識装置および音声認識方法を提供することにある。
本発明の音声認識装置は、制御部(11)と、音声入力手段(21)から出力される音声信号が示す音声を認識する音声認識処理部(12)と、所定の情報を照合するためのデータが複数のカテゴリに階層化されて登録されている辞書(41)が格納された辞書格納部(14)と、前記制御部からの制御信号および前記音声認識処理部からの音声認識結果データに基づいて、前記辞書格納部に格納されている前記辞書の前記複数のカテゴリのうちの1つのカテゴリを選択する辞書切替部(13)とを具備し、前記辞書切替部が、前記制御部からの制御信号に基づいて、前記辞書格納部に格納されている前記辞書の前記複数のカテゴリのうちの最上階のカテゴリを選択し、前記音声認識処理部が、前記音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行い、該音声認識の結果を示す音声認識結果データを前記辞書切替部に出力し、前記辞書切替部が、前記音声認識結果データに基づいて、前記辞書格納部に格納されている前記辞書の前記複数のカテゴリのうちの前記最上階のカテゴリよりも下の階のカテゴリを選択し、前記音声認識処理部が、前記音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリよりも下の階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行うことを特徴とする。
ここで、前記辞書格納部に、都道府県名を照合するための都道府県名データが登録された県名カテゴリと、都道府県内の市名を照合するための市名データが都道府県別に登録された市名カテゴリと、都道府県の市内の町村名を照合するための町村名データが市別に登録された町村名カテゴリとを含む住所辞書(41)が格納されていてもよい。
前記辞書格納部に、地番などを照合するための地番等データが登録された地番等辞書(42)と、氏名に使用される各種の氏を照合するための氏データが登録された氏カテゴリと、氏名に使用される各種の名を照合するための名データが登録された名カテゴリとを含む氏名辞書(43)と、電話番号に使用される数字を照合するための数字データが登録された電話番号辞書(44)とがさらに格納されていてもよい。
前記制御部が、前記音声入力手段を備えた端末装置(20)に接続されており、前記制御部が、住所入力欄(31),氏名入力欄(32)および電話番号入力欄(33)を有する入力画面(30)を前記端末装置に表示させたのち、住所を都道府県名から音声で入力するように前記端末装置の使用者に指示するコメントを該端末装置に表示させ、前記端末装置が、前記使用者が前記端末装置に表示された前記コメントに従って前記入力画面の前記住所入力欄,前記氏名入力欄および前記電話番号入力欄のいずれか1つの欄にカーソル(22)を移動させた該カーソルの位置を示すカーソル位置信号を前記制御部に出力し、前記制御部が、前記カーソル位置信号に基づいて、前記音声信号が住所,氏名および電話番号のどれを示す音声信号であるかを示す制御信号を前記辞書切替部に出力し、前記辞書切替部が、前記制御信号に基づいて、前記辞書格納部に格納されている前記住所辞書,前記地番等辞書,前記氏名辞書および前記電話番号辞書のうちの1つを選択してもよい。
前記辞書格納部が公開ネットワーク上に設けられていてもよい。
本発明の音声認識方法は、辞書切替部(13)が、制御部(11)からの制御信号に基づいて、所定の情報を照合するためのデータが複数のカテゴリに階層化されて登録されている辞書(41)が格納された辞書格納部(14)を検索して、前記辞書の前記複数のカテゴリのうちの最上階のカテゴリを選択するステップ(S15)と、音声認識処理部(12)が、音声入力手段(21)から入力される音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行うステップ(S16)と、前記辞書切替部が、前記音声認識処理部による前記音声認識の結果を示す音声認識結果データに基づいて前記辞書格納部(14)を検索して、前記辞書の前記複数のカテゴリのうちの前記最上階のカテゴリよりも下の階のカテゴリを選択するステップ(S17)と、前記音声認識処理部が、前記音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリよりも下の階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行うステップ(S18)とを具備することを特徴とする。
ここで、前記辞書格納部に、都道府県名を照合するための都道府県名データが登録された県名カテゴリと、都道府県内の市名を照合するための市名データが都道府県別に登録された市名カテゴリと、都道府県の市内の町村名を照合するための町村名データが市別に登録された町村名カテゴリとを含む住所辞書(41)が格納されていてもよい。
前記辞書切替部が最上階のカテゴリを選択するステップの前に、前記制御部が、住所入力欄(31)を有する入力画面(30)を端末装置(20)に表示させたのち、住所を都道府県名から音声で入力するように前記端末装置の使用者に指示するコメントを該端末装置に表示させるステップ(S11)と、前記端末装置が、前記端末装置に表示された前記コメントに従って前記使用者が前記入力画面の前記住所入力欄にカーソル(22)を移動させた該カーソルの位置を示すカーソル位置信号を前記制御部に出力するステップ(S13)と、前記制御部が、前記カーソル位置信号に基づいて、「入力音声信号が住所を示す」旨の制御信号を前記辞書切替部に出力するステップ(S14)と、前記辞書切替部が、前記「入力音声信号が住所を示す」旨の制御信号に基づいて、前記辞書格納部に格納されている前記住所辞書を選択するステップ(S15)とをさらに具備してもよい。
本発明の音声認識装置および音声認識方法は、入力音声信号が示す音声を、所定の情報を照合するためのデータのうちの選択された辞書またはカテゴリに登録されているデータとのみ照合して音声認識することができるので、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
音声により所定の情報を入力する際に精度良くかつ短い処理時間で音声認識するという目的を、所定の情報を照合するためのデータが複数のカテゴリに階層化されて登録されている辞書を辞書格納部に格納しておき、制御部からの制御信号および音声認識処理部からの音声認識結果データに基づいて、辞書格納部に格納されている辞書の複数のカテゴリのうちの1つのカテゴリを辞書切替部により選択することにより実現した。
以下、本発明の音声認識装置および音声認識方法の実施例について図面を参照して説明する。
本発明の一実施例による音声認識装置1は、図1に示すように、制御部11と、音声認識処理部12と、辞書切替部13と、辞書格納部14とを備えている。
ここで、制御部11は、図2に示すような住所入力欄31、氏名入力欄32および電話番号入力欄33を有する入力画面30を外部の端末装置20に表示させて、端末装置20に接続されたマイク21(音声入力手段)を用いて住所、氏名および電話番号を音声で入力するように端末装置20の使用者に指示する。このとき、使用者は、たとえば住所を音声で入力する際には、端末装置20に表示された入力画面30の住所入力欄31にカーソル22を移動させたのちに、マイク21に向かって住所を声で発する。
また、制御部11は、端末装置20から入力されるカーソル22の位置を示すカーソル位置信号に基づいて、端末装置20から入力される音声信号(以下、「入力音声信号」と称する。)が住所、氏名および電話番号のどれを示す音声信号であるかを示す制御信号を辞書切替部13に出力する。
さらに、制御部11は、音声認識の結果を示す音声認識結果データを音声認識処理部12から受け取って、端末装置20に出力する。
辞書格納部14には、住所辞書41、地番等辞書42、氏名辞書43および電話番号辞書44が格納されている。
ここで、住所辞書41は、住所情報を照合するための都道府県名データ、市名データおよび町村名データが3つのカテゴリに階層化されて登録されている構成を有する。すなわち、住所辞書41は、図3に示すように、最上階のカテゴリとして、都道府県名を照合するための都道府県名データが登録された県名カテゴリXを含み、県名カテゴリXよりも1つ下の階のカテゴリとして、都道府県内の郡名や市名(東京都の特別区の名を含む。)を照合するための市名データが都道府県別に登録された市名カテゴリYを含み、市名カテゴリYよりも1つ下のカテゴリとして、都道府県の市内の区名や町村名(住居表示の町名のうち「○丁目」以外の部分)を照合するための町村名データが市別に登録された町村名カテゴリZを含む。たとえば、住居表示「東京都千代田区大手町1丁目2番地3号」を例にとると、「東京都」を照合するためのデータ(都道府県名データ)は住所辞書41の県名カテゴリXに登録されており、「千代田区」を照合するためのデータ(市名データ)は住所辞書41の市名カテゴリY13に登録されており、「大手町」を照合するためのデータ(町村名データ)は住所辞書41の町村名カテゴリZ13−1に登録されている。
地番等辞書42には、地番や住居表示の町名のうち「○丁目」の部分、街区符号および住居番号などを照合するための数字、「丁目」、「番地」、「番」および「号」などの地番等データが登録されている。たとえば、住居表示「東京都千代田区大手町1丁目2番地3号」を例にとると、「1丁目2番地3号」を照合するためのデータ(地番等データ)は地番等辞書42に登録されている。
氏名辞書43は、氏名情報を照合するための氏データおよび名データが2つのカテゴリに階層化されて登録されている構成を有する。すなわち、氏名辞書43は、図4に示すように、最上階のカテゴリとして、氏名に使用される各種の氏を照合するための氏データが登録された氏カテゴリxを含み、氏カテゴリxよりも下の階のカテゴリとして、氏名に使用される各種の名を照合するための名データが登録された名カテゴリyを含む。
電話番号辞書44には、電話番号に使用される数字を照合するための数字データが登録されている。
辞書切替部13は、制御部11から入力される制御信号に基づいて辞書格納部14を検索して、住所辞書41、地番等辞書42、氏名辞書43および電話番号辞書44のいずれか一つを選択するとともに、制御部11からの制御信号および音声認識処理部12からの音声認識結果データに基づいて辞書格納部14を検索して、住所辞書41の3つのカテゴリ(県名カテゴリX、市名カテゴリYおよび町村名カテゴリZ)のうちのいずれか1つのカテゴリ、または氏名辞書43の2つのカテゴリ(氏カテゴリxおよび名カテゴリy)のうちのいずれか1つのカテゴリを選択する。
音声認識処理部12は、端末装置20から送られてくる入力音声信号が示す音声を、辞書切替部13により選択された辞書および辞書のカテゴリに登録されているデータ(都道府県名データ、市名データ、町村名データ、地番等データ、氏データ、名データまたは数字データ)と照合して、音声認識を行う。
次に、本実施例による音声認識装置1の動作(本発明の一実施例による音声認識方法)について、図5から図7に示すフローチャートを参照して説明する。
音声認識装置1の制御部11は、住所入力欄31、氏名入力欄32および電話番号入力欄33を有する入力画面30を端末装置20に表示させたのち、住所を都道府県名から音声で入力するように端末装置20の使用者に指示するコメントを端末装置20に表示させる(ステップS11)。
使用者は、端末装置20に表示されたコメントに従って、入力画面30の住所入力欄31にカーソル22を移動させたのちに、マイク21を用いて自分の住所である「東京都千代田区大手町1丁目2番地3号」を声で入力する(ステップS12)。これにより、端末装置20のカーソル22の位置を示すカーソル位置信号が端末装置20から音声認識装置1の制御部11に出力されるとともに、マイク21から出力される音声信号が端末装置20を介して音声認識装置1の音声認識処理部12に出力される(ステップS13)。
制御部11は、カーソル位置信号に基づいて、「入力音声信号が住所を示す」旨の制御信号を辞書切替部13に出力する(ステップS14)。辞書切替部13は、この制御信号に基づいて辞書格納部14を検索して、住所辞書41、地番等辞書42、氏名辞書43および電話番号辞書44のうちの住所辞書41を選択するとともに、住所辞書41の最上階のカテゴリである県名カテゴリXを選択する(ステップS15)。
音声認識処理部12は、入力音声信号が示す音声「東京都千代田区大手町1丁目2番地3号」のうちの都道府県名の部分である音声「東京都」を、辞書切替部14により選択された住所辞書41の県名カテゴリXに登録されている都道府県名データと照合して、音声認識を行う(ステップS16)。その結果、音声で入力された住所のうちの都道府県名が「東京都」であることが認識される。このとき、音声「東京都」と照合されるものは都道府県名データのみであるため、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
その後、辞書切替部13は、音声認識処理部12から入力される音声認識結果データ「東京都」に基づいて辞書格納部14を検索して、住所辞書41の県名カテゴリXよりも1つ下の階の東京都内の市名カテゴリY13を選択する(ステップS17)。
音声認識処理部12は、入力音声信号が示す音声「東京都千代田区大手町1丁目2番地3号」のうちの市名の部分である音声「千代田区」を、辞書切替部14により選択された住所辞書41の東京都内の市名カテゴリY13に登録されている東京都内の市名データと照合して、音声認識を行う(ステップS18)。その結果、音声で入力された住所のうちの市名が「千代田区」であることが認識される。このとき、音声「千代田区」と照合されるものは東京都内の市名データのみであるため、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
その後、辞書切替部13は、音声認識処理部12から入力される音声認識結果データ「千代田区」に基づいて辞書格納部14を検索して、住所辞書41の町村名カテゴリZのうちの千代田区内の町村名カテゴリZ13−1を選択する(ステップS19)。
音声認識処理部12は、入力音声信号が示す音声「東京都千代田区大手町1丁目2番地3号」のうちの町村名の部分である音声「大手町」を、辞書切替部14により選択された住所辞書41の千代田区内の町村名カテゴリZ13−1に登録されている千代田区内の町村名データと照合して、音声認識を行う(図6のステップS20)。その結果、音声で入力された住所のうちの町村名が「大手町」であることが認識される。このとき、音声「大手町」と照合されるものは千代田内の町村名データのみであるため、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
その後、辞書切替部13は、音声認識処理部12から入力される音声認識結果データ「大手町」に基づいて町村名の音声認識が終了したと判定すると、辞書格納部14に格納されている地番等辞書42を選択する。音声認識処理部12は、入力音声信号が示す音声「東京都千代田区大手町1丁目2番地3号」のうちの残りの部分である音声「1丁目2番地3号」を、辞書切替部14により選択された地番等辞書42に登録されている地番等データと照合して、音声認識を行う(ステップS21)。その結果、音声で入力された住所のうちの残りの部分が「1丁目2番地3号」であることが認識される。このとき、音声「1丁目2番地3号」と照合されるものは数字や「丁目」,「番地」,「番」および「号」などの限られた地番等データのみであるため、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
以上のようにして音声認識された住所「東京都千代田区大手町1丁目2番地3号」を示す住所認識結果データは、音声認識処理部13から制御部11を介して端末装置20に出力される。これにより、入力画面30の住所入力欄31に、「東京都千代田区大手町1丁目2番地3号」が表示される(ステップS22)。
使用者は、入力画面30の住所入力欄31に表示された住所「東京都千代田区大手町1丁目2番地3号」が正しいことを確認すると、カーソル22を入力画面30の氏名入力欄32に移動させたのちに、マイク21を用いて自分の氏名である「山田太郎」を声で入力する(ステップS23)。これにより、端末装置20のカーソル22の位置を示すカーソル位置信号が端末装置20から音声認識装置1の制御部11に出力されるとともに、マイク21から出力される音声信号が端末装置20を介して音声認識装置1の音声認識処理部12に出力される(ステップS24)。
制御部11は、端末装置20から入力されたカーソル位置信号に基づいて、「入力音声信号が氏名を示す」旨の制御信号を辞書切替部13に出力する(ステップS25)。辞書切替部13は、この制御信号に基づいて、辞書格納部14に格納されている住所辞書41、地番等辞書42、氏名辞書43および電話番号辞書44のうちの氏名辞書43を選択するとともに、氏名辞書43の氏カテゴリxを選択する(ステップS26)。
音声認識処理部12は、入力音声信号が示す音声「山田太郎」のうちの氏の部分である音声「山田」を、辞書切替部14により選択された氏名辞書43の氏カテゴリxに登録されている氏データと照合して、音声認識を行う(ステップS27)。その結果、音声で入力された氏名のうちの氏が「山田」であることが認識される。このとき、音声「山田」と照合されるものは氏データのみであるため、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
その後、辞書切替部13は、音声認識処理部12から入力される音声認識結果データ「山田」に基づいて氏の音声認識が終了したと判定すると、氏名辞書43の名カテゴリyを選択する。音声認識処理部12は、入力音声信号が示す音声「山田太郎」のうちの名の部分である音声「太郎」を、辞書切替部14により選択された氏名辞書43の名カテゴリyに登録されている名データと照合して、音声認識を行う(図7のステップS28)。その結果、音声で入力された氏名のうちの名が「太郎」であることが認識される。このとき、音声「太郎」と照合されるものは名データのみであるため、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
以上のようにして音声認識された氏名である「山田太郎」を示す音声認識結果データは、音声認識処理部13から制御部11を介して端末装置20に出力される。これにより、入力画面30の氏名入力欄32に、「山田太郎」が表示される(ステップS29)。
使用者は、入力画面30の氏名入力欄32に表示された氏名「山田太郎」が正しいことを確認すると、カーソル22を入力画面30の電話番号入力欄33に移動させたのちに、マイク21を用いて自分の電話の電話番号である「0312456789」と声で入力する(ステップS30)。これにより、端末装置20のカーソル22の位置を示すカーソル位置信号が端末装置20から音声認識装置1の制御部11に出力されるとともに、マイク21から出力される音声信号が端末装置20を介して音声認識装置1の音声認識処理部12に出力される(ステップS31)。
制御部11は、端末装置20から入力されたカーソル位置信号に基づいて、「入力音声信号が電話番号を示す」旨の制御信号を辞書切替部13に出力する(ステップS32)。
辞書切替部13は、この制御信号に基づいて、辞書格納部14に格納されている住所辞書41、地番等辞書42、氏名辞書43および電話番号辞書44のうちの電話番号辞書44を選択する。音声認識処理部12は、入力音声信号が示す音声「0312456789」の各数字を、辞書切替部14により選択された電話番号辞書44に登録されている数字データと照合して、音声認識を行う(ステップS33)。その結果、音声で入力された電話番号が「0312456789」であることが認識される。このとき、音声「0312456789」と照合されるものは数字データのみであるため、たとえば数字の「5」を「号」などと誤認識することがなくなり、精度良く音声認識することができるとともに音声認識の処理時間を短縮することができる。
以上のようにして音声認識された電話番号である「0312456789」を示す音声認識結果データは、音声認識処理部13から制御部11を介して端末装置20に出力される。これにより、入力画面30の電話番号入力欄33に、「0312456789」が表示される(ステップS34)。使用者は、入力画面30の氏名入力欄32に表示された電話番号「0312456789」が正しいことを確認すると、入力作業を終了する。
以上の説明では、端末装置20を音声認識装置1に直接接続したが、端末装置20をインターネットなどの通信回線を介して音声認識装置1に接続して、Webページから住所、氏名および電話番号を音声で入力するようにして、同様の音声認識処理を行ってもよい。
また、制御部11は、端末装置20上のカーソル22の位置に応じて辞書切替部13に辞書を選択させたが、入力する項目を音声により「住所」、「氏名」および「電話番号」と入力させて、この音声を音声認識部12により認識させて、この音声認識結果に基づいて辞書切替部13に辞書を選択させてもよい。
さらに、住所辞書41、地番等辞書42、氏名辞書43および電話番号辞書44を辞書格納部14に格納させたが、これらの辞書を公開ネットワーク上に設けてもよい。これにより、複数の端末装置からの共用が可能となり、ASP(Application Service Provider)サービスを提供することができる。
以上説明したように、本発明の音声認識装置および音声認識方法は、音声により所定の情報を入力する際に精度良くかつ短い処理時間で音声認識する音声認識装置および音声認識方法に利用することができる。
本発明の一実施例による音声認識装置を説明するための概略ブロック図である。(実施例1) 図1に示した端末装置20に表示される入力画面の一例を示す図である。(実施例1) 図1に示した辞書格納部15に格納されている住所辞書41の階層化構造の一例を示す図である。(実施例1) 図1に示した辞書格納部15に格納されている氏名辞書43の階層化構造の一例を示す図である。(実施例1) 図1に示した音声認識装置1の動作を説明するためのフローチャートである。(実施例1) 図1に示した音声認識装置1の動作を説明するためのフローチャートである。(実施例1) 図1に示した音声認識装置1の動作を説明するためのフローチャートである。(実施例1)
符号の説明
1 音声認識装置
11 制御部
12 音声認識処理部
13 辞書切替部
14 辞書格納部
20 端末装置
21 マイク
22 カーソル
30 入力画面
31 住所入力欄
32 氏名入力欄
33 電話番号入力欄
41 住所辞書
42 地番等辞書
43 氏名辞書
44 電話番号辞書
S11〜S34 ステップ

Claims (8)

  1. 制御部(11)と、
    音声入力手段(21)から出力される音声信号が示す音声を認識する音声認識処理部(12)と、
    所定の情報を照合するためのデータが複数のカテゴリに階層化されて登録されている辞書(41)が格納された辞書格納部(14)と、
    前記制御部からの制御信号および前記音声認識処理部からの音声認識結果データに基づいて、前記辞書格納部に格納されている前記辞書の前記複数のカテゴリのうちの1つのカテゴリを選択する辞書切替部(13)と、
    を具備し、
    前記辞書切替部が、前記制御部からの制御信号に基づいて、前記辞書格納部に格納されている前記辞書の前記複数のカテゴリのうちの最上階のカテゴリを選択し、
    前記音声認識処理部が、前記音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行い、該音声認識の結果を示す音声認識結果データを前記辞書切替部に出力し、
    前記辞書切替部が、前記音声認識結果データに基づいて、前記辞書格納部に格納されている前記辞書の前記複数のカテゴリのうちの前記最上階のカテゴリよりも下の階のカテゴリを選択し、
    前記音声認識処理部が、前記音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリよりも下の階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行う、
    ことを特徴とする、音声認識装置。
  2. 前記辞書格納部に、都道府県名を照合するための都道府県名データが登録された県名カテゴリと、都道府県内の市名を照合するための市名データが都道府県別に登録された市名カテゴリと、都道府県の市内の町村名を照合するための町村名データが市別に登録された町村名カテゴリとを含む住所辞書(41)が格納されていることを特徴とする、請求項1記載の音声認識装置。
  3. 前記辞書格納部に、
    地番などを照合するための地番等データが登録された地番等辞書(42)と、
    氏名に使用される各種の氏を照合するための氏データが登録された氏カテゴリと、氏名に使用される各種の名を照合するための名データが登録された名カテゴリとを含む氏名辞書(43)と、
    電話番号に使用される数字を照合するための数字データが登録された電話番号辞書(44)と、
    がさらに格納されていることを特徴とする、請求項1または2記載の音声認識装置。
  4. 前記制御部が、前記音声入力手段を備えた端末装置(20)に接続されており、
    前記制御部が、住所入力欄(31),氏名入力欄(32)および電話番号入力欄(33)を有する入力画面(30)を前記端末装置に表示させたのち、住所を都道府県名から音声で入力するように前記端末装置の使用者に指示するコメントを該端末装置に表示させ、
    前記端末装置が、前記使用者が前記端末装置に表示された前記コメントに従って前記入力画面の前記住所入力欄,前記氏名入力欄および前記電話番号入力欄のいずれか1つの欄にカーソル(22)を移動させた該カーソルの位置を示すカーソル位置信号を前記制御部に出力し、
    前記制御部が、前記カーソル位置信号に基づいて、前記音声信号が住所,氏名および電話番号のどれを示す音声信号であるかを示す制御信号を前記辞書切替部に出力し、
    前記辞書切替部が、前記制御信号に基づいて、前記辞書格納部に格納されている前記住所辞書,前記地番等辞書,前記氏名辞書および前記電話番号辞書のうちの1つを選択する、
    ことを特徴とする、請求項3記載の音声認識装置。
  5. 前記辞書格納部が公開ネットワーク上に設けられていることを特徴とする、請求項1乃至4いずれかに記載の音声認識装置。
  6. 辞書切替部(13)が、制御部(11)からの制御信号に基づいて、所定の情報を照合するためのデータが複数のカテゴリに階層化されて登録されている辞書(41)が格納された辞書格納部(14)を検索して、前記辞書の前記複数のカテゴリのうちの最上階のカテゴリを選択するステップ(S15)と、
    音声認識処理部(12)が、音声入力手段(21)から入力される音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行うステップ(S16)と、
    前記辞書切替部が、前記音声認識処理部による前記音声認識の結果を示す音声認識結果データに基づいて前記辞書格納部(14)を検索して、前記辞書の前記複数のカテゴリのうちの前記最上階のカテゴリよりも下の階のカテゴリを選択するステップ(S17)と、
    前記音声認識処理部が、前記音声信号が示す音声を、前記辞書切替部により選択された前記最上階のカテゴリよりも下の階のカテゴリに登録されている前記所定の情報を照合するためのデータと照合して、音声認識を行うステップ(S18)と、
    を具備することを特徴とする、音声認識方法。
  7. 前記辞書格納部に、都道府県名を照合するための都道府県名データが登録された県名カテゴリと、都道府県内の市名を照合するための市名データが都道府県別に登録された市名カテゴリと、都道府県の市内の町村名を照合するための町村名データが市別に登録された町村名カテゴリとを含む住所辞書(41)が格納されていることを特徴とする、請求項6記載の音声認識方法。
  8. 前記辞書切替部が最上階のカテゴリを選択するステップの前に、
    前記制御部が、住所入力欄(31)を有する入力画面(30)を端末装置(20)に表示させたのち、住所を都道府県名から音声で入力するように前記端末装置の使用者に指示するコメントを該端末装置に表示させるステップ(S11)と、
    前記端末装置が、前記端末装置に表示された前記コメントに従って前記使用者が前記入力画面の前記住所入力欄にカーソル(22)を移動させた該カーソルの位置を示すカーソル位置信号を前記制御部に出力するステップ(S13)と、
    前記制御部が、前記カーソル位置信号に基づいて、「入力音声信号が住所を示す」旨の制御信号を前記辞書切替部に出力するステップ(S14)と、
    前記辞書切替部が、前記「入力音声信号が住所を示す」旨の制御信号に基づいて、前記辞書格納部に格納されている前記住所辞書を選択するステップ(S15)と、
    をさらに具備することを特徴とする、請求項6または7記載の音声認識方法。
JP2004263563A 2004-09-10 2004-09-10 音声認識装置および音声認識方法 Withdrawn JP2006078829A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004263563A JP2006078829A (ja) 2004-09-10 2004-09-10 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004263563A JP2006078829A (ja) 2004-09-10 2004-09-10 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2006078829A true JP2006078829A (ja) 2006-03-23

Family

ID=36158325

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004263563A Withdrawn JP2006078829A (ja) 2004-09-10 2004-09-10 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2006078829A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237385A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Information Systems Corp 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP2009237386A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Information Systems Corp 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
KR100977000B1 (ko) 2008-06-26 2010-08-19 주식회사 예스피치 업데이트된 주소의 음성 인식 그래마 자동 생성 방법 및시스템
JP2018072508A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声入力装置、音声入力方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009237385A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Information Systems Corp 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
JP2009237386A (ja) * 2008-03-28 2009-10-15 Mitsubishi Electric Information Systems Corp 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム
KR100977000B1 (ko) 2008-06-26 2010-08-19 주식회사 예스피치 업데이트된 주소의 음성 인식 그래마 자동 생성 방법 및시스템
JP2018072508A (ja) * 2016-10-27 2018-05-10 トッパン・フォームズ株式会社 音声入力装置、音声入力方法

Similar Documents

Publication Publication Date Title
CN107039038B (zh) 学习个性化实体发音
TWI437449B (zh) 多重模式輸入方法及輸入方法編輯器系統
US8275618B2 (en) Mobile dictation correction user interface
US8566087B2 (en) Context-based grammars for automated speech recognition
CN1238832C (zh) 基于约束条件的语音识别系统
CN100578614C (zh) 用语音应用语言标记执行的语义对象同步理解
US8949133B2 (en) Information retrieving apparatus
JP4790024B2 (ja) 音声認識装置
EP1544719A2 (en) Information processing apparatus and input method
JP3278222B2 (ja) 情報処理方法及び装置
JPH06332493A (ja) 音声対話型情報検索装置及び方法
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
WO2019035373A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP2010026686A (ja) 統合的インタフェースを有する対話型コミュニケーション端末及びそれを用いたコミュニケーションシステム
JPH07219590A (ja) 音声情報検索装置及び方法
JP2006078829A (ja) 音声認識装置および音声認識方法
JP2003162293A (ja) 音声認識装置及び方法
JP2003157095A (ja) 音声認識装置及びその方法、プログラム
JP2004053620A (ja) 音声認識装置
Griol et al. From VoiceXML to multimodal mobile Apps: development of practical conversational interfaces
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
US20080133240A1 (en) Spoken dialog system, terminal device, speech information management device and recording medium with program recorded thereon
JP2003140682A (ja) 音声認識装置及び音声辞書作成方法
Melto et al. Evaluation of predictive text and speech inputs in a multimodal mobile route guidance application
JP2000215023A (ja) ペ―ジ記述言語表示装置及びペ―ジ記述言語表示プログラムを記録した機械読み取り可能な記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20071204