JP2007193184A - 音声住所認識装置 - Google Patents

音声住所認識装置 Download PDF

Info

Publication number
JP2007193184A
JP2007193184A JP2006012382A JP2006012382A JP2007193184A JP 2007193184 A JP2007193184 A JP 2007193184A JP 2006012382 A JP2006012382 A JP 2006012382A JP 2006012382 A JP2006012382 A JP 2006012382A JP 2007193184 A JP2007193184 A JP 2007193184A
Authority
JP
Japan
Prior art keywords
address
voice
lot number
user
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006012382A
Other languages
English (en)
Inventor
Kengo Suzuki
堅悟 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2006012382A priority Critical patent/JP2007193184A/ja
Publication of JP2007193184A publication Critical patent/JP2007193184A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音声を認識するための辞書の情報量が増加することなく、利用者が発話した音声を効率よく認識可能な音声住所認識装置を提供する。
【解決手段】地番パターン記憶部5に記憶された地番パターンにもとづいてスロット数がいくつであるか、および数字の最大桁数がいくつであるかを判断し、判断結果にもとづいて音声認識を行うことにより、汎用的な連続数字を認識するための辞書を用いて各スロットごとに音声認識を行うことができる。たとえば、地番パターン記憶部5に記憶された各スロットの最大桁数が4である場合には、地番用認識辞書35は1〜9999の連続した数字を認識することができる辞書であればよい。したがって地番用認識辞書35のデータ量を少なくすることができる。地番パターンよりスロット数を決定するとこができるので利用者に対して発話を促す回数を制御でき、利用者の利便性が向上する。
【選択図】図1

Description

本発明は、住所の丁目以下の数字部分を効率よく認識可能な音声住所認識装置に関する。
従来、情報検索のためのインタフェースとして、リモコンやキースイッチ、タッチパネル等を用いたものがある。これらは一般的に、ディスプレイ上のリスト等の表示を辿りながら目的の入力文字等を探すものである。
しかし検索対象となる情報量が多い場合、利用者が参照しなければならない項目数が増え、利用者の視線を拘束する時間が長くなってしまう。
したがって、情報検索が主たる操作でない状況においては、情報を検索するための操作にとられる時間が長くなることは好ましいことではない。
そこで、インタフェースとして音声を用いたものがある。
これは、利用者の発話を受け付けることができるようにあらかじめ作成された音声認識辞書を記憶し、入力された音声と音声認識辞書内のデータとの比較を行い、認識を行うものである。
また住所などの階層構造をなす情報を検索する場合、都道府県名から大字名までは各階層ごとに辞書を作成し、発話の途中で階層の順番に従って辞書を切り替えることによって、都道府県名から大字名まで連続して発話された場合であっても住所の認識を行い、結果を返す。
番地など、丁目以下の数字によって構成される部分も上記と同様に、大字ごとに、丁目、番地、号の順で階層構造をなす辞書を作成し、住所の数字部分の音声認識を行う。
このような利用者が発話した音声を認識するものとしてたとえば特許文献1に記載されたものがある。
特開2003−329458号公報
しかしながら、従来のものにおいては、住所の数字部分を認識するための辞書として、大字ごとに実際に存在する、丁目、番地、号のすべての組み合わせに対応したものを作成する必要があるため、この辞書の情報量が膨大となり、記憶容量の面で非効率であるといった問題があった。
そこで本発明はこのような問題点に鑑み、音声を認識するための辞書の情報量が増加することなく、利用者が発話した音声を効率よく認識可能な音声住所認識装置を提供することを目的とする。
本発明は、音声入力手段によって利用者が発話した住所の音声を受け付け、音声照合手段が、音声入力部によって受け付けられた音声と、音声認識辞書に格納された音声と対応するデータとにもとづいて住所の一部となる数字部分の音声認識処理を行う音声住所認識装置において、音声照合手段は、大字ごとに住所の数字部分の階層構造を示す地番パターンを格納する地番パターン記憶部より利用者が発話した大字と対応する前記地番パターンを抽出し、該抽出した地番パターンにもとづいて利用者に対して住所の一部となる数字部分の発話を階層ごとに促して音声認識処理を行うものとした。
本発明によれば、地番パターン記憶部に格納された地番パターンにもとづいて利用者に住所の階層ごとに発話を促して音声を認識する構成としたので、住所の数字部分の組み合わせなどが無い汎用的な連続数字を認識するための辞書を用いて音声認識を行うことができ、音声認識辞書の情報量を少なくすることができる。
次に本発明の実施の形態を実施例により説明する。
なお本実施例は、本発明を車両に搭載されたナビゲーションシステムに適用し、利用者が発話した目的地等の住所を認識するものである。
図1に、実施例の全体構成を示す。
利用者の発話を受け付ける音声入力部6と、利用者が発話の開始を指示する認識開始指示部7と、利用者が発話した音声を認識したり車両の経路案内を行う処理部2と、ガイダンス音を出力する音声出力部8と、利用者に提示する画像を表示する情報表示部9とよりナビゲーションシステム1が構成される。
音声入力部6は、マイクを備え、利用者の発話を収録する。
認識開始指示部7は、利用者が処理部2に発話の開始を指示するためのものであり、たとえば押しボタンスイッチなどを備える。利用者が発話の開始時に認識開始指示部7を操作することにより、処理部2は発話の受け付け待機状態となる。
音声出力部8は、スピーカなどを備え、処理部2から出力されたガイダンス音を出力する。
情報表示部9は、ディスプレイを備え、ナビゲーションのメニュー画面や音声認識結果などを表示する。
処理部2は、利用者が発話した音声を認識する音声認識部3と、車両の経路案内を行うナビゲーション機能部4とを備える。
なお利用者は、たとえば経路案内の目的地の地名を発話するものとし、音声入力部6を通じて音声が入力されると音声認識部3が地名を認識し、音声認識部3の認識結果にもとづいてナビゲーション機能部4が車両の経路案内を行う。
音声認識部3は、音声入力部6から取得した音声波形から、音声を認識するための辞書や音響モデルを用いて音声認識を行うものであり、音声記憶部31、音声照合部32、音響モデル格納部33、地名用認識辞書34、地番用認識辞書35とより構成されている。
音声記憶部31は、音声入力部6から入力される音声を音声認識処理に用いるためにバッファリングするものである。
音声照合部32は、音声記憶部31によってバッファリングされた音声波形と、音響モデル格納部33に格納された音響モデル、地名用認識辞書34や地番用認識辞書35内の情報にもとづいて音声の認識処理を行うものである。
音声照合部32は、たとえばHMM(隠れマルコフモデル)などの方式を用いて音声認識を行う。
音響モデル格納部33は、音声波形と音素との対応テーブルを格納するものである。
地名用認識辞書34は、認識可能な地名と、それに対応する音素の組み合わせが記述されているものである。
地番用認識辞書35は、認識可能な数字と、それに対応する音素の組み合わせが記述されているものである。
音声認識部3には地番パターン記憶部5が接続され、大字ごとにあらかじめ定義された地番パターンが記憶されている。
なお地番パターンの詳細については後述する。
ナビゲーション機能部4は、データベース検索部41を備える。
データベース検索部41は、音声認識部3によって認識された地名の地図上の位置などを検索する。
ナビゲーション機能部4は、データベース検索部41によって検索された位置に基づいて音声出力部8や情報表示部9を用いて車両の走行経路案内などを行う。
なおナビゲーション機能部4は、自車両の位置を特定するための図示しないGPSアンテナなど、車両の走行経路案内に必要な装置を有している。
次に、地番パターン記憶部5に格納された地番パターンについて説明する。
なお地番パターンは、音声認識処理の前にあらかじめ地番パターン作成装置50によって作成され、地番パターン記憶部5に記憶させておく。
地番パターンは、全国の各地名の大字(住所のうち、数字以外で記述されている部分の最小単位)ごとに、当該大字に「〜丁目」と記載された部分があるか、「〜番地」と記載された部分があるか、「〜号(号と記載されていない場合もあり)」と記載された部分があるかどうかを示すものである。
具体的には、地番パターン記憶部5には大字ごとにスロット数が記憶されており、該スロット数を見ることによって住所の数字部分の構成を判別することができるものである。
ここで、「〜丁目」、「〜番地」、「〜号」をそれぞれスロットと呼び、たとえば住所の数字部分の構成が「〜丁目〜番地〜号」である場合にはスロット数は3、「〜番地〜号」である場合にはスロット数は2となる。したがってスロット数は1〜3の間の値となる。
また地番パターンは、スロット数に加えて、各スロットの数字部分の最大桁数(〜丁目、〜番地や〜号の数字部分の桁数)を示す情報を含む。
これにより、地番パターンを見ることによって、住所の数字部分の構成と、数字の最大桁数とを判別することができる。
次に、地番パターン作成装置50によって行われる地番パターン(スロット数、および各スロットの数字部分の最大桁数)の作成手順について説明する。
図2に、地番パターン作成部が行う地番パターンの作成手順を示し、図3に、地番パターンのデータ構成例を示す。
図1に示すように、地番パターン作成装置50は、地名が格納された住所データベース51と、住所データベース51を参照しながら地番パターンを作成する地番パターン作成部52とより構成される。
図2のステップ100において地番パターン作成部52は、地番パターンを決定する大字を住所データベース51に記憶されたデータから選択する。
なお地番パターンを作成する地域は、あらかじめ設定されており、地番パターン作成部52はあらかじめ設定された地域内の大字名を選択するものとする。
ステップ101において、ステップ100で選択した大字において「〜丁目」と記載された部分があるかどうかを住所データベース51を参照して判断する。
大字に「〜丁目」と記載された部分がある場合にはステップ108へ進み、無い場合には102へ進む。
ステップ102において、選択した大字に「〜号」と記載された部分があるかどうかを住所データベース51を参照して判断する。
大字に「〜号」と記載された部分がある場合にはステップ106へ進み、無い場合にはステップ103へ進む。
ステップ103において、ステップ101、102で「丁目」、「号」が無いと判断されているので、当該大字の丁目以下の数字部分は「〜番地」のみで構成されているものと判断し、当該大字における番地の数字部分の最大桁数を住所データベース51より読み込む。
ステップ104において、当該大字の丁目以下の数字部分は「〜番地」のみで構成されているので、スロット数として1を設定する。
これにより、当該大字の地番パターンが決定される。
次にステップ105において、あらかじめ定められた地域内のすべての大字について地番パターンを設定したかどうかを判断し、すべての大字について設定が完了していない場合にはステップ100へ戻り、完了した場合には地番パターンの作成処理を終了する。
ステップ102において大字名に「〜号」の記載があると判断されると、ステップ106において、大字名の数字部分の最大桁数を読み込む。
ここで、ステップ101で「〜丁目」が無いと判断され、ステップ102で「〜号」が有りと判断されているので、当該大字の丁目以下は「〜番地〜号」の構成となっていることがわかる。
したがってステップ106では、番地の部分、および号の部分の数字の最大桁数をそれぞれ読み込む。
次にステップ107において、当該大字の丁目以下は「〜番地〜号」の構成となっているので、スロット数として2を設定し、ステップ105へ進む。
ステップ101において大字名に「〜丁目」の記載があると判断されると、ステップ108において、大字名に「〜号」と記載された部分があるかどうかを住所データベース51を参照して判断する。
大字に「〜号」と記載された部分がある場合にはステップ109へ進み、無い場合にはステップ111へ進む。
ステップ109において、大字名の数字部分の最大桁数を読み込む。
ここで、ステップ101で「〜丁目」が有りと判断され、ステップ108で「〜号」が有りと判断されているので、当該大字の丁目以下は「〜丁目〜番地〜号」の構成となっていることがわかる。
したがってステップ109では、丁目の部分、番地の部分、および号の部分の数字の最大桁数をそれぞれ読み込む。
次にステップ110において、当該大字の丁目以下は「〜丁目〜番地〜号」の構成となっているので、スロット数として3を設定し、ステップ105へ進む。
ステップ108において大字名に「〜号」の記載が無いと判断されると、ステップ111において、大字名の数字部分の最大桁数を読み込む。
ここで、ステップ101で「〜丁目」が有ると判断され、ステップ108で「〜号」が無しと判断されているので、当該大字の丁目以下は「〜丁目〜番地」の構成となっていることがわかる。
したがってステップ111では、丁目の部分、および番地の部分の数字の最大桁数をそれぞれ読み込む。
次にステップ112において、当該大字の丁目以下は「〜丁目〜番地」の構成となっているので、スロット数として2を設定し、ステップ105へ進む。
以上により、各大字名に対応した地番パターンを作成することができ、スロット数を確認することにより、スロット数が1の場合には大字名は「〜番地」、スロット数が2の場合には大字名は「〜番地〜号」または「丁目〜番地」、スロット数が3である場合には大字名は「〜丁目〜番地〜号」という構成になっていることがわかる。
ここで、1つの大字内において、スロット数が異なる場合がある。
具体的には大字名の数字部分の構成が、たとえば「〜丁目〜番地〜号」と記述される場所と、「〜番地〜号」と記述される場所とが混在している場合がある。
このような場合には、当該大字内には、地番パターンに混在があるものとして、混在の有無を地番パターンに付記する。
これにより図3に示すように、大字名までの名称、地番パターンの混在の有無、スロット数、各スロットの最大桁数とによって地番パターンが構成される。
たとえば、スロット数3、丁目の最大桁数が1、番地の最大桁数が2、号の最大桁数が2(図3中において、1、2、2と記載する)である場合、当該大字名の丁目以下の部分は、2丁目22番地23号、や1丁目1番地3号を含んでいることがわかる。
作成された地番パターンは、地番パターン記憶部5に格納されて、音声認処理に用いられる。
次に、ナビゲーションシステム1の音声認識部3が行う音声認識処理の詳細について説明する。
なお利用者は、住所の発話の前に認識開始指示部7を操作して、処理部2に対して音声入力開始の指示を行う。
認識開始指示部7が操作されて音声入力開始の指示を受け付けると、処理部2の音声認識部3は、たとえば「住所の入力をどうぞ」といったガイダンス音を音声出力部8より出力する。
処理部2の音声認識部3は、音声入力開始の指示を受け付けると、利用者の発話の待ち受け状態となる。
また、住所のうち県名から大字名までの部分については、通常行われている住所の認識手順、たとえば住所の階層ごとに関連付けされた住所ツリーを辿っていくことによって住所を特定する方法などを用いて音声認識部3が認識処理を行うものとし、ここでの説明は省略する。
この地名の認識は、音声照合部32が音響モデル格納部33と地名用認識辞書34とを用いて行うものであり、音声照合部32が入力された音声波形に対応する音素を音響モデル格納部33から抽出し、抽出した音素に対応する地名を地名用認識辞書34から取得するものである。
以下において、音声入力部6を通じて入力された音声において、特に音声認識部3が大字名の丁目以下の部分を認識する手順について説明する。
また利用者は、住所の地番部分をナビゲーションシステム1に認識させる際に、数字部分のみを発話するものとする。(たとえば3丁目と認識させたい場合には、処理部2から指示されたタイミングで「3」と発話する。)
音声認識部3は、地番パターン記憶部5に記憶された地番パターンと利用者が発話した数字とを比較することによって、利用者がスロットの数字を順に発話する途中で、発話しようとしている住所の数字部分のスロット数が1〜3のどれであるかを判断し、スロット数が判断できた場合には、該スロット数にもとづいて音声認識処理を行う。
これにより、地番が「3丁目41番地」である場合、利用者が「41番地」まで発話した後、さらに音声認識部3が「続きの住所をどうぞ」というガイダンス音声を出力して利用者の発話を待ち受けることなどを少なくし、音声認識の効率を上げようとするものである。
図4、5に、利用者が発話した住所のうち、丁目以下の部分の音声認識処理の流れを示す。
ステップ200において処理部2の音声照合部32は、利用者が住所の大字まで発話したかどうかを判断する。
大字までの発話が完了していない場合には、通常行われている住所の認識処理を行い、大字名の発話が完了するまでステップ200における処理を繰り返す。
利用者が大字名までの発話を完了したと判断すると、ステップ201へ進む。
ステップ201において音声照合部32は、地番パターン記憶部5に格納された地番パターンのうち、利用者が発話した大字に該当する地番パターンを読み込む。
次にステップ202において音声照合部32は、音声を認識するための辞書を地名用認識辞書34から地番用認識辞書35に切り替えて、利用者の発話を待ち受ける。発話があった場合にはステップ203へ進み、発話がない場合にはステップ202における処理を繰り返す。
このとき音声認識部3は、情報表示部9にたとえば図6に示すように入力済みの住所(ここでは、「神奈川県大和市下鶴間」まで入力されているものとする)を画面の上段に表示し、入力可能なパターン(ここでは、地番パターン記憶部5から取得した地番パターンを参照することにより、地番数字の入力可能な桁数)を画面の下段に表示する。
また「神奈川県大和市下鶴間」は図4に示す地番パターンより、「(数字最大1桁)丁目、(数字最大2桁)番地、(数字最大2桁)号」、または「(数字最大4桁)番地、(数字最大3桁)号」が混在していることがわかる。
ステップ203において音声照合部32は、音声入力部6を通じて入力された利用者の音声(住所の数字部分の最初の部分、ここでは、何丁目かを示す最大1桁の数字、または何番地かを示す最大4桁の数字)を認識する。
具体的には、音声照合部32は、音響モデル格納部33と地番用認識辞書35とを用いて、音声照合部32が入力された音声波形に対応する音素を音響モデル格納部33から抽出し、抽出した音素に対応する数字を地番用認識辞書35から取得する。
ステップ204において音声照合部32は、ステップ201で読み込んだ地番パターンより、当該大字内に地番パターンが混在しているかどうか(スロット数の異なるものがあるかどうか)を判断する。
地番パターンが混在していない場合には、ステップ201で読み込んだスロット数にもとづいてスロットごとに数字の発話を促し、ステップ300以降の処理において順次数字の認識を行う。
そのためステップ300において、当該大字のすべてのスロットについて利用者が発話を行い、音声認識が完了しているかどうかを判断する。
すべてのスロットについて音声認識が完了している場合には、音声認識処理を終了し、認識結果をナビゲーション機能部4へ出力する。
すべてのスロットについて音声認識が完了していない場合には、ステップ301へ進み、音声照合部32は利用者に対し、音声出力部8を通じて次のスロットの発話を行う旨の指示を行う。
これは、たとえば「続きの住所をどうぞ」というガイダンス音声を出力するものである。
利用者に次のスロットを発話する旨の指示をした後、ステップ202において利用者の発話待ちを行う。
一方、ステップ204で地番パターンが混在していると判断された場合には、ステップ205において音声照合部32は、ステップ201で読み込んだ地番パターンの先頭のスロットの最大桁数が異なるかどうか(ここではステップ204において当該大字において異なる地番パターンが存在すると判断されているため、異なる地番パターンの先頭のスロットの最大桁数が異なるかどうか)を判断する。
先頭のスロットの最大桁数が同じである場合には、スロット数を特定することができないのでステップ302へ進み、混在している地番パターンの最大スロット数の発話が完了したかどうかを判断する。
たとえばスロット数が2と3とが混在していた場合には、最大スロット数は3であり、3回分の発話が完了したかどうかを判断する。
最大スロット数の発話が完了している場合には、音声認識処理を終了し、認識結果をナビゲーション機能部4へ出力する。
一方、最大スロット数の発話が完了していない場合には、ステップ301へ進み、次のスロットの発話を行う旨の指示を行う。
またステップ205で地番パターンの先頭のスロットの最大桁数が異なると判断された場合には、ステップ206においてスロット数の決定処理を行う。
これは、ステップ203で認識された数字と、混在している地番パターンの先頭のスロットの最大桁数とを比較し、地番スロットを一意に決定することができるかどうかを判断するものである。
具体的には、たとえば図4に示す「神奈川県大和市下鶴間」を例に説明すると、下鶴間は、スロット数2と3とが混在している。
ここで利用者が「下鶴間」という大字名称の後に発話し、ステップ203において認識された数字が「1234」の4桁の数字であった場合、スロット数が3の場合には、先頭のスロットの数字の最大桁数は1桁なので、4桁の「1234」は該当しないことがわかる。
したがってこの例では、2桁以上の数字が入力された場合には、スロット数が3ではなく、スロット数は2であることがわかる。
ステップ206においてスロット数が一意に決定できた場合には、ステップ400〜403において、決定されたスロット数にもとづいて利用者にスロットの数字の発話を促し、順次音声認識を行う。
なおステップ400〜403は、ステップ300、301、202、203における処理と同様であり、説明を省略する。
このように、決定されたスロット数にもとづいて利用者に対して次のスロットの発話を促すことができ、利便性を向上させることができる。
一方、ステップ203で認識された数字が1桁の数字であった場合には、スロットが2か3かを一意に決定することができない。
したがってこの場合には、スロット数が決定できないものとしてステップ207へ進む。
ステップ207において音声照合部32は、利用者に対し次のスロットの発話を行う旨の指示を行う。
利用者に次のスロットを発話する旨の指示をした後、ステップ208において利用者の発話待ちを行う。
利用者からの発話があると、ステップ209において音声照合部32は、音声入力部6を通じて入力された利用者の音声認識処理を行う。
ステップ210において音声照合部32は、ステップ201で読み込んだ地番パターンの2番目のスロットの最大桁数が異なるかどうか(たとえば図3に示す「下鶴間」の場合には、スロット数が3においては2、スロット数が2の場合には3が2番目のスロットの最大桁数に該当する)を判断する。
2番目のスロットの最大桁数が異なる場合にはステップ211へ進み、スロット数が同じである場合にはステップ500へ進む。
2番円のスロット数の最大値が異なる場合にはステップ211において、スロット数の決定処理を行う。
なおステップ211における処理は、上述のステップ206における処理と同様であり説明を省略する。
ステップ212において、ステップ211で決定されたスロット数にもとづいて、当該大字において次のスロットが存在するかどうかを判断し、存在しない場合(スロット数が2であった場合)には、認識結果を4へ出力し、音声認識処理を終了する。
一方、次のスロット数がある場合(スロット数が3である場合)には、ステップ213〜ステップ215における処理において、3番目のスロット数について音声認識を行い、処理を終了する。
なお、ステップ213〜215における処理は上述のステップ301、202、203における処理と同様であり説明を省略する。
一方、ステップ210で2番目の最大スロット数が同じであると判断されると、音声照合部32は、スロット数が2つであるか3つであるかどうかを判断することができないため、ステップ500において、混在している地番パターンの最大スロット数の発話が完了したかどうかを判断する。
最大スロット数の発話が完了している場合には、音声認識処理を終了し、認識結果をナビゲーション機能部4へ出力する。
一方発話が完了していない場合にはステップ501〜503において、スロット数の大きいほうの数だけ利用者の発話を待ち受ける処理を行う。
以上のように、たとえば3丁目4番地2号や、5丁目34番地といったスロット数の異なる地番パターンが混在し、大字名からでは一意にスロット数が決定できない場合であっても、ステップ201において読み込んだ地番パターンと利用者が発話した数字とにもとづいてスロット数を決定することができた場合には、決定されたスロット数にもとづいて利用者に対して発話を促す旨の指示をおこなうことができる。たとえば5丁目34番地までしか住所の数字部分がない場合に、さらに「続きの住所をどうぞ」とガイダンス音を出力してしまうことを少なくすることができる。
具体的にはステップ204において地番パターンが混在していると判断され、先頭のスロットの最大桁数が異なり、ステップ206において、利用者が発話した数字と1番目のスロットの最大桁数とよりスロット数が決定できた場合には、決定されたスロット数にもとづいてステップ400〜403において利用者の発話を待ち受ける。
また、ステップ206においてスロット数が決定できなかった場合であっても、2番目のスロットの最大桁数が異なり、ステップ211において、利用者が2番目に発話した数字(ステップ209で認識された数字)と2番目のスロットの最大桁数とよりスロット数が決定できた場合には、決定されたスロット数にもとづいてステップ212〜215において利用者の発話を待ち受ける。
このような場合には、存在しないスロットについて発話を促すことを防止することができる。
一方、地番パターンが混在しており先頭のスロットの最大桁数が同じである場合には、スロット数を決定することができないため、当該大字において混在している地番パターンの最大スロット数まで利用者の発話の待ち受けを行う。
また、先頭のスロットの最大桁数とステップ203で認識された数字とよりステップ206においてスロット数が決定できず、さらに、利用者が2番目に発話した数字と2番目のスロットの最大桁数とを用いてもスロット数を決定することができなかった場合(ステップ211における処理)、および、2番目のスロットの最大桁数が同じでありスロット数を決定できない場合(ステップ210における処理)には、ステップ500〜503における処理において、当該大字において混在している地番パターンの最大スロット数まで利用者の発話の待ち受けを行う。
地番パターンが混在し、大字名の入力後に図6に示すように情報表示部9に2つのパターン(スロットパターン)が表示されていた場合、ステップ206やステップ211においてスロット数の決定ができた場合には、適合するパターンのみを継続表示し、不適合なパターンは情報表示部9から削除する。
これにより利用者は、ナビゲーションシステム1が正しく音声認識を行っていることを知ることができる。
なお本実施例において、ステップ202、208、214、402、502が本発明における音声入力手段を構成し、地番用認識辞書35が本発明における音声認識辞書を構成する。またステップ201、203〜207、209〜213、215、300〜302、400、401、403、500、501、503が本発明における音声照合手段を構成する。
本実施例は以上のように構成され、地番パターン記憶部5に記憶された地番パターンにもとづいてスロット数がいくつであるか、および数字の最大桁数がいくつであるかを判断し、判断結果にもとづいて音声認識を行うことにより、汎用的な連続数字を認識するための辞書を用いて各スロットごとに音声認識を行うことができる。たとえば、地番パターン記憶部5に記憶された各スロットの最大桁数が4である場合には、地番用認識辞書35は1〜9999の連続した数字を認識することができる辞書であればよい。したがって地番用認識辞書35のデータ量を少なくすることができる。
地番パターンよりスロット数を決定するとこができ、また利用者が発話した音声の桁数と地番パターンの各スロットの最大桁数とよりスロット数を決定することにより、利用者に対して発話を促す回数を制御でき、利用者の利便性が向上する。
また、連続した数字を認識可能な音声認識辞書を用いることにより、たとえば番地が不連続となっている場合(たとえば当該大字には1丁目1番地〜1丁目4番地、1丁目10番地〜1丁目15番地が存在し、1丁目5番地〜1丁目9番地が存在しない場合)であっても、利用者が発話した実際には存在しない番地を認識することができる。
これにより、ナビゲーション機能部4は存在しない番地を音声認識部3から受け取ると、当該存在しない番地に近い番地の地図を情報表示部9を通じて利用者に提示するなど、存在しない住所の近傍検索を行うことができる。
利用者が大字名を入力した後、情報表示部9に地番パターンを表示することにより、利用者が入力しようとしている住所の地番パターンを認識することができ、利用者の発話の補助とすることができる。
また、地番パターンが複数混在する場合には、まず複数の地番パターンを情報表示部9に表示し、スロット数の決定ができた場合には、適合するパターンのみを継続表示し、不適合なパターンは情報表示部9から削除することにより、利用者は、ナビゲーションシステム1が正しく音声認識を行っていることを知ることができる。
なお本実施例において、音声認識装置を車両に搭載されたナビゲーションシステムに適用して例について説明したが、これに限定されず他のシステムなどに適用したり、音声認識装置単体として用いることもできる。
実施例の全体構成を示す図である。 地番パターンの作成手順を示す図である。 地番パターンのデータ構成例を示す図である。 音声認識処理の流れを示す図である。 音声認識処理の流れを示す図である。 情報表示部の表示画像例を示す図である。
符号の説明
1 ナビゲーションシステム
2 処理部
3 音声認識部
4 ナビゲーション機能部
5 地番パターン記憶部
6 音声入力部
7 認識開始指示部
8 音声出力部
9 情報表示部
31 音声記憶部
32 音声照合部
33 音響モデル格納部
34 地名用認識辞書
35 地番用認識辞書
41 データベース検索部
50 地番パターン作成装置
51 住所データベース
52 地番パターン作成部

Claims (7)

  1. 利用者が発話した住所の音声を受け付ける音声入力手段と、音声と対応するデータが格納された音声認識辞書と、前記音声入力部によって受け付けられた音声と音声認識辞書内に格納されたデータとにもとづいて住所の一部となる数字部分の音声認識処理を行う音声照合手段とを備えた音声住所認識装置において、
    大字ごとに、住所の数字部分の階層構造を示す地番パターンを格納する地番パターン記憶部を備え、
    前記音声照合手段は、
    利用者が発話した大字と対応する前記地番パターンを前記地番パターン記憶部から抽出し、該抽出した地番パターンにもとづいて利用者に対して住所の一部となる数字部分の発話を階層ごとに促して音声認識処理を行うことを特徴とする音声住所認識装置。
  2. 前記地番パターンは、住所の数字部分の階層の数、および住所の数字部分の各階層ごとの最大桁数のうち少なくともいずれか1つを含むことを特徴とする請求項1に記載の音声住所認識装置。
  3. 前記音声照合手段は、利用者が発話した大字と対応する前記地番パターンが複数混在する場合には、利用者が階層ごとに発話した数字を認識する段階で前記地番パターンの絞込みを行い、前記地番パターンの絞込みができた場合には、該絞り込まれた地番パターンにもとづいて音声認識処理を行うことを特徴とする請求項1または2に記載の音声住所認識装置。
  4. 音声認識処理時に、利用者が発話した大字と対応する前記地番パターンを表示する情報表示部を備えることを特徴とする請求項1から3のいずれか1に記載の音声住所認識装置。
  5. 前記地番パターンが複数混在する場合には、該複数の地番パターンを前記情報表示部に表示し、
    前記音声照合手段によって混在する地番パターンの絞込みができた場合に、前記絞り込まれた地番パターンのみを前記情報表示部に表示することを特徴とする請求項4に記載の音声住所認識装置。
  6. 利用者が発話した住所の音声を受け付け、該受け付けた音声と音声認識辞書内に格納されたデータとにもとづいて住所の一部となる数字部分の音声認識処理を行う音声住所認識方法において、
    大字ごとに住所の数字部分の階層構造を示す地番パターンを格納する地番パターン記憶部より、利用者が発話した大字と対応する前記地番パターンを抽出し、該抽出した地番パターンにもとづいて利用者に対して住所の一部となる数字部分の発話を階層ごとに促して音声認識処理を行うことを特徴とする音声住所認識方法。
  7. 音声認識処理時に、利用者が発話した大字と対応する前記地番パターンを情報表示部に表示することを特徴とする請求項6に記載の音声住所認識方法。
JP2006012382A 2006-01-20 2006-01-20 音声住所認識装置 Withdrawn JP2007193184A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006012382A JP2007193184A (ja) 2006-01-20 2006-01-20 音声住所認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006012382A JP2007193184A (ja) 2006-01-20 2006-01-20 音声住所認識装置

Publications (1)

Publication Number Publication Date
JP2007193184A true JP2007193184A (ja) 2007-08-02

Family

ID=38448918

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006012382A Withdrawn JP2007193184A (ja) 2006-01-20 2006-01-20 音声住所認識装置

Country Status (1)

Country Link
JP (1) JP2007193184A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211122A (ja) * 2009-03-12 2010-09-24 Nissan Motor Co Ltd 音声認識装置及び方法
KR102585761B1 (ko) * 2022-08-19 2023-10-06 (주)페르소나에이아이 구획 별 주소를 인식하여 음성을 텍스트로 변환하는 주소봇 서비스를 제공하는 전자 장치의 제어 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010211122A (ja) * 2009-03-12 2010-09-24 Nissan Motor Co Ltd 音声認識装置及び方法
KR102585761B1 (ko) * 2022-08-19 2023-10-06 (주)페르소나에이아이 구획 별 주소를 인식하여 음성을 텍스트로 변환하는 주소봇 서비스를 제공하는 전자 장치의 제어 방법

Similar Documents

Publication Publication Date Title
US9805722B2 (en) Interactive speech recognition system
US7949524B2 (en) Speech recognition correction with standby-word dictionary
US8340958B2 (en) Text and speech recognition system using navigation information
KR100679042B1 (ko) 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템
JP5334178B2 (ja) 音声認識装置およびデータ更新方法
US9177545B2 (en) Recognition dictionary creating device, voice recognition device, and voice synthesizer
JP4116233B2 (ja) 音声認識装置ならびにその方法
JPH11175568A (ja) 入力システム
JP2006048058A (ja) 多言語による名称の音声認識のための方法とシステム
JP2006195576A (ja) 車載音声認識装置
JP2010139826A (ja) 音声認識システム
KR101063607B1 (ko) 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법
JP4914632B2 (ja) ナビゲーション装置
JP6100101B2 (ja) 音声認識を利用した候補選択装置および候補選択方法
JP5455355B2 (ja) 音声認識装置及びプログラム
JP2007193184A (ja) 音声住所認識装置
JP2007240688A (ja) 音声認識装置及びそれを用いたナビゲーション装置、音声認証装置、方法及びプログラム
US20040015354A1 (en) Voice recognition system allowing different number-reading manners
JPH07319383A (ja) 地図表示装置
JP3830124B2 (ja) 音声認識装置
JP3762191B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
KR101063159B1 (ko) 명령횟수를 줄일 수 있는 음성 인식을 이용한 주소 검색 방법
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP3759313B2 (ja) 車載用ナビゲーション装置
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080912

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081126

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20090827