JP2007193184A

JP2007193184A - 音声住所認識装置

Info

Publication number: JP2007193184A
Application number: JP2006012382A
Authority: JP
Inventors: Kengo Suzuki; 堅悟鈴木
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2006-01-20
Filing date: 2006-01-20
Publication date: 2007-08-02

Abstract

【課題】音声を認識するための辞書の情報量が増加することなく、利用者が発話した音声を効率よく認識可能な音声住所認識装置を提供する。
【解決手段】地番パターン記憶部５に記憶された地番パターンにもとづいてスロット数がいくつであるか、および数字の最大桁数がいくつであるかを判断し、判断結果にもとづいて音声認識を行うことにより、汎用的な連続数字を認識するための辞書を用いて各スロットごとに音声認識を行うことができる。たとえば、地番パターン記憶部５に記憶された各スロットの最大桁数が４である場合には、地番用認識辞書３５は１〜９９９９の連続した数字を認識することができる辞書であればよい。したがって地番用認識辞書３５のデータ量を少なくすることができる。地番パターンよりスロット数を決定するとこができるので利用者に対して発話を促す回数を制御でき、利用者の利便性が向上する。
【選択図】図１

Description

本発明は、住所の丁目以下の数字部分を効率よく認識可能な音声住所認識装置に関する。

従来、情報検索のためのインタフェースとして、リモコンやキースイッチ、タッチパネル等を用いたものがある。これらは一般的に、ディスプレイ上のリスト等の表示を辿りながら目的の入力文字等を探すものである。
しかし検索対象となる情報量が多い場合、利用者が参照しなければならない項目数が増え、利用者の視線を拘束する時間が長くなってしまう。
したがって、情報検索が主たる操作でない状況においては、情報を検索するための操作にとられる時間が長くなることは好ましいことではない。
そこで、インタフェースとして音声を用いたものがある。
これは、利用者の発話を受け付けることができるようにあらかじめ作成された音声認識辞書を記憶し、入力された音声と音声認識辞書内のデータとの比較を行い、認識を行うものである。

また住所などの階層構造をなす情報を検索する場合、都道府県名から大字名までは各階層ごとに辞書を作成し、発話の途中で階層の順番に従って辞書を切り替えることによって、都道府県名から大字名まで連続して発話された場合であっても住所の認識を行い、結果を返す。
番地など、丁目以下の数字によって構成される部分も上記と同様に、大字ごとに、丁目、番地、号の順で階層構造をなす辞書を作成し、住所の数字部分の音声認識を行う。
このような利用者が発話した音声を認識するものとしてたとえば特許文献１に記載されたものがある。
特開２００３−３２９４５８号公報

しかしながら、従来のものにおいては、住所の数字部分を認識するための辞書として、大字ごとに実際に存在する、丁目、番地、号のすべての組み合わせに対応したものを作成する必要があるため、この辞書の情報量が膨大となり、記憶容量の面で非効率であるといった問題があった。

そこで本発明はこのような問題点に鑑み、音声を認識するための辞書の情報量が増加することなく、利用者が発話した音声を効率よく認識可能な音声住所認識装置を提供することを目的とする。

本発明は、音声入力手段によって利用者が発話した住所の音声を受け付け、音声照合手段が、音声入力部によって受け付けられた音声と、音声認識辞書に格納された音声と対応するデータとにもとづいて住所の一部となる数字部分の音声認識処理を行う音声住所認識装置において、音声照合手段は、大字ごとに住所の数字部分の階層構造を示す地番パターンを格納する地番パターン記憶部より利用者が発話した大字と対応する前記地番パターンを抽出し、該抽出した地番パターンにもとづいて利用者に対して住所の一部となる数字部分の発話を階層ごとに促して音声認識処理を行うものとした。

本発明によれば、地番パターン記憶部に格納された地番パターンにもとづいて利用者に住所の階層ごとに発話を促して音声を認識する構成としたので、住所の数字部分の組み合わせなどが無い汎用的な連続数字を認識するための辞書を用いて音声認識を行うことができ、音声認識辞書の情報量を少なくすることができる。

次に本発明の実施の形態を実施例により説明する。
なお本実施例は、本発明を車両に搭載されたナビゲーションシステムに適用し、利用者が発話した目的地等の住所を認識するものである。
図１に、実施例の全体構成を示す。
利用者の発話を受け付ける音声入力部６と、利用者が発話の開始を指示する認識開始指示部７と、利用者が発話した音声を認識したり車両の経路案内を行う処理部２と、ガイダンス音を出力する音声出力部８と、利用者に提示する画像を表示する情報表示部９とよりナビゲーションシステム１が構成される。

音声入力部６は、マイクを備え、利用者の発話を収録する。
認識開始指示部７は、利用者が処理部２に発話の開始を指示するためのものであり、たとえば押しボタンスイッチなどを備える。利用者が発話の開始時に認識開始指示部７を操作することにより、処理部２は発話の受け付け待機状態となる。
音声出力部８は、スピーカなどを備え、処理部２から出力されたガイダンス音を出力する。
情報表示部９は、ディスプレイを備え、ナビゲーションのメニュー画面や音声認識結果などを表示する。

処理部２は、利用者が発話した音声を認識する音声認識部３と、車両の経路案内を行うナビゲーション機能部４とを備える。
なお利用者は、たとえば経路案内の目的地の地名を発話するものとし、音声入力部６を通じて音声が入力されると音声認識部３が地名を認識し、音声認識部３の認識結果にもとづいてナビゲーション機能部４が車両の経路案内を行う。

音声認識部３は、音声入力部６から取得した音声波形から、音声を認識するための辞書や音響モデルを用いて音声認識を行うものであり、音声記憶部３１、音声照合部３２、音響モデル格納部３３、地名用認識辞書３４、地番用認識辞書３５とより構成されている。
音声記憶部３１は、音声入力部６から入力される音声を音声認識処理に用いるためにバッファリングするものである。
音声照合部３２は、音声記憶部３１によってバッファリングされた音声波形と、音響モデル格納部３３に格納された音響モデル、地名用認識辞書３４や地番用認識辞書３５内の情報にもとづいて音声の認識処理を行うものである。
音声照合部３２は、たとえばＨＭＭ（隠れマルコフモデル）などの方式を用いて音声認識を行う。

音響モデル格納部３３は、音声波形と音素との対応テーブルを格納するものである。
地名用認識辞書３４は、認識可能な地名と、それに対応する音素の組み合わせが記述されているものである。
地番用認識辞書３５は、認識可能な数字と、それに対応する音素の組み合わせが記述されているものである。
音声認識部３には地番パターン記憶部５が接続され、大字ごとにあらかじめ定義された地番パターンが記憶されている。
なお地番パターンの詳細については後述する。

ナビゲーション機能部４は、データベース検索部４１を備える。
データベース検索部４１は、音声認識部３によって認識された地名の地図上の位置などを検索する。
ナビゲーション機能部４は、データベース検索部４１によって検索された位置に基づいて音声出力部８や情報表示部９を用いて車両の走行経路案内などを行う。
なおナビゲーション機能部４は、自車両の位置を特定するための図示しないＧＰＳアンテナなど、車両の走行経路案内に必要な装置を有している。

次に、地番パターン記憶部５に格納された地番パターンについて説明する。
なお地番パターンは、音声認識処理の前にあらかじめ地番パターン作成装置５０によって作成され、地番パターン記憶部５に記憶させておく。
地番パターンは、全国の各地名の大字（住所のうち、数字以外で記述されている部分の最小単位）ごとに、当該大字に「〜丁目」と記載された部分があるか、「〜番地」と記載された部分があるか、「〜号（号と記載されていない場合もあり）」と記載された部分があるかどうかを示すものである。

具体的には、地番パターン記憶部５には大字ごとにスロット数が記憶されており、該スロット数を見ることによって住所の数字部分の構成を判別することができるものである。
ここで、「〜丁目」、「〜番地」、「〜号」をそれぞれスロットと呼び、たとえば住所の数字部分の構成が「〜丁目〜番地〜号」である場合にはスロット数は３、「〜番地〜号」である場合にはスロット数は２となる。したがってスロット数は１〜３の間の値となる。
また地番パターンは、スロット数に加えて、各スロットの数字部分の最大桁数（〜丁目、〜番地や〜号の数字部分の桁数）を示す情報を含む。
これにより、地番パターンを見ることによって、住所の数字部分の構成と、数字の最大桁数とを判別することができる。

次に、地番パターン作成装置５０によって行われる地番パターン（スロット数、および各スロットの数字部分の最大桁数）の作成手順について説明する。
図２に、地番パターン作成部が行う地番パターンの作成手順を示し、図３に、地番パターンのデータ構成例を示す。
図１に示すように、地番パターン作成装置５０は、地名が格納された住所データベース５１と、住所データベース５１を参照しながら地番パターンを作成する地番パターン作成部５２とより構成される。
図２のステップ１００において地番パターン作成部５２は、地番パターンを決定する大字を住所データベース５１に記憶されたデータから選択する。
なお地番パターンを作成する地域は、あらかじめ設定されており、地番パターン作成部５２はあらかじめ設定された地域内の大字名を選択するものとする。
ステップ１０１において、ステップ１００で選択した大字において「〜丁目」と記載された部分があるかどうかを住所データベース５１を参照して判断する。
大字に「〜丁目」と記載された部分がある場合にはステップ１０８へ進み、無い場合には１０２へ進む。

ステップ１０２において、選択した大字に「〜号」と記載された部分があるかどうかを住所データベース５１を参照して判断する。
大字に「〜号」と記載された部分がある場合にはステップ１０６へ進み、無い場合にはステップ１０３へ進む。
ステップ１０３において、ステップ１０１、１０２で「丁目」、「号」が無いと判断されているので、当該大字の丁目以下の数字部分は「〜番地」のみで構成されているものと判断し、当該大字における番地の数字部分の最大桁数を住所データベース５１より読み込む。
ステップ１０４において、当該大字の丁目以下の数字部分は「〜番地」のみで構成されているので、スロット数として１を設定する。
これにより、当該大字の地番パターンが決定される。
次にステップ１０５において、あらかじめ定められた地域内のすべての大字について地番パターンを設定したかどうかを判断し、すべての大字について設定が完了していない場合にはステップ１００へ戻り、完了した場合には地番パターンの作成処理を終了する。

ステップ１０２において大字名に「〜号」の記載があると判断されると、ステップ１０６において、大字名の数字部分の最大桁数を読み込む。
ここで、ステップ１０１で「〜丁目」が無いと判断され、ステップ１０２で「〜号」が有りと判断されているので、当該大字の丁目以下は「〜番地〜号」の構成となっていることがわかる。
したがってステップ１０６では、番地の部分、および号の部分の数字の最大桁数をそれぞれ読み込む。
次にステップ１０７において、当該大字の丁目以下は「〜番地〜号」の構成となっているので、スロット数として２を設定し、ステップ１０５へ進む。

ステップ１０１において大字名に「〜丁目」の記載があると判断されると、ステップ１０８において、大字名に「〜号」と記載された部分があるかどうかを住所データベース５１を参照して判断する。
大字に「〜号」と記載された部分がある場合にはステップ１０９へ進み、無い場合にはステップ１１１へ進む。

ステップ１０９において、大字名の数字部分の最大桁数を読み込む。
ここで、ステップ１０１で「〜丁目」が有りと判断され、ステップ１０８で「〜号」が有りと判断されているので、当該大字の丁目以下は「〜丁目〜番地〜号」の構成となっていることがわかる。
したがってステップ１０９では、丁目の部分、番地の部分、および号の部分の数字の最大桁数をそれぞれ読み込む。
次にステップ１１０において、当該大字の丁目以下は「〜丁目〜番地〜号」の構成となっているので、スロット数として３を設定し、ステップ１０５へ進む。

ステップ１０８において大字名に「〜号」の記載が無いと判断されると、ステップ１１１において、大字名の数字部分の最大桁数を読み込む。
ここで、ステップ１０１で「〜丁目」が有ると判断され、ステップ１０８で「〜号」が無しと判断されているので、当該大字の丁目以下は「〜丁目〜番地」の構成となっていることがわかる。
したがってステップ１１１では、丁目の部分、および番地の部分の数字の最大桁数をそれぞれ読み込む。
次にステップ１１２において、当該大字の丁目以下は「〜丁目〜番地」の構成となっているので、スロット数として２を設定し、ステップ１０５へ進む。

以上により、各大字名に対応した地番パターンを作成することができ、スロット数を確認することにより、スロット数が１の場合には大字名は「〜番地」、スロット数が２の場合には大字名は「〜番地〜号」または「丁目〜番地」、スロット数が３である場合には大字名は「〜丁目〜番地〜号」という構成になっていることがわかる。

ここで、１つの大字内において、スロット数が異なる場合がある。
具体的には大字名の数字部分の構成が、たとえば「〜丁目〜番地〜号」と記述される場所と、「〜番地〜号」と記述される場所とが混在している場合がある。
このような場合には、当該大字内には、地番パターンに混在があるものとして、混在の有無を地番パターンに付記する。
これにより図３に示すように、大字名までの名称、地番パターンの混在の有無、スロット数、各スロットの最大桁数とによって地番パターンが構成される。
たとえば、スロット数３、丁目の最大桁数が１、番地の最大桁数が２、号の最大桁数が２（図３中において、１、２、２と記載する）である場合、当該大字名の丁目以下の部分は、２丁目２２番地２３号、や１丁目１番地３号を含んでいることがわかる。
作成された地番パターンは、地番パターン記憶部５に格納されて、音声認処理に用いられる。

次に、ナビゲーションシステム１の音声認識部３が行う音声認識処理の詳細について説明する。
なお利用者は、住所の発話の前に認識開始指示部７を操作して、処理部２に対して音声入力開始の指示を行う。
認識開始指示部７が操作されて音声入力開始の指示を受け付けると、処理部２の音声認識部３は、たとえば「住所の入力をどうぞ」といったガイダンス音を音声出力部８より出力する。
処理部２の音声認識部３は、音声入力開始の指示を受け付けると、利用者の発話の待ち受け状態となる。

また、住所のうち県名から大字名までの部分については、通常行われている住所の認識手順、たとえば住所の階層ごとに関連付けされた住所ツリーを辿っていくことによって住所を特定する方法などを用いて音声認識部３が認識処理を行うものとし、ここでの説明は省略する。
この地名の認識は、音声照合部３２が音響モデル格納部３３と地名用認識辞書３４とを用いて行うものであり、音声照合部３２が入力された音声波形に対応する音素を音響モデル格納部３３から抽出し、抽出した音素に対応する地名を地名用認識辞書３４から取得するものである。

以下において、音声入力部６を通じて入力された音声において、特に音声認識部３が大字名の丁目以下の部分を認識する手順について説明する。
また利用者は、住所の地番部分をナビゲーションシステム１に認識させる際に、数字部分のみを発話するものとする。（たとえば３丁目と認識させたい場合には、処理部２から指示されたタイミングで「３」と発話する。）
音声認識部３は、地番パターン記憶部５に記憶された地番パターンと利用者が発話した数字とを比較することによって、利用者がスロットの数字を順に発話する途中で、発話しようとしている住所の数字部分のスロット数が１〜３のどれであるかを判断し、スロット数が判断できた場合には、該スロット数にもとづいて音声認識処理を行う。
これにより、地番が「３丁目４１番地」である場合、利用者が「４１番地」まで発話した後、さらに音声認識部３が「続きの住所をどうぞ」というガイダンス音声を出力して利用者の発話を待ち受けることなどを少なくし、音声認識の効率を上げようとするものである。

図４、５に、利用者が発話した住所のうち、丁目以下の部分の音声認識処理の流れを示す。
ステップ２００において処理部２の音声照合部３２は、利用者が住所の大字まで発話したかどうかを判断する。
大字までの発話が完了していない場合には、通常行われている住所の認識処理を行い、大字名の発話が完了するまでステップ２００における処理を繰り返す。
利用者が大字名までの発話を完了したと判断すると、ステップ２０１へ進む。

ステップ２０１において音声照合部３２は、地番パターン記憶部５に格納された地番パターンのうち、利用者が発話した大字に該当する地番パターンを読み込む。
次にステップ２０２において音声照合部３２は、音声を認識するための辞書を地名用認識辞書３４から地番用認識辞書３５に切り替えて、利用者の発話を待ち受ける。発話があった場合にはステップ２０３へ進み、発話がない場合にはステップ２０２における処理を繰り返す。
このとき音声認識部３は、情報表示部９にたとえば図６に示すように入力済みの住所（ここでは、「神奈川県大和市下鶴間」まで入力されているものとする）を画面の上段に表示し、入力可能なパターン（ここでは、地番パターン記憶部５から取得した地番パターンを参照することにより、地番数字の入力可能な桁数）を画面の下段に表示する。
また「神奈川県大和市下鶴間」は図４に示す地番パターンより、「（数字最大１桁）丁目、（数字最大２桁）番地、（数字最大２桁）号」、または「（数字最大４桁）番地、（数字最大３桁）号」が混在していることがわかる。

ステップ２０３において音声照合部３２は、音声入力部６を通じて入力された利用者の音声（住所の数字部分の最初の部分、ここでは、何丁目かを示す最大１桁の数字、または何番地かを示す最大４桁の数字）を認識する。
具体的には、音声照合部３２は、音響モデル格納部３３と地番用認識辞書３５とを用いて、音声照合部３２が入力された音声波形に対応する音素を音響モデル格納部３３から抽出し、抽出した音素に対応する数字を地番用認識辞書３５から取得する。

ステップ２０４において音声照合部３２は、ステップ２０１で読み込んだ地番パターンより、当該大字内に地番パターンが混在しているかどうか（スロット数の異なるものがあるかどうか）を判断する。
地番パターンが混在していない場合には、ステップ２０１で読み込んだスロット数にもとづいてスロットごとに数字の発話を促し、ステップ３００以降の処理において順次数字の認識を行う。
そのためステップ３００において、当該大字のすべてのスロットについて利用者が発話を行い、音声認識が完了しているかどうかを判断する。
すべてのスロットについて音声認識が完了している場合には、音声認識処理を終了し、認識結果をナビゲーション機能部４へ出力する。
すべてのスロットについて音声認識が完了していない場合には、ステップ３０１へ進み、音声照合部３２は利用者に対し、音声出力部８を通じて次のスロットの発話を行う旨の指示を行う。
これは、たとえば「続きの住所をどうぞ」というガイダンス音声を出力するものである。
利用者に次のスロットを発話する旨の指示をした後、ステップ２０２において利用者の発話待ちを行う。

一方、ステップ２０４で地番パターンが混在していると判断された場合には、ステップ２０５において音声照合部３２は、ステップ２０１で読み込んだ地番パターンの先頭のスロットの最大桁数が異なるかどうか（ここではステップ２０４において当該大字において異なる地番パターンが存在すると判断されているため、異なる地番パターンの先頭のスロットの最大桁数が異なるかどうか）を判断する。
先頭のスロットの最大桁数が同じである場合には、スロット数を特定することができないのでステップ３０２へ進み、混在している地番パターンの最大スロット数の発話が完了したかどうかを判断する。
たとえばスロット数が２と３とが混在していた場合には、最大スロット数は３であり、３回分の発話が完了したかどうかを判断する。
最大スロット数の発話が完了している場合には、音声認識処理を終了し、認識結果をナビゲーション機能部４へ出力する。
一方、最大スロット数の発話が完了していない場合には、ステップ３０１へ進み、次のスロットの発話を行う旨の指示を行う。

またステップ２０５で地番パターンの先頭のスロットの最大桁数が異なると判断された場合には、ステップ２０６においてスロット数の決定処理を行う。
これは、ステップ２０３で認識された数字と、混在している地番パターンの先頭のスロットの最大桁数とを比較し、地番スロットを一意に決定することができるかどうかを判断するものである。
具体的には、たとえば図４に示す「神奈川県大和市下鶴間」を例に説明すると、下鶴間は、スロット数２と３とが混在している。
ここで利用者が「下鶴間」という大字名称の後に発話し、ステップ２０３において認識された数字が「１２３４」の４桁の数字であった場合、スロット数が３の場合には、先頭のスロットの数字の最大桁数は１桁なので、４桁の「１２３４」は該当しないことがわかる。
したがってこの例では、２桁以上の数字が入力された場合には、スロット数が３ではなく、スロット数は２であることがわかる。

ステップ２０６においてスロット数が一意に決定できた場合には、ステップ４００〜４０３において、決定されたスロット数にもとづいて利用者にスロットの数字の発話を促し、順次音声認識を行う。
なおステップ４００〜４０３は、ステップ３００、３０１、２０２、２０３における処理と同様であり、説明を省略する。
このように、決定されたスロット数にもとづいて利用者に対して次のスロットの発話を促すことができ、利便性を向上させることができる。

一方、ステップ２０３で認識された数字が１桁の数字であった場合には、スロットが２か３かを一意に決定することができない。
したがってこの場合には、スロット数が決定できないものとしてステップ２０７へ進む。
ステップ２０７において音声照合部３２は、利用者に対し次のスロットの発話を行う旨の指示を行う。
利用者に次のスロットを発話する旨の指示をした後、ステップ２０８において利用者の発話待ちを行う。
利用者からの発話があると、ステップ２０９において音声照合部３２は、音声入力部６を通じて入力された利用者の音声認識処理を行う。

ステップ２１０において音声照合部３２は、ステップ２０１で読み込んだ地番パターンの２番目のスロットの最大桁数が異なるかどうか（たとえば図３に示す「下鶴間」の場合には、スロット数が３においては２、スロット数が２の場合には３が２番目のスロットの最大桁数に該当する）を判断する。
２番目のスロットの最大桁数が異なる場合にはステップ２１１へ進み、スロット数が同じである場合にはステップ５００へ進む。
２番円のスロット数の最大値が異なる場合にはステップ２１１において、スロット数の決定処理を行う。
なおステップ２１１における処理は、上述のステップ２０６における処理と同様であり説明を省略する。

ステップ２１２において、ステップ２１１で決定されたスロット数にもとづいて、当該大字において次のスロットが存在するかどうかを判断し、存在しない場合（スロット数が２であった場合）には、認識結果を４へ出力し、音声認識処理を終了する。
一方、次のスロット数がある場合（スロット数が３である場合）には、ステップ２１３〜ステップ２１５における処理において、３番目のスロット数について音声認識を行い、処理を終了する。
なお、ステップ２１３〜２１５における処理は上述のステップ３０１、２０２、２０３における処理と同様であり説明を省略する。

一方、ステップ２１０で２番目の最大スロット数が同じであると判断されると、音声照合部３２は、スロット数が２つであるか３つであるかどうかを判断することができないため、ステップ５００において、混在している地番パターンの最大スロット数の発話が完了したかどうかを判断する。
最大スロット数の発話が完了している場合には、音声認識処理を終了し、認識結果をナビゲーション機能部４へ出力する。
一方発話が完了していない場合にはステップ５０１〜５０３において、スロット数の大きいほうの数だけ利用者の発話を待ち受ける処理を行う。

以上のように、たとえば３丁目４番地２号や、５丁目３４番地といったスロット数の異なる地番パターンが混在し、大字名からでは一意にスロット数が決定できない場合であっても、ステップ２０１において読み込んだ地番パターンと利用者が発話した数字とにもとづいてスロット数を決定することができた場合には、決定されたスロット数にもとづいて利用者に対して発話を促す旨の指示をおこなうことができる。たとえば５丁目３４番地までしか住所の数字部分がない場合に、さらに「続きの住所をどうぞ」とガイダンス音を出力してしまうことを少なくすることができる。

具体的にはステップ２０４において地番パターンが混在していると判断され、先頭のスロットの最大桁数が異なり、ステップ２０６において、利用者が発話した数字と１番目のスロットの最大桁数とよりスロット数が決定できた場合には、決定されたスロット数にもとづいてステップ４００〜４０３において利用者の発話を待ち受ける。
また、ステップ２０６においてスロット数が決定できなかった場合であっても、２番目のスロットの最大桁数が異なり、ステップ２１１において、利用者が２番目に発話した数字（ステップ２０９で認識された数字）と２番目のスロットの最大桁数とよりスロット数が決定できた場合には、決定されたスロット数にもとづいてステップ２１２〜２１５において利用者の発話を待ち受ける。
このような場合には、存在しないスロットについて発話を促すことを防止することができる。

一方、地番パターンが混在しており先頭のスロットの最大桁数が同じである場合には、スロット数を決定することができないため、当該大字において混在している地番パターンの最大スロット数まで利用者の発話の待ち受けを行う。
また、先頭のスロットの最大桁数とステップ２０３で認識された数字とよりステップ２０６においてスロット数が決定できず、さらに、利用者が２番目に発話した数字と２番目のスロットの最大桁数とを用いてもスロット数を決定することができなかった場合（ステップ２１１における処理）、および、２番目のスロットの最大桁数が同じでありスロット数を決定できない場合（ステップ２１０における処理）には、ステップ５００〜５０３における処理において、当該大字において混在している地番パターンの最大スロット数まで利用者の発話の待ち受けを行う。

地番パターンが混在し、大字名の入力後に図６に示すように情報表示部９に２つのパターン（スロットパターン）が表示されていた場合、ステップ２０６やステップ２１１においてスロット数の決定ができた場合には、適合するパターンのみを継続表示し、不適合なパターンは情報表示部９から削除する。
これにより利用者は、ナビゲーションシステム１が正しく音声認識を行っていることを知ることができる。
なお本実施例において、ステップ２０２、２０８、２１４、４０２、５０２が本発明における音声入力手段を構成し、地番用認識辞書３５が本発明における音声認識辞書を構成する。またステップ２０１、２０３〜２０７、２０９〜２１３、２１５、３００〜３０２、４００、４０１、４０３、５００、５０１、５０３が本発明における音声照合手段を構成する。

本実施例は以上のように構成され、地番パターン記憶部５に記憶された地番パターンにもとづいてスロット数がいくつであるか、および数字の最大桁数がいくつであるかを判断し、判断結果にもとづいて音声認識を行うことにより、汎用的な連続数字を認識するための辞書を用いて各スロットごとに音声認識を行うことができる。たとえば、地番パターン記憶部５に記憶された各スロットの最大桁数が４である場合には、地番用認識辞書３５は１〜９９９９の連続した数字を認識することができる辞書であればよい。したがって地番用認識辞書３５のデータ量を少なくすることができる。
地番パターンよりスロット数を決定するとこができ、また利用者が発話した音声の桁数と地番パターンの各スロットの最大桁数とよりスロット数を決定することにより、利用者に対して発話を促す回数を制御でき、利用者の利便性が向上する。

また、連続した数字を認識可能な音声認識辞書を用いることにより、たとえば番地が不連続となっている場合（たとえば当該大字には１丁目１番地〜１丁目４番地、１丁目１０番地〜１丁目１５番地が存在し、１丁目５番地〜１丁目９番地が存在しない場合）であっても、利用者が発話した実際には存在しない番地を認識することができる。
これにより、ナビゲーション機能部４は存在しない番地を音声認識部３から受け取ると、当該存在しない番地に近い番地の地図を情報表示部９を通じて利用者に提示するなど、存在しない住所の近傍検索を行うことができる。

利用者が大字名を入力した後、情報表示部９に地番パターンを表示することにより、利用者が入力しようとしている住所の地番パターンを認識することができ、利用者の発話の補助とすることができる。
また、地番パターンが複数混在する場合には、まず複数の地番パターンを情報表示部９に表示し、スロット数の決定ができた場合には、適合するパターンのみを継続表示し、不適合なパターンは情報表示部９から削除することにより、利用者は、ナビゲーションシステム１が正しく音声認識を行っていることを知ることができる。

なお本実施例において、音声認識装置を車両に搭載されたナビゲーションシステムに適用して例について説明したが、これに限定されず他のシステムなどに適用したり、音声認識装置単体として用いることもできる。

実施例の全体構成を示す図である。地番パターンの作成手順を示す図である。地番パターンのデータ構成例を示す図である。音声認識処理の流れを示す図である。音声認識処理の流れを示す図である。情報表示部の表示画像例を示す図である。

符号の説明

１ナビゲーションシステム
２処理部
３音声認識部
４ナビゲーション機能部
５地番パターン記憶部
６音声入力部
７認識開始指示部
８音声出力部
９情報表示部
３１音声記憶部
３２音声照合部
３３音響モデル格納部
３４地名用認識辞書
３５地番用認識辞書
４１データベース検索部
５０地番パターン作成装置
５１住所データベース
５２地番パターン作成部

Claims

利用者が発話した住所の音声を受け付ける音声入力手段と、音声と対応するデータが格納された音声認識辞書と、前記音声入力部によって受け付けられた音声と音声認識辞書内に格納されたデータとにもとづいて住所の一部となる数字部分の音声認識処理を行う音声照合手段とを備えた音声住所認識装置において、
大字ごとに、住所の数字部分の階層構造を示す地番パターンを格納する地番パターン記憶部を備え、
前記音声照合手段は、
利用者が発話した大字と対応する前記地番パターンを前記地番パターン記憶部から抽出し、該抽出した地番パターンにもとづいて利用者に対して住所の一部となる数字部分の発話を階層ごとに促して音声認識処理を行うことを特徴とする音声住所認識装置。
前記地番パターンは、住所の数字部分の階層の数、および住所の数字部分の各階層ごとの最大桁数のうち少なくともいずれか１つを含むことを特徴とする請求項１に記載の音声住所認識装置。
前記音声照合手段は、利用者が発話した大字と対応する前記地番パターンが複数混在する場合には、利用者が階層ごとに発話した数字を認識する段階で前記地番パターンの絞込みを行い、前記地番パターンの絞込みができた場合には、該絞り込まれた地番パターンにもとづいて音声認識処理を行うことを特徴とする請求項１または２に記載の音声住所認識装置。
音声認識処理時に、利用者が発話した大字と対応する前記地番パターンを表示する情報表示部を備えることを特徴とする請求項１から３のいずれか１に記載の音声住所認識装置。
前記地番パターンが複数混在する場合には、該複数の地番パターンを前記情報表示部に表示し、
前記音声照合手段によって混在する地番パターンの絞込みができた場合に、前記絞り込まれた地番パターンのみを前記情報表示部に表示することを特徴とする請求項４に記載の音声住所認識装置。
利用者が発話した住所の音声を受け付け、該受け付けた音声と音声認識辞書内に格納されたデータとにもとづいて住所の一部となる数字部分の音声認識処理を行う音声住所認識方法において、
大字ごとに住所の数字部分の階層構造を示す地番パターンを格納する地番パターン記憶部より、利用者が発話した大字と対応する前記地番パターンを抽出し、該抽出した地番パターンにもとづいて利用者に対して住所の一部となる数字部分の発話を階層ごとに促して音声認識処理を行うことを特徴とする音声住所認識方法。
音声認識処理時に、利用者が発話した大字と対応する前記地番パターンを情報表示部に表示することを特徴とする請求項６に記載の音声住所認識方法。