JP2018200452A

JP2018200452A - 音声認識装置および音声認識方法

Info

Publication number: JP2018200452A
Application number: JP2017106225A
Authority: JP
Inventors: 大和鈴木; Yamato Suzuki
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2017-05-30
Filing date: 2017-05-30
Publication date: 2018-12-20
Anticipated expiration: 2037-05-30
Also published as: JP6896335B2

Abstract

【課題】地域特有の読み方を知っているユーザがその読み方で発話した場合も、地域特有の読み方を知らないユーザが発話した場合も、それぞれの発話音声を適切に認識することができる「音声認識装置および音声認識方法」を提供する。【解決手段】認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部１０１の他に、地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部１０２を備え、ナビゲーション装置３００から取得される位置情報が該当する地域の音声認識辞書を有効化することにより、地域特有の読み方を知っているユーザが音声認識を行うときは、地域の音声認識辞書を有効化して音声認識を行う一方、地域特有の読み方を知らないユーザが音声認識を行うときは、基本の音声認識辞書のみを用いて音声認識を行うことができるようにする。【選択図】図１

Description

本発明は、音声認識装置および音声認識方法に関し、特に、ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う装置に用いて好適なものである。

従来、車両に搭載されているナビゲーション装置を操作する際の片手運転等を回避するために、ナビゲーション装置の操作を音声認識により行えるようにしたシステムが提供されている。例えば、ナビゲーション装置のアプリケーションとして目的地の住所検索や施設名検索などを実行する場合、音声認識により特定した地名や施設名をナビゲーション装置に入力し、これをキーとして検索を行うことが可能である。

通常、音声認識装置では、ユーザがマイクより入力した発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて認識が行われる。ここで、ナビゲーション装置を発話コマンドにより操作可能とするために、音声認識辞書に登録する地名や施設名の認識対象ワードのヨミ（音声パターン）は、地図データに登録されている地名や施設名の読み方と同じにするのが通常である。

これに対し、地域によっては、地名や施設名に関して、その地域の住人による特有の読み方が存在することがある。この場合、その地域に住むユーザが特有の読み方で地名や施設名を発話しても、音声認識辞書に登録されている認識対象ワードのヨミと異なるため、ユーザによる発話音声を発話コマンドとして認識することができない。

このような問題を解決するための方法として、地域特有の読み方に合わせたヨミも認識対象ワードとして音声認識辞書に追加登録することが考えられる。しかしながら、このようにすると、その地域以外の場所に、追加登録した地域特有のヨミと同じまたは類似の読み方をする地名や施設名が存在する場合、その地名や施設名のヨミも別の認識対象ワードとして音声認識辞書に登録されているため、入力された発話音声に対して誤認識が生じてしまう可能性がある。

なお、元データベースに格納された施設名称または市区町村名に対し、知名度に応じて複数段のレベル付けを行い、自車位置から遠い地域は全国的に有名な地名や施設のみを部分データベースに格納する一方、自車位置周辺の地域では有名な地名や施設のみならず知名度の低い施設や地名も部分データベースに格納し、部分データベースを対象として音声認識を行うようにしたナビゲーション装置が知られている（例えば、特許文献１参照）。

また、音声認識辞書に記録された名称を知らなくても所望の検索ができるように、関連する語彙を効率よく蓄積する技術も知られている（例えば、特許文献２参照）。この特許文献２に記載のシステムでは、認識辞書データベースに予め記憶された初期キーワードに意味的な関連性をもつ関連キーワードをＷＥＢ情報から収集し、収集した関連キーワードを認識辞書データベースに追加する。音声検索部は、初期キーワードと関連キーワードとを認識対象として検索を実行する。

特開２０００−７４６８５号公報特開２００９−１６９４７０号公報

本発明は、上述のような問題を解決するために成されたものであり、地域特有の読み方を知っているユーザがその読み方で発話した場合にも、地域特有の読み方を知らないユーザが発話した場合にも、それぞれの発話音声を適切に認識することができるようにすることを目的とする。

上記した課題を解決するために、本発明の音声認識装置は、認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部の他に、認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部を備える。そして、地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化し、当該有効化した地域の音声認識辞書および基本の音声認識辞書を用いて音声認識を行うようにしている。

上記のように構成した本発明によれば、認識対象ワードに関して地域特有の読み方を知っているユーザが音声認識を行うときは、ナビゲーション装置から取得される位置情報に基づいて、該当する地域の音声認識辞書を有効化して音声認識を行うことができる。これにより、地域特有の読み方を知っているユーザが、その地域特有の読み方で認識対象ワードを発話した場合にも、その発話音声を適切に認識することができる。一方、認識対象ワードに関して地域特有の読み方を知らないユーザが音声認識を行うときは、地域の音声認識辞書を有効化せず、基本の音声認識辞書のみを用いて音声認識を行うことができる。これにより、地域特有の読み方を知らないユーザによる発話音声が、地域特有のヨミに該当すると誤認識されてしまうことを抑止することができる。以上により、本発明によれば、地域特有の読み方を知っているユーザがその読み方で発話した場合にも、地域特有の読み方を知らないユーザが発話した場合にも、それぞれの発話音声を適切に認識することができる。

本実施形態による音声認識装置の機能構成例を示すブロック図である。本実施形態による音声認識装置の動作例を示すフローチャートである。

以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態による音声認識装置１００の機能構成例を示すブロック図である。本実施形態の音声認識装置１００は、マイク２００より入力されるユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行い、認識対象ワードに対応する発話音声を発話コマンドとして認識し、ナビゲーション装置３００に対して発話コマンドを実行するものである。

図１に示すように、本実施形態による音声認識装置１００は、基本辞書記憶部１０１、地域別辞書記憶部１０２、認識処理部１１および辞書有効化処理部１２を備えて構成されている。なお、認識処理部１１および辞書有効化処理部１２は、ハードウェア、ＤＳＰ（Digital Signal Processor）、ソフトウェアの何れによっても構成することが可能である。例えばソフトウェアによって構成する場合、認識処理部１１および辞書有効化処理部１２は、実際にはコンピュータのＣＰＵ、ＲＡＭ、ＲＯＭなどを備えて構成され、ＲＡＭやＲＯＭ、ハードディスクまたは半導体メモリ等の記録媒体に記憶されたプログラムが動作することによって実現される。

基本辞書記憶部１０１は、認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書１０１Ａを記憶する。基本の音声認識辞書１０１Ａは、ナビゲーション装置３００の地図データに登録されている地名や施設名から成る認識対象ワードと、その地名や施設名に関して通常のヨミ（音声パターン）とを対応付けた辞書データである。

地域別辞書記憶部１０２は、認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを記憶する。地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎは、基本の音声認識辞書１０１Ａに登録されている認識対象ワードの一部と同じ認識対象ワードと、その認識対象ワードに係る地名や施設名に関して地域特有のヨミ（音声パターン）とを対応付けた辞書データである。

ここで、第１の音声認識辞書１０２Ａ_１は、第１の地域における地域特有のヨミを登録した辞書データである。また、第２の音声認識辞書１０２Ａ_２は、第２の地域における地域特有のヨミを登録した辞書データである。同様に、第ｎの音声認識辞書１０２Ａ_ｎは、第ｎの地域における地域特有のヨミを登録した辞書データである。

このように複数の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎに区切る地域は、例えば、都道府県や市区町村などの行政区画を単位とするものとすることが可能である。この場合、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎは、どの行政区画に対応するものかを示す情報と共に地域別辞書記憶部１０２に記憶される。

複数の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎに区切る地域は、所定サイズの矩形メッシュを単位とするものとすることも可能である。この場合、各メッシュに対してメッシュＩＤを付与するとともに、地図上の位置情報を関連付ける。例えば、矩形の各頂点の緯度経度情報を各メッシュに関連付ける。そして、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎは、対応するメッシュＩＤと共に地域別辞書記憶部１０２に記憶される。ここで、１つの音声認識辞書に対して１つまたは複数のメッシュＩＤを対応付けることが可能である。

認識処理部１１は、音声認識辞書に登録されている認識対象ワードのヨミ（音声パターン）と、マイク２００より入力された発話音声との類似度を示す指標を算出し、当該算出した指標が閾値に対して所定の条件を満たす場合に、発話音声が当該所定の条件を満たす認識対象ワードであると認識する。

本実施形態では指標の一例として、認識対象ワードの音声パターンと、マイク２００より入力された発話音声との近さの程度（類似度）を示す距離値を用いる。距離値が小さいほど類似度が高いことを意味する。この場合、認識処理部１１は、発話音声について算出した距離値が閾値よりも小さい場合に、その発話音声が、閾値を下回った認識対象ワードであると認識する。

なお、類似度が高くなるほど値が大きくなるような指標を用いた場合、認識処理部１１は、発話音声について算出した指標が閾値よりも大きい場合に、その発話音声が、閾値を上回った認識対象ワードであると認識する。

辞書有効化処理部１２は、地域別辞書記憶部１０２に記憶されている地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎのうち、ナビゲーション装置３００から取得される位置情報が該当する地域の音声認識辞書を有効化する。すなわち、辞書有効化処理部１２は、地域別辞書記憶部１０２に記憶されている地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎの中に、位置情報が該当する地域の音声認識辞書があるか否かを判定し、あると判定された場合に、該当する地域の音声認識辞書を有効化する。

ナビゲーション装置３００から取得される位置情報は、例えば、ナビゲーション装置３００に登録されている自宅の位置情報である。なお、ナビゲーション装置３００は、車両に搭載されている車載機であってもよいし、ナビゲーション機能を備えたアプリケーションがインストールされたスマートフォンのような携帯端末であってもよい。

上述のように、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを行政区画情報と共に地域別辞書記憶部１０２に記憶した場合、ナビゲーション装置３００から取得する自宅の位置情報は、例えば、自宅位置に対応する住所情報とするのが好ましい。辞書有効化処理部１２は、ナビゲーション装置３００から取得した住所情報に該当する行政区画を特定し、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎのうち、上記特定した行政区画の情報と共に記憶されている音声認識辞書を有効化する。

一方、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎをメッシュＩＤと共に地域別辞書記憶部１０２に記憶した場合、ナビゲーション装置３００から取得する自宅の位置情報は、例えば、自宅位置に対応する緯度経度情報とするのが好ましい。辞書有効化処理部１２は、ナビゲーション装置３００から取得した緯度経度情報に基づいて、当該緯度経度が矩形内に含まれるメッシュを特定し、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎのうち、上記特定したメッシュのメッシュＩＤと共に記憶されている音声認識辞書を有効化する。

上述の認識処理部１１は、基本辞書記憶部１０１に記憶されている基本の音声認識辞書１０１Ａと、地域別辞書記憶部１０２に記憶されている地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎのうち、辞書有効化処理部１２により有効化された地域の音声認識辞書とを用いて、上述した音声認識を行う。

ここで、認識処理部１１は、辞書有効化処理部１２により有効化された地域の音声認識辞書がある場合、基本の音声認識辞書１０１Ａよりも有効化された地域の音声認識辞書を優先的に用いて音声認識を行うのが好ましい。地域の音声認識辞書を優先的に用いるというのは、基本の音声認識辞書１０１Ａに登録されている認識対象ワードの音声パターンと発話音声との類似度と、辞書有効化処理部１２により有効化された地域の音声認識辞書に登録されている認識対象ワードの音声パターンと発話音声との類似度と同じであった場合に、地域の音声認識辞書に登録されている認識対象ワードを優先して認識するという意味である。

例えば、ユーザの自宅位置が第１の地域に属する場合、辞書有効化処理部１２は、ナビゲーション装置３００から取得される自宅位置の位置情報に基づいて、第１の地域の音声認識辞書１０２Ａ_１を有効化する。この第１の地域の音声認識辞書１０２Ａ_１には、ある地名に関して第１の地域に特有の読み方である「シルビン」というヨミ（音声パターン）が登録されていたとする。一方、基本の音声認識辞書１０１Ａにも、別の地域にある地名に関して基本の読み方として「シルビン」というヨミが登録されていたとする。この場合、ユーザが「シルビン」と発話すると、第１の地域の音声認識辞書１０２Ａ_１に登録されている「シルビン」のヨミと発話音声との類似度と、基本の音声認識辞書１０１Ａに登録されている「シルビン」のヨミと発話音声との類似度とが同じになる。この場合、認識処理部１１は、第１の地域に特有のヨミが発話されたと認識する。

なお、ユーザの自宅位置が第１の地域にない場合、第１の地域の音声認識辞書１０２Ａ_１は有効化されない。他にも有効化された地域の音声認識辞書がない場合、認識処理部１１は、基本辞書記憶部１０１に記憶されている基本の音声認識辞書１０１Ａのみを用いて音声認識を行う。この場合、ユーザが「シルビン」と発話すると、認識処理部１１は、基本の音声認識辞書１０１Ａに登録されている「シルビン」のヨミが発話された、すなわち、第１の地域とは別の地域にある「シルビン」というヨミの地名が発話されたと認識する。

また、ユーザの自宅位置が第１の地域にない場合、そのユーザは、第１の地域にある地名に「シルビン」という特有の読み方が存在することを知らないので、仮にその地名を発話したい場合は、基本の読み方で発話することになる。例えば、その地名の基本の読み方が「シルビアン」であったとすると、「シルビン」という地域特有の読み方を知らないユーザは、通常の読み方である「シルビアン」と発話する。この場合、認識処理部１１は、基本の音声認識辞書１０１Ａに登録されている「シルビアン」のヨミと発話音声との類似度から、「シルビアン」の地名を認識することが可能である。

ここでは、基本の音声認識辞書１０１Ａに基づき算出される類似度と、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎに基づき算出される類似度とが同じであった場合に後者を優先して認識すると説明したが、本発明はこれに限定されない。例えば、基本の音声認識辞書１０１Ａに基づき算出される類似度よりも、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎに基づき算出される類似度の方が小さい場合であっても、その差が所定値以下であるときには、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを優先的に用いて音声認識を行うようにしてもよい。

図２は、以上のように構成した本実施形態による音声認識装置１００の動作例を示すフローチャートである。図２に示すフローチャートは、例えば、ナビゲーション装置３００において音声認識機能をオンにするユーザ操作が行われたときに開始する。

まず、辞書有効化処理部１２は、ナビゲーション装置３００から自宅位置の位置情報を取得する（ステップＳ１）。次いで、辞書有効化処理部１２は、地域別辞書記憶部１０２に記憶されている地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎの中に、ステップＳ１で取得した位置情報が該当する地域の音声認識辞書があるか否かを判定する（ステップＳ２）。そして、該当する地域の音声認識辞書があると判定された場合、辞書有効化処理部１２は、その該当する地域の音声認識辞書を有効化する（ステップＳ３）。

一方、該当する地域の音声認識辞書がないと判定された場合、ステップＳ３の処理は実行されず、処理はステップＳ４に遷移する。認識処理部１１は、マイク２００より発話音声を入力し（ステップＳ４）、基本辞書記憶部１０１に記憶されている基本の音声認識辞書１０１Ａと、地域別辞書記憶部１０２に記憶されている地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎのうち、辞書有効化処理部１２により有効化された地域の音声認識辞書とを用いて、発話音声に対する音声認識を行う（ステップＳ５）。そして、その認識結果をナビゲーション装置３００に出力して（ステップＳ６）、一連の処理を終了する。

以上詳しく説明したように、本実施形態の音声認識装置１００は、認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書１００Ａを記憶した基本辞書記憶部１０１の他に、認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを記憶した地域別辞書記憶部１０２を備える。そして、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎのうち、ナビゲーション装置３００から取得される位置情報が該当する地域の音声認識辞書を有効化し、当該有効化した地域の音声認識辞書および基本の音声認識辞書１０１Ａを用いて音声認識を行うようにしている。

このように構成した本実施形態によれば、認識対象ワードに関して地域特有の読み方を知っているユーザが音声認識を行うときは、ナビゲーション装置３００から取得される位置情報に基づいて、該当する地域の音声認識辞書を有効化して音声認識を行うことができる。これにより、地域特有の読み方を知っているユーザが、その地域特有の読み方で認識対象ワードを発話した場合にも、その発話音声を適切に認識することができる。

一方、認識対象ワードに関して地域特有の読み方を知らないユーザが音声認識を行うときは、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを有効化せず、基本の音声認識辞書１０１Ａのみを用いて音声認識を行うことができる。これにより、地域特有の読み方を知らないユーザによる発話音声が、地域特有のヨミに該当すると誤認識されてしまうことを抑止することができる。

以上により、本実施形態によれば、地域特有の読み方を知っているユーザがその読み方で発話した場合にも、地域特有の読み方を知らないユーザが発話した場合にも、それぞれの発話音声を適切に認識することができる。

なお、上記実施形態では、ナビゲーション装置３００から取得する位置情報として、ナビゲーション装置３００に登録されている自宅の位置情報を用いる例について説明したが、本発明はこれに限らない。例えば、ナビゲーション装置３００から取得される位置情報は、ナビゲーション装置３００において検出される現在位置情報であってもよい。

また、上記実施形態において、認識対象ワードを地名とし、辞書有効化処理部１２は、ナビゲーション装置３００において住所検索の実行が指示された場合にのみ、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを有効化する処理を行うようにしてもよい。あるいは、認識対象ワードは施設名とし、辞書有効化処理部１２は、ナビゲーション装置３００において施設名検索の実行が指示された場合にのみ、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを有効化する処理を行うようにしてもよい。あるいは、認識対象ワードを地名および施設名とし、辞書有効化処理部１２は、ナビゲーション装置３００において住所検索または施設名検索の実行が指示された場合にのみ、地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを有効化する処理を行うようにしてもよい。

このようにすれば、ナビゲーション装置３００の用途に応じて必要なときにのみ地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎを有効化するようにすることができる。これにより、無用なときに地域別の音声認識辞書１０２Ａ_１〜１０２Ａ_ｎが有効化されて、本来は基本の音声認識辞書１０１Ａに基づき認識されるべき発話音声が、有効化された地域の音声認識辞書に基づき認識されてしまうといった誤認識が生じる可能性を低減することができる。

その他、上記実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその要旨、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。

１１認識処理部
１２辞書有効化処理部
１００音声認識装置
１０１基本辞書記憶部
１０１Ａ基本の音声認識辞書
１０２地域別辞書記憶部
１０２Ａ_１〜１０２Ａ_ｎ地域別の音声認識辞書
３００ナビゲーション装置

Claims

ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識装置であって、
上記認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書を記憶した基本辞書記憶部と、
上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書を記憶した地域別辞書記憶部と、
上記地域別辞書記憶部に記憶されている上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する辞書有効化処理部と、
上記基本辞書記憶部に記憶されている上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う認識処理部とを備えたことを特徴とする音声認識装置。
上記辞書有効化処理部は、上記地域別辞書記憶部に記憶されている上記地域別の音声認識辞書の中に、上記位置情報が該当する地域の音声認識辞書があるか否かを判定し、あると判定された場合に、上記該当する地域の音声認識辞書を有効化するようになされ、
上記認識処理部は、上記辞書有効化処理部により有効化された地域の音声認識辞書がある場合、上記基本の音声認識辞書よりも上記有効化された地域の音声認識辞書を優先的に用いて上記音声認識を行うことを特徴とする請求項１に記載の音声認識装置。
上記認識対象ワードは地名であり、
上記辞書有効化処理部は、上記ナビゲーション装置において住所検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行うことを特徴とする請求項１または２に記載の音声認識装置。
上記認識対象ワードは施設名であり、
上記辞書有効化処理部は、上記ナビゲーション装置において施設名検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行うことを特徴とする請求項１または２に記載の音声認識装置。
上記認識対象ワードは地名および施設名であり、
上記辞書有効化処理部は、上記ナビゲーション装置において住所検索または施設名検索の実行が指示された場合にのみ、上記地域の音声認識辞書を有効化する処理を行うことを特徴とする請求項１または２に記載の音声認識装置。
上記ナビゲーション装置から取得される位置情報は、上記ナビゲーション装置に登録されている自宅の位置情報であることを特徴とする請求項１〜５の何れか１項に記載の音声認識装置。
上記ナビゲーション装置から取得される位置情報は、上記ナビゲーション装置において検出される現在位置情報であることを特徴とする請求項１〜５の何れか１項に記載の音声認識装置。
認識対象ワードに関して基本のヨミが登録されて成る基本の音声認識辞書と、上記認識対象ワードに関して地域特有のヨミが登録されて成る地域別の音声認識辞書とを有する音声認識装置において、ユーザによる発話音声と、音声認識辞書に登録されている認識対象ワードのヨミとの類似度に基づいて音声認識を行う音声認識方法であって、
上記音声認識装置の辞書有効化処理部が、上記地域別の音声認識辞書のうち、ナビゲーション装置から取得される位置情報が該当する地域の音声認識辞書を有効化する第１のステップと、
上記音声認識装置の認識処理部が、上記基本の音声認識辞書および上記辞書有効化処理部により有効化された上記地域の音声認識辞書を用いて、上記音声認識を行う第２のステップとを有することを特徴とする音声認識方法。