JP5409931B2

JP5409931B2 - 音声認識装置及びナビゲーション装置

Info

Publication number: JP5409931B2
Application number: JP2012546569A
Authority: JP
Inventors: 裕三丸田; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2014-02-05
Anticipated expiration: 2030-11-30
Also published as: CN103229232A; DE112010006037T5; CN103229232B; DE112010006037B4; JPWO2012073275A1; WO2012073275A1; US20130158999A1

Description

この発明は、車載用のナビゲーション装置等に利用される音声認識装置及びこれを備えたナビゲーション装置に関する。

例えば、特許文献１には、大規模な文法に基づく音声認識方法が開示されている。この音声認識方法では、入力音声を音響特徴のシーケンスに変換し、このシーケンスを所定の文法で規定された単語列の音響特徴の集合と比較して、当該文法によって定義される文に最も一致するものが、発話された入力音声であると認識される。

特開平７−２１９５７８号公報

日本や中国等では、漢字等が使用されているため文字が多様であり、また住所の音声認識の際に建物に固有なマンション名が住所に使用される場合があるため、全ての住所を認識辞書に含ませると、認識辞書の容量が大きくなり、認識性能の劣化を招く上、認識時間が長時間化するという課題があった。

また、特許文献１に代表される従来の技術においても、使用される文字が多様な場合やマンション名などの固有名詞が認識対象に含まれる場合には、文法記憶手段と単語辞書記憶手段が非常に大きな容量となり、これらの手段に対するアクセス回数が増えて認識時間が長時間化する。

この発明は、上記のような課題を解決するためになされたもので、音声認識辞書の容量削減及びこれに伴う認識処理の高速化を図ることができる音声認識装置及びこれを備えたナビゲーション装置を得ることを目的とする。

この発明に係る音声認識装置は、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、音声認識対象の語彙を記憶する語彙記憶部と、数字からなる音声認識辞書を記憶する辞書記憶部と、音響分析部により得られた入力音声の音響特徴の時系列と辞書記憶部から読み出した音声認識辞書とを照合して、音声認識辞書から入力音声として最も確からしい単語列を特定する音響データマッチング部と、音響データマッチング部に特定された単語列と語彙記憶部が記憶する語彙とを部分一致照合して、語彙記憶部が記憶する語彙のうち、音響データマッチング部に特定された単語列と部分一致した語を音声認識結果とする部分一致照合部とを備えるものである。

この発明によれば、音声認識辞書の容量を削減でき、これに伴って認識処理の高速化を図ることができるという効果を有する。

この発明の実施の形態１による音声認識装置の構成を示すブロック図である。実施の形態１による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。実施の形態１による音声認識装置で使用する音声認識辞書の一例を示す図である。実施の形態１による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。この発明の実施の形態２による音声認識装置の構成を示すブロック図である。実施の形態２による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。実施の形態２による音声認識装置で使用する音声認識辞書の一例を示す図である。実施の形態２による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。実施の形態２による音声認識装置での音声認識辞書上のパス探索の一例を説明するための図である。実施の形態２による音声認識処理の他の例を示すフローチャート及び各処理で扱われるデータ例を示す図である。実施の形態２による音声認識装置での音声認識辞書上のパス探索の別の一例を説明するための図である。この発明の実施の形態３による音声認識装置の構成を示すブロック図である。実施の形態３における音声認識辞書の一例を示す図である。実施の形態３による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。この発明の実施の形態４による音声認識装置の構成を示すブロック図である。実施の形態４による音声認識装置で使用する特徴行列の一例を説明する図である。実施の形態４による音声認識装置で使用する特徴行列の別の一例を説明する図である。実施の形態４による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。実施の形態４による音声認識装置での音声認識辞書上のパス探索を説明するための図である。この発明の実施の形態５による音声認識装置の構成を示すブロック図である。実施の形態５による音声認識装置で使用する音節からなる音声認識辞書の一例を示す図である。実施の形態５による音節化した住所データの作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。実施の形態５による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図である。

以下、この発明をより詳細に説明するため、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図であり、ユーザに発話された住所を音声認識する装置を示している。図１において、実施の形態１による音声認識装置１は、音声認識処理部２と音声認識辞書作成部３を備える。音声認識処理部２は、マイク２１で取り込まれた音声を音声認識する構成部であり、マイク２１、音声取り込み部２２、音響分析部２３、音響データマッチング部２４、音声認識辞書記憶部２５、住所データ照合部２６、住所データ記憶部２７及び結果出力部２８を備える。
また、音声認識辞書作成部３は、音声認識辞書記憶部２５に記憶される音声認識辞書を作成する構成部であり、音声認識処理部２と共通する構成として音声認識辞書記憶部２５及び住所データ記憶部２７を有し、その他の構成として、単語切り出し部３１、出現頻度計算部３２及び認識辞書作成部３３を備える。

ユーザが発話した住所を示す音声は、マイク２１によって取り込まれ、音声取り込み部２２によりデジタル信号の音声信号に変換される。音響分析部２３では、音声取り込み部２２から出力された音声信号を音響分析して、入力音声の音響特徴の時系列に変換する。音響データマッチング部２４は、音響分析部２３で得られた入力音声の音響特徴の時系列と音声認識辞書記憶部２５に記憶される音声認識辞書とを照合して、最も確からしい認識結果を出力する。音声認識辞書記憶部２５は、入力音声の音響特徴の時系列と照合される単語のネットワークとして表現された音声認識辞書を格納する記憶部である。住所データ照合部２６は、音響データマッチング部２４で得られた認識結果と住所データ記憶部２７に記憶される住所データとを先頭部分一致照合する。住所データ記憶部２７には、音声認識の対象である住所の単語列を示す住所データが記憶される。結果出力部２８は、住所データ照合部２６による照合で部分一致した住所データを入力して、この住所データが示す住所を最終的な認識結果として出力する。

単語切り出し部３１は、語彙記憶部である住所データ記憶部２７に記憶されている住所データから単語を切り出す構成部である。出現頻度計算部３２は、単語切り出し部３１によって切り出された単語の頻度を計算する構成部である。認識辞書作成部３３は、単語切り出し部３１によって切り出された単語のうち、出現頻度計算部３２によって計算された出現頻度が高い（所定の閾値以上）の単語について音声認識辞書を作成し、音声認識辞書記憶部２５に格納する。

次に動作について説明する。
（１）音声認識辞書の作成
図２は、実施の形態１による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図２（ａ）がフローチャートを示し、図２（ｂ）がデータ例を示している。
先ず、単語切り出し部３１が、住所データ記憶部２７に記憶される住所データから単語を切り出す（ステップＳＴ１）。例えば、図２（ｂ）に示すような住所データ２７ａが、住所データ記憶部２７に記憶されている場合、単語切り出し部３１は、住所データ２７ａが示す住所を構成する単語を順次切り出して、図２（ｂ）に示す単語リストデータ３１ａを生成する。

次に、出現頻度計算部３２が、単語切り出し部３１によって切り出された単語の出現頻度を計算する。認識辞書作成部３３は、単語切り出し部３１に切り出された単語のうち、出現頻度計算部３２で計算された出現頻度が所定の閾値以上の単語について音声認識辞書を作成する。図２（ｂ）の例では、認識辞書作成部３３が、単語切り出し部３１によって切り出された単語リストデータ３１ａの中から出現頻度が所定の閾値“２”以上である、単語“１”、“２”、“３”、“番地”、“号”の単語リストデータ３２ａを抽出して、抽出した単語による単語ネットワークで表現された音声認識辞書を作成し、音声認識辞書記憶部２５に記憶する。ここまでの処理がステップＳＴ２に相当する。

図３は、認識辞書作成部３３に作成された音声認識辞書の一例を示す図であり、図２（ｂ）に示す単語リストデータ３２ａから作成した音声認識辞書を示している。図３に示すように、音声認識辞書記憶部２５には、出現頻度が所定の閾値以上の単語及びその読みで構成された単語ネットワークが格納される。単語ネットワークにおいて、最も左のノードが音声認識する前の状態を意味し、このノードから出るパスが認識した単語に対応し、パスが入るノードが音声認識後の状態に対応し、最も右にあるノードは音声認識が終了した状態を意味する。単語を音声認識した後に、さらに音声認識すべき発話があれば、最も左のノードに戻り、発話がなければ最も右のノードに移る。パスとして格納される単語は、出現頻度が所定の閾値以上の単語としており、出現頻度が所定の閾値未満の単語、すなわち使用頻度が低い単語は、音声認識辞書に含まれない。例えば、図２（ｂ）の単語リストデータ３１ａのうち、“日本マンション”等のような建物の固有名詞は、音声認識辞書の作成対象から除外される。

（２）音声認識処理
図４は、実施の形態１による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図４（ａ）がフローチャートを示し、図４（ｂ）がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する（ステップＳＴ１ａ）。ここで、例えば、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク２１によって取り込まれ、音声取り込み部２２によってデジタル信号に変換される。

次に、音響分析部２３が、音声取り込み部２２でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列（ベクトル列）に変換する（ステップＳＴ２ａ）。図４（ｂ）に示す例では、入力音声である「いちばんち」の音響特徴の時系列として／Ｉ，ｃｈｉ，ｂａ，Ｎ，ｃｈｉ／が得られる。

次いで、音響データマッチング部２４が、音響分析部２３による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部２５に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する（ステップＳＴ３ａ）。図４（ｂ）に示す例では、図３に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである／Ｉ，ｃｈｉ，ｂａ，Ｎ，ｃｈｉ／に最もマッチする、パス（１）→（２）が探索結果として特定される。

この後、音響データマッチング部２４は、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部２６に出力する（ステップＳＴ４ａ）。図４（ｂ）では、単語列“１番地”が住所データ照合部２６に出力される。

続いて、住所データ照合部２６は、音響データマッチング部２４で得られた単語列と、住所データ記憶部２７に記憶されている住所データとを先頭部分一致照合する（ステップＳＴ５ａ）。図４（ｂ）では、住所データ記憶部２７に記憶されている住所データ２７ａと、音響データマッチング部２４で得られた単語列とが先頭部分一致照合される。

最後に、住所データ照合部２６は、住所データ記憶部２７に記憶されている住所データの単語列の中から、音響データマッチング部２４で得られた単語列と先頭部分一致する単語列を特定して、結果出力部２８へ出力する。これにより、結果出力部２８は、音響データマッチング部２４で得られた単語列と先頭部分一致する単語列を認識結果として出力する。ここまでの処理が、ステップＳＴ６ａに相当する。なお、図４（ｂ）の例では、住所データ２７ａの単語列の中から“１番地東京メゾン”が特定され、認識結果として出力される。

以上のように、この実施の形態１によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部２３と、音声認識対象の語彙である住所データを記憶する住所データ記憶部２７と、住所データ記憶部２７に記憶される住所データから単語を切り出す単語切り出し部３１と、単語切り出し部３１に切り出された単語の出現頻度を計算する出現頻度計算部３２と、出現頻度計算部３２で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部３３と、音響分析部２３により得られた入力音声の音響特徴の時系列と認識辞書作成部３３で作成された音声認識辞書とを照合して、音声認識辞書から入力音声として最も確からしい単語列を特定する音響データマッチング部２４と、音響データマッチング部２４に特定された単語列と住所データ記憶部２７が記憶する語彙とを部分一致照合して、住所データ記憶部２７が記憶する語彙のうち、音響データマッチング部２４に特定された単語列と部分一致した語（単語列）を音声認識結果とする住所データ照合部２６とを備える。
このように構成することで、住所を構成する全ての単語についての音声認識辞書を作成する必要がなく、音声認識辞書に要する容量を削減することができる。また、音声認識辞書に登録する単語を、その出現頻度（使用頻度）に応じて削減することにより、入力音声の音響データとマッチング処理を行う対象が削減され、認識処理の高速化を図ることができる。さらに、音響データマッチングした結果の単語列と、住所データ記憶部２７に登録されている住所データの単語列と先頭部分一致照合を行うことにより、認識結果の信頼性を確保しつつ、迅速な認識処理が可能である。

実施の形態２．
図５は、この発明の実施の形態２による音声認識装置の構成を示すブロック図である。図５において、実施の形態２による音声認識装置１Ａは、音声認識処理部２及び音声認識辞書作成部３Ａを備える。音声認識処理部２は、上記実施の形態１と同様の構成である。音声認識辞書作成部３Ａは、上記実施の形態１と同様に、音声認識辞書記憶部２５、住所データ記憶部２７、単語切り出し部３１及び出現頻度計算部３２を備え、実施の形態２に特有な構成として、認識辞書作成部３３Ａ及びガベジモデル記憶部３４を備える。

認識辞書作成部３３Ａは、単語切り出し部３１によって切り出された単語のうち、出現頻度計算部３２によって計算された出現頻度が高い（所定の閾値以上）単語について音声認識辞書を作成し、さらにガベジモデル記憶部３４から読み出したガベジモデルを追加して音声認識辞書記憶部２５に格納する。ガベジモデル記憶部３４は、ガベジモデルを記憶する記憶部である。ここで、ガベジモデルとは、どんな発話でも一様に認識結果として出力される音響モデルである。

次に動作について説明する。
（１）音声認識辞書の作成
図６は、実施の形態２による音声認識辞書の作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図６（ａ）がフローチャートを示し、図６（ｂ）がデータ例を示している。
先ず、単語切り出し部３１が、住所データ記憶部２７に記憶される住所データから単語を切り出す（ステップＳＴ１ｂ）。例えば、図６（ｂ）に示すような住所データ２７ａが住所データ記憶部２７に記憶されている場合、単語切り出し部３１は、住所データ２７ａが示す住所を構成する単語を順次切り出して、図６（ｂ）に示す単語リストデータ３１ａを生成する。

次に、出現頻度計算部３２が、単語切り出し部３１により切り出された単語の出現頻度を計算する。認識辞書作成部３３Ａは、単語切り出し部３１に切り出された単語のうち、出現頻度計算部３２で計算された出現頻度が所定の閾値以上の単語について音声認識辞書を作成する。図６（ｂ）の例では、認識辞書作成部３３Ａが、単語切り出し部３１により切り出された単語リストデータ３１ａの中から出現頻度が所定の閾値“２”以上である、単語“１”、“２”、“３”、“番地”、“号”の単語リストデータ３２ａを抽出して、抽出した単語による単語ネットワークで表現された音声認識辞書を作成する。ここまでの処理がステップＳＴ２ｂに相当する。

この後、認識辞書作成部３３Ａは、ステップＳＴ２ｂで作成した音声認識辞書における単語ネットワークに対して、ガベジモデル記憶部３４から読み出したガベジモデルを追加して音声認識辞書記憶部２５に記憶する（ステップＳＴ３ｂ）。

図７は、認識辞書作成部３３Ａに作成された音声認識辞書の一例を示す図であり、図６（ｂ）に示す単語リストデータ３２ａから作成した音声認識辞書を示している。図７に示すように、音声認識辞書記憶部２５には、出現頻度が所定の閾値以上の単語及びその読みで構成された単語ネットワークと、この単語ネットワークに追加されたガベジモデルが格納される。これにより、上記実施の形態１と同様に、出現頻度が所定の閾値未満の単語、すなわち使用頻度が低い単語は音声認識辞書に含まれない。例えば、図６（ｂ）の単語リストデータ３１ａのうち、“日本マンション”等のような建物の固有名詞は、音声認識辞書の作成対象から除外される。なお、参考文献１〜３には、ガベジモデルの詳細が記載されている。この発明は、参考文献１〜３に記載されるようなガベジモデルを利用する。
参考文献１；特開平１１−１５４９２号公報
参考文献２；特開２００７−１７７３６号公報
参考文献３；特開２００９−２５８３６９号公報

（２）音声認識処理
（２−１）音声認識辞書に登録されている単語のみを含む発話がなされた場合
図８は、実施の形態２による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図８（ａ）がフローチャートを示し、図８（ｂ）がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する（ステップＳＴ１ｃ）。ここで、例えば、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク２１によって取り込まれ、音声取り込み部２２によってデジタル信号に変換される。

次に、音響分析部２３が、音声取り込み部２２でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列（ベクトル列）に変換する（ステップＳＴ２ｃ）。図８（ｂ）に示す例では、入力音声である「いちばんち」の音響特徴の時系列として／Ｉ，ｃｈｉ，ｂａ，Ｎ，ｃｈｉ／が得られる。

次いで、音響データマッチング部２４が、音響分析部２３による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部２５に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する（ステップＳＴ３ｃ）。
図８（ｂ）に示す例では、図７に示す音声認識辞書に登録されている単語のみを含む発話であるので、図９に示すように、図７に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである／Ｉ，ｃｈｉ，ｂａ，Ｎ，ｃｈｉ／に最もマッチするパス（１）→（２）→（３）が探索結果として特定される。

この後、音響データマッチング部２４は、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部２６に出力する（ステップＳＴ４ｃ）。図８（ｂ）では、単語列“１番地”が住所データ照合部２６に出力される。

続いて、住所データ照合部２６は、音響データマッチング部２４で得られた単語列と、住所データ記憶部２７に記憶されている住所データとを先頭部分一致照合する（ステップＳＴ５ｃ）。図８（ｂ）では、住所データ記憶部２７に記憶されている住所データ２７ａと、音響データマッチング部２４で得られた単語列とが先頭部分一致照合される。

最後に、住所データ照合部２６は、住所データ記憶部２７に記憶されている住所データの単語列の中から、音響データマッチング部２４で得られた単語列と先頭部分一致する単語列を特定して、結果出力部２８へ出力する。これにより、結果出力部２８は、音響データマッチング部２４で得られた単語列と先頭部分一致する単語列を認識結果として出力する。ここまでの処理が、ステップＳＴ６ｃに相当する。なお、図８（ｂ）の例では、住所データ２７ａの単語列の中から“１番地”が特定され、認識結果として出力される。

（２−２）音声認識辞書に登録されていない単語を含む発話がなされた場合
図１０は、音声認識辞書に登録されていない単語を含む発話に対する音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図１０（ａ）がフローチャートを示し、図１０（ｂ）がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する（ステップＳＴ１ｄ）。ここで、例えば、「さんごうにほんまんしょんえいとう」と発話されたものとする。ユーザが発話した音声は、マイク２１によって取り込まれ、音声取り込み部２２によってデジタル信号に変換される。

次に、音響分析部２３が、音声取り込み部２２でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列（ベクトル列）に変換する（ステップＳＴ２ｄ）。図１０（ｂ）に示す例では、入力音声である「さんごうにほんまんしょんえいとう」の音響特徴の時系列として／Ｓａ，Ｎ，ｇｏ，ｕ，Ｓ（３）／が得られる。ここで、Ｓ（ｎ）は、ここにガベジモデルが代入されることを示す表記であり、ｎは読み方を決定できない文字列の単語数である。

次いで、音響データマッチング部２４は、音響分析部２３による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部２５に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する（ステップＳＴ３ｄ）。
図１０（ｂ）に示す例では、図７に示す音声認識辞書に登録されていない単語を含む発話であるので、図１１に示すように、図７に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである／Ｓａ，Ｎ，ｇｏ，ｕ／に最もマッチするパス（４）→（５）が探索され、図７に示す音声認識辞書にない単語列についてはガベジモデルをマッチさせて、パス（４）→（５）→（６）が探索結果として特定される。

この後、音響データマッチング部２４は、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部２６に出力する（ステップＳＴ４ｄ）。図１０（ｂ）では、単語列“３号ガベジ”が住所データ照合部２６に出力される。

続いて、住所データ照合部２６は、音響データマッチング部２４で得られた単語列から“ガベジ”を取り除き、この単語列と住所データ記憶部２７に記憶されている住所データとを先頭部分一致照合する（ステップＳＴ５ｄ）。図１０（ｂ）では、住所データ記憶部２７に記憶されている住所データ２７ａと、音響データマッチング部２４で得られた単語列とが先頭部分一致照合される。

最後に、住所データ照合部２６は、住所データ記憶部２７に記憶されている住所データの単語列の中から、“ガベジ”を取り除いた単語列と先頭部分一致する単語列を特定して結果出力部２８へ出力する。これにより、結果出力部２８は、この先頭部分一致した単語列を認識結果として出力する。ここまでの処理が、ステップＳＴ６ｄに相当する。なお、図１０（ｂ）の例では、住所データ２７ａの単語列の中から“３号日本マンションＡ棟”が特定され、認識結果として出力される。

以上のように、この実施の形態２によれば、上記実施の形態１と同様な構成に加えて、ガベジモデルを記憶するガベジモデル記憶部３４を備え、認識辞書作成部３３Ａが、出現頻度計算部３２で計算された出現頻度が所定値以上の単語からなる単語ネットワークに対し、ガベジモデル記憶部３４から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成し、住所データ照合部２６が、音響データマッチング部２４に特定された単語列からガベジモデルを取り除いて住所データ記憶部２７が記憶する語彙と部分一致照合し、住所データ記憶部２７が記憶する語彙のうち、ガベジモデルを取り除いた単語列と部分一致した語（単語列）を音声認識結果とする。
このように構成することで、上記実施の形態１と同様に、住所を構成する全ての単語についての音声認識辞書を作成する必要がなく、音声認識辞書に要する容量を削減することができる。また、音声認識辞書に登録する単語を、その出現頻度（使用頻度）に応じて削減することにより、入力音声の音響データとマッチング処理を行う対象が削減され、認識処理の高速化を図ることができる。さらに、音響データマッチングした結果の単語列と、住所データ記憶部２７に登録されている住所データの単語列と先頭部分一致照合を行うことにより、認識結果の信頼性を確保しつつ、迅速な認識処理が可能である。
なお、実施の形態２では、ガベジモデルを追加することから、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できるという利点がある。

実施の形態３．
図１２は、この発明の実施の形態３による音声認識装置の構成を示すブロック図である。図１２において、図１に示す構成部と同一の機能又はこれと同様な機能を発揮する構成部には、同一符号を付して重複する説明を省略する。実施の形態３による音声認識装置１Ｂは、マイク２１、音声取り込み部２２、音響分析部２３、音響データマッチング部２４Ａ、音声認識辞書記憶部２５Ａ、住所データ照合部２６Ａ、住所データ記憶部２７、及び結果出力部２８を備える。

音響データマッチング部２４Ａは、音響分析部２３で得られた入力音声の音響特徴の時系列と、音声認識辞書記憶部２５Ａに記憶される数字のみの音声認識辞書とを照合して、最も確からしい認識結果を出力する。音声認識辞書記憶部２５Ａは、入力音声の音響特徴の時系列と照合される単語（数字）のネットワークとして表現された音声認識辞書を格納する記憶部である。なお、あるカテゴリの語彙を構成する数字部分のみの音声認識辞書の作成には、既存の技術を用いることができる。住所データ照合部２６Ａは、音響データマッチング部２４Ａで得られた数字列の認識結果と、住所データ記憶部２７に記憶される住所データの数字部分とを先頭部分一致照合する構成部である。

図１３は、実施の形態３における音声認識辞書の一例を示す図である。音声認識辞書記憶部２５Ａには、図１３に示すように、数字及びその読みで構成された単語ネットワークが格納される。このように、実施の形態３では、住所を示す単語列に含まれるであろう数字のみの音声認識辞書を備えており、住所データに依存した音声認識辞書を作成する必要がない。従って、上記実施の形態１，２のような単語切り出し部３１、出現頻度計算部３２及び認識辞書作成部３３が不要である。

次に動作について説明する。
ここでは、音声認識処理の詳細について述べる。
図１４は、実施の形態３による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図１４（ａ）がフローチャートを示し、図１４（ｂ）がデータ例を示している。
先ず、ユーザが、住所における数字部分のみを発話する（ステップＳＴ１ｅ）。図１４（ｂ）の例では、「に」と発話されたものとする。ユーザが発話した音声は、マイク２１によって取り込まれ、音声取り込み部２２によってデジタル信号に変換される。

次に、音響分析部２３が、音声取り込み部２２でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列（ベクトル列）に変換する（ステップＳＴ２ｅ）。図１４（ｂ）に示す例では、入力音声である「に」の音響特徴の時系列として／ｎｉ／が得られる。

次いで、音響データマッチング部２４Ａが、音響分析部２３による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部２５Ａに記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと最もよくマッチするパスを探索する（ステップＳＴ３ｅ）。
図１４（ｂ）に示す例では、図１３に示すように、音声認識辞書の単語ネットワークの中から、入力音声の音響データである／ｎｉ／に最もマッチするパス（１）→（２）が探索結果として特定される。

この後、音響データマッチング部２４Ａは、探索結果のパスに対応する単語列を音声認識辞書から抽出して、住所データ照合部２６Ａに出力する（ステップＳＴ４ｅ）。図１４（ｂ）では、数字“２”が住所データ照合部２６Ａに出力される。

続いて、住所データ照合部２６Ａは、音響データマッチング部２４Ａで得られた単語列（数字列）と、住所データ記憶部２７に記憶されている住所データとを先頭部分一致照合する（ステップＳＴ５ｅ）。図１４（ｂ）では、住所データ記憶部２７に記憶されている住所データ２７ａと、音響データマッチング部２４Ａで得られた数字“２”とが先頭部分一致照合される。

最後に、住所データ照合部２６Ａは、住所データ記憶部２７に記憶されている住所データの単語列の中から、音響データマッチング部２４Ａで得られた単語列と先頭部分一致する単語列を特定して、結果出力部２８へ出力する。これにより、結果出力部２８は、音響データマッチング部２４Ａで得られた単語列と先頭部分一致する単語列を認識結果として出力する。ここまでの処理が、ステップＳＴ６ｅに相当する。なお、図１４（ｂ）の例では、住所データ２７ａの単語列の中から“２番地”が特定され、認識結果として出力される。

以上のように、この実施の形態３によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部２３と、音声認識対象の語彙である住所データを記憶する住所データ記憶部２７と、所定の種類の単語として数字からなる音声認識辞書を記憶する音声認識辞書記憶部２５Ａと、音響分析部２３により得られた入力音声の音響特徴の時系列と音声認識辞書記憶部２５Ａから読み出した音声認識辞書とを照合して、音声認識辞書から入力音声として最も確からしい単語列を特定する音響データマッチング部２４Ａと、音響データマッチング部２４Ａに特定された単語列と住所データ記憶部２７が記憶する語彙とを部分一致照合して、住所データ記憶部２７が記憶する語彙のうち、音響データマッチング部２４Ａに特定された単語列と部分一致した語（単語列）を音声認識結果とする住所データ照合部２６Ａとを備える。このように構成することで、上記実施の形態１，２と同様な効果が得られ、さらに住所データに依存した音声認識辞書を予め作成しておく必要がないという利点がある。

なお、上記実施の形態３において、数字のみの単語ネットワークから音声認識辞書を作成する場合を示したが、上記実施の形態２と同様に、認識辞書作成部３３とガベジモデル記憶部３４を設けて、認識辞書作成部３３が、数字のみの単語ネットワークにガベジモデルを追加してもよい。この場合、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できる利点がある。

また、上記実施の形態３では、音声認識対象の語彙である住所の数字部分のみからなる音声認識辞書を扱う場合を示したが、数字以外の所定の種類の単語のみからなる音声認識辞書を扱ってもよい。単語の種類としては、音声認識の対象である住所を構成する単語列における、人名、地域・国名、アルファベット、特殊文字などがある。

さらに、上記実施の形態１〜３において、住所データ照合部２６が、住所データ記憶部２７に記憶される住所データと先頭部分一致照合を行う場合を示したが、この発明は、先頭部分一致に限定されるものではない。部分一致照合であれば、中間一致、後方一致であっても構わない。

実施の形態４．
図１５は、この発明の実施の形態４による音声認識装置の構成を示すブロック図である。図１５において、実施の形態４による音声認識装置１Ｃは、音声認識処理部２Ａ及び音声認識辞書作成部３Ａを備える。音声認識辞書作成部３Ａは、上記実施の形態２と同様の構成である。音声認識処理部２Ａは、上記実施の形態１と同様に、マイク２１、音声取り込み部２２、音響分析部２３、音声認識辞書記憶部２５、及び住所データ記憶部２７を備え、実施の形態４に特有な構成として、音響データマッチング部２４Ｂ、検索装置４０及び検索結果出力部２８ａを備える。音響データマッチング部２４Ｂは、所定値以上の確からしさを持つ認識結果を単語ラティスとして出力する。単語ラティスとは、発話に対して所定値以上の確からしさを持つと認識された１個以上の単語が同じ音響特徴に照合したものを並列に、発話の順番に直列に連結されたものである。

検索装置４０は、インデックス付きデータベース４３に登録した住所データの中から、音声認識による誤りを考慮しつつ、音響データマッチング部２４Ｂで得られた認識結果として最も確からしい単語列を検索して検索結果出力部２８ａへ出力する装置であり、特徴ベクトル抽出部４１、低次元射影処理部４２，４５、インデックス付きデータベース（以下インデックス付きＤＢと略す）４３、確実性ベクトル抽出部４４及び検索部４６を備える。検索結果出力部２８ａは、検索装置４０による検索結果を出力する構成部である。

特徴ベクトル抽出部４１は、住所データ記憶部２７に記憶される住所データが示す住所の単語列から、文書特徴ベクトルを抽出する構成部である。文書特徴ベクトルとは、インターネットなどで単語を入力して、その単語に関連するＷｅｂページ（文書）を検索する際などに使用されるもので、文書ごとに単語の出現頻度に応じた重みを要素とする特徴ベクトルである。住所データ記憶部２７に記憶される住所データを文書として扱い、住所データにおける単語の出現頻度に応じた重みを要素として文書特徴ベクトルを求める。これら文書特徴ベクトルを並べた特徴行列が、住所データｄｊ中の単語ｒｉの出現頻度ｗｉｊを要素とする、（単語数Ｍ×住所データ数Ｎ）の行列Ｗである。なお、出現頻度が高い単語ほど重要であると考えられる。

図１６に、実施の形態４による音声認識装置で使用する特徴行列の一例を説明する図を示す。ここでは、「１」、「２」、「３」、「号」、「番地」だけを単語として示しているが、実際には住所データに出現する頻度が所定値以上の単語に対して文書特徴ベクトルを定義する。住所データでは、「１番地３号」と「３番地１号」を区別できる方が望ましいので、単語の連鎖に対して文書特徴ベクトルを定義することも考えられる。その場合の特徴行列を説明する図を、図１７に示す。この場合には、特徴行列の行数は、単語数Ｍの２乗となる。

低次元射影処理部４２は、特徴ベクトル抽出部４１により抽出された文書特徴ベクトルを低次元の文書特徴ベクトルに射影する構成部である。上述した特徴行列Ｗにおいては、一般的により低い特徴次元に射影することができる。例えば、参考文献４で使用される特異値分解（ＳＶＤ）を使用して所定の特徴次元まで次元圧縮する。
参考文献４；特開２００４−５６００号公報

特異値分解（ＳＶＤ）では、以下のようにして、低次元の特徴ベクトルを求める。
特徴行列Ｗを、ｔ行ｄ列で、ランクｒとする。ｔ次元の正規直交ベクトルをｒ列並べたｔ行ｒ列の行列をＴ、ｄ次元の正規直交ベクトルをｒ列並べたｄ行ｒ列の行列をＤ、対角要素にＷの特異値を大きい順に並べたｒ行ｒ列の対角行列をＳとする。
特異値分解定理により、Ｗは、下記式（１）のように分解できる。
Ｗ_t×d＝Ｔ_t×rＳ_r×rＤ_d×r ^T （１）
Ｔ、Ｓ、Ｄのｋ＋１列以降を削除した行列を、それぞれＴ（ｋ）、Ｓ（ｋ）、Ｄ（ｋ）とする。行列Ｗに左からＤ（ｋ）^Tをかけて、ｋ行に変換した行列をＷ（ｋ）とすると、下記式（２）のようになる。
Ｗ（ｋ）_k×d＝Ｔ（ｋ）_t×k ^TＷ_t×d （２）
上記式（２）に上記式（１）を代入すると、Ｔ（ｋ）^TＴ（ｋ）が単位行列であることから、下記式（３）を得る。
Ｗ（ｋ）_k×d＝Ｓ（ｋ）_k×kＤ（ｋ）_d×k ^T （３）
上記式（２）又は上記式（３）で計算されるＷ（ｋ）_k×dの各列に対応するｋ次元のベクトルが、各住所データの特徴を現す低次元の特徴ベクトルである。Ｗ（ｋ）_k×dは、フロベニウスノルムの意味で、Ｗを最小誤差で近似するｋ次元の行列となる。ｋ＜ｒとなる次数削減は、単に演算量削減だけではなく、抽象的には単語と文書の対応関係をｋ個の概念で対応付けるように変換する操作となっており、類似単語や類似文書を集約する効果がある。

また、低次元射影処理部４２は、低次元の文書特徴ベクトルに従って、住所データ記憶部２７に記憶される住所データに低次元の文書特徴ベクトルをインデックスとするインデックス付けを行い、インデックス付きＤＢ４３に登録する。

確実性ベクトル抽出部４４は、音響データマッチング部２４Ｂにより得られた単語ラティスから確実性ベクトルを抽出する構成部である。確実性ベクトルとは、発話段階において単語が実際に発話された確率を、文書特徴ベクトルと同じ形式で表すベクトルである。発話段階において単語が発話された確率は、音響データマッチング部２４Ｂで探索されたパスのスコアである。例えば、「はちばんち」と発話した場合、「８番地」という文言が発話された確率が０．８で、「１番地」という文言が発話された確率が０．６と認識された場合には、実際に発話された確率は、「８」が０．８、「１」が「０．６」、「番地」が１となる。

低次元射影処理部４５は、確実性ベクトル抽出部４４により抽出された確実性ベクトルに対して、文書特徴ベクトルに適用したものと同じ射影処理（Ｔ（ｋ）_t×k ^Tを左から掛ける処理）を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。

検索部４６は、インデックス付きＤＢ４３の中から、低次元射影処理部４５で得られた低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データを検索する構成部である。ここで、低次元の確実性ベクトルと低次元の文書特徴ベクトルとの距離は、各要素の差の二乗和の平方根である。

次に動作について説明する。
ここでは、音声認識処理の詳細について述べる。
図１８は、実施の形態４による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図１８（ａ）がフローチャートを示し、図１８（ｂ）がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する（ステップＳＴ１ｆ）。図１８（ｂ）の例では、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク２１によって取り込まれ、音声取り込み部２２によってデジタル信号に変換される。

次に、音響分析部２３が、音声取り込み部２２でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列（ベクトル列）に変換する（ステップＳＴ２ｆ）。図１８（ｂ）に示す例では、入力音声である「いちばんち」の音響特徴の時系列として、誤認識を含む／Ｉ，ｃｈｉ，ｇｏ，ｂａ，Ｎ，ｃｈｉ／が得られたものとする。

次いで、音響データマッチング部２４Ｂが、音響分析部２３による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部２５に記憶される音声認識辞書とを照合して、音声認識辞書に登録された単語ネットワークの中から、入力音声の音響データと所定値以上の確からしさでマッチするパスを探索する（ステップＳＴ３ｆ）。
図１８（ｂ）の例では、図１９に示す音声認識辞書の単語ネットワークの中から、入力音声の音響データである“／Ｉ，ｃｈｉ，ｇｏ，ｂａ，Ｎ，ｃｈｉ／”に所定値以上の確からしさでマッチするパス（１）→（２）→（３）→（４）が探索結果として特定される。説明を簡単にするために、ここでは、所定値以上の確からしさを持つ認識結果は、１個の単語列だけだったとする。後述する実施の形態５においても同様である。

この後、音響データマッチング部２４Ｂは、探索結果のパスに対応する単語ラティスを音声認識辞書から抽出して、検索装置４０に出力する（ステップＳＴ４ｆ）。図１８（ｂ）では、誤認識を含む単語列“１号番地”が検索装置４０に出力される。

検索装置４０では、住所データにおける低次元の文書特徴ベクトルに従って、住所データ記憶部２７に記憶されている住所データに対してインデックス付けが行われ、その結果がインデックス付きＤＢ４３に格納されている。
音響データマッチング部２４Ｂで得られた単語ラティスを入力すると、検索装置４０内の確実性ベクトル抽出部４４が、入力した単語ラティスからガベジモデルを取り除き、残りの単語ラティスから確実性ベクトルを抽出する。続いて、低次元射影処理部４５が、確実性ベクトル抽出部４４により抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
続いて、検索部４６が、インデックス付きＤＢ４３の中から、低次元射影処理部４５で得られた入力音声の低次元の確実性ベクトルに一致する低次元の文書特徴ベクトルを有する住所データの単語列を検索する（ステップＳＴ５ｆ）。

検索部４６は、インデックス付きＤＢ４３に登録される住所データの単語列の中から、入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データの単語列を特定して、検索結果出力部２８ａへ出力する。これにより、検索結果出力部２８ａは、入力した検索結果の単語列を認識結果として出力する。ここまでの処理が、ステップＳＴ６ｆに相当する。なお、図１８（ｂ）の例では、住所データ２７ａの単語列の中から“１番地”が特定され、認識結果として出力される。

以上のように、この実施の形態４によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部２３と、音声認識対象の語彙である住所データを記憶する住所データ記憶部２７と、住所データ記憶部２７に記憶される語彙から単語を切り出す単語切り出し部３１と、単語切り出し部３１に切り出された単語の出現頻度を計算する出現頻度計算部３２と、出現頻度計算部３２で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部３３と、音響分析部２３により得られた入力音声の音響特徴の時系列と認識辞書作成部３３で作成された音声認識辞書とを照合して、音声認識辞書から前記入力音声として所定値以上の確からしさを持つ単語ラティスを特定する音響データマッチング部２４Ｂと、住所データ記憶部２７に記憶されている語彙をその特徴に対応付けて登録したインデックス付きＤＢ４３を有し、音響データマッチング部２４Ｂに特定された単語ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語をインデックス付きＤＢ４３から検索し音声認識結果として出力する検索装置４０とを備える。
このように構成することで、上記実施の形態１，２と同様な効果に加え、誤った単語の誤挿入や正しい単語の欠落のような音声認識処理で起こりがちな誤認識に対して頑健であり、システムの信頼性を向上させることができる。

なお、上記実施の形態４では、ガベジモデル記憶部３４を設けて、音声認識辞書の単語ネットワークにガベジモデルを追加する構成を示したが、上記実施の形態１と同様に、ガベジモデル記憶部３４を省略し、音声認識辞書の単語ネットワークにガベジモデルを追加しない構成としてもよい。この構成においては、図１９に示す単語ネットワークで“／Ｇａｒｂａｇｅ／”の部分がないネットワークとなる。この場合、発話できる内容は、音声認識辞書にあるもの（すなわち、出現頻度の高い単語）のみという制限があるが、上記実施の形態１と同様に、住所を示す全ての単語について音声認識辞書を作成する必要がない。これにより、音声認識辞書の容量を軽減でき、その結果として認識処理を速くすることができる。

実施の形態５．
図２０は、この発明の実施の形態５による音声認識装置の構成を示すブロック図である。図２０において、図１及び図１５に示す構成部と同一の機能又はこれと同様な機能を発揮する構成部には、同一符号を付して重複する説明を省略する。
実施の形態５による音声認識装置１Ｄは、マイク２１、音声取り込み部２２、音響分析部２３、音響データマッチング部２４Ｃ、音声認識辞書記憶部２５Ｂ、検索装置４０Ａ、住所データ記憶部２７、検索結果出力部２８ａ、及び住所データ音節化部５０を備える。

音声認識辞書記憶部２５Ｂは、入力音声の音響特徴の時系列と照合される音節のネットワークとして表現された音声認識辞書を格納する記憶部である。この音声認識辞書には、全ての音節について認識辞書ネットワークを登録しておき、全ての音節を認識できるように構成する。このような辞書は、音節タイプライタとして既知である。
住所データ音節化部５０は、住所データ記憶部２７に記憶される住所データを、音節系列へ変換する構成部である。

検索装置４０Ａは、インデックス付きデータベースに登録される住所データの中から、音響データマッチング部２４Ｃで得られた認識結果として所定値以上の確からしさを持つ音節ラティスの特徴に一致する又は距離が最も近い特徴を有する住所データを検索して検索結果出力部２８ａへ出力する装置であり、特徴ベクトル抽出部４１ａ、低次元射影処理部４２ａ，４５ａ、インデックス付きＤＢ４３ａ、確実性ベクトル抽出部４４ａ、及び検索部４６ａを備える。検索結果出力部２８ａは、検索装置４０Ａによる検索結果を出力する構成部である。

特徴ベクトル抽出部４１ａは、住所データ音節化部５０で得られた住所データの音節系列から、文書特徴ベクトルを抽出する構成部である。なお、ここでいう文書特徴ベクトルとは、住所データ音節化部５０で得られた住所データにおける音節の出現頻度に応じた重みを要素とする特徴ベクトルである。なお、詳細は、上記実施の形態４と同様である。

低次元射影処理部４２ａは、特徴ベクトル抽出部４１ａにより抽出された文書特徴ベクトルを低次元の文書特徴ベクトルに射影する構成部である。上述した特徴行列Ｗにおいては、一般的により低い特徴次元に射影することができる。

また、低次元射影処理部４２ａは、低次元の文書特徴ベクトルをインデックスとして、住所データ音節化部５０で得られた住所データとその音節系列にインデックス付けを行い、インデックス付きＤＢ４３ａに登録する。

確実性ベクトル抽出部４４ａは、音響データマッチング部２４Ｃで得られた音節ラティスから確実性ベクトルを抽出する構成部である。ここでいう確実性ベクトルとは、発話段階においてその音節が実際に発話された確率を、文書特徴ベクトルと同じ形式で表すベクトルである。音節が発話された確率は、上記実施の形態４と同様に、音響データマッチング部２４Ｃで探索されたパスのスコアである。

低次元射影処理部４５ａは、確実性ベクトル抽出部４４ａにより抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。

検索部４６ａは、インデックス付きＤＢ４３ａから、低次元射影処理部４５で得られた低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データを検索する構成部である。

図２１は、実施の形態５における音声認識辞書の一例を示す図である。音声認識辞書記憶部２５Ｂには、図２１に示すように、音節で構成された音節ネットワークが格納される。このように、実施の形態５では音節のみの音声認識辞書を備えており、住所データに依存した音声認識辞書を作成する必要がない。従って、上記実施の形態１，２のような単語切り出し部３１、出現頻度計算部３２及び認識辞書作成部３３が不要である。

次に動作について説明する。
（１）住所データの音節化
図２２は、実施の形態５による音節化した住所データの作成処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図２２（ａ）がフローチャートを示し、図２２（ｂ）がデータ例を示している。
先ず、住所データ音節化部５０が、住所データ記憶部２７から住所データの読み出しを開始する（ステップＳＴ１ｇ）。図２２（ｂ）に示す例では、住所データ２７ａが、住所データ記憶部２７から読み出され、住所データ音節化部５０に取り込まれる。

次に、住所データ音節化部５０は、住所データ記憶部２７から取り込んだ住所データを全て音節化する（ステップＳＴ２ｇ）。図２２（ｂ）には、音節化の結果５０ａとして、音節化された住所データと元の住所データを示している。例えば、“１番地”という単語列は、“／い／ち／ば／ん／ち／”という音節系列に変換される。

住所データ音節化部５０で音節化された住所データは、検索装置４０Ａへ入力される（ステップＳＴ３ｇ）。検索装置４０Ａでは、低次元射影処理部４２ａが、特徴ベクトル抽出部４１ａで得られた低次元の文書特徴ベクトルに従って、住所データ音節化部５０で得られた住所データとその音節系列にインデックス付けを行い、インデックス付きＤＢ４３ａに登録する。

（２）音声認識処理
図２３は、実施の形態５による音声認識処理の流れを示すフローチャート及び各処理で扱われるデータ例を示す図であり、図２３（ａ）がフローチャートを示し、図２３（ｂ）がデータ例を示している。
先ず、ユーザが、住所を示す音声を発話する（ステップＳＴ１ｈ）。図２３（ｂ）の例では、「いちばんち」と発話されたものとする。ユーザが発話した音声は、マイク２１によって取り込まれ、音声取り込み部２２によってデジタル信号に変換される。

次に、音響分析部２３が、音声取り込み部２２でデジタル信号に変換された音声信号を音響分析し、入力音声の音響特徴の時系列（ベクトル列）に変換する（ステップＳＴ２ｈ）。図２３（ｂ）に示す例では、入力音声である「いちばんち」の音響特徴の時系列として、誤認識を含む／Ｉ，ｃｈｉ，ｉ，ｂａ，Ｎ，ｃｈｉ／が得られたものとする。

次いで、音響データマッチング部２４Ｃが、音響分析部２３による音響分析の結果として得られた入力音声の音響データと、音声認識辞書記憶部２５Ｂに記憶される音節からなる音声認識辞書とを照合して、音声認識辞書に登録された音節ネットワークの中から、入力音声の音響データと所定値以上の確からしさでマッチするパスを探索する（ステップＳＴ３ｈ）。
図２３（ｂ）の例では、図２１に示す音声認識辞書の音節ネットワークの中から、入力音声の音響データである“／Ｉ，ｃｈｉ，ｉ，ｂａ，Ｎ，ｃｈｉ／”に所定値以上の確からしさでマッチするパスが探索結果として特定される。

この後、音響データマッチング部２４Ｃは、探索結果のパスに対応する音節ラティスを音声認識辞書から抽出して検索装置４０Ａに出力する（ステップＳＴ４ｈ）。図２３（ｂ）では、誤認識を含む単語列“／い／ち／い／ば／ん／ち／”が検索装置４０Ａに出力される。

検索装置４０Ａでは、図２２を用いて説明したように、住所データその音素系列がその音素系列の低次元の特徴ベクトルをインデックスとしてインデックス付けが行われ、インデックス付きＤＢ４３ａに格納されている。
音響データマッチング部２４Ｃで得られた入力音声の音節ラティスを入力すると、検索装置４０Ａ内の確実性ベクトル抽出部４４ａが、入力した音節ラティスから確実性ベクトルを抽出する。続いて、低次元射影処理部４５ａが、確実性ベクトル抽出部４４ａにより抽出された確実性ベクトルに対して文書特徴ベクトルに適用したものと同じ射影処理を行って、低次元の文書特徴ベクトルに相当する低次元の確実性ベクトルを得る。
続いて、検索部４６ａが、インデックス付きＤＢ４３ａの中から、低次元射影処理部４５ａで得られた入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データとその音節系列を検索する（ステップＳＴ５ｈ）。

検索部４６ａは、インデックス付きＤＢ４３ａに登録された住所データの中から、入力音声の低次元の確実性ベクトルに一致する又は距離が最も近い低次元の文書特徴ベクトルを有する住所データを特定して検索結果出力部２８ａへ出力する。ここまでの処理が、ステップＳＴ６ｈに相当する。なお、図２３（ｂ）の例では“いちばんち（１番地）”が特定され、認識結果として出力される。

以上のように、この実施の形態５によれば、入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部２３と、音声認識対象の語彙である住所データを記憶する住所データ記憶部２７と、住所データ記憶部２７に記憶される語彙を音節系列に変換する住所データ音節化部５０と、音節からなる音声認識辞書を記憶する音声認識辞書記憶部２５Ｂと、音響分析部２３により得られた入力音声の音響特徴の時系列と音声認識辞書記憶部２５Ｂから読み出した音声認識辞書とを照合して、音声認識辞書から入力音声として所定値以上の確からしさを持つ音節ラティスを特定する音響データマッチング部２４Ｃと、住所データ音節化部５０により変換された住所データの音節系列の低次元の特徴ベクトルをインデックスとして住所データを登録したインデックス付きＤＢ４３ａを有し、音響データマッチング部２４Ｃに特定された音節ラティスの特徴を抽出して、当該特徴に一致する特徴の語（住所データ）をインデックス付きＤＢ４３ａから検索する検索装置４０Ａと、検索装置４０Ａで検索された語彙の音節系列と住所データ記憶部２７に記憶される語彙とを対比して、住所データ記憶部２７に記憶される語彙の中から、検索装置４０Ａで検索された語彙に対応する語彙を音声認識結果として出力する対比出力部５１とを備える。
このように構成することで、上記実施の形態１，２と同様な効果に加え、音声認識を音節単位で処理できることから、住所データに依存した音声認識辞書を予め作成しておく必要がないという利点がある。また、誤った音節の誤挿入あるいは正しい音節の欠落のような音声認識処理で起こりがちな誤認識に対して頑健であり、システムの信頼性を向上させることができる。

また、上記実施の形態５において、音節ネットワークから音声認識辞書を作成する場合を示したが、上記実施の形態２と同様に、認識辞書作成部３３とガベジモデル記憶部３４を設けて、認識辞書作成部３３が、音節単位のネットワークにガベジモデルを追加してもよい。この場合、認識したい単語がガベジとして誤認識される可能性があるが、音声認識辞書の容量の増大を抑制しつつ、未登録の単語についても対応できる利点がある。

さらに、上記実施の形態１から上記実施の形態５までの音声認識装置を備えたナビゲーション装置を構成することで、例えばナビゲーション処理における目的地や出発地の入力を音声認識で行う場合において、音声認識辞書の容量を削減でき、これに伴って認識処理の高速化を図ることができる。

上記実施の形態１〜５において、音声認識の対象が住所である場合を示したが、この発明は、これに限定されるものではない。例えば、ナビゲーション処理における他の設定操作あるいはオーディオ機器における曲設定や再生制御等のように、様々な音声認識場面で認識対象となる語彙に適用することが可能である。

なお、本願発明は、発明の範囲内において実施例同士の自由な組み合わせ、変形あるいは各実施の形態の構成要素の削除が可能である。

１，１Ａ，１Ｂ，１Ｃ，１Ｄ音声認識装置、２音声認識処理部、３，３Ａ音声認識辞書作成部、２１マイク、２２音声取り込み部、２３音響分析部、２４，２４Ａ，２４Ｂ，２４Ｃ音響データマッチング部、２５，２５Ａ，２５Ｂ音声認識辞書記憶部、２６，２６Ａ住所データ照合部、２７住所データ記憶部、２７ａ住所データ、２８，２８ａ検索結果出力部、３１単語切り出し部、３１ａ，３２ａ単語リストデータ、３２出現頻度計算部、３３，３３Ａ認識辞書作成部、３４ガベジモデル記憶部、４０，４０Ａ検索装置、４１，４１ａ特徴ベクトル抽出部、４２，４５，４２ａ，４５ａ低次元射影処理部、４３，４３ａインデックス付きデータベース（インデックス付きＤＢ）、４４，４４ａ確実性ベクトル抽出部、４６，４６ａ検索部、５０住所データ音節化部、５０ａ音節化の結果。

Claims

入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
音声認識対象の語彙を記憶する語彙記憶部と、
数字からなる音声認識辞書を記憶する辞書記憶部と、
前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記辞書記憶部から読み出した前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として最も確からしい単語列を特定する音響データマッチング部と、
前記音響データマッチング部に特定された単語列と前記語彙記憶部が記憶する語彙とを部分一致照合して、前記語彙記憶部が記憶する語彙のうち、前記音響データマッチング部に特定された単語列と部分一致した語を音声認識結果とする部分一致照合部
とを備えた音声認識装置。
ガベジモデルを記憶するガベジモデル記憶部と、
前記数字からなる単語ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成して、前記辞書記憶部に記憶する認識辞書作成部とを備え、
前記部分一致照合部は、前記音響データマッチング部に特定された単語列から前記ガベジモデルを取り除いて前記語彙記憶部が記憶する語彙と部分一致照合し、前記語彙記憶部が記憶する語彙のうち、前記ガベジモデルを取り除いた単語列と部分一致した語を音声認識結果とする
ことを特徴とする請求項１記載の音声認識装置。
入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
音声認識対象の語彙を記憶する語彙記憶部と、
前記語彙記憶部に記憶される語彙から単語を切り出す単語切り出し部と、
前記単語切り出し部に切り出された単語の出現頻度を計算する出現頻度計算部と、
前記出現頻度計算部で計算された出現頻度が所定値以上の単語について音声認識辞書を作成する認識辞書作成部と、
前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記認識辞書作成部で作成された前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として所定値以上の確からしさを持つ単語ラティスを特定する音響データマッチング部と、
前記語彙記憶部に記憶されている語彙をその特徴に対応付けて登録したデータベースを有し、前記音響データマッチング部に特定された単語ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語を前記データベースから検索し音声認識結果として出力する検索装置
とを備えた音声認識装置。
ガベジモデルを記憶するガベジモデル記憶部を備え、
前記認識辞書作成部は、前記出現頻度計算部で計算された出現頻度が所定値以上の単語からなる単語ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した単語ネットワークを音声認識辞書として作成し、
前記検索装置は、前記音響データマッチング部に特定された単語ラティスから前記ガベジモデルを取り除いて特徴を抽出し、前記データベースに登録した語彙のうち、前記ガベジモデルを取り除いた単語ラティスの特徴に一致する又は距離が最も近い特徴を有する語を音声認識結果として出力する
ことを特徴とする請求項３記載の音声認識装置。
入力音声の音声信号を音響分析して音響特徴の時系列に変換する音響分析部と、
音声認識対象の語彙を記憶する語彙記憶部と、
前記語彙記憶部に記憶される語彙を音節系列に変換する音節化部と、
音節からなる音声認識辞書を記憶する辞書記憶部と、
前記音響分析部により得られた前記入力音声の音響特徴の時系列と前記辞書記憶部から読み出した前記音声認識辞書とを照合して、前記音声認識辞書から前記入力音声として所定値以上の確からしさを持つ音節ラティスを特定する音響データマッチング部と、
前記語彙記憶部に記憶されている語彙をその特徴に対応付けて登録したデータベースを有し、前記音響データマッチング部で特定された音節ラティスの特徴を抽出して、当該特徴に一致する又は距離が最も近い特徴を有する語を前記データベースから検索し音声認識結果として出力する検索装置
とを備えた音声認識装置。
ガベジモデルを記憶するガベジモデル記憶部と、
音節ネットワークに対し、前記ガベジモデル記憶部から読み出したガベジモデルを追加した音節ネットワークを音声認識辞書として作成して、前記辞書記憶部に記憶する認識辞書作成部とを備え、
前記検索装置は、前記音響データマッチング部に特定された音節ラティスから前記ガベジモデルを取り除いて特徴を抽出し、前記データベースに登録した語彙のうち、前記ガベジモデルを取り除いた音節ラティスの特徴と一致する又は距離が最も近い特徴を有する語を音声認識結果として出力する
ことを特徴とする請求項５記載の音声認識装置。
請求項１から請求項６のうちのいずれか１項記載の音声認識装置を備えたナビゲーション装置。