JP2009258369A

JP2009258369A - 音声認識辞書生成装置及び音声認識処理装置

Info

Publication number: JP2009258369A
Application number: JP2008106982A
Authority: JP
Inventors: Michihiro Yamazaki; 道弘山崎; Yoshiharu Abe; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-04-16
Filing date: 2008-04-16
Publication date: 2009-11-05

Abstract

【課題】テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができるようにする。
【解決手段】テキスト取得部２２により取得されたテキストを構成している文字の読み方を決定する読み方決定部２３を設け、辞書生成部２４が読み方決定部２３により読み方が決定された文字に対して音節を割り当て、読み方決定部２３により読み方が決定されない文字又は文字列に対して全種類の音節から構成されたガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
【選択図】図１

Description

この発明は、音声認識用語彙辞書を生成する音声認識辞書生成装置と、音声認識辞書生成装置により生成された音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する音声認識処理装置とに関するものである。

電子機器に記憶されているテキストから、ユーザの発声音声を認識する際に参照する音声認識用語彙辞書を生成する音声認識辞書生成装置が開発されている。
例えば、以下の特許文献１に開示されている音声認識辞書生成装置では、テキストデータである電話番号と対応する発信先の読みデータを解析し、その読みデータを音素列情報に変換することにより、音声認識用語彙辞書を生成するようにしている。

また、特許文献２に開示されている音声認識辞書作成システムでは、テキストデータに含まれる第１の言語の文字列及び記号を第２の言語の文字列、スペースなどに変換し、変換された第２の言語のテキストを第２の言語のテキスト音声合成器に入力して、生成された発音データを用いて音声認識辞書を作成するようにしている。

特開２００６−１４２１６号公報特開２００４−５３９７９号公報

従来の音声認識辞書生成装置は以上のように構成されているので、電子機器に記憶されているテキストに読み方を決定することができない文字が含まれている場合、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができないなどの課題があった。

この発明は上記のような課題を解決するためになされたもので、テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができる音声認識辞書生成装置及び音声認識処理装置を得ることを目的とする。

この発明に係る音声認識辞書生成装置は、テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段を設け、辞書生成手段が読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するようにしたものである。

この発明によれば、テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段を設け、辞書生成手段が読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するように構成したので、テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声認識処理装置を示す構成図であり、図において、電子機器１は例えば携帯電話機、携帯音楽プレーヤー、デジタルテレビなどの機器であり、ユーザインタフェースとして音声認識機能を搭載している。
音声認識辞書生成装置２は音声認識用語彙辞書を生成して、その音声認識用語彙辞書を電子機器１に与える装置である。
図１の例では、音声認識辞書生成装置２が電子機器１の外部に設置されて、有線又は無線を介して、電子機器１と接続されているものを示しているが、電子機器１が音声認識辞書生成装置２を内蔵していてもよい。

電子機器１のテキスト記憶部１１は複数の文字から構成されているテキストを記憶しているメモリであり、テキストとしては、例えば、曲名、アーティスト名、電話アドレス帳、電子番組表などの情報が該当する。なお、テキスト記憶部１１はテキスト記憶手段を構成している。
辞書作成起動部１２はテキスト記憶部１１に記憶されているテキストが更新・修正・追加されたことを検知した場合、あるいは、ユーザの操作に伴って音声認識用語彙辞書の生成要求が入力された場合、音声認識用語彙辞書の生成指令を音声認識辞書生成装置２に出力する処理を実施する。

音声認識辞書生成装置２の辞書作成開始部２１は電子機器１から音声認識用語彙辞書の生成指令を受けると、音声認識用語彙辞書の生成を開始するため、テキストの取得指令をテキスト取得部２２に出力する。
テキスト取得部２２は辞書作成開始部２１からテキストの取得指令を受けると、電子機器１のテキスト記憶部１１からテキストを取得する処理を実施する。なお、テキスト取得部２２はテキスト取得手段を構成している。

読み方決定部２３はテキスト取得部２２により取得されたテキストを構成している文字の読み方を決定する処理を実施する。なお、読み方決定部２３は読み方決定手段を構成している。
辞書生成部２４は読み方決定部２３により読み方が決定された文字に対しては音節（または、音素）を割り当てる一方、読み方決定部２３により読み方が決定されない文字又は文字列（読み方決定部２３が読み方を決定することができない文字又は文字列）に対してはガベジモデル（ｇａｒｂａｇｅｍｏｄｅｌ）を割り当てることにより、音声認識用語彙辞書を生成する処理を実施する。なお、辞書生成部２４は辞書生成手段を構成している。
ここで、音声認識用語彙辞書は、ユーザから発声される音声を受理することが可能な音節の列をネットワークで表現したものであり、このネットワークは音節に対応するノードと音節間の遷移に対応するアークから構成されている。
また、ガベジモデルの詳細については後述するが、ガベジモデルは任意の個数のガベジ音節（または、ガベジ音素）からなるサブネットワークである。

一時メモリ２５は辞書生成部２４により生成された音声認識用語彙辞書を一時的に格納するメモリである。
辞書出力部２６は一時メモリ２５に格納された音声認識用語彙辞書を電子機器１に出力する処理を実施する。

電子機器１の音声認識辞書格納部１３は音声認識辞書生成装置２から出力された音声認識用語彙辞書を格納するメモリである。なお、音声認識辞書格納部１３は辞書格納手段を構成している。
外部入出力部１４はユーザから発声された音声を入力するインタフェースである。
音声認識部１５は音声認識辞書格納部１３に格納されている音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する処理を実施する。なお、音声認識部１５は音声認識手段を構成している。

次に動作について説明する。
電子機器１のテキスト記憶部１１には、複数の文字から構成されているテキストが記憶されている。
このテキストは、例えば、曲名、アーティスト名、電話アドレス帳、電子番組表などの情報が該当する。
電子機器１は、テキスト記憶部１１に記憶されているテキストを更新する機能を備えており、当該テキストが更新・修正・追加されることがある。

電子機器１の辞書作成起動部１２は、テキスト記憶部１１に記憶されているテキストが更新・修正・追加されたことを検知した場合、あるいは、ユーザの操作（例えば、図示せぬボタンやキーボードの操作）に伴って音声認識用語彙辞書の生成要求が入力された場合、音声認識用語彙辞書の生成指令を音声認識辞書生成装置２に出力する。
音声認識辞書生成装置２の辞書作成開始部２１は、電子機器１から音声認識用語彙辞書の生成指令を受けると、音声認識用語彙辞書の生成を開始するため、テキストの取得指令をテキスト取得部２２に出力する。

音声認識辞書生成装置２のテキスト取得部２２は、辞書作成開始部２１からテキストの取得指令を受けると、電子機器１のテキスト記憶部１１からテキスト（例えば、更新又は修正されたテキスト、新規に追加されたテキスト）を取得する。
読み方決定部２３は、テキスト取得部２２がテキストを取得すると、そのテキストを構成している文字の読み方を決定する。
この実施の形態１では、文字の読み方は、カタカナで表現されるものとする。
ただし、テキストの中には、特殊な文字（例えば、絵文字、特殊記号）などが含まれている場合があり、通常、特殊な文字は読み方を決定することができない。
読み方決定部２３は、読み方を決定することができない文字については、その読み方を／Ｓ｛１｝／のように表記する。
ここで、／Ｓ｛１｝／における“Ｓ”はシンボルの頭文字であり、｛１｝は読み方を決定することができない文字の数が１文字であることを表している。

図２は「よみ※サンプル」というテキストについて、読み方決定部２３により決定された文字の読み方を示す説明図である。
図２では、テキストに特殊な文字として「※」が含まれており、「※」の文字の読み方が決定されない例を示している。
したがって、図２の例では、「※」以外の文字については、読み方が決定されているが、「※」の文字の読み方が決定されないので、「よみ※サンプル」の読み方として、読み方決定部２３から／ヨ／／ミ／／Ｓ｛１｝／／サ／／ン／／プ／／ル／が出力される。

図２の例では、テキストが記号、片仮名及び平仮名から構成されているものを示したが、漢字と仮名が混在しているテキストであってもよい。
この場合、文字の表記と読み方の対応関係を記述している単語辞書を備え、最小一致法によって、テキストの読み方に変換するようにしてもよい。このとき、読み方に変換できない文字又は文字列が見出されたときは、読み方が決定できない文字又は文字列として、その文字又は文字列の読み方を／Ｓ｛ｎ｝／に変換するようにしてもよい（ｎは読み方が決定できない文字列の文字数である）。

辞書生成部２４は、読み方決定部２３により読み方が決定された文字に対しては音節を割り当てる一方、読み方決定部２３により読み方が決定されない文字又は文字列（読み方決定部２３が読み方を決定することができない文字又は文字列）に対してはガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
この実施の形態１では、音声認識用語彙辞書は音節をノードとして、音節間の可能な遷移をアークとするネットワーク（有向グラフ）として表現されるものとする。

図３は読み方／ヨ／／ミ／／Ｓ｛１｝／／サ／／ン／／プ／／ル／から生成されるネットワークを模式的に示す説明図である。
図３のネットワークに含まれているノードの中で、「＊｛＊｝」と表記されているノードは、ガベジモデルとして、任意の個数のガベジ音節からなるサブネットワークが代入されていることを示している。
ガベジ音節は、１個の任意の音節が受理可能なサブネットワークで表され、音声認識部１５において、音声認識用語彙辞書として用いられると、入力音声中の１個の任意の音節と照合することが可能となる。

図４はこの実施の形態１におけるガベジモデルの構造を示す説明図である。
図４の例では、破線の内側に１個のガベジ音節があり、その外側のアークによって、ループが可能であるように構成されている。ループさせることにより、任意の個数の音節を連続して受理可能なサブネットワークが構築される。
ガベジ音節は、図４に示すように、すべての音節に対応する音節ノードを並列に並べることで構成することができる。

上記のようにして、辞書生成部２４により生成された音声認識用語彙辞書は、一時メモリ２５に一時的に格納されたのち、辞書出力部２６が一時メモリ２５に格納された音声認識用語彙辞書を電子機器１に出力する。
これにより、電子機器１の音声認識辞書格納部１３には、音声認識辞書生成装置２から出力された音声認識用語彙辞書が格納される。

音声認識用語彙辞書が電子機器１の音声認識辞書格納部１３に格納されたのち、ユーザが電子機器１の外部入出力部１４に向けて声を発すると、外部入出力部１４がユーザの音声を入力して、その音声を音声認識部１５に出力する。
電子機器１の音声認識部１５は、外部入出力部１４からユーザの音声を受けると、音声認識辞書格納部１３に格納されている音声認識用語彙辞書を参照して、ユーザの音声を認識する。
即ち、音声認識部１５は、音声認識用語彙辞書内のネットワークにおいて、受理可能な音節列の中で、ユーザの音声と最も良く照合する音節列をスコア付けしながら探索し、最も良く照合する音節列を音声認識結果として出力する。
なお、電子機器１は、音声認識部１５の音声認識結果を受けて、例えば、電話帳の表示確認や、音楽の曲名の表示確認などの処理を実施する。

以上で明らかなように、この実施の形態１によれば、テキスト取得部２２により取得されたテキストを構成している文字の読み方を決定する読み方決定部２３を設け、辞書生成部２４が読み方決定部２３により読み方が決定された文字に対して音節を割り当て、読み方決定部２３により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するように構成したので、テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができる効果を奏する。

実施の形態２．
上記実施の形態１では、読み方決定部２３により読み方が決定されない文字又は文字列（読み方決定部２３が読み方を決定することができない文字又は文字列）に対しては、辞書生成部２４が任意な数の音節を受理可能なガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するものについて示したが、読み方決定部２３が読み方を決定することができない文字又は文字列に対しては、辞書生成部２４がその文字又は文字列の字種に応じて受理可能な音節の数が制限されているガベジモデルを割り当てるようにしてもよい。
具体的には、以下の通りである。

図５は「よみＧＡＲＢＡＧＥサンプル」というテキストについて、読み方決定部２３により決定された文字の読み方を示す説明図である。
図５では、「よ」、「み」、「サ」、「ン」、「プ」、「ル」という文字については読み方が決定され、これらの文字の読み方として、／ヨ／／ミ／／サ／／ン／／プ／／ル／が読み方決定部２３から出力されるものとする。
ただし、「Ｇ」、「Ａ」、「Ｒ」、「Ｂ」、「Ａ」、「Ｇ」、「Ｅ」という文字については読み方が決定されないものとする。

読み方決定部２３は、テキストの中に読み方を決定することができない文字が含まれている場合、その文字の文字種を判定する。
文字種の判定方法としては、いかなる方法を用いてもよいが、例えば、読み方を決定できない文字の文字コードと文字コード表を照らし合わせれば、当該文字の文字種を判別することができる。
本実施の形態の読み方決定部２３は、２バイト文字を対象としており、文字種ごとに設定されている第１バイト及び第２バイトからなるコード範囲に基づいて文字種を判定する。図５の例では、「Ｇ」、「Ａ」、「Ｒ」、「Ｂ」、「Ａ」、「Ｇ」、「Ｅ」の文字は英文字であると判定される。
なお、文字種としては、英文字のほかに、数字、記号、特殊文字、ギリシャ文字、キリル言語、ローマ数字、数学記号、外字（絵文字）などを用いることができる。

読み方決定部２３は、「Ｇ」、「Ａ」、「Ｒ」、「Ｂ」、「Ａ」、「Ｇ」、「Ｅ」の文字が英文字であると判定すると、これらの文字の読み方を／Ｅ｛７｝／のように表記する。
ここで、／Ｅ｛７｝／における“Ｅ”は文字種が英文字であることを示し、｛７｝は読み方を決定することができない文字の数が７文字であることを表している。

辞書生成部２４は、読み方決定部２３から読み方を受けると、上記実施の形態１と同様に、読み方決定部２３により読み方が決定された文字に対しては音節を割り当てる一方、読み方決定部２３により読み方が決定されない文字又は文字列（読み方決定部２３が読み方を決定することができない文字又は文字列）に対してはガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
ただし、読み方決定部２３が読み方を決定することができない文字又は文字列に対しては、その文字又は文字列の字種に応じて受理可能な音節の数が制限されているガベジモデルを割り当てるようにする。

図６は読み方／ヨ／／ミ／／Ｅ｛７｝／／サ／／ン／／プ／／ル／から生成されるネットワークを模式的に示す説明図である。
図６のネットワークに含まれるノードの中で「＊｛１，７｝」と表記されているノードは、最小１音節から最大７音節まで、ガベジ音節が連続するサブネットワークが代入されていることを示している。
このようにガベジモデルとして、受理可能な音節数を最小１から最大７に限定している理由は、英文字が連続している場合、英単語として発音される可能性が高いので、音声認識処理で受理される音節数を最大でも英文字の文字数以下に制限してもよいことに基づくものである。

図７はこの実施の形態２におけるガベジモデルの構造を示す説明図である。
図７に示すガベジモデルは、図４で示すガベジ音節を連続して接続したサブネットワークであり、図６のネットワークに含まれるノードの中で「＊｛１，７｝」と表記されているノードに代入される。各ガベジ音節から伸びるアークは、ネットワーク中のガベジモデルが代入されたノードに続くノードに接続され、最小１から最大７の音節を受理できる。

以上で明らかなように、この実施の形態２によれば、読み方決定部２３が読み方を決定することができない文字又は文字列に対しては、辞書生成部２４が受理可能な音節の数が制限されているガベジモデルを割り当てるように構成したので、音声認識部１５における音声認識精度を更に高めることができる効果を奏する。

実施の形態３．
上記実施の形態２では、読み方決定部２３が読み方を決定することができない文字又は文字列に対しては、辞書生成部２４が受理可能な音節の数が制限されているガベジモデルを割り当てるものについて示したが、読み方決定部２３が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部２４が、受理可能な最小の音節数が上記文字列に含まれている母音のアルファベットの数で制限されているガベジモデルを割り当てるようにしてもよい。
具体的には、以下の通りである。

図８は「よみＧＡＲＢＡＧＥサンプル」というテキストについて、読み方決定部２３により決定された文字の読み方を示す説明図である。
図８では、「よ」、「み」、「サ」、「ン」、「プ」、「ル」という文字については読み方が決定され、これらの文字の読み方として、／ヨ／／ミ／／サ／／ン／／プ／／ル／が読み方決定部２３から出力されるものとする。
ただし、「Ｇ」、「Ａ」、「Ｒ」、「Ｂ」、「Ａ」、「Ｇ」、「Ｅ」という文字については読み方が決定されないものとする。

読み方決定部２３は、テキストの中に読み方を決定することができない文字が含まれている場合、上記実施の形態２と同様に、その文字の文字種を判定する。
図８の例では、「Ｇ」、「Ａ」、「Ｒ」、「Ｂ」、「Ａ」、「Ｇ」、「Ｅ」の文字は英文字であると判定される。

読み方決定部２３は、「Ｇ」、「Ａ」、「Ｒ」、「Ｂ」、「Ａ」、「Ｇ」、「Ｅ」の文字が英文字であると判定すると、読み方を決定することができないアルファベット文字列に含まれている母音文字の数を調べる。母音文字としては、英文字の場合、「Ａ」、「Ｉ」、「Ｕ」、「Ｅ」、「Ｏ」の文字が該当する。
読み方決定部２３は、読み方を決定することができないアルファベット文字列が「ＧＡＲＢＡＧＥ」である場合、含まれている母音文字の数が“３”であるため、この文字列の読み方を／Ｅ｛３，７｝／のように表記する。
ここで、／Ｅ｛３，７｝／における“Ｅ”は文字種が英文字であることを示し、｛３，７｝は読み方を決定することができない文字列に含まれている母音文字の数が３であり、この文字列に含まれている文字の数が７文字であることを表している。

辞書生成部２４は、読み方決定部２３から読み方を受けると、上記実施の形態１と同様に、読み方決定部２３により読み方が決定された文字に対しては音節を割り当てる一方、読み方決定部２３により読み方が決定されない文字又は文字列（読み方決定部２３が読み方を決定することができない文字又は文字列）に対してはガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
ただし、読み方決定部２３が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部２４が、受理可能な最小の音節数が上記文字列に含まれている母音文字の数で制限されているガベジモデルを割り当てるようにする。

図９は読み方／ヨ／／ミ／／Ｅ｛３，７｝／／サ／／ン／／プ／／ル／から生成されるネットワークを模式的に示す説明図である。
図９のネットワークに含まれるノードの中で「＊｛３，７｝」と表記されているノードは、最小３音節から最大７音節まで、ガベジ音節が連続するサブネットワークが代入されていることを示している。
このようにガベジモデルとして、受理可能な音節数を最小３から最大７に限定している理由は、英文字が連続している場合、英単語として発音される可能性が高いので、音声認識処理で受理される音節数が最小でも母音文字数と同じであり、最大でも英文字の文字数以下に制限してもよいことに基づくものである。

図１０はこの実施の形態３におけるガベジモデルの構造を示す説明図である。
図１０に示すガベジモデルは、図４で示すガベジ音節を連続して接続したサブネットワークであり、図９のネットワークに含まれる「＊｛３，７｝」と表記されているノードに代入される。左２個のガベジ音節を除く各ガベジ音節から伸びるアークは、ネットワーク中のガベジモデルが代入されたノードに続くノードに接続され、最小３から最大７の音節を受理できる。

以上で明らかなように、この実施の形態３によれば、読み方決定部２３が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部２４が、受理可能な最小の音節数が上記文字列に含まれている母音文字の数で制限されているガベジモデルを割り当てるように構成したので、音声認識部１５における音声認識精度を更に高めることができる効果を奏する。

なお、上記実施の形態１〜３では、音節を音声認識の単位とする音声認識用語彙辞書を用いるものについて示したが、音声認識用語彙辞書の単位として、音節の代りに、音素を用いるようにしてもよい。
また、複数のテキストについて、読み方を特定することができない文字又は文字列をガベジモデルで置き換えてネットワークを生成した結果、読み方が決定された文字列に対応した音節列が同一、かつ、ガベジモデルが受理可能な音節列数が同一のネットワークが生成されるときは、読み方が決定された文字列に対応した音節列を一つにまとめ、複数のテキストを一つにまとめ、ネットワークを一つで代表するように音声認識用語彙辞書を構成してもよい。
また、単語内で読み方を決定することができない文字が多く、読み方を決定することができる文字が少ない場合には、その旨を電子機器１側に通知して、読み方を外部から取得するようにしてもよい。また、このような辞書項目は音声認識用語彙辞書に登録しないようにしてもよい。

この発明の実施の形態１による音声認識処理装置を示す構成図である。「よみ※サンプル」というテキストについて、読み方決定部２３により決定された文字の読み方を示す説明図である。読み方／ヨ／／ミ／／Ｓ｛１｝／／サ／／ン／／プ／／ル／から生成されるネットワークを模式的に示す説明図である。この実施の形態１におけるガベジモデルの構造を示す説明図である。「よみＧＡＲＢＡＧＥサンプル」というテキストについて、読み方決定部２３により決定された文字の読み方を示す説明図である。読み方／ヨ／／ミ／／Ｅ｛７｝／／サ／／ン／／プ／／ル／から生成されるネットワークを模式的に示す説明図である。この実施の形態２におけるガベジモデルの構造を示す説明図である。「よみＧＡＲＢＡＧＥサンプル」というテキストについて、読み方決定部２３により決定された文字の読み方を示す説明図である。読み方／ヨ／／ミ／／Ｅ｛３，７｝／／サ／／ン／／プ／／ル／から生成されるネットワークを模式的に示す説明図である。この実施の形態３におけるガベジモデルの構造を示す説明図である。

符号の説明

１電子機器、２音声認識辞書生成装置、１１テキスト記憶部（テキスト記憶手段）、１２辞書作成起動部、１３音声認識辞書格納部（辞書格納手段）、１４外部入出力部、１５音声認識部（音声認識手段）、２１辞書作成開始部、２２テキスト取得部（テキスト取得手段）、２３読み方決定部（読み方決定手段）、２４辞書生成部（辞書生成手段）、２５一時メモリ、２６辞書出力部。

Claims

複数の文字から構成されているテキストを取得するテキスト取得手段と、
上記テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段と、
上記読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、上記読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する辞書生成手段とを備えた音声認識辞書生成装置。
辞書生成手段は、読み方決定手段により読み方が決定されない文字又は文字列に対して、文字種を判定すると共に、受理可能な音節又は音素の数が上記文字種に応じて制限されているガベジモデルを割り当てることを特徴とする請求項１記載の音声認識辞書生成装置。
辞書生成手段は、読み方決定手段により読み方が決定されない文字列の文字種がアルファベット文字列である場合、受理可能な最小の音節数が上記文字列に含まれている母音のアルファベットの数で制限されているガベジモデルを割り当てることを特徴とする請求項２記載の音声認識辞書生成装置。
複数の文字から構成されているテキストを記憶しているテキスト記憶手段と、
上記テキスト記憶手段に記憶されているテキストから音声認識用語彙辞書を生成する音声認識辞書生成装置と、
上記音声認識辞書生成装置により生成された音声認識用語彙辞書を格納する辞書格納手段と、
上記辞書格納手段に格納されている音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する音声認識手段とを備えた音声認識処理装置において、
上記テキスト記憶手段からテキストを取得するテキスト取得手段と、
上記テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段と、
上記読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、上記読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する辞書生成手段とを備えることを特徴とする音声認識処理装置。