JP2009258369A - 音声認識辞書生成装置及び音声認識処理装置 - Google Patents
音声認識辞書生成装置及び音声認識処理装置 Download PDFInfo
- Publication number
- JP2009258369A JP2009258369A JP2008106982A JP2008106982A JP2009258369A JP 2009258369 A JP2009258369 A JP 2009258369A JP 2008106982 A JP2008106982 A JP 2008106982A JP 2008106982 A JP2008106982 A JP 2008106982A JP 2009258369 A JP2009258369 A JP 2009258369A
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- reading
- text
- dictionary
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができるようにする。
【解決手段】テキスト取得部22により取得されたテキストを構成している文字の読み方を決定する読み方決定部23を設け、辞書生成部24が読み方決定部23により読み方が決定された文字に対して音節を割り当て、読み方決定部23により読み方が決定されない文字又は文字列に対して全種類の音節から構成されたガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
【選択図】図1
【解決手段】テキスト取得部22により取得されたテキストを構成している文字の読み方を決定する読み方決定部23を設け、辞書生成部24が読み方決定部23により読み方が決定された文字に対して音節を割り当て、読み方決定部23により読み方が決定されない文字又は文字列に対して全種類の音節から構成されたガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
【選択図】図1
Description
この発明は、音声認識用語彙辞書を生成する音声認識辞書生成装置と、音声認識辞書生成装置により生成された音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する音声認識処理装置とに関するものである。
電子機器に記憶されているテキストから、ユーザの発声音声を認識する際に参照する音声認識用語彙辞書を生成する音声認識辞書生成装置が開発されている。
例えば、以下の特許文献1に開示されている音声認識辞書生成装置では、テキストデータである電話番号と対応する発信先の読みデータを解析し、その読みデータを音素列情報に変換することにより、音声認識用語彙辞書を生成するようにしている。
例えば、以下の特許文献1に開示されている音声認識辞書生成装置では、テキストデータである電話番号と対応する発信先の読みデータを解析し、その読みデータを音素列情報に変換することにより、音声認識用語彙辞書を生成するようにしている。
また、特許文献2に開示されている音声認識辞書作成システムでは、テキストデータに含まれる第1の言語の文字列及び記号を第2の言語の文字列、スペースなどに変換し、変換された第2の言語のテキストを第2の言語のテキスト音声合成器に入力して、生成された発音データを用いて音声認識辞書を作成するようにしている。
従来の音声認識辞書生成装置は以上のように構成されているので、電子機器に記憶されているテキストに読み方を決定することができない文字が含まれている場合、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができないなどの課題があった。
この発明は上記のような課題を解決するためになされたもので、テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができる音声認識辞書生成装置及び音声認識処理装置を得ることを目的とする。
この発明に係る音声認識辞書生成装置は、テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段を設け、辞書生成手段が読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するようにしたものである。
この発明によれば、テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段を設け、辞書生成手段が読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するように構成したので、テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声認識処理装置を示す構成図であり、図において、電子機器1は例えば携帯電話機、携帯音楽プレーヤー、デジタルテレビなどの機器であり、ユーザインタフェースとして音声認識機能を搭載している。
音声認識辞書生成装置2は音声認識用語彙辞書を生成して、その音声認識用語彙辞書を電子機器1に与える装置である。
図1の例では、音声認識辞書生成装置2が電子機器1の外部に設置されて、有線又は無線を介して、電子機器1と接続されているものを示しているが、電子機器1が音声認識辞書生成装置2を内蔵していてもよい。
図1はこの発明の実施の形態1による音声認識処理装置を示す構成図であり、図において、電子機器1は例えば携帯電話機、携帯音楽プレーヤー、デジタルテレビなどの機器であり、ユーザインタフェースとして音声認識機能を搭載している。
音声認識辞書生成装置2は音声認識用語彙辞書を生成して、その音声認識用語彙辞書を電子機器1に与える装置である。
図1の例では、音声認識辞書生成装置2が電子機器1の外部に設置されて、有線又は無線を介して、電子機器1と接続されているものを示しているが、電子機器1が音声認識辞書生成装置2を内蔵していてもよい。
電子機器1のテキスト記憶部11は複数の文字から構成されているテキストを記憶しているメモリであり、テキストとしては、例えば、曲名、アーティスト名、電話アドレス帳、電子番組表などの情報が該当する。なお、テキスト記憶部11はテキスト記憶手段を構成している。
辞書作成起動部12はテキスト記憶部11に記憶されているテキストが更新・修正・追加されたことを検知した場合、あるいは、ユーザの操作に伴って音声認識用語彙辞書の生成要求が入力された場合、音声認識用語彙辞書の生成指令を音声認識辞書生成装置2に出力する処理を実施する。
辞書作成起動部12はテキスト記憶部11に記憶されているテキストが更新・修正・追加されたことを検知した場合、あるいは、ユーザの操作に伴って音声認識用語彙辞書の生成要求が入力された場合、音声認識用語彙辞書の生成指令を音声認識辞書生成装置2に出力する処理を実施する。
音声認識辞書生成装置2の辞書作成開始部21は電子機器1から音声認識用語彙辞書の生成指令を受けると、音声認識用語彙辞書の生成を開始するため、テキストの取得指令をテキスト取得部22に出力する。
テキスト取得部22は辞書作成開始部21からテキストの取得指令を受けると、電子機器1のテキスト記憶部11からテキストを取得する処理を実施する。なお、テキスト取得部22はテキスト取得手段を構成している。
テキスト取得部22は辞書作成開始部21からテキストの取得指令を受けると、電子機器1のテキスト記憶部11からテキストを取得する処理を実施する。なお、テキスト取得部22はテキスト取得手段を構成している。
読み方決定部23はテキスト取得部22により取得されたテキストを構成している文字の読み方を決定する処理を実施する。なお、読み方決定部23は読み方決定手段を構成している。
辞書生成部24は読み方決定部23により読み方が決定された文字に対しては音節(または、音素)を割り当てる一方、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対してはガベジモデル(garbage model)を割り当てることにより、音声認識用語彙辞書を生成する処理を実施する。なお、辞書生成部24は辞書生成手段を構成している。
ここで、音声認識用語彙辞書は、ユーザから発声される音声を受理することが可能な音節の列をネットワークで表現したものであり、このネットワークは音節に対応するノードと音節間の遷移に対応するアークから構成されている。
また、ガベジモデルの詳細については後述するが、ガベジモデルは任意の個数のガベジ音節(または、ガベジ音素)からなるサブネットワークである。
辞書生成部24は読み方決定部23により読み方が決定された文字に対しては音節(または、音素)を割り当てる一方、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対してはガベジモデル(garbage model)を割り当てることにより、音声認識用語彙辞書を生成する処理を実施する。なお、辞書生成部24は辞書生成手段を構成している。
ここで、音声認識用語彙辞書は、ユーザから発声される音声を受理することが可能な音節の列をネットワークで表現したものであり、このネットワークは音節に対応するノードと音節間の遷移に対応するアークから構成されている。
また、ガベジモデルの詳細については後述するが、ガベジモデルは任意の個数のガベジ音節(または、ガベジ音素)からなるサブネットワークである。
一時メモリ25は辞書生成部24により生成された音声認識用語彙辞書を一時的に格納するメモリである。
辞書出力部26は一時メモリ25に格納された音声認識用語彙辞書を電子機器1に出力する処理を実施する。
辞書出力部26は一時メモリ25に格納された音声認識用語彙辞書を電子機器1に出力する処理を実施する。
電子機器1の音声認識辞書格納部13は音声認識辞書生成装置2から出力された音声認識用語彙辞書を格納するメモリである。なお、音声認識辞書格納部13は辞書格納手段を構成している。
外部入出力部14はユーザから発声された音声を入力するインタフェースである。
音声認識部15は音声認識辞書格納部13に格納されている音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する処理を実施する。なお、音声認識部15は音声認識手段を構成している。
外部入出力部14はユーザから発声された音声を入力するインタフェースである。
音声認識部15は音声認識辞書格納部13に格納されている音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する処理を実施する。なお、音声認識部15は音声認識手段を構成している。
次に動作について説明する。
電子機器1のテキスト記憶部11には、複数の文字から構成されているテキストが記憶されている。
このテキストは、例えば、曲名、アーティスト名、電話アドレス帳、電子番組表などの情報が該当する。
電子機器1は、テキスト記憶部11に記憶されているテキストを更新する機能を備えており、当該テキストが更新・修正・追加されることがある。
電子機器1のテキスト記憶部11には、複数の文字から構成されているテキストが記憶されている。
このテキストは、例えば、曲名、アーティスト名、電話アドレス帳、電子番組表などの情報が該当する。
電子機器1は、テキスト記憶部11に記憶されているテキストを更新する機能を備えており、当該テキストが更新・修正・追加されることがある。
電子機器1の辞書作成起動部12は、テキスト記憶部11に記憶されているテキストが更新・修正・追加されたことを検知した場合、あるいは、ユーザの操作(例えば、図示せぬボタンやキーボードの操作)に伴って音声認識用語彙辞書の生成要求が入力された場合、音声認識用語彙辞書の生成指令を音声認識辞書生成装置2に出力する。
音声認識辞書生成装置2の辞書作成開始部21は、電子機器1から音声認識用語彙辞書の生成指令を受けると、音声認識用語彙辞書の生成を開始するため、テキストの取得指令をテキスト取得部22に出力する。
音声認識辞書生成装置2の辞書作成開始部21は、電子機器1から音声認識用語彙辞書の生成指令を受けると、音声認識用語彙辞書の生成を開始するため、テキストの取得指令をテキスト取得部22に出力する。
音声認識辞書生成装置2のテキスト取得部22は、辞書作成開始部21からテキストの取得指令を受けると、電子機器1のテキスト記憶部11からテキスト(例えば、更新又は修正されたテキスト、新規に追加されたテキスト)を取得する。
読み方決定部23は、テキスト取得部22がテキストを取得すると、そのテキストを構成している文字の読み方を決定する。
この実施の形態1では、文字の読み方は、カタカナで表現されるものとする。
ただし、テキストの中には、特殊な文字(例えば、絵文字、特殊記号)などが含まれている場合があり、通常、特殊な文字は読み方を決定することができない。
読み方決定部23は、読み方を決定することができない文字については、その読み方を/S{1}/のように表記する。
ここで、/S{1}/における“S”はシンボルの頭文字であり、{1}は読み方を決定することができない文字の数が1文字であることを表している。
読み方決定部23は、テキスト取得部22がテキストを取得すると、そのテキストを構成している文字の読み方を決定する。
この実施の形態1では、文字の読み方は、カタカナで表現されるものとする。
ただし、テキストの中には、特殊な文字(例えば、絵文字、特殊記号)などが含まれている場合があり、通常、特殊な文字は読み方を決定することができない。
読み方決定部23は、読み方を決定することができない文字については、その読み方を/S{1}/のように表記する。
ここで、/S{1}/における“S”はシンボルの頭文字であり、{1}は読み方を決定することができない文字の数が1文字であることを表している。
図2は「よみ※サンプル」というテキストについて、読み方決定部23により決定された文字の読み方を示す説明図である。
図2では、テキストに特殊な文字として「※」が含まれており、「※」の文字の読み方が決定されない例を示している。
したがって、図2の例では、「※」以外の文字については、読み方が決定されているが、「※」の文字の読み方が決定されないので、「よみ※サンプル」の読み方として、読み方決定部23から/ヨ/ /ミ/ /S{1}/ /サ/ /ン/ /プ/ /ル/が出力される。
図2では、テキストに特殊な文字として「※」が含まれており、「※」の文字の読み方が決定されない例を示している。
したがって、図2の例では、「※」以外の文字については、読み方が決定されているが、「※」の文字の読み方が決定されないので、「よみ※サンプル」の読み方として、読み方決定部23から/ヨ/ /ミ/ /S{1}/ /サ/ /ン/ /プ/ /ル/が出力される。
図2の例では、テキストが記号、片仮名及び平仮名から構成されているものを示したが、漢字と仮名が混在しているテキストであってもよい。
この場合、文字の表記と読み方の対応関係を記述している単語辞書を備え、最小一致法によって、テキストの読み方に変換するようにしてもよい。このとき、読み方に変換できない文字又は文字列が見出されたときは、読み方が決定できない文字又は文字列として、その文字又は文字列の読み方を/S{n}/に変換するようにしてもよい(nは読み方が決定できない文字列の文字数である)。
この場合、文字の表記と読み方の対応関係を記述している単語辞書を備え、最小一致法によって、テキストの読み方に変換するようにしてもよい。このとき、読み方に変換できない文字又は文字列が見出されたときは、読み方が決定できない文字又は文字列として、その文字又は文字列の読み方を/S{n}/に変換するようにしてもよい(nは読み方が決定できない文字列の文字数である)。
辞書生成部24は、読み方決定部23により読み方が決定された文字に対しては音節を割り当てる一方、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対してはガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
この実施の形態1では、音声認識用語彙辞書は音節をノードとして、音節間の可能な遷移をアークとするネットワーク(有向グラフ)として表現されるものとする。
この実施の形態1では、音声認識用語彙辞書は音節をノードとして、音節間の可能な遷移をアークとするネットワーク(有向グラフ)として表現されるものとする。
図3は読み方/ヨ/ /ミ/ /S{1}/ /サ/ /ン/ /プ/ /ル/から生成されるネットワークを模式的に示す説明図である。
図3のネットワークに含まれているノードの中で、「*{*}」と表記されているノードは、ガベジモデルとして、任意の個数のガベジ音節からなるサブネットワークが代入されていることを示している。
ガベジ音節は、1個の任意の音節が受理可能なサブネットワークで表され、音声認識部15において、音声認識用語彙辞書として用いられると、入力音声中の1個の任意の音節と照合することが可能となる。
図3のネットワークに含まれているノードの中で、「*{*}」と表記されているノードは、ガベジモデルとして、任意の個数のガベジ音節からなるサブネットワークが代入されていることを示している。
ガベジ音節は、1個の任意の音節が受理可能なサブネットワークで表され、音声認識部15において、音声認識用語彙辞書として用いられると、入力音声中の1個の任意の音節と照合することが可能となる。
図4はこの実施の形態1におけるガベジモデルの構造を示す説明図である。
図4の例では、破線の内側に1個のガベジ音節があり、その外側のアークによって、ループが可能であるように構成されている。ループさせることにより、任意の個数の音節を連続して受理可能なサブネットワークが構築される。
ガベジ音節は、図4に示すように、すべての音節に対応する音節ノードを並列に並べることで構成することができる。
図4の例では、破線の内側に1個のガベジ音節があり、その外側のアークによって、ループが可能であるように構成されている。ループさせることにより、任意の個数の音節を連続して受理可能なサブネットワークが構築される。
ガベジ音節は、図4に示すように、すべての音節に対応する音節ノードを並列に並べることで構成することができる。
上記のようにして、辞書生成部24により生成された音声認識用語彙辞書は、一時メモリ25に一時的に格納されたのち、辞書出力部26が一時メモリ25に格納された音声認識用語彙辞書を電子機器1に出力する。
これにより、電子機器1の音声認識辞書格納部13には、音声認識辞書生成装置2から出力された音声認識用語彙辞書が格納される。
これにより、電子機器1の音声認識辞書格納部13には、音声認識辞書生成装置2から出力された音声認識用語彙辞書が格納される。
音声認識用語彙辞書が電子機器1の音声認識辞書格納部13に格納されたのち、ユーザが電子機器1の外部入出力部14に向けて声を発すると、外部入出力部14がユーザの音声を入力して、その音声を音声認識部15に出力する。
電子機器1の音声認識部15は、外部入出力部14からユーザの音声を受けると、音声認識辞書格納部13に格納されている音声認識用語彙辞書を参照して、ユーザの音声を認識する。
即ち、音声認識部15は、音声認識用語彙辞書内のネットワークにおいて、受理可能な音節列の中で、ユーザの音声と最も良く照合する音節列をスコア付けしながら探索し、最も良く照合する音節列を音声認識結果として出力する。
なお、電子機器1は、音声認識部15の音声認識結果を受けて、例えば、電話帳の表示確認や、音楽の曲名の表示確認などの処理を実施する。
電子機器1の音声認識部15は、外部入出力部14からユーザの音声を受けると、音声認識辞書格納部13に格納されている音声認識用語彙辞書を参照して、ユーザの音声を認識する。
即ち、音声認識部15は、音声認識用語彙辞書内のネットワークにおいて、受理可能な音節列の中で、ユーザの音声と最も良く照合する音節列をスコア付けしながら探索し、最も良く照合する音節列を音声認識結果として出力する。
なお、電子機器1は、音声認識部15の音声認識結果を受けて、例えば、電話帳の表示確認や、音楽の曲名の表示確認などの処理を実施する。
以上で明らかなように、この実施の形態1によれば、テキスト取得部22により取得されたテキストを構成している文字の読み方を決定する読み方決定部23を設け、辞書生成部24が読み方決定部23により読み方が決定された文字に対して音節を割り当て、読み方決定部23により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するように構成したので、テキストに読み方を決定することができない文字が含まれている場合でも、ユーザの発声音声を正確に認識することが可能な音声認識用語彙辞書を生成することができる効果を奏する。
実施の形態2.
上記実施の形態1では、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対しては、辞書生成部24が任意な数の音節を受理可能なガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するものについて示したが、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、辞書生成部24がその文字又は文字列の字種に応じて受理可能な音節の数が制限されているガベジモデルを割り当てるようにしてもよい。
具体的には、以下の通りである。
上記実施の形態1では、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対しては、辞書生成部24が任意な数の音節を受理可能なガベジモデルを割り当てることにより、音声認識用語彙辞書を生成するものについて示したが、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、辞書生成部24がその文字又は文字列の字種に応じて受理可能な音節の数が制限されているガベジモデルを割り当てるようにしてもよい。
具体的には、以下の通りである。
図5は「よみGARBAGEサンプル」というテキストについて、読み方決定部23により決定された文字の読み方を示す説明図である。
図5では、「よ」、「み」、「サ」、「ン」、「プ」、「ル」という文字については読み方が決定され、これらの文字の読み方として、/ヨ/ /ミ/ /サ/ /ン/ /プ/ /ル/が読み方決定部23から出力されるものとする。
ただし、「G」、「A」、「R」、「B」、「A」、「G」、「E」という文字については読み方が決定されないものとする。
図5では、「よ」、「み」、「サ」、「ン」、「プ」、「ル」という文字については読み方が決定され、これらの文字の読み方として、/ヨ/ /ミ/ /サ/ /ン/ /プ/ /ル/が読み方決定部23から出力されるものとする。
ただし、「G」、「A」、「R」、「B」、「A」、「G」、「E」という文字については読み方が決定されないものとする。
読み方決定部23は、テキストの中に読み方を決定することができない文字が含まれている場合、その文字の文字種を判定する。
文字種の判定方法としては、いかなる方法を用いてもよいが、例えば、読み方を決定できない文字の文字コードと文字コード表を照らし合わせれば、当該文字の文字種を判別することができる。
本実施の形態の読み方決定部23は、2バイト文字を対象としており、文字種ごとに設定されている第1バイト及び第2バイトからなるコード範囲に基づいて文字種を判定する。図5の例では、「G」、「A」、「R」、「B」、「A」、「G」、「E」の文字は英文字であると判定される。
なお、文字種としては、英文字のほかに、数字、記号、特殊文字、ギリシャ文字、キリル言語、ローマ数字、数学記号、外字(絵文字)などを用いることができる。
文字種の判定方法としては、いかなる方法を用いてもよいが、例えば、読み方を決定できない文字の文字コードと文字コード表を照らし合わせれば、当該文字の文字種を判別することができる。
本実施の形態の読み方決定部23は、2バイト文字を対象としており、文字種ごとに設定されている第1バイト及び第2バイトからなるコード範囲に基づいて文字種を判定する。図5の例では、「G」、「A」、「R」、「B」、「A」、「G」、「E」の文字は英文字であると判定される。
なお、文字種としては、英文字のほかに、数字、記号、特殊文字、ギリシャ文字、キリル言語、ローマ数字、数学記号、外字(絵文字)などを用いることができる。
読み方決定部23は、「G」、「A」、「R」、「B」、「A」、「G」、「E」の文字が英文字であると判定すると、これらの文字の読み方を/E{7}/のように表記する。
ここで、/E{7}/における“E”は文字種が英文字であることを示し、{7}は読み方を決定することができない文字の数が7文字であることを表している。
ここで、/E{7}/における“E”は文字種が英文字であることを示し、{7}は読み方を決定することができない文字の数が7文字であることを表している。
辞書生成部24は、読み方決定部23から読み方を受けると、上記実施の形態1と同様に、読み方決定部23により読み方が決定された文字に対しては音節を割り当てる一方、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対してはガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
ただし、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、その文字又は文字列の字種に応じて受理可能な音節の数が制限されているガベジモデルを割り当てるようにする。
ただし、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、その文字又は文字列の字種に応じて受理可能な音節の数が制限されているガベジモデルを割り当てるようにする。
図6は読み方/ヨ/ /ミ/ /E{7}/ /サ/ /ン/ /プ/ /ル/から生成されるネットワークを模式的に示す説明図である。
図6のネットワークに含まれるノードの中で「*{1,7}」と表記されているノードは、最小1音節から最大7音節まで、ガベジ音節が連続するサブネットワークが代入されていることを示している。
このようにガベジモデルとして、受理可能な音節数を最小1から最大7に限定している理由は、英文字が連続している場合、英単語として発音される可能性が高いので、音声認識処理で受理される音節数を最大でも英文字の文字数以下に制限してもよいことに基づくものである。
図6のネットワークに含まれるノードの中で「*{1,7}」と表記されているノードは、最小1音節から最大7音節まで、ガベジ音節が連続するサブネットワークが代入されていることを示している。
このようにガベジモデルとして、受理可能な音節数を最小1から最大7に限定している理由は、英文字が連続している場合、英単語として発音される可能性が高いので、音声認識処理で受理される音節数を最大でも英文字の文字数以下に制限してもよいことに基づくものである。
図7はこの実施の形態2におけるガベジモデルの構造を示す説明図である。
図7に示すガベジモデルは、図4で示すガベジ音節を連続して接続したサブネットワークであり、図6のネットワークに含まれるノードの中で「*{1,7}」と表記されているノードに代入される。各ガベジ音節から伸びるアークは、ネットワーク中のガベジモデルが代入されたノードに続くノードに接続され、最小1から最大7の音節を受理できる。
図7に示すガベジモデルは、図4で示すガベジ音節を連続して接続したサブネットワークであり、図6のネットワークに含まれるノードの中で「*{1,7}」と表記されているノードに代入される。各ガベジ音節から伸びるアークは、ネットワーク中のガベジモデルが代入されたノードに続くノードに接続され、最小1から最大7の音節を受理できる。
以上で明らかなように、この実施の形態2によれば、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、辞書生成部24が受理可能な音節の数が制限されているガベジモデルを割り当てるように構成したので、音声認識部15における音声認識精度を更に高めることができる効果を奏する。
実施の形態3.
上記実施の形態2では、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、辞書生成部24が受理可能な音節の数が制限されているガベジモデルを割り当てるものについて示したが、読み方決定部23が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部24が、受理可能な最小の音節数が上記文字列に含まれている母音のアルファベットの数で制限されているガベジモデルを割り当てるようにしてもよい。
具体的には、以下の通りである。
上記実施の形態2では、読み方決定部23が読み方を決定することができない文字又は文字列に対しては、辞書生成部24が受理可能な音節の数が制限されているガベジモデルを割り当てるものについて示したが、読み方決定部23が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部24が、受理可能な最小の音節数が上記文字列に含まれている母音のアルファベットの数で制限されているガベジモデルを割り当てるようにしてもよい。
具体的には、以下の通りである。
図8は「よみGARBAGEサンプル」というテキストについて、読み方決定部23により決定された文字の読み方を示す説明図である。
図8では、「よ」、「み」、「サ」、「ン」、「プ」、「ル」という文字については読み方が決定され、これらの文字の読み方として、/ヨ/ /ミ/ /サ/ /ン/ /プ/ /ル/が読み方決定部23から出力されるものとする。
ただし、「G」、「A」、「R」、「B」、「A」、「G」、「E」という文字については読み方が決定されないものとする。
図8では、「よ」、「み」、「サ」、「ン」、「プ」、「ル」という文字については読み方が決定され、これらの文字の読み方として、/ヨ/ /ミ/ /サ/ /ン/ /プ/ /ル/が読み方決定部23から出力されるものとする。
ただし、「G」、「A」、「R」、「B」、「A」、「G」、「E」という文字については読み方が決定されないものとする。
読み方決定部23は、テキストの中に読み方を決定することができない文字が含まれている場合、上記実施の形態2と同様に、その文字の文字種を判定する。
図8の例では、「G」、「A」、「R」、「B」、「A」、「G」、「E」の文字は英文字であると判定される。
図8の例では、「G」、「A」、「R」、「B」、「A」、「G」、「E」の文字は英文字であると判定される。
読み方決定部23は、「G」、「A」、「R」、「B」、「A」、「G」、「E」の文字が英文字であると判定すると、読み方を決定することができないアルファベット文字列に含まれている母音文字の数を調べる。母音文字としては、英文字の場合、「A」、「I」、「U」、「E」、「O」の文字が該当する。
読み方決定部23は、読み方を決定することができないアルファベット文字列が「GARBAGE」である場合、含まれている母音文字の数が“3”であるため、この文字列の読み方を/E{3,7}/のように表記する。
ここで、/E{3,7}/における“E”は文字種が英文字であることを示し、{3,7}は読み方を決定することができない文字列に含まれている母音文字の数が3であり、この文字列に含まれている文字の数が7文字であることを表している。
読み方決定部23は、読み方を決定することができないアルファベット文字列が「GARBAGE」である場合、含まれている母音文字の数が“3”であるため、この文字列の読み方を/E{3,7}/のように表記する。
ここで、/E{3,7}/における“E”は文字種が英文字であることを示し、{3,7}は読み方を決定することができない文字列に含まれている母音文字の数が3であり、この文字列に含まれている文字の数が7文字であることを表している。
辞書生成部24は、読み方決定部23から読み方を受けると、上記実施の形態1と同様に、読み方決定部23により読み方が決定された文字に対しては音節を割り当てる一方、読み方決定部23により読み方が決定されない文字又は文字列(読み方決定部23が読み方を決定することができない文字又は文字列)に対してはガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する。
ただし、読み方決定部23が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部24が、受理可能な最小の音節数が上記文字列に含まれている母音文字の数で制限されているガベジモデルを割り当てるようにする。
ただし、読み方決定部23が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部24が、受理可能な最小の音節数が上記文字列に含まれている母音文字の数で制限されているガベジモデルを割り当てるようにする。
図9は読み方/ヨ/ /ミ/ /E{3,7}/ /サ/ /ン/ /プ/ /ル/から生成されるネットワークを模式的に示す説明図である。
図9のネットワークに含まれるノードの中で「*{3,7}」と表記されているノードは、最小3音節から最大7音節まで、ガベジ音節が連続するサブネットワークが代入されていることを示している。
このようにガベジモデルとして、受理可能な音節数を最小3から最大7に限定している理由は、英文字が連続している場合、英単語として発音される可能性が高いので、音声認識処理で受理される音節数が最小でも母音文字数と同じであり、最大でも英文字の文字数以下に制限してもよいことに基づくものである。
図9のネットワークに含まれるノードの中で「*{3,7}」と表記されているノードは、最小3音節から最大7音節まで、ガベジ音節が連続するサブネットワークが代入されていることを示している。
このようにガベジモデルとして、受理可能な音節数を最小3から最大7に限定している理由は、英文字が連続している場合、英単語として発音される可能性が高いので、音声認識処理で受理される音節数が最小でも母音文字数と同じであり、最大でも英文字の文字数以下に制限してもよいことに基づくものである。
図10はこの実施の形態3におけるガベジモデルの構造を示す説明図である。
図10に示すガベジモデルは、図4で示すガベジ音節を連続して接続したサブネットワークであり、図9のネットワークに含まれる「*{3,7}」と表記されているノードに代入される。左2個のガベジ音節を除く各ガベジ音節から伸びるアークは、ネットワーク中のガベジモデルが代入されたノードに続くノードに接続され、最小3から最大7の音節を受理できる。
図10に示すガベジモデルは、図4で示すガベジ音節を連続して接続したサブネットワークであり、図9のネットワークに含まれる「*{3,7}」と表記されているノードに代入される。左2個のガベジ音節を除く各ガベジ音節から伸びるアークは、ネットワーク中のガベジモデルが代入されたノードに続くノードに接続され、最小3から最大7の音節を受理できる。
以上で明らかなように、この実施の形態3によれば、読み方決定部23が読み方を決定することができない文字列がアルファベット文字列である場合、辞書生成部24が、受理可能な最小の音節数が上記文字列に含まれている母音文字の数で制限されているガベジモデルを割り当てるように構成したので、音声認識部15における音声認識精度を更に高めることができる効果を奏する。
なお、上記実施の形態1〜3では、音節を音声認識の単位とする音声認識用語彙辞書を用いるものについて示したが、音声認識用語彙辞書の単位として、音節の代りに、音素を用いるようにしてもよい。
また、複数のテキストについて、読み方を特定することができない文字又は文字列をガベジモデルで置き換えてネットワークを生成した結果、読み方が決定された文字列に対応した音節列が同一、かつ、ガベジモデルが受理可能な音節列数が同一のネットワークが生成されるときは、読み方が決定された文字列に対応した音節列を一つにまとめ、複数のテキストを一つにまとめ、ネットワークを一つで代表するように音声認識用語彙辞書を構成してもよい。
また、単語内で読み方を決定することができない文字が多く、読み方を決定することができる文字が少ない場合には、その旨を電子機器1側に通知して、読み方を外部から取得するようにしてもよい。また、このような辞書項目は音声認識用語彙辞書に登録しないようにしてもよい。
また、複数のテキストについて、読み方を特定することができない文字又は文字列をガベジモデルで置き換えてネットワークを生成した結果、読み方が決定された文字列に対応した音節列が同一、かつ、ガベジモデルが受理可能な音節列数が同一のネットワークが生成されるときは、読み方が決定された文字列に対応した音節列を一つにまとめ、複数のテキストを一つにまとめ、ネットワークを一つで代表するように音声認識用語彙辞書を構成してもよい。
また、単語内で読み方を決定することができない文字が多く、読み方を決定することができる文字が少ない場合には、その旨を電子機器1側に通知して、読み方を外部から取得するようにしてもよい。また、このような辞書項目は音声認識用語彙辞書に登録しないようにしてもよい。
1 電子機器、2 音声認識辞書生成装置、11 テキスト記憶部(テキスト記憶手段)、12 辞書作成起動部、13 音声認識辞書格納部(辞書格納手段)、14 外部入出力部、15 音声認識部(音声認識手段)、21 辞書作成開始部、22 テキスト取得部(テキスト取得手段)、23 読み方決定部(読み方決定手段)、24 辞書生成部(辞書生成手段)、25 一時メモリ、26 辞書出力部。
Claims (4)
- 複数の文字から構成されているテキストを取得するテキスト取得手段と、
上記テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段と、
上記読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、上記読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する辞書生成手段とを備えた音声認識辞書生成装置。 - 辞書生成手段は、読み方決定手段により読み方が決定されない文字又は文字列に対して、文字種を判定すると共に、受理可能な音節又は音素の数が上記文字種に応じて制限されているガベジモデルを割り当てることを特徴とする請求項1記載の音声認識辞書生成装置。
- 辞書生成手段は、読み方決定手段により読み方が決定されない文字列の文字種がアルファベット文字列である場合、受理可能な最小の音節数が上記文字列に含まれている母音のアルファベットの数で制限されているガベジモデルを割り当てることを特徴とする請求項2記載の音声認識辞書生成装置。
- 複数の文字から構成されているテキストを記憶しているテキスト記憶手段と、
上記テキスト記憶手段に記憶されているテキストから音声認識用語彙辞書を生成する音声認識辞書生成装置と、
上記音声認識辞書生成装置により生成された音声認識用語彙辞書を格納する辞書格納手段と、
上記辞書格納手段に格納されている音声認識用語彙辞書を参照して、ユーザから発声された音声を認識する音声認識手段とを備えた音声認識処理装置において、
上記テキスト記憶手段からテキストを取得するテキスト取得手段と、
上記テキスト取得手段により取得されたテキストを構成している文字の読み方を決定する読み方決定手段と、
上記読み方決定手段により読み方が決定された文字に対して音節又は音素を割り当て、上記読み方決定手段により読み方が決定されない文字又は文字列に対してガベジモデルを割り当てることにより、音声認識用語彙辞書を生成する辞書生成手段とを備えることを特徴とする音声認識処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008106982A JP2009258369A (ja) | 2008-04-16 | 2008-04-16 | 音声認識辞書生成装置及び音声認識処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008106982A JP2009258369A (ja) | 2008-04-16 | 2008-04-16 | 音声認識辞書生成装置及び音声認識処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009258369A true JP2009258369A (ja) | 2009-11-05 |
Family
ID=41385887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008106982A Pending JP2009258369A (ja) | 2008-04-16 | 2008-04-16 | 音声認識辞書生成装置及び音声認識処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009258369A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
US11417327B2 (en) | 2018-11-28 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
-
2008
- 2008-04-16 JP JP2008106982A patent/JP2009258369A/ja active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012073275A1 (ja) * | 2010-11-30 | 2012-06-07 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
CN103229232A (zh) * | 2010-11-30 | 2013-07-31 | 三菱电机株式会社 | 声音识别装置及导航装置 |
DE112010006037T5 (de) | 2010-11-30 | 2013-09-19 | Mitsubishi Electric Corp. | Spracherkennungsvorrichtung und Navigationssystem |
JP5409931B2 (ja) * | 2010-11-30 | 2014-02-05 | 三菱電機株式会社 | 音声認識装置及びナビゲーション装置 |
US11417327B2 (en) | 2018-11-28 | 2022-08-16 | Samsung Electronics Co., Ltd. | Electronic device and control method thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
KR100769033B1 (ko) | 스피치 합성 방법 | |
US7552045B2 (en) | Method, apparatus and computer program product for providing flexible text based language identification | |
TWI293455B (en) | System and method for disambiguating phonetic input | |
JP5688941B2 (ja) | 声調を用いて中国語を検索する方法及びその方法を実行するシステム | |
JP4570509B2 (ja) | 読み生成装置、読み生成方法及びコンピュータプログラム | |
JPWO2012043168A1 (ja) | 音声変換装置、携帯電話端末、音声変換方法およびプログラム | |
JP4966324B2 (ja) | 音声翻訳装置、および方法 | |
JP2005241829A (ja) | 音声情報処理システム、音声情報処理方法及びプログラム | |
JP2012003090A (ja) | 音声認識装置および音声認識方法 | |
JP2009258369A (ja) | 音声認識辞書生成装置及び音声認識処理装置 | |
JP2005257954A (ja) | 音声検索装置、音声検索方法および音声検索プログラム | |
JP2010186339A (ja) | 通訳装置、方法、及びプログラム | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
JP2009199434A (ja) | アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム | |
JP6197523B2 (ja) | 音声合成装置、言語辞書修正方法及び言語辞書修正用コンピュータプログラム | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
JP2014197117A (ja) | 音声合成装置及び言語辞書登録方法 | |
JPH11338498A (ja) | 音声合成装置 | |
JP3284976B2 (ja) | 音声合成装置及びコンピュータ可読記録媒体 | |
JP2002189490A (ja) | ピンイン音声入力の方法 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
JP2004258561A (ja) | 歌唱合成用データ入力プログラムおよび歌唱合成用データ入力装置 | |
JP5125404B2 (ja) | 省略語判定装置、コンピュータプログラム、テキスト解析装置及び音声合成装置 | |
JP2008083410A (ja) | 音声認識装置及びその方法 |