JP2004294542A

JP2004294542A - 音声認識装置及びそのプログラム

Info

Publication number: JP2004294542A
Application number: JP2003083511A
Authority: JP
Inventors: Hirotaka Goi; 啓恭伍井; Yoshiharu Abe; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-03-25
Filing date: 2003-03-25
Publication date: 2004-10-21

Abstract

【課題】音韻列が未知である表記の音韻列を推測して、その表記を利用者が発話した場合に、音韻列の組み合わせ数を抑制して、効率よく音声認識する手段を得る。
【解決手段】表記をサブワードに分割し、サブワードの生起確率に基づいてラティス構造を生成するサブワードラティス生成部３と、このラティス構造からサブワード列を選択して、そのサブワード列の音韻列を結合する音韻列推測部４と、結合された音韻列と利用者の発話した音韻列とを照合する照合部５とを備えた。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、発音が未知である表記の音韻列を推測して音声認識を行う音声認識装置及びそのプログラムに係るものであり、特に推測時に発生する音韻列の組み合わせ数を抑制する技術に関する。
【０００２】
【従来の技術】
従来の音声認識技術においては、認識候補となる語を予め単語辞書として保持しておき、この単語辞書中の語の音韻列と発話の音韻列との照合により音声認識がなされる。
【０００３】
ところで、単語辞書が保持する単語の個数は有限であり、現実に発話される語のすべてを保持することは容易ではない。また技術や文化の進歩とともに用いられる語彙は増加しており、すべての認識対象単語に対する音韻データを準備するのは困難である。
【０００４】
かかる課題に対応するために、品詞、接尾語及び音韻などの未知語構成要素を用いて、未知語の発音を推測する技術が提案されている（例えば、特許文献１）。
【０００５】
【特許文献１】
特開平２００１−２５５８８９「音声認識装置および音声認識方法、並びに記録媒体」（第４図、第６図、第６頁〜第１０頁）
【０００６】
【発明が解決しようとする課題】
上記の従来技術によれば、品詞、接尾語、音韻の組み合わせから認識候補を生成し、発音が未知である表記の音韻データを推測することとされている。しかし、現実に存在する品詞や接尾語、音韻の組み合わせは多数にのぼる。したがって発音が未知である語と推測によって生成された多数の音韻データとの照合を行わなければならない。そのため、実時間性を要求される音声認識系や計算機資源の乏しい音声認識系には適用できないという課題があった。
【０００７】
この発明はこのような課題を解決するためになされたものであって、表記をサブワードに分割し、さらにサブワード毎の音韻列の組み合わせから発音が未知である語の音韻列を推測することとした。またその一方で、サブワードの組み合わせを生起確率に基づいて制限した。これによって、推測により生成される音韻列の組み合わせ数を削減し、高精度な音声認識を少ない計算機資源によって高速に行うことを特徴とするものである。
【０００８】
【課題を解決するための手段】
この発明に係る音声認識装置は、入力音声を音節単位に分離して、分離結果を認識候補の音韻列として出力する音韻列分離手段と、
サブワード毎に少なくとも音韻列と生起確率とを保持するサブワード辞書記憶手段と、
音韻列が未知である所定の表記をサブワードに分割するとともに、前記サブワード辞書記憶手段が保持しているサブワードの生起確率に基づいて、前記所定の表記についてサブワードによるラティス構造を生成するサブワードラティス生成手段と、
前記サブワードラティス生成手段が生成したラティス構造に基づいてサブワードの音韻列を結合して音節を生成し、生成された音節を前記所定の表記の音韻列として出力する音韻列推測手段と、
前記音韻列推測手段が生成した前記単語表記の音韻列と前記音韻列分離手段が出力した認識候補の音韻列とを照合し、合致するか否かを判定する照合手段とを備えるものである。
【０００９】
【発明の実施の形態】
以下、この発明の実施の形態について説明する。
実施の形態１．
図１は、実施の形態１による音声認識装置の構成を示すブロック図である。図に示すように、実施の形態１の音声認識装置は、音韻列分離部１、サブワード辞書２、サブワードラティス生成部３、音韻列推測部４、照合部５より構成されている。また外部からの入力として、文字表記１００と、文字表記１００を利用者が発話した結果として生じた音声１０１を受け付けるようになっている。文字表記１００は、音声データの不明な表記であって、文字コードのみから構成されている。例えば、ディクテーション機能（作業者の発話を音声認識して業務を行う機能）を有する業務システムにおいては、操作画面に表示された文字を作業者が音読して操作を行う。この場合、操作画面に表示された文字が文字表記１００に相当し、作業者が音読した発生内容が音声１０１に相当する。入力音声１０１は、表記１００を読みとった利用者が発話した結果により生じた音声データである。以下、実施の形態１による音声認識装置の構成要素について説明する。
【００１０】
音韻列分離部１は、利用者の発話を図示せぬマイクによって取り込むことによって取得した入力音声１００（電気信号）を音節単位に分離し、これらの音節を連接して認識候補の音韻列として出力するものである。
【００１１】
サブワード辞書２は、サブワードの少なくとも表記と音節と生起確率を記憶する記憶装置であり、具体的にはハードディスク装置やフラッシュメモリ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの不揮発性記憶装置や、ＣＤ−ＲＯＭなどの記憶媒体によって構成されている。図２は、サブワード辞書２の構成例を示すものである。
【００１２】
ここでサブワードとは、音韻列が対応する表記文字列の最小単位をいう。したがって基本的には一つの文字で一つのサブワードを構成する。しかし例外もある。例えば、「山田は流石だ」（やまだはさすがだ）という句は、「山」（やま），「田」（だ），「は」（は），「流石」（さすが），「だ」（だ）という５つのサブワードから構成されるものと考える。ここで、「」内は表記文字列を示し、（）内はこの表記文字列に対応する発音である。この例において、「山田は」という部分は上記の原則に基づいて「山」、「田」、「は」という３つのサブワードに分解できる。しかし残りの部分「流石」を一文字に分解してしまうと、「流」と「石」という文字からは（さすが）という読みが得られない。そこでこのような特定の文字の結合においてのみ固有の読みを発生する場合には、各文字には分解せずに、その読みを発生する最小単位（この例でいえば、「流石」）がサブワードとなる。
【００１３】
サブワード単位で辞書を有することの技術的意義は、次のようなものである。
すなわち、単語単位で辞書を有することとすると、単語の変化（送りがなの変化、読みの変化など）に対応させることができないため、単語の活用変化（用言の語末変化など）や変形（慣用的に送りがなを省略する場合など）ごとに異なるデータを維持しなければならない。一方、音声辞書として最も小さい単位である音素や音韻などの単位で辞書を有することとすると、表記との対応付けが困難である。サブワード単位で辞書を有することとすれば、表記と音節との対応付けが容易であり、さらに単語の活用変化などによって異なる音韻列が必要となる場合であっても、異なるデータを維持する必要がない。
【００１４】
さらに実施の形態１によるサブワードの生起確率は、例えば既存の国語辞書やコーパスなどの大語彙データにおける各語彙をサブワードに分割し、そのサブワードが出現する頻度に基づいて予め算出されたものである。
【００１５】
図２に示されたサブワード辞書２では、さらに各サブワードにカテゴリを付している。カテゴリとは各サブワードに付した音節（読み）の分類を示すもので、たとえば「訓」とは、そのサブワードの文字を訓読みした場合の読みが付されていることを意味している。同様に「音」とは、そのサブワードの文字を音読みした場合の読みが付されていることを意味している。「当」とは、その読みが当て字読みであることを示すものである。例えば前例の「流石」（さすが）や、「小人」（こども）などは当て字読みであるから、「当」という分類が付される。なお、生起確率については後述する。
【００１６】
続いて、サブワードラティス生成部３は、表記１００をサブワードに分割し、サブワード辞書２に記憶されているサブワードの属性に基づいてラティス構造を生成する部位である。
【００１７】
ここでラティス構造とは、サブワードを節（ノード）とし、サブワード間の関連を枝（アーク）として接続したデータ構造である。「自然言語処理＜ソフトウェア科学１５＞」（長尾真編１９９６年４月２６日岩波書店刊行）１２３頁では、語をノードとし、ノード間語を枝で接続するラティス構造の例が紹介されている。サブワードラティス生成部３で用いるラティス構造は、上記の例とは、サブワードを節としている点で相違するが、節間の関係を枝で連結している点では同様である。
【００１８】
音韻列推測部４は、サブワードラティス生成部３が生成したラティス構造の節の連結を辿って、表記１００の音韻列を推測し、その音韻列を出力する部位である。
【００１９】
照合部５は、音韻列分離部１が出力した認識候補の音韻列と、音韻列推測部４が生成した表記１００の音韻列とを照合する部位である。照合の結果、文字表記１００と入力音声１０１が一致する場合には、例えば業務システムのメニューが選択されるなど、特定の処理を行うようになっている。
【００２０】
次に、実施の形態１の音声認識装置の動作について説明する。図３は、実施の形態１の音声認識装置による処理を示すフローチャートである。図のステップＳ３０１において、利用者は表記１００を発話し、入力音声１０１が生成されると、音韻列分離部１は、この入力音声を電気的信号に変換する。具体的には、音韻列分離部１は、マイクの取り込んだアナログデータによる入力音声１０１をＡ／Ｄ変換し、量子化した後にスペクトル分析して、音節単位に分離した認識候補の一連を認識候補の音韻列として図示せぬメモリに記憶する。
【００２１】
ここでは例として、文字表記１００として「黄鼻兎」と「小人」という表記が図示せぬ画面に表示されており、利用者はこの画面の文字表記を選択するために、「こびと」と発声したものとする。その結果、音韻列分離部１は、認識候補の音韻列として、「ｋｏｂｉｔｏ」という音韻列を出力したものとする。
【００２２】
次にステップＳＴ３０２において、サブワードラティス生成部３は、文字表記１００を取得して、サブワードに分割し、サブワードのラティス構造を生成する。文字表記１００が複数の文字列を含む場合には、個々の文字列に対してこれらの処理を行う。以下処理対象となる文字列が「黄鼻兎」であるとして、ステップＳＴ３０２の処理について詳細に説明する。
【００２３】
図４はステップＳＴ３０２の詳細なフローチャートである。図のステップＳＴ４０１において、サブワード辞書２に記憶されているサブワードすべてのチェック、すなわちサブワードすべての処理を行ったかどうかを判定する。サブワードすべてのチェックが完了していなければ、サブワード辞書２に記憶されているサブワードの中に、文字列「黄鼻兎」をサブワード分割するのに用いることができるサブワードが存在することになるので、ステップＳＴ４０２に進む（ＳＴ４０１：ＮＯ）。一方、サブワードすべてのチェックが完了している場合には、終了する（ＳＴ４０１：ＹＥＳ）。
【００２４】
次にステップＳＴ４０２において、サブワード辞書２からサブワードを１つ取得する。ここでは説明のために、図２に示されるサブワード辞書２に記憶されたサブワードとして
「黄」、音韻列：ｋｉ、カテゴリ：訓、生起確率：１．７５３８５ｅ−０５が取り出されたとする。
【００２５】
続いてステップＳＴ４０３において、取り出されたサブワードの表記文字列が、文字列「黄鼻兎」に前方一致するかチェックする。すなわち文字列「黄鼻兎」の先頭からサブワードの表記の文字分だけ比較し、一致するかどうかを調べる。
一致する場合は、ステップＳＴ４０４に進み（ＳＴ４０３：ＹＥＳ）、そうでない場合は、ステップＳＴ４０１に戻り、次のサブワードの評価を行う（ＳＴ４０３：ＮＯ）。文字列「黄鼻兎」の場合、その１文字目はサブワードの「黄」に一致する。
【００２６】
ステップＳＴ４０４では、現在のサブワードのカテゴリが直前のサブワードのカテゴリに一致するかどうかを調べる。一致すれば、ステップＳＴ４０５に進み（ＳＴ４０４：ＹＥＳ）、一致しない場合には、ステップＳＴ４０１に戻る（ＳＴ４０４：ＮＯ）。サブワードが最初のサブワードである場合には、任意のカテゴリと一致するものとする。
【００２７】
なお、ＳＴ４０４において、カテゴリが一致するかどうかを調べる理由は、異なるカテゴリのサブワードが接続される可能性が低いことにある。こうすることにより、カテゴリの一致という基準に基づいて処理を簡潔に行うことができる。
すなわち訓読みと音読み、あるいは音読みと訓読みが接続される場合などである。
【００２８】
しかし、重箱読みのように音読みと訓読みが接続される場合もありうる。このような接続までラティス構造として表現するのであれば、複数サブワードのｎ−ｇｒａｍ生起確率を求めておき、これをサブワード辞書２に記憶させておくようにしてもよい。この場合には、ｎ−ｇｒａｍ生起確率の大きさに基づいて、サブワード間の接続性を評価することになるので、サブワード辞書２にはカテゴリという属性を記憶させておく必要がない。
【００２９】
具体的には、このようなｎ−ｇｒａｍ生起確率の算出方法について説明すると、サブワード列の生起確率は次のようにして求められる。すなわち、いまサブワード列をＷとし、Ｗが、式（１）で与えられるものとする。
【数１】

ただし、ｗ_１、ｗ_２、…、ｗ_ｍはサブワードであり、ｗ_１，ｗ_２はサブワードｗ_１とｗ_２を連結したものとする。
【００３０】
この場合、サブワード列の生起確率Ｐ（Ｗ）はサブワードｎ−ｇｒａｍによる式（２）から算出される。
【数２】

【００３１】
前述したカテゴリの一致を基準とする判断は、サブワード列の生起確率Ｐ（Ｗ）に基づく判断処理の特殊な場合であるといえる。
【００３２】
なおサブワード列の生起確率は、従来の文法規則に基づく生起確率とは次のような点で異なる。すなわち、１２３４という文字列を音読すると、「いち・に・さん・し」、あるいは、「いち・に・さん・よん」のいずれかとなる。しかし７６５４という文字列と「なな・ろく・ご・よん」と音読しても、「なな・ろく・ご・し」と音読することはない。従来の品詞文法規則では、この同一品詞の並びのような例外処理を正しく扱えなかった。しかし、サブワードレベルの生起確率では、「なな・ろく・ご」というサブワード列の後に、「し」というサブワードが接続される確率の値を低く設定することができ、一方で「よん」というサブワードが接続される確率の値を高く設定することができる。こうすることで、「なな・ろく・ご・し」という、現実には発音されえない音韻列を生成することを防止できる。
【００３３】
このようにして算出されたサブワード列の生起確率Ｐ（Ｗ）が、所定の値以上となる場合に、ステップＳＴ４０４に進み、所定の値以下となる場合には、ステップＳＴ４０１に進むようにする。
【００３４】
次にステップＳＴ４０５では、前方一致したサブワードをラティスに追加する。ここで、ラティスの先頭からサブワードの表記の文字数を算出し、同一の文字位置にすでに同じサブワードが記憶されている場合には、サブワードの節を新たに追加するのではなく、すでに記憶されているサブワードの節を再利用することとする。そのようなサブワードの節が存在しない場合には、現在のサブワードについての新たな節を追加する。現在のサブワードについて新たな節をラティスに追加した場合、直前のサブワードの節と新たな節とをアーク（枝）で接続する。
具体的には直前のサブワードの節に新たな節のアドレスを示すポインタを記憶させる。
【００３５】
次にステップＳ４０６において、前方一致した表記を文字列から削除する。文字列「黄鼻兎」とサブワードの「黄」が一致した場合には、削除の結果文字列は、「鼻兎」となる。
【００３６】
続いてステップＳ４０７において、文字列に残存部分があるかどうかを調べる。残存部分がある場合はステップＳ４０１に進み、残りの文字列についてこれまでと同様にサブワード分割を行う（Ｓ４０７：ＹＥＳ）。残存部分がない場合は、この文字列についてのサブワード分割が終了したことを意味するので、終了する（Ｓ４０７：ＮＯ）。この場合は残存文字列として「鼻兎」が存在するので、ステップＳ４０１に進むことになる。以後、「鼻」、「兎」のそれぞれをサブワードに分割して、その結果として図５に示すようなラティス構造が生成される。
【００３７】
以上が、ステップＳＴ３０２の詳細な処理の内容である。前述したとおり、このような処理は文字列「小人」についても行われる。最終的には、図６に示すようなラティス構造が生成されることになる。
【００３８】
次に図３のフローチャートのステップＳＴ３０３において、音韻列推測部４は、サブワードについてのラティス構造において連結されているサブワードの組み合わせのそれぞれを取得し、認識候補の音韻列との比較により尤度を計算し、最尤の候補を算出する。そこで以下、この最尤候補の算出処理の詳細について説明する。
【００３９】
図７は、ステップＳ３０３の処理を詳細に示したフローチャートである。図のステップＳＴ５０１において、最大尤度を保持する変数を初期化する。ここでは例として最大尤度を保持する変数の値を０とする。以降、最大尤度とは、最大尤度を保持する変数のことをいうものとする。
【００４０】
次にステップＳＴ５０２において、ラティス構造のすべてのサブワード連携をチェックしたかどうかを調べる。サブワード連携とはラティス構造の左から右へのサブワード列を意味する。図６の例でいえば、ＳＴＡＲＴから始めてＥＮＤに至るまでの経路上に出現するサブワードの列一つ一つがサブワード連携である。
すべてのサブワード連携をチェックした場合には、これ以上評価すべきサブワード連携は存在しないので、ステップＳＴ５０８に進む（ＳＴ５０２；ＹＥＳ）。
ステップＳＴ５０８の処理については後述する。一方、そうでない場合は、評価すべきサブワード連携があるので、ステップＳ５０３に進む（ＳＴ５０２：ＮＯ）。
【００４１】
続いて、ステップＳ５０３において、ラティス構造からサブワードを１つ取得する。ここでは以下のサブワード列を取り出したとする。
黄鼻兎：｛「黄」（ｋｉ）訓，「鼻」（ｈａｎａ）訓，「兎」（ｕｓａｇｉ）訓｝
【００４２】
次にステップＳ５０４において、サブワード列中の音韻列を抽出する。ここでは以下の音韻列が抽出される。
ｋｉｈａｎａｕｓａｇｉ
【００４３】
続いてステップＳ５０５において、認識候補の音韻列に最も類似するサブワード列の音韻列を選択する。この処理は、認識候補の音韻列Ｙに対する条件付き確率Ｐ（Ｗ｜Ｙ）を最大にするサブワード連携Ｗを算出することによって行う。具体的には、サブワード連携Ｗについてのこの条件付き確率は式（３）より算出される。
【数３】

【００４４】
式（３）において、認識候補の音韻列Ｙは複数のＷ間で一定であるので、Ｙのみに依存するＰ（Ｙ）の影響を無視することができ、結果としてＰ（Ｙ｜Ｗ）Ｐ（Ｗ）が最大となる場合に、Ｐ（Ｗ｜Ｙ）が最大になる。ここで、Ｐ（Ｗ）は式（２）によって算出されるサブワードの生起確率である。またＰ（Ｙ｜Ｗ）はサブワード連携Ｗが与えられたときの、音韻列Ｙの出現確率であり、次の方法によって算出される。すなわち時刻ｔ＝１，２，…，Ｌにおいて、音韻列Ｙが式（４）で与えられるものとする。
【数４】

ただし、ｙ_１、ｙ_２、…、ｙ_Ｌは音韻であり、例えばｙ_１，ｙ_２は音韻ｙ_１とｙ_２を連結したものとする。
【００４５】
そうすると、Ｐ（Ｙ｜Ｗ）は式（５）によって算出できる。
【数５】

【００４６】
このような確率計算方法の詳細は、阿部他：「認識誤り傾向の確率モデルを用いた２段階探索法による大語彙連続音声認識」，電子情報通信学会論文誌Ｄ−ＩＩ，ＶｏｌＪ８３−Ｄ−ＩＩＮｏ１２，ｐｐ．２５４５−２５５３（２０００−１２）に記載されている。
【００４７】
ただし、以上の確率計算は必須ではない。たとえば、この例のようにラティス構造におけるサブワード連携の数があまり多くなく、また相互のサブワード連携による音韻列が、音響的に十分な距離が確保できる場合（類似性がそれほど高くない場合）には、例えば、音韻列の一致のあった場合を確率を１とし、ない場合を確率尤度を０としてもよい。このようにすると、候補の音韻列（ｋｉｈａｎａｕｓａｇｉ）と認識音韻列（ｋｏｂｉｔｏ）が一致しないため、尤度は０となる。
【００４８】
したがって、語句をサブワードに分割して、さらに音節ラティスを構成して、サブワード組み合わせを絞り込んだため、辞書登録されていないような「黄鼻兎」（きはなうさぎ）を（こびと）と誤って認識することはない。
【００４９】
次にステップＳ５０６において、ステップＳ５０５で算出された尤度と最大尤度を比較し、算出された尤度が最大尤度以下であれば、ステップＳ５０２に進み、次のサブワード連携の処理を行う（ＳＴ５０６：ＮＯ）。一方、最大尤度より大きければ、ステップＳＴ５０７に進む（ＳＴ５０６：ＹＥＳ）。
【００５０】
ステップＳＴ５０７において、最大尤度より尤度が大きい確率を新たな最大尤度とする。そしてステップＳＴ５０２に戻る。このようにしてすべてのサブワード連携について処理を完了すると、ステップＳＴ５０２でＹＥＳとなって、ステップＳＴ５０８に進む。
【００５１】
ステップＳＴ５０８において、最大尤度に等しいサブワード連携を出力して、終了する。
【００５２】
以上から明らかなように、実施の形態１の音声認識装置によれば、生起確率に基づいてサブワードのラティス構成を生成し、このラティス構造に基づいてサブワードを連結することにより候補語を生成し、認識候補との照合を行うので、組み合わせ数の増大を防止することができ、効率よく未知語の音声認識を行うことができる。
【００５３】
なお、実施の形態１の音声認識装置と同等の機能を、コンピュータプログラムとして実現し、コンピュータに実行させるようにしてもよい。この場合、このコンピュータプログラムは、音韻列分離部１に相当する処理を実行するプログラムと、サブワードラティス生成部３に相当する処理を実行するプログラムと、音韻列推測部４に相当する処理を実行するプログラムと、照合部５に相当する処理を実行するプログラムから構成される。
【００５４】
実施の形態２．
実施の形態１による音声認識装置は、サブワードを連結して音韻列を生成することで、未知語についても音声認識することを特徴とするものであった。これに対して、実施の形態２による音声認識装置は、未知語が「音読する上で発音が省略される表記」を有する場合に、精度よく音声認識して未知語の表記を取得することを特徴とする。
【００５５】
ここで、「音読する上で発音が省略される表記」とは、「・」（ナカグロ）や「−」（ハイフン）など、表記として用いられていても、その表記を音読する場合には発声されない表記要素を意味する。またインターネット関連の文書を音読する場合には、「ｈｔｔｐ：／／」のような文字列を発声しないことが多い。ラジオ放送などで、インターネットのホームページのＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を紹介する場合、例えばＵＲＬがｈｔｔｐ：／／ｗｗｗ．ｘ．ｃｏｍである場合には、「ｗｗｗ．」以降の文字しか読み上げない。このような文字列も「音読する上で発音が省略される表記」に相当する。
【００５６】
図８は、実施の形態２による音声認識装置の構成を示すブロック図である。図において、無音表記辞書６は、音読する上で発音が省略される表記を記憶する辞書である。具体的には、無音表記辞書６はファイルとしてハードディスク装置やフラッシュメモリ、ＲＯＭなどの不揮発性記憶装置や、ＣＤ−ＲＯＭなどの記憶媒体によって記憶されている。図９は、無音表記辞書６の構成の例を示す図である。また、サブワードラティス生成部３は文字表記１００とサブワード辞書２に加えて、無音表記辞書６を入力として処理を行う。その他、図１と同一の符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。
【００５７】
次に実施の形態２による音声認識装置の処理について説明する。実施の形態２における処理は、実施の形態１と比して、ＳＴ４０１−２及びＳＴ４０４−２が異なるのみである。そこで、この処理について説明し、他の処理については説明を省略する。
【００５８】
ステップ４０１−２において、サブワード辞書２に記憶されているサブワードと無音表記辞書６のすべてに対して処理を完了したどうかを判定する。すべてのサブワード及び無音表記のチェックが完了していなければ、ステップＳＴ４０２に進む（ＳＴ４０１−２：ＮＯ）。一方、サブワードすべてのチェックが完了している場合には、終了する（ＳＴ４０１−２：ＹＥＳ）。
【００５９】
ステップＳＴ４０２からステップＳＴ４０３については実施の形態１と同様であるので説明を省略する。次にステップＳＴ４０４−２において、現在のサブワードのカテゴリが、直前の無音サブワードの前のサブワードのカテゴリに一致するかどうかを調べる。一致すれば、ステップＳＴ４０４に進み（ＳＴ４０４：ＹＥＳ）、一致しない場合には、ステップＳＴ４０１に進む（ＳＴ４０４：ＮＯ）。なお、実施の形態１と同様にサブワード列の生起確率に基づいて判定してもよい。
【００６０】
以後、ステップＳＴ４０５からステップＳＴ４０７の処理については実施の形態１と同様であるので、説明を省略する。
【００６１】
以上から明らかなように、実施の形態２の音声認識装置によれば、無音表記については無音表示辞書６に記憶させて、発音するサブワードとは別に取り扱い、発話されない表記を省略してサブワードを結合し、認識候補との照合を行うので、利用者が発話のない部分を有する未知語を発話しても、正しく照合することができる。
【００６２】
なお、上記の説明において、サブワード辞書２と無音表記辞書６とを別体のものとして構成したが、無音表記辞書６が記憶する無音サブワードの音韻を’−’（ハイフン）などと表現し、サブワード辞書２に含めるようにしてもよい。
【００６３】
また、実施の形態１では推測する音声の列を音韻列として取り扱う方法を示したが、音韻列の代わりに音素列や音節列としてもよい。
【００６４】
実施の形態３．
なお、「文字を表記する上で慣用的に省略される送りがなの音韻」を辞書に記憶させておき、サブワードを連結する場合に、これらの音韻を挿入して候補語を生成するようにしてもよい。実施の形態３による音声認識装置は、このような処理を行うことを特徴とする。
【００６５】
ここで、「文字を表記する上で慣用的に省略される送りがな」とは、発音上は読みとして存在するが、その読みに対応する表記が慣用的に省略される送りがなを意味する。例えば「熊谷」（くまがや）や「山手」（やまのて）のように、サブワード「熊」、「谷」、「山」、「手」の読みとしては現れない「が」や「の」などの送りがなが相当する。
【００６６】
このような用法は、前掲した「流石」（さすが）のように、一連の文字に対する当て字読みとしてサブワード辞書に記憶させておいてもよい。このような構成をとる場合には、実施の形態１の処理と同じとなる。
【００６７】
しかし新聞の求人広告欄のように、限られたスペースに情報を表記する場合には、多様な送りがなが省略されることになる。このような用法に備えて、そのすべてをサブワード辞書に記憶させようとすると、サブワード辞書に要する記憶容量が増大することになる。
【００６８】
そこで、省略されうる送りがなを辞書化しておき、サブワード辞書に記憶された基本的なサブワードの組と適宜組み合わせて、生起確率に基づいて候補語を生成することとする。
【００６９】
図３は、実施の形態３による音声認識装置の構成を示すブロック図である。図において、無表記サブワード辞書７は、慣用上送りがなが省略される表記における送りがなの音韻列と生起確率とを記憶している。具体的には、無表記サブワード辞書７はファイルとしてハードディスク装置やフラッシュメモリ、ＲＯＭなどの不揮発性記憶装置や、ＣＤ−ＲＯＭなどの記憶媒体によって記憶されている。図１２は、無表記サブワード辞書７の構成の例を示す図である。
【００７０】
また、サブワードラティス生成部３は文字表記１００とサブワード辞書２に加えて、無表記サブワード辞書７を入力して処理を行う。その他、図１と同一の符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。
【００７１】
次に、実施の形態３による音声認識装置の処理について説明する。実施の形態３による音声認識装置の処理は、実施の形態１と比して、ステップＳＴ５０４とステップＳＴ５０５の処理の間にステップＳＴ７０１の処理が追加されている点で異なるものであり、その他の処理については実施の形態１と同様であるので説明を省略する。
【００７２】
ステップＳＴ７０１において、サブワード間に無表記サブワード辞書７が記憶している音韻列を挿入する処理を行う。音韻列の挿入は、無表記サブワード辞書が各音韻列について記憶する生起確率に基づいて行う。すなわち、ｎ−ｇｒａｍ生起確率を算出して、このｎ−ｇｒａｍ生起確率が所定の値以上となる場合に、音韻列の挿入を行うものである。
【００７３】
これによって、例えばサブワード列が｛「熊」（ｋｕｍａ）「谷」（ｙａ）｝の場合には、（ｋｕｍａｙａ），（ｋｕｍａｇａｙａ），（ｋｕｍａｎｏｙａ），（ｋｕｍａＱｙａ）が候補として生成されることになる。
【００７４】
以上から明らかなように、実施の形態３の音声認識装置によれば、サブワードの音節間に慣用的に省略される送りがなの音節を挿入して音韻列を生成し、認識候補との照合を行うので、利用者がそのような未知語を発話しても、正しい表記による認識結果が得られることとなり、認識精度が向上する。
【００７５】
実施の形態４．
さらに、踊り字を辞書に記憶させておき、連結するサブワードの間に踊り字を挿入するようにしてもよい。具体的にはサブワードの表記の間に踊り字を挿入し、かつサブワードの音韻列の間に踊り字を挿入することによる効果に相当する音韻列を挿入する。実施の形態４による音声認識装置は、このような処理を行うことを特徴とする。
【００７６】
ここで踊り字とは、「々」や「ゞ」など前の文字の繰り返しを意味する表記であって、繰り返し記号、あるいは繰り返し文字と呼ばれる場合もある。これらの表記の発音は、直前の文字に影響されることとなる。したがって、これらをすべてサブワード辞書に保持することとすると、そのために要する記憶容量が増大し、かつ音韻列生成のためのラティス構造も肥大化し、さらに生成された音韻列とと認識候補との照合処理にも時間を要することとなる。
【００７７】
そこで、省略されうる送りがなを辞書化しておき、サブワード辞書に記憶された基本的なサブワードの組と適宜組み合わせて、生起確率に基づいて音韻列を生成することとする。
【００７８】
図１４は、実施の形態４による音声認識装置の構成を示すブロック図である。図において、踊り字辞書８は、踊り字を記憶する辞書である。具体的には、踊り字辞書８はファイルとしてハードディスク装置やフラッシュメモリ、ＲＯＭなどの不揮発性記憶装置や、ＣＤ−ＲＯＭなどの記憶媒体によって記憶されている。図１５は、踊り字辞書８の構成の例を示す図である。踊り字辞書は各踊り字について、濁音化フラグと生起確率を保持している。濁音化フラグとは、踊り字に相当する発音が濁音を生ずるかどうかを示す情報である。具体的には、０、１、２の値をとり、それぞれの値は次のような意味を有している。
０濁音化しない候補を生成
１濁音化した候補を生成
２濁音化しない候補と濁音化した候補の双方を生成
これらは踊り字の実際の用法に基づいて与えられる値である。また生起確率は、その踊り字が出現する確率であって、辞書やコーパスの分析から得られる値である。
【００７９】
また、サブワードラティス生成部３は文字表記１００とサブワード辞書２に加えて、踊り字辞書８を入力して処理を行う。その他、図１と同一の符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。
【００８０】
次に、実施の形態４による音声認識装置の処理について説明する。実施の形態４による音声認識装置の処理は、実施の形態１と比して、ステップＳＴ４０１−３とステップＳＴ４０３−３が異なり、さらにステップＳＴ４０４−３とステップＳＴ４０５の間にステップＳＴ８０１及びＳＴ８０２の処理を行う点が異なる。そこで、以下の説明ではこれらの相違点についてのみ説明し、他の処理については説明を省略する。
【００８１】
ステップＳＴ４０１−３において、サブワード辞書２に記憶されているサブワードと踊り字辞書８のすべてに対して、処理を完了したどうかを判定する。すべてのサブワード及び踊り字のチェックが完了していなければ、ステップＳＴ４０２に進む（ＳＴ４０１−３：ＮＯ）。一方、サブワードすべてのチェックが完了している場合には、終了する（ＳＴ４０１−３：ＹＥＳ）。
【００８２】
ステップＳＴ４０４−３において、踊り字辞書８を参照することにより、現在のサブワードが踊り字かどうかを判定する。踊り字である場合には、ステップＳＴ８０１に進む（ＳＴ４０４−３：ＹＥＳ）。一方、踊り字でない場合には、ステップＳＴ４０５に進む（ＳＴ４０４−３：ＮＯ）。
【００８３】
ステップＳＴ８０１において、踊り字のサブワード用のメモリ領域の音韻フィールドとカテゴリフィールドに、この踊り字の直前のサブワードの音韻とカテゴリをそれぞれコピーする。なお、ラティス構造を生成する際に、音韻の生起確率を基準とする場合には、直前のサブワードの音韻のみをコピーすれば十分である。
【００８４】
次にステップＳＴ８０２において、踊り字の濁音化フラグに基づいて、この直前のサブワードからコピーしてきた音韻を濁音化する。具体的に説明すると、「みすゞ」という語の場合は、踊り字「ゞ」を用いているが、この場合は（みすず）と発音する。この場合の濁音化フラグが１であるので、直前のサブワード「す」の音韻を濁音化して（ず）という音韻を生成する。また踊り字が「々」である場合には、「代々」（だいだい）と「代々木」（よよぎ）のように濁音化する必要がある場合とない場合の双方が考えられる。このような場合には、濁音化フラグは２とされているので、濁音化しないサブワードと濁音化するサブワードの２つを生成する。
【００８５】
以上から明らかなように、実施の形態４の音声認識装置によれば、踊り字によって生ずる表記と読みの影響を考慮して、候補語を生成し、認識候補との照合を行うので、利用者が踊り字表記を有する未知語を発話しても、精度よく認識できる。
【００８６】
実施の形態５．
また、複数桁からなる数字の各位の音韻を、当該位の数字毎に辞書に記憶させておき、サブワードが数字である場合に、その数字の位を求めて、数字のサブワードの音韻を辞書に記憶させておいた音韻で置換するようにしてもよい。実施の形態５による音声認識装置は、このような処理を行うことを特徴とするものである。
【００８７】
ここで、複数桁からなる数字とは、１０（２桁）、１００（３桁）など複数の数字が連続してなる数字列である。１０という表記はサブワード「１」（いち）とサブワード「０」（れい、または、ぜろ）からなるが、「いちれい」とは発音せず、「じゅう」と発音する。このような読みの変化に対応することが実施の形態５による音声認識装置の目的である。
【００８８】
図１７は、実施の形態５による音声認識装置の構成を示すブロック図である。
図において、数字辞書９は０〜９の各数字について、複数の桁の数字列の各位における音韻列を記憶している。具体的には、数字辞書９はファイルとしてハードディスク装置やフラッシュメモリ、ＲＯＭなどの不揮発性記憶装置や、ＣＤ−ＲＯＭなどの記憶媒体によって記憶されている。図１８は、数字辞書９の構成の例を示す図である。このように、数字辞書には各数字が１の位、１０の位、１００の位、１０００の位などにある場合の音韻列が記憶されている。また’−’（ハイフン）は、その数字に対応する音韻列がないことを示す。
【００８９】
また、サブワードラティス生成部３は、文字表記１００とサブワード辞書２に加えて、数字辞書９を入力として処理を行う。その他、図１と同一の符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。
【００９０】
次に、実施の形態５による音声認識装置の処理について説明する。実施の形態５による音声認識装置の処理は、実施の形態１と比して、ステップＳＴ４０１−４とステップＳＴ４０４−４が異なり、さらにステップＳＴ４０３−３とステップＳＴ４０５の間にステップＳＴ８０３及びＳＴ８０４の処理が増えている点が相違点であり、他の処理は実施の形態１と同様である。そこで、以下の説明ではこれらの相違点を中心に説明することとする。
【００９１】
ステップＳＴ４０１−４において、サブワード辞書２に記憶されているサブワードと数字辞書９のすべてに対して処理を完了したどうかを判定する。すべてのサブワード及び数字のチェックが完了していなければ、ステップＳＴ４０２に進む（ＳＴ４０１−４：ＮＯ）。一方、サブワードすべてのチェックが完了している場合には、終了する（ＳＴ４０１−４：ＹＥＳ）。
【００９２】
ステップＳＴ４０４−４において、現在のサブワードが数字かどうかを判定する。数字である場合には、ステップＳＴ８０３に進む（ＳＴ４０４−４：ＹＥＳ）。一方、数字でない場合には、ステップＳＴ４０５に進む（ＳＴ４０４−４：ＮＯ）。
【００９３】
ステップＳＴ８０３において、現在のサブワードの直後に数字が何文字連続するかを算出する。これによって、このサブワードの数字から開始される数字列の桁数を算出し、現在のサブワードの位を算出することができる。さらにステップＳＴ８０４において、現在のサブワードの音韻列を数字辞書９から取得する。
【００９４】
以上から明らかなように、実施の形態５の音声認識装置によれば、数字のサブワードの組み合わせと桁の読み方から音韻列を生成して、認識候補との照合を行うので、利用者が数を発話しても、精度よく認識できる。
【００９５】
なお、業務システムにおいて用いられている数字列にはカンマ（，）が多用される。このような数字列を処理する場合には、実施の形態２の処理と組み合わせて、カンマを発音が省略されるサブワードとして分割するようにしてもよい。
【００９６】
また数字列の前に、￥や＄などの通貨記号がある場合には、これらを発音が省略されるサブワードとして処理するとともに、数字列のサブワードの最後に、「円」（えん）や「ドル」（どる）などのサブワードを挿入するようにしてもよい。
【００９７】
実施の形態６．
さらに、英数字を用いた略語毎に表記と音節と生起確率とを辞書に記憶させておき、この略語とサブワード辞書のサブワードとのラティス構造を生成して、候補語を生成するようにしてもよい。実施の形態６による音声認識装置は、このような処理を行うことを特徴とする。
【００９８】
英数字を用いた略語とは、英単語の頭文字やシラブルの頭文字などを用いて略記した表記であり、具体例としては「ＧＣ」（ゴルフクラブ）、「ＩＣ」（インターチェンジ）などがある。これらの表記は、発音に対応する表記が略されているので、通常のサブワード連結では対応が困難である。そこで実施の形態６による音声認識装置は、これらの略語が語句に存在する場合に正確に語句を選択することを目的とするものである。
【００９９】
図２０は、実施の形態６による音声認識装置の構成を示すブロック図である。
図において、略字辞書１０は略字に用いられる英数字に対して割り当てられる音韻が、英数字一文字をサブワードとして記憶されている。具体的にいうと、ＩＣであれば「Ｉ」（いんたー）、「Ｃ」（ちぇんじ）などである。数字を用いた略語の例としては、「１ＳＴ」（ふぁーすと）、「２ＮＤ」（せかんど）などである。また、略字辞書１０はファイルとしてハードディスク装置やフラッシュメモリ、ＲＯＭなどの不揮発性記憶装置や、ＣＤ−ＲＯＭなどの記憶媒体によって記憶されている。図２１は、略語辞書１０の構成の例を示す図である。この例のように、ラティス構造におけるサブワード間を接続する判断基準として、カテゴリを用いる場合には、カテゴリとして「略語」という分類を作成しておく。
【０１００】
また、サブワードラティス生成部３は、文字表記１００とサブワード辞書２に加えて、略語辞書１０を入力して処理を行う。その他、図１と同一の符号を付した構成要素については、実施の形態１と同様であるので、説明を省略する。
【０１０１】
次に実施の形態６による音声認識装置の処理について説明する。実施の形態６による音声認識装置の処理は、実施の形態１の音声認識装置の処理におけるステップＳＴ４０１とステップＳＴ４０３、ステップＳＴ４０５を除いて同様である。またステップＳＴ４０１に相当する処理においては、全サブワードのチェックに加えて、略語辞書に記憶されている略語サブワードのチェックも行う。さらにステップＳＴ４０３においては、語句と略語サブワードが前方一致するかどうかを調べ、またステップＳＴ４０５においては、略語サブワードをその音韻列とともにラティス構造に追加する。その他の処理については、実施の形態１と同様であるので、説明を省略する。
【０１０２】
以上から明らかなように、実施の形態６の音声認識装置によれば、略語辞書とサブワード辞書から候補語を生成し、認識候補との照合を行うので、利用者が略語表記で表される語を含む未知語を発話しても、精度よく認識できる。
【０１０３】
なお、略語には英数字以外の文字、たとえば’−’（ハイフン）や’／’（スラッシュ）を含んでいてもよいことはいうまでもない。その場合には、略語辞書１０におけるこれらのサブワードの音韻列には、対応する音韻列がないことを示す’−’（ハイフン）が格納される。ただし英数字以外の文字に対しても何らかの読みが付与される略語の場合には、その音韻列を格納するようにする。
【０１０４】
また上記において、略語辞書とサブワード辞書は別体のものとして説明したが、略語を実施の形態１における当て字サブワードとして取り扱い、サブワード辞書に記憶させるようにしても同様の効果が得られる。
【０１０５】
実施の形態７．
なお、実施の形態１のサブワード辞書２に、旧仮名遣いによる表記とその音韻を当て字サブワードとして記録させておくことにより、利用者の旧仮名遣いによる表記の発話を認識させるようにしてもよい。
【０１０６】
実施の形態８．
また各サブワードの表記に対して、日本語とは異なる言語（中国語、韓国語、梵語など）による読みを、サブワードの読みとしてサブワード辞書２に記憶させておくことにより、利用者が発話した未知の外来語を認識させるようにしてもよい。
【０１０７】
例えば麻雀という語句は日本語の読みに基づいてサブワードに分割すると「麻」（ま、または、あさ）、「雀」（じゃく、または、すずめ、など）に分割されるが、これらのサブワードからは「まーじゃん」という読みは得られない。そこで、このような場合にそれぞれのサブワードの中国語読みをサブワード辞書に記憶させておけば、利用者が未知語として「まーじゃん」と発話しても、音声認識の結果、正しい表記が得られるようになる。
【０１０８】
以上から明らかなように、実施の形態８の音声認識装置によれば、他国語による読みをサブワード辞書に記憶させておき、このサブワードに基づいて候補語を生成して、認識候補との照合を行うので、利用者が略語表記で表される語を含む未知語を発話しても、精度よく認識できる。
【０１０９】
【発明の効果】
この発明の音声認識装置によれば、サブワード辞書の生起確率に基づいてラティス構造を生成し、このラティス構造に基づいて音韻列を生成して、利用者の発話に含まれる未知語と照合することとしたので、音韻列生成時に組み合わせ爆発を防止することができ、効率よく未知語を音声認識することができる、という効果を奏するものである。
【図面の簡単な説明】
【図１】この発明の実施の形態１の音声認識装置の構成を示すブロック図である。
【図２】この発明の実施の形態１のサブワード辞書の内容の例を示す図である。
【図３】この発明の実施の形態１、２の音声認識装置の処理のフローチャートである。
【図４】この発明の実施の形態１の音声認識装置によるラティス構造生成処理のフローチャートである。
【図５】この発明の実施の形態１、２の音声認識装置によって生成されるラティス構造の例を示す図である。
【図６】この発明の実施の形態１、２の音声認識装置によって生成されるラティス構造の例を示す図である。
【図７】この発明の実施の形態１、２の音声認識装置による音韻列照合処理のフローチャートである。
【図８】この発明の実施の形態２の音声認識装置の構成を示すブロック図である。
【図９】この発明の実施の形態２の無音表記サブワード辞書の内容の例を示す図である。
【図１０】この発明の実施の形態２の音声認識装置によるラティス構造生成処理のフローチャートである。
【図１１】この発明の実施の形態３の音声認識装置の構成を示すブロック図である。
【図１２】この発明の実施の形態３の無表記サブワード辞書の内容の例を示す図である。
【図１３】この発明の実施の形態３の音声認識装置によるラティス構造生成処理のフローチャートである。
【図１４】この発明の実施の形態４の音声認識装置の構成を示すブロック図である。
【図１５】この発明の実施の形態４の踊り字辞書の内容の例を示す図である。
【図１６】この発明の実施の形態４の音声認識装置によるラティス構造生成処理のフローチャートである。
【図１７】この発明の実施の形態５の音声認識装置の構成を示すブロック図である。
【図１８】この発明の実施の形態５の数字辞書の内容の例を示す図である。
【図１９】この発明の実施の形態５の音声認識装置によるラティス構造生成処理のフローチャートである。
【図２０】この発明の実施の形態６の音声認識装置の構成を示すブロック図である。
【図２１】この発明の実施の形態６の略語辞書の内容の例を示す図である。
【符号の説明】
１：音韻列分離部、２：サブワード辞書、３：サブワードラティス生成部、
４：音韻列推測部、５：照合部、６：無音表記辞書、
７：無表記サブワード辞書、８：踊り字辞書、９：数字辞書、１０：略語辞書、１００：文字表記、１０１：入力音声

Claims

入力音声を音節単位に分離して、分離結果を認識候補の音韻列として出力する音韻列分離手段と、
サブワード毎に少なくとも音韻列と生起確率とを保持するサブワード辞書記憶手段と、
音韻列が未知である所定の表記をサブワードに分割するとともに、前記サブワード辞書記憶手段が保持しているサブワードの生起確率に基づいて、前記所定の表記についてサブワードによるラティス構造を生成するサブワードラティス生成手段と、
前記サブワードラティス生成手段が生成したラティス構造に基づいてサブワードの音韻列を結合して音節を生成し、生成された音節を前記所定の表記の音韻列として出力する音韻列推測手段と、
前記音韻列推測手段が生成した前記単語表記の音韻列と前記音韻列分離手段が出力した認識候補の音韻列とを照合し、合致するか否かを判定する照合手段と、を備えることを特徴とする音声認識装置。
音読する上で発音が省略される表記のサブワードを保持する無音表記辞書記憶手段をさらに備え、
前記サブワードラティス生成手段は、前記表記から分割されたサブワードが前記無音表記辞書記憶手段の保持している表記のサブワードである場合に、該サブワードを省略して前記ラティス構造を生成することを特徴とする請求項１に記載された音声認識装置。
表記上慣用的に省略される送りがなの音韻列を保持する無表記音韻記憶手段をさらに備え、
前記サブワードラティス生成手段は、慣用的に送りがなが省略される表記を含む前記所定の表記をサブワードに分割し、
前記音韻列推測手段は、慣用的に送りがなが省略された表記に対応する前記結合されたサブワードの音韻列間に、前記無表記音韻記憶手段が保持している音韻列を挿入し、該挿入結果である音韻列を前記所定の表記の音韻列として出力することを特徴とする請求項１に記載された音声認識装置。
前記サブワードラティス生成手段は、踊り字を含む前記所定の表記をサブワードに分割するとともに、踊り字のサブワードを該サブワードの直前のサブワードに置換して、前記ラティス構造を生成することを特徴とする請求項１に記載された音声認識装置。
前記サブワードラティス生成手段は、踊り字のサブワードを該サブワードの直前のサブワードに置換して、さらに踊り字の種類に基づいて置換後のサブワードの音韻を濁音化し、前記ラティス構造を生成することを特徴とする請求項４に記載された音声認識装置。
複数桁からなる数字の各位の音韻列を、当該位の数字毎に保持する数字辞書記憶手段をさらに備え、
前記サブワードラティス生成手段は、数字列を含む前記所定の表記をサブワードに分割するとともに、該サブワードの音韻列を該数字列の各々の位と該数字とについて前記数字辞書記憶手段が保持している音韻列に置換し、前記ラティス構造を生成することを特徴とする請求項１に記載された音声認識装置。
前記サブワードラティス生成手段は、通貨記号を用いた金額を含む前記所定の表記をサブワードに分割するとともに、該サブワードの音韻列を該数字列の各々の位と該数字とについて前記数字辞書記憶手段が保持している音韻列に置換し、前記数字列のサブワードの直後に通貨記号に対応するサブワードを挿入して、さらに前記ラティス構造を生成することを特徴とする請求項６に記載された音声認識装置。
前記サブワード辞書記憶手段は、略語のサブワードについて少なくとも音韻列と生起確率とをさらに保持し、
前記サブワードラティス生成手段は、略語を含む前記所定の表記をサブワードに分割するとともに、分割されたサブワードが略語についてのものである場合に該サブワードの音韻列を、前記サブワード辞書記憶手段が保持している略語のサブワードの音韻列に置換し、さらに前記ラティス構造を生成することを特徴とする請求項１に記載された音声認識装置。
前記サブワード辞書記憶手段は、旧仮名遣いのサブワードについて少なくとも音韻列と生起確率とをさらに保持し、
前記サブワードラティス生成手段は、旧仮名遣いを含む前記所定の表記をサブワードに分割するとともに、分割されたサブワードが旧仮名遣いについてのものである場合に該サブワードの音韻列を、前記サブワード辞書記憶手段が保持している旧仮名遣いのサブワードの音韻列に置換し、さらに前記ラティス構造を生成することを特徴とする請求項１に記載された音声認識装置。
前記サブワード辞書記憶手段は、サブワードについて日本語読みとは異なる読みによる音韻列とその生起確率とをさらに保持することを特徴とする請求項１に記載された音声認識装置。
入力音声を音節単位に分離して、分離結果を認識候補の音韻列として出力する音韻列分離手順と、
サブワード毎に少なくとも音韻列と生起確率とを保持するサブワード辞書記憶手順と、
音韻列が未知である所定の表記をサブワードに分割するとともに、前記サブワード辞書記憶手順により保持されているサブワードの生起確率に基づいて、前記所定の表記についてサブワードによるラティス構造を生成するサブワードラティス生成手順と、
前記サブワードラティス生成手順により生成されたラティス構造に基づいてサブワードの音韻列を結合し、該結合された音節を前記所定の表記の音韻列として出力する音韻列推測手順と、
前記音韻列推測手順により生成された前記単語表記の音韻列と前記音韻列分離手順により出力された認識候補の音韻列とを照合し、合致するか否かを判定する照合手順とを、コンピュータに実行させることを特徴とする音声認識プログラム。