JP2004309654A

JP2004309654A - 音声認識装置

Info

Publication number: JP2004309654A
Application number: JP2003100605A
Authority: JP
Inventors: Toshiyuki Hanazawa; 利行花沢; Tomohiro Iwasaki; 知弘岩崎
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2003-04-03
Filing date: 2003-04-03
Publication date: 2004-11-04
Anticipated expiration: 2023-04-03
Also published as: JP4236502B2

Abstract

【課題】あまり一般的ではない言い替え語が発声されても一定以上の認識精度を確保することができる一方、正式名称や一般的な言い替え語が発声された場合には高い認識精度を得ることができる音声認識装置を得ることを目的とする。
【解決手段】音声パターンモデル照合部５により特定された認識語彙の照合スコアＳ１（ｃ１）が閾値Ｔｈ１を上回っていれば、その認識語彙を含む照合結果を認識結果として出力し、閾値Ｔｈ１を上回っていなければ、テキスト照合部１０により特定された認識語彙を含む照合結果を認識結果として出力する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
この発明は、音声信号を解析して、その音声信号に対応する認識語彙を出力する音声認識装置に関するものである。
【０００２】
【従来の技術】
音声認識は、一般に音声を音響分析して得られる音声の特徴ベクトルの時系列と、その特徴ベクトルの時系列パターンをモデル化した音声パターンモデルとのパターンマッチングを行うことにより実現される。通常、音声パターンモデルは、認識対象とする語彙毎に用意される。
例えば、ホテルや観光施設の名称を認識対象とする音声認識システムを構築する場合、利用者は正式な名称を知らない場合があるので、一つの施設に対して複数個の名称（言い替え語）を用意する必要がある。例えば「横浜○○ホテル」の場合、「横浜○○ホテル」という名称の他に、言い替え語として「横浜○○」や「○○ホテル」等の名称を認識語彙として用意することがある。
【０００３】
しかし、音声認識は、上述したように、音声の特徴ベクトルの時系列と音声パターンモデルとのパターンマッチングを行うことにより実現されるので、言い替え語の全てに対して音声パターンモデルを用意すると、パターンマッチングの演算量が膨大になる。
これに対処する方式として、入力音声をテキスト音節列に変換することにより、認識対象語彙とのパターンマッチングを演算量の少ないテキスト上で行うという方法がある。
入力音声からテキスト音節列に変換する部分も、日本語に現れる音節の種類は百数十個と少なく、演算量・メモリ量が少なくて済むため、全体の演算量とメモリ量を小さくすることができる。
以下の特許文献１には、上記処理方式を採用する従来の音声認識装置が開示されている。
【０００４】
【特許文献１】
特開昭６２−２１９０００号公報（第４頁から第６頁、図２）
【０００５】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、パターンマッチングの演算量を少なくすることができる。しかし、音声の特徴ベクトルの時系列と音声パターンモデルのパターンマッチングを行う方式と比べて認識性能が劣化する課題があった。特に、言い替え語の種類を増やすと、類似単語の個数が増加するため、正式名称を発声した場合でも認識精度が劣化する課題があった。
【０００６】
この発明は上記のような課題を解決するためになされたもので、あまり一般的ではない言い替え語が発声されても一定以上の認識精度を確保することができる一方、正式名称や一般的な言い替え語が発声された場合には高い認識精度を得ることができる音声認識装置を得ることを目的とする。
【０００７】
【課題を解決するための手段】
この発明に係る音声認識装置は、第１の照合手段により特定された認識語彙の照合尤度が所定の閾値を上回っていれば、その認識語彙を認識結果として出力し、所定の閾値を上回っていなければ、第２の照合手段により特定された認識語彙を認識結果として出力するようにしたものである。
【０００８】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１はこの発明の実施の形態１による音声認識装置を示す構成図であり、図において、音声入力端子１は利用者の発声を入力して音声信号を出力する。音響分析部２は音声入力端子１から音声信号が入力されると、その音声信号を音響分析して、その音声信号から特徴ベクトルの時系列を抽出する音響分析手段を構成している。
【０００９】
認識語彙辞書３は認識語彙Ｗ１（ｉ）の単語識別番号、かな漢字表記Ｋ１（ｉ）、音節表記Ｐ１（ｉ）を登録している（図２を参照）。ただし、ｉ＝１〜Ｎ１であり、Ｎ１は認識語彙辞書３に登録されている語彙数である。また、単語識別番号が同じ語彙は、何れかの語が言い替え語であり、同じ施設等を表している。
音響モデル格納部４は例えば連続分布型のＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）が用いられている音響モデルを格納している。なお、音響モデルは、日本語に含まれる全ての音素に対して多数の話者の音声データを用いて作成されており、例えば、“ａ”，“ｉ”，“ｕ”などの母音の他、“ｋ”，“ｍ”，“ｓ”などの子音が音響モデルとして作成される。
音声パターンモデル照合部５は予め認識語彙辞書３に格納されている認識語彙毎に、その認識語彙の音節表記にしたがって音響モデルを連結して音声パターンモデルを生成する一方、音響分析部２から特徴ベクトルの時系列を受けると、その特徴ベクトルの時系列と、予め生成した複数の認識語彙に係る音声パターンモデルとを照合して、最も照合尤度が高い認識語彙を特定する。なお、認識語彙辞書３、音響モデル格納部４及び音声パターンモデル照合部５から第１の照合手段が構成されている。
【００１０】
基本単位接続規則格納部６は基本単位照合部７がパターンマッチングを実施する際の基本単位間の接続規則を格納している。例えば、基本単位として日本語に現れる音節を用いる場合、基本単位間の接続規則としては音節間で任意の接続を許すものとなる。
基本単位照合部７は音響分析部２により抽出された特徴ベクトルの時系列の先頭に位置する音節（音）から順番に各種の音響モデルとのパターンマッチングを実施して最も尤度が高い音響モデルを特定し、複数の解析結果（最も尤度が高い音響モデル）を順次接続して音節列（音列）を生成する。
【００１１】
大規模語彙辞書８は認識語彙Ｗ２（ｉ）の単語識別番号、かな漢字表記Ｋ２（ｉ）、音節表記Ｐ２（ｉ）を登録している（図３を参照）。ただし、ｉ＝１〜Ｎ２であり、Ｎ２は認識語彙辞書３に登録されている語彙数であるが、認識語彙辞書３よりも多くの言い替え語が登録されている。差分表格納部９は実際に発話された正しい音節と基本単位照合部７により生成された音節に対応する尤度が記述されている差分表を格納している（図４を参照）。なお、差分表は予め発話内容が既知の音声データを用いて作成されている。
テキスト照合部１０は基本単位照合部７により生成された音節列と、大規模語彙辞書８に登録されている複数の認識語彙に係る音節列とをテキストレベルで照合し、最も照合尤度が高い認識語彙を特定する。なお、音響モデル格納部４、基本単位接続規則格納部６、基本単位照合部７、大規模語彙辞書８、差分表格納部９及びテキスト照合部１０から第２の照合手段が構成されている。
【００１２】
リジェクト判定部１１は音声パターンモデル照合部５により特定された認識語彙の照合スコア（照合尤度）が閾値Ｔｈ１を上回っていれば、その認識語彙を含む照合結果を出力するとともに、その照合結果の採用を意味する「１」の判定結果を出力する。一方、その照合スコアが閾値Ｔｈ１を上回っていなければ、その照合結果のリジェクトを意味する「０」の判定結果を出力する。
認識結果出力部１２はリジェクト判定部１１から出力された判定結果が「１」であれば、リジェクト判定部１１から出力された認識語彙を含む照合結果を認識結果として出力する。一方、その判定結果が「０」の場合、テキスト照合部１０により特定された認識語彙の照合スコアが閾値Ｔｈ２（第２の閾値）を上回っていれば、その認識語彙を含む照合結果を認識結果として出力し、その照合スコアが閾値Ｔｈ２を上回っていなければ、認識失敗を意味する「φ」を認識結果として出力する。なお、リジェクト判定部１１及び認識結果出力部１２から認識結果出力手段が構成されている。
【００１３】
なお、図１の音声認識装置の全構成要素をハードウエアで構成してもよいが、各構成要素の機能を実現するプログラムをメモリ等に記録し、それらのプログラムを実行するコンピュータを用意するようにしてもよい。
【００１４】
次に動作について説明する。
まず、利用者が音声入力端子１に向けて発声すると、音声入力端子１から音声信号が音響分析部２に与えられる。
音響分析部２は、音声入力端子１から音声信号を受けると、例えば、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）法を用いて、その音声信号を音響分析することにより、その音声信号から特徴ベクトルの時系列を抽出する。この場合、この特徴ベクトルはＬＰＣケプストラムになる。
【００１５】
音声パターンモデル照合部５は、予め、認識語彙辞書３に格納されている認識語彙毎に、その認識語彙Ｗ１（ｉ）の音節表記Ｐ１（ｉ）にしたがって、音響モデル格納部４に格納されている音響モデルを連結して音声パターンモデル（音響分析部２により抽出される特徴ベクトルの時系列パターンをモデル化した音声パターンモデル）を生成する。
その後、音響分析部２から特徴ベクトルの時系列を受けると、例えば、ビタビアルゴリズムを用いて、その特徴ベクトルの時系列と、予め生成した複数の認識語彙Ｗ１（ｉ）に係る音声パターンモデルとを照合して、認識語彙Ｗ１（ｉ）に対する照合スコアＳ１（ｉ）を求める。
そして、認識語彙辞書３に格納されている全ての認識語彙に対して照合スコアＳ１（ｉ）（ｉ＝１〜Ｎ１）を求めると、最も照合スコアＳ１が高い認識語彙を特定し、その認識語彙の単語番号ｃ１と、かな漢字表記Ｋ１（ｃ１）と、音節表記Ｐ１（ｃ１）と、照合スコアＳ１（ｃ１）とを照合結果として出力する。
【００１６】
一方、基本単位照合部７は、音声入力端子１から音声信号を受けると、例えば、ワンパスＤＰアルゴリズムを実施することにより、その特徴ベクトルの時系列の先頭に位置する音節から順番に各種の音響モデルとのパターンマッチングを実施して最も尤度が高い音響モデルを特定する。
例えば、ユーザの入力音声が「横浜デパート・・・」である場合、先頭の音節である「ｙｏ」と、音響モデル格納部４に格納されている複数の音響モデルとのパターンマッチングを実施して、「ｙｏ」と最も尤度が高い音響モデルを特定する。
【００１７】
次に、先頭から２番目の音節である「ｋｏ」と、音響モデル格納部４に格納されている複数の音響モデルとのパターンマッチングを実施して、「ｋｏ」と最も尤度が高い音響モデルを特定する。
以後、同様にして、特徴ベクトルの時系列に含まれている全ての音節について、上記のパターンマッチングを実施して、最も尤度が高い音響モデルをそれぞれ特定する。
基本単位照合部７は、全ての音節についてパターンマッチングを終えると、各パターンマッチングにおいて、最も尤度が高いと認定した音響モデルを順次接続して音節列を生成する。
【００１８】
テキスト照合部１０は、基本単位照合部７から音節列を受けると、例えば、阿部他「１段目の最適解と正解の差分傾向を考慮した２段階探索法」、音響学会講演論文集、１−Ｒ−１５、１９９８．９に開示されている方法を用いて、基本単位照合部７により生成された音節列と、大規模語彙辞書８に登録されている複数の認識語彙Ｗ２（ｉ）に係る音節列とをテキストレベルで照合して、認識語彙Ｗ２（ｉ）に対する照合スコアＳ２（ｉ）を求める。
【００１９】
なお、テキストレベルでの照合では、基本単位照合部７により生成された音節列を構成する音節毎に、図４に示すような差分表から、その音節と認識語彙Ｗ２（ｉ）に係る音節（実際に発話された正しい音節）に対応する尤度を取得し、基本単位照合部７により生成された音節列を構成する全音節の尤度を加算して、照合スコアＳ２（ｉ）を求める。
テキスト照合部１０は、大規模語彙辞書８に格納されている全ての認識語彙に対して照合スコアＳ２（ｉ）（ｉ＝１〜Ｎ２）を求めると、最も照合スコアＳ２が高い認識語彙を特定し、その認識語彙の単語番号ｃ２と、かな漢字表記Ｋ２（ｃ２）と、音節表記Ｐ２（ｃ２）と、照合スコアＳ２（ｃ２）とを照合結果として出力する。
【００２０】
リジェクト判定部１１は、音声パターンモデル照合部５から照合結果を受けると、その照合結果に含まれている認識語彙の照合スコアＳ１（ｃ１）と予め設定された閾値Ｔｈ１を比較し、その照合スコアＳ１（ｃ１）が閾値Ｔｈ１を上回っていれば、その照合結果を認識結果出力部１２に出力するとともに、その照合結果の採用を意味する「１」の判定結果を認識結果出力部１２に出力する。
一方、その照合スコアＳ１（ｃ１）が閾値Ｔｈ１を上回っていなければ、その照合結果のリジェクトを意味する「０」の判定結果を認識結果出力部１２に出力する。
【００２１】
認識結果出力部１２は、リジェクト判定部１１から出力された判定結果が「１」であれば、リジェクト判定部１１から出力された照合結果を認識結果として出力する。
一方、その判定結果が「０」の場合、テキスト照合部１０から出力された照合結果に含まれている認識語彙の照合スコアＳ２（ｃ２）と予め設定された閾値Ｔｈ２を比較し、その照合スコアＳ２（ｃ２）が閾値Ｔｈ２を上回っていれば、その照合結果を出力する。
しかし、その照合スコアＳ２（ｃ２）が閾値Ｔｈ２を上回っていなければ、認識失敗を意味する「φ」を認識結果として出力する。
【００２２】
この実施の形態１による音声認識装置の場合、上記のように構成されているので、例えば、利用者が「関内の横浜デパート」と発声した場合、この施設の正式名称は「横浜デパート関内南口駅前店」であり、認識語彙辞書３には「関内の横浜デパート」という言い替え語が登録されていない。
したがって、音声パターンモデル照合部５から出力された照合結果に含まれている認識語彙は、他の語彙となるため、その認識語彙の照合スコアＳ１（ｃ１）は低くなり、リジェクト判定部１１によって、当該照合結果はリジェクトされることになる。
しかし、この場合、大規模語彙辞書８には、利用者の発話である「関内の横浜デパート」と一致する言い替え語が登録されているので、正しい認識結果を得ることができる。
【００２３】
一方、利用者が「横浜デパート関内店」と発声した場合、識語彙辞書３には「横浜デパート関内南口駅前店」の言い替え語として「横浜デパート関内店」が登録されているので、音声パターンモデル照合部５のパターンマッチングによって「横浜デパート関内店」が高い照合スコアＳ１（ｃ１）で出力されることが期待できる。
したがって、リジェクト判定部１１によって、当該照合結果がリジェクトされることはなく、認識結果出力部１２は当該照合結果を認識結果として出力することになる。
この場合、テキスト照合部１０の照合結果を全く使用しないので、大規模語彙辞書８に大量の言い替え語が登録されていても、認識語彙辞書３に登録してある認識語彙に対する認識精度が劣化することはない。
【００２４】
以上で明らかなように、この実施の形態１によれば、音声パターンモデル照合部５により特定された認識語彙の照合スコアＳ１（ｃ１）が閾値Ｔｈ１を上回っていれば、その認識語彙を含む照合結果を認識結果として出力し、閾値Ｔｈ１を上回っていなければ、テキスト照合部１０により特定された認識語彙を含む照合結果等を認識結果として出力するように構成したので、あまり一般的ではない言い替え語が発声されても一定以上の認識精度を確保することができる一方、正式名称や一般的な言い替え語が発声された場合には高い認識精度を得ることができる効果を奏する。
【００２５】
実施の形態２．
図５はこの発明の実施の形態２による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
音響モデル格納部１３は例えば先行と後続の音素の違いによってモデルを別モデルとするトライフォン音素パターンモデルを格納している。
例えば、「足（ａｓｉ）」と「椅子（ｉｓｕ）」の第２音素は、ともに／ｓ／であるが、先行と後続の音素が異なるので、トライフォン音素パターンモデルとしては別のモデルとなる。即ち、「足（ａｓｉ）」では／ｓ／の先行音素が／ａ／、後続音素が／ｉ／であるのに対し、「椅子（ｉｓｕ）」では、／ｓ／の先行音素が／ｉ／、後続音素が／ｕ／であるので、トライフォン音素パターンモデルとしては別のモデルとなる。
【００２６】
上記実施の形態１では、音声パターンモデル照合部５と同様に、基本単位照合部７が音響モデル格納部４に格納されている音響モデルを用いるものについて示したが、基本単位照合部７では、音響モデル格納部１３に格納されているトライフォン音素パターンモデルを用いるようにしてもよい。
この場合、基本単位照合部７が参照する音響モデルの種類が、音響モデル格納部４に格納されている音響モデル（音素パターンモデル）を参照する場合よりも多くなる。このため、パターンマッチングに要する演算量が多くなるが、認識精度が高くなるので、テキスト照合部１０における照合結果の認識精度が向上するようになる。
なお、基本単位照合部７におけるパターンマッチング処理は、基本単位である音節間で任意の接続を許すワンパスＤＰであり、認識語彙数に依存せず元々演算量が小さいので、トライフォン音素パターンモデルを用いることによる演算量の増加は実質的に問題とならない。
【００２７】
実施の形態３．
図６はこの発明の実施の形態３による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
リジェクト判定部１４は基本単位照合部７により生成された音節列と、音声パターンモデル照合部５により特定された認識語彙の音節表記Ｐ１（ｃ１）とをテキストレベルで照合してテキスト照合スコアＳＴ（ｃ１）を求める一方、そのテキスト照合スコアＳＴ（ｃ１）と、音声パターンモデル照合部５により特定された認識語彙の照合スコアＳ１（ｃ１）とから複合スコアＳ３（ｃ１）を求め、その複合スコアＳ３（ｃ１）が閾値Ｔｈ３を上回っていれば、音声パターンモデル照合部５により特定された認識語彙を含む照合結果を出力するとともに、その照合結果の採用を意味する「１」の判定結果を出力する。一方、その複合スコアＳ３（ｃ１）が閾値Ｔｈ３を上回っていなければ、その照合結果のリジェクトを意味する「０」の判定結果を出力する。なお、リジェクト判定部１４は認識結果出力手段を構成している。
【００２８】
次に動作について説明する。
音声パターンモデル照合部５は、上記実施の形態１と同様にして最も照合尤度が高い認識語彙を特定し、その認識語彙を含む照合結果をリジェクト判定部１４に出力する。
一方、基本単位照合部７も、上記実施の形態１と同様にして音節列を生成し、その音節列をテキスト照合部１０及びリジェクト判定部１４に出力する。
テキスト照合部１０は、基本単位照合部７から音節列を受けると、上記実施の形態１と同様にして最も照合尤度が高い認識語彙を特定し、その認識語彙を含む照合結果を認識結果出力部１２に出力する。
【００２９】
リジェクト判定部１４は、基本単位照合部７から音節列を受けると、差分表格納部９に格納されている差分表を用いて、基本単位照合部７により生成された音節列と、音声パターンモデル照合部５により特定された認識語彙の音節表記Ｐ１（ｃ１）とをテキストレベルで照合してテキスト照合スコアＳＴ（ｃ１）を求める。なお、テキストレベルのパターンマッチングは、テキスト照合部１０におけるパターンマッチングと同様である。
【００３０】
リジェクト判定部１４は、上記のようにしてテキスト照合スコアＳＴ（ｃ１）を求めると、そのテキスト照合スコアＳＴ（ｃ１）と、音声パターンモデル照合部５により特定された認識語彙の照合スコアＳ１（ｃ１）とを下記の式（１）に代入して複合スコアＳ３（ｃ１）を求める。なお、式（１）におけるｗは事前に設定される定数である。
Ｓ３（ｃ１）＝ｗ×Ｓ１（ｃ１）＋（１−ｗ）×ＳＴ（ｃ１）（１）
【００３１】
そして、リジェクト判定部１４は、複合スコアＳ３（ｃ１）と予め設定された閾値Ｔｈ３を比較し、その複合スコアＳ３（ｃ１）が閾値Ｔｈ３を上回っていれば、音声パターンモデル照合部５から出力された照合結果を認識結果出力部１２に出力するとともに、その照合結果の採用を意味する「１」の判定結果を認識結果出力部１２に出力する。
一方、その複合スコアＳ３（ｃ１）が閾値Ｔｈ３を上回っていなければ、その照合結果のリジェクトを意味する「０」の判定結果を認識結果出力部１２に出力する。
認識結果出力部１２は、上記実施の形態１と同様にして認識結果を出力する。
【００３２】
以上で明らかなように、この実施の形態３によれば、基本単位照合部７により生成された音節列を考慮して複合スコアＳ３（ｃ１）を求め、その複合スコアＳ３（ｃ１）に基づいて音声パターンモデル照合部５から出力された照合結果のリジェクトを判定するように構成したので、リジェクト判定がより正確になり、認識結果出力部１２から出力される認識結果の認識精度を更に高めることができる効果を奏する。
【００３３】
実施の形態４．
図７はこの発明の実施の形態４による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
結果通知部１５は正解ボタンと不正解ボタンが設けられているタッチパネルから構成され、認識結果を得た利用者が正解ボタン又は不正解ボタンを押すと、押されたボタンに対応する結果通知情報を通知する。出現頻度格納部１６は結果通知部１５から通知された結果通知情報が認識結果正解を示している場合、その認識結果に係る認識語彙の単語識別番号、かな漢字表記、音節表記及び出現頻度（正解と判断された回数）を格納する（図８を参照）。
語彙追加部１７は出現頻度格納部１６に格納されている出現頻度と予め設定された閾値ＴｈＣｎｔを比較し、その出現頻度が閾値ＴｈＣｎｔを上回ると、その認識結果に係る認識語彙の単語識別番号、かな漢字表記及び音節表記を認識語彙辞書３に登録する。なお、結果通知部１５、出現頻度格納部１６及び語彙追加部１７から語彙登録手段が構成されている。
【００３４】
次に動作について説明する。
この実施の形態４では、認識結果出力部１２が上記実施の形態１と同様にして認識結果を出力すると、その認識結果が正解であれば、ユーザが結果通知部１５の正解ボタンを押し、その認識結果が不正解であれば、ユーザが結果通知部１５の不正解ボタンを押すものとする。
【００３５】
結果通知部１５は、利用者が正解ボタンを押すと、認識結果が正解である旨を意味する「１」を結果通知情報として語彙追加部１７に出力する。一方、利用者が不正解ボタンを押すと、認識結果が不正解である旨を意味する「０」を結果通知情報として語彙追加部１７に出力する。
語彙追加部１７は、結果通知部１５から「１」の結果通知情報を受け、かつ、その認識結果がテキスト照合部１０の照合結果に係るものである場合、その照合結果に含まれている認識語彙の単語識別番号ｃ２、かな漢字表記Ｋ２（ｃ２）及び音節表記Ｐ２（ｃ２）と出現頻度とを出現頻度格納部１６に格納する。
ただし、語彙追加部１７が出現頻度等を出現頻度格納部１６に格納する際、当該認識語彙と同一の語彙が未だ出現頻度格納部１６に格納されていない場合、”１”の出現頻度を格納し、当該認識語彙と同一の語彙が既に出現頻度格納部１６に格納されている場合、その語彙の出現頻度を１だけインクリメントする。
【００３６】
語彙追加部１７は、出現頻度格納部１６に格納されている出現頻度と予め設定された閾値ＴｈＣｎｔを比較し、その出現頻度が閾値ＴｈＣｎｔを上回ると、その認識結果に係る認識語彙の単語識別番号ｃ２、かな漢字表記Ｋ２（ｃ２）及び音節表記Ｐ２（ｃ２）を認識語彙辞書３に登録する。
一方、その認識結果に係る認識語彙の単語識別番号ｃ２、かな漢字表記Ｋ２（ｃ２）及び音節表記Ｐ２（ｃ２）を大規模語彙辞書８から削除するとともに、出現頻度格納部１６から削除する。
【００３７】
例えば、閾値ＴｈＣｎｔが“４”である場合、図８の例では、「関内の横浜デパート」の出現頻度が閾値ＴｈＣｎｔを上回っているので、「関内の横浜デパート」の単語識別番号である“１”と、かな漢字表記である「関内の横浜デパート」と、音節表記である／ｋａＮｎａｉｎｏｙｏｋｏｈａｍａｄｅｐａａｔｏ／とを追加語彙情報として認識語彙辞書３に出力し、認識語彙辞書３に認識語彙を追加する（図９を参照）。
また、その追加語彙情報と同じ内容の削除語彙情報を大規模語彙辞書８に出力し、大規模語彙辞書８から認識語彙を削除する（図１０を参照）。さらに、その削除語彙情報を出現頻度格納部１６に出力し、出現頻度格納部１６から認識語彙と出現頻度を削除する（図１１を参照）。
【００３８】
この実施の形態４によれば、最初は大規模語彙辞書８に登録されていた認識語彙でも、利用者が発声する出現頻度が一定以上の認識語彙は、認識語彙辞書３に登録されるようになるので、出現頻度が一定以上の認識語彙に対する認識精度を高めることができる効果を奏する。
【００３９】
【発明の効果】
以上のように、この発明によれば、第１の照合手段により特定された認識語彙の照合尤度が所定の閾値を上回っていれば、その認識語彙を認識結果として出力し、所定の閾値を上回っていなければ、第２の照合手段により特定された認識語彙を認識結果として出力するように構成したので、あまり一般的ではない言い替え語が発声されても一定以上の認識精度を確保することができる一方、正式名称や一般的な言い替え語が発声された場合には高い認識精度を得ることができる効果がある。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置を示す構成図である。
【図２】認識語彙辞書の登録内容を示す説明図である。
【図３】大規模語彙辞書の登録内容を示す説明図である。
【図４】差分表の格納内容を示す説明図である。
【図５】この発明の実施の形態２による音声認識装置を示す構成図である。
【図６】この発明の実施の形態３による音声認識装置を示す構成図である。
【図７】この発明の実施の形態４による音声認識装置を示す構成図である。
【図８】出現頻度格納部の格納内容を示す説明図である。
【図９】語彙追加後の認識語彙辞書の登録内容を示す説明図である。
【図１０】語彙削除後の大規模語彙辞書の登録内容を示す説明図である。
【図１１】語彙削除後の出現頻度格納部の格納内容を示す説明図である。
【符号の説明】
１音声入力端子、２音響分析部（音響分析手段）、３認識語彙辞書（第１の照合手段）、４音響モデル格納部（第１の照合手段、第２の照合手段）、５音声パターンモデル照合部（第１の照合手段）、６基本単位接続規則格納部（第２の照合手段）、７基本単位照合部（第２の照合手段）、８大規模語彙辞書（第２の照合手段）、９差分表格納部（第２の照合手段）、１０テキスト照合部（第２の照合手段）、１１リジェクト判定部（認識結果出力手段）、１２認識結果出力部（認識結果出力手段）、１３音響モデル格納部（第２の照合手段）、１４リジェクト判定部（認識結果出力手段）、１５結果通知部（語彙登録手段）、１６出現頻度格納部（語彙登録手段）、１７語彙追加部（語彙登録手段）。

Claims

音声信号を音響分析して、その音声信号から特徴ベクトルの時系列を抽出する音響分析手段と、上記音響分析手段により抽出された特徴ベクトルの時系列と複数の認識語彙に係る音声パターンモデルとを照合して、最も照合尤度が高い認識語彙を特定する第１の照合手段と、上記音響分析手段により抽出された特徴ベクトルの時系列を解析して、その特徴ベクトルの時系列に対応する音列を求め、その音列と複数の認識語彙に係る音列とを照合して、最も照合尤度が高い認識語彙を特定する第２の照合手段と、上記第１の照合手段により特定された認識語彙の照合尤度が所定の閾値を上回っていれば、その認識語彙を認識結果として出力し、所定の閾値を上回っていなければ、上記第２の照合手段により特定された認識語彙を認識結果として出力する認識結果出力手段とを備えた音声認識装置。
認識結果出力手段は、第１の照合手段により特定された認識語彙の照合尤度が所定の閾値を上回っていない場合でも、第２の照合手段により特定された認識語彙の照合尤度が第２の閾値を上回っていない場合、認識失敗を意味する認識結果を出力することを特徴とする請求項１記載の音声認識装置。
第１の照合手段は、予め、認識語彙辞書に格納されている認識語彙毎に、その認識語彙の音節表記にしたがって音響モデルを連結して音声パターンモデルを生成することを特徴とする請求項１記載の音声認識装置。
第２の照合手段は、音響分析手段により抽出された特徴ベクトルの時系列の先頭に位置する音から順番に解析し、複数の解析結果を順次接続して音列を生成することを特徴とする請求項１記載の音声認識装置。
第２の照合手段は、第１の照合手段が使用する音響モデルよりも精密な音響モデルを用いて、特徴ベクトルの時系列に含まれる音を解析することを特徴とする請求項４記載の音声認識装置。
音声信号を音響分析して、その音声信号から特徴ベクトルの時系列を抽出する音響分析手段と、上記音響分析手段により抽出された特徴ベクトルの時系列と複数の認識語彙に係る音声パターンモデルとを照合して、最も照合尤度が高い認識語彙を特定する第１の照合手段と、上記音響分析手段により抽出された特徴ベクトルの時系列を解析して、その特徴ベクトルの時系列に対応する音列を求め、その音列と複数の認識語彙に係る音列とを照合して、最も照合尤度が高い認識語彙を特定する第２の照合手段と、上記第１の照合手段により特定された認識語彙の照合尤度と第２の照合手段による解析結果から照合スコアを求め、その照合スコアが所定の閾値を上回っていれば、上記第１の照合手段により特定された認識語彙を認識結果として出力し、所定の閾値を上回っていなければ、上記第２の照合手段により特定された認識語彙を認識結果として出力する認識結果出力手段とを備えた音声認識装置。
認識結果出力手段から出力された認識結果が正解である旨の情報を受けると、その認識結果として出力した認識語彙を認識語彙辞書に登録する語彙登録手段を設けたことを特徴とする請求項３記載の音声認識装置。