JP4543294B2

JP4543294B2 - 音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number: JP4543294B2
Application number: JP2000069698A
Authority: JP
Inventors: ルッケヘルムート; 活樹南野; 康治浅野; 浩明小川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-03-14
Filing date: 2000-03-14
Publication date: 2010-09-15
Anticipated expiration: 2020-03-14
Also published as: CN1320902A; EP1134727A2; JP2001255889A; US20040167779A1; EP1134727A3; US20010053974A1; CN1199148C; US7249017B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法、並びに記録媒体に関し、特に、例えば、発話中に未知語が含まれる場合の音声認識精度の劣化を低減することができるようにする音声認識装置および音声認識方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
図１は、従来の、連続音声認識を行う音声認識装置の一例の構成を示している。
【０００３】
ユーザが発した音声は、マイク（マイクロフォン）１に入力され、マイク１では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、ＡＤ(Analog Digital)変換部２に供給される。ＡＤ変換部２では、マイク１からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部３に供給される。
【０００４】
特徴抽出部３は、ＡＤ変換部２からの音声データについて、適当なフレームごとに、フーリエ変換やフィルタリング等の音響処理を施し、これにより、例えば、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、マッチング部４に供給する。なお、特徴抽出部３では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。
【０００５】
マッチング部４は、特徴抽出部３からの特徴量を用いて、音響モデルデータベース５、辞書データベース６、および文法データベース７を必要に応じて参照しながら、マイク１に入力された音声（入力音声）を、例えば、連続分布ＨＭＭ法等に基づいて音声認識する。
【０００６】
即ち、音響モデルデータベース５は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布ＨＭＭ法に基づいて音声認識を行うので、音響モデルとしては、例えば、ＨＭＭ(Hidden Markov Model)が用いられる。辞書データベース６は、音声認識対象とする各単語（語彙）について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法データベース７は、辞書データベース６の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則（言語モデル）を記憶している。ここで、文法規則としては、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いることができる。
【０００７】
マッチング部４は、辞書データベース６の単語辞書を参照することにより、音響モデルデータベース５に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部４は、幾つかの単語モデルを、文法データベース７に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布ＨＭＭ法によって、マイク１に入力された音声を認識する。即ち、マッチング部４は、特徴抽出部３が出力する時系列の特徴量が観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【０００８】
即ち、マッチング部４は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【０００９】
スコア計算は、一般に、音響モデルデータベース５に記憶された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアという）と、文法データベース７に記憶された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアという）とを総合評価することで行われる。
【００１０】
即ち、音響スコアは、例えば、ＨＭＭ法による場合には、単語モデルを構成する音響モデルから、特徴抽出部３が出力する特徴量の系列が観測される確率（出現する確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア（以下、適宜、最終スコアという）に基づいて、音声認識結果が確定される。
【００１１】
具体的には、あるＮ個の単語からなる単語列におけるｋ番目の単語をｗ_kとして、その単語ｗ_kの音響スコアをＡ（ｗ_k）と、言語スコアをＬ（ｗ_k）と、それぞれ表すとき、その単語列の最終スコアＳは、例えば、次式にしたがって計算される。
【００１２】
Ｓ＝Σ（Ａ（ｗ_k）＋Ｃ_k×Ｌ（ｗ_k））・・・（１）
但し、Σは、ｋを１からＮに変えてのサメーションをとることを表す。また、Ｃ_kは、単語ｗ_kの言語スコアＬ（ｗ_k）にかける重みを表す。
【００１３】
マッチング部４では、例えば、式（１）に示す最終スコアを最も大きくするＮと、単語列ｗ₁，ｗ₂，・・・，ｗ_Nを求めるマッチング処理が行われ、その単語列ｗ₁，ｗ₂，・・・，ｗ_Nが、音声認識結果として出力される。
【００１４】
以上のような処理が行われることにより、図１の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいと、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。
【００１５】
ところで、音響スコアの計算を、辞書データベース６の単語辞書に登録されているすべての単語について独立に行うと、その計算量が大きくなることから、複数の単語についての音響スコアの計算の一部を共通化（共有化）する方法がある。即ち、単語辞書の単語のうち、その先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の音韻には、音響モデルを個々に用いることにより、全体として１つの木構造のネットワークを構成し、これを用いて、音響スコアを求める方法がある。
【００１６】
この場合、単語辞書は、例えば、図２に示すように、ルートノードを始点として、そのルートノードから、音声認識対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語のネットワーク（単語ネットワーク）で構成される。
【００１７】
単語ネットワークを構成する際、その先頭の音韻が同一の単語については、上述のように、その先頭の音韻から、同一になっている音韻までに対応するブランチは、共通に用いられる。即ち、図２において、各ブランチに付したスラッシュ(/)で囲むアルファベットは、音韻を表しており、四角形で囲んである部分は、単語を表しているが、例えば、単語"I","ice","icy","up"については、その先頭の音韻/A/が同一であるから、その音韻/A/に対応するブランチが１つに共通化されている。また、単語"I","ice","icy"については、その２番目の音韻/I/も同一であるから、先頭の音韻/A/だけでなく、２番目の音韻/I/に対応するブランチも１つに共通化されている。さらに、単語"ice","icy"については、その３番目の音韻/S/も同一であるから、先頭の音韻/A/と２番目の音韻/I/だけでなく、３番目の音韻/S/に対応するブランチも１つに共通化されている。
【００１８】
また、単語"be","beat"については、その先頭の音韻/B/と２番目の音韻/I/が同一であるから、先頭の音韻/B/と２番目の音韻/I/に対応するブランチが１つに共通化されている。
【００１９】
図２の単語ネットワークを構成する単語辞書を用いる場合には、マッチング部４は、単語ネットワークのルートノードから延びるブランチの系列に対応する音韻の音響モデルを、音響モデルデータベース５から読み出して接続し、その接続した音響モデルに基づき、特徴抽出部３からの特徴量の系列を用いて、音響スコアを計算する。
【００２０】
従って、単語"I","ice","icy","up"の音響スコアは、その先頭の音韻/A/については、兼用で計算される。また、単語"I","ice","icy"の音響スコアは、その先頭から２番目までの音韻/A/,/I/については、兼用で計算される。さらに、単語"ice","icy"の音響スコアは、その先頭からその３番目までの音韻/A/,/I/,/S/については、兼用で計算される。そして、単語"up"の残りの音韻（２番目の音韻）/P/、および単語"icy"の残りの音韻（４番目の音韻）/I/については、単独で、音響スコアが計算される。
【００２１】
また、単語"be","beat"の音響スコアは、その先頭から２番目までの音韻/B/，/I/については、兼用で計算される。そして、単語"beat"の残りの音韻（３番目の音韻）/T/については、単独で、音響スコアが計算される。
【００２２】
従って、単語ネットワークを構成する単語辞書を用いることにより、音響スコアの計算量を大幅に低減することができる。
【００２３】
マッチング部４において、上述のように、単語ネットワークのルートノードから延びるブランチの系列（以下、適宜、パスという）に沿って接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアを計算していくと、最終的には、単語ネットワークの最後のノード（図２において、ルートノードから、ブランチに沿って、右方向に移動していった場合の最後のブランチの終端）に到達する。即ち、例えば、音響モデルとして、ＨＭＭを用いる場合には、パスを構成するブランチの系列に沿って接続されたＨＭＭに基づき、特徴量の系列を用いて音響スコアを計算していくと、その接続されたＨＭＭの最後の状態において、音響スコアが、ある程度大きくなる時刻（以下、適宜、極大時刻という）がある。
【００２４】
この場合、マッチング部４では、音響スコアの計算に用いた先頭の特徴量の時刻から、極大時刻までが、パスに対応する単語が発話された音声区間であると仮定され、その単語は、音声認識結果としての単語列を構成する単語の候補とされる。そして、その単語の候補の後に接続する単語の候補の音響スコアの計算が、単語ネットワークのルートノードから延びるブランチの系列（パス）に沿って接続された音響モデルに基づき、極大時刻以後の特徴量の系列を用いて、再び行われる。
【００２５】
マッチング部４において、以上の処理が繰り返されることにより、多数の音声認識結果の候補としての単語列が得られることとなるが、マッチング部４は、そのような多数の単語列の候補のうち、音響スコアが小さいものを破棄することにより、即ち、音響的な枝刈りを行うことにより、音響スコアが所定の閾値以上の単語列、つまり、音声認識結果として、ある程度、音響的に確からしい単語列だけを選択して（残して）、処理を続行していく。
【００２６】
さらに、マッチング部４は、上述のようにして、音響スコアを計算しながら、音声認識結果としての単語列の候補を生成していく過程において、文法データベース７に登録された、例えばＮ−ｇｒａｍ等の文法規則に基づき、音声認識結果としての単語列の候補を構成する単語の言語スコアを計算する。そして、マッチング部４は、その言語スコアが小さい単語を破棄することにより、即ち、言語的な枝刈りを行うことにより、言語スコアが所定の閾値以上の単語列、つまり、音声認識結果として、ある程度、言語的に確からしい単語列だけを選択して、処理を続行していく。
【００２７】
以上のように、マッチング部４は、単語の音響スコアおよび言語スコアを計算し、その音響スコアおよび言語スコアに基づいて、音響的および言語的な枝刈りを行うことで、音声認識結果として確からしい１以上の単語列を選択する。そして、その選択された単語列の後に接続する単語の音響スコアおよび言語スコアを計算していくことを繰り返すことで、最終的には、音声認識結果の候補として、ある程度確からしい１以上の単語列を得る。そして、マッチング部４は、そのような単語列の中から、例えば、式（１）で示される最終スコアが最も大きいものを、音声認識結果として確定する。
【００２８】
【発明が解決しようとする課題】
ところで、音声認識装置においては、例えば、装置の演算速度や、メモリ容量等に起因して、音声認識の対象として、辞書データベース６の単語辞書に登録する単語の数が制限される。
【００２９】
そして、音声認識の対象とする単語が制限されると、対象とされなかった単語（以下、適宜、未知語という）が、ユーザによって発話された場合には、各種の問題が生じる。
【００３０】
即ち、マッチング部４では、未知語が発話された場合であっても、その未知語の音声の特徴量を用いて、単語辞書に登録された各単語の音響スコアが計算され、その音響スコアがある程度大きい単語が、未知語の音声認識結果の候補として、誤って選択される。
【００３１】
このように、未知語が発話された場合には、その未知語の部分において誤りを生じるが、さらに、この誤りは、他の部分の誤りを引き起こす原因にもなる。
【００３２】
即ち、例えば、上述のように、ユーザが、「ニューヨークに行きたいです」と発話した場合において、「ニューヨーク」が未知語であるときには、その「ニューヨーク」の部分において、誤った単語が選択されるため、未知語である「ニューヨーク」と、その後に続く「に」との単語の境界を、正確に決定することが困難となる。その結果、単語の境界に誤りが生じ、その誤りが、他の部分の音響スコアの計算に影響を与える。
【００３３】
具体的には、上述のようにして、「ニューヨーク」ではない、誤った単語が選択された後に、その誤った単語の音響スコアの計算に用いられた特徴量の系列の終点を始点とする特徴量の系列を用いて、次の単語の音響スコアが計算される。従って、音響スコアの計算は、例えば、音声「ニューヨーク」の終わりの部分の特徴量を用いて行われたり、「ニューヨーク」の次の音声「に」の最初の部分の特徴量を用いずに行われたりする。その結果、音声認識結果として正しい単語「に」の音響スコアが、他の単語に比較して小さくなることがある。
【００３４】
さらに、この場合、音声認識結果として誤った単語の音響スコアが、それほど大きくならなくても、その単語の言語スコアが大きくなり、その結果、音響スコアと言語スコアとを総合評価したスコアが、音声認識結果として正しい単語「に」の音響スコアと言語スコアとを総合評価したスコア（以下、適宜、単語スコアという）よりも大きくなることがある。
【００３５】
以上のように、未知語の音声認識を誤ることにより、未知語に近い位置の単語の音声認識も誤ることになる。
【００３６】
音声認識装置において音声認識の対象とする単語としては、一般に、例えば、新聞や小説等において出現頻度の高いものが選定されることが多いが、出現頻度の低い単語が、ユーザによって発話されないという保証はない。従って、未知語については、何らかの対処をとる必要がある。
【００３７】
未知語の対処方法としては、例えば、音声認識の対象となっていない単語である未知語を、その単語を構成する音素や、幾つかの音素でなる音素列といった断片にし、この断片を、擬似的に単語（いわゆるサブワード）として、音声認識の対象とする方法がある。
【００３８】
単語を構成する音素や音素列の種類は、それほど多くはないから、そのような音素や音素列を、擬似的な単語として、音声認識の対象としても、計算量やメモリ容量に、それほど大きな影響は与えない。そして、この場合、未知語は、擬似的な単語（以下、適宜、疑似単語という）の系列として認識され、その結果、見かけ上は、未知語は０になることになる。
【００３９】
なお、この場合、未知語のみならず、単語辞書に登録されている単語が発話されても、擬似単語の系列として認識され得ることとなるが、発話された単語が、単語辞書に登録されている単語、または疑似単語の系列としての未知語のうちのいずれに認識されるかは、それぞれについて計算されるスコアに基づいて決定されることになる。
【００４０】
しかしながら、疑似単語を用いる場合には、未知語は、疑似単語である音素や音素列の系列として認識されるから、未知語は、その属性を利用して処理することができない。即ち、未知語については、例えば、その属性としての品詞が分からないから、文法規則を適用することができず、これに起因して、音声認識精度が劣化する。
【００４１】
また、音声認識装置によっては、辞書データベース６に、複数の言語それぞれについて、その言語の単語辞書を記憶させておき、その単語辞書を、例えば、ユーザの操作に応じて切り替えて、複数の言語の音声認識を可能とするものがある。この場合、いま使用されている単語辞書の言語以外の言語の単語は、未知語となるが、その未知語の属性としての言語が分かれば、その言語の単語辞書に自動的に切り替えることができ、さらに、この場合、その未知語であった単語を正確に認識することが可能となる。
【００４２】
具体的には、例えば、辞書データベース６に、英語とフランス語の単語辞書が記憶されている場合において、そのうちの英語の単語辞書が使用されているときに、未知語がフランス語の単語であることが分かれば、発話者がフランス人に変わったとして、単語辞書を、英語のものからフランス語のものに切り替えて、精度の良い音声認識が可能となる。
【００４３】
本発明は、このような状況に鑑みてなされたものであり、未知語の属性を得ることができるようにすることにより、音声認識精度を向上させることができるようにするものである。
【００４４】
【課題を解決するための手段】
本発明の音声認識装置は、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアを算出し、その音響スコアが所定の閾値以上である単語の系列を選択する音響スコア計算手段と、音響スコア計算手段により選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアを算出し、その言語スコアが所定の閾値以上である単語の系列を選択する言語スコア計算手段と、音響スコアおよび言語スコアに基づいて、言語スコア計算手段により選択された単語の系列の中から、音声認識結果とする単語の系列を選択する選択手段とを備え、言語スコア計算手段は、音響スコア計算手段により選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコア計算手段が音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアを算出することを特徴とする。
【００４６】
辞書には、接尾語を、未知語構成要素として登録しておくことができる。
【００４７】
辞書には、接尾語とともに、未知語を構成する音韻を登録しておくことができる。
【００４８】
辞書には、未知語を、その言語ごとに分類するための未知語構成要素を登録しておくことができる。
【００４９】
本発明の音声認識装置には、辞書をさらに設けることができる。
【００５０】
本発明の音声認識方法は、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアを算出し、その音響スコアが所定の閾値以上である単語の系列を選択する音響計算ステップと、音響スコア計算ステップにおいて選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアを算出し、その言語スコアが所定の閾値以上である単語の系列を選択する言語スコア計算ステップと、音響スコアおよび言語スコアに基づいて、言語スコア計算ステップにおいて選択された単語の系列の中から、音声認識結果とする単語の系列を選択する選択ステップとを備え、言語スコア計算ステップでは、音響スコア計算ステップにおいて選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアを算出することを特徴とする。
【００５１】
本発明の記録媒体は、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアを算出し、その音響スコアが所定の閾値以上である単語の系列を選択する音響計算ステップと、音響スコア計算ステップにおいて選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアを算出し、その言語スコアが所定の閾値以上である単語の系列を選択する言語スコア計算ステップと、音響スコアおよび言語スコアに基づいて、言語スコア計算ステップにおいて選択された単語の系列の中から、音声認識結果とする単語の系列を選択する選択ステップとを備え、言語スコア計算ステップでは、音響スコア計算ステップにおいて選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアを算出するプログラムが記録されていることを特徴とする。
【００５２】
本発明の音声認識装置および音声認識方法、並びに記録媒体においては、ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響的なスコアである音響スコアが算出され、その音響スコアが所定の閾値以上である単語の系列が選択される。また、選択された単語の系列について、所定の文法規則に基づいた言語的なスコアである言語スコアが算出され、その言語スコアが所定の閾値以上である単語の系列が選択される。そして、記音響スコアおよび言語スコアに基づいて、言語スコア計算ステップにおいて選択された単語の系列の中から、音声認識結果とする単語の系列が選択される。このとき、音響スコアに基づいて選択された単語の系列に未知語が含まれている場合、その未知語については、音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する属性ブランチにより分類される品詞に基づいて、言語スコアが算出される。
【００５３】
【発明の実施の形態】
図３は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。なお、図中、図１における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、図３の音声認識装置は、図１の音声認識装置と、基本的に同様に構成されている。
【００５４】
但し、図３の音声認識装置の辞書データベース６には、図１の辞書データベース６に記憶された、音声認識の対象とする単語が登録された単語辞書（以下、適宜、標準辞書という）の他に、未知語を構成する要素であって、未知語を、その属性ごとに分類するための未知語構成要素が登録された未知語辞書も記憶されている。即ち、図３の実施の形態において、辞書データベース６に記憶された単語辞書は、標準辞書と未知語辞書とから構成されている。
【００５５】
そして、図３の辞書データベース６の単語辞書においても、図１の辞書データベース６の単語辞書と同様に、単語ネットワークが構成されている。
【００５６】
即ち、図３の辞書データベース６の単語辞書においては、例えば、図４に示すように、前述の図２における場合と同様の単語ネットワークが構成され、これが、標準辞書とされている。さらに、図３の辞書データベース６の単語辞書においては、ルートノードに、未知語を構成する音素や音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その属性ごとに分類するための音韻（列）が対応付けられた１以上のブランチである属性ブランチが接続されることで、未知語に対処するための単語ネットワークが構成され、これが、未知語辞書とされている。
【００５７】
即ち、図４の実施の形態において、未知語辞書は、ルートノードに、汎用ブランチと属性ブランチが順次接続されて構成されている。さらに、汎用ブランチには、ループとなるブランチ（以下、適宜、ループブランチという）が接続されている。汎用ブランチは、各種の音素や音素列である疑似単語の音韻が対応付けられた１以上のブランチで構成されるから、汎用ブランチを通り、ループブランチを経由して、再び、汎用ブランチを通ることを繰り返すことにより、すべての単語（標準辞書に登録されている単語、および未知語の両方を含む）は、疑似単語の系列として認識可能である。
【００５８】
但し、発話された単語が、標準辞書に登録されている単語、または疑似単語の系列としての未知語のうちのいずれに認識されるかは、それぞれについて計算されるスコアに基づいて決定される。
【００５９】
汎用ブランチには、ループブランチの他、上述したように、属性ブランチが接続されている。属性ブランチは、例えば、未知語を、その品詞ごとに分類するための接尾語の音韻（列）が対応付けられた１以上のブランチで構成されている。即ち、いま、音声認識の対象とする言語を、例えば、英語とすると、属性ブランチは、例えば、一般には英語の名詞の接尾語である"tion"や"ing"の音韻が対応付けられたブランチ、一般には英語の動詞の接尾語である"ed"の音韻が対応付けられたブランチ、一般には英語の形容詞の接尾語である"ive"の音韻が対応付けられたブランチ等で構成されている。
【００６０】
図３のマッチング部４では、図１のマッチング部４と同様に、図４に示した単語辞書を構成する単語ネットワークのルートノードから延びるブランチの系列（パス）に沿って、音響モデルデータベース５に記憶された音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアが計算される。これにより、最終的には、単語ネットワークの最後のノードに到達し、音響スコアが得られるが、即ち、例えば、音響モデルとして、ＨＭＭを用いる場合には、パスを構成するブランチの系列に沿って接続されたＨＭＭに基づき、特徴量の系列を用いて音響スコアが計算され、これにより、その接続されたＨＭＭの最後の状態において、ある時刻（極大時刻）で、音響スコアが、ある程度大きくなるが、その音響スコアが、その計算に用いたパスに対応する単語の音響スコアとされる。
【００６１】
この場合、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録された単語の音声のものであれば、基本的には、標準辞書を構成する単語ネットワークのいずれかの単語に対応するパスに沿って計算された音響スコアが大きくなる。
【００６２】
一方、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録されていない単語、即ち、未知語の音声のものであれば、未知語辞書を構成する単語ネットワークのいずれかのパスに沿って計算された音響スコアが大きくなる。
【００６３】
即ち、未知語の接尾語を除いた語幹（または語根、基体、基底部）については、汎用ブランチを通り、ループブランチを経由して、再び、汎用ブランチを通ることを必要に応じて繰り返すことにより、ある程度大きな音響スコアが得られる。そして、未知語の接尾語については、その接尾語の音韻が対応付けられた属性ブランチを通ることにより、やはり、ある程度大きな音響スコアが得られる。従って、未知語については、汎用ブランチを所定回数通り、その後、所定の属性ブランチを通るパスに沿って計算される音響スコアが、他のパスに沿って計算される音響スコアよりも大きくなる。
【００６４】
そして、未知語の音響スコアが大きくなるときに用いたパスを構成する属性ブランチによって、その未知語の品詞が得られることになる。即ち、そのパスを構成する属性ブランチが、"tion"や"ing"の音韻が対応付けられたものであれば、未知語の品詞は、名詞であると推定することができる。さらに、その属性ブランチが、"ed"の音韻が対応付けられたものであれば、動詞であると、また、"ive"の音韻が対応付けられたものであれば、形容詞であると、それぞれ推定することができる。
【００６５】
次に、図５のフローチャートを参照して、図３の音声認識装置による連続音声認識処理について説明する。
【００６６】
ユーザが発話を行うと、その発話としての音声は、マイク１およびＡＤ変換部２を介することにより、ディジタルの音声データとされ、特徴抽出部３に供給される。特徴抽出部３は、ステップＳ１において、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、マッチング部４に供給する。
【００６７】
マッチング部４は、図示せぬバッファを内蔵しており、特徴抽出部３から供給される特徴量を一時記憶する。そして、マッチング部４は、ステップＳ２において、バッファに記憶した、必要な特徴量の系列を用いて、スコアの計算を行う。
【００６８】
即ち、マッチング部４では、図４に示した単語辞書を構成する単語ネットワークのルートノードから延びるブランチの系列（パス）に沿って、音響モデルデータベース５に記憶された音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアが計算される。これにより、最終的には、単語ネットワークの最後のノードに到達し、音響スコアが得られる。
【００６９】
具体的には、例えば、音響モデルとして、ＨＭＭを用いる場合には、マッチング部４では、パスを構成するブランチの系列に沿って接続されたＨＭＭに基づき、特徴量の系列を用いて音響スコアが計算されていく。この計算の過程で、接続されたＨＭＭの最後の状態における音響スコアが、ある程度大きくなる時刻（極大時刻）があるが、その極大時刻における音響スコアが、その計算に用いたパスに対応する単語（本実施の形態では、標準辞書に登録された単語の他、未知語も含まれる）の音響スコアとされる。
【００７０】
さらに、マッチング部４では、音響スコアの計算に用いた先頭の特徴量の時刻から、極大時刻までが、パスに対応する単語が発話された音声区間であると仮定され、その単語は、音声認識結果としての単語列を構成する単語の候補とされる。そして、その単語の候補の後に接続する単語の候補の音響スコアの計算が、単語ネットワークのルートノードから延びるブランチの系列（パス）に沿って接続されたＨＭＭに基づき、極大時刻以後の特徴量の系列を用いて、再び行われる。
【００７１】
マッチング部４において、以上の処理が繰り返されることにより、多数の音声認識結果の候補としての１以上の単語列が得られることとなるが、マッチング部４は、そのような多数の単語列の候補のうち、音響スコアが小さいものを破棄して、音響的な枝刈りを行うことにより、音響スコアが所定の閾値以上の単語列、つまり、音声認識結果として、ある程度、音響的に確からしい単語列だけを選択して、スコアの計算を続行していく。
【００７２】
さらに、マッチング部４は、上述のようにして、音響スコアを計算しながら、音声認識結果としての単語列の候補を生成していく過程において、文法データベース７に登録された文法規則である、例えば、バイグラム（直前の単語との関係を考慮した単語の生起確率）やトライグラム（直前の単語およびそのさらに１つ前の単語との関係を考慮した単語の生起確率）等に基づき、音声認識結果の候補としての単語列を構成する単語の言語スコアを計算する。そして、マッチング部４は、その言語スコアが小さい単語を破棄して、言語的な枝刈りを行うことにより、言語スコアが所定の閾値以上の単語列、つまり、音声認識結果の候補として、ある程度、言語的に確からしい単語列だけを選択して、処理を続行していく。
【００７３】
ここで、音声認識結果の候補としての単語列が、未知語を含む場合、その未知語については、その音響スコアを計算するときに用いたパスを構成する属性ブランチによって、その未知語の品詞が得られる。従って、未知語については、そのようにして得られた品詞に基づいて、文法規則（言語モデル）を適用することにより、精度の良い言語スコアを得ることができる。
【００７４】
以上のように、マッチング部４は、単語の音響スコアおよび言語スコアを計算し、その音響スコアおよび言語スコアに基づいて、音響的および言語的な枝刈りを行うことで、音声認識結果の候補として確からしい単語列を選択し、その単語列の後に接続する単語の音響スコアおよび言語スコアを計算していくことを繰り返すことで、最終的には、音声区間（但し、音声区間は、何らかの手法によって検出するものとする）の全体に亘って、音声認識結果の候補となる１以上の単語列を得る。
【００７５】
そして、ステップＳ３に進み、マッチング部４は、その１以上の単語列それぞれについて、例えば、前述の式（１）によって与えられる最終スコアを計算する。さらに、マッチング部４は、最終スコアが最も大きい単語列を選択し、その単語列を、最終的な音声認識結果として確定、出力して、処理を終了する。
【００７６】
なお、特徴抽出部３による特徴量の抽出と、マッチング部４によるスコア計算とは、並列して行われる。
【００７７】
また、マッチング部４では、音響的な枝刈りは、音声認識結果の候補となる単語列についてだけでなく、図４の単語ネットワークのパスについても行われる。即ち、マッチング部４は、パスに沿った音響スコアの計算を行っている過程において、ある程度大きな音響スコアを得ることができない見込みがたったときには、その時点で、そのパスに沿った音響スコアの計算を打ち切る。これにより、計算量が低減され、迅速な処理が可能となる。
【００７８】
以上のように、ルートノードに、未知語を構成する音素や音素列である疑似単語の音韻が対応付けられた汎用ブランチを接続し、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻（列）が対応付けられた属性ブランチを接続することにより、未知語に対処するための単語ネットワークを構成し、これを用いて、音響スコアを計算するようにしたので、未知語の品詞を推定し、その品詞に基づいて、未知語の言語スコアを精度良く計算することが可能となる。その結果、未知語について、正確な言語スコアが求められないことによる音声認識精度の劣化を防止し、さらには、その改善を図ることが可能となる。
【００７９】
なお、図４の実施の形態では、未知語の品詞を、その接尾語によって推定するようにしたが、その他、例えば、未知語の属性として、その意味内容を、その接頭語等によって推定し、言語スコアを適用することも可能である。
【００８０】
さらに、未知語の属性として、例えば、その言語を推定することも可能である。
【００８１】
即ち、未知語の言語を推定する場合、図３の辞書データベース６の単語辞書においては、例えば、図６に示すような単語ネットワークが構成される。
【００８２】
図６においても、図４における場合と同様に、単語辞書は、標準辞書と未知語辞書とから構成されている。
【００８３】
但し、図６では、ルートノードに、未知語の言語の音素や音素列である疑似単語の音韻が対応付けられた１以上のブランチである属性ブランチが接続されことで、未知語に対処するための単語ネットワークが構成され、これが、未知語辞書とされている。
【００８４】
即ち、図６の実施の形態では、音声認識装置による音声認識の対象の言語が、基本的には、例えば、英語であるとして、その英語の単語によって、標準辞書が構成されている。
【００８５】
そして、英語以外の言語Ｌ１とＬ２（例えば、フランス語とドイツ語など）それぞれについて、未知語辞書が構成されている。ここで、以下、適宜、言語Ｌ１またはＬ２についての未知語辞書を、それぞれ、Ｌ１語辞書またはＬ２語辞書という。
【００８６】
Ｌ１語辞書は、ルートノードに、言語Ｌ１の音素や音素列である疑似単語の音韻が対応付けられた１以上の属性ブランチが接続され、さらに、その属性ブランチに、ループブランチが接続されることで構成されている。Ｌ２語辞書も、ルートノードに、言語Ｌ２の音素や音素列である疑似単語の音韻が対応付けられた１以上の属性ブランチが接続され、さらに、その属性ブランチに、ループブランチが接続されることで構成されている。
【００８７】
従って、図６では、言語Ｌ１とＬ２の属性ブランチは、それぞれの言語の各種の音素や音素列である疑似単語の音韻が対応付けられた１以上のブランチで構成されるから、属性ブランチを通り、ループブランチを経由して、再び、属性ブランチを通ることを繰り返すことにより、言語Ｌ１とＬ２それぞれの単語は、疑似単語の系列として認識可能である。
【００８８】
但し、この場合、図３の音響モデルデータベース５には、英語の音響モデルの他、言語Ｌ１とＬ２それぞれの各種の音素や音素列の音響モデルも記憶されていることが必要である。
【００８９】
図６に示した単語ネットワークを構成する単語辞書を用いる場合には、マッチング部４では、図４の単語辞書を用いる場合と同様に、図６の単語辞書を構成する単語ネットワークのルートノードから延びるブランチの系列（パス）に沿って、音響モデルデータベース５に記憶された音響モデルが接続され、その接続された音響モデルに基づき、特徴量の系列を用いて、音響スコアが計算される。これにより、最終的には、単語ネットワークの最後のノードに到達し、音響スコアが得られるが、即ち、例えば、音響モデルとして、ＨＭＭを用いる場合には、パスを構成するブランチの系列に沿って接続されたＨＭＭに基づき、特徴量の系列を用いて音響スコアが計算され、これにより、その接続されたＨＭＭの最後の状態において、ある時刻（極大時刻）で、音響スコアが、ある程度大きくなるが、その音響スコアが、その計算に用いたパスに対応する単語の音響スコアとされる。
【００９０】
この場合、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録された英語の単語の音声のものであれば、基本的には、標準辞書を構成する単語ネットワークのいずれかの単語に対応するパスに沿って計算された音響スコアが大きくなる。
【００９１】
一方、音響スコアの計算に用いられた特徴量の系列が、標準辞書に登録されていない単語、即ち、未知語としての言語Ｌ１やＬ２の単語の音声のものであれば、未知語辞書（ここでは、Ｌ１語辞書またはＬ２語辞書）を構成する単語ネットワークのいずれかのパスに沿って計算された音響スコアが大きくなる。
【００９２】
即ち、未知語としての言語Ｌ１またはＬ２の単語の音声については、それぞれ、言語Ｌ１またはＬ２の属性ブランチを通り、ループブランチを経由して、再び、言語Ｌ１またはＬ２の属性ブランチを通ることを必要に応じて繰り返すことにより、他のパスに沿って計算される音響スコアよりも、大きな音響スコアが得られる。
【００９３】
そして、未知語の音響スコアが大きくなるときに用いたパスを構成する属性ブランチによって、その未知語の言語が得られることになる。即ち、そのパスを構成する属性ブランチが、言語Ｌ１またはＬ２の属性ブランチであれば、未知語の言語は、言語Ｌ１またはＬ２の単語であると、それぞれ推定することができる。
【００９４】
従って、この場合、例えば、辞書データベース６に、図６に示したような単語辞書に加えて、言語Ｌ１とＬ２それぞれについて、図６の標準辞書と同様に構成される単語辞書を記憶しておけば、未知語の言語が、言語Ｌ１またはＬ２であると推定された後に、使用する単語辞書を、その推定された言語の単語辞書に切り替えて、スコアの計算をやり直すことにより、その推定された言語による発話を、精度良く音声認識することが可能となる。
【００９５】
なお、上述の場合には、未知語の言語として、２つの言語の推定を行うようにしたが、１つの言語だけや、３以上の言語の推定を行うようにすることも可能である。
【００９６】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【００９７】
そこで、図７は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【００９８】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。
【００９９】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０１００】
なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。
【０１０１】
コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。
【０１０２】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１０３】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０１０４】
なお、本実施の形態では、音響モデルとして、ＨＭＭを用いることとしたが、音響モデルとしては、その他、例えば、ニューラルネットワークに基づくモデル等を用いることも可能である。
【０１０５】
また、本実施の形態では、マッチング部４で用いる単語辞書に、未知語を構成する要素であって、未知語を、その属性ごとに分類するための未知語構成要素が登録された未知語辞書を含めるようにしたが、未知語辞書は、その他、例えば、マッチング部４でスコア計算の対象とする１以上の単語を予備的に選択する、いわゆる予備選択を行う音声認識装置において、その予備選択に用いる単語辞書に含めるようにすることも可能である。
【０１０６】
さらに、本実施の形態では、単語の先頭の音韻が同一のものについて、その先頭の音韻から、同一になっている音韻までは、音響モデルを共通に用い、それ以後の音韻には、音響モデルを個々に用いることにより、全体として１つの木構造の単語ネットワークを構成し、これに基づいて、音響スコアを計算するようにしたが、単語の音響スコアの計算は、各単語について、個別に、音響モデルを接続し、単語ごとに独立に行うことも可能である。
【０１０７】
また、図４の実施の形態では、汎用ブランチに、ループブランチを接続し、未知語の語幹について、汎用ブランチを通り、ループブランチを経由して、再び、汎用ブランチを通ることを必要に応じて繰り返すことにより、その音響スコアを計算することとしたが、未知語の語幹については、その他、例えば、ループブランチを用いずに、汎用ブランチを必要な数だけシリーズに接続して、その音響スコアを、ビタビ法によって計算することが可能である。図６のループブランチが接続された属性ブランチについても、同様である。
【０１０８】
さらに、本実施の形態では、英語を、音声認識の対象としたが、本発明は、英語以外の言語を対象に音声認識を行う場合にも適用可能である。
【０１０９】
【発明の効果】
本発明の音声認識装置および音声認識方法、並びに記録媒体によれば、未知語の、例えば、品詞等の属性を推定することが可能となり、その結果、未知語に起因する音声認識精度の劣化を防止することが可能となる。
【図面の簡単な説明】
【図１】従来の音声認識装置の一例の構成を示すブロック図である。
【図２】図１の辞書データベース６に記憶された単語辞書の構成例を示す図である。
【図３】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図４】図３の辞書データベース６に記憶された単語辞書の構成例を示す図である。
【図５】図３の音声認識装置の処理を説明するためのフローチャートである。
【図６】図３の辞書データベース６に記憶された単語辞書の他の構成例を示す図である。
【図７】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
１マイク，２ＡＤ変換部，３特徴抽出部，４マッチング部，５音響モデルデータベース，６辞書データベース，７文法データベース，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を連続音声認識する音声認識装置であって、
前記音声から、その特徴量を抽出する抽出手段と、
ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、前記特徴量の系列を用いて、音響的な前記スコアである音響スコアを算出し、その音響スコアが所定の閾値以上である前記単語の系列を選択する音響スコア計算手段と、
前記音響スコア計算手段により選択された前記単語の系列について、所定の文法規則に基づいた言語的な前記スコアである言語スコアを算出し、その言語スコアが所定の閾値以上である前記単語の系列を選択する言語スコア計算手段と、
前記音響スコアおよび前記言語スコアに基づいて、前記言語スコア計算手段により選択された前記単語の系列の中から、音声認識結果とする前記単語の系列を選択する選択手段と
を備え、
前記言語スコア計算手段は、前記音響スコア計算手段により選択された前記単語の系列に未知語が含まれている場合、その未知語については、前記音響スコア計算手段が音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する前記属性ブランチにより分類される品詞に基づいて、言語スコアを算出する
ことを特徴とする音声認識装置。
前記辞書には、接尾語が、前記属性ブランチとして登録されている
ことを特徴とする請求項１に記載の音声認識装置。
前記辞書には、前記接尾語とともに、未知語を構成する音韻が登録されている
ことを特徴とする請求項２に記載の音声認識装置。
前記辞書には、未知語を、その言語ごとに分類するための属性ブランチが登録されている
ことを特徴とする請求項１に記載の音声認識装置。
前記辞書をさらに備える
ことを特徴とする請求項１に記載の音声認識装置。
入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を連続音声認識する音声認識方法であって、
前記音声から、その特徴量を抽出する抽出ステップと、
ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、前記特徴量の系列を用いて、音響的な前記スコアである音響スコアを算出し、その音響スコアが所定の閾値以上である前記単語の系列を選択する音響計算ステップと、
前記音響スコア計算ステップにおいて選択された前記単語の系列について、所定の文法規則に基づいた言語的な前記スコアである言語スコアを算出し、その言語スコアが所定の閾値以上である前記単語の系列を選択する言語スコア計算ステップと、
前記音響スコアおよび前記言語スコアに基づいて、前記言語スコア計算ステップにおいて選択された前記単語の系列の中から、音声認識結果とする前記単語の系列を選択する選択ステップと
を備え、
前記言語スコア計算ステップでは、前記音響スコア計算ステップにおいて選択された前記単語の系列に未知語が含まれている場合、その未知語については、前記音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する前記属性ブランチにより分類される品詞に基づいて、言語スコアを算出する
ことを特徴とする音声認識方法。
入力された音声に対して、その音声認識結果の尤度を表すスコアを計算し、そのスコアに基づいて、前記音声を連続音声認識する音声認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記音声から、その特徴量を抽出する抽出ステップと、
ルートノードを始点として、そのルートノードから、音声認識の対象とする各単語の先頭からの音韻に対応するブランチを順次接続していくことで得られる木構造の単語ネットワークにより構成された標準辞書と、ルートノードに、未知語を構成する音素または音素列である疑似単語の音韻が対応付けられた１以上のブランチである汎用ブランチが接続され、さらに、その汎用ブランチに、未知語を、その品詞ごとに分類するための音韻が対応付けられた１以上のブランチである属性ブランチが接続されていくことで得られる木構造の単語ネットワークにより構成された未知語辞書とが登録された辞書におけるルートノードから延びるブランチの系列に沿って音響モデルが接続され、その接続された音響モデルに基づき、前記特徴量の系列を用いて、音響的な前記スコアである音響スコアを算出し、その音響スコアが所定の閾値以上である前記単語の系列を選択する音響計算ステップと、
前記音響スコア計算ステップにおいて選択された前記単語の系列について、所定の文法規則に基づいた言語的な前記スコアである言語スコアを算出し、その言語スコアが所定の閾値以上である前記単語の系列を選択する言語スコア計算ステップと、
前記音響スコアおよび前記言語スコアに基づいて、前記言語スコア計算ステップにおいて選択された前記単語の系列の中から、音声認識結果とする前記単語の系列を選択する選択ステップと
を備え、
前記言語スコア計算ステップでは、前記音響スコア計算ステップにおいて選択された前記単語の系列に未知語が含まれている場合、その未知語については、前記音響スコア計算ステップにおいて音響スコアを算出した際に、未知語の音響スコアが大きくなるときに用いた系列を構成する前記属性ブランチにより分類される品詞に基づいて、言語スコアを算出する
プログラムが記録されている
ことを特徴とする記録媒体。