JP4600706B2

JP4600706B2 - 音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number: JP4600706B2
Application number: JP2000051465A
Authority: JP
Inventors: 活樹南野; 康治浅野; 浩明小川; ルッケヘルムート
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-02-28
Filing date: 2000-02-28
Publication date: 2010-12-15
Anticipated expiration: 2020-02-28
Also published as: JP2001242885A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置および音声認識方法、並びに記録媒体に関し、特に、大語彙を対象とした精度の高い音声認識を行うことができるようにする音声認識装置および音声認識方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
図１は、従来の音声認識装置の一例の構成を示している。
【０００３】
ユーザが発した音声は、マイク（マイクロフォン）１に入力され、マイク１では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、ＡＤ(Analog Digital)変換部２に供給される。ＡＤ変換部２では、マイク１からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、特徴抽出部３に供給される。
【０００４】
特徴抽出部３は、ＡＤ変換部２からの音声データについて、適当なフレームごとに音響処理を施し、これにより、例えば、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)等の特徴量を抽出し、マッチング部４に供給する。なお、特徴抽出部３では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。
【０００５】
マッチング部４は、特徴抽出部３からの特徴量を用いて、音響モデルデータベース５、辞書データベース６、および文法データベース７を必要に応じて参照しながら、マイク１に入力された音声（入力音声）を、例えば、連続分布ＨＭＭ法等に基づいて音声認識する。
【０００６】
即ち、音響モデルデータベース５は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布ＨＭＭ法に基づいて音声認識を行うので、音響モデルとしては、例えば、ＨＭＭ(Hidden Markov Model)が用いられる。辞書データベース６は、認識対象の各単語について、その発音に関する情報（音韻情報）が記述された単語辞書を記憶している。文法データベース７は、辞書データベース６の単語辞書に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則を記憶している。ここで、文法規則としては、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いることができる。
【０００７】
マッチング部４は、辞書データベース６の単語辞書を参照することにより、音響モデルデータベース５に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、マッチング部４は、幾つかの単語モデルを、文法データベース７に記憶された文法規則を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布ＨＭＭ法によって、マイク１に入力された音声を認識する。即ち、マッチング部４は、特徴抽出部３が出力する時系列の特徴量が観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【０００８】
即ち、マッチング部４は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【０００９】
スコア計算は、一般に、音響モデルデータベース５に記憶された音響モデルによって与えられる音響的なスコア（以下、適宜、音響スコアという）と、文法データベース７に記憶された文法規則によって与えられる言語的なスコア（以下、適宜、言語スコアという）とを総合評価することで行われる。
【００１０】
即ち、音響スコアは、例えば、ＨＭＭ法による場合には、単語モデルを構成する音響モデルから、特徴抽出部３が出力する特徴量の系列が観測される確率（出現する確率）に基づいて、単語ごとに計算される。また、言語スコアは、例えば、バイグラムによる場合には、注目している単語と、その単語の直前の単語とが連鎖（連接）する確率に基づいて求められる。そして、各単語についての音響スコアと言語スコアとを総合評価して得られる最終的なスコア（以下、適宜、最終スコアという）に基づいて、音声認識結果が確定される。
【００１１】
具体的には、あるＮ個の単語からなる単語列におけるｋ番目の単語をｗ_kとして、その単語ｗ_kの音響スコアをＡ（ｗ_k）と、言語スコアをＬ（ｗ_k）と、それぞれ表すとき、その単語列の最終スコアＳは、例えば、次式にしたがって計算される。
【００１２】
Ｓ＝Σ（Ａ（ｗ_k）＋Ｃ_k×Ｌ（ｗ_k））・・・（１）
但し、Σは、ｋを１からＮに変えてのサメーションをとることを表す。また、Ｃ_kは、単語ｗ_kの言語スコアＬ（ｗ_k）にかける重みを表す。
【００１３】
マッチング部４では、例えば、式（１）に示す最終スコアを最も大きくするＮと、単語列ｗ₁，ｗ₂，・・・，ｗ_Nを求めるマッチング処理が行われ、その単語列ｗ₁，ｗ₂，・・・，ｗ_Nが、音声認識結果として出力される。
【００１４】
以上のような処理が行われることにより、図１の音声認識装置では、例えば、ユーザが、「ニューヨークに行きたいです」と発話した場合には、「ニューヨーク」、「に」、「行きたい」、「です」といった各単語に、音響スコアおよび言語スコアが与えられ、それらを総合評価して得られる最終スコアが最も大きいときと、単語列「ニューヨーク」、「に」、「行きたい」、「です」が、音声認識結果として出力される。
【００１５】
【発明が解決しようとする課題】
ところで、図１の音声認識装置は、それ専用のハードウェアによって実現することも、また、コンピュータによって実行されるプログラムとしてのソフトウェアで実現することも可能である。
【００１６】
しかしながら、例えば、リアルタイムで音声認識を行う場合には、いずれにしても、音声認識の対象とする単語（語彙）数、即ち、辞書データベース６の単語辞書に登録可能な単語（語彙）とその音韻情報との組の数、および文法データベース７における文法規則で扱うことのできる単語（語彙）の数は、音声認識装置を実現する専用のハードウェアとしての論理回路等の演算器およびメモリや、コンピュータを構成するＣＰＵおよびメモリ等によって制限を受ける。
【００１７】
即ち、特に、文法規則については、例えば、Ｎ−ｇｒａｍ等の単語の連鎖確率に基づくものを採用した場合には、音声認識の対象とする単語が増加すると、文法規則として規定しなければならない単語の並びが、増加した単語数の累乗に比例して増加するため、その文法規則を記憶しておくのに必要なメモリの容量が莫大に増加する。従って、文法データベース７における文法規則が扱うことのできる単語数は、メモリの容量によって大きく制限される。
【００１８】
また、音声認識の対象とする単語数が増加すると、単語辞書に登録する単語数も増加し、その分、音響スコアを計算しなければならない単語数も増加するから、リアルタイム性を維持するには、音声認識の対象とする単語数は、演算器やＣＰＵの処理速度によっても制限される。
【００１９】
さらに、単語辞書に登録する単語の数は、文法規則の場合ほどではないが、やはり、メモリの容量によっても制限される。即ち、単語辞書に登録する単語が増加すると、その増加分に比例した容量のメモリが必要となる。従って、１個の単語に、１通りの音韻情報だけを組み合わせる場合には、メモリの容量の増加分はそれほど大きくはならない。しかしながら、音声認識の精度を向上させるために、１個の単語に、複数の音韻情報を組み合わせる場合（例えば、単語「お早う」に対して、音韻情報「おはよう」、「おはよー」、「おはよ」、および「はよう」を組み合わせる場合）には、その組み合わせる音韻情報の数が増加するほど、必要なメモリの容量が増加する。さらに、この場合、音響スコアの計算量も増加する。
【００２０】
そして、音声認識の対象とする単語が制限されると、対象とされなかった単語（以下、適宜、未登録語という）が、ユーザによって発話された場合には、各種の問題が生じる。
【００２１】
即ち、未登録語については、単語辞書に、その音韻情報が登録されていないため、その音響スコアを正確に計算することはできない。さらに、未登録語については、文法規則において扱われていないため、その言語スコアも正確に計算することはできない。従って、ユーザの音声の認識結果としての単語列を決定する際に、未登録語の部分において誤りを生じる。さらに、この誤りは、他の部分の誤りを引き起こす原因にもなる。
【００２２】
具体的には、例えば、上述のように、ユーザが、「ニューヨークに行きたいです」と発話した場合において、「ニューヨーク」が未登録語であるときには、その「ニューヨーク」の部分において、正確な音響スコアおよび言語スコアの計算ができない。さらに、「ニューヨーク」について正確な音響スコアの計算ができないことにより、「ニューヨーク」と、その後に続く「に」との単語の境界の決定において誤りが生じ、その誤りが、他の部分の音響スコアの計算に影響を与える。
【００２３】
音声認識装置において音声認識の対象とする単語としては、一般に、例えば、新聞や小説等において出現頻度の高いものが選定されることが多いが、出現頻度の低い単語が、ユーザによって発話されないという保証はない。従って、未登録語については、何らかの対処をとることが必要である。
【００２４】
そこで、例えば、廣瀬良文他、「「読み」を考慮した言語モデルによる大語彙連続音声認識」、日本音響学会講演論文集、pp.55-56，1999年3月や、廣瀬良文他、「「読み」情報に基づく高被覆率言語モデルを用いた大語彙連続音声認識」、日本音響学会講演論文集、pp.69-70，1999年3月〜10月等には、単語の音韻情報（読み情報）に基づく音声認識処理と、かな漢字変換とを組み合わせることによって、未登録語を削減する音声認識方法（以下、適宜、第１の方法という）が開示されている。
【００２５】
第１の方法では、単語辞書の単語や、文法規則で扱う単語を、漢字表記による区別を行わず、音韻情報だけで表しておき、それによって得られる単語の音韻情報の系列が、かな漢字変換によって、漢字表記の単語列に変換され、音声認識結果として出力される。
【００２６】
従って、第１の方法では、単語が、その音韻情報だけで同定されるため、例えば、「張る」や、「貼る」、「春」等が、すべて「はる」という同一の単語であるとして扱われるから、結果として、音声認識の対象とする単語数を増加させることができる。
【００２７】
しかしながら、第１の方法では、仮に、正しい単語の音韻情報の系列が得られたとしても、かな漢字変換において、その音韻情報の系列の変換を誤ると、音声認識結果も誤ったものとなる。
【００２８】
さらに、音韻情報、即ち、読みが同一の単語には限りがあるため、第１の方法では、未登録語を削減できるといっても、その大幅な削減は困難である。
【００２９】
また、未登録語の対処方法としては、例えば、伊藤克亘他、「被服率を重視した大規模連続音声認識用統計言語モデル」、日本音響学会講演論文集、pp.65-66，1999年3月等に、サブワードモデルを用いた方法（以下、適宜、第２の方法という）が開示されている。
【００３０】
第２の方法では、単語辞書や文法に登録されていない単語としての未登録語が、音節等の細かい単位（この単位が、サブワードと呼ばれる）に分割され、各サブワードが、１つの単語として、単語辞書や文法規則に登録される。サブワードとして、例えば、音節を用いた場合には、サブワードとなる単語の数は、それほど多くならないから、第２の方法によれば、メモリの容量をそれほど増加させずに、未登録語に対処することができる。即ち、第２の方法では、未登録語は、サブワード単位で認識される。
【００３１】
しかしながら、第２の方法では、未登録語でない単語、即ち、単語辞書や文法に登録されている単語（以下、適宜、登録語という）についても、サブワード単位の認識が行われるため、それに起因して、登録語が、サブワードの系列として誤認識されることがある。
【００３２】
即ち、例えば、いま、「入浴」が登録語で、「ニューヨーク」が未登録語であるとすると、未登録語「ニューヨーク」は、例えば、「ニュ」、「ウー」、「ヨ」、「オー」、「ク」等のサブワードに分割され、単語辞書および文法規則に登録される。そして、この場合、ユーザが、「入浴」と発話した場合に、登録語である「入浴」ではなく、サブワードの系列である「ニュ」、「ウー」、「ヨ」、「ク」（「ニューヨク」）が、音声認識結果として得られることがある。
【００３３】
一方、文法規則は、上述のように、登録語（音声認識の対象とする単語）を増加させると、その単語の増加分の累乗に比例することから、これを防止するための方法として、登録語を、その品詞によって、幾つかのグループに分類し、各グループどうしの関係として、文法規則を記述するクラス文法を採用する方法がある。
【００３４】
クラス文法によれば、例えば、１０００単語の登録語が、１０のグループに分類された場合には、その１０のグループどうしの関係を規定する文法規則だけで済むので、文法規則を記憶しておくのに必要なメモリの容量は、グループ数にのみ依存し、登録語の数に依存しなくなる。
【００３５】
しかしながら、クラス文法を用いた場合でも、音響スコアの計算量は、登録語の数に依存するから、単語辞書に登録可能な単語（登録語）の数は、その計算能力によって制限される。
【００３６】
本発明は、このような状況に鑑みてなされたものであり、大語彙を対象とした精度の高い音声認識を行うことができるようにするものである。
【００３７】
【課題を解決するための手段】
本発明の音声認識装置は、入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、音声を認識する音声認識装置であって、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、音声認識の対象とする第１の単語群を登録している第１の基本辞書と、音声認識の対象とする第２の単語群であって、且つ、第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第１の単語群として第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書とから、スコアの計算の対象とする１以上の単語を選択する単語選択手段と、第１の単語群の各単語を登録している、第１の基本辞書とは異なる第２の基本辞書の単語について、言語的なスコアを計算するための第１の文法規則を、第２の基本辞書の単語ごとに記憶しているとともに、追加辞書の単語について、言語的なスコアを計算するための第２の文法規則を、属性ごとに記憶している第１の文法規則記憶手段と、第１の基本辞書から選択された単語について、音響的なスコアを計算するとともに、第１の文法規則に基づいて言語的なスコアを計算し、追加辞書から選択された単語について、音響的なスコアを計算するとともに、その単語の属性に対応する第２の文法規則に基づいて言語的なスコアを計算するスコア計算手段と、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶する接続関係記憶手段と、単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列を確定する確定手段と、第１の所定数の音響モデルを記憶している第１の音響モデル記憶手段と、第１の所定数よりも多い音響モデルを記憶している第２の音響モデル記憶手段と、第１の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている第１の基本辞書、および第１の基本辞書に未登録の単語からなる第２の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている追加辞書を記憶している第１の単語辞書記憶手段と、登録している第１の単語群の各単語に対して第２の所定数よりも多い音韻情報が対応付けられている第２の基本辞書、および単語選択手段において追加辞書から選択された単語を登録する動的追加辞書を記憶している第２の単語辞書記憶手段と、言語的なスコアを計算するための第３の文法規則を記憶している第２の文法規則記憶手段と、単語選択手段により選択された１以上の単語のうち、追加辞書から選択された単語を、第２の単語辞書記憶手段に記憶されている動的追加辞書に登録する登録手段とを備え、第１の文法規則記憶手段は、第３の文法規則よりも精度が高い文法規則として、第２の基本辞書の単語についての第１の文法規則、および追加辞書における属性ごとの単語についての第２の文法規則を記憶しており、単語選択手段は、第１の音響モデル記憶手段、第１の単語辞書記憶手段、および第２の文法規則記憶手段を参照して行なう音声認識処理により、スコアの計算の対象とする１以上の単語を選択し、登録手段は、単語選択手段により、追加辞書から単語が選択された場合、その単語を、動的追加辞書に登録し、スコア計算手段は、単語選択手段により選択された単語について、第２の音響モデル記憶手段、第２の単語辞書記憶手段、および第１の文法規則記憶手段を参照して行なう音声認識処理により、第１の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する。
【００３８】
前記ノードには、時刻情報として、始端側を接続しているアークが表す単語に対応する発話の開始時刻、および終端側を接続しているアークが表す単語に対応する発話の終了時刻を有するようにすることができる。
【００３９】
属性は、単語の品詞または意味とすることができる。
【００４１】
本発明の音声認識方法は、入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、音声を認識する音声認識装置の音声認識方法であって、音声認識装置は、音声認識の対象とする第１の単語群を登録している第１の基本辞書とは異なる第２の基本辞書であって、第１の単語群の各単語を登録している第２の基本辞書の単語について、言語的なスコアを計算するための第１の文法規則を、第２の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第２の単語群であって、且つ、第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第１の単語群として第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第２の文法規則を、属性ごとに記憶している第１の文法規則記憶手段を有しており、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、第１の基本辞書と、追加辞書とから、スコアの計算の対象とする１以上の単語を選択する単語選択ステップと、第１の基本辞書から選択された単語について、音響的なスコアを計算するとともに、第１の文法規則に基づいて言語的なスコアを計算し、追加辞書から選択された単語について、音響的なスコアを計算するとともに、その単語の属性に対応する第２の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列を確定する確定ステップとを含み、音声認識装置は、さらに、第１の所定数の音響モデルを記憶している第１の音響モデル記憶手段と、第１の所定数よりも多い音響モデルを記憶している第２の音響モデル記憶手段と、第１の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている第１の基本辞書、および第１の基本辞書に未登録の単語からなる第２の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている追加辞書を記憶している第１の単語辞書記憶手段と、登録している第１の単語群の各単語に対して第２の所定数よりも多い音韻情報が対応付けられている第２の基本辞書、および単語選択ステップの処理において追加辞書から選択された単語を登録する動的追加辞書を記憶している第２の単語辞書記憶手段と、言語的なスコアを計算するための第３の文法規則を記憶している第２の文法規則記憶手段とを有しており、単語選択ステップの処理により選択された１以上の単語のうち、追加辞書から選択された単語を、第２の単語辞書記憶手段に記憶されている動的追加辞書に登録する登録ステップをさらに含み、第１の文法規則記憶手段は、第３の文法規則よりも精度が高い文法規則として、第２の基本辞書の単語についての第１の文法規則、および追加辞書における属性ごとの単語についての第２の文法規則を記憶しており、単語選択ステップは、第１の音響モデル記憶手段、第１の単語辞書記憶手段、および第２の文法規則記憶手段を参照して行なう音声認識処理により、スコアの計算の対象とする１以上の単語を選択し、登録ステップは、単語選択ステップの処理により、追加辞書から単語が選択された場合、その単語を、動的追加辞書に登録し、スコア計算ステップは、単語選択ステップの処理により選択された単語について、第２の音響モデル記憶手段、第２の単語辞書記憶手段、および第１の文法規則記憶手段を参照して行なう音声認識処理により、第１の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する。
【００４２】
本発明の記録媒体は、入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、音声を認識する音声認識装置のコンピュータに処理を行わせるプログラムが記録されている記録媒体であって、音声認識装置は、音声認識の対象とする第１の単語群を登録している第１の基本辞書とは異なる第２の基本辞書であって、第１の単語群の各単語を登録している第２の基本辞書の単語について、言語的なスコアを計算するための第１の文法規則を、第２の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第２の単語群であって、且つ、第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第１の単語群として第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第２の文法規則を、属性ごとに記憶している第１の文法規則記憶手段を有しており、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、第１の基本辞書と、追加辞書とから、スコアの計算の対象とする１以上の単語を選択する単語選択ステップと、第１の基本辞書から選択された単語について、音響的なスコアを計算するとともに、第１の文法規則に基づいて言語的なスコアを計算し、追加辞書から選択された単語について、音響的なスコアを計算するとともに、その単語の属性に対応する第２の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列を確定する確定ステップとを含み、音声認識装置は、さらに、第１の所定数の音響モデルを記憶している第１の音響モデル記憶手段と、第１の所定数よりも多い音響モデルを記憶している第２の音響モデル記憶手段と、第１の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている第１の基本辞書、および第１の基本辞書に未登録の単語からなる第２の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている追加辞書を記憶している第１の単語辞書記憶手段と、登録している第１の単語群の各単語に対して第２の所定数よりも多い音韻情報が対応付けられている第２の基本辞書、および単語選択ステップの処理において追加辞書から選択された単語を登録する動的追加辞書を記憶している第２の単語辞書記憶手段と、言語的なスコアを計算するための第３の文法規則を記憶している第２の文法規則記憶手段とを有しており、単語選択ステップの処理により選択された１以上の単語のうち、追加辞書から選択された単語を、第２の単語辞書記憶手段に記憶されている動的追加辞書に登録する登録ステップをさらに含み、第１の文法規則記憶手段は、第３の文法規則よりも精度が高い文法規則として、第２の基本辞書の単語についての第１の文法規則、および追加辞書における属性ごとの単語についての第２の文法規則を記憶しており、単語選択ステップは、第１の音響モデル記憶手段、第１の単語辞書記憶手段、および第２の文法規則記憶手段を参照して行なう音声認識処理により、スコアの計算の対象とする１以上の単語を選択し、登録ステップは、単語選択ステップの処理により、追加辞書から単語が選択された場合、その単語を、動的追加辞書に登録し、スコア計算ステップは、単語選択ステップの処理により選択された単語について、第２の音響モデル記憶手段、第２の単語辞書記憶手段、および第１の文法規則記憶手段を参照して行なう音声認識処理により、第１の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する処理を、コンピュータに行わせるプログラムが記録されている。
【００４３】
本発明の音声認識装置および音声認識方法、並びに記録媒体においては、入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、音声認識の対象とする第１の単語群を登録している第１の基本辞書と、音声認識の対象とする第２の単語群であって、且つ、第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、第１の単語群として第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書とから、スコアの計算の対象とする１以上の単語が選択され、第１の基本辞書から選択された単語について、音響的なスコアが計算されるとともに、第１の文法規則に基づいて言語的なスコアが計算され、追加辞書から選択された単語について、音響的なスコアが計算されるとともに、その単語の属性に対応する第２の文法規則に基づいて言語的なスコアが計算され、時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、複数のパス毎に、パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、音声認識結果となる単語列が確定される。
【００４４】
【発明の実施の形態】
図２は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。なお、図中、図１における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
【００４５】
特徴量抽出部３が出力する、ユーザが発した音声の特徴量の系列は、フレーム単位で、制御部１１に供給されるようになっており、制御部１１は、特徴量抽出部３からの特徴量を、特徴量記憶部１２に供給する。
【００４６】
また、制御部１１は、単語接続情報記憶部１５に記憶された単語接続情報を参照し、マッチング部１４を制御する。さらに、制御部１１は、マッチング部１４が、前述した図１のマッチング部４と同様のマッチング処理を行うことにより得られるマッチング処理結果としての音響スコアや言語スコア等に基づいて、単語接続情報を生成し、その単語接続情報によって、単語接続情報記憶部１５の記憶内容を更新する。また、制御部１１は、単語接続情報記憶部１５に記憶された単語接続情報に基づいて、最終的な音声認識結果を確定して出力する。
【００４７】
特徴量記憶部１２は、制御部１１から供給される特徴量の系列を、例えば、ユーザの音声の認識結果が得られるまで記憶する。なお、制御部１１は、音声区間の開始時刻を基準（例えば０）とする、特徴抽出部３が出力する特徴量が得られた時刻（以下、適宜、抽出時刻という）を、その特徴量とともに、特徴量記憶部１２に供給するようになっており、特徴量記憶部１２は、特徴量を、その抽出時刻とともに記憶する。
【００４８】
単語予備選択部１３は、マッチング部１４からの要求に応じ、単語接続情報記憶部１５、音響モデルデータベース１６Ａ、辞書データベース１７Ａ、および文法データベース１８Ａを必要に応じて参照しながら、マッチング部１４でマッチング処理の対象とする単語を選択する単語予備選択処理を、特徴量記憶部１２に記憶された特徴量を用いて行う。この単語予備選択処理の結果は、マッチング部１４に供給されるようになっている。
【００４９】
マッチング部１４は、制御部１１からの制御に基づき、単語接続情報記憶部１５、音響モデルデータベース１６Ｂ、辞書データベース１７Ｂ、および文法データベース１８Ｂを必要に応じて参照しながら、単語予備選択部１３からの単語予備選択処理の結果得られる単語を対象としたマッチング処理を、特徴量記憶部１２に記憶された特徴量を用いて行い、そのマッチング処理の結果を、制御部１１に供給する。
【００５０】
単語接続情報記憶部１５は、制御部１１から供給される単語接続情報を、ユーザの音声の認識結果が得られるまで記憶する。
【００５１】
ここで、単語接続情報は、最終的な音声認識結果の候補となる単語列を構成する単語どうしの接続（連鎖または連接）関係を表すもので、各単語の音響スコアおよび言語スコア、並びに各単語に対応する発話の開始時刻および終了時刻も含んでいる。
【００５２】
即ち、図３は、単語接続情報記憶部１５に記憶される単語接続情報を、グラフ構造を用いて示している。
【００５３】
図３の実施の形態において、単語接続情報としてのグラフ構造は、単語を表すアーク（図３において、○印どうしを結ぶ線分で示す部分）と、単語どうしの境界を表すノード（図３において○印で示す部分）とから構成されている。
【００５４】
ノードは、時刻情報を有しており、この時刻情報は、そのノードに対応する特徴量の抽出時刻を表す。上述したように、抽出時刻は、音声区間の開始時刻を０とする、特徴抽出部３が出力する特徴量が得られた時刻であるから、図３において、音声区間の開始、即ち、最初の単語の先頭に対応するノードNode₁が有する時刻情報は０となる。ノードは、アークの始端および終端となるが、始端のノード（始端ノード）、または終端のノード（終端ノード）が有する時刻情報は、それぞれ、そのノードに対応する単語の発話の開始時刻、または終了時刻となる。
【００５５】
なお、図３では、左から右方向が、時間の経過を表しており、従って、あるアークの左右にあるノードのうち、左側のノードが始端ノードとなり、右側のノードが終端ノードとなる。
【００５６】
アークは、そのアークに対応する単語の音響スコアおよび言語スコアを有しており、このアークが、終端ノードとなっているノードを始端ノードとして、順次接続されていくことにより、音声認識結果の候補となる単語の系列が構成されていく。
【００５７】
即ち、制御部１１においては、まず最初に、音声区間の開始を表すノードNode₁に対して、音声認識結果として確からしい単語に対応するアークが接続される。図３の実施の形態では、「今日」に対応するアークArc₁、「いい」に対応するアークArc₆、および「天気」に対応するArc₁₁が接続されている。なお、音声認識結果として確からしい単語かどうかは、マッチング部１４において求められる音響スコアおよび言語スコアに基づいて決定される。
【００５８】
そして、以下、同様にして、「今日」に対応するアークArc₁の終端である終端ノードNode₂、「いい」に対応するアークArc₆の終端である終端ノードNode₇、「天気」に対応するArc₁₁の終端である終端ノードNode₁₂それぞれに対して、同様に、確からしい単語に対応するアークが接続されていく。
【００５９】
以上のようにしてアークが接続されていくことで、音声区間の開始を始点として、左から右方向に、アークとノードで構成される１以上のパスが構成されて行くが、例えば、そのパスのすべてが、音声区間の最後（図３の実施の形態では、時刻Ｔ）に到達すると、制御部１１において、音声区間の開始から最後までに形成された各パスについて、そのパスを構成するアークが有している音響スコアおよび言語スコアが累積され、最終スコアが求められる。そして、例えば、その最終スコアが最も高いパスを構成するアークに対応する単語列が、音声認識結果として確定されて出力される。
【００６０】
具体的には、例えば、図３において、ノードNode１から、「今日」に対応するアークArc₁、ノードNode₂、「は」に対応するアークArc₂、ノードNode₃、「いい」に対応するアークArc₃、ノードNode₄、「天気」に対応するアークArc₄、ノードNode₅、「ですね」に対応するアークArc₅、およびノードNode₆で構成されるパスについて、最も高い最終スコアが得られた場合には、単語列「今日」、「は」、「いい」、「天気」、「ですね」が、音声認識結果として出力されることになる。
【００６１】
なお、上述の場合には、音声区間内にあるノードについて、必ずアークを接続して、音声区間の開始から最後にまで延びるパスを構成するようにしたが、このようなパスを構成する過程において、それまでに構成されたパスについてのスコアから、音声認識結果として不適当であることが明らかであるパスに関しては、その時点で、パスの構成を打ち切る（その後に、アークを接続しない）ようにすることが可能である。
【００６２】
また、上述のようなパスの構成ルールに従えば、１つのアークの終端が、次に接続される１以上のアークの始端ノードなり、基本的には、枝葉が拡がるように、パスが構成されて行くが、例外的に、１つのアークの終端が、他のアークの終端に一致する場合、つまり、あるアークの終端ノードと、他のアークの終端ノードとが同一のノードとなる場合がある。
【００６３】
即ち、説明を簡単にするために、文法規則を無視することとすると、別のノードから延びる２つのアークが、同一の単語に対応するものであり、さらに、その単語の発話の終了時刻も同一である場合には、その２つのアークの終端は一致する。
【００６４】
図３において、ノードNode₇を始端として延びるアークArc７、およびノードNode₁₃を始端として延びるアークArc₁₃は、いずれも「天気」に対応するものであり、その発話の終了時刻も同一であるため、その終端ノードは、ノードNode₈に一致している。
【００６５】
図２に戻り、音響モデルデータベース１６Ａおよび１６Ｂは、基本的には、図１の音響モデルデータベース５において説明したような音響モデルを記憶している。
【００６６】
但し、音響モデルデータベース１６Ｂは、音響モデルデータベース１６Ａよりも精度の高い処理が可能な高精度の音響モデルを記憶している。即ち、例えば、音響モデルデータベース１６Ａにおいて、各音素や音節について、１パターンの音響モデルだけが記憶されているとすると、音響モデルデータベース１６Ｂには、各音素や音節について、複数パターンの音響モデルが記憶されている。
【００６７】
辞書データベース１７Ａおよび１７Ｂは、基本的には、図１の辞書データベース６において説明したような単語辞書を記憶している。
【００６８】
但し、辞書データベース１７Ａは、図４（Ａ）に示すように、基本辞書dicAと、追加辞書dicADDとからなる単語辞書を記憶している。基本辞書dicAには、例えば、新聞や小説等で現れる単語のうち、出現頻度の高い上位Ｎ単語（Ｎは、例えば、音声認識装置の能力による）が登録されている。追加辞書dicADDには、基本辞書dicAを作成するときに用いた新聞や小説等で現れる単語の、基本辞書dicAには登録されなかった残りの単語すべてが登録される。
【００６９】
基本辞書dicAに登録される単語の数Ｎが、例えば、図１の辞書データベース６の単語辞書に登録される単語の数と同一であるとすると、基本辞書dicAと追加辞書dicADDとに登録される単語の総数は、図１の辞書データベース６の単語辞書に登録される単語の数に比較して、追加辞書dicADDに登録される分だけ増加することとなるが、その増加により必要となるメモリの容量は、追加辞書dicADDに登録された単語の数に比例するだけなので、それほど大きな値にはならない。
【００７０】
なお、ここでは、メモリ容量の節約等のため、基本辞書dicAおよび追加辞書dicADDにおいて登録する単語の音韻情報（読み）は、各単語に対して、例えば、１通りとする。
【００７１】
また、追加辞書dicADDには、単語が、例えば、その品詞（例えば、名詞や、動詞、形容詞等）や、意味（例えば、地名であるとか、人名、会社名である等）などの属性によってグループ分けされ、どのグループに属するかを表すグループ情報とともに登録されているものとする。
【００７２】
辞書データベース１７Ｂは、図４（Ｂ）に示すように、基本辞書dicBと、動的追加辞書dicDYとからなる単語辞書を記憶している。
【００７３】
基本辞書dicBには、基本辞書dicAと同一セットの単語が登録されている。但し、基本辞書dicBは、基本辞書dicAよりも精度の高い処理が可能な高精度の音韻情報を記憶している。即ち、上述したように、基本辞書dicAには、各単語に対して、１通りの音韻情報（読み）しか登録されていないが、基本辞書dicBには、各単語に対して、複数通りの音韻情報が登録されている。具体的には、例えば、単語「お早う」に対して、基本辞書dicAには、１通りの音韻情報「おはよう」しか登録されていないが、基本辞書dicBには、「おはよう」の他、「おはよー」や、「おはよ」、「はよう」といった音韻情報も登録されている。
【００７４】
動的追加辞書dicDYには、単語予備選択部１３において単語予備選択処理が行われることにより、辞書データベース１７Ａの追加辞書dicADDから、マッチング部１４におけるマッチング処理の対象とする単語が選択された場合に、その単語が、マッチング部１４によって登録される。即ち、動的追加辞書dicDYに登録される単語は、単語予備選択部１３において行われる単語予備選択処理によって、いわば動的に変更される。
【００７５】
従って、基本辞書dicBに登録される単語の数Ｎが、例えば、図１の辞書データベース６の単語辞書に登録される単語の数と同一であるとすると、基本辞書dicBと動的追加辞書dicDYとに登録される単語の総数は、図１の辞書データベース６の単語辞書に登録される単語の数に比較して、動的追加辞書dicDYに登録される分だけ増加することとなるが、その増加により必要となるメモリの容量は、単語予備選択処理によって、追加辞書dicADDから選択された単語の数に比例するだけなので、僅かである。
【００７６】
なお、単語予備選択部１３は、単語予備選択処理によって、追加辞書dicADDから単語を選択した場合、その単語を、その音韻情報およびグループ情報とともに、マッチング部１４に供給する。従って、動的追加辞書dicDYには、追加辞書dicADDから選択された単語が、その音韻情報およびグループ情報とともに登録される。
【００７７】
再び、図２に戻り、文法データベース１８Ａおよび１８Ｂは、基本的には、図１の文法データベース７において説明したような文法規則を記憶している。
【００７８】
但し、文法データベース１８Ｂは、文法データベース１８Ａよりも精度の高い処理が可能な高精度の文法規則を記憶している。即ち、文法データベース１８Ａが、例えば、ユニグラム（単語の生起確率）に基づく文法規則を記憶しているとすると、文法データベース１８Ｂは、例えば、バイグラム（直前の単語との関係を考慮した単語の生起確率）や、トライグラム（直前の単語およびそのさらに１つ前の単語との関係を考慮した単語の生起確率）、あるいは文脈自由文法等に基づく文法規則を記憶している。
【００７９】
さらに、文法データベース１８Ｂは、辞書データベース１７Ｂの基本辞書dicBに登録された単語については、その言語スコアを計算するための文法規則を、単語ごとに記憶しているが、動的追加辞書dicDYに登録され得る単語、即ち、辞書データベース１７Ａの追加辞書dicADDに登録された単語については、その言語スコアを計算するための文法規則を、単語のグループ分けに用いられた属性（上述したように、単語の品詞や意味）ごとに記憶している。
【００８０】
従って、例えば、基本辞書dicBに、Ｎ個の単語ｗ₁，ｗ₂，・・・，ｗ_Nが登録されており（この場合、本実施の形態では、基本辞書dicAにも、同一の単語が登録されていることになる）、かつ、追加辞書dicADDに登録された単語が、Ｍ個のグループｃ₁，ｃ₂，・・・，ｃ_Mにグループ分けされているとし、さらに、文法データベース１８Ｂの文法規則として、２つの単語が連鎖する連鎖確率で規定されるバイグラムを採用することとすると、文法データベース１８Ｂに登録される文法規則のデータ量は、図５に示すようになる。
【００８１】
即ち、図５において、エリアArea₁は、基本辞書dicBに登録された単語ｗ_iとｗ_jとのバイグラムによる連鎖確率Ｐ（ｗ_i，ｗ_j）のデータ量を表しており、このデータ量は、図１において、辞書データベース６の単語辞書にＮ個の単語が登録されており、かつ、文法データベース７の文法規則として、バイグラムを採用する場合と同一になる。但し、ｉ，ｊ＝１，２，・・・，Ｎである。
【００８２】
また、図５において、エリアArea₂は、動的追加辞書dicDYに登録され得る単語のグループｃ_mに属する単語と、基本辞書dicBに登録された単語ｗ_iとが、その順で連鎖する場合のバイグラムによる連鎖確率Ｐ（ｃ_m，ｗ_i）のデータ量を表しており、エリアArea₃は、基本辞書dicBに登録された単語ｗ_iと、動的追加辞書dicDYに登録され得る単語のグループｃ_mに属する単語とが、その順で連鎖する場合のバイグラムによる連鎖確率Ｐ（ｗ_i，ｃ_m）のデータ量を表している。さらに、図５において、エリアArea₄は、動的追加辞書dicDYに登録され得る単語の、ある１のグループｃ_kに属する単語と、他の１のグループｃ_mに属する単語とのバイグラムによる連鎖確率Ｐ（ｃ_k，ｃ_m）のデータ量を表している。但し、ｋ，ｍ＝１，２，・・・，Ｍである。
【００８３】
これらのエリアArea₂，Area₃，Area₄で表されるデータ量が、動的追加辞書dicDYを設けることによる文法規則のデータ量の増加分であり、追加辞書dicADDに、莫大な数の単語を登録しても、それらの単語をグループ分けする際のグループ数を抑えることで、文法データベース１８Ｂに登録する必要のある文法規則のデータ量は、図１における場合に比較して、僅かの増加で済むようになる。
【００８４】
次に、図６のフローチャートを参照して、図２の音声認識装置による音声認識処理について説明する。
【００８５】
ユーザが発話を行うと、その発話としての音声は、マイク１およびＡＤ変換部２を介することにより、ディジタルの音声データとされ、特徴抽出部３に供給される。特徴抽出部３は、そこに供給される音声データから、音声の特徴量を、フレームごとに順次抽出し、制御部１１に供給する。
【００８６】
制御部１１は、何らかの手法で音声区間を認識するようになっており、音声区間においては、特徴抽出部３から供給される特徴量の系列を、各特徴量の抽出時刻と対応付けて、特徴量記憶部１２に供給して記憶させる。
【００８７】
さらに、制御部１１は、音声区間の開始後、ステップＳ１において、音声区間の開始を表すノード（以下、適宜、初期ノードという）を生成し、単語接続情報記憶部１５に供給して記憶させる。即ち、制御部１１は、ステップＳ１において、図３におけるノードNode₁を、単語接続情報記憶部１５に記憶させる。
【００８８】
そして、ステップＳ２に進み、制御部１１は、単語接続情報記憶部１５の単語接続情報を参照することで、途中ノードが存在するかどうかを判定する。
【００８９】
即ち、上述したように、図３に示した単語接続情報においては、終端ノードに、アークが接続されていくことにより、音声区間の開始から最後にまで延びるパスが形成されて行くが、ステップＳ２では、終端ノードのうち、まだアークが接続されておらず、かつ、音声区間の最後にまで到達していないものが、途中ノード（例えば、図３におけるノードNode₈や、Node₁₀，Node₁₁）として検索され、そのような途中ノードが存在するかどうかが判定される。
【００９０】
なお、上述したように、音声区間は何らかの手法で認識され、さらに、終端ノードに対応する時刻は、その終端ノードが有する時刻情報を参照することで認識することができるから、アークが接続されていない終端ノードが、音声区間の最後に到達していない途中ノードであるかどうかは、音声区間の最後の時刻と、終端ノードが有する時刻情報とを比較することで判定することができる。
【００９１】
ステップＳ２において、途中ノードが存在すると判定された場合、ステップＳ３に進み、制御部１１は、情報接続情報の中に存在する途中ノードのうちの１つを、それに接続するアークとしての単語を決定するノード（以下、適宜、注目ノードという）として選択する。即ち、制御部１１は、ステップＳ２において、情報接続情報の中に複数の途中ノードが存在する場合には、その複数の途中ノードのうちの１つを注目ノードとして選択し、情報接続情報の中に１つの途中ノードしか存在しない場合には、その途中ノードを、注目ノードとして選択する。
【００９２】
その後、制御部１１は、注目ノードが有する時刻情報を開始時刻としてマッチング処理を行う旨の指令（以下、適宜、マッチング処理指令という）を、マッチング部１４に出力する。マッチング部１４は、制御部１１からマッチング処理指令を受信すると、注目ノードと、それが有する時刻情報とを、単語予備選択部１３に供給し、単語予備選択処理を要求する。
【００９３】
単語予備選択部１３は、マッチング部１４から、単語予備選択処理の要求を受信すると、ステップＳ４において、注目ノードに接続されるアークとなる単語、つまり、マッチング処理の対象となる単語の候補を選択する単語予備選択処理を、基本辞書dicAおよび追加辞書dicADDに登録された単語を対象として行う。
【００９４】
即ち、単語予備選択部１３は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部１２から読み出す。さらに、単語予備選択部１３は、辞書データベース１７Ａの基本辞書dicAおよび追加辞書dicADDに登録された単語の単語モデルを、音響モデルデータベース１６Ａに記憶された音響モデルを接続することで構成し、各単語モデルに対応する単語について、特徴量記憶部１２から読み出した特徴量の系列を用いて、音響スコアを計算する。
【００９５】
また、単語予備選択部１３は、辞書データベース１７Ａの基本辞書dicAおよび追加辞書dicADDに登録された各単語の言語スコアを、文法データベース１８Ａに記憶された文法規則に基づいて計算する。そして、単語予備選択部１３は、辞書データベース１７Ａの基本辞書dicAおよび追加辞書dicADDに登録された各単語について、その音響スコアおよび言語スコアを総合評価したスコア（単語について、その音響スコアおよび言語スコアを総合評価したスコアを、以下、適宜、単語スコアという）を求め、その上位Ｌ個を、マッチング処理の対象とする単語として、マッチング部１４に供給する。
【００９６】
ここで、本実施の形態において、辞書データベース１７Ａの基本辞書dicAおよび追加辞書dicADDに登録された単語数は、膨大な数となるが、音響モデルデータベース１６Ａに記憶された音響モデルや、文法データベース１８Ａに記憶された文法規則は、上述したことから、音響モデルデータベース１６Ｂに記憶された音響モデルや、文法データベース１８Ｂに記憶された文法規則よりも精度の低いものであり、そのような音響モデルや文法規則を用いた音響スコアや言語スコアの計算は、比較的容易である。
【００９７】
なお、単語予備選択部１３の処理能力が低い場合には、単語予備選択部１３において、例えば、単語のすべての音素や音節の音響モデルを接続するのではなく、最初の幾つかの音素や音節の音響モデルだけを接続して単語モデルを構成し、そのような単語モデルを用いて、音響スコアを計算するようにしても良い。また、言語スコアは計算せずに、音響スコアのみに基づいて、あるいは逆に、音響スコアは計算せずに、言語スコアのみに基づいて、マッチング処理の対象とする単語を選択するようにすることも可能である。さらに、単語予備選択部１３においては、追加辞書dicADDに登録された単語については、音響的に類似する単語どうしをグループ化し、各グループを代表する１以上の単語を決めておき、その単語についてのみ、音響スコアおよび言語スコアを計算するようにしても良い。但し、この場合は、追加辞書dicADDに登録された単語が、上述の上位Ｌ個の中に入ったときには、その単語が属するグループの単語すべてが、マッチング処理の対象とされることになる。
【００９８】
また、単語予備選択部１３では、言語スコアや音響スコアを計算するのではなく、ユーザのいままでの発話の話題や意味内容から、マッチングの対象とする単語を選択するようにすることも可能である。
【００９９】
一方、単語予備選択部１３の処理能力が高い場合には、単語予備選択部１３において、例えば、単語接続情報記憶部１５に記憶された単語接続情報を参照し、注目ノードに先行するアークに対応する単語の音響スコアや言語スコア等を加味して、マッチング処理の対象とする単語を選択するようにすることが可能である。
【０１００】
マッチング部１４は、単語予備選択部１３から、マッチング処理の対象とする単語（以下、適宜、選択単語という）を受信すると、ステップＳ５において、その選択単語の中に、追加辞書dicADDに登録されたものがあるかどうかを判定する。
【０１０１】
ここで、単語予備選択部１３は、上述のように、辞書データベース１７Ａの基本辞書dicAおよび追加辞書dicADDに登録された単語から、マッチング処理の対象とする単語（選択単語）を選択し、マッチング部１４に供給するが、その選択単語のうち、単語予備選択部１３が参照する基本辞書dicAから選択されたものは、マッチング部１４が参照する基本辞書dicBにも登録されている。従って、選択単語のうち、基本辞書dicAから選択されたものについては、その単語を一意に識別することのできる、例えば、ユニークな番号や、その単語のテキスト表記等の識別情報を、単語予備選択部１３からマッチング部１４に対して与えれば済む。
【０１０２】
これに対して、選択単語のうち、単語予備選択部１３が参照する追加辞書dicADDから選択されたものは、マッチング部１４が参照する基本辞書dicBおよび動的追加辞書dicDYのいずれにも登録されていないから、そのような選択単語を対象にマッチング処理を行うには、その選択単語の単語モデルを構成するために、その音韻情報（読み）が必要となる。そこで、選択単語のうち、追加辞書dicADDから選択されたものについては、その識別情報の他に、その音韻情報も、単語予備選択部１３からマッチング部１４に対して供給される。
【０１０３】
さらに、追加辞書dicADDから選択された選択単語については、上述したように、そのグループ情報も、単語選択部１３からマッチング部１４に対して供給される。
【０１０４】
そこで、マッチング部１４は、ステップＳ５において、例えば、グループ情報の有無に基づいて、単語予備選択部１３からの選択単語の中に、追加辞書dicADDに登録されたもの（以下、適宜、追加単語という）があるかどうかを判定し、ないと判定した場合、辞書データベース１７Ｂの動的追加辞書dicDYの記憶内容をクリアし、ステップＳ６をスキップして、ステップＳ７に進む。
【０１０５】
一方、ステップＳ５において、単語予備選択部１３からの選択単語の中に、追加辞書dicADDに登録されたもの（追加単語）があると判定された場合、ステップＳ６に進み、マッチング部６は、辞書データベース１７Ｂの動的追加辞書dicDYの記憶内容を、単語予備選択部１３からの選択単語の中に含まれる追加単語によって更新（上書き）する。
【０１０６】
即ち、マッチング部６は、選択単語のうち、追加単語について、単語選択部１３から供給される識別情報、音韻情報、およびグループ情報を、動的追加辞書dicDYに記憶させることで、その記憶内容を更新する。
【０１０７】
そして、ステップＳ７に進み、マッチング部１４は、基本辞書dicBに登録された単語のうち、単語予備選択部１３からの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語とを対象に、音響スコアおよび言語スコアの計算を行う。
【０１０８】
即ち、マッチング部１４は、言語スコアおよび音響スコアを計算するのに用いる特徴量の系列の開始時刻を、注目ノードが有する時刻情報から認識し、その開始時刻以降の、必要な特徴量の系列を特徴量記憶部１２から読み出す。さらに、マッチング部１４は、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語の単語モデルを、音響モデルデータベース１６Ｂに記憶された音響モデルを接続することで構成し、各単語モデルに対応する単語ついて、特徴量記憶部１２から読み出した特徴量の系列を用いて、音響スコアを計算する。
【０１０９】
また、マッチング部１４は、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語の言語スコアを、文法データベース１８Ｂに記憶された文法規則に基づいて計算する。そして、マッチング部１４は、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものと、動的追加辞書dicDYに登録された単語について、その音響スコアおよび言語スコアを総合評価した単語スコアを求める。
【０１１０】
ここで、マッチング部１４においては、基本辞書dicAに登録された単語のうちの選択単語の中に含まれるものについての音響スコアと言語スコアの計算は、図１のマッチング部４における場合と同様にして行われる。
【０１１１】
一方、動的追加辞書dicDYに登録される単語（追加単語）については、識別情報、音韻情報、およびグループ情報が、動的追加辞書dicDYに登録されるから、マッチング部１４では、その音韻情報を用いて、単語モデルが構成され、その音響スコアが計算される。従って、動的追加辞書dicDYに登録される単語について、その音響スコアを正確に計算することができる。
【０１１２】
また、動的追加辞書dicDYに登録される単語については、マッチング部１４において、文法データベース１８Ｂに登録された文法規則のうち、その単語のグループ情報に対応するものを用いて、その言語スコアが計算される。
【０１１３】
さらに、マッチング部１４においても、上述した単語予備選択部１３における場合と同様に、例えば、単語接続情報記憶部１５に記憶された単語接続情報を参照し、注目ノードに先行するアークに対応する単語の音響スコアや言語スコア等を加味して、音響スコアや言語スコアの計算を行うようにすることが可能である。
【０１１４】
なお、音響モデルデータベース１６Ｂに記憶された音響モデルや、文法データベース１８Ｂに記憶された文法規則は、上述したように、高精度のものであり、従って、そのような高精度の文法規則や音響モデルを用いての、１単語あたりの音響スコアおよび言語スコアの計算量は、単語予備選択部１３における場合に比較して大きく増加するが、マッチング部１４において音響スコアおよび言語スコアの計算の対象となる単語は、単語予備選択部１３で選択されるＬ個だけであり、従って、そのＬ個の単語全体についての計算量は、単語予備選択部１３がＬ個の単語を選択するのに行う単語予備選択処理の計算量と比較して、それほど大きくなるというものではない。
【０１１５】
以上のようにして、ステップＳ７において、単語予備選択部１３からのＬ個の選択単語の音響スコアおよび言語スコアが得られた後は、ステップＳ８に進み、Ｌ個の選択単語それぞれについて、その音響スコアおよび言語スコアを総合評価した単語スコアが求められ、その単語スコアに基づいて、単語接続情報記憶部１５に記憶された単語接続情報が更新される。
【０１１６】
即ち、ステップＳ８では、マッチング部１４は、各選択単語について単語スコアを求め、例えば、その単語スコアを所定の閾値と比較すること等によって、注目ノードに接続するアークとしての単語を、選択単語の中から絞り込む。そして、マッチング部１４は、その絞り込みの結果残った単語を、その音響スコア、言語スコア、およびその単語の終了時刻とともに、制御部１１に供給する。
【０１１７】
なお、単語の終了時刻は、音響スコアを計算するのに用いた特徴量の抽出時刻から認識される。また、ある単語について、その終了時刻としての蓋然性の高い抽出時刻が複数得られた場合には、その単語については、各終了時刻と、対応する音響スコアおよび言語スコアとのセットが、制御部１１に供給される。
【０１１８】
制御部１１は、上述のようにしてマッチング部１４から供給される単語の音響スコア、言語スコア、および終了時刻を受信すると、マッチング部１４からの各単語について、単語接続情報記憶部１５に記憶された単語接続情報（図３）における注目ノードを始端ノードとして、アークを延ばし、そのアークを、終了時刻の位置に対応する終端ノードに接続する。さらに、制御部１１は、各アークに対して、対応する単語、並びにその音響スコアおよび言語スコアを付与するとともに、各アークの終端ノードに対して、対応する終了時刻を時刻情報として与える。そして、ステップＳ２に戻り、以下、同様の処理が繰り返される。
【０１１９】
一方、ステップＳ２において、途中ノードが存在しないと判定された場合、ステップＳ９に進み、制御部１１は、単語接続情報を参照することで、その単語接続情報として構成された各パスについて、単語スコアを累積することで、最終スコアを求め、例えば、その最終スコアが最も大きいパスを構成するアークに対応する単語列を、ユーザの発話に対する音声認識結果として出力して、処理を終了する。
【０１２０】
以上のように、単語予備選択部１３が参照する辞書データベース１７Ａを、基本辞書dicAと、追加辞書dicADDで構成し、さらに、追加辞書dicADDにおいては、単語を、その属性ごとにグループ分けして登録しておく一方、マッチング部１４が参照する文法データベース１８Ｂには、追加辞書dicADDに登録された単語については、その属性ごとに文法規則を登録しておくようにしたので、僅かな計算量とメモリ容量の増加によって、音声認識の対象とする語彙を、大幅に増加させることができ、その結果、未登録語に起因する誤認識を防止して、精度の高い音声認識を行うことが可能となる。
【０１２１】
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【０１２２】
そこで、図７は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【０１２３】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やＲＯＭ１０３に予め記録しておくことができる。
【０１２４】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体１１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０１２５】
なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部１０８で受信し、内蔵するハードディスク１０５にインストールすることができる。
【０１２６】
コンピュータは、CPU(Central Processing Unit)１０２を内蔵している。CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されており、CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、キーボードや、マウス、マイク等で構成される入力部１０７が操作等されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、また、CPU１０２は、ハードディスク１０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部１０８で受信されてハードディスク１０５にインストールされたプログラム、またはドライブ１０９に装着されたリムーバブル記録媒体１１１から読み出されてハードディスク１０５にインストールされたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。
【０１２７】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１２８】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０１２９】
さらに、図７の実施の形態において、各単語のスコア計算や、そのスコアに基づく評価等は、CPU１０２で行われることとなるが、CPU１０２では、これらの処理は、各単語ごとに独立して行うようにすることができる。この場合、CPU１０２が各単語について処理を行うために確保するRAM１０４の記憶領域を小さく抑えることができる。
【０１３０】
なお、図２に示した音声認識装置は、例えば、音声によってデータベースの検索を行う場合や、各種の機器の操作を行う場合、各機器へのデータ入力を行う場合、音声対話システム等に適用可能である。より具体的には、例えば、音声による地名の問合せに対して、対応する地図情報を表示するデータベース検索装置や、音声による命令に対して、荷物の仕分けを行う産業用ロボット、キーボードの代わりに音声入力によりテキスト作成を行うディクテーションシステム、ユーザとの会話を行うロボットにおける対話システム等に適用可能である。
【０１３１】
また、本実施の形態では、音響モデルデータベース１６Ｂには、音響モデルデータベース１６Ａに登録する音響モデルよりも、高精度のものを登録するようにしたが、音響モデルデータベース１６Ａおよび１６Ｂは、その少なくとも一部の音響モデルを共通化して構成することが可能である。同様に、辞書データベース１７Ａの基本辞書dicAと、辞書データベース１７Ｂの基本辞書dicBも、その少なくとも一部の単語の音韻情報を共通化して構成することが可能である。また、文法データベース１８Ａと１８Ｂも、同様に、その少なくとも一部の文法規則を共通化して構成することが可能である。
【０１３２】
さらに、本実施の形態では、辞書データベース１７Ａの追加辞書dicADDには、各単語について、１通りの音韻情報を登録するようにしたので、追加辞書dicADDに登録された単語が、単語予備選択部１３において選択され、辞書データベース１７Ｂの動的追加辞書dicDYに登録された場合には、マッチング部１４においては、動的追加辞書dicDYに登録された単語については、その１通りの音韻情報によってしか単語モデルを構成することができないが、辞書データベース１７Ａの記憶容量に余裕がある場合には、追加辞書dicADDにおいて、各単語について、複数通りの音韻情報を登録することが可能である。この場合、マッチング部１４においては、動的追加辞書dicDYに登録された単語についても、基本辞書dicBに登録された単語と同様に、その複数通りの音韻情報によって、複数の単語モデルを構成して、より精度の高い音響スコアを計算することが可能となる。
【０１３３】
なお、追加辞書dicADDに、各単語の複数通りの音韻情報を登録した場合、単語予備選択部１３においても、その複数通りの音韻情報によって、複数の単語モデルを構成して、音響スコアを計算することが可能である。但し、単語予備選択部１３において、そのような処理を負担することが困難である場合には、例えば、複数通りの音韻情報のうちの任意の１つだけについて、単語モデルを構成し、音響スコアを計算するようにすれば良い。
【０１３４】
【発明の効果】
本発明の音声認識装置および音声認識方法、並びに記録媒体によれば、大語彙を対象とした精度の高い音声認識を行うことが可能となる。
【図面の簡単な説明】
【図１】従来の音声認識装置の一例の構成を示すブロック図である。
【図２】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図３】単語接続情報を示す図である。
【図４】辞書データベース１７Ａおよび１７Ｂの構成を説明するための図である。
【図５】文法データベース１８Ｂに記憶される文法規則のデータ量を説明するための図である。
【図６】図２の音声認識装置の処理を説明するためのフローチャートである。
【図７】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
１マイク，２ＡＤ変換部，３特徴抽出部，１１制御部，１２特徴量記憶部，１３単語予備選択部，１４マッチング部，１５単語接続情報記憶部，１６Ａ，１６Ｂ音響モデルデータベース，１７Ａ，１７Ｂ辞書データベース，１８Ａ，１８Ｂ文法データベース，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置であって、
入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、音声認識の対象とする第１の単語群を登録している第１の基本辞書と、音声認識の対象とする第２の単語群であって、且つ、前記第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、前記第１の単語群として前記第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書とから、前記スコアの計算の対象とする１以上の単語を選択する単語選択手段と、
前記第１の単語群の各単語を登録している、前記第１の基本辞書とは異なる第２の基本辞書の単語について、言語的なスコアを計算するための第１の文法規則を、前記第２の基本辞書の単語ごとに記憶しているとともに、前記追加辞書の単語について、言語的なスコアを計算するための第２の文法規則を、前記属性ごとに記憶している第１の文法規則記憶手段と、
前記第１の基本辞書から選択された前記単語について、音響的なスコアを計算するとともに、前記第１の文法規則に基づいて言語的なスコアを計算し、前記追加辞書から選択された前記単語について、音響的なスコアを計算するとともに、その単語の属性に対応する前記第２の文法規則に基づいて言語的なスコアを計算するスコア計算手段と、
時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、前記単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報を記憶する接続関係記憶手段と、
前記単語接続情報において、前記複数のパス毎に、前記パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定手段と、
第１の所定数の音響モデルを記憶している第１の音響モデル記憶手段と、
前記第１の所定数よりも多い音響モデルを記憶している第２の音響モデル記憶手段と、
前記第１の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている前記第１の基本辞書、および前記第１の基本辞書に未登録の単語からなる前記第２の単語群の各単語に対して、前記第２の所定数の音韻情報が対応付けられている前記追加辞書を記憶している第１の単語辞書記憶手段と、
登録している前記第１の単語群の各単語に対して前記第２の所定数よりも多い音韻情報が対応付けられている前記第２の基本辞書、および前記単語選択手段において前記追加辞書から選択された単語を登録する動的追加辞書を記憶している第２の単語辞書記憶手段と、
言語的なスコアを計算するための第３の文法規則を記憶している第２の文法規則記憶手段と、
前記単語選択手段により選択された前記１以上の単語のうち、前記追加辞書から選択された単語を、前記第２の単語辞書記憶手段に記憶されている前記動的追加辞書に登録する登録手段と
を備え、
前記第１の文法規則記憶手段は、前記第３の文法規則よりも精度が高い文法規則として、前記第２の基本辞書の単語についての前記第１の文法規則、および前記追加辞書における属性ごとの単語についての前記第２の文法規則を記憶しており、
前記単語選択手段は、前記第１の音響モデル記憶手段、前記第１の単語辞書記憶手段、および前記第２の文法規則記憶手段を参照して行なう音声認識処理により、前記スコアの計算の対象とする１以上の単語を選択し、
前記登録手段は、前記単語選択手段により、前記追加辞書から単語が選択された場合、その単語を、前記動的追加辞書に登録し、
前記スコア計算手段は、前記単語選択手段により選択された単語について、前記第２の音響モデル記憶手段、前記第２の単語辞書記憶手段、および前記第１の文法規則記憶手段を参照して行なう音声認識処理により、前記第１の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、前記追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
音声認識装置。
前記ノードは、前記時刻情報として、始端側を接続しているアークが表す単語に対応する発話の開始時刻、および終端側を接続しているアークが表す単語に対応する発話の終了時刻を有する
請求項１に記載の音声認識装置。
前記属性は、単語の品詞または意味である
請求項１に記載の音声認識装置。
入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置の音声認識方法であって、
前記音声認識装置は、
音声認識の対象とする第１の単語群を登録している第１の基本辞書とは異なる第２の基本辞書であって、前記第１の単語群の各単語を登録している前記第２の基本辞書の単語について、言語的なスコアを計算するための第１の文法規則を、前記第２の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第２の単語群であって、且つ、前記第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、前記第１の単語群として前記第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第２の文法規則を、前記属性ごとに記憶している第１の文法規則記憶手段を有しており、
入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、前記第１の基本辞書と、前記追加辞書とから、前記スコアの計算の対象とする１以上の単語を選択する単語選択ステップと、
前記第１の基本辞書から選択された前記単語について、音響的なスコアを計算するとともに、前記第１の文法規則に基づいて言語的なスコアを計算し、前記追加辞書から選択された前記単語について、音響的なスコアを計算するとともに、その単語の属性に対応する前記第２の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、
時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、前記単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、前記複数のパス毎に、前記パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定ステップと
を含み、
前記音声認識装置は、さらに、
第１の所定数の音響モデルを記憶している第１の音響モデル記憶手段と、
前記第１の所定数よりも多い音響モデルを記憶している第２の音響モデル記憶手段と、
前記第１の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている前記第１の基本辞書、および前記第１の基本辞書に未登録の単語からなる前記第２の単語群の各単語に対して、前記第２の所定数の音韻情報が対応付けられている前記追加辞書を記憶している第１の単語辞書記憶手段と、
登録している前記第１の単語群の各単語に対して前記第２の所定数よりも多い音韻情報が対応付けられている前記第２の基本辞書、および前記単語選択ステップの処理において前記追加辞書から選択された単語を登録する動的追加辞書を記憶している第２の単語辞書記憶手段と、
言語的なスコアを計算するための第３の文法規則を記憶している第２の文法規則記憶手段と
を有しており、
前記単語選択ステップの処理により選択された前記１以上の単語のうち、前記追加辞書から選択された単語を、前記第２の単語辞書記憶手段に記憶されている前記動的追加辞書に登録する登録ステップをさらに含み、
前記第１の文法規則記憶手段は、前記第３の文法規則よりも精度が高い文法規則として、前記第２の基本辞書の単語についての前記第１の文法規則、および前記追加辞書における属性ごとの単語についての前記第２の文法規則を記憶しており、
前記単語選択ステップは、前記第１の音響モデル記憶手段、前記第１の単語辞書記憶手段、および前記第２の文法規則記憶手段を参照して行なう音声認識処理により、前記スコアの計算の対象とする１以上の単語を選択し、
前記登録ステップは、前記単語選択ステップの処理により、前記追加辞書から単語が選択された場合、その単語を、前記動的追加辞書に登録し、
前記スコア計算ステップは、前記単語選択ステップの処理により選択された単語について、前記第２の音響モデル記憶手段、前記第２の単語辞書記憶手段、および前記第１の文法規則記憶手段を参照して行なう音声認識処理により、前記第１の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、前記追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
音声認識方法。
入力された音声に対して、所定のスコアを計算し、そのスコアに基づいて、前記音声を認識する音声認識装置のコンピュータに処理を行わせるプログラムが記録されている記録媒体であって、
前記音声認識装置は、
音声認識の対象とする第１の単語群を登録している第１の基本辞書とは異なる第２の基本辞書であって、前記第１の単語群の各単語を登録している前記第２の基本辞書の単語について、言語的なスコアを計算するための第１の文法規則を、前記第２の基本辞書の単語ごとに記憶しているとともに、音声認識の対象とする第２の単語群であって、且つ、前記第１の基本辞書を作成するときに用いた文章に現れる複数の単語のうち、前記第１の単語群として前記第１の基本辞書には登録されなかった残りの単語を表す第２の単語群を、所定の属性ごとにグループ分けして登録している追加辞書の単語について、言語的なスコアを計算するための第２の文法規則を、前記属性ごとに記憶している第１の文法規則記憶手段を有しており、
入力された音声の特徴を表す特徴量を用いた音声認識処理に基づいて、前記第１の基本辞書と、前記追加辞書とから、前記スコアの計算の対象とする１以上の単語を選択する単語選択ステップと、
前記第１の基本辞書から選択された前記単語について、音響的なスコアを計算するとともに、前記第１の文法規則に基づいて言語的なスコアを計算し、前記追加辞書から選択された前記単語について、音響的なスコアを計算するとともに、その単語の属性に対応する前記第２の文法規則に基づいて言語的なスコアを計算するスコア計算ステップと、
時刻情報を有する、単語どうしの境界を表すノードを介して、計算された言語的なスコアおよび音響的なスコアを有する、前記単語を表すアークどうしを接続することにより形成される複数のパスを用いて、音声認識結果の候補となる単語列の単語どうしの接続関係を表す単語接続情報において、前記複数のパス毎に、前記パスを形成するアークそれぞれに対応する単語の言語的なスコアおよび音響的なスコアを総合評価して得られる単語スコアの累積結果を表す最終スコアに基づいて、前記音声認識結果となる単語列を確定する確定ステップと
を含み、
前記音声認識装置は、さらに、
第１の所定数の音響モデルを記憶している第１の音響モデル記憶手段と、
前記第１の所定数よりも多い音響モデルを記憶している第２の音響モデル記憶手段と、
前記第１の単語群の各単語に対して、第２の所定数の音韻情報が対応付けられている前記第１の基本辞書、および前記第１の基本辞書に未登録の単語からなる前記第２の単語群の各単語に対して、前記第２の所定数の音韻情報が対応付けられている前記追加辞書を記憶している第１の単語辞書記憶手段と、
登録している前記第１の単語群の各単語に対して前記第２の所定数よりも多い音韻情報が対応付けられている前記第２の基本辞書、および前記単語選択ステップの処理において前記追加辞書から選択された単語を登録する動的追加辞書を記憶している第２の単語辞書記憶手段と、
言語的なスコアを計算するための第３の文法規則を記憶している第２の文法規則記憶手段と
を有しており、
前記単語選択ステップの処理により選択された前記１以上の単語のうち、前記追加辞書から選択された単語を、前記第２の単語辞書記憶手段に記憶されている前記動的追加辞書に登録する登録ステップをさらに含み、
前記第１の文法規則記憶手段は、前記第３の文法規則よりも精度が高い文法規則として、前記第２の基本辞書の単語についての前記第１の文法規則、および前記追加辞書における属性ごとの単語についての前記第２の文法規則を記憶しており、
前記単語選択ステップは、前記第１の音響モデル記憶手段、前記第１の単語辞書記憶手段、および前記第２の文法規則記憶手段を参照して行なう音声認識処理により、前記スコアの計算の対象とする１以上の単語を選択し、
前記登録ステップは、前記単語選択ステップの処理により、前記追加辞書から単語が選択された場合、その単語を、前記動的追加辞書に登録し、
前記スコア計算ステップは、前記単語選択ステップの処理により選択された単語について、前記第２の音響モデル記憶手段、前記第２の単語辞書記憶手段、および前記第１の文法規則記憶手段を参照して行なう音声認識処理により、前記第１の基本辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算するとともに、前記追加辞書から選択された単語の音響的なスコアおよび言語的なスコアを計算する
処理を、コンピュータに行わせるプログラムが記録されている記録媒体。