JP2001242885A

JP2001242885A - 音声認識装置および音声認識方法、並びに記録媒体

Info

Publication number: JP2001242885A
Application number: JP2000051465A
Authority: JP
Inventors: Katsuki Minamino; 活樹南野; Koji Asano; 康治浅野; Hiroaki Ogawa; 浩明小川; Lucke Helmut; ルッケヘルムート
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-02-28
Filing date: 2000-02-28
Publication date: 2001-09-07
Anticipated expiration: 2020-02-28
Also published as: JP4600706B2

Abstract

(57)【要約】【課題】大語彙を対象とした精度の高い音声認識を行
う。【解決手段】辞書データベース１７Ａには、第１の単
語群を記憶している単語辞書と、第２の単語群を、その
品詞等ごとにグループ分けして記憶している追加辞書と
が記憶されており、単語予備選択部１３は、これらの基
本辞書および追加辞書から、スコアの計算の対象とする
１以上の単語を選択する。マッチング部１４は、基本辞
書から選択された単語について、音響スコアを計算する
とともに、第１の文法規則に基づいて言語スコアを計算
し、追加辞書から選択された単語について、音響スコア
が計算するとともに、その単語の品詞に対応する第２の
文法規則に基づいて言語スコアを計算する。制御部１１
は、スコアの計算された単語と、その単語が接続する、
既にスコアの計算された単語との間の接続関係およびス
コアに基づいて、音声の音声認識結果を確定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法、並びに記録媒体に関し、特に、大語彙
を対象とした精度の高い音声認識を行うことができるよ
うにする音声認識装置および音声認識方法、並びに記録
媒体に関する。

【０００２】

【従来の技術】図１は、従来の音声認識装置の一例の構
成を示している。

【０００３】ユーザが発した音声は、マイク（マイクロ
フォン）１に入力され、マイク１では、その入力音声
が、電気信号としての音声信号に変換される。この音声
信号は、ＡＤ(Analog Digital)変換部２に供給される。
ＡＤ変換部２では、マイク１からのアナログ信号である
音声信号がサンプリング、量子化され、ディジタル信号
である音声データに変換される。この音声データは、特
徴抽出部３に供給される。

【０００４】特徴抽出部３は、ＡＤ変換部２からの音声
データについて、適当なフレームごとに音響処理を施
し、これにより、例えば、ＭＦＣＣ(Mel Frequency Cep
strumCoefficient)等の特徴量を抽出し、マッチング部
４に供給する。なお、特徴抽出部３では、その他、例え
ば、スペクトルや、線形予測係数、ケプストラム係数、
線スペクトル対等の特徴量を抽出することが可能であ
る。

【０００５】マッチング部４は、特徴抽出部３からの特
徴量を用いて、音響モデルデータベース５、辞書データ
ベース６、および文法データベース７を必要に応じて参
照しながら、マイク１に入力された音声（入力音声）
を、例えば、連続分布ＨＭＭ法等に基づいて音声認識す
る。

【０００６】即ち、音響モデルデータベース５は、音声
認識する音声の言語における個々の音素や音節などの音
響的な特徴を表す音響モデルを記憶している。ここで
は、連続分布ＨＭＭ法に基づいて音声認識を行うので、
音響モデルとしては、例えば、ＨＭＭ(Hidden Markov M
odel)が用いられる。辞書データベース６は、認識対象
の各単語について、その発音に関する情報（音韻情報）
が記述された単語辞書を記憶している。文法データベー
ス７は、辞書データベース６の単語辞書に登録されてい
る各単語が、どのように連鎖する（つながる）かを記述
した文法規則を記憶している。ここで、文法規則として
は、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語
連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則を用いるこ
とができる。

【０００７】マッチング部４は、辞書データベース６の
単語辞書を参照することにより、音響モデルデータベー
ス５に記憶されている音響モデルを接続することで、単
語の音響モデル（単語モデル）を構成する。さらに、マ
ッチング部４は、幾つかの単語モデルを、文法データベ
ース７に記憶された文法規則を参照することにより接続
し、そのようにして接続された単語モデルを用いて、特
徴量に基づき、連続分布ＨＭＭ法によって、マイク１に
入力された音声を認識する。即ち、マッチング部４は、
特徴抽出部３が出力する時系列の特徴量が観測されるス
コア（尤度）が最も高い単語モデルの系列を検出し、そ
の単語モデルの系列に対応する単語列を、音声の認識結
果として出力する。

【０００８】即ち、マッチング部４は、接続された単語
モデルに対応する単語列について、各特徴量の出現確率
を累積し、その累積値をスコアとして、そのスコアを最
も高くする単語列を、音声認識結果として出力する。

【０００９】スコア計算は、一般に、音響モデルデータ
ベース５に記憶された音響モデルによって与えられる音
響的なスコア（以下、適宜、音響スコアという）と、文
法データベース７に記憶された文法規則によって与えら
れる言語的なスコア（以下、適宜、言語スコアという）
とを総合評価することで行われる。

【００１０】即ち、音響スコアは、例えば、ＨＭＭ法に
よる場合には、単語モデルを構成する音響モデルから、
特徴抽出部３が出力する特徴量の系列が観測される確率
（出現する確率）に基づいて、単語ごとに計算される。
また、言語スコアは、例えば、バイグラムによる場合に
は、注目している単語と、その単語の直前の単語とが連
鎖（連接）する確率に基づいて求められる。そして、各
単語についての音響スコアと言語スコアとを総合評価し
て得られる最終的なスコア（以下、適宜、最終スコアと
いう）に基づいて、音声認識結果が確定される。

【００１１】具体的には、あるＮ個の単語からなる単語
列におけるｋ番目の単語をｗ_kとして、その単語ｗ_kの音
響スコアをＡ（ｗ_k）と、言語スコアをＬ（ｗ_k）と、そ
れぞれ表すとき、その単語列の最終スコアＳは、例え
ば、次式にしたがって計算される。

【００１２】Ｓ＝Σ（Ａ（ｗ_k）＋Ｃ_k×Ｌ（ｗ_k））・・・（１）但し、Σは、ｋを１からＮに変えてのサメーションをと
ることを表す。また、Ｃ _kは、単語ｗ_kの言語スコアＬ
（ｗ_k）にかける重みを表す。

【００１３】マッチング部４では、例えば、式（１）に
示す最終スコアを最も大きくするＮと、単語列ｗ₁，
ｗ₂，・・・，ｗ_Nを求めるマッチング処理が行われ、そ
の単語列ｗ₁，ｗ₂，・・・，ｗ_Nが、音声認識結果とし
て出力される。

【００１４】以上のような処理が行われることにより、
図１の音声認識装置では、例えば、ユーザが、「ニュー
ヨークに行きたいです」と発話した場合には、「ニュー
ヨーク」、「に」、「行きたい」、「です」といった各
単語に、音響スコアおよび言語スコアが与えられ、それ
らを総合評価して得られる最終スコアが最も大きいとき
と、単語列「ニューヨーク」、「に」、「行きたい」、
「です」が、音声認識結果として出力される。

【００１５】

【発明が解決しようとする課題】ところで、図１の音声
認識装置は、それ専用のハードウェアによって実現する
ことも、また、コンピュータによって実行されるプログ
ラムとしてのソフトウェアで実現することも可能であ
る。

【００１６】しかしながら、例えば、リアルタイムで音
声認識を行う場合には、いずれにしても、音声認識の対
象とする単語（語彙）数、即ち、辞書データベース６の
単語辞書に登録可能な単語（語彙）とその音韻情報との
組の数、および文法データベース７における文法規則で
扱うことのできる単語（語彙）の数は、音声認識装置を
実現する専用のハードウェアとしての論理回路等の演算
器およびメモリや、コンピュータを構成するＣＰＵおよ
びメモリ等によって制限を受ける。

【００１７】即ち、特に、文法規則については、例え
ば、Ｎ−ｇｒａｍ等の単語の連鎖確率に基づくものを採
用した場合には、音声認識の対象とする単語が増加する
と、文法規則として規定しなければならない単語の並び
が、増加した単語数の累乗に比例して増加するため、そ
の文法規則を記憶しておくのに必要なメモリの容量が莫
大に増加する。従って、文法データベース７における文
法規則が扱うことのできる単語数は、メモリの容量によ
って大きく制限される。

【００１８】また、音声認識の対象とする単語数が増加
すると、単語辞書に登録する単語数も増加し、その分、
音響スコアを計算しなければならない単語数も増加する
から、リアルタイム性を維持するには、音声認識の対象
とする単語数は、演算器やＣＰＵの処理速度によっても
制限される。

【００１９】さらに、単語辞書に登録する単語の数は、
文法規則の場合ほどではないが、やはり、メモリの容量
によっても制限される。即ち、単語辞書に登録する単語
が増加すると、その増加分に比例した容量のメモリが必
要となる。従って、１個の単語に、１通りの音韻情報だ
けを組み合わせる場合には、メモリの容量の増加分はそ
れほど大きくはならない。しかしながら、音声認識の精
度を向上させるために、１個の単語に、複数の音韻情報
を組み合わせる場合（例えば、単語「お早う」に対し
て、音韻情報「おはよう」、「おはよー」、「おは
よ」、および「はよう」を組み合わせる場合）には、そ
の組み合わせる音韻情報の数が増加するほど、必要なメ
モリの容量が増加する。さらに、この場合、音響スコア
の計算量も増加する。

【００２０】そして、音声認識の対象とする単語が制限
されると、対象とされなかった単語（以下、適宜、未登
録語という）が、ユーザによって発話された場合には、
各種の問題が生じる。

【００２１】即ち、未登録語については、単語辞書に、
その音韻情報が登録されていないため、その音響スコア
を正確に計算することはできない。さらに、未登録語に
ついては、文法規則において扱われていないため、その
言語スコアも正確に計算することはできない。従って、
ユーザの音声の認識結果としての単語列を決定する際
に、未登録語の部分において誤りを生じる。さらに、こ
の誤りは、他の部分の誤りを引き起こす原因にもなる。

【００２２】具体的には、例えば、上述のように、ユー
ザが、「ニューヨークに行きたいです」と発話した場合
において、「ニューヨーク」が未登録語であるときに
は、その「ニューヨーク」の部分において、正確な音響
スコアおよび言語スコアの計算ができない。さらに、
「ニューヨーク」について正確な音響スコアの計算がで
きないことにより、「ニューヨーク」と、その後に続く
「に」との単語の境界の決定において誤りが生じ、その
誤りが、他の部分の音響スコアの計算に影響を与える。

【００２３】音声認識装置において音声認識の対象とす
る単語としては、一般に、例えば、新聞や小説等におい
て出現頻度の高いものが選定されることが多いが、出現
頻度の低い単語が、ユーザによって発話されないという
保証はない。従って、未登録語については、何らかの対
処をとることが必要である。

【００２４】そこで、例えば、廣瀬良文他、「「読
み」を考慮した言語モデルによる大語彙連続音声認
識」、日本音響学会講演論文集、pp.55-56，1999年3月
や、廣瀬良文他、「「読み」情報に基づく高被覆率言語
モデルを用いた大語彙連続音声認識」、日本音響学会講
演論文集、pp.69-70，1999年3月〜10月等には、単語の
音韻情報（読み情報）に基づく音声認識処理と、かな漢
字変換とを組み合わせることによって、未登録語を削減
する音声認識方法（以下、適宜、第１の方法という）が
開示されている。

【００２５】第１の方法では、単語辞書の単語や、文法
規則で扱う単語を、漢字表記による区別を行わず、音韻
情報だけで表しておき、それによって得られる単語の音
韻情報の系列が、かな漢字変換によって、漢字表記の単
語列に変換され、音声認識結果として出力される。

【００２６】従って、第１の方法では、単語が、その音
韻情報だけで同定されるため、例えば、「張る」や、
「貼る」、「春」等が、すべて「はる」という同一の単
語であるとして扱われるから、結果として、音声認識の
対象とする単語数を増加させることができる。

【００２７】しかしながら、第１の方法では、仮に、正
しい単語の音韻情報の系列が得られたとしても、かな漢
字変換において、その音韻情報の系列の変換を誤ると、
音声認識結果も誤ったものとなる。

【００２８】さらに、音韻情報、即ち、読みが同一の単
語には限りがあるため、第１の方法では、未登録語を削
減できるといっても、その大幅な削減は困難である。

【００２９】また、未登録語の対処方法としては、例え
ば、伊藤克亘他、「被服率を重視した大規模連続音声
認識用統計言語モデル」、日本音響学会講演論文集、p
p.65-66，1999年3月等に、サブワードモデルを用いた方
法（以下、適宜、第２の方法という）が開示されてい
る。

【００３０】第２の方法では、単語辞書や文法に登録さ
れていない単語としての未登録語が、音節等の細かい単
位（この単位が、サブワードと呼ばれる）に分割され、
各サブワードが、１つの単語として、単語辞書や文法規
則に登録される。サブワードとして、例えば、音節を用
いた場合には、サブワードとなる単語の数は、それほど
多くならないから、第２の方法によれば、メモリの容量
をそれほど増加させずに、未登録語に対処することがで
きる。即ち、第２の方法では、未登録語は、サブワード
単位で認識される。

【００３１】しかしながら、第２の方法では、未登録語
でない単語、即ち、単語辞書や文法に登録されている単
語（以下、適宜、登録語という）についても、サブワー
ド単位の認識が行われるため、それに起因して、登録語
が、サブワードの系列として誤認識されることがある。

【００３２】即ち、例えば、いま、「入浴」が登録語
で、「ニューヨーク」が未登録語であるとすると、未登
録語「ニューヨーク」は、例えば、「ニュ」、「ウ
ー」、「ヨ」、「オー」、「ク」等のサブワードに分割
され、単語辞書および文法規則に登録される。そして、
この場合、ユーザが、「入浴」と発話した場合に、登録
語である「入浴」ではなく、サブワードの系列である
「ニュ」、「ウー」、「ヨ」、「ク」（「ニューヨ
ク」）が、音声認識結果として得られることがある。

【００３３】一方、文法規則は、上述のように、登録語
（音声認識の対象とする単語）を増加させると、その単
語の増加分の累乗に比例することから、これを防止する
ための方法として、登録語を、その品詞によって、幾つ
かのグループに分類し、各グループどうしの関係とし
て、文法規則を記述するクラス文法を採用する方法があ
る。

【００３４】クラス文法によれば、例えば、１０００単
語の登録語が、１０のグループに分類された場合には、
その１０のグループどうしの関係を規定する文法規則だ
けで済むので、文法規則を記憶しておくのに必要なメモ
リの容量は、グループ数にのみ依存し、登録語の数に依
存しなくなる。

【００３５】しかしながら、クラス文法を用いた場合で
も、音響スコアの計算量は、登録語の数に依存するか
ら、単語辞書に登録可能な単語（登録語）の数は、その
計算能力によって制限される。

【００３６】本発明は、このような状況に鑑みてなされ
たものであり、大語彙を対象とした精度の高い音声認識
を行うことができるようにするものである。

【００３７】

【課題を解決するための手段】本発明の音声認識装置
は、音声認識の対象とする第１の単語群を記憶している
第１の単語辞書と、音声認識の対象とする第２の単語群
を、所定の属性ごとにグループ分けして記憶している第
２の単語辞書とから、スコアの計算の対象とする１以上
の単語を選択する単語選択手段と、第１の単語辞書の単
語について、言語的なスコアを計算するための第１の文
法規則を記憶している第１の文法規則記憶手段と、第２
の単語辞書の単語について、言語的なスコアを計算する
ための第２の文法規則を、属性ごとに記憶している第２
の文法規則記憶手段と、第１の単語辞書から選択された
単語について、音響的なスコアを計算するとともに、第
１の文法規則に基づいて言語的なスコアを計算し、第２
の単語辞書から選択された単語について、音響的なスコ
アを計算するとともに、その単語の属性に対応する第２
の文法規則に基づいて言語的なスコアを計算するスコア
計算手段と、スコアの計算された単語と、その単語が接
続する、既にスコアの計算された単語との間の接続関係
を記憶する接続関係記憶手段と、接続関係およびスコア
に基づいて、音声の音声認識結果を確定する確定手段と
を備えることを特徴とする。

【００３８】接続関係記憶手段には、単語どうしの接続
関係とともに、各単語の音響的なスコアおよび言語的な
スコア、並びに各単語に対応する発話の開始時刻および
終了時刻も記憶させることができる。

【００３９】属性は、単語の品詞または意味とすること
ができる。

【００４０】本発明の音声認識装置には、第１および第
２の単語辞書を記憶している単語辞書記憶手段をさらに
設けることができる。

【００４１】本発明の音声認識方法は、音声認識の対象
とする第１の単語群を記憶している第１の単語辞書と、
音声認識の対象とする第２の単語群を、所定の属性ごと
にグループ分けして記憶している第２の単語辞書とか
ら、スコアの計算の対象とする１以上の単語を選択する
単語選択ステップと、第１の単語辞書から選択された単
語について、音響的なスコアを計算するとともに、第１
の文法規則に基づいて言語的なスコアを計算し、第２の
単語辞書から選択された単語について、音響的なスコア
を計算するとともに、その単語の属性に対応する第２の
文法規則に基づいて言語的なスコアを計算するスコア計
算ステップと、スコアの計算された単語と、その単語が
接続する、既にスコアの計算された単語との間の接続関
係およびスコアに基づいて、音声の音声認識結果を確定
する確定ステップとを備えることを特徴とする。

【００４２】本発明の記録媒体は、音声認識の対象とす
る第１の単語群を記憶している第１の単語辞書と、音声
認識の対象とする第２の単語群を、所定の属性ごとにグ
ループ分けして記憶している第２の単語辞書とから、ス
コアの計算の対象とする１以上の単語を選択する単語選
択ステップと、第１の単語辞書から選択された単語につ
いて、音響的なスコアを計算するとともに、第１の文法
規則に基づいて言語的なスコアを計算し、第２の単語辞
書から選択された単語について、音響的なスコアを計算
するとともに、その単語の属性に対応する第２の文法規
則に基づいて言語的なスコアを計算するスコア計算ステ
ップと、スコアの計算された単語と、その単語が接続す
る、既にスコアの計算された単語との間の接続関係およ
びスコアに基づいて、音声の音声認識結果を確定する確
定ステップとを備えるプログラムが記録されていること
を特徴とする。

【００４３】本発明の音声認識装置および音声認識方
法、並びに記録媒体においては、音声認識の対象とする
第１の単語群を記憶している第１の単語辞書と、音声認
識の対象とする第２の単語群を、所定の属性ごとにグル
ープ分けして記憶している第２の単語辞書とから、スコ
アの計算の対象とする１以上の単語が選択される。さら
に、第１の単語辞書から選択された単語について、音響
的なスコアが計算されるとともに、第１の文法規則に基
づいて言語的なスコアが計算され、第２の単語辞書から
選択された単語について、音響的なスコアが計算される
とともに、その単語の属性に対応する第２の文法規則に
基づいて言語的なスコアが計算される。そして、スコア
の計算された単語と、その単語が接続する、既にスコア
の計算された単語との間の接続関係およびスコアに基づ
いて、音声の音声認識結果が確定される。

【００４４】

【発明の実施の形態】図２は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図１における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜両略
する。

【００４５】特徴量抽出部３が出力する、ユーザが発し
た音声の特徴量の系列は、フレーム単位で、制御部１１
に供給されるようになっており、制御部１１は、特徴量
抽出部３からの特徴量を、特徴量記憶部１２に供給す
る。

【００４６】また、制御部１１は、単語接続情報記憶部
１５に記憶された単語接続情報を参照し、マッチング部
１４を制御する。さらに、制御部１１は、マッチング部
１４が、前述した図１のマッチング部４と同様のマッチ
ング処理を行うことにより得られるマッチング処理結果
としての音響スコアや言語スコア等に基づいて、単語接
続情報を生成し、その単語接続情報によって、単語接続
情報記憶部１５の記憶内容を更新する。また、制御部１
１は、単語接続情報記憶部１５に記憶された単語接続情
報に基づいて、最終的な音声認識結果を確定して出力す
る。

【００４７】特徴量記憶部１２は、制御部１１から供給
される特徴量の系列を、例えば、ユーザの音声の認識結
果が得られるまで記憶する。なお、制御部１１は、音声
区間の開始時刻を基準（例えば０）とする、特徴抽出部
３が出力する特徴量が得られた時刻（以下、適宜、抽出
時刻という）を、その特徴量とともに、特徴量記憶部１
２に供給するようになっており、特徴量記憶部１２は、
特徴量を、その抽出時刻とともに記憶する。

【００４８】単語予備選択部１３は、マッチング部１４
からの要求に応じ、単語接続情報記憶部１５、音響モデ
ルデータベース１６Ａ、辞書データベース１７Ａ、およ
び文法データベース１８Ａを必要に応じて参照しなが
ら、マッチング部１４でマッチング処理の対象とする単
語を選択する単語予備選択処理を、特徴量記憶部１２に
記憶された特徴量を用いて行う。この単語予備選択処理
の結果は、マッチング部１４に供給されるようになって
いる。

【００４９】マッチング部１４は、制御部１１からの制
御に基づき、単語接続情報記憶部１５、音響モデルデー
タベース１６Ｂ、辞書データベース１７Ｂ、および文法
データベース１８Ｂを必要に応じて参照しながら、単語
予備選択部１３からの単語予備選択処理の結果得られる
単語を対象としたマッチング処理を、特徴量記憶部１２
に記憶された特徴量を用いて行い、そのマッチング処理
の結果を、制御部１１に供給する。

【００５０】単語接続情報記憶部１５は、制御部１１か
ら供給される単語接続情報を、ユーザの音声の認識結果
が得られるまで記憶する。

【００５１】ここで、単語接続情報は、最終的な音声認
識結果の候補となる単語列を構成する単語どうしの接続
（連鎖または連接）関係を表すもので、各単語の音響ス
コアおよび言語スコア、並びに各単語に対応する発話の
開始時刻および終了時刻も含んでいる。

【００５２】即ち、図３は、単語接続情報記憶部１５に
記憶される単語接続情報を、グラフ構造を用いて示して
いる。

【００５３】図３の実施の形態において、単語接続情報
としてのグラフ構造は、単語を表すアーク（図３におい
て、○印どうしを結ぶ線分で示す部分）と、単語どうし
の境界を表すノード（図３において○印で示す部分）と
から構成されている。

【００５４】ノードは、時刻情報を有しており、この時
刻情報は、そのノードに対応する特徴量の抽出時刻を表
す。上述したように、抽出時刻は、音声区間の開始時刻
を０とする、特徴抽出部３が出力する特徴量が得られた
時刻であるから、図３において、音声区間の開始、即
ち、最初の単語の先頭に対応するノードNode₁が有する
時刻情報は０となる。ノードは、アークの始端および終
端となるが、始端のノード（始端ノード）、または終端
のノード（終端ノード）が有する時刻情報は、それぞ
れ、そのノードに対応する単語の発話の開始時刻、また
は終了時刻となる。

【００５５】なお、図３では、左から右方向が、時間の
経過を表しており、従って、あるアークの左右にあるノ
ードのうち、左側のノードが始端ノードとなり、右側の
ノードが終端ノードとなる。

【００５６】アークは、そのアークに対応する単語の音
響スコアおよび言語スコアを有しており、このアーク
が、終端ノードとなっているノードを始端ノードとし
て、順次接続されていくことにより、音声認識結果の候
補となる単語の系列が構成されていく。

【００５７】即ち、制御部１１においては、まず最初
に、音声区間の開始を表すノードNode ₁に対して、音声
認識結果として確からしい単語に対応するアークが接続
される。図３の実施の形態では、「今日」に対応するア
ークArc₁、「いい」に対応するアークArc₆、および「天
気」に対応するArc₁₁が接続されている。なお、音声認
識結果として確からしい単語かどうかは、マッチング部
１４において求められる音響スコアおよび言語スコアに
基づいて決定される。

【００５８】そして、以下、同様にして、「今日」に対
応するアークArc₁の終端である終端ノードNode₂、「い
い」に対応するアークArc₆の終端である終端ノードNode
₇、「天気」に対応するArc₁₁の終端である終端ノードNo
de₁₂それぞれに対して、同様に、確からしい単語に対応
するアークが接続されていく。

【００５９】以上のようにしてアークが接続されていく
ことで、音声区間の開始を始点として、左から右方向
に、アークとノードで構成される１以上のパスが構成さ
れて行くが、例えば、そのパスのすべてが、音声区間の
最後（図３の実施の形態では、時刻Ｔ）に到達すると、
制御部１１において、音声区間の開始から最後までに形
成された各パスについて、そのパスを構成するアークが
有している音響スコアおよび言語スコアが累積され、最
終スコアが求められる。そして、例えば、その最終スコ
アが最も高いパスを構成するアークに対応する単語列
が、音声認識結果として確定されて出力される。

【００６０】具体的には、例えば、図３において、ノー
ドNode１から、「今日」に対応するアークArc₁、ノード
Node₂、「は」に対応するアークArc₂、ノードNode₃、
「いい」に対応するアークArc₃、ノードNode₄、「天
気」に対応するアークArc₄、ノードNode₅、「ですね」
に対応するアークArc₅、およびノードNode₆で構成され
るパスについて、最も高い最終スコアが得られた場合に
は、単語列「今日」、「は」、「いい」、「天気」、
「ですね」が、音声認識結果として出力されることにな
る。

【００６１】なお、上述の場合には、音声区間内にある
ノードについて、必ずアークを接続して、音声区間の開
始から最後にまで延びるパスを構成するようにしたが、
このようなパスを構成する過程において、それまでに構
成されたパスについてのスコアから、音声認識結果とし
て不適当であることが明らかであるパスに関しては、そ
の時点で、パスの構成を打ち切る（その後に、アークを
接続しない）ようにすることが可能である。

【００６２】また、上述のようなパスの構成ルールに従
えば、１つのアークの終端が、次に接続される１以上の
アークの始端ノードなり、基本的には、枝葉が拡がるよ
うに、パスが構成されて行くが、例外的に、１つのアー
クの終端が、他のアークの終端に一致する場合、つま
り、あるアークの終端ノードと、他のアークの終端ノー
ドとが同一のノードとなる場合がある。

【００６３】即ち、説明を簡単にするために、文法規則
を無視することとすると、別のノードから延びる２つの
アークが、同一の単語に対応するものであり、さらに、
その単語の発話の終了時刻も同一である場合には、その
２つのアークの終端は一致する。

【００６４】図３において、ノードNode₇を始端として
延びるアークArc７、およびノードNode₁₃を始端として
延びるアークArc₁₃は、いずれも「天気」に対応するも
のであり、その発話の終了時刻も同一であるため、その
終端ノードは、ノードNode₈に一致している。

【００６５】図２に戻り、音響モデルデータベース１６
Ａおよび１６Ｂは、基本的には、図１の音響モデルデー
タベース５において説明したような音響モデルを記憶し
ている。

【００６６】但し、音響モデルデータベース１６Ｂは、
音響モデルデータベース１６Ａよりも精度の高い処理が
可能な高精度の音響モデルを記憶している。即ち、例え
ば、音響モデルデータベース１６Ａにおいて、各音素や
音節について、１パターンの音響モデルだけが記憶され
ているとすると、音響モデルデータベース１６Ｂには、
各音素や音節について、複数パターンの音響モデルが記
憶されている。

【００６７】辞書データベース１７Ａおよび１７Ｂは、
基本的には、図１の辞書データベース６において説明し
たような単語辞書を記憶している。

【００６８】但し、辞書データベース１７Ａは、図４
（Ａ）に示すように、基本辞書dicAと、追加辞書dicADD
とからなる単語辞書を記憶している。基本辞書dicAに
は、例えば、新聞や小説等で現れる単語のうち、出現頻
度の高い上位Ｎ単語（Ｎは、例えば、音声認識装置の能
力による）が登録されている。追加辞書dicADDには、基
本辞書dicAを作成するときに用いた新聞や小説等で現れ
る単語の、基本辞書dicAには登録されなかった残りの単
語すべてが登録される。

【００６９】基本辞書dicAに登録される単語の数Ｎが、
例えば、図１の辞書データベース６の単語辞書に登録さ
れる単語の数と同一であるとすると、基本辞書dicAと追
加辞書dicADDとに登録される単語の総数は、図１の辞書
データベース６の単語辞書に登録される単語の数に比較
して、追加辞書dicADDに登録される分だけ増加すること
となるが、その増加により必要となるメモリの容量は、
追加辞書dicADDに登録された単語の数に比例するだけな
ので、それほど大きな値にはならない。

【００７０】なお、ここでは、メモリ容量の節約等のた
め、基本辞書dicAおよび追加辞書dicADDにおいて登録す
る単語の音韻情報（読み）は、各単語に対して、例え
ば、１通りとする。

【００７１】また、追加辞書dicADDには、単語が、例え
ば、その品詞（例えば、名詞や、動詞、形容詞等）や、
意味（例えば、地名であるとか、人名、会社名である
等）などの属性によってグループ分けされ、どのグルー
プに属するかを表すグループ情報とともに登録されてい
るものとする。

【００７２】辞書データベース１７Ｂは、図４（Ｂ）に
示すように、基本辞書dicBと、動的追加辞書dicDYとか
らなる単語辞書を記憶している。

【００７３】基本辞書dicBには、基本辞書dicAと同一セ
ットの単語が登録されている。但し、基本辞書dicBは、
基本辞書dicAよりも精度の高い処理が可能な高精度の音
韻情報を記憶している。即ち、上述したように、基本辞
書dicAには、各単語に対して、１通りの音韻情報（読
み）しか登録されていないが、基本辞書dicBには、各単
語に対して、複数通りの音韻情報が登録されている。具
体的には、例えば、単語「お早う」に対して、基本辞書
dicAには、１通りの音韻情報「おはよう」しか登録され
ていないが、基本辞書dicBには、「おはよう」の他、
「おはよー」や、「おはよ」、「はよう」といった音韻
情報も登録されている。

【００７４】動的追加辞書dicDYには、単語予備選択部
１３において単語予備選択処理が行われることにより、
辞書データベース１７Ａの追加辞書dicADDから、マッチ
ング部１４におけるマッチング処理の対象とする単語が
選択された場合に、その単語が、マッチング部１４によ
って登録される。即ち、動的追加辞書dicDYに登録され
る単語は、単語予備選択部１３において行われる単語予
備選択処理によって、いわば動的に変更される。

【００７５】従って、基本辞書dicBに登録される単語の
数Ｎが、例えば、図１の辞書データベース６の単語辞書
に登録される単語の数と同一であるとすると、基本辞書
dicBと動的追加辞書dicDYとに登録される単語の総数
は、図１の辞書データベース６の単語辞書に登録される
単語の数に比較して、動的追加辞書dicDYに登録される
分だけ増加することとなるが、その増加により必要とな
るメモリの容量は、単語予備選択処理によって、追加辞
書dicADDから選択された単語の数に比例するだけなの
で、僅かである。

【００７６】なお、単語予備選択部１３は、単語予備選
択処理によって、追加辞書dicADDから単語を選択した場
合、その単語を、その音韻情報およびグループ情報とと
もに、マッチング部１４に供給する。従って、動的追加
辞書dicADDには、追加辞書dicADDから選択された単語
が、その音韻情報およびグループ情報とともに登録され
る。

【００７７】再び、図２に戻り、文法データベース１８
Ａおよび１８Ｂは、基本的には、図１の文法データベー
ス７において説明したような文法規則を記憶している。

【００７８】但し、文法データベース１８Ｂは、文法デ
ータベース１８Ａよりも精度の高い処理が可能な高精度
の文法規則を記憶している。即ち、文法データベース１
８Ａが、例えば、ユニグラム（単語の生起確率）に基づ
く文法規則を記憶しているとすると、文法データベース
１８Ｂは、例えば、バイグラム（直前の単語との関係を
考慮した単語の生起確率）や、トライグラム（直前の単
語およびそのさらに１つ前の単語との関係を考慮した単
語の生起確率）、あるいは文脈自由文法等に基づく文法
規則を記憶している。

【００７９】さらに、文法データベース１８Ｂは、辞書
データベース１７Ｂの基本辞書dicBに登録された単語に
ついては、その言語スコアを計算するための文法規則
を、単語ごとに記憶しているが、動的追加辞書dicDYに
登録され得る単語、即ち、辞書データベース１７Ａの追
加辞書dicADDに登録された単語については、その言語ス
コアを計算するための文法規則を、単語のグループ分け
に用いられた属性（上述したように、単語の品詞や意
味）ごとに記憶している。

【００８０】従って、例えば、基本辞書dicBに、Ｎ個の
単語ｗ₁，ｗ₂，・・・，ｗ_Nが登録されており（この場
合、本実施の形態では、基本辞書dicAにも、同一の単語
が登録されていることになる）、かつ、追加辞書dicADD
に登録された単語が、Ｍ個のグループｃ₁，ｃ₂，・・
・，ｃ_Mにグループ分けされているとし、さらに、文法
データベース１８Ｂの文法規則として、２つの単語が連
鎖する連鎖確率で規定されるバイグラムを採用すること
とすると、文法データベース１８Ｂに登録される文法規
則のデータ量は、図５に示すようになる。

【００８１】即ち、図５において、エリアArea₁は、基
本辞書dicBに登録された単語ｗ_iとｗ _jとのバイグラムに
よる連鎖確率Ｐ（ｗ_i，ｗ_j）のデータ量を表しており、
このデータ量は、図１において、辞書データベース６の
単語辞書にＮ個の単語が登録されており、かつ、文法デ
ータベース７の文法規則として、バイグラムを採用する
場合と同一になる。但し、ｉ，ｊ＝１，２，・・・，Ｎ
である。

【００８２】また、図５において、エリアArea₂は、動
的追加辞書dicDYに登録され得る単語のグループｃ_mに属
する単語と、基本辞書dicBに登録された単語ｗ_iとが、
その順で連鎖する場合のバイグラムによる連鎖確率Ｐ
（ｃ_m，ｗ_i）のデータ量を表しており、エリアArea
₃は、基本辞書dicBに登録された単語ｗ_iと、動的追加辞
書dicDYに登録され得る単語のグループｃ_mに属する単語
とが、その順で連鎖する場合のバイグラムによる連鎖確
率Ｐ（ｗ_i，ｃ_m）のデータ量を表している。さらに、図
５において、エリアArea₄は、動的追加辞書dicDYに登録
され得る単語の、ある１のグループｃ_kに属する単語
と、他の１のグループｃ_mに属する単語とのバイグラム
による連鎖確率Ｐ（ｃ_k，ｃ_m）のデータ量を表してい
る。但し、ｋ，ｍ＝１，２，・・・，Ｍである。

【００８３】これらのエリアArea₂，Area₃，Area₄で表
されるデータ量が、動的追加辞書dicDYを設けることに
よる文法規則のデータ量の増加分であり、追加辞書dicA
DDに、莫大な数の単語を登録しても、それらの単語をグ
ループ分けする際のグループ数を抑えることで、文法デ
ータベース１８Ｂに登録する必要のある文法規則のデー
タ量は、図１における場合に比較して、僅かの増加で済
むようになる。

【００８４】次に、図６のフローチャートを参照して、
図２の音声認識装置による音声認識処理について説明す
る。

【００８５】ユーザが発話を行うと、その発話としての
音声は、マイク１およびＡＤ変換部２を介することによ
り、ディジタルの音声データとされ、特徴抽出部３に供
給される。特徴抽出部３は、そこに供給される音声デー
タから、音声の特徴量を、フレームごとに順次抽出し、
制御部１１に供給する。

【００８６】制御部１１は、何らかの手法で音声区間を
認識するようになっており、音声区間においては、特徴
抽出部３から供給される特徴量の系列を、各特徴量の抽
出時刻と対応付けて、特徴量記憶部１２に供給して記憶
させる。

【００８７】さらに、制御部１１は、音声区間の開始
後、ステップＳ１において、音声区間の開始を表すノー
ド（以下、適宜、初期ノードという）を生成し、単語接
続情報記憶部１５に供給して記憶させる。即ち、制御部
１１は、ステップＳ１において、図３におけるノードNo
de₁を、単語接続情報記憶部１５に記憶させる。

【００８８】そして、ステップＳ２に進み、制御部１１
は、単語接続情報記憶部１５の単語接続情報を参照する
ことで、途中ノードが存在するかどうかを判定する。

【００８９】即ち、上述したように、図３に示した単語
接続情報においては、終端ノードに、アークが接続され
ていくことにより、音声区間の開始から最後にまで延び
るパスが形成されて行くが、ステップＳ２では、終端ノ
ードのうち、まだアークが接続されておらず、かつ、音
声区間の最後にまで到達していないものが、途中ノード
（例えば、図３におけるノードNode₈や、Node₁₀，Node
₁₁）として検索され、そのような途中ノードが存在する
かどうかが判定される。

【００９０】なお、上述したように、音声区間は何らか
の手法で認識され、さらに、終端ノードに対応する時刻
は、その終端ノードが有する時刻情報を参照することで
認識することができるから、アークが接続されていない
終端ノードが、音声区間の最後に到達していない途中ノ
ードであるかどうかは、音声区間の最後の時刻と、終端
ノードが有する時刻情報とを比較することで判定するこ
とができる。

【００９１】ステップＳ２において、途中ノードが存在
すると判定された場合、ステップＳ３に進み、制御部１
１は、情報接続情報の中に存在する途中ノードのうちの
１つを、それに接続するアークとしての単語を決定する
ノード（以下、適宜、注目ノードという）として選択す
る。即ち、制御部１１は、ステップＳ２において、情報
接続情報の中に複数の途中ノードが存在する場合には、
その複数の途中ノードのうちの１つを注目ノードとして
選択し、情報接続情報の中に１つの途中ノードしか存在
しない場合には、その途中ノードを、注目ノードとして
選択する。

【００９２】その後、制御部１１は、注目ノードが有す
る時刻情報を開始時刻としてマッチング処理を行う旨の
指令（以下、適宜、マッチング処理指令という）を、マ
ッチング部１４に出力する。マッチング部１４は、制御
部１１からマッチング処理指令を受信すると、注目ノー
ドと、それが有する時刻情報とを、単語予備選択部１３
に供給し、単語予備選択処理を要求する。

【００９３】単語予備選択部１３は、マッチング部１４
から、単語予備選択処理の要求を受信すると、ステップ
Ｓ４において、注目ノードに接続されるアークとなる単
語、つまり、マッチング処理の対象となる単語の候補を
選択する単語予備選択処理を、基本辞書dicAおよび追加
辞書dicADDに登録された単語を対象として行う。

【００９４】即ち、単語予備選択部１３は、言語スコア
および音響スコアを計算するのに用いる特徴量の系列の
開始時刻を、注目ノードが有する時刻情報から認識し、
その開始時刻以降の、必要な特徴量の系列を特徴量記憶
部１２から読み出す。さらに、単語予備選択部１３は、
辞書データベース１７Ａの基本辞書dicAおよび追加辞書
dicADDに登録された単語の単語モデルを、音響モデルデ
ータベース１６Ａに記憶された音響モデルを接続するこ
とで構成し、各単語モデルに対応する単語について、特
徴量記憶部１２から読み出した特徴量の系列を用いて、
音響スコアを計算する。

【００９５】また、単語予備選択部１３は、辞書データ
ベース１７Ａの基本辞書dicAおよび追加辞書dicADDに登
録された各単語の言語スコアを、文法データベース１８
Ａに記憶された文法規則に基づいて計算する。そして、
単語予備選択部１３は、辞書データベース１７Ａの基本
辞書dicAおよび追加辞書dicADDに登録された各単語につ
いて、その音響スコアおよび言語スコアを総合評価した
スコア（単語について、その音響スコアおよび言語スコ
アを総合評価したスコアを、以下、適宜、単語スコアと
いう）を求め、その上位Ｌ個を、マッチング処理の対象
とする単語として、マッチング部１４に供給する。

【００９６】ここで、本実施の形態において、辞書デー
タベース１７Ａの基本辞書dicAおよび追加辞書dicADDに
登録された単語数は、膨大な数となるが、音響モデルデ
ータベース１６Ａに記憶された音響モデルや、文法デー
タベース１８Ａに記憶された文法規則は、上述したこと
から、音響モデルデータベース１６Ｂに記憶された音響
モデルや、文法データベース１８Ｂに記憶された文法規
則よりも精度の低いものであり、そのような音響モデル
や文法規則を用いた音響スコアや言語スコアの計算は、
比較的容易である。

【００９７】なお、単語予備選択部１３の処理能力が低
い場合には、単語予備選択部１３において、例えば、単
語のすべての音素や音節の音響モデルを接続するのでは
なく、最初の幾つかの音素や音節の音響モデルだけを接
続して単語モデルを構成し、そのような単語モデルを用
いて、音響スコアを計算するようにしても良い。また、
言語スコアは計算せずに、音響スコアのみに基づいて、
あるいは逆に、音響スコアは計算せずに、言語スコアの
みに基づいて、マッチング処理の対象とする単語を選択
するようにすることも可能である。さらに、単語予備選
択部１３においては、追加辞書dicADDに登録された単語
については、音響的に類似する単語どうしをグループ化
し、各グループを代表する１以上の単語を決めておき、
その単語についてのみ、音響スコアおよび言語スコアを
計算するようにしても良い。但し、この場合は、追加辞
書dicADDに登録された単語が、上述の上位Ｌ個の中に入
ったときには、その単語が属するグループの単語すべて
が、マッチング処理の対象とされることになる。

【００９８】また、単語予備選択部１３では、言語スコ
アや音響スコアを計算するのではなく、ユーザのいまま
での発話の話題や意味内容から、マッチングの対象とす
る単語を選択するようにすることも可能である。

【００９９】一方、単語予備選択部１３の処理能力が高
い場合には、単語予備選択部１３において、例えば、単
語接続情報記憶部１５に記憶された単語接続情報を参照
し、注目ノードに先行するアークに対応する単語の音響
スコアや言語スコア等を加味して、マッチング処理の対
象とする単語を選択するようにすることが可能である。

【０１００】マッチング部１４は、単語予備選択部１３
から、マッチング処理の対象とする単語（以下、適宜、
選択単語という）を受信すると、ステップＳ５におい
て、その選択単語の中に、追加辞書dicADDに登録された
ものがあるかどうかを判定する。

【０１０１】ここで、単語予備選択部１３は、上述のよ
うに、辞書データベース１７Ａの基本辞書dicAおよび追
加辞書dicADDに登録された単語から、マッチング処理の
対象とする単語（選択単語）を選択し、マッチング部１
４に供給するが、その選択単語のうち、単語予備選択部
１３が参照する基本辞書dicAから選択されたものは、マ
ッチング部１４が参照する基本辞書dicBにも登録されて
いる。従って、選択単語のうち、基本辞書dicAから選択
されたものについては、その単語を一意に識別すること
のできる、例えば、ユニークな番号や、その単語のテキ
スト表記等の識別情報を、単語予備選択部１３からマッ
チング部１４に対して与えれば済む。

【０１０２】これに対して、選択単語のうち、単語予備
選択部１３が参照する追加辞書dicADDから選択されたも
のは、マッチング部１４が参照する基本辞書dicBおよび
動的追加辞書dicDYのいずれにも登録されていないか
ら、そのような選択単語を対象にマッチング処理を行う
には、その選択単語の単語モデルを構成するために、そ
の音韻情報（読み）が必要となる。そこで、選択単語の
うち、追加辞書dicADDから選択されたものについては、
その識別情報の他に、その音韻情報も、単語予備選択部
１３からマッチング部１４に対して供給される。

【０１０３】さらに、追加辞書dicADDから選択された選
択単語については、上述したように、そのグループ情報
も、単語選択部１３からマッチング部１４に対して供給
される。

【０１０４】そこで、マッチング部１４は、ステップＳ
５において、例えば、グループ情報の有無に基づいて、
単語予備選択部１３からの選択単語の中に、追加辞書di
cADDに登録されたもの（以下、適宜、追加単語という）
があるかどうかを判定し、ないと判定した場合、辞書デ
ータベース１７Ｂの動的追加辞書dicDYの記憶内容をク
リアし、ステップＳ６をスキップして、ステップＳ７に
進む。

【０１０５】一方、ステップＳ５において、単語予備選
択部１３からの選択単語の中に、追加辞書dicADDに登録
されたもの（追加単語）があると判定された場合、ステ
ップＳ６に進み、マッチング部６は、辞書データベース
１７Ｂの動的追加辞書dicDYの記憶内容を、単語予備選
択部１３からの選択単語の中に含まれる追加単語によっ
て更新（上書き）する。

【０１０６】即ち、マッチング部６は、選択単語のう
ち、追加単語について、単語選択部１３から供給される
識別情報、音韻情報、およびグループ情報を、動的追加
辞書dicDYに記憶させることで、その記憶内容を更新す
る。

【０１０７】そして、ステップＳ７に進み、マッチング
部１４は、基本辞書dicBに登録された単語のうち、単語
予備選択部１３からの選択単語の中に含まれるものと、
動的追加辞書dicDYに登録された単語とを対象に、音響
スコアおよび言語スコアの計算を行う。

【０１０８】即ち、マッチング部１４は、言語スコアお
よび音響スコアを計算するのに用いる特徴量の系列の開
始時刻を、注目ノードが有する時刻情報から認識し、そ
の開始時刻以降の、必要な特徴量の系列を特徴量記憶部
１２から読み出す。さらに、マッチング部１４は、基本
辞書dicAに登録された単語のうちの選択単語の中に含ま
れるものと、動的追加辞書dicDYに登録された単語の単
語モデルを、音響モデルデータベース１６Ｂに記憶され
た音響モデルを接続することで構成し、各単語モデルに
対応する単語ついて、特徴量記憶部１２から読み出した
特徴量の系列を用いて、音響スコアを計算する。

【０１０９】また、マッチング部１４は、基本辞書dicA
に登録された単語のうちの選択単語の中に含まれるもの
と、動的追加辞書dicDYに登録された単語の言語スコア
を、文法データベース１８Ｂに記憶された文法規則に基
づいて計算する。そして、マッチング部１４は、基本辞
書dicAに登録された単語のうちの選択単語の中に含まれ
るものと、動的追加辞書dicDYに登録された単語につい
て、その音響スコアおよび言語スコアを総合評価した単
語スコアを求める。

【０１１０】ここで、マッチング部１４においては、基
本辞書dicAに登録された単語のうちの選択単語の中に含
まれるものについての音響スコアと言語スコアの計算
は、図１のマッチング部４における場合と同様にして行
われる。

【０１１１】一方、動的追加辞書dicDYに登録される単
語（追加単語）については、識別情報、音韻情報、およ
びグループ情報が、動的追加辞書dicDYに登録されるか
ら、マッチング部１４では、その音韻情報を用いて、単
語モデルが構成され、その音響スコアが計算される。従
って、動的追加辞書dicDYに登録される単語について、
その音響スコアを正確に計算することができる。

【０１１２】また、動的追加辞書dicDYに登録される単
語については、マッチング部１４において、文法データ
ベース１８Ｂに登録された文法規則のうち、その単語の
グループ情報に対応するものを用いて、その言語スコア
が計算される。

【０１１３】さらに、マッチング部１４においても、上
述した単語予備選択部１３における場合と同様に、例え
ば、単語接続情報記憶部１５に記憶された単語接続情報
を参照し、注目ノードに先行するアークに対応する単語
の音響スコアや言語スコア等を加味して、音響スコアや
言語スコアの計算を行うようにすることが可能である。

【０１１４】なお、音響モデルデータベース１６Ｂに記
憶された音響モデルや、文法データベース１８Ｂに記憶
された文法規則は、上述したように、高精度のものであ
り、従って、そのような高精度の文法規則や音響モデル
を用いての、１単語あたりの音響スコアおよび言語スコ
アの計算量は、単語予備選択部１３における場合に比較
して大きく増加するが、マッチング部１４において音響
スコアおよび言語スコアの計算の対象となる単語は、単
語予備選択部１３で選択されるＬ個だけであり、従っ
て、そのＬ個の単語全体についての計算量は、単語予備
選択部１３がＬ個の単語を選択するのに行う単語予備選
択処理の計算量と比較して、それほど大きくなるという
ものではない。

【０１１５】以上のようにして、ステップＳ７におい
て、単語予備選択部１３からのＬ個の選択単語の音響ス
コアおよび言語スコアが得られた後は、ステップＳ８に
進み、Ｌ個の選択単語それぞれについて、その音響スコ
アおよび言語スコアを総合評価した単語スコアが求めら
れ、その単語スコアに基づいて、単語接続情報記憶部１
５に記憶された単語接続情報が更新される。

【０１１６】即ち、ステップＳ８では、マッチング部１
４は、各選択単語について単語スコアを求め、例えば、
その単語スコアを所定の閾値と比較すること等によっ
て、注目ノードに接続するアークとしての単語を、選択
単語の中から絞り込む。そして、マッチング部１４は、
その絞り込みの結果残った単語を、その音響スコア、言
語スコア、およびその単語の終了時刻とともに、制御部
１１に供給する。

【０１１７】なお、単語の終了時刻は、音響スコアを計
算するのに用いた特徴量の抽出時刻から認識される。ま
た、ある単語について、その終了時刻としての蓋然性の
高い抽出時刻が複数得られた場合には、その単語につい
ては、各終了時刻と、対応する音響スコアおよび言語ス
コアとのセットが、制御部１１に供給される。

【０１１８】制御部１１は、上述のようにしてマッチン
グ部１４から供給される単語の音響スコア、言語スコ
ア、および終了時刻を受信すると、マッチング部１４か
らの各単語について、単語接続情報記憶部１５に記憶さ
れた単語接続情報（図３）における注目ノードを始端ノ
ードとして、アークを延ばし、そのアークを、終了時刻
の位置に対応する終端ノードに接続する。さらに、制御
部１１は、各アークに対して、対応する単語、並びにそ
の音響スコアおよび言語スコアを付与するとともに、各
アークの終端ノードに対して、対応する終了時刻を時刻
情報として与える。そして、ステップＳ２に戻り、以
下、同様の処理が繰り返される。

【０１１９】一方、ステップＳ２において、途中ノード
が存在しないと判定された場合、ステップＳ９に進み、
制御部１１は、単語接続情報を参照することで、その単
語接続情報として構成された各パスについて、単語スコ
アを累積することで、最終スコアを求め、例えば、その
最終スコアが最も大きいパスを構成するアークに対応す
る単語列を、ユーザの発話に対する音声認識結果として
出力して、処理を終了する。

【０１２０】以上のように、単語予備選択部１３が参照
する辞書データベース１７Ａを、基本辞書dicAと、追加
辞書dicADDで構成し、さらに、追加辞書dicADDにおいて
は、単語を、その属性ごとにグループ分けして登録して
おく一方、マッチング部１４が参照する文法データベー
ス１８Ｂには、追加辞書dicADDに登録された単語につい
ては、その属性ごとに文法規則を登録しておくようにし
たので、僅かな計算量とメモリ容量の増加によって、音
声認識の対象とする語彙を、大幅に増加させることがで
き、その結果、未登録語に起因する誤認識を防止して、
精度の高い音声認識を行うことが可能となる。

【０１２１】次に、上述した一連の処理は、ハードウェ
アにより行うこともできるし、ソフトウェアにより行う
こともできる。一連の処理をソフトウェアによって行う
場合には、そのソフトウェアを構成するプログラムが、
汎用のコンピュータ等にインストールされる。

【０１２２】そこで、図７は、上述した一連の処理を実
行するプログラムがインストールされるコンピュータの
一実施の形態の構成例を示している。

【０１２３】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク１０５やＲＯＭ１
０３に予め記録しておくことができる。

【０１２４】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory)，M
O(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体１１１に、一時的あるいは永続的に格納（記
録）しておくことができる。このようなリムーバブル記
録媒体１１１は、いわゆるパッケージソフトウエアとし
て提供することができる。

【０１２５】なお、プログラムは、上述したようなリム
ーバブル記録媒体１１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部１０８で受信し、内蔵するハード
ディスク１０５にインストールすることができる。

【０１２６】コンピュータは、CPU(Central Processing
Unit)１０２を内蔵している。CPU１０２には、バス１
０１を介して、入出力インタフェース１１０が接続され
ており、CPU１０２は、入出力インタフェース１１０を
介して、ユーザによって、キーボードや、マウス、マイ
ク等で構成される入力部１０７が操作等されることによ
り指令が入力されると、それにしたがって、ROM(Read O
nly Memory)１０３に格納されているプログラムを実行
する。あるいは、また、CPU１０２は、ハードディスク
１０５に格納されているプログラム、衛星若しくはネッ
トワークから転送され、通信部１０８で受信されてハー
ドディスク１０５にインストールされたプログラム、ま
たはドライブ１０９に装着されたリムーバブル記録媒体
１１１から読み出されてハードディスク１０５にインス
トールされたプログラムを、RAM(Random Access Memor
y)１０４にロードして実行する。これにより、CPU１０
２は、上述したフローチャートにしたがった処理、ある
いは上述したブロック図の構成により行われる処理を行
う。そして、CPU１０２は、その処理結果を、必要に応
じて、例えば、入出力インタフェース１１０を介して、
LCD(Liquid CryStal Display)やスピーカ等で構成され
る出力部１０６から出力、あるいは、通信部１０８から
送信、さらには、ハードディスク１０５に記録等させ
る。

【０１２７】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１２８】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０１２９】さらに、図７の実施の形態において、各単
語のスコア計算や、そのスコアに基づく評価等は、CPU
１０２で行われることとなるが、CPU１０２では、これ
らの処理は、各単語ごとに独立して行うようにすること
ができる。この場合、CPU１０２が各単語について処理
を行うために確保するRAM１０４の記憶領域を小さく抑
えることができる。

【０１３０】なお、図２に示した音声認識装置は、例え
ば、音声によってデータベースの検索を行う場合や、各
種の機器の操作を行う場合、各機器へのデータ入力を行
う場合、音声対話システム等に適用可能である。より具
体的には、例えば、音声による地名の問合せに対して、
対応する地図情報を表示するデータベース検索装置や、
音声による命令に対して、荷物の仕分けを行う産業用ロ
ボット、キーボードの代わりに音声入力によりテキスト
作成を行うディクテーションシステム、ユーザとの会話
を行うロボットにおける対話システム等に適用可能であ
る。

【０１３１】また、本実施の形態では、音響モデルデー
タベース１６Ｂには、音響モデルデータベース１６Ａに
登録する音響モデルよりも、高精度のものを登録するよ
うにしたが、音響モデルデータベース１６Ａおよび１６
Ｂは、その少なくとも一部の音響モデルを共通化して構
成することが可能である。同様に、辞書データベース１
７Ａの基本辞書dicAと、辞書データベース１７Ｂの基本
辞書dicBも、その少なくとも一部の単語の音韻情報を共
通化して構成することが可能である。また、文法データ
ベース１８Ａと１８Ｂも、同様に、その少なくとも一部
の文法規則を共通化して構成することが可能である。

【０１３２】さらに、本実施の形態では、辞書データベ
ース１７Ａの追加辞書dicADDには、各単語について、１
通りの音韻情報を登録するようにしたので、追加辞書di
cADDに登録された単語が、単語予備選択部１３において
選択され、辞書データベース１７Ｂの動的追加辞書dicD
Yに登録された場合には、マッチング部１４において
は、動的追加辞書dicDYに登録された単語については、
その１通りの音韻情報によってしか単語モデルを構成す
ることができないが、辞書データベース１７Ａの記憶容
量に余裕がある場合には、追加辞書dicADDにおいて、各
単語について、複数通りの音韻情報を登録することが可
能である。この場合、マッチング部１４においては、動
的追加辞書dicDYに登録された単語についても、基本辞
書dicBに登録された単語と同様に、その複数通りの音韻
情報によって、複数の単語モデルを構成して、より精度
の高い音響スコアを計算することが可能となる。

【０１３３】なお、追加辞書dicADDに、各単語の複数通
りの音韻情報を登録した場合、単語予備選択部１３にお
いても、その複数通りの音韻情報によって、複数の単語
モデルを構成して、音響スコアを計算することが可能で
ある。但し、単語予備選択部１３において、そのような
処理を負担することが困難である場合には、例えば、複
数通りの音韻情報のうちの任意の１つだけについて、単
語モデルを構成し、音響スコアを計算するようにすれば
良い。

【０１３４】

【発明の効果】本発明の音声認識装置および音声認識方
法、並びに記録媒体によれば、音声認識の対象とする第
１の単語群を記憶している第１の単語辞書と、音声認識
の対象とする第２の単語群を、所定の属性ごとにグルー
プ分けして記憶している第２の単語辞書とから、スコア
の計算の対象とする１以上の単語が選択される。さら
に、第１の単語辞書から選択された単語について、音響
的なスコアが計算されるとともに、第１の文法規則に基
づいて言語的なスコアが計算され、第２の単語辞書から
選択された単語について、音響的なスコアが計算される
とともに、その単語の属性に対応する第２の文法規則に
基づいて言語的なスコアが計算される。そして、スコア
の計算された単語と、その単語が接続する、既にスコア
の計算された単語との間の接続関係およびスコアに基づ
いて、音声の音声認識結果が確定される。従って、大語
彙を対象とした精度の高い音声認識を行うことが可能と
なる。

【図面の簡単な説明】

【図１】従来の音声認識装置の一例の構成を示すブロッ
ク図である。

【図２】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。

【図３】単語接続情報を示す図である。

【図４】辞書データベース１７Ａおよび１７Ｂの構成を
説明するための図である。

【図５】文法データベース１８Ｂに記憶される文法規則
のデータ量を説明するための図である。

【図６】図２の音声認識装置の処理を説明するためのフ
ローチャートである。

【図７】本発明を適用したコンピュータの一実施の形態
の構成例を示すブロック図である。

【符号の説明】

１マイク，２ＡＤ変換部，３特徴抽出部，
１１制御部，１２特徴量記憶部，１３単語予備
選択部，１４マッチング部，１５単語接続情報
記憶部，１６Ａ，１６Ｂ音響モデルデータベース，
１７Ａ，１７Ｂ辞書データベース，１８Ａ，１８
Ｂ文法データベース，１０１バス，１０２ CP
U，１０３ ROM，１０４ RAM，１０５ハード
ディスク，１０６出力部，１０７入力部，１
０８通信部，１０９ドライブ，１１０入出力
インタフェース，１１１リムーバブル記録媒体

───────────────────────────────────────────────────── フロントページの続き (72)発明者小川浩明東京都品川区北品川６丁目７番35号ソニー株式会社内 (72)発明者ヘルムートルッケ東京都品川区北品川６丁目７番35号ソニー株式会社内Ｆターム(参考） 5D015 AA01 BB02 FF07 HH03 HH11 HH12 9A001 EE05 FF03 FF05 HH17

Claims

【特許請求の範囲】

【請求項１】入力された音声に対して、所定のスコア
を計算し、そのスコアに基づいて、前記音声を認識する
音声認識装置であって、音声認識の対象とする第１の単語群を記憶している第１
の単語辞書と、音声認識の対象とする第２の単語群を、
所定の属性ごとにグループ分けして記憶している第２の
単語辞書とから、前記スコアの計算の対象とする１以上
の単語を選択する単語選択手段と、前記第１の単語辞書の単語について、言語的なスコアを
計算するための第１の文法規則を記憶している第１の文
法規則記憶手段と、前記第２の単語辞書の単語について、言語的なスコアを
計算するための第２の文法規則を、前記属性ごとに記憶
している第２の文法規則記憶手段と、前記第１の単語辞書から選択された前記単語について、
音響的なスコアを計算するとともに、前記第１の文法規
則に基づいて言語的なスコアを計算し、前記第２の単語
辞書から選択された前記単語について、音響的なスコア
を計算するとともに、その単語の属性に対応する前記第
２の文法規則に基づいて言語的なスコアを計算するスコ
ア計算手段と、前記スコアの計算された単語と、その単語が接続する、
既にスコアの計算された単語との間の接続関係を記憶す
る接続関係記憶手段と、前記接続関係およびスコアに基づいて、前記音声の音声
認識結果を確定する確定手段とを備えることを特徴とす
る音声認識装置。
【請求項２】前記接続関係記憶手段は、前記単語どう
しの接続関係とともに、各単語の音響的なスコアおよび
言語的なスコア、並びに各単語に対応する発話の開始時
刻および終了時刻も記憶することを特徴とする請求項１
に記載の音声認識装置。
【請求項３】前記属性は、単語の品詞または意味であ
ることを特徴とする請求項１に記載の音声認識装置。
【請求項４】前記第１および第２の単語辞書を記憶し
ている単語辞書記憶手段をさらに備えることを特徴とす
る請求項１に記載の音声認識装置。
【請求項５】入力された音声に対して、所定のスコア
を計算し、そのスコアに基づいて、前記音声を認識する
音声認識方法であって、音声認識の対象とする第１の単語群を記憶している第１
の単語辞書と、音声認識の対象とする第２の単語群を、
所定の属性ごとにグループ分けして記憶している第２の
単語辞書とから、前記スコアの計算の対象とする１以上
の単語を選択する単語選択ステップと、前記第１の単語辞書から選択された前記単語について、
音響的なスコアを計算するとともに、第１の文法規則に
基づいて言語的なスコアを計算し、前記第２の単語辞書
から選択された前記単語について、音響的なスコアを計
算するとともに、その単語の属性に対応する第２の文法
規則に基づいて言語的なスコアを計算するスコア計算ス
テップと、前記スコアの計算された単語と、その単語が接続する、
既にスコアの計算された単語との間の接続関係およびス
コアに基づいて、前記音声の音声認識結果を確定する確
定ステップとを備えることを特徴とする音声認識方法。
【請求項６】入力された音声に対して、所定のスコア
を計算し、そのスコアに基づいて、前記音声を認識する
音声認識処理を、コンピュータに行わせるプログラムが
記録されている記録媒体であって、音声認識の対象とする第１の単語群を記憶している第１
の単語辞書と、音声認識の対象とする第２の単語群を、
所定の属性ごとにグループ分けして記憶している第２の
単語辞書とから、前記スコアの計算の対象とする１以上
の単語を選択する単語選択ステップと、前記第１の単語辞書から選択された前記単語について、
音響的なスコアを計算するとともに、第１の文法規則に
基づいて言語的なスコアを計算し、前記第２の単語辞書
から選択された前記単語について、音響的なスコアを計
算するとともに、その単語の属性に対応する第２の文法
規則に基づいて言語的なスコアを計算するスコア計算ス
テップと、前記スコアの計算された単語と、その単語が接続する、
既にスコアの計算された単語との間の接続関係およびス
コアに基づいて、前記音声の音声認識結果を確定する確
定ステップとを備えるプログラムが記録されていること
を特徴とする記録媒体。