JP2003022093A

JP2003022093A - 音声認識方法および音声認識装置ならびに音声認識プログラム

Info

Publication number: JP2003022093A
Application number: JP2001207984A
Authority: JP
Inventors: Hiroyuki Segi; 寛之世木
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2001-07-09
Filing date: 2001-07-09
Publication date: 2003-01-24

Abstract

(57)【要約】【課題】音声認識する認識時間（計算時間）を多くか
けることなく、高い認識性能を期待することができる音
声認識方法および音声認識装置ならびに音声認識プログ
ラムを提供する。【解決手段】音声認識方法は、隠れマルコフモデルの
形式で表される複数の音響モデルおよび言語モデルと、
発音辞書とを利用する音声認識方法であって、音響モデ
ルおよび言語モデルの値であるスコアおよび単語の履歴
を含んでなるトークン毎に、複数の音響モデルの中か
ら、特定の音響モデルを予め設定し、これらの特定の音
響モデルにより、音声認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、隠れマルコフモデ
ルを利用する音声認識方法および音声認識装置ならびに
音声認識プログラムに関する。

【０００２】

【従来の技術】従来、音声認識を行うシステム（装
置）、方法の一例として、以下に示すものが提唱されて
いる。（１）音響モデルの１つを利用する方法（ニュース番組
自動字幕化のための音声認識システム（音声言語情報処
理研究会、２３−１１、ｐｐ５９−６４、１９９８、１
０））（２）音響モデルを複数用意し、そのうちの１つを利用
する方法（ｓｅｌｅｃｔｉｖｅｔｒａｉｎｉｎｇｏ
ｆｈｍｍｓｂｙｕｓｉｎｇｔｗｏ−ｓｔａｇｅ
ｃｌｕｓｔｅｒｉｎｇ（ＩＣＳＬＰ２０００、Ｖｏ
ｌ．３、ｐｐ７２６−７２９、２０００））

【０００３】（１）に記載した手法は、入力された音声
（主にアナウンサーの音声）から、各トークン毎に音響
的な類似度を、隠れマルコフモデルの音響モデル（ｔｒ
ｉｐｈｏｎｅ−ＨＭＭ）に基づいて計算すると共に、単
語列のつながりやすさを、言語モデル（ｂｉｇｒａｍ）
に基づいて計算して、入力された音声を認識し、この認
識した音声の文字列を出力するというものである。な
お、この音声認識の手法では、各トークン毎に音響的な
類似度が１つの音響モデルに基づいて計算されている。

【０００４】（２）に記載した手法は、予め、音響モデ
ルの学習データを、ＧＭＭ（ＧｒｏｕｐＭａｒｋｏｖ
Ｍｏｄｅｌ）を使用し、グループに分け複数の音響モ
デルを作成しておく。認識時には、ＧＭＭを使い、入力
された音声の音響モデルを生成し、グループ分けされた
音響モデルの中から、近い音響モデルを判定し、判定さ
れた音響モデルを使用して、計算していく（音声認識す
る）手法である。

【０００５】

【発明が解決しようとする課題】しかしながら、従来の
音声認識の（１）の方法では、音声認識する対象となる
音声のすべての計算を、一つの音響モデルで実行してい
くので、音声認識する対象の音声が複数の人によって発
声されたものである場合、高い認識性能は期待できない
という問題がある。

【０００６】また、（２）の方法では、ある一定の時間
後に必ず、作成しておいた複数の音響モデルの中から一
つの音響モデルを選択する必要があるため、一定時間経
過後、音響モデルを変更する必要が生じた場合であって
も、再度、複数の音響モデルから選択できる状況（選択
可能な複数の音響モデルが共存する状況）を作り出すこ
とはできない。認識性能を低下させずに認識結果を出す
ために、次の一つの音響モデルが選択されるまで待機す
ると、その分だけ、計算時間（音声認識時間）が多くか
かるという問題がある。さらに、（２）の方法では、全
ての音素が区別されることなく、音素間のつながりも考
慮されずに、音響モデルが選択されるので、高い認識性
能は期待できないという問題がある。

【０００７】本発明の目的は前記した従来の技術が有す
る課題を解消し、音声認識する認識時間（計算時間）を
多くかけることなく、高い認識性能を期待することがで
きる音声認識方法および音声認識装置ならびに音声認識
プログラムを提供することにある。

【０００８】

【課題を解決するための手段】請求項１記載の音声認識
方法は、隠れマルコフモデルの形式で表される複数の音
響モデルおよび言語モデルと、複数の単語要素および音
声波形デーを関連づけた発音辞書とを利用する音声認識
方法であって、前記音響モデルおよび前記言語モデルの
値であるスコアおよび単語の履歴を含んでなるトークン
毎に、前記複数の音響モデルの中から、特定の音響モデ
ルを予め設定し、これらの特定の音響モデルにより、音
声認識することを特徴とする。この方法では、トークン
毎に、複数の音響モデルの中から特定の音響モデルが、
予め設定されており、この設定された特定の音響モデル
によって音声認識がなされる。

【０００９】なお、トークンとは、音声認識における、
音声認識結果の候補であって、スコアと履歴（単語の履
歴）とを含んでなるものである。音声認識では、音声デ
ータの発声された音につれて、単語から単語へとトーク
ンが「伝達」し、履歴を持つようになり、最終的には、
残った最大スコアのトークンに基づいて、音声認識単語
列（音声認識結果）が算出される（出力される）。ま
た、単語要素とは、一つの単語を構成する各母音または
各子音を、或いは、その各母音または子音をさらに時系
列に沿って細分化したものをさすものである。

【００１０】補足しておくと、隠れマルコフモデルと
は、確率統計的な音声認識における数理統計モデルであ
って、性質の異なる複数の定常信号源を切り換えていく
ことにより、もともと非定常信号である音声を、性質の
異なる定常信号の時系列としてモデル化したものであ
る。

【００１１】請求項２記載の音声認識装置は、隠れマル
コフモデルの形式で表される複数の音響モデルおよび言
語モデルと、複数の単語要素および音声波形データを関
連づけた発音辞書とを記憶する記憶部を備える音声認識
装置であって、前記音響モデルおよび前記言語モデルの
値であるスコアおよび単語の履歴を含んでなるトークン
毎に、前記複数の音響モデルの中から、特定の音響モデ
ルを設定する音響モデル設定手段と、この音響モデル設
定手段が設定した特定の音響モデルに基づいて、音声認
識する対象となる音声を演算して認識する音声認識手段
と、を備えて構成されていることを特徴とする。かかる
構成によれば、音響モデル設定手段によって、トークン
毎に複数の音響モデルの中から特定の音響モデルが設定
され、音声認識手段によって、特定の音響モデルに基づ
き、音声認識する対象となる音声が演算され認識され
る。

【００１２】請求項３記載の音声認識プログラムは、入
力された音声データ或いは音声データの特徴量を音声認
識し、出力単語列として出力する装置を、隠れマルコフ
モデルの形式で表される複数の音響モデルおよび言語モ
デルと、複数の単語要素および音声波形データを関連づ
けた発音辞書とを記憶する記憶手段、前記音響モデルお
よび前記言語モデルの値であるスコアおよび単語の履歴
を含んでなるトークン毎に、前記複数の音響モデルの中
から、特定の音響モデルを設定する音響モデル設定手
段、この音響モデル設定手段が設定した特定の音響モデ
ルに基づいて、音声認識する対象となる音声を演算して
認識する音声認識手段、として機能させることを特徴と
する。かかる構成によれば、音響モデル設定手段によっ
て、トークン毎に複数の音響モデルの中から特定の音響
モデルが設定され、音声認識手段によって、特定の音響
モデルに基づき、音声認識する対象となる音声が演算さ
れ認識される。

【００１３】

【発明の実施の形態】以下、本発明の一実施形態を図面
に基づいて詳細に説明する。（音声認識装置の構成）図１は、音声認識装置のブロッ
ク図である。この図１に示すように、音声認識装置１
は、トークン計算部３Ａと、トークン計算部３Ｂ１、３
Ｂ２、３Ｂ３と、トークン計算部３Ｂ１に接続されるト
ークン計算部３Ｃ１、３Ｃ２、３Ｃ３と、トークン計算
部３Ｂ２に接続されるトークン計算部３Ｄ１、３Ｄ２、
３Ｄ３と、トークン計算部３Ｂ３に接続されるトークン
計算部３Ｅ１、３Ｅ２、３Ｅ３と、図示を省略した記憶
部とを備えて構成されている。なお、トークン計算部３
Ａ、３Ｂ１、３Ｂ２、３Ｂ３、３Ｃ１、３Ｃ２、３Ｃ
３、３Ｄ１、３Ｄ２、３Ｄ３、３Ｅ１、３Ｅ２、３Ｅ３
を総称して、トークン計算部３とする。

【００１４】音声認識装置１は、生の音声データや生の
音声データから抽出された特徴量（以下、抽出特徴量と
いう）等が入力された場合に、隠れマルコフモデルによ
る音響モデル、言語モデルを利用して、これらの音声デ
ータ、音声データの特徴量を認識し、その認識した結果
を出力単語列として生成するものである。なお、この実
施の形態では、音声認識装置１は、一般的なコンピュー
タであって、その内部に主制御部、記憶部、通信回線接
続部等が備えられ、各部がバス（データバス、アドレス
バス）で結ばれて構成されている。

【００１５】トークン計算部３Ａは、トークン毎に、後
記する記憶部に記憶されている複数の音響モデルの中か
ら、特定の音響モデルを設定するものであって、入力さ
れた生の音声データまたは抽出特徴量から、トークン計
算部３Ｂ１、３Ｂ２、３Ｂ３に音声データ、トークンを
出力すると共に、外部に出力単語列（認識結果）を出力
するものである。さらに、トークン計算部３Ｃ１、３Ｃ
２、３Ｃ３、３Ｄ１、３Ｄ２、３Ｄ３、３Ｅ１、３Ｅ
２、３Ｅ３からの音声データとトークンとが入力される
（フィードバックされる）ものである。トークン計算部
３Ａは、請求項に記載した音響モデル設定手段に相当す
るものである。

【００１６】トークン計算部３Ｂ１、３Ｂ２、３Ｂ３
は、トークン計算部３Ａが出力した音声データと、トー
クンとを受け取って、音声認識する対象となる音声を演
算し、さらに、トークン計算部３Ａが設定した特定の音
響モデルに基づいて、音声データとトークンとを出力す
るものである。

【００１７】トークン計算部３Ｃ１、３Ｃ２、３Ｃ３
は、トークン計算部３Ｂ１が出力した音声データと、ト
ークンとを受け取って、音声認識する対象となる音声を
演算し、さらに、トークン計算部３Ａが設定した特定の
音響モデルに基づいて、音声データとトークンとをトー
クン計算部３Ａに出力するものである。

【００１８】トークン計算部３Ｄ１、３Ｄ２、３Ｄ３
は、トークン計算部３Ｂ２が出力した音声データと、ト
ークンとを受け取って、音声認識する対象となる音声を
演算し、さらに、トークン計算部３Ａが設定した特定の
音響モデルに基づいて、音声データとトークンとをトー
クン計算部３Ａに出力するものである。

【００１９】トークン計算部３Ｅ１、３Ｅ２、３Ｅ３
は、トークン計算部３Ｂ３が出力した音声データと、ト
ークンとを受け取って、音声認識する対象となる音声を
演算し、さらに、トークン計算部３Ａが設定した特定の
音響モデルに基づいて、音声データとトークンとをトー
クン計算部３Ａに出力するものである。

【００２０】トークン計算部３Ｂ１、３Ｂ２、３Ｂ３、
３Ｃ１、３Ｃ２、３Ｃ３、３Ｄ１、３Ｄ２、３Ｄ３、３
Ｅ１、３Ｅ２、３Ｅ３が請求項に記載した音声認識手段
に相当するものである。なお、この実施の形態では、便
宜上、トークン計算部３Ａとトークン計算部３Ｂ１、３
Ｂ２、３Ｂ３、３Ｃ１、３Ｃ２、３Ｃ３、３Ｄ１、３Ｄ
２、３Ｄ３、３Ｅ１、３Ｅ２、３Ｅ３とを、区別して記
述しているが、これらが、音響モデルを設定する音響モ
デル設定手段を含んでいてもよい。

【００２１】図示を省略した記憶部は、一般的なハード
ディスク等によって構成されており、隠れマルコフモデ
ルにおける複数の音響モデルと、言語モデルと、入力さ
れた音声データの音響モデルのスコアを計算する際に利
用される発音辞書（音声の波形パターン）と、言語モデ
ルのスコアを計算する際に利用される大語彙の音声デー
タベース（コーパス）とを記憶するものである。なお、
この記憶部に記憶されている音響モデルには、その音響
モデル毎に、識別用の番号が付されており、トークン計
算部３（３Ａ〜３Ｅ）が音響モデルのスコアを算出する
ときに、当該番号により音響モデルが参照される。

【００２２】ここで、トークンと、音響モデルのスコア
と、言語モデルのスコアと、単語履歴とについて、説明
を加えておく。トークンとは、音声認識における、音声
認識結果の候補であって、スコアと履歴（単語の履歴）
とを含んでなるものである。音声認識では、音声データ
の発声された音につれて、単語から単語へとトークンが
「伝達」し、履歴を持つようになり、最終的には、残っ
た最大スコアのトークンに基づいて、音声認識単語列
（音声認識結果）が算出される（出力される）。また、
単語要素とは、一つの単語を構成する各母音または各子
音を、或いは、その各母音または子音をさらに時系列に
沿って細分化したものをさすものである。

【００２３】音響モデルのスコアとは、入力された音声
の波形パターンと、予め記憶部に記憶されている音声の
波形パターンとを比較し、この比較結果に基づいた隠れ
マルコフモデルにおける音響モデルの“値”である。言
語モデルのスコアとは、入力された音声の単語間のつな
がりを、予め記憶部に記憶されている大語彙の音声デー
タベース（コーパス）に基づいて、統計的計算手法によ
って算出される言語モデルの“値”である。

【００２４】単語履歴とは、今までに入力された音声か
ら計算された単語列のことである。なお、一つの連続し
た音声データは、通常、複数の文章から構成されてお
り、これら複数の文章中の各文章は、複数の単語の集合
とみなすことができ、さらに、一つの単語は、複数の単
語の要素（以下、単語要素という）から構成されている
とみなすことができる。つまり、この単語要素とは、一
つの単語を構成する各母音または各子音をさすものであ
って、例えば、「赤」という単語の単語要素は赤（ａｋ
ａ）の「ａ」「ｋ」「ａ」のそれぞれを指すものであ
る。また、音声の波形パターンは、この「赤」の例で言
えば、「ａ」「ｋ」「ａ」のそれぞれの単語要素を、さ
らに、細かく時系列に沿って分解した、周波数または電
気信号に変化した場合の電圧の変動を示すものである。

【００２５】補足しておくと、隠れマルコフモデルと
は、確率統計的な音声認識における数理統計モデルであ
って、性質の異なる複数の定常信号源を切り換えていく
ことにより、もともと非定常信号である音声を、性質の
異なる定常信号の時系列としてモデル化したものであ
る。

【００２６】（音声認識装置の動作）次に、音声認識装
置１の音声認識の動作を説明する。まず、この音声認識
装置１に音声データ（音声データの特徴抽出量）が入力
される（Ｓ１）と、音声認識装置１のトークン計算部３
Ａが、入力された音声について、トークン毎に設定され
た音響モデルに基づいて、トークン毎の音響モデルのス
コアを計算と言語モデルのスコアとを計算する（Ｓ
２）。この時に、記憶部に記憶されている音響モデルの
番号により、参照すべき音響モデルが決定される。そし
て、トークン計算部３から、トークン計算部３Ｂ１、３
Ｂ２、３Ｂ３とに、音声データ（残りの音声データ）
と、トークンとが出力される（Ｓ３）。

【００２７】トークン計算部３Ｂ１、３Ｂ２、３Ｂ３
は、トークン計算部３Ａによって、計算されたトークン
毎の音響モデルのスコアおよび言語モデルのスコアと、
トークン計算部３Ａから出力された音声データと、記憶
部に記憶されている参照すべき音響モデル（音響モデル
番号による）とに基づいて、これらトークン計算部３Ｂ
１、３Ｂ２、３Ｂ３に分担されているトークンが計算さ
れる（Ｓ４）。そして、トークン計算部３Ｂ１から３Ｃ
１、３Ｃ２、３Ｃ３とに、３Ｂ２から３Ｄ１、３Ｄ２、
３Ｄ３とに、３Ｂ３から３Ｅ１、３Ｅ２、３Ｅ３とに、
音声データ（さらに残りの音声データ）と、トークンと
が出力される（Ｓ５）。

【００２８】すると、トークン計算部３Ｃ１、３Ｃ２、
３Ｃ３は、トークン計算部３Ｂ１によって、計算された
トークン毎の音響モデルのスコアおよび言語モデルのス
コアと、トークン計算部３Ｂ１から出力された音声デー
タと、記憶部に記憶されている参照すべき音響モデル
（音響モデル番号による）とに基づいて、これらトーク
ン計算部３Ｃ１、３Ｃ２、３Ｃ３に分担されているトー
クンが計算される（Ｓ６）。

【００２９】同様に、トークン計算部３Ｄ１、３Ｄ２、
３Ｄ３は、トークン計算部３Ｂ２によって、計算された
トークン毎の音響モデルのスコアおよび言語モデルのス
コアと、トークン計算部３Ｂ２から出力された音声デー
タと、記憶部に記憶されている参照すべき音響モデル
（音響モデル番号による）とに基づいて、これらトーク
ン計算部３Ｄ１、３Ｄ２、３Ｄ３に分担されているトー
クンが計算される（Ｓ６）。

【００３０】さらに、同様に、トークン計算部３Ｅ１、
３Ｅ２、３Ｅ３は、トークン計算部３Ｂ３によって、計
算されたトークン毎の音響モデルのスコアおよび言語モ
デルのスコアと、トークン計算部３Ｂ３から出力された
音声データと、記憶部に記憶されている参照すべき音響
モデル（音響モデル番号による）とに基づいて、これら
トークン計算部３Ｅ１、３Ｅ２、３Ｅ３に分担されてい
るトークンが計算される（Ｓ６）。

【００３１】そして、まず、トークン計算部３Ａにおい
て、各スコアの和が閾値以内のトークンのみが残され
（Ｓ７）、次に、トークン計算部３Ｂ１、３Ｂ２、３Ｂ
３において、各スコアの和が閾値以内のトークンのみが
残され（Ｓ８）、さらに、トークン計算部３Ｃ１、３Ｃ
２、３Ｃ３、３Ｄ１、３Ｄ２、３Ｄ３、３Ｅ１、３Ｅ
２、３Ｅ３において、各スコアの和が閾値以内のトーク
ンのみが残される処理が施される（Ｓ９）。なお、この
動作における閾値は、２００と設定されている。つま
り、全部のスコアを計算後、スコアのトップ（最大値）
が判断され、このスコアのトップ（最大値）より２００
以内のトークンのみが残される。

【００３２】そして、トークン計算部３Ｃ１、３Ｃ２、
３Ｃ３、３Ｄ１、３Ｄ２、３Ｄ３、３Ｅ１、３Ｅ２、３
Ｅ３から、トークン計算部３Ａに、音声データ（また、
さらに残りの音声データ）と、トークンとが出力される
（Ｓ１０）。

【００３３】以上のトークン計算部３Ａからトークン計
算３Ｃ１、３Ｃ２、３Ｃ３、３Ｄ１、３Ｄ２、３Ｄ３、
３Ｅ１、３Ｅ２、３Ｅ３までの動作が、入力された音声
データがなくなるまで、繰り返し実行され、その後、音
声認識装置１は音声データがあるかどうかを判断し（Ｓ
１１）、音声データがあると判断されない場合には、音
声認識装置１のトークン計算部３Ａから、最高のスコア
を持つ単語履歴を出力単語列（単語要素のつながり；音
声認識結果）として出力する（Ｓ１２）。Ｓ１１におい
て、他に入力された音声データがあると判断された場合
には、Ｓ２に戻り、音声認識処理が継続して行われる。

【００３４】（音声認識装置の音声認識例）次に、音声
認識装置１が音声を認識する例について、図３を参照し
て説明する。図３は、音声認識装置１に入力された音声
がどのように音声認識処理されるかを説明した説明図で
ある。この音声認識例は、２種類の音響モデルを使った
場合であり、この２種類の音響モデルは、成人男性が発
声した音声に基づいて作成された音響モデルと、成人女
性が発声した音声に基づいて作成された音響モデルとか
ら構成されている。この図３に示すように、この音声認
識例では、図示を省略した記憶部の大語彙の音声データ
ベースには、少なくとも、“赤”、“秋”、“網”、
“雨”の４語が含まれている。

【００３５】トークン計算部３Ａは、先頭の音声データ
（単語要素）である「ａ（あ）」を認識し、トークン計
算部３Ｂ１、３Ｂ２に残った音声データ（単語要素）
「ｋ（赤、秋）、ｍ（網、雨）」と、このトークン計算
部３Ａで計算した音響モデルのスコアおよび言語モデル
のスコア（スコアの和）とをそれぞれに出力する。この
とき、音響モデルのスコアの計算では、各トークン毎に
指定される成人男性または成人女性の音響モデルが使用
される。なお、このトークン計算部３Ａでは、各トーク
ン毎に指定された音響モデルが利用されている。

【００３６】トークン計算部３Ｂ１では「ｋ（赤、
秋）」について、各トークン毎に指定された音響モデル
を利用して、トークンが計算される。トークン計算部３
Ｂ２では「ｍ（網、雨）」について、各トークン毎に指
定された音響モデルが利用され、トークンが計算され
る。

【００３７】さらに、トークン計算部３Ｃ１において
は、「ａ（赤）」について、各トークン毎に指定された
音響モデルが利用され、トークンが計算され、トークン
計算部３Ｃ２においては、「ｉ（秋）」について、各ト
ークン毎に指定された音響モデルが利用され、トークン
が計算される。また、さらに、トークン計算部３Ｄ１に
おいては「ｉ（網）」について、各トークン毎に指定さ
れた音響モデルが利用され、トークンが計算され、トー
クン計算部３Ｄ２においては「ｅ（雨）」について、各
トークン毎に指定された音響モデルが利用され、トーク
ンが計算される。そして、これらトークン計算部３Ｃ
１、３Ｃ２、３Ｄ１、３Ｄ２からトークン計算部３Ａに
計算結果がフィードバックされる。

【００３８】ここで、まず、トークン計算部３Ａにおい
て、全てのトークンの中で最大スコアから閾値５００以
下に入っているスコアを持つトークンが全て消去され
る。また、トークン計算部３Ｂ１、３Ｂ２において、全
てのトークンの中で最大スコアから閾値５００以下に入
っているスコアを持つトークンが全て消去される。そし
て、音声データが無くなるまで、トークン計算部３Ａ、
トークン計算部３Ｂ１、３Ｂ２において、音響モデルと
言語モデルのスコアとが計算され、閾値以下に入ってい
るスコアが消去される。その後、トークン計算部３Ａに
残った最大（最高）のスコアを持つ単語履歴が出力単語
列（単語要素のつながり；音声認識結果）として出力さ
れる。

【００３９】この実施の形態では以下の効果を奏す。音
声認識の対象となる生の音声データ或いは音声データの
特徴量が、トークン計算部３Ａによって、先頭の音声デ
ータが認識され、予め設定された音響モデルに基づい
て、隠れマルコフモデルにおける音響モデルのスコアお
よび言語モデルのスコアとが計算され、そのスコアの和
と、残りの音声データとが、次のトークン計算部３Ｂ
１、３Ｂ２、３Ｂ３に出力される。そして、トークン計
算部３Ｂ１、３Ｂ２、３Ｂ３によって、残りの音声デー
タに関して同様にトークンが計算され、さらに、トーク
ン計算部３Ｃ１、３Ｃ２、３Ｃ３、３Ｄ１、３Ｄ２、３
Ｄ３、３Ｅ１、３Ｅ２、３Ｅ３とにおいて、トークンが
計算される。このため、複数のトークン計算部３で、複
数の音響モデルを参照しつつ、同時に音声認識処理が実
行されるので、音声認識する認識時間（計算時間）を多
くかけることなく、高い認識性能を期待することができ
る。

【００４０】また、音声認識処理中において、複数の音
響モデルを常時参照することができる。さらに、単語要
素（音素）を全て区別しており、単語要素（音素）のつ
ながりについて、音声認識中の単語に該当しないもの
は、計算しないので、音響モデルの選択性能を改善する
ことができる。

【００４１】以上、一実施形態に基づいて本発明を説明
したが、本発明はこれに限定されるものではない。音声
認識装置１で実現されている各構成の処理を、一つの工
程としてみなした音声認識方法として捉えることも可能
である。この場合、音声認識装置１と同様な効果が得ら
れる。また、音声認識装置１における各構成の処理を、
プログラムで記述した音声認識プログラムとみなすこと
も可能である。つまり、トークン計算部３Ａが音響モデ
ル設定手段と、トークン計算部３Ｂ１、３Ｂ２、３Ｂ
３、３Ｃ１、３Ｃ２、３Ｃ３、３Ｄ１、３Ｄ２、３Ｄ
３、３Ｅ１、３Ｅ２、３Ｅ３が音声認識手段と、図示を
省略した記憶部が記憶手段とみなすことができる。この
場合、音声認識装置１と同様な効果が得られる。

【００４２】

【発明の効果】請求項１記載の発明によれば、音声認識
方法において、トークン毎に、複数の音響モデルの中か
ら特定の音響モデルが、予め設定されており、この設定
された特定の音響モデルによって音声認識がなされるの
で、音声認識時に、複数の音響モデルが常時参照され、
音声認識における認識性能が向上する。

【００４３】請求項２記載の発明によれば、音声認識装
置において、音響モデル設定手段によって、トークン毎
に複数の音響モデルの中から特定の音響モデルが設定さ
れ、音声認識手段によって、特定の音響モデルに基づ
き、音声認識する対象となる音声が演算され認識され
る。このため、音声認識時に複数の音響モデルが常時参
照され、複数の音声認識手段によって同時に音声認識さ
れるので、音声認識する認識時間（計算時間）を多くか
けることなく、音声認識における認識性能が向上する。

【００４４】請求項３記載の発明によれば、音声認識プ
ログラムにおいて、音響モデル設定手段によって、トー
クン毎に複数の音響モデルの中から特定の音響モデルが
設定され、音声認識手段によって、特定の音響モデルに
基づき、音声認識する対象となる音声が演算され認識さ
れる。このため、音声認識時に複数の音響モデルが常時
参照され、複数の音声認識手段によって同時に音声認識
されるので、音声認識する認識時間（計算時間）を多く
かけることなく、音声認識における認識性能が向上す
る。

【図面の簡単な説明】

【図１】本発明による一実施の形態を示した音声認識装
置のブロック図である。

【図２】図１に示した音声認識装置の動作を説明したフ
ローチャートである。

【図３】音声認識装置の音声認識例を説明した説明図で
ある。

【符号の説明】

１音声認識装置３Ａトークン計算部（音響モデル設定手段）３Ｂ１、３Ｂ２、３Ｂ３、３Ｃ１、３Ｃ２、３Ｃ３、３
Ｄ１、３Ｄ２、３Ｄ３トークン計算部（音声認識手段）

Claims

【特許請求の範囲】

【請求項１】隠れマルコフモデルの形式で表される複
数の音響モデルおよび言語モデルと、複数の単語要素お
よび音声波形データを関連づけた発音辞書とを利用する
音声認識方法であって、前記音響モデルおよび前記言語モデルの値であるスコア
および単語の履歴を含んでなるトークン毎に、前記複数
の音響モデルの中から、特定の音響モデルを予め設定
し、これらの特定の音響モデルにより、音声認識することを
特徴とする音声認識方法。
【請求項２】隠れマルコフモデルの形式で表される複
数の音響モデルおよび言語モデルと、複数の単語要素お
よび音声波形データを関連づけた発音辞書とを記憶する
記憶部を備える音声認識装置であって、前記音響モデルおよび前記言語モデルの値であるスコア
および単語の履歴を含んでなるトークン毎に、前記複数
の音響モデルの中から、特定の音響モデルを設定する音
響モデル設定手段と、この音響モデル設定手段が設定した特定の音響モデルに
基づいて、音声認識する対象となる音声を演算して認識
する音声認識手段と、を備えて構成されていることを特徴とする音声認識装
置。
【請求項３】入力された音声データ或いは音声データ
の特徴量を音声認識し、出力単語列として出力する装置
を、隠れマルコフモデルの形式で表される複数の音響モデル
および言語モデルと、複数の単語要素および音声波形デ
ータを関連づけた発音辞書とを記憶する記憶手段、前記音響モデルおよび前記言語モデルの値であるスコア
および単語の履歴を含んでなるトークン毎に、前記複数
の音響モデルの中から、特定の音響モデルを設定する音
響モデル設定手段、この音響モデル設定手段が設定した特定の音響モデルに
基づいて、音声認識する対象となる音声を演算して認識
する音声認識手段、として機能させることを特徴とする音声認識プログラ
ム。