JP3148322B2

JP3148322B2 - 音声認識装置

Info

Publication number: JP3148322B2
Application number: JP01078692A
Authority: JP
Inventors: 明雄天野; 浩明小窪
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-01-24
Filing date: 1992-01-24
Publication date: 2001-03-19
Anticipated expiration: 2016-03-19
Also published as: JPH05204396A

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は音声認識装置に関し、特
に認識に要する処理量を低減し応答を速くする方法に関
する。

【０００２】

【従来の技術】一般に音声認識には非常に大きな処理量
を要し、実用化に向けては処理量の削減が課題となる。

【０００３】音声認識の処理の中で特に大きな処理量を
要するのは、入力音声の特徴ベクトル時系列と標準パタ
ンとの照合を行う照合処理である。通常の認識手法で
は、標準パタン格納部に格納されたすべての標準パタン
と入力音声との照合を行うため、必要な処理量は認識対
象の語彙数に比例する。音声認識に必要な処理量削減の
ためには、照合処理量の削減を考える必要がある。

【０００４】処理量削減の手法としては、途中まで計算
して可能性が低いとみなされた候補に関する計算処理は
その段階で打ち切るビームサーチ方式、計算量の少ない
方法を使って予め認識対象の全候補の中から有望な候補
を選択しておき、選択された候補についてのみ照合処理
を行う予備選択方式などが従来から試みられている。

【０００５】ビームサーチ方式の例としては、電子情報
通信学会論文誌、Ｄ、Ｖｏｌ．Ｊ７１−ＤＮｏ．９
ｐｐ．１６５０−１６５９、（１９８８−９）“フレー
ム同期化、ビームサーチ、ベクトル量子化の統合による
ＤＰマッチングの高速化”あるいは電子情報通信学会論
文誌、Ｄ−II、Ｖｏｌ．Ｊ７２−Ｄ−II Ｎｏ．８ｐ
ｐ．１２４８−１２５５、（１９８９−８）“ＤＰビー
ムサーチのしきい値関数の検討”に記載のようなものが
ある。上記両従来例では認識対象語彙数が１００語程度
の場合に、標準手法に対して１桁少ない計算量で標準手
法と同等の認識性能が達成されており、その有効性が示
されている。

【０００６】一方、予備選択方式の例としては、日本音
響学会講演論文集、１−３−１７、（１９８６−１０）
“大語彙単語音声認識のためのスペクトル動特性を用い
た予備選択法”に記載のようなものがある。上記従来例
では、予め認識対象の単語毎にベクトル量子化のコード
ブックを用意しておき、入力音声の終端が検出された後
に入力音声全体を上記各コードブックを用いてそれぞれ
ベクトル量子化する。このときの量子化歪を各コードブ
ック毎に累積し、その累積値がある一定の閾値より小さ
いものだけについて入力音声と照合する。上記文献に記
載の方法を用いてコードブックを作成しておけば、ベク
トル量子化に要する計算量は認識対象の語彙数によらず
にほぼ一定に押さえることができる。したがって全体の
処理量は予備選択によって残った候補の数にほぼ比例
し、予備選択により候補数を十分に少なく絞ることがで
きれば必要な計算量は大幅に削減される。

【０００７】

【発明が解決しようとする課題】しかしながら、上記ビ
ームサーチ方式を採用した場合、入力音声の始端を検出
してからしばらくの間は全認識対象候補を計算対象にし
なければならず、認識対象語彙数が多い場合には所要処
理量が多くなり、これにより結果的に応答が遅くなって
しまうという問題があった。

【０００８】他方、上記予備選択法では、入力音声の終
端が検出された後に標準パタンとの照合が開始されるた
め、認識結果は入力音声の終端が検出され、照合処理が
終了した後でないと得られず、結果として、照合処理の
削減はなされるものの、応答は遅くなってしまうという
問題があった。

【０００９】本発明の目的は、上記従来技術において考
慮が不十分であった応答の高速化の課題を解決すること
にある。

【００１０】

【課題を解決するための手段】本発明による音声認識方
法は、計算量の少ない方法を使って予め認識対象の全候
補の中から有望な候補を選択しておき、選択された候補
についてのみ照合処理を行う予備選択方式を用いた音声
認識方法において、入力音声の特徴ベクトルを一定時間
間隔で求め、該一定時間間隔で入力音声の特徴ベクトル
が得られる毎に予備選択処理を行い、該予備選択処理に
より得られた予備選択候補の数を監視し、この数が予め
設定した数を下まわった時点で照合処理を開始するよう
にしたものである。

【００１１】本発明による音声認識装置は、音声を入力
する音声入力手段と、該音声入力手段により入力された
音声を一定時間ごとに分析して特徴ベクトルを一定時間
ごとに出力する音声分析手段と、該音声分析手段から出
力された特徴ベクトルを一定時間長分蓄積するバッファ
メモリと、予め認識の基準となる標準パタンを格納して
おく標準パタン格納手段と、前記バッファメモリに蓄積
された特徴ベクトルの時系列を用いて認識対象の全候補
の中から有効な候補を選択する予備選択手段と、該予備
選択手段により選択された前記標準パタン格納手段に格
納された標準パタンと入力音声の特徴ベクトルの時系列
とを照合する照合手段とを備え、前記予備選択手段は、
選択により残された候補の数を監視し、該候補の数が予
め定めた一定数よりも少なくなった時点で前記照合手段
を起動するようにしたものである。

【００１２】

【作用】本発明によれば、入力音声の終端が検出される
前に、当該時点までに得られた入力情報に基づいて予備
選択処理を開始する。この予備選択処理により、候補が
しぼられていき、予め定めた一定数を下まわった時点で
照合処理を開始する。したがって、入力音声の終端が検
出されるのを待つことなく、照合を始めることができ、
応答の遅れを最小限に押さえることができる。

【００１３】また、後述するように、予備選択に用いる
コードブックを音声の時間構造を考慮して構成すること
により、候補数の削減の程度を大きくして、かつ、予備
選択の精度を向上させることができる。

【００１４】

【実施例】以下、図を用いて本発明の実施例を説明す
る。

【００１５】図１は本発明の音声認識装置の一実施例を
示すブロック図である。この音声認識装置は、音声入力
手段１、音声分析手段２、バッファメモリ３、予備選択
手段４、標準パタン格納手段５、照合手段６、および判
定手段７からなる。

【００１６】図１の音声認識装置において、入力された
音声は音声入力手段１において電気信号に変換される。
電気信号に変換された音声はさらに音声分析手段２にお
いて分析され、特徴ベクトルの時系列に変換される。こ
の特徴ベクトルの時系列は、図７に示すように、単位時
間（１０〜２０ｍｓ）間隔の入力音声ごとにその周波数
特性を求めたものである。この１単位時間をフレームと
呼ぶ。通常、１音素は、１００〜３００ｍｓであり、複
数のフレームからなる。音声分析手段２から出力された
特徴ベクトルの時系列はバッファメモリ３に一時的に蓄
積される。

【００１７】予備選択手段４では、バッファメモリ３の
内容を参照して標準パタン格納手段５に格納されている
認識対象全候補に対して尤もらしさの計算を行い、この
尤もらしさの度合いがある一定値を越えた候補が何れで
あるかの情報を標準パタン格納手段５に送る。予備選択
手段４は、前記尤もらしさの度合いが一定値以上の候補
の個数がいくつあるかを常に監視し、これがある一定の
値を下回ったときに照合手段６に起動をかける。なお実
際には、候補の個数の監視は、尤もらしさの度合いが一
定値に満たないものを順次除外していき、除外されない
候補の個数を監視することにより行われる。予備選択動
作は、音声分析手段２が特徴ベクトルを出力する時間間
隔に同期して処理を行われ、この時間間隔またはその整
数倍の時間間隔ごとに予備選択結果が出力される照合手
段６は、予備選択手段４からの起動により処理を開始す
る。起動がかかると、照合手段６はバッファメモリ３に
蓄積されている入力音声の始端から現在時点までの特徴
ベクトルの時系列と、標準パタン格納手段５に格納され
た標準パタンのうち予備選択手段４で尤もらしさの度合
いが一定値以上と判定された候補との照合を行なう。照
合手段６における照合処理は音声分析手段２における音
声分析処理と並行して行われる。入力音声の始端から照
合に起動がかかった時点までの特徴ベクトルの時系列に
対する処理が終了した後も、それ以降にバッファメモリ
３に書き込まれた特徴ベクトルの時系列に対する照合処
理は継続され、入力音声の終端が検出された段階で照合
処理を終了する。

【００１８】判定手段７では、照合処理終了時点で求め
られている各候補毎のスコアに基づいて認識結果を出力
する。

【００１９】図５のフローチャートにより、図１に示し
た構成の音声認識装置の動作をまとめて説明する。ま
ず、単位時間分の音声入力を受けて（５１）、この単位
時間分の音声を分析する（５２）。次に、この分析結果
をバッファメモリ３に格納する（５３）。ステップ５４
を経て予備選択処理が行われる（５５）。以上の処理
は、候補数が予め定めた数Ｎ以下になるまで繰り返して
実行される（５６）。ステップ５６で候補数がＮ以下に
なったら、音声入力が終了する前であっても、次のステ
ップ５７へ移行し、照合処理を開始する（５７）。入力
音声の終端が検出されるまでは、ステップ５１へ戻り、
音声入力（５１）、音声分析（５２）、バッファメモリ
格納（５３）の各処理を再度実行する。但し、ステップ
５４へ達すると、この時点ではステップ５４で候補数が
Ｎ以下になっているので、予備選択処理（５５）をバイ
パスして照合処理（５７）へ戻る。このようにして音声
入力が終了するまで照合処理を繰返し、終了時に音声認
識結果を出力する（５９）。

【００２０】この方法によれば、図６（ａ）に示すよう
な音素列“ｉｃｈｉ”からなる音声入力に対して、入力
開始から直ちに入力情報に基づいて予備選択処理が実行
され、当初の候補数Ｍが候補数Ｎにまで絞られた時点で
照合処理が開始される。したがって、従来のように音声
入力が終了してから予備選択を開始する場合に比べて、
音声認識結果をより早い時点で得ることができる。

【００２１】次に本発明の実施例の中で用いる予備選択
手段４の具体例について説明する。

【００２２】まず、認識対象のカテゴリ毎に用意したベ
クトル量子化用のコードブックによりベクトル量子化し
た際の量子化歪みの大きさに基づいて選択を行うものを
示す。図２の例では、単語別のコードブックを利用する
予備選択手段４の実現方法について説明する。認識対象
の語彙数はｎであるとする。図２において４２−１〜４
２−ｎは認識対象の各単語毎にあらかじめ用意したコー
ドブックである。バッファメモリ３から読み出された特
徴ベクトルはベクトル量子化器４１において、各コード
ブック毎にベクトル量子化され、各コードブックごとの
量子化歪が計算される。ここで得られた量子化歪は量子
化歪累積手段４３に送られ、ここで各コードブック毎に
累積される。各コードブック毎に累積された累積量子化
歪は予備選択判定手段４４に送られ、ここで単位時間あ
たりの歪に変換され、この値が予め定めた値を越えたも
のは認識の対象とせず、その他の候補を選択された候補
として出力する。予備選択判定手段４４での判定処理は
一定時間間隔毎に行なわれ、この各時点毎に選択により
残った候補の数を調べ、これが予め定めた値を下回った
時点で、照合手段６に起動をかける。なお、図２では簡
単のためにｎ個の各コードブック毎に独立にベクトル量
子化を行なうような構成として説明したが、文献、日本
音響学会講演論文集、１−３−１７、（１９８６−１
０）“大語彙単語音声認識のためのスペクトル動特性を
用いた予備選択法”に記載のように、予め全単語を対象
とした汎用コードブックを作成しておき、各単語毎のｎ
個のコードブック４２−１〜４２−ｎ中のコードベクト
ルが汎用コードブック中のコードベクトルに含まれるよ
うに各単語毎のコードブックを構成しておけば、ベクト
ル量子化のために必要な歪計算の回数は汎用コードブッ
ク中のコードベクトルの数で押さえられ少ない計算量で
予備選択処理を行なうことができる。なお、ベクトル量
子化のコードブックの作成手法としては、例えば、ＩＥ
ＥＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，ＣＯＭ−２８，Ｎ
ｏ．１（Ｊａｎｕａｒｙ１９８０），ｐｐ８４−８５
“ＡｎＡｌｇｏｒｉｔｈｍｆｏｒＶｅｃｔｏｒ
ＱｕａｎｔｉｚｅｒＤｅｓｉｇｎ”に記載のような公
知の手法を用いれば良い。

【００２３】図２では単語別のコードブックを利用する
予備選択手段を示したが、これとは別に、音素（または
音節）別のコードブックを利用する予備選択手段を図３
に示す。音素の総数はｍであるとする。図３において４
５−１〜４５−ｍは各音素毎にあらかじめ用意したコー
ドブックである。バッファメモリ３から読み出された特
徴ベクトルはベクトル量子化器４１においてベクトル量
子化され量子化歪が計算されるが、この際、前記ｍ個の
コードブックをどのように用いるかの制御がコードブッ
ク選択手段４６でなされる。コードブック選択手段４６
では認識対象の各単語毎に各時点でどの音素のコードブ
ックを用いてベクトル量子化を行なうかを制御する。

【００２４】なお、この制御を具体的に行なうには、図
８（ａ）に示すように、各単語毎に音素の持続時間の上
限、下限を記したテーブル８０を用意しておき、このテ
ーブル８０を参照しながら音素のコードブックを選択す
るようにすれば良い。この例では、持続時間はフレーム
の個数で規定してある。このテーブル内容に基づいて、
音素列Ｐ₁Ｐ₂Ｐ₃…Ｐ_nなる単語について予め音素Ｐ_iの
存在する時間範囲を求めておく。例えば、Ｐ₁については、０≦ｔ≦ｔ_1max、Ｐ₂については、ｔ_1min≦ｔ≦ｔ_1max＋ｔ_2max、Ｐ₃については、ｔ_1min＋ｔ_2min≦ｔ≦ｔ_1max＋ｔ
_2max＋ｔ_3max、 … このような準備をオフラインで行っておき、図８（ｂ）
の処理を行う。同図から分かるように、フレーム時刻ｔ
の各時点で上記関係に該当するコードブックをすべて選
択する。これにより、不要なコードブックの一部が除外
されるので、予備選択の精度が向上する。

【００２５】ベクトル量子化器４１において、各単語毎
に計算された量子化歪は量子化歪累積手段４３に送ら
れ、ここで各単語に累積される。各単語毎に累積された
累積量子化歪は予備選択判定手段４４に送られ、ここで
単位時間あたりの歪に変換され、この値が予め定めた値
を越えたものは認識の対象とせず、その他の候補を選択
された候補として出力する。予備選択判定手段４４での
判定処理は一定時間間隔毎に行なわれ、この各時点毎に
選択により残った候補の数を調べ、これが予め定めた値
を下回った時点で、照合手段６に起動をかける。

【００２６】次に、図４を用いて各単語毎に時間別に複
数用意したコードブックを利用して予備選択手段を実現
する方法について説明する。語彙数はｎであるとし、各
単語毎に最大ｋ個の時間区分に分割するものとする。図
４において４７−１−１〜ｋは第１番目の単語につい
て、時間区分１〜ｋについて用意したコードブックであ
る。４７−２−１〜ｋ、４７−３−１〜ｋ・・・につい
ても同様である。バッファメモリ３から読み出された特
徴ベクトルはベクトル量子化器４１においてベクトル量
子化され量子化歪が計算されるが、この際、前記複数個
のコードブックをどのように用いるかの制御がコードブ
ック選択手段４６でなされる。コードブック選択手段４
６では入力音声の始端からの経過時間に応じて各単語毎
のコードブックの内、どの時間区分のものを用いるかを
決め前記複数個のコードブックの中から選ぶ。１つの時
間区分をＴ個の単位時間（フレーム）分とすると、コー
ドブックの選択処理は図９のように行われる。すなわ
ち、フレーム時刻ｔの各時点で、（ｋ−１）Ｔ＜ｔ≦ｋＴを満たすｋ番目のコードブックを選択する。これによ
り、不要なコードブックが予め除外されるので予備選択
の精度を向上させることができる。

【００２７】ベクトル量子化器４１において、各単語毎
に計算された量子化歪は量子化歪累積手段４３に送ら
れ、ここで各単語に累積される。各単語毎に累積された
累積量子化歪は予備選択判定手段４４に送られ、ここで
単位時間あたりの歪に変換され、この値が予め定めた値
を越えたものは認識の対象とせず、その他の候補を選択
された候補として出力する。予備選択判定手段４４での
判定処理は一定時間間隔毎に行なわれ、この各時点毎に
選択により残った候補の数を調べ、これが予め定めた値
を下回った時点で、照合手段６に起動をかける。

【００２８】以上、本発明の好適な実施例について説明
したが、本発明の要旨を逸脱することなく種々の変形・
変更を行うことが可能である。

【００２９】

【発明の効果】本発明によれば、予備選択手段の導入に
より音声認識にかかる処理量を削減することができ、か
つ、入力音声の終端が検出されるのを待たずに本照合に
起動をかけられるので、少ない計算量で高速に応答する
できる音声認識装置を提供できる。また、予備選択手段
において音声の時間構造を考慮の上、予備選択を行なう
ことにより、候補数の削減の程度を大きくして、かつ、
選択精度を高く保つことができる。

【図面の簡単な説明】

【図１】本発明の音声認識装置の一実施例を示すブロッ
ク図。

【図２】本発明に用いる予備選択手段を単語毎のコード
ブックによるベクトル量子化により実現した例を示すブ
ロック図。

【図３】本発明に用いる予備選択手段を音節毎のコード
ブックによるベクトル量子化により実現した例を示すブ
ロック図。

【図４】本発明に用いる予備選択手段を各単語毎にかつ
各時間ブロック毎に用意したコードブックによるベクト
ル量子化により実現した例を示すブロック図。

【図５】図１の実施例の動作を示すフローチャート。

【図６】図１の実施例の予備選択の原理を説明するため
の説明図。

【図７】図１の実施例における音声分析結果の説明図。

【図８】図３の予備選択手段の説明図。

【図９】図４の予備選択手段の説明図。

【符号の説明】

１・・・音声入力手段、２・・・音声分析手段、３・・
・バッファメモリ４・・・予備選択手段、５・・・標準パタン格納手段、
６・・・照合手段７・・・判定手段

フロントページの続き (56)参考文献特開昭57−102698（ＪＰ，Ａ) 特開平１−138596（ＪＰ，Ａ) 特開昭63−304299（ＪＰ，Ａ) 特開昭63−40200（ＪＰ，Ａ) 特開昭63−11998（ＪＰ，Ａ) 特開昭63−300298（ＪＰ，Ａ) 特開平１−227198（ＪＰ，Ａ) 特開平３−84600（ＪＰ，Ａ) 特開昭60−237496（ＪＰ，Ａ) 特開昭63−236097（ＪＰ，Ａ) 実開昭60−152200（ＪＰ，Ｕ) 電子情報通信学会技術研究報告［音声」，Ｖｏｌ．91，Ｎｏ．95，ＳＰ91− ９，好田正紀外「予備選択法を利用するＤＰビームサーチの検討」，ｐ．25−32 （1991年６月20日発行) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 17/00 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、該音声入力手段により入力された音声を一定時間ごとに
分析して特徴ベクトルを一定時間ごとに出力する音声分
析手段と、該音声分析手段から出力された特徴ベクトルを一定時間
長分蓄積するバッファメモリと、予め認識の基準となる標準パタンを格納しておく標準パ
タン格納手段と、前記バッファメモリに蓄積された特徴ベクトルの時系列
を用いて認識対象の全候補の中から有効な候補を選択す
る予備選択手段と、該予備選択手段により選択された前記標準パタン格納手
段に格納された標準パタンと入力音声の特徴ベクトルの
時系列とを照合する照合手段とを備え、前記予備選択手段は、音素（あるいは音節）毎に用意したベクトル量子化用の
コードブックを用い、各認識対象のカテゴリ毎にどのコ
ードブックをどの時間で用いるかを制御しながらベクト
ル量子化した際の量子化歪の大きさに基づいて選択を行
い、選択により残された候補の数を監視し、該候補の数が予
め定めた一定数よりも少なくなった時点で前記照合手段
を起動するようにしたことを特徴とする音声認識装置。
【請求項２】音声を入力する音声入力手段と、該音声入力手段により入力された音声を一定時間ごとに
分析して特徴ベクトルを一定時間ごとに出力する音声分
析手段と、該音声分析手段から出力された特徴ベクトルを一定時間
長分蓄積するバッファメモリと、予め認識の基準となる標準パタンを格納しておく標準パ
タン格納手段と、前記バッファメモリに蓄積された特徴ベクトルの時系列
を用いて認識対象の全候補の中から有効な候補を選択す
る予備選択手段と、該予備選択手段により選択された前記標準パタン格納手
段に格納された標準パタンと入力音声の特徴ベクトルの
時系列とを照合する照合手段とを備え、前記予備選択手段は、認識対象のカテゴリ毎にその発声パターンを一定時間間
隔に分割した各ブロック毎に用意したベクトル量子化用
のコードブックを用い、各認識対象のカテゴリ毎にどの
コードブックをどの時間で用いるかを制御しながらベク
トル量子化した際の量子化歪の大きさに基づいて選択を
行い、選択により残された候補の数を監視し、該候補の数が予
め定めた一定数よりも少なくなった時点で前記照合手段
を起動するようにしたことを特徴とする音声認識装置。
【請求項３】予め認識対象の全候補の中から有望な候補
を選択しておき、選択された候補についてのみ照合処理
を行う予備選択手段を備えた音声認識装置において、前記予備選択手段は、音素（あるいは音節）毎に用意し
たベクトル量子化用のコードブックと、各単語毎に音素
の持続時間の上限、下限を記したテーブルとを有し、該
テーブルに基づいて各音素の存在しうる時間範囲を予め
求めておき、予備選択処理の各時点で、当該時点が内包
される前記時間範囲に該当する音素のコードブックをす
べて選択して予備選択処理に利用することを特徴とする
音声認識装置。
【請求項４】予め認識対象の全候補の中から有望な候補
を選択しておき、選択された候補についてのみ照合処理
を行う予備選択手段を備えた音声認識装置において、前記予備選択手段は、認識対象のカテゴリ毎に、かつ、
その発声パターンを一定時間間隔に分割した各ブロック
毎に用意したベクトル量子化用のコードブックを有し、
予備選択処理の各時点で、当該時点に該当するブロック
のコードブックを認識対象毎に選択して利用するように
したことを特徴とする音声認識装置。