JPH05257493A

JPH05257493A - 音声認識装置

Info

Publication number: JPH05257493A
Application number: JP4055300A
Authority: JP
Inventors: Hiroshi Matsuura; 博松浦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1992-03-13
Filing date: 1992-03-13
Publication date: 1993-10-08

Abstract

(57)【要約】【目的】高精度のリジェクト判定を行なうことのできる
不特定話者用の音声認識装置を提供することである。【構成】入力音声を音声分析部１で分析し、分析された
特徴パラメータを抽出する。特徴抽出部３は、この分析
された特徴パラメータを、シンボル認識辞書２に登録さ
れている所定のシンボルと時間軸方向に連続的にマッチ
ング処理を行ない、シンボル系列を求める。このシンボ
ル系列を、ＨＭＭがセットされた認識・リジェクト判定
部４に通し、そのモデルがシンボル系列を出力する確率
を求め、単語の特定を行なう。また、この確率と入力音
声のフレ−ム数とで決定される関数値と、リジェクトパ
ラメータ設定部５に利用者毎に設定されたリジェクト用
パラメ−タとを比較することにより、リジェクト判定を
行なう。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、発声された音声を認
識する不特定話者用の音声認識装置に関する。

【０００２】

【従来の技術】発声された音声を認識する音声認識装置
として、特定話者用の装置と不特定話者用の装置とが知
られている。

【０００３】特定話者（利用者）用の音声認識装置にお
いては、認識単語の標準パターンを話者毎に作り替える
もので、装置を使用する前にあらかじめ利用者の音声を
認識用の標準パターンとして登録しておく必要がある。
したがって、登録の手間が利用者の大きな負担になる。
また、操作が概して認識操作に比べて複雑であるために
誤りやすく、一旦不完全な標準パターンを登録してしま
うと、認識率が大幅に低下するという問題が生じる。

【０００４】一方、不特定話者用の音声認識装置におい
ては、あらかじめ利用者の音声を認識用の標準パターン
として登録しておく必要がない。また、登録操作を利用
者に委ねないので、操作ミスによる認識率の低下を回避
できるという大きな効果がある。しかしながら、現在の
不特定話者用の音声認識装置においては、認識対象語彙
数を制限して実用的音声認識性能を確保している。

【０００５】このような限定語彙単語認識の用途として
は、作業現場においての工業用ロボットや機械の制御
（音声指令）、身体障害者の補助（車椅子、ベッド、タ
イプライタ、サ−ボの音声制御）などがある。

【０００６】このような場合には、認識対象語彙以外の
音声や雑音をリジェクトすることが、非常に重要とな
る。このようなリジェクトの判定を行なう場合には、入
力音声が認識対象単語である確率を求め、この確率を一
定のしきい値と比較して判定していた。しかしながら、
この確率は、認識対象単語及び話者によって変化するフ
レ−ム数に依存するために、フレ−ム数を考慮せずにこ
の確率のみをしきい値と比較してリジェクト判定を行な
うと精度がよくないという欠点があった。また、このし
きい値は全話者共通に設定されていた。

【０００７】入力音声が認識対象単語である確率を求め
る方法としては、音声を一定のシンボル系列に変換する
ベクトル量子化を行ない、量子化シンボル系列を隠れマ
ルコフモデル（以下、ＨＭＭと称する）で認識する方式
が、近年成功をおさめている。

【０００８】ここで、ＨＭＭの一般的定式化について述
べる。ＨＭＭではｎ個の状態Ｓ1 ，Ｓ2 ，…，Ｓn を有
し、初期状態がこれらｎ個の状態に確率的に分布してい
るとする。音声では、一定のフレーム周期ごとにある確
率（遷移確率）で状態を遷移するモデルが使用される。
遷移の際には、ある確率（出力確率）でシンボルを出力
しないで状態を遷移するナル遷移を導入することもあ
る。出力シンボル系列が与えられても、状態遷移系列は
一意に決定されない。観測できるのはシンボル系列だけ
であることから、隠れマルコフモデルと称されている。
ＨＭＭのモデルＭは次の６つのパラメータから定義され
る。ｎ：状態数（状態Ｓ1 ，Ｓ2 ，…，Ｓn ）ｈ：シンボル数（シンボルＲ1 ，Ｒ2 ，…，Ｒh ）Ｐij：遷移確率Ｓi にいてＳj に遷移する確率Ｑij（ｈ）：Ｓi からＳj への遷移の際にシンボルｈを
出力する確率ｍi ：初期状態確率（初期状態がＳi である確率）Ｆ：最終状態の集合

【０００９】次にモデルＭに対して音声の特徴を反映し
た遷移上の制限を加える。音声では一般に状態Ｓi から
以前に通過した状態（Ｓi-1 ，Ｓi-2 ，…）に戻るよう
なル−プの遷移は、時間的前後関係を乱すため許されな
い。前記のようなＨＭＭの構造としては、図４のような
例が代表的である。ＨＭＭの評価はモデルＭがシンボル
系列Ｏ＝ｏ1 ，ｏ2 ，…，ｏt を出力する確率Ｐr （Ｏ
／Ｍ）を求める。認識時にはＨＭＭ認識部で各モデルを
仮定してＰr （Ｏ／Ｍ）が最大となるようなモデルＭを
ビタビアルゴリズムにより求める。また、ＨＭＭの学習
はＨＭＭ学習部にて多数のシンボル系列をＯを与えて、
平均的にＰr （Ｏ／Ｍ）が最大となるモデルＭのパラメ
ータを推定すればよい。以上のようにして発声された入
力音声を認識処理することにより、その入力音声を高精
度に認識することが可能となる。

【００１０】

【発明が解決しようとする課題】前記のような従来の不
特定話者用音声認識装置の技術によれば、入力音声が認
識対象単語である確率を求め、この確率を一定のしきい
値と比較して判定していた。しかしながら、この確率
は、認識対象単語及び話者によって変化するフレ−ム数
に依存する。このために、フレ−ム数を考慮せずにこの
確率のみをしきい値と比較してリジェクト判定を行なう
と、精度がよくないという欠点があった。この発明は上
記事情に鑑みてなされたものでその目的は、高いリジェ
クト性能を得ることのできる不特定話者用の音声認識装
置を提供することにある。

【００１１】さらにこの発明の目的は、前記しきい値
（リジェクト用パラメータ）を利用者毎に設定し、さら
に高精度のリジェクト判定を行なうことのできる不特定
話者用の音声認識装置を提供することにある。

【００１２】

【課題を解決するための手段】この発明は上記課題を解
決するために、音声認識の対象語彙が決められている不
特定の話者の音声信号を入力し、この音声信号を分析し
て特徴パラメータを求め、この特徴パラメータをシンボ
ル系列に変換して、単語ごとに予め作成された隠れマル
コフモデルに通し、そのモデルが前記シンボル系列を出
力する確率をもとに単語を特定する音声認識装置におい
て、入力音声が認識の対象語彙であるか否かを、前記確
率と入力音声のフレ−ム数とで決定される関数値と、入
力音声のフレ−ム数によらないリジェクト用パラメ−タ
とを比較することにより判定する手段を設け、その判定
結果をもとに前記入力音声をリジェクトすることを特徴
とする。この発明はさらに、リジェクト用パラメ−タを
利用者毎に設定する手段を設けることをも特徴とする。

【００１３】

【作用】上記の構成によれば、音声認識装置において、
音声認識の対象語彙が決められている不特定の話者の音
声信号を入力して音声分析し、特徴パラメータを求めシ
ンボル系列に変換して、単語ごとに予め作成された隠れ
マルコフモデルに通し、そのモデルがそのシンボル系列
を出力する確率を求める。ところで、入力音声に対する
シンボル系列の確率が最大になるようなモデルを求めて
認識結果とする場合、この最大の確率は入力音声のフレ
−ム数が多くなると小さくなる。この発明においてはこ
の事実を考慮して、入力音声が認識の対象単語ではない
としてリジェクトする判定を行なう際に、従来のように
そのモデルがシンボル系列を出力する確率のみで判定せ
ずに、この確率と入力音声のフレ−ム数とで決定される
関数値と、入力音声のフレ−ム数によらないリジェクト
用パラメ−タとを比較することにより判定を行ないリジ
ェクト判定の精度を高くする。また、このリジェクト用
パラメ−タは利用者毎に設定できるようにして、さらに
リジェクト判定の精度を高くする。

【００１４】

【実施例】以下、図面を参照してこの発明の実施例を説
明する。

【００１５】図１はこの発明の第一の実施例に係る不特
定話者用音声認識装置の構成を示すブロック図である。
図１の音声認識装置は、音声分析部１、特徴抽出部２、
シンボル認識辞書３、認識・リジェクト判定部４、リジ
ェクトパラメータ設定部５、認識用辞書部６を備えてい
る。

【００１６】音声分析部１では入力音声を分析し、特徴
パラメータを抽出する。シンボル認識辞書２は、各シン
ボルごとに複数の標準パターンから作成された識別用辞
書である。特徴抽出部３は、上記分析された特徴パラメ
ータとシンボル認識辞書２に登録されている所定のシン
ボルとのマッチング処理を行ない、シンボル系列を求め
る。

【００１７】認識用辞書４は、たとえば３２個の制限さ
れた認識対象単語の各々について予め作成された隠れマ
ルコフモデル（ＨＭＭ）を有している。リジェクトパラ
メータ設定部５は、リジェクト判定に使用するリジェク
ト用パラメータを、たとえば利用者毎に適宜設定するた
めのものである。認識・リジェクト判定部６は、前記特
徴抽出部２で求められたシンボル系列を入力し、認識用
辞書４によりセットされたＨＭＭがこのシンボル系列を
出力する確率を求める処理を行なう。認識・リジェクト
判定部６はさらに、この確率により単語の認識を行な
い、又、この確率と入力音声のフレ−ム数とで決定され
る関数値と、リジェクト用パラメータとを比較すること
によりリジェクト判定を行なう。

【００１８】図２に、図１の認識用辞書４に格納されて
いるＨＭＭの構造を示す。この実施例で用いたＨＭＭは
ｌｅｆｔｔｏｒｉｇｈｔ型で１０個の状態Ｓ1 ，Ｓ
2 ，…，Ｓ10を有し、初期状態はＳ1 のみとし、８ｍｓ
のフレーム周期で、一定の遷移確率で状態を遷移する。
その遷移の際に、一定の出力確率でシンボルを出力する
モデルである。この実施例におけるシステムのＨＭＭの
３２個のモデルについてのパラメータは次のようになっ
ている。

【００１９】ｎ：状態数＝１０（状態Ｓ1 ，Ｓ2 ，…，
Ｓ10）ｋ：シンボル数＝１９１（シンボルのそれぞれをコード
にするＲ＝１，２，…，１９１）Ｐij：遷移確率Ｓi にいてＳj に遷移する確率Ｑij（ｋ）：Ｓi からＳj への遷移の際にシンボルｋを
出力する確率また、最終確率はＳ10に限定する。次に、図１の構成に
よる音声認識処理の動作を説明する。

【００２０】音声が入力されると、音声分析部１で、た
とえば、線形予測法（ＬＰＣ）により分析し特徴パラメ
ータを抽出する。この音声分析にバンドパスフィルタ
（ＢＰＦ）を用いることも可能である。

【００２１】音声分析部１によって分析・抽出された特
徴パラメータは、特徴抽出部３に与えられる。特徴抽出
部３は、この特徴パラメータを受け、シンボル認識辞書
２に登録されている所定のシンボルと時間軸方向に連続
的にマッチング処理を行ない、シンボル系列を求める。

【００２２】特徴抽出部３によって求められたシンボル
系列は認識・リジェクト判定部６に入力される。認識・
リジェクト判定部６には、認識用辞書４に予め学習され
て蓄積された３２個の単語についてのＨＭＭがセットさ
れる。認識・リジェクト判定部６は、これら各ＨＭＭ
が、上記入力されたシンボル系列を出力する確率Ｐ（Ｏ
／Ｍ）をビタビアルゴリズムにより求める。そして認識
・リジェクト判定部６は、この確率が最大（このときの
Ｐ（Ｏ／Ｍ）をＰ1 とする）となるＨＭＭを求め音声認
識結果とし、入力音声単語の特定を行なう。また、認識
・リジェクト判定部６は、この最大の確率Ｐ1 を用いて
入力音声のリジェクト判定を行ない、その判定結果に従
って音声認識結果を棄却する。

【００２３】従来、入力音声のリジェクト判定は、上記
最大の確率Ｐ1 としきい値とを比較することで行なわれ
ていた。しかし、確率Ｐ1 は入力音声のフレーム数ｆに
対して一定ではないために、しきい値との比較によるリ
ジェクト判定では精度がよくない。このために、この実
施例においては以下に述べるように、上記最大の確率Ｐ
1 と２番目に大きな確率（これをＰ2 とする）と入力音
声のフレーム数ｆとで決定される関数を導入し、その関
数値と、リジェクトパラメータ設定部５に利用者毎に適
宜セットされたリジェクト用パラメ−タとを比較して判
定を行なう。

【００２４】まず、上記最大確率Ｐ1 の２を底とする対
数をとった値ｌｏｇ₂Ｐ1 をｐ1 とする。図３には、縦
軸をｐ1 、横軸をフレーム数ｆとして、入力音声のモデ
ル、即ち正解となるべきモデルに対するフレーム数ｆ
と、確率の対数値ｐ1 との関係を示す。図から明らかな
ように、入力音声のフレーム数ｆに対して、ｐ1 （＝ｌ
ｏｇ₂Ｐ1 ）は一定ではない。なお、０≦Ｐ1 ≦１であ
るため、ｐ1 ≦０である。次に、通常、単語音声では２
５フレ−ム（２００ｍｓ）以下であることはまずないの
で、ａ，ｂを定数として、ｆ＞２５のとき、

【００２５】ｒ1 ＝ｐ1 ×５００００／（ａ×ｆ＋ｂ） …（１）とする。この関数値ｒ1 は、フレーム数ｆのみに依存し
た基準値（ａ×ｆ＋ｂ）に対するｐ1 の比率と考えられ
る。同様にＰ1 の次に大きな確率をＰ2 、ｐ2 ＝ｌｏｇ
₂Ｐ2 とし、

【００２６】ｒ2 ＝ｐ2 ×５００００／（ａ×ｆ＋ｂ） …（２）とする。この関数値ｒ2 は、フレーム数ｆのみに依存し
た基準値（ａ×ｆ＋ｂ）に対するｐ2 の比率と考えられ
る。

【００２７】そこで、確率ｐ1 ，ｐ2 とフレーム数ｆと
で決定される上記の関数値ｒ1 ，ｒ2 と、リジェクトパ
ラメータ設定部５によって設定される一定のリジェクト
用のパラメ−タとを比較することにより、リジェクト判
定を行なうことが可能となる。たとえば、リジェクト用
のパラメ−タとしてｒT ，ｒD を用意して、ｒ1 ＞ｒT ，ｒ1 −ｒ2 ＜ｒD

【００２８】のときに、リジェクトすればよい。ここ
で、ｒ1 −ｒ2 は、次式ｒ1 −ｒ2 ＝（ｐ1 −ｐ2 ）×５００００／（ａ×ｆ＋ｂ）で表わされ、フレーム数ｆのみに依存した基準値（ａ×
ｆ＋ｂ）に対するｐ1 とｐ2 との比率の差を示してい
る。

【００２９】他の方法として、ｆ＞２５のとき、ｑ1 ＝ｐ1 −（ａ×ｆ＋ｂ）ｑ2 ＝ｐ2 −（ａ×ｆ＋ｂ）と設定し、リジェクト用のパラメ−タとしてｑT ，ｑD
を用意して、ｑ1 ＜ｑT ，ｑ1 −ｑ2 ＜ｑD のときに、リジェクトしてもよい。

【００３０】ここで、基準値（ａ×ｆ＋ｂ）中の定数
ａ，ｂの選定方法の例を述べる。図３は、前記したよう
に入力音声のフレーム数ｆと、ｐ1 （＝ｌｏｇ₂Ｐ1 ）
との関係を示している。同図に示されるように、入力音
声のフレーム数ｆに対しｐ1 が一定とはならない。各ｆ
に対するｐ1 の最小値に着目して考えてみると、その分
布は直線で近似しやすい。図３によりｐ1 ＝−６１５ｆ
＋１５７５０で近似しても良いと考えられる。これをフ
レーム数ｆのみに依存した基準値として考えてもよい。

【００３１】これにより、たとえば、先の（１），
（２）式において、ａ＝−６１５，ｂ＝１５７５０とお
いて、ｒ1 ＝ｐ1 ×５００００／（−６１５×ｆ＋１５７５０）ｒ2 ＝ｐ2 ×５００００／（−６１５×ｆ＋１５７５０）という、確率とフレーム数ｆとで決定される関数値が得
られる。そこで、この関数値ｒ1 ，ｒ2 とリジェクト用
のパラメ−タｒT ，ｒD とにより、ｒ1 ＞ｒT ，ｒ1 −
ｒ2 ＜ｒD のときにリジェクトすればよい。

【００３２】このように、確率とフレーム数ｆとで決定
される関数値と、一定のリジェクト用のパラメ−タとを
比較することにより、確率としきい値とを比較して判定
する従来装置と比べて高精度にリジェクト判定を行なう
ことができる。

【００３３】なお、不特定話者用の音声認識装置では、
認識対象とする単語は決められているので、ａ，ｂの値
は個々の単語毎に設定することが可能である。もちろ
ん、決められている認識対象とする単語すべてに対し
て、平均するなどして１組に決定することも可能であ
る。

【００３４】また、上記リジェクトパラメータ設定部５
によって設定されるリジェクト用のパラメ−タは、利用
者のパラメータ入力操作により入力されるものでもよい
し、予め定められたいくつかの選択肢から利用者によっ
て選択されるものでもよい。また、カテゴリ（各認識対
象単語）に対して個別に設定可能としてもよい。あるい
は、リジェクト判定を実行させ、その判定が正しいか否
かを利用者が教え、リジェクトパラメータ設定部５で自
動的にパラメ−タを決定するようにしてもよい。

【００３５】

【発明の効果】以上詳記したようにこの発明によれば、
不特定話者の入力音声の特徴パラメ−タに対するシンボ
ル系列を出力する確率が最大になるような隠れマルコフ
モデルを求めて単語を特定し、認識結果とする音声認識
装置において、この確率は入力音声のフレ−ム数が多く
なると小さくなるという事実を考慮して、入力音声が認
識の対象単語ではないとしてリジェクトする判定を行な
う際に、確率だけで判定せずに、確率と入力音声のフレ
−ム数とで決定される関数値と、入力音声のフレ−ム数
によらないリジェクト用パラメ−タとを比較することに
よりリジェクト判定を行なう構成としたので、高いリジ
ェクト性能を得ることができる。

【００３６】また、この発明によれば、リジェクト用パ
ラメ−タが利用者毎に設定可能な構成とし、このリジェ
クト用のパラメ−タと上記関数値とを比較してリジェク
ト判定を行なうようにしたので、さらに高精度のリジェ
クト判定を行なうことができる。

【図面の簡単な説明】

【図１】この発明を適用する音声認識装置の一実施例を
示すブロック構成図。

【図２】図１の認識・リジェクト判定部６にセットされ
るＨＭＭの構造を示す図。

【図３】入力音声のモデルに対するフレ−ム数ｆと、確
率の対数値ｐ1 （＝ｌｏｇ₂Ｐ1 ）との関係を示す相関
図。

【図４】一般的なＨＭＭの構造を示す図。

【符号の説明】

１…音声分析部、２…シンボル認識辞書、３…特徴抽出
部、４…認識用辞書部、５…リジェクトパラメ−タ設定
部、６…認識・リジェクト判定部（確率決定手段，リジ
ェクト・特定手段）。

Claims

【特許請求の範囲】

【請求項１】音声認識の対象語彙が決められている不
特定の話者の音声信号を入力し、この音声信号を分析し
て特徴パラメータを求め、この特徴パラメータをシンボ
ル系列に変換して、単語ごとに予め作成された隠れマル
コフモデルに通し、そのモデルが前記シンボル系列を出
力する確率をもとに単語を特定する音声認識装置におい
て、入力音声が認識の対象語彙であるか否かを、前記確率と
入力音声のフレ−ム数とで決定される関数値と入力音声
のフレ−ム数によらないリジェクト用パラメ−タとを比
較することにより判定し、その判定結果をもとに前記入
力音声をリジェクトするリジェクト判定手段を具備する
ことを特徴とする音声認識装置。
【請求項２】前記リジェクト用パラメ−タを利用者毎
に設定する手段をさらに具備することを特徴とする請求
項１記載の音声認識装置。