JPH05257493A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH05257493A
JPH05257493A JP4055300A JP5530092A JPH05257493A JP H05257493 A JPH05257493 A JP H05257493A JP 4055300 A JP4055300 A JP 4055300A JP 5530092 A JP5530092 A JP 5530092A JP H05257493 A JPH05257493 A JP H05257493A
Authority
JP
Japan
Prior art keywords
voice
reject
probability
recognition
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4055300A
Other languages
English (en)
Inventor
Hiroshi Matsuura
博 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP4055300A priority Critical patent/JPH05257493A/ja
Publication of JPH05257493A publication Critical patent/JPH05257493A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】高精度のリジェクト判定を行なうことのできる
不特定話者用の音声認識装置を提供することである。 【構成】入力音声を音声分析部1で分析し、分析された
特徴パラメータを抽出する。特徴抽出部3は、この分析
された特徴パラメータを、シンボル認識辞書2に登録さ
れている所定のシンボルと時間軸方向に連続的にマッチ
ング処理を行ない、シンボル系列を求める。このシンボ
ル系列を、HMMがセットされた認識・リジェクト判定
部4に通し、そのモデルがシンボル系列を出力する確率
を求め、単語の特定を行なう。また、この確率と入力音
声のフレ−ム数とで決定される関数値と、リジェクトパ
ラメータ設定部5に利用者毎に設定されたリジェクト用
パラメ−タとを比較することにより、リジェクト判定を
行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、発声された音声を認
識する不特定話者用の音声認識装置に関する。
【0002】
【従来の技術】発声された音声を認識する音声認識装置
として、特定話者用の装置と不特定話者用の装置とが知
られている。
【0003】特定話者(利用者)用の音声認識装置にお
いては、認識単語の標準パターンを話者毎に作り替える
もので、装置を使用する前にあらかじめ利用者の音声を
認識用の標準パターンとして登録しておく必要がある。
したがって、登録の手間が利用者の大きな負担になる。
また、操作が概して認識操作に比べて複雑であるために
誤りやすく、一旦不完全な標準パターンを登録してしま
うと、認識率が大幅に低下するという問題が生じる。
【0004】一方、不特定話者用の音声認識装置におい
ては、あらかじめ利用者の音声を認識用の標準パターン
として登録しておく必要がない。また、登録操作を利用
者に委ねないので、操作ミスによる認識率の低下を回避
できるという大きな効果がある。しかしながら、現在の
不特定話者用の音声認識装置においては、認識対象語彙
数を制限して実用的音声認識性能を確保している。
【0005】このような限定語彙単語認識の用途として
は、作業現場においての工業用ロボットや機械の制御
(音声指令)、身体障害者の補助(車椅子、ベッド、タ
イプライタ、サ−ボの音声制御)などがある。
【0006】このような場合には、認識対象語彙以外の
音声や雑音をリジェクトすることが、非常に重要とな
る。このようなリジェクトの判定を行なう場合には、入
力音声が認識対象単語である確率を求め、この確率を一
定のしきい値と比較して判定していた。しかしながら、
この確率は、認識対象単語及び話者によって変化するフ
レ−ム数に依存するために、フレ−ム数を考慮せずにこ
の確率のみをしきい値と比較してリジェクト判定を行な
うと精度がよくないという欠点があった。また、このし
きい値は全話者共通に設定されていた。
【0007】入力音声が認識対象単語である確率を求め
る方法としては、音声を一定のシンボル系列に変換する
ベクトル量子化を行ない、量子化シンボル系列を隠れマ
ルコフモデル(以下、HMMと称する)で認識する方式
が、近年成功をおさめている。
【0008】ここで、HMMの一般的定式化について述
べる。HMMではn個の状態S1 ,S2 ,…,Sn を有
し、初期状態がこれらn個の状態に確率的に分布してい
るとする。音声では、一定のフレーム周期ごとにある確
率(遷移確率)で状態を遷移するモデルが使用される。
遷移の際には、ある確率(出力確率)でシンボルを出力
しないで状態を遷移するナル遷移を導入することもあ
る。出力シンボル系列が与えられても、状態遷移系列は
一意に決定されない。観測できるのはシンボル系列だけ
であることから、隠れマルコフモデルと称されている。
HMMのモデルMは次の6つのパラメータから定義され
る。 n:状態数(状態S1 ,S2 ,…,Sn ) h:シンボル数(シンボルR1 ,R2 ,…,Rh ) Pij:遷移確率Si にいてSj に遷移する確率 Qij(h):Si からSj への遷移の際にシンボルhを
出力する確率 mi :初期状態確率(初期状態がSi である確率) F:最終状態の集合
【0009】次にモデルMに対して音声の特徴を反映し
た遷移上の制限を加える。音声では一般に状態Si から
以前に通過した状態(Si-1 ,Si-2 ,…)に戻るよう
なル−プの遷移は、時間的前後関係を乱すため許されな
い。前記のようなHMMの構造としては、図4のような
例が代表的である。HMMの評価はモデルMがシンボル
系列O=o1 ,o2 ,…,ot を出力する確率Pr (O
/M)を求める。認識時にはHMM認識部で各モデルを
仮定してPr (O/M)が最大となるようなモデルMを
ビタビアルゴリズムにより求める。また、HMMの学習
はHMM学習部にて多数のシンボル系列をOを与えて、
平均的にPr (O/M)が最大となるモデルMのパラメ
ータを推定すればよい。以上のようにして発声された入
力音声を認識処理することにより、その入力音声を高精
度に認識することが可能となる。
【0010】
【発明が解決しようとする課題】前記のような従来の不
特定話者用音声認識装置の技術によれば、入力音声が認
識対象単語である確率を求め、この確率を一定のしきい
値と比較して判定していた。しかしながら、この確率
は、認識対象単語及び話者によって変化するフレ−ム数
に依存する。このために、フレ−ム数を考慮せずにこの
確率のみをしきい値と比較してリジェクト判定を行なう
と、精度がよくないという欠点があった。この発明は上
記事情に鑑みてなされたものでその目的は、高いリジェ
クト性能を得ることのできる不特定話者用の音声認識装
置を提供することにある。
【0011】さらにこの発明の目的は、前記しきい値
(リジェクト用パラメータ)を利用者毎に設定し、さら
に高精度のリジェクト判定を行なうことのできる不特定
話者用の音声認識装置を提供することにある。
【0012】
【課題を解決するための手段】この発明は上記課題を解
決するために、音声認識の対象語彙が決められている不
特定の話者の音声信号を入力し、この音声信号を分析し
て特徴パラメータを求め、この特徴パラメータをシンボ
ル系列に変換して、単語ごとに予め作成された隠れマル
コフモデルに通し、そのモデルが前記シンボル系列を出
力する確率をもとに単語を特定する音声認識装置におい
て、入力音声が認識の対象語彙であるか否かを、前記確
率と入力音声のフレ−ム数とで決定される関数値と、入
力音声のフレ−ム数によらないリジェクト用パラメ−タ
とを比較することにより判定する手段を設け、その判定
結果をもとに前記入力音声をリジェクトすることを特徴
とする。この発明はさらに、リジェクト用パラメ−タを
利用者毎に設定する手段を設けることをも特徴とする。
【0013】
【作用】上記の構成によれば、音声認識装置において、
音声認識の対象語彙が決められている不特定の話者の音
声信号を入力して音声分析し、特徴パラメータを求めシ
ンボル系列に変換して、単語ごとに予め作成された隠れ
マルコフモデルに通し、そのモデルがそのシンボル系列
を出力する確率を求める。ところで、入力音声に対する
シンボル系列の確率が最大になるようなモデルを求めて
認識結果とする場合、この最大の確率は入力音声のフレ
−ム数が多くなると小さくなる。この発明においてはこ
の事実を考慮して、入力音声が認識の対象単語ではない
としてリジェクトする判定を行なう際に、従来のように
そのモデルがシンボル系列を出力する確率のみで判定せ
ずに、この確率と入力音声のフレ−ム数とで決定される
関数値と、入力音声のフレ−ム数によらないリジェクト
用パラメ−タとを比較することにより判定を行ないリジ
ェクト判定の精度を高くする。また、このリジェクト用
パラメ−タは利用者毎に設定できるようにして、さらに
リジェクト判定の精度を高くする。
【0014】
【実施例】以下、図面を参照してこの発明の実施例を説
明する。
【0015】図1はこの発明の第一の実施例に係る不特
定話者用音声認識装置の構成を示すブロック図である。
図1の音声認識装置は、音声分析部1、特徴抽出部2、
シンボル認識辞書3、認識・リジェクト判定部4、リジ
ェクトパラメータ設定部5、認識用辞書部6を備えてい
る。
【0016】音声分析部1では入力音声を分析し、特徴
パラメータを抽出する。シンボル認識辞書2は、各シン
ボルごとに複数の標準パターンから作成された識別用辞
書である。特徴抽出部3は、上記分析された特徴パラメ
ータとシンボル認識辞書2に登録されている所定のシン
ボルとのマッチング処理を行ない、シンボル系列を求め
る。
【0017】認識用辞書4は、たとえば32個の制限さ
れた認識対象単語の各々について予め作成された隠れマ
ルコフモデル(HMM)を有している。リジェクトパラ
メータ設定部5は、リジェクト判定に使用するリジェク
ト用パラメータを、たとえば利用者毎に適宜設定するた
めのものである。認識・リジェクト判定部6は、前記特
徴抽出部2で求められたシンボル系列を入力し、認識用
辞書4によりセットされたHMMがこのシンボル系列を
出力する確率を求める処理を行なう。認識・リジェクト
判定部6はさらに、この確率により単語の認識を行な
い、又、この確率と入力音声のフレ−ム数とで決定され
る関数値と、リジェクト用パラメータとを比較すること
によりリジェクト判定を行なう。
【0018】図2に、図1の認識用辞書4に格納されて
いるHMMの構造を示す。この実施例で用いたHMMは
left to right型で10個の状態S1 ,S
2 ,…,S10を有し、初期状態はS1 のみとし、8ms
のフレーム周期で、一定の遷移確率で状態を遷移する。
その遷移の際に、一定の出力確率でシンボルを出力する
モデルである。この実施例におけるシステムのHMMの
32個のモデルについてのパラメータは次のようになっ
ている。
【0019】n:状態数=10(状態S1 ,S2 ,…,
S10) k:シンボル数=191(シンボルのそれぞれをコード
にするR=1,2,…,191) Pij:遷移確率Si にいてSj に遷移する確率 Qij(k):Si からSj への遷移の際にシンボルkを
出力する確率 また、最終確率はS10に限定する。次に、図1の構成に
よる音声認識処理の動作を説明する。
【0020】音声が入力されると、音声分析部1で、た
とえば、線形予測法(LPC)により分析し特徴パラメ
ータを抽出する。この音声分析にバンドパスフィルタ
(BPF)を用いることも可能である。
【0021】音声分析部1によって分析・抽出された特
徴パラメータは、特徴抽出部3に与えられる。特徴抽出
部3は、この特徴パラメータを受け、シンボル認識辞書
2に登録されている所定のシンボルと時間軸方向に連続
的にマッチング処理を行ない、シンボル系列を求める。
【0022】特徴抽出部3によって求められたシンボル
系列は認識・リジェクト判定部6に入力される。認識・
リジェクト判定部6には、認識用辞書4に予め学習され
て蓄積された32個の単語についてのHMMがセットさ
れる。認識・リジェクト判定部6は、これら各HMM
が、上記入力されたシンボル系列を出力する確率P(O
/M)をビタビアルゴリズムにより求める。そして認識
・リジェクト判定部6は、この確率が最大(このときの
P(O/M)をP1 とする)となるHMMを求め音声認
識結果とし、入力音声単語の特定を行なう。また、認識
・リジェクト判定部6は、この最大の確率P1 を用いて
入力音声のリジェクト判定を行ない、その判定結果に従
って音声認識結果を棄却する。
【0023】従来、入力音声のリジェクト判定は、上記
最大の確率P1 としきい値とを比較することで行なわれ
ていた。しかし、確率P1 は入力音声のフレーム数fに
対して一定ではないために、しきい値との比較によるリ
ジェクト判定では精度がよくない。このために、この実
施例においては以下に述べるように、上記最大の確率P
1 と2番目に大きな確率(これをP2 とする)と入力音
声のフレーム数fとで決定される関数を導入し、その関
数値と、リジェクトパラメータ設定部5に利用者毎に適
宜セットされたリジェクト用パラメ−タとを比較して判
定を行なう。
【0024】まず、上記最大確率P1 の2を底とする対
数をとった値log2 P1 をp1 とする。図3には、縦
軸をp1 、横軸をフレーム数fとして、入力音声のモデ
ル、即ち正解となるべきモデルに対するフレーム数f
と、確率の対数値p1 との関係を示す。図から明らかな
ように、入力音声のフレーム数fに対して、p1 (=l
og2 P1 )は一定ではない。なお、0≦P1 ≦1であ
るため、p1 ≦0である。次に、通常、単語音声では2
5フレ−ム(200ms)以下であることはまずないの
で、a,bを定数として、f>25のとき、
【0025】 r1 =p1 ×50000/(a×f+b) …(1) とする。この関数値r1 は、フレーム数fのみに依存し
た基準値(a×f+b)に対するp1 の比率と考えられ
る。同様にP1 の次に大きな確率をP2 、p2 =log
2 P2 とし、
【0026】 r2 =p2 ×50000/(a×f+b) …(2) とする。この関数値r2 は、フレーム数fのみに依存し
た基準値(a×f+b)に対するp2 の比率と考えられ
る。
【0027】そこで、確率p1 ,p2 とフレーム数fと
で決定される上記の関数値r1 ,r2 と、リジェクトパ
ラメータ設定部5によって設定される一定のリジェクト
用のパラメ−タとを比較することにより、リジェクト判
定を行なうことが可能となる。たとえば、リジェクト用
のパラメ−タとしてrT ,rD を用意して、 r1 >rT ,r1 −r2 <rD
【0028】のときに、リジェクトすればよい。ここ
で、r1 −r2 は、次式 r1 −r2 =(p1 −p2 )×50000/(a×f+b) で表わされ、フレーム数fのみに依存した基準値(a×
f+b)に対するp1 とp2 との比率の差を示してい
る。
【0029】他の方法として、f>25のとき、 q1 =p1 −(a×f+b) q2 =p2 −(a×f+b) と設定し、リジェクト用のパラメ−タとしてqT ,qD
を用意して、 q1 <qT ,q1 −q2 <qD のときに、リジェクトしてもよい。
【0030】ここで、基準値(a×f+b)中の定数
a,bの選定方法の例を述べる。図3は、前記したよう
に入力音声のフレーム数fと、p1 (=log2 P1 )
との関係を示している。同図に示されるように、入力音
声のフレーム数fに対しp1 が一定とはならない。各f
に対するp1 の最小値に着目して考えてみると、その分
布は直線で近似しやすい。図3によりp1 =−615f
+15750で近似しても良いと考えられる。これをフ
レーム数fのみに依存した基準値として考えてもよい。
【0031】これにより、たとえば、先の(1),
(2)式において、a=−615,b=15750とお
いて、 r1 =p1 ×50000/(−615×f+15750) r2 =p2 ×50000/(−615×f+15750) という、確率とフレーム数fとで決定される関数値が得
られる。そこで、この関数値r1 ,r2 とリジェクト用
のパラメ−タrT ,rD とにより、r1 >rT ,r1 −
r2 <rD のときにリジェクトすればよい。
【0032】このように、確率とフレーム数fとで決定
される関数値と、一定のリジェクト用のパラメ−タとを
比較することにより、確率としきい値とを比較して判定
する従来装置と比べて高精度にリジェクト判定を行なう
ことができる。
【0033】なお、不特定話者用の音声認識装置では、
認識対象とする単語は決められているので、a,bの値
は個々の単語毎に設定することが可能である。もちろ
ん、決められている認識対象とする単語すべてに対し
て、平均するなどして1組に決定することも可能であ
る。
【0034】また、上記リジェクトパラメータ設定部5
によって設定されるリジェクト用のパラメ−タは、利用
者のパラメータ入力操作により入力されるものでもよい
し、予め定められたいくつかの選択肢から利用者によっ
て選択されるものでもよい。また、カテゴリ(各認識対
象単語)に対して個別に設定可能としてもよい。あるい
は、リジェクト判定を実行させ、その判定が正しいか否
かを利用者が教え、リジェクトパラメータ設定部5で自
動的にパラメ−タを決定するようにしてもよい。
【0035】
【発明の効果】以上詳記したようにこの発明によれば、
不特定話者の入力音声の特徴パラメ−タに対するシンボ
ル系列を出力する確率が最大になるような隠れマルコフ
モデルを求めて単語を特定し、認識結果とする音声認識
装置において、この確率は入力音声のフレ−ム数が多く
なると小さくなるという事実を考慮して、入力音声が認
識の対象単語ではないとしてリジェクトする判定を行な
う際に、確率だけで判定せずに、確率と入力音声のフレ
−ム数とで決定される関数値と、入力音声のフレ−ム数
によらないリジェクト用パラメ−タとを比較することに
よりリジェクト判定を行なう構成としたので、高いリジ
ェクト性能を得ることができる。
【0036】また、この発明によれば、リジェクト用パ
ラメ−タが利用者毎に設定可能な構成とし、このリジェ
クト用のパラメ−タと上記関数値とを比較してリジェク
ト判定を行なうようにしたので、さらに高精度のリジェ
クト判定を行なうことができる。
【図面の簡単な説明】
【図1】この発明を適用する音声認識装置の一実施例を
示すブロック構成図。
【図2】図1の認識・リジェクト判定部6にセットされ
るHMMの構造を示す図。
【図3】入力音声のモデルに対するフレ−ム数fと、確
率の対数値p1 (=log2 P1 )との関係を示す相関
図。
【図4】一般的なHMMの構造を示す図。
【符号の説明】
1…音声分析部、2…シンボル認識辞書、3…特徴抽出
部、4…認識用辞書部、5…リジェクトパラメ−タ設定
部、6…認識・リジェクト判定部(確率決定手段,リジ
ェクト・特定手段)。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 音声認識の対象語彙が決められている不
    特定の話者の音声信号を入力し、この音声信号を分析し
    て特徴パラメータを求め、この特徴パラメータをシンボ
    ル系列に変換して、単語ごとに予め作成された隠れマル
    コフモデルに通し、そのモデルが前記シンボル系列を出
    力する確率をもとに単語を特定する音声認識装置におい
    て、 入力音声が認識の対象語彙であるか否かを、前記確率と
    入力音声のフレ−ム数とで決定される関数値と入力音声
    のフレ−ム数によらないリジェクト用パラメ−タとを比
    較することにより判定し、その判定結果をもとに前記入
    力音声をリジェクトするリジェクト判定手段を具備する
    ことを特徴とする音声認識装置。
  2. 【請求項2】 前記リジェクト用パラメ−タを利用者毎
    に設定する手段をさらに具備することを特徴とする請求
    項1記載の音声認識装置。
JP4055300A 1992-03-13 1992-03-13 音声認識装置 Pending JPH05257493A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4055300A JPH05257493A (ja) 1992-03-13 1992-03-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4055300A JPH05257493A (ja) 1992-03-13 1992-03-13 音声認識装置

Publications (1)

Publication Number Publication Date
JPH05257493A true JPH05257493A (ja) 1993-10-08

Family

ID=12994725

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4055300A Pending JPH05257493A (ja) 1992-03-13 1992-03-13 音声認識装置

Country Status (1)

Country Link
JP (1) JPH05257493A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09106296A (ja) * 1995-07-31 1997-04-22 At & T Corp 音声認識装置及び方法
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09106296A (ja) * 1995-07-31 1997-04-22 At & T Corp 音声認識装置及び方法
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム

Similar Documents

Publication Publication Date Title
US6671669B1 (en) combined engine system and method for voice recognition
US6735563B1 (en) Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
EP1005019B1 (en) Segment-based similarity measurement method for speech recognition
EP1159735B1 (en) Voice recognition rejection scheme
US20030200087A1 (en) Speaker recognition using dynamic time warp template spotting
JPH0683388A (ja) 音声認識装置
KR100737358B1 (ko) 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치
JPH05257493A (ja) 音声認識装置
JP2000020089A (ja) 音声認識方法及びその装置、並びに音声制御システム
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
KR100587260B1 (ko) 음향 기기의 음성인식장치
JP2975772B2 (ja) 音声認識装置
JP2001350494A (ja) 照合装置及び照合方法
JP2502880B2 (ja) 音声認識方法
JPH0997095A (ja) 音声認識装置
JP3523949B2 (ja) 音声認識装置及び音声認識方法
KR100395222B1 (ko) 음성사서함서비스(브이엠에스)를 위한 음성인식시스템
JPH08254991A (ja) パターン認識装置
JPH0119597B2 (ja)
JP2004510209A (ja) 発声された番号シーケンスの分析方法及び装置
JPH04152397A (ja) 音声認識装置
JPH05257491A (ja) 音声認識方式
JP3100208B2 (ja) 音声認識装置
JPS6336678B2 (ja)
JPH01222299A (ja) 音声認識装置