JPH11249688A - 音声認識装置およびその方法 - Google Patents

音声認識装置およびその方法

Info

Publication number
JPH11249688A
JPH11249688A JP10053714A JP5371498A JPH11249688A JP H11249688 A JPH11249688 A JP H11249688A JP 10053714 A JP10053714 A JP 10053714A JP 5371498 A JP5371498 A JP 5371498A JP H11249688 A JPH11249688 A JP H11249688A
Authority
JP
Japan
Prior art keywords
phoneme
likelihood
reliability
symbol string
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10053714A
Other languages
English (en)
Inventor
Toshiyuki Hanazawa
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP10053714A priority Critical patent/JPH11249688A/ja
Publication of JPH11249688A publication Critical patent/JPH11249688A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 統計的知識に基づくリジェクトの判定可能な
音声認識装置を得る。 【解決手段】 手段6で入力音声の特徴ベクトルの時系
列4と標準パタンモデル5を照合して認識結果の音素記
号列8を求め、手段15で時系列4と音素記号列8を構
成する音素とを時間軸上で対応付けた音素セグメンテー
ション結果16を求め、手段17で結果16の各音素区
間毎に全ての音素モデル14と照合を行ない、各音素区
間の当該音素モデルの尤度、およびこの尤度と当該音素
モデル以外での尤度の最高値との差分で構成される信頼
度パラメータ18を計算する。そして手段21で正しい
および誤った音素区間に対する前記信頼度パラメータの
統計分布をモデル化したモデル19、20で前記認識結
果の音素記号列を構成する各音素の信頼度を算出し統合
して前記認識結果の音素記号列全体の信頼度を求め、所
定の閾値と前記音素記号列全体の信頼度の比較よりリジ
ェクト判定。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声装置が自動的に
認識結果の候補は誤りであると判定した場合には、認識
結果の候補を外部には出力しないようにする機能を備え
た音声認識装置およびその方法に係わるものである。
【0002】
【従来の技術】現在の音声認識技術では常に100%の
認識率が得られるわけではないので、通常の音声認識装
置は、認識処理を行ない認識結果の候補を決定した後、
その認識結果の候補が認識誤りであるか否かを判定する
手段を持っており、認識結果の候補は誤りであると判定
した場合には、認識結果の候補を外部には出力しないよ
うになっている。このように認識結果を出力しない動作
はリジェクトと呼ばれている。リジェクトするか否かの
判定は、予めリジェクト判定用のパラメータと閾値を決
めておき、認識結果の候補に対するパラメータと閾値と
の比較によってなされるのが普通である。
【0003】使い易い音声認識装置を提供するために
は、雑音や意図しない音声入力に対しては極力リジェク
トするようにし、正しく認識された候補に対してはリジ
ェクトを小さく抑えることが重要であり、従来からリジ
ェクト判定用のパラメータと閾値設定方法がいくつか検
討されている。
【0004】ここでは特開平9−212189号公報に
開示されている音声認識装置を例に挙げて、従来技術に
ついて説明する。本例ではリジェクト判定用のパラメー
タとして、(1)認識結果の第1候補の尤度、(2)第1候
補と第2候補との尤度差、の2種類を用いている。閾値
の設定方法としては、第1侯補の尤度の関数として、第
1と第2候補との尤度差に対するリジェクト閾値を決定
する方法を取っている。このようにリジェクト閾値を決
定することにより、雑音や意図しない音声入力は極力リ
ジェクトするようにし、正しく認識された候補に対して
はリジェクトを小さく抑えることを試みている。
【0005】図4は特開平9−212189号公報で開
示されている技術で単語音声認識装置を構成した場合の
一例である。図4において、1は音声信号の入力端、2
は入力音声信号、3は音響分析を行う分析手段、4は入
力音声の特徴ベクトルの時系列、5は認識対象とする各
単語の音声をモデル化した標準パタンモデル、6は入力
音声の特徴ベクトルの時系列4と標準パタンモデル5と
の照合を行う照合手段、7は認識結果の第1候補と第2
候補のそれぞれの尤度、8は認識結果の音素記号列、9
はリジェクト閾値を決定するために用いる閾値基準関
数、10は閾値基準関数9を参照してリジェクトするか
否かを決定するリジェクト手段、11はリジェクト信
号、12は認識結果を出力する結果出力手段、13は認
識結果である。
【0006】本例では分析手段3はLPC(線形予測)分
析を行なうこととし、特徴ベクトルの時系列4はLPC
ケプストラムの時系列とする。標準パタンモデル5は例
えばHMM(Hidden Markov Model、隠れマルコフモ
デル)を用い、本例では照合手段6における、照合すな
わちパタンマッチングには例えばビタビアルゴリズムを
用いる。
【0007】つぎに動作について説明する。発声者が音
声信号の入力端1から音声を入力すると、分析手段3は
音響分析を行い特徴ベクトルの時系列4に変換する。
【0008】照合手段6は特徴ベクトルの時系列4を入
力としてビタビアルゴリズムによって標準パタンモデル
5との照合を行ない、尤度が最も高い標準パタンモデル
がモデル化する単語を認識結果の第1候補とし、尤度が
2番目に高い標準パタンモデルがモデル化する単語を認
識結果の第2候補として、認識結果の第1侯補の尤度p
1と第2候補の尤度p2をリジェクト手段10へ出力す
る。また照合手段6は認識結果の第1侯補を結果出力手
段12へ出力する。
【0009】リジェクト手段10は照合手段6の出力で
ある、第1候補の尤度p1と第2候補の尤度p2を入力と
して、まず第1候補の尤度p1と予め設定した閾値Pを
比較する。そして第1侯補の尤度p1が閾値P未満であ
ればリジェクトすることを決定し、リジェクト信号11
の値として1を出力する。ここでリジェクト信号11の
値である1はリジェクトすることを意味するものとす
る。
【0010】一方、第1侯補の尤度p1が閾値P以上で
あれば、閾値基準関数9を参照して第1候補と第2候補
の尤度差に対するリジェクト閾値を算出する。閾値基準
関数9は例えば図5に示すように、第1候補の尤度が高
くなるにつれて第1候補と第2候補の尤度差に対するリ
ジェクト閾値が低くなる関数を用いる。例えば、図5お
いて第1侯補の尤度がp1(≧P)のとき、第1候補と第
2候補の尤度差に対するリジェクト閾値はf(p1)とな
る。上記のように決定されたリジェクト閾値f(p1)
と、第1侯補と第2候補の尤度差であるp1−p2が上記
のように決定されたリジェクト閾値f(p1)未満である
場合には、リジェクトすることを決定し、リジェクト信
号11の値として1を出力する。
【0011】第1侯補と第2候補の尤度差であるp1
2がリジェクト閾値f(p1)以上である場合には、リジ
ェクトしないことを決定し、リジェクト信号11の値と
して0を出力する。ここでリジェクト信号11の値であ
る0はリジェクトしないことを意味するものとする。
【0012】結果出力手段12は、認識結果の音素記号
列8とリジェクト信号11を入力として、リジェクト信
号11の値がリジェクトしないことを意味する0であれ
ば、認識結果の音素記号列8を認識結果13として出力
する。一方、リジェクト信号11の値がリジェクトする
ことを意味する1であれば、リジェクトを意味する記号
であるФを認識結果13として出力する。
【0013】
【発明が解決しようとする課題】以上説明したような従
来の音声認識装置に関する技術では、第1侯補の尤度p
1が高くなるに従って第1侯補が正認識である確率が高
くなるという仮定のもとに、第1候補と第2候補の尤度
差に対する閾値を低く設定することによって正認識され
た候補がリジエクトされにくくするようにしていた。逆
に第1候補の尤度p1が低くなるに従って、第1候補と
第2候補の尤度差に対する閾値を高く設定することによ
って、誤認識された候補をリジェクトしやすくしてい
た。
【0014】しかし認識対象とする単語が異なれば、第
1候補の認識結果が正しい場合でも第1侯補の尤度や第
2候補との尤度差は異なってくるので、従来のように認
識対象とする全ての単語で共通の閾値基準関数を用いる
のでは、認識対象とする単語毎にリジェクト精度がばら
つくという問題点があった。また第1候補の尤度p1
高くなるに従って正認識である確率が高くなるという保
証はないという問題点があった。
【0015】本発明は上記の課題を解決するためになさ
れたもので、認識対象とする単語毎のリジェクト精度の
ばらつきを低減するとともに、経験的な閾値基準関数を
導入することなく統計的知識に基づいたリジェクトの判
定が可能な音声認識装置およびその方法を提供すること
を目的とする。
【0016】
【課題を解決するための手段】上記の目的に鑑み、本発
明は、入力音声信号を音響分析して特徴ベクトルの時系
列を出力する分析手段と、認識対象とする音声をモデル
化した標準パタンモデルと、前記入力音声の特徴ベクト
ルの時系列と標準パタンモデルとの照合を行い、認識結
果の音素記号列を出力する照合手段と、全ての音素をモ
デル化した音素モデルと、前記入力音声の特徴ベクトル
の時系列と前記認識結果の音素記号列を構成する音素と
を時間軸上で対応付けた音素セグメンテーション結果を
出力するセグメンテーション手段と、前記音素セグメン
テーション結果の各音素区間ごとに前記全ての音素モデ
ルと照合を行ない、(a)各音素区間の当該音素モデルの
尤度、(b)前記当該音素モデルの尤度と当該音素モデル
以外での尤度の最高値との差分、とで構成される信頼度
パラメータを計算して出力する信頼度パラメータ計算手
段と、正しい音素区間に対する前記信頼度パラメータの
統計分布をモデル化した正解音素区間尤度統計モデル
と、誤った音素区間に対する前記信頼度パラメータの統
計分布をモデル化した不正解音素区間尤度統計モデル
と、前記信頼度パラメータ計算手段の出力である認識結
果の音素記号列の信頼度パラメータを入力として各音素
区間毎に前記正解音素区間尤度統計モデルと不正解音素
区間尤度統計モデルとの尤度差を求めて各音素区間の信
頼度を算出し、前記各音素の信頼度の和をとることによ
って前記認識結果の音素記号列全体の信頼度を求め、予
め設定された閾値と前記音素記号列全体の信頼度との比
較によってリジェクトを行なう検証手段と、この検証手
段によって前記認識結果の音素記号列がリジェクトされ
なかった場合に前記認識結果の音素記号列を出力する結
果出力手段と、を備えたことを特徴とする音声認識装置
にある。
【0017】またこの発明は、前記検証手段において、
前記各音素の信頼度の和をとる際に前記正解音素区間尤
度統計モデルと不正解音素区間尤度統計モデルとの尤度
差が正の値の音素では、前記尤度差の値を0に置き換え
て和をとることを特徴とする音声認識装置にある。
【0018】またこの発明は、前記検証手段において、
前記認識結果の音素記号列全体の信頼度として、前記認
識結果の音素記号列を構成する各音素の信頼度の和をと
った後に、前記認識結果の音素記号列を構成する音素の
数で除した値とすることを特徴とする音声認識装置にあ
る。
【0019】またこの発明は、入力音声信号を音響分析
して特徴ベクトルの時系列を出力する分析ステップと、
前記入力音声の特徴ベクトルの時系列と認識対象とする
音声をモデル化した標準パタンモデルとの照合を行い、
認識結果の音素記号列を出力する照合ステップと、前記
入力音声の特徴ベクトルの時系列と前記認識結果の音素
記号列を構成する音素とを時間軸上で対応付けた音素セ
グメンテーション結果を出力するセグメンテーションス
テップと、前記音素セグメンテーション結果の各音素区
間ごとに全ての音素をモデル化した音素モデルと照合を
行ない、(a)各音素区間の当該音素モデルの尤度、(b)
前記当該音素モデルの尤度と当該音素モデル以外での尤
度の最高値との差分、とで構成される信頼度パラメータ
を計算して出力する信頼度パラメータ計算ステップと、
前記信頼度パラメータ計算ステップの出力である認識結
果の音素記号列の信頼度パラメータを入力として各音素
区間毎に正しい音素区間に対する前記信頼度パラメータ
の統計分布をモデル化した正解音素区間尤度統計モデル
と、誤った音素区間に対する前記信頼度パラメータの統
計分布をモデル化した不正解音素区間尤度統計モデルと
の尤度差を求めて各音素区間の信頼度を算出し、前記各
音素の信頼度の和をとることによって前記認識結果の音
素記号列全体の信頼度を求め、予め設定された閾値と前
記音素記号列全体の信頼度との比較によってリジェクト
を行なう検証ステップと、この検証ステップによって前
記認識結果の音素記号列がリジェクトされなかった場合
に前記認識結果の音素記号列を出力する結果出力ステッ
プと、を備えたことを特徴とする音声認識方法にある。
【0020】またこの発明は、前記検証ステップにおい
て、前記各音素の信頼度の和をとる際に前記正解音素区
間尤度統計モデルと不正解音素区間尤度統計モデルとの
尤度差が正の値の音素では、前記尤度差の値を0に置き
換えて和をとることを特徴とする音声認識方法にある。
【0021】またこの発明は、前記検証ステップにおい
て、前記認識結果の音素記号列全体の信頼度として、前
記認識結果の音素記号列を構成する各音素の信頼度の和
をとった後に、前記認識結果の音素記号列を構成する音
素の数で除した値とすることを特徴とする音声認識方法
にある。
【0022】
【発明の実施の形態】実施の形態1.図1は本発明の一
実施の形態による音声認識装置の構成を示すブロック図
である。図1において図4に示した従来のものと同一も
しくは相当部分は同一符号を付し説明は省略する。本発
明の特徴的な部分は、セグメンテーション手段15と、
信頼度パラメータ計算手段17と、正解音素区間尤度統
計モデル19と、不正解音素区間尤度統計モデル20
と、検証手段21を備えたことである。
【0023】本実施の形態では、従来技術と同様に標準
パタンモデル5はHMMを用い、照合手段6における照
合は例えばビタビアルゴリズムを用いることにする。な
お、この音声認識装置は基本的にプログラムに従って動
作するコンピュータによって構成され、標準パタンモデ
ル5、音素モデル14、正解音素区間尤度統計モデル1
9および不正解音素区間尤度統計モデル20は、例えば
データベースとして格納されている。
【0024】次に動作について説明する。従来技術と同
様に発声者が音声信号の入力端1から音声を入力する
と、分析手段3は音響分析を行い特徴ベクトルの時系列
4に変換する。
【0025】照合手段6は特徴ベクトルの時系列4を入
力としてビタビアルゴリズムによって標準パタンモデル
5との照合を行ない、尤度が最も高い標準パタンモデル
がモデル化する単語を認識結果の第1候補とし、その第
1侯補の単語の音素記号列8を出力する。例えば日本の
地名を認識していて第1候補の単語が「おきなわ」であ
った場合、音素記号列8は/okinawa/となる。
【0026】セグメンテーション手段15は音声の特徴
ベクトルの時系列4と音素記号列8とを入力として、以
下の手順によって音素記号列8を構成する各音素と特徴
ベクトルの時系列4とを時間軸上で対応付けた音素セグ
メンテーション結果16を算出して出力する。音素セグ
メンテーション結果16は音素記号列8を構成する各音
素ごとの開始時刻と終了時刻の組である。例えば音素記
号列8が/okinawa/である場合、/okina
wa/を構成する音素は/o/、/k/、/i/、/n
/、/a/、/w/、/a/の7個なので、音素セグメ
ンテーション結果16は図2に示すものとなる。
【0027】音素セグメンテーション結果16の算出手
順 (手順1)音素記号列8を構成する音素の音素モデル1
4を連結することによって音素記号列8に対応する単語
モデルを作る。本例では音素モデル14は音素環境独立
のHMMを用いることにする。例えば音素記号列8が/
okinawa/である場合、音素モデル/o/、/k
/、/i/、/n/、/a/、/w/、/a/の7個を
連結して、/okinawa/をモデル化する単語モデ
ルをつくる。 (手順2)次にこの単語モデルと特徴ベクトルの時系列
4とをビタビアルゴリズムによって照合する。 (手順3)そして照合結果をバックトラックすることに
より音素記号列8を構成する各音素と特徴ベクトルの時
系列4とを時間軸上で対応付ける。
【0028】信頼度パラメータ計算手段17は音声の特
徴ベクトルの時系列4と音素セグメンテーション結果1
6を入力として、音素セグメンテーション結果16の各
音素区間毎に、全ての音素モデル14とビタビアルゴリ
ズムによって照合を行ない、各音素区間毎に、(1)当該
音素モデルの尤度である当該音素尤度Psn,(n=1〜
N,N:音素記号列8を構成する音素数)と、(2)当該音
素尤度と当該音素モデル以外での尤度の最高値との差分
である差分尤度Pdn,(n=1〜N)を求める。差分尤度
Pdnは下記の(1)式によって求める。
【0029】
【数1】
【0030】(1)式でPmaxnは、当該音素モデル以外で
の尤度の最高値である。
【0031】例えば音素セグメンテーション結果16が
図2に示すものである場合、第1音素は/o/なので、
第1音素に音素区間に対する当該音素尤度Ps1は音素/
o/のモデルの尤度であり、当該音素モデル以外の尤度
の最高値Pmax1は音素/o/以外のモデルの尤度のうち
の最高値である。
【0032】検証手段21は信頼度パラメータ18を入
力として、正解音素区間尤度統計モデル19と不正解音
素区間尤度統計モデル20を用いて、後述する方法によ
って認識結果の音素記号列8に対する単語信頼度WCを
算出する。そして単語信頼度WCと予め決めてあるリジ
ェクト閾値と比較し、単語信頼度WCがリジェクト閾値
未満である場合にはリジェクトすることを決定し、リジ
ェクト信号11の値として1を出力する。
【0033】一方,単語信頼度WCがリジェクト閾値以
上である場合には、リジェクトしないことを決定し、リ
ジェクト信号11の値として0を出力する。従来技術と
同様に、リジェクト信号11の値は、0はリジェクトし
ないことを意味し、1はリジェクトすることを意味する
ものとする。
【0034】単語信頼度WCの計算方法を述べる準備と
して、正解音素区間尤度統計モデルユ19と不正解音素
区間尤度統計モデル20について説明する。正解音素区
間尤度統計モデル19と不正解音素区間尤度統計モデル
20は、信頼度パラメータ18である当該音素尤度と差
分尤度の統計分布を表現したモデルであり、予め全ての
音素に対して正解音素区間尤度統計モデル19と不正解
音素区間尤度統計モデル20を1個づつ作成しておく。
【0035】正解音素区間尤度統計モデル19は全ての
音素を含む大量の音声データを用いて、正しい音素区
間、すなわち音素pに対しては大量の音声データ中の音
素pの区間に対して、信頼度パラメータ18である当該
音素尤度と差分尤度を計算し、その統計分布を求めるこ
とによって作成する。本実施の形態では統計分布として
2次元の対角正規分布を用いることにする。
【0036】従って正解音素区間尤度統計モデル19の
パラメータは当該音素尤度の平均Msp (c)、標準偏差Ss
p (c)と、差分尤度の平均Mdp (c)、標準偏差Sdp (c)であ
る。ここで肩の添字cは正解(correct)音素区間尤度統
計モデルのパラメータであることを意味し、下の添字p
は音素pに対する正解音素区間尤度統計モデルであるこ
とを意味している。
【0037】不正解音素区間尤度統計モデル20も同様
に、全ての音素を含む大量の音声データを用いて、当該
音素尤度の平均Msp (i)、標準偏差Ssp (i)と、差分尤度
の平均Mdp (i)、標準偏差Sdp (i)を求めることによって
作成する。ここで肩の添字iは不正解(incorrect)音素
区間尤度統計モデルのパラメータであることを意味し、
下の添字pは音素pに対する不正解音素区間尤度統計モ
デルであることを意味している。
【0038】正解音素区間尤度統計モデル19との違い
は、モデルのパラメータを求める際に誤った音素区間、
すなわち音素pの不正解音素区間尤度統計モデルを作成
する場合には大量の音声データ中の音素p以外の区間に
対して、信頼度パラメータ18である当該音素尤度と差
分尤度を計算することである。
【0039】正解音素区間尤度統計モデル19と不正解
音素区間尤度統計モデル20を概念を図3に示す。図3
において横軸は、ある音声区間xに対する音素pのモデ
ルの当該音素尤度、縦軸は前記音声区間xに対する音素
pのモデルの差分尤度である。図3には2つの楕円が描
かれているが、Aの楕円は音声区間xが音素pの区間で
ある場合の当該音素尤度と差分尤度の分布であり、すな
わち正解音素区間尤度統計モデル19の分布を表してい
る。楕円中の十字線の交点は正解音素区間尤度統計モデ
ル19の平均値であるMsp (c)、Mdp (c)を表している。
また十字線の長さは正解音素区間尤度統計モデル19の
標準偏差であるSsp (c)とSdp (c)を模式的に表してい
る。
【0040】Bの楕円は前記音声区間xが音素pの区間
ではない場合の当該音素尤度と差分尤度の分布であり、
すなわち不正解音素区間尤度統計モデル20の分布を表
している。楕円中の十字線の意味は正解音素区間尤度統
計モデル19の場合と同様である。
【0041】図3に示すように正解音素区間尤度統計モ
デル19と不正解音素区間尤度統計モデル20の分布が
ほぼ分かれるのは、前記音素区間xが音素pの区間であ
れば横軸の当該音素尤度は高い値となり、縦軸の差分尤
度も高い値となることが通常であるのに対し、前記音素
区間xが音素pの区間でない場合は横軸の当該音素尤度
は低い値となり、他の音素モデルの尤度のほうが高くな
ることが多いので、縦軸の差分尤度は平均値は負の値と
なることが通常だからである。
【0042】このように正解音素区間尤度統計モデル1
9と不正解音素区間尤度統計モデル20を作成しておけ
ば、ある音声区間xに対する音素pの当該音素尤度と差
分尤度を求めてその値が正解音素区間尤度統計モデル1
9の分布と不正解音素区間尤度統計モデル20の分布の
どちらに近いかを計測することにより、音声区間xが音
素pであるか否かを判定することができる。分布からの
近さの尺度としては、正解音素区間尤度統計モデル19
と不正解音素区間尤度統計モデル20に対する尤度を用
いる。
【0043】具体的には下記の(2)式または(3)式によ
り認識結果の音素記号列8を構成する各音素毎の信頼度
n,(n=1〜N、N:音素記号列8を構成する音素数)
を計算する。(2)式中の右辺の第1項は、音素記号列8
を構成するn番目の音素に対する正解音素区間尤度統計
モデル19の尤度であり、(2)式中の右辺の第2項は、
音素記号列8を構成するn番目の音素に対する不正解音
素区間尤度統計モデル20の尤度である。
【0044】従って信頼度cnの値が正である場合には
音素記号列8を構成するn番目の音素は正しい音素であ
ると判定できる。前記信頼度cnの値が負である場合に
は、音素記号列8を構成するn番目の音素は誤りである
と判定できる。(2)式と(3)式中の右辺の第1項と第2
項は、それぞれ(4)、(5)式によって計算する。
【0045】
【数2】
【0046】認識結果の音素記号列8に対する信頼度W
Cは、(2)式または(3)式によって計算される音素記号
列8を構成する各音素毎の信頼度cnの値を全音素区間
で加算した(6)式または音素記号列8を構成する音素の
数で除した(7)式によって計算する。
【0047】
【数3】
【0048】検証手段21は、(6)式または(7)で計算
される単語信頼度WCと予め決めてあるリジェクト閾値
と比較し、単語信頼度WCがリジェクト閾値未満である
場合には、リジェクトすることを決定し、リジェクト信
号11の値として1を出力する。一方単語信頼度WCが
リジェクト閾値以上である場合には、リジェクトしない
ことを決定し、リジェクト信号11の値として0を出力
する。従来技術と同様に、リジェクト信号11の値は、
0はリジェクトしないことを意味し、1はリジェクトす
ることを意味するものとする。
【0049】結果出力手段12は、認識結果の音素記号
列8とリジェクト信号11を入力として、従来技術と同
様にリジェクト信号11の値がリジェクトしないことを
意味する0であれば、認識結果の音素記号列8を認識結
果13として出力する。一方リジェクト信号11の値が
リジェクトすることを意味する1であれば、リジェクト
を意味する記号であるФを認識結果13として出力す
る。
【0050】
【発明の効果】以上のようにこの発明によれば、入力音
声信号を音響分析して特徴ベクトルの時系列を出力する
分析手段と、認識対象とする音声をモデル化した標準パ
タンモデルと、前記入力音声の特徴ベクトルの時系列と
標準パタンモデルとの照合を行い、認識結果の音素記号
列を出力する照合手段と、全ての音素をモデル化した音
素モデルと、前記入力音声の特徴ベクトルの時系列と前
記認識結果の音素記号列を構成する音素とを時間軸上で
対応付けた音素セグメンテーション結果を出力するセグ
メンテーション手段と、前記音素セグメンテーション結
果の各音素区間ごとに前記全ての音素モデルと照合を行
ない、(a)各音素区間の当該音素モデルの尤度、(b)前
記当該音素モデルの尤度と当該音素モデル以外での尤度
の最高値との差分、とで構成される信頼度パラメータを
計算して出力する信頼度パラメータ計算手段と、正しい
音素区間に対する前記信頼度パラメータの統計分布をモ
デル化した正解音素区間尤度統計モデルと、誤った音素
区間に対する前記信頼度パラメータの統計分布をモデル
化した不正解音素区間尤度統計モデルと、前記信頼度パ
ラメータ計算手段の出力である認識結果の音素記号列の
信頼度パラメータを入力として各音素区間毎に前記正解
音素区間尤度統計モデルと不正解音素区間尤度統計モデ
ルとの尤度差を求めて各音素区間の信頼度を算出し、前
記各音素の信頼度の和をとることによって前記認識結果
の音素記号列全体の信頼度を求め、予め設定された閾値
と前記音素記号列全体の信頼度との比較によってリジェ
クトを行なう検証手段と、この検証手段によって前記認
識結果の音素記号列がリジェクトされなかった場合に前
記認識結果の音素記号列を出力する結果出力手段と、を
備えたので、リジェクトの判定は各音素の信頼度を統合
することによってなされるため、認識対象とする単語ご
とにリジェクト精度がばらつくということを低減するこ
とができ、また各音素ごとに経験的な閾値基準関数を導
入することなく統計的知識に基づいてリジェクトの判定
をするのでリジェクトの信頼性を向上させることができ
る音声認識装置およびこれに基づく音声認識方法が得ら
れる。
【0051】またこの発明によれば、前記検証手段にお
いて、前記各音素の信頼度の和をとる際に前記正解音素
区間尤度統計モデルと不正解音素区間尤度統計モデルと
の尤度差が正の値の音素では、前記尤度差の値を0に置
き換えて和をとるようにしたので、認識結果の音素記号
列を構成する音素のうちの一部の音素で音素信頼度が正
の大きな値になることによって、他の大部分の音素の信
頼度が負の場合でも、認識結果の音素記号列全体の信頼
度が正の値になることを防止することが可能になり、リ
ジェクトの信頼性がより向上した音声認識装置およびこ
れに基づく音声認識方法が得られる。
【0052】またこの発明によれば、前記検証手段にお
いて、前記認識結果の音素記号列全体の信頼度として、
前記認識結果の音素記号列を構成する各音素の信頼度の
和をとった後に、前記認識結果の音素記号列を構成する
音素の数で除した値とするようにしたので、構成音素数
が異なる認識結果に対しても、リジェクト判定の際に共
通の閾値を設定できる音声認識装置およびこれに基づく
音声認識方法が得られる。
【図面の簡単な説明】
【図1】 この発明の一実施の形態による音声認識装置
の構成を示すブロック図である。
【図2】 この発明による音素セグメンテーション結果
の内容を示した説明図である。
【図3】 この発明による正解音素区間尤度統計モデル
と不正解音素区間尤度統計モデルを説明するための概念
図である。
【図4】 従来の音声認識装置の構成を示すブロック図
である。
【図5】 従来の音声認識装置のリジェクト閾値決定方
法を説明するための図である。
【符号の説明】
1 入力端、2 音声信号、3 分析手段、4 特徴ベ
クトルの時系列、5標準パタンモデル、6 照合手段、
8 認識結果の音素記号列、11 リジェクト信号、1
2 結果出力手段、13 認識結果、14 音素モデ
ル、15 セグメンテーション手段、16 音素セグメ
ンテーション結果、17 信頼度パラメータ計算手段、
18 信頼度パラメータ、19 正解音素区間尤度統計
モデル、20 不正解音素区間尤度統計モデル、21
検証手段。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号を音響分析して特徴ベクト
    ルの時系列を出力する分析手段と、 認識対象とする音声をモデル化した標準パタンモデル
    と、 前記入力音声の特徴ベクトルの時系列と標準パタンモデ
    ルとの照合を行い、認識結果の音素記号列を出力する照
    合手段と、 全ての音素をモデル化した音素モデルと、 前記入力音声の特徴ベクトルの時系列と前記認識結果の
    音素記号列を構成する音素とを時間軸上で対応付けた音
    素セグメンテーション結果を出力するセグメンテーショ
    ン手段と、 前記音素セグメンテーション結果の各音素区間ごとに前
    記全ての音素モデルと照合を行ない、(a)各音素区間の
    当該音素モデルの尤度、(b)前記当該音素モデルの尤度
    と当該音素モデル以外での尤度の最高値との差分、とで
    構成される信頼度パラメータを計算して出力する信頼度
    パラメータ計算手段と、 正しい音素区間に対する前記信頼度パラメータの統計分
    布をモデル化した正解音素区間尤度統計モデルと、 誤った音素区間に対する前記信頼度パラメータの統計分
    布をモデル化した不正解音素区間尤度統計モデルと、 前記信頼度パラメータ計算手段の出力である認識結果の
    音素記号列の信頼度パラメータを入力として各音素区間
    毎に前記正解音素区間尤度統計モデルと不正解音素区間
    尤度統計モデルとの尤度差を求めて各音素区間の信頼度
    を算出し、前記各音素の信頼度の和をとることによって
    前記認識結果の音素記号列全体の信頼度を求め、予め設
    定された閾値と前記音素記号列全体の信頼度との比較に
    よってリジェクトを行なう検証手段と、 この検証手段によって前記認識結果の音素記号列がリジ
    ェクトされなかった場合に前記認識結果の音素記号列を
    出力する結果出力手段と、 を備えたことを特徴とする音声認識装置。
  2. 【請求項2】 前記検証手段において、前記各音素の信
    頼度の和をとる際に前記正解音素区間尤度統計モデルと
    不正解音素区間尤度統計モデルとの尤度差が正の値の音
    素では、前記尤度差の値を0に置き換えて和をとること
    を特徴とする請求項1に記載の音声認識装置。
  3. 【請求項3】 前記検証手段において、前記認識結果の
    音素記号列全体の信頼度として、前記認識結果の音素記
    号列を構成する各音素の信頼度の和をとった後に、前記
    認識結果の音素記号列を構成する音素の数で除した値と
    することを特徴とする請求項1または2に記載の音声認
    識装置。
  4. 【請求項4】 入力音声信号を音響分析して特徴ベクト
    ルの時系列を出力する分析ステップと、 前記入力音声の特徴ベクトルの時系列と認識対象とする
    音声をモデル化した標準パタンモデルとの照合を行い、
    認識結果の音素記号列を出力する照合ステップと、 前記入力音声の特徴ベクトルの時系列と前記認識結果の
    音素記号列を構成する音素とを時間軸上で対応付けた音
    素セグメンテーション結果を出力するセグメンテーショ
    ンステップと、 前記音素セグメンテーション結果の各音素区間ごとに全
    ての音素をモデル化した音素モデルと照合を行ない、
    (a)各音素区間の当該音素モデルの尤度、(b)前記当該
    音素モデルの尤度と当該音素モデル以外での尤度の最高
    値との差分、とで構成される信頼度パラメータを計算し
    て出力する信頼度パラメータ計算ステップと、 前記信頼度パラメータ計算ステップの出力である認識結
    果の音素記号列の信頼度パラメータを入力として各音素
    区間毎に正しい音素区間に対する前記信頼度パラメータ
    の統計分布をモデル化した正解音素区間尤度統計モデル
    と、誤った音素区間に対する前記信頼度パラメータの統
    計分布をモデル化した不正解音素区間尤度統計モデルと
    の尤度差を求めて各音素区間の信頼度を算出し、前記各
    音素の信頼度の和をとることによって前記認識結果の音
    素記号列全体の信頼度を求め、予め設定された閾値と前
    記音素記号列全体の信頼度との比較によってリジェクト
    を行なう検証ステップと、 この検証ステップによって前記認識結果の音素記号列が
    リジェクトされなかった場合に前記認識結果の音素記号
    列を出力する結果出力ステップと、 を備えたことを特徴とする音声認識方法。
  5. 【請求項5】 前記検証ステップにおいて、前記各音素
    の信頼度の和をとる際に前記正解音素区間尤度統計モデ
    ルと不正解音素区間尤度統計モデルとの尤度差が正の値
    の音素では、前記尤度差の値を0に置き換えて和をとる
    ことを特徴とする請求項4に記載の音声認識方法。
  6. 【請求項6】 前記検証ステップにおいて、前記認識結
    果の音素記号列全体の信頼度として、前記認識結果の音
    素記号列を構成する各音素の信頼度の和をとった後に、
    前記認識結果の音素記号列を構成する音素の数で除した
    値とすることを特徴とする請求項4または5に記載の音
    声認識方法。
JP10053714A 1998-03-05 1998-03-05 音声認識装置およびその方法 Pending JPH11249688A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10053714A JPH11249688A (ja) 1998-03-05 1998-03-05 音声認識装置およびその方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10053714A JPH11249688A (ja) 1998-03-05 1998-03-05 音声認識装置およびその方法

Publications (1)

Publication Number Publication Date
JPH11249688A true JPH11249688A (ja) 1999-09-17

Family

ID=12950513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10053714A Pending JPH11249688A (ja) 1998-03-05 1998-03-05 音声認識装置およびその方法

Country Status (1)

Country Link
JP (1) JPH11249688A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002311991A (ja) * 2001-04-19 2002-10-25 Alpine Electronics Inc 音声認識方法
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP2011112963A (ja) * 2009-11-27 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
JP5447382B2 (ja) * 2008-08-27 2014-03-19 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
EP3425628A1 (en) 2017-07-05 2019-01-09 Panasonic Intellectual Property Management Co., Ltd. Voice recognition method, recording medium, voice recognition device, and robot

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002311991A (ja) * 2001-04-19 2002-10-25 Alpine Electronics Inc 音声認識方法
JP4565768B2 (ja) * 2001-04-19 2010-10-20 アルパイン株式会社 音声認識装置
WO2009147927A1 (ja) * 2008-06-06 2009-12-10 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JPWO2009147927A1 (ja) * 2008-06-06 2011-10-27 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP5467043B2 (ja) * 2008-06-06 2014-04-09 株式会社レイトロン 音声認識装置、音声認識方法および電子機器
JP5447382B2 (ja) * 2008-08-27 2014-03-19 日本電気株式会社 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP2011112963A (ja) * 2009-11-27 2011-06-09 Nippon Telegr & Teleph Corp <Ntt> 音声認識装置とその方法と、プログラム
EP3425628A1 (en) 2017-07-05 2019-01-09 Panasonic Intellectual Property Management Co., Ltd. Voice recognition method, recording medium, voice recognition device, and robot
US10650802B2 (en) 2017-07-05 2020-05-12 Panasonic Intellectual Property Management Co., Ltd. Voice recognition method, recording medium, voice recognition device, and robot

Similar Documents

Publication Publication Date Title
US7711560B2 (en) Speech recognition device and speech recognition method
US6134527A (en) Method of testing a vocabulary word being enrolled in a speech recognition system
US7324941B2 (en) Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these
JPS62231997A (ja) 音声認識システム及びその方法
JPH09127972A (ja) 連結数字の認識のための発声識別立証
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP4897040B2 (ja) 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
CN108806691B (zh) 语音识别方法及系统
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP2002358097A (ja) 音声認識装置
KR100930587B1 (ko) 혼동 행렬 기반 발화 검증 방법 및 장치
JPH11249688A (ja) 音声認識装置およびその方法
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
KR100609521B1 (ko) 음성 인식 시스템의 발화 검증 방법
WO2002029785A1 (en) Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm)
EP1414023B1 (en) Method for recognizing speech
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
JP2000250593A (ja) 話者認識装置及び方法
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
KR100669244B1 (ko) 음성인식 시스템에서의 svm 기반 멀티플 반모델을사용한 발화검증 장치 및 방법
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
KR20020045960A (ko) 음성인식에서 핵심어 검출 성능 개선 방법
KR100449912B1 (ko) 음성인식시스템의 핵심어 검출을 위한 후처리방법
JP4297349B2 (ja) 音声認識システム