JP2892004B2

JP2892004B2 - 単語音声認識装置

Info

Publication number: JP2892004B2
Application number: JP63018851A
Authority: JP
Inventors: 恒雄新田; 昭中山
Original assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Current assignee: Toshiba Corp; Toshiba Computer Engineering Corp
Priority date: 1988-01-29
Filing date: 1988-01-29
Publication date: 1999-05-17
Anticipated expiration: 2014-05-17
Also published as: JPH01193900A

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は入力音声単語を効率良く、しかも高精度に認
識することのできる単語音声認識装置に関する。

（従来の技術）音声認識の技術は、優れたマンマシン・インターフェ
ースを実現する上での重要な役割を担っている。この音
声認識においてその認識精度を高める上での重要な前処
理として音声区間検出があり、従来より種々研究・開発
されている。

この音声区間検出は、従来より専ら入力単語音声のパ
ワー時系列を求め、その音声パワーＰが所定の閾値T₁よ
り大きくなった時点を入力音声単語の始端Ｓとして検出
し、また音声始端検出後に上記音声パワーＰが所定の閾
値T₂より小さくなった時点をその入力音声単語の終端Ｅ
として検出して行なわれている。

ところがこのような音声区間検出では、その音声区間
が一意に決定されるので、例えば実際の音声区間の前後
に息洩れや舌打ちノイズ等が存在すると、これをも音声
区間の一部として検出してしまうと云う不具合がある。
また逆に音節の先頭や最終音声が無声化しやすい単語音
声の場合にあっては、その無声化音節部分のパワーＰが
極端に小さくなるので、この部分が検出音声区間から脱
落し易いと云う不具合がある。

このような音声区間の検出誤りは、その音声認識にお
いて致命的な誤認識の原因となり、最悪の場合には認識
リジェクトの要因ともなる。

そこで本発明者等は先に入力単語音声に対して複数の
始端候補（S₁，S₂，〜S_M）と、複数の終端候補（E₁，
E₂，〜E_N）とをそれぞれ求め、これにの各候補に対して
所定の規則に従って確率（f_s1，f_s2，〜f_sM），（f_e1，
f_e2，〜f_eN）を与える。そして上記始端候補（S₁，S₂，
〜S_M）と終端候補（E₁，E₂，〜E_N）とから求められる、
複数の音声区間候補（S_m，E_n）［但し、ｍ＝1,2,〜M,n
＝1,2,〜Ｎ］についての尤度L_mnを L_mn＝f_Sm×f_En として計算し、尤度L_mnの高い上位の複数の音声区間候
補について標準パターンとのマッチングをとり、入力単
語音声に対する認識結果を求める手法［単語境界仮説
法］を提唱した。

このような手法によれば音声区間の誤検出に対して相
当効果的に対処することが可能となる。

然し乍らその反面、上述した如く検出される複数の音
声区間候補の中には当然誤った音声区間が含まれてお
り、その音声区間候補での標準パターンとのマッチング
結果である類似度が、正しい音声区間と標準パターンと
の類似度より大きくなることがある。そしてこの場合に
は、誤った認識結果が求められることが否めない。

（発明が解決しようとする問題点）このように従来にあっては入力単語音声を効率良く、
且つ高精度に認識する上で種々の問題が残されている。

本発明はこのような事情を考慮してなされたもので、
その目的とするところは、音声区間の誤検出がされ易い
入力音声単語についても簡易に効率良く、しかも確実に
認識することのできる単語音声認識装置を提供すること
にある。

［発明の構成］（問題点を解決するための手段）本発明は、入力単語音声を音響分析してその特徴パラ
メータを求める音響分析部と、この音響分析部により求
められた特徴パラメータから対応する入力単語音声の音
声区間候補を複数求めると共に当該各音声区間候補の確
からしさを示す尤度を求め、その尤度をもとに音声区間
として確からしい１つ以上の音声区間候補を検出する単
語境界仮説生成部と、この単語境界仮説生成部にて検出
された音声区間候補毎に上記特徴パラメータを正規化し
て入力単語音声の特徴パターンを生成するリサンプル部
と、カテゴリ名が既知の種々の単語音声について、その
単語音声の正規の音声区間の特徴パターンが、その単語
音声のカテゴリ名と対応付けて標準パターンとして登録
されると共に、上記単語境界仮説生成部にて複数個の音
声区間が検出される頻度の高い単語音声については、当
該標準パターンに加えて、誤検出される頻度の高い音声
区間についての特徴パターンが補助標準パターンとして
登録される辞書と、上記リサンプル部により生成された
音声区間候補毎の入力単語音声の特徴パターンと上記辞
書に登録されている認識対象単語音声の標準パターンと
の類似度を計算すると共に、上記単語境界仮説生成部に
て複数個の音声区間候補が検出された場合には、上記特
徴パターンと上記辞書に登録されている認識対象単語音
声の補助標準パターンとの類似度も計算する類似度演算
部と、この類似度演算部の類似度演算結果に従って入力
単語音声に対する単語音声認識結果を求める認識結果出
力部とを備えたことを特徴とするものである。

（作用）本発明によれば、音声区間の誤検出がなされる頻度の
高い音声単語については単語境界仮説生成部により検出
される複数の音声区間候補に従い、正規の音声区間の標
準パターンと共に、誤検出される頻度の高い音声区間に
ついての音声パターンについても補助標準パターンとし
て辞書登録されているので、入力単語音声に対する音声
区間の誤検出が生じた場合であっても、上記補助標準パ
ターンとの照合によってその入力音声単語を精度良く認
識することが可能となる。

またこの補助標準パターンとの照合については、入力
単語音声について複数の音声区間候補が求められた場合
についてのみ実行されるので、音声区間が一意的にしか
求められない入力単語音声についてまでも補助標準パタ
ーンとの照合が行なわれる等の無駄がなく、徒にその処
理負担が増大して認識効率が低下する等の不具合を招来
する虞れもない。

（実施例）以下、図面を参照して本発明の一実施例につき説明す
る。

第１図は本発明の一実施例に係る単語音声認識装置の
概略構成図である。図において、１は入力音声を音響分
析してその特徴パラメータを求める音響分析部である。
この音響分析部１は音声区間検出に用いられる特徴量と
してその音声パワー時系列を求めると共に、認識辞書と
の照合に供される特徴量として、例えば周波数分析した
バンドパスフィルタ群出力を求めている。

単語境界仮説生成部２は上記音響分析部１で求められ
た入力音声の特徴パラメータに対して種々の音声区間検
出パラメータを適応的に設定し、前述したように複数の
音声区間候補を設定するものである。具体的には入力単
語音声に対して複数の始端候補（S₁，S₂，〜S_M）と複数
の終端候補（E₁，E₂，〜E_N）とをそれぞれ求め、これら
の各候補に対して所定の規則に従って確率（f_s1，f_s2，
〜f_sM），（f_e1，f_e2，〜f_eN）を与えて、複数の音声区
間候補（S_m，E_n）［但し、ｍ＝1,2,〜M,n＝1,2,〜Ｎ］
についての尤度L_mnを L_mn＝f_Sm×f_En としてそれぞれ計算し、これらの各音声区間候補（S_m，
E_n）についての尤度L_mnからその値の高い上位の複数の
音声区間候補を検出するものとなっている。

リサンプル部３はこのようにして求められた複数の音
声区間候補（S_m，E_n）について、前記音響分析部１にて
周波数分析して求められるバンドパスフィルタ群出力か
らなる特徴パラメータをそれぞれリサンプンし、各音声
区間候補における入力音声の正規化された特徴パターン
をそれぞれ求めている。尚、尤度の高い音声区間候補が
１つしか求められない場合には、その音声区間候補につ
いてのみリサンプル処理が行われ、この音声区間につい
ての正規化された特徴パターンだけが求められる。

しかして類似度演算部４は上述した如く求められる入
力単語音声の特徴パターンと標準パターン辞書５に予め
登録されている認識対象単語の各標準パターンとの類似
度をそれぞれ計算している。尚、標準パターン辞書５に
登録される認識対象単語の標準パターンは、予めカテゴ
リ名が既知の入力音声を前記音響分析部１にて分析し、
その音声区間検出結果に従って該入力音声単語の正しい
特徴パターンを前記単語境界仮説生成部２およびリサン
プル部３を用いて抽出し、標準パターン作成部６の制御
の下でその単語音声のカテゴリ名に対応付けて上記標準
パターンを標準パターン辞書５に登録することによって
行なわれる。また、類似度演算部４における類似度演算
は、従来より種々提唱されている複合類似法や混合類似
度法等を用いて行なわれる。

認識結果出力部７はこのような標準パターン辞書５を
参照して計算される入力音声単語の特徴パターンと認識
対象単語の各標準パターンとの類似度から、類似度の高
い所定数の認識対象単語のカテゴリ名とそれを得た類似
度を求め、その類似度が上位の所定数の認識対象単語の
カテゴリ名を認識候補として出力したり、或いは類似度
が最上位の認識対象単語のカテゴリ名を前記入力単語音
声に対する認識結果として出力する。

ここで本装置が特徴とするところは、音声区間の誤検
出の頻度が高い入力音声については、予め前記標準パタ
ーン作成部６の制御の下で誤検出の頻度の高い音声区間
についての特徴パターンを求めておき、これを入力音声
の正しい音声区間から求められる標準パターンに加えて
補助標準パターンとして標準パターン辞書５に登録して
おくようにした点にある。

即ち、音声区間の誤検出が生じ易い音声単語につい
て、その誤検出され易い音声区間の特徴パターンを正し
い音声区間での特徴パターンと共に予め求めておき、そ
の単語音声カテゴリについて標準パターンである第１の
辞書、および誤検出の頻度の高い補助標準パターンであ
る第２の辞書としてそれぞれ辞書登録しておくようにし
た点を特徴としている。尚、音声区間の誤検出の虞れの
ない（頻度の少ない）音声単語については、上記第２の
辞書（補助標準パターン）を準備する必要がないことは
云うまでもない。

しかして本装置における今１つの特徴点は、入力音声
単語について前記単語境界仮説生成部２にて確からしい
複数の音声区間候補が求められたとき、例えばその第１
音声区間候補と第２音声区間候補について、類似度演算
部４にて前記標準パターン辞書５に登録された補助標準
パターン（第２の辞書）についてもそれぞれ類似度演算
を実行し、それらの類似度結果を総合判定して認識結果
を求めるようにした点にある。

つまり入力音声単語についてその音声区間が一意的に
求められた場合には、その音声区間について求められる
特徴パターンについて、従来装置と同様にして標準パタ
ーンの間での類似度をそれぞれ演算して認識結果を求め
る。しかし入力音声単語について前述した単語境界仮説
生成部２にて複数の音声区間候補が求められたときに
は、これらの各音声区間候補についてそれぞれ入力音声
の特徴パラメータを正規化して求められる複数の特徴パ
ターンについて、前述した標準パターン（第１の辞書）
に加えて予め準備された補助標準パターン（第２の辞
書）についても類似度演算を行い、これらの類似度演算
結果を総合判定する。そして補助標準パターン（第２の
辞書）についての類似度結果が高い場合には、入力単語
音声の音声区間が誤検出されているとして判定し、上記
補助標準パターンを得る認識対象単語のカテゴリ名を、
この時点で直接的に認識結果（認識候補）として求める
ものとなっている。

かくしてこのように構成された本装置によれば、音声
区間が誤検出される頻度の高い音声単語については、そ
の誤検出される頻度の高い音声区間についての特徴パタ
ーンが正しい音声区間での標準パターンに加えて補助標
準パターンとして辞書登録されているので、入力単語音
声について複数の音声区間候補が求められた場合、上記
補助標準パターンを効果的に用いてその入力単語音声を
正しく認識することが可能となる。しかも誤検出された
音声区間の特徴パターンを有効に用いて、その入力音声
単語を効果的に認識することができる。

例えば（０）〜（９）の数字音声を認識対象とする場
合、単語境界仮説法によって検出される複数の音声区間
候補の内、誤検出の頻度の高い音声区間の例として第２
図および第３図に示すようなものが挙げられる。

第２図は数字（１）の単語音声/it∫i/の特徴パター
ンを示すもので、その/i/の部分が１つの音声区間候補
として誤検出される可能性が高いことを示している。こ
の場合には、誤検出された/i/の部分の特徴パターンが
（２）なる数字音声/ni/の標準パターンとの類似度が高
くなり、単語音声/it∫i/が数字音声（２）として誤認
識される可能性が高くなる。同様にして（６）なる数字
音声/roku/についても、その音声区間が/ro/の部分につ
いてのみ検出され、数字音声/go/;（５）として誤認識
される可能性が高くなる。

第３図は数字（８）の単語音声/hat∫i/の特徴パター
ンを示すもので、無声化して脱落し易い/ha/の部分が欠
如して、/t∫i/の部分だけが音声区間候補として誤検出
される可能性が高いことを示している。この場合には、
誤検出された/t∫i/の部分の特徴パターンから数字音声
/it∫i/;（１）として誤認識される可能性が高くなる。

このような音声区間の誤検出に対して本装置では、数
字（１）の単語音声について、その正しい音声区間の/i
t∫i/なる標準パターンと共に、誤検出の可能性の高い
音声区間の/i/なる特徴パターンも補助標準パターンと
して辞書登録されているので、この補助標準パターンに
対する類似度を他のカテゴリの標準パターンに対する類
似度よりも高くすることができる。この結果、音声区間
の誤検出が生じた場合であっても、これを高精度に認識
することが可能となる。

また数字（２）の音声/ni/が与えられるような場合に
は、ここでは音声区間の誤検出の虞れが殆んどなく、そ
の音声区間が一意的に求められるので、第２の辞書であ
る数字（１）の補助標準パターン/i/との照合が行なわ
れることがない。従ってその入力単語音声が誤認識され
る虞れも生じない。

従って本装置によれば音声区間が誤検出される可能性
の高い入力音声に効果的に対処して非常に効率良く、且
つ精度良く入力音声を認識することが可能となる。

尚、本発明は上述した実施例に限定されるものではな
い。例えば補助標準パターンを第２の辞書として登録す
る音声単語については、入力音声に対する認識結果の履
歴等からその誤検出の発生頻度を調べ、その頻度に応じ
て定めれば良いものである。またここでは数字音声に付
いての音声区間の誤検出について例示したが、認識対象
単語としては特に上記数字音声に限られないことも勿論
のことである。また補助標準パターンとしては１つの標
準パターンについて複数個準備されるものであっても良
い。その他、本発明はその要旨を逸脱しない範囲で種々
変形して実施することができる。

［発明の効果］以上説明したように本発明によれば、音声区間の誤検
出の頻度の高い音声単語に効果的に対処してその入力音
声を効率良く、しかも精度良く認識することができ、そ
の認識効率・認識精度の向上を図り得る等の実用上多大
なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る単語音声認識装置の概
略構成図、第２図および第３図はそれぞれ実施例装置の
作用とその効果を説明する為の図である。１…音響分析部、２…単語境界仮説生成部、３…リサン
プル部、４…類似度演算部、５…標準パターン辞書、６
…標準パターン作成部、７…認識結果出力部。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭58−52698（ＪＰ，Ａ) 特開昭59−36300（ＪＰ，Ａ) 特開昭61−99196（ＪＰ，Ａ) 特開昭62−217295（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁶，ＤＢ名) G10L 3/00 - 9/18 ＪＯＩＳファイル（ＪＩＣＳＴ)

Claims

(57)【特許請求の範囲】

【請求項１】入力単語音声を音響分析してその特徴パラ
メータを求める音響分析部と、前記音響分析部により求められた特徴パラメータから対
応する前記入力単語音声の音声区間候補を複数求めると
共に当該各音声区間候補の確からしさを示す尤度を求
め、その尤度をもとに音声区間として確からしい１つ以
上の音声区間候補を検出する単語境界仮説生成部と、前記単語境界仮説生成部にて検出された音声区間候補毎
に前記特徴パラメータを正規化して前記入力単語音声の
特徴パターンを生成するリサンプル部と、カテゴリ名が既知の種々の単語音声について、その単語
音声の正規の音声区間の特徴パターンが、その単語音声
のカテゴリ名と対応付けて標準パターンとして登録され
ると共に、前記単語境界仮説生成部にて複数個の音声区
間が検出される頻度の高い単語音声については、当該標
準パターンに加えて、誤検出される頻度の高い音声区間
についての特徴パターンが補助標準パターンとして登録
される辞書と、前記リサンプル部により生成された音声区間候補毎の入
力単語音声の特徴パターンと前記辞書に登録されている
認識対象単語音声の標準パターンとの類似度を計算する
と共に、前記単語境界仮説生成部にて複数個の音声区間
候補が検出された場合には、前記特徴パターンと前記辞
書に登録されている認識対象単語音声の補助標準パター
ンとの類似度も計算する類似度演算部と、前記類似度演算部の類似度演算結果に従って前記人力単
語音声に対する単語音声認識結果を求める認識結果出力
部とを具備することを特徴とする単語音声認識装置。