JP2892004B2 - 単語音声認識装置 - Google Patents

単語音声認識装置

Info

Publication number
JP2892004B2
JP2892004B2 JP63018851A JP1885188A JP2892004B2 JP 2892004 B2 JP2892004 B2 JP 2892004B2 JP 63018851 A JP63018851 A JP 63018851A JP 1885188 A JP1885188 A JP 1885188A JP 2892004 B2 JP2892004 B2 JP 2892004B2
Authority
JP
Japan
Prior art keywords
voice
word
pattern
voice section
standard pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63018851A
Other languages
English (en)
Other versions
JPH01193900A (ja
Inventor
恒雄 新田
昭 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP63018851A priority Critical patent/JP2892004B2/ja
Publication of JPH01193900A publication Critical patent/JPH01193900A/ja
Application granted granted Critical
Publication of JP2892004B2 publication Critical patent/JP2892004B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は入力音声単語を効率良く、しかも高精度に認
識することのできる単語音声認識装置に関する。
(従来の技術) 音声認識の技術は、優れたマンマシン・インターフェ
ースを実現する上での重要な役割を担っている。この音
声認識においてその認識精度を高める上での重要な前処
理として音声区間検出があり、従来より種々研究・開発
されている。
この音声区間検出は、従来より専ら入力単語音声のパ
ワー時系列を求め、その音声パワーPが所定の閾値T1
り大きくなった時点を入力音声単語の始端Sとして検出
し、また音声始端検出後に上記音声パワーPが所定の閾
値T2より小さくなった時点をその入力音声単語の終端E
として検出して行なわれている。
ところがこのような音声区間検出では、その音声区間
が一意に決定されるので、例えば実際の音声区間の前後
に息洩れや舌打ちノイズ等が存在すると、これをも音声
区間の一部として検出してしまうと云う不具合がある。
また逆に音節の先頭や最終音声が無声化しやすい単語音
声の場合にあっては、その無声化音節部分のパワーPが
極端に小さくなるので、この部分が検出音声区間から脱
落し易いと云う不具合がある。
このような音声区間の検出誤りは、その音声認識にお
いて致命的な誤認識の原因となり、最悪の場合には認識
リジェクトの要因ともなる。
そこで本発明者等は先に入力単語音声に対して複数の
始端候補(S1,S2,〜SM)と、複数の終端候補(E1
E2,〜EN)とをそれぞれ求め、これにの各候補に対して
所定の規則に従って確率(fs1,fs2,〜fsM),(fe1
fe2,〜feN)を与える。そして上記始端候補(S1,S2
〜SM)と終端候補(E1,E2,〜EN)とから求められる、
複数の音声区間候補(Sm,En)[但し、m=1,2,〜M,n
=1,2,〜N]についての尤度Lmnを Lmn=fSm×fEn として計算し、尤度Lmnの高い上位の複数の音声区間候
補について標準パターンとのマッチングをとり、入力単
語音声に対する認識結果を求める手法[単語境界仮説
法]を提唱した。
このような手法によれば音声区間の誤検出に対して相
当効果的に対処することが可能となる。
然し乍らその反面、上述した如く検出される複数の音
声区間候補の中には当然誤った音声区間が含まれてお
り、その音声区間候補での標準パターンとのマッチング
結果である類似度が、正しい音声区間と標準パターンと
の類似度より大きくなることがある。そしてこの場合に
は、誤った認識結果が求められることが否めない。
(発明が解決しようとする問題点) このように従来にあっては入力単語音声を効率良く、
且つ高精度に認識する上で種々の問題が残されている。
本発明はこのような事情を考慮してなされたもので、
その目的とするところは、音声区間の誤検出がされ易い
入力音声単語についても簡易に効率良く、しかも確実に
認識することのできる単語音声認識装置を提供すること
にある。
[発明の構成] (問題点を解決するための手段) 本発明は、入力単語音声を音響分析してその特徴パラ
メータを求める音響分析部と、この音響分析部により求
められた特徴パラメータから対応する入力単語音声の音
声区間候補を複数求めると共に当該各音声区間候補の確
からしさを示す尤度を求め、その尤度をもとに音声区間
として確からしい1つ以上の音声区間候補を検出する単
語境界仮説生成部と、この単語境界仮説生成部にて検出
された音声区間候補毎に上記特徴パラメータを正規化し
て入力単語音声の特徴パターンを生成するリサンプル部
と、カテゴリ名が既知の種々の単語音声について、その
単語音声の正規の音声区間の特徴パターンが、その単語
音声のカテゴリ名と対応付けて標準パターンとして登録
されると共に、上記単語境界仮説生成部にて複数個の音
声区間が検出される頻度の高い単語音声については、当
該標準パターンに加えて、誤検出される頻度の高い音声
区間についての特徴パターンが補助標準パターンとして
登録される辞書と、上記リサンプル部により生成された
音声区間候補毎の入力単語音声の特徴パターンと上記辞
書に登録されている認識対象単語音声の標準パターンと
の類似度を計算すると共に、上記単語境界仮説生成部に
て複数個の音声区間候補が検出された場合には、上記特
徴パターンと上記辞書に登録されている認識対象単語音
声の補助標準パターンとの類似度も計算する類似度演算
部と、この類似度演算部の類似度演算結果に従って入力
単語音声に対する単語音声認識結果を求める認識結果出
力部とを備えたことを特徴とするものである。
(作用) 本発明によれば、音声区間の誤検出がなされる頻度の
高い音声単語については単語境界仮説生成部により検出
される複数の音声区間候補に従い、正規の音声区間の標
準パターンと共に、誤検出される頻度の高い音声区間に
ついての音声パターンについても補助標準パターンとし
て辞書登録されているので、入力単語音声に対する音声
区間の誤検出が生じた場合であっても、上記補助標準パ
ターンとの照合によってその入力音声単語を精度良く認
識することが可能となる。
またこの補助標準パターンとの照合については、入力
単語音声について複数の音声区間候補が求められた場合
についてのみ実行されるので、音声区間が一意的にしか
求められない入力単語音声についてまでも補助標準パタ
ーンとの照合が行なわれる等の無駄がなく、徒にその処
理負担が増大して認識効率が低下する等の不具合を招来
する虞れもない。
(実施例) 以下、図面を参照して本発明の一実施例につき説明す
る。
第1図は本発明の一実施例に係る単語音声認識装置の
概略構成図である。図において、1は入力音声を音響分
析してその特徴パラメータを求める音響分析部である。
この音響分析部1は音声区間検出に用いられる特徴量と
してその音声パワー時系列を求めると共に、認識辞書と
の照合に供される特徴量として、例えば周波数分析した
バンドパスフィルタ群出力を求めている。
単語境界仮説生成部2は上記音響分析部1で求められ
た入力音声の特徴パラメータに対して種々の音声区間検
出パラメータを適応的に設定し、前述したように複数の
音声区間候補を設定するものである。具体的には入力単
語音声に対して複数の始端候補(S1,S2,〜SM)と複数
の終端候補(E1,E2,〜EN)とをそれぞれ求め、これら
の各候補に対して所定の規則に従って確率(fs1,fs2
〜fsM),(fe1,fe2,〜feN)を与えて、複数の音声区
間候補(Sm,En)[但し、m=1,2,〜M,n=1,2,〜N]
についての尤度Lmnを Lmn=fSm×fEn としてそれぞれ計算し、これらの各音声区間候補(Sm
En)についての尤度Lmnからその値の高い上位の複数の
音声区間候補を検出するものとなっている。
リサンプル部3はこのようにして求められた複数の音
声区間候補(Sm,En)について、前記音響分析部1にて
周波数分析して求められるバンドパスフィルタ群出力か
らなる特徴パラメータをそれぞれリサンプンし、各音声
区間候補における入力音声の正規化された特徴パターン
をそれぞれ求めている。尚、尤度の高い音声区間候補が
1つしか求められない場合には、その音声区間候補につ
いてのみリサンプル処理が行われ、この音声区間につい
ての正規化された特徴パターンだけが求められる。
しかして類似度演算部4は上述した如く求められる入
力単語音声の特徴パターンと標準パターン辞書5に予め
登録されている認識対象単語の各標準パターンとの類似
度をそれぞれ計算している。尚、標準パターン辞書5に
登録される認識対象単語の標準パターンは、予めカテゴ
リ名が既知の入力音声を前記音響分析部1にて分析し、
その音声区間検出結果に従って該入力音声単語の正しい
特徴パターンを前記単語境界仮説生成部2およびリサン
プル部3を用いて抽出し、標準パターン作成部6の制御
の下でその単語音声のカテゴリ名に対応付けて上記標準
パターンを標準パターン辞書5に登録することによって
行なわれる。また、類似度演算部4における類似度演算
は、従来より種々提唱されている複合類似法や混合類似
度法等を用いて行なわれる。
認識結果出力部7はこのような標準パターン辞書5を
参照して計算される入力音声単語の特徴パターンと認識
対象単語の各標準パターンとの類似度から、類似度の高
い所定数の認識対象単語のカテゴリ名とそれを得た類似
度を求め、その類似度が上位の所定数の認識対象単語の
カテゴリ名を認識候補として出力したり、或いは類似度
が最上位の認識対象単語のカテゴリ名を前記入力単語音
声に対する認識結果として出力する。
ここで本装置が特徴とするところは、音声区間の誤検
出の頻度が高い入力音声については、予め前記標準パタ
ーン作成部6の制御の下で誤検出の頻度の高い音声区間
についての特徴パターンを求めておき、これを入力音声
の正しい音声区間から求められる標準パターンに加えて
補助標準パターンとして標準パターン辞書5に登録して
おくようにした点にある。
即ち、音声区間の誤検出が生じ易い音声単語につい
て、その誤検出され易い音声区間の特徴パターンを正し
い音声区間での特徴パターンと共に予め求めておき、そ
の単語音声カテゴリについて標準パターンである第1の
辞書、および誤検出の頻度の高い補助標準パターンであ
る第2の辞書としてそれぞれ辞書登録しておくようにし
た点を特徴としている。尚、音声区間の誤検出の虞れの
ない(頻度の少ない)音声単語については、上記第2の
辞書(補助標準パターン)を準備する必要がないことは
云うまでもない。
しかして本装置における今1つの特徴点は、入力音声
単語について前記単語境界仮説生成部2にて確からしい
複数の音声区間候補が求められたとき、例えばその第1
音声区間候補と第2音声区間候補について、類似度演算
部4にて前記標準パターン辞書5に登録された補助標準
パターン(第2の辞書)についてもそれぞれ類似度演算
を実行し、それらの類似度結果を総合判定して認識結果
を求めるようにした点にある。
つまり入力音声単語についてその音声区間が一意的に
求められた場合には、その音声区間について求められる
特徴パターンについて、従来装置と同様にして標準パタ
ーンの間での類似度をそれぞれ演算して認識結果を求め
る。しかし入力音声単語について前述した単語境界仮説
生成部2にて複数の音声区間候補が求められたときに
は、これらの各音声区間候補についてそれぞれ入力音声
の特徴パラメータを正規化して求められる複数の特徴パ
ターンについて、前述した標準パターン(第1の辞書)
に加えて予め準備された補助標準パターン(第2の辞
書)についても類似度演算を行い、これらの類似度演算
結果を総合判定する。そして補助標準パターン(第2の
辞書)についての類似度結果が高い場合には、入力単語
音声の音声区間が誤検出されているとして判定し、上記
補助標準パターンを得る認識対象単語のカテゴリ名を、
この時点で直接的に認識結果(認識候補)として求める
ものとなっている。
かくしてこのように構成された本装置によれば、音声
区間が誤検出される頻度の高い音声単語については、そ
の誤検出される頻度の高い音声区間についての特徴パタ
ーンが正しい音声区間での標準パターンに加えて補助標
準パターンとして辞書登録されているので、入力単語音
声について複数の音声区間候補が求められた場合、上記
補助標準パターンを効果的に用いてその入力単語音声を
正しく認識することが可能となる。しかも誤検出された
音声区間の特徴パターンを有効に用いて、その入力音声
単語を効果的に認識することができる。
例えば(0)〜(9)の数字音声を認識対象とする場
合、単語境界仮説法によって検出される複数の音声区間
候補の内、誤検出の頻度の高い音声区間の例として第2
図および第3図に示すようなものが挙げられる。
第2図は数字(1)の単語音声/it∫i/の特徴パター
ンを示すもので、その/i/の部分が1つの音声区間候補
として誤検出される可能性が高いことを示している。こ
の場合には、誤検出された/i/の部分の特徴パターンが
(2)なる数字音声/ni/の標準パターンとの類似度が高
くなり、単語音声/it∫i/が数字音声(2)として誤認
識される可能性が高くなる。同様にして(6)なる数字
音声/roku/についても、その音声区間が/ro/の部分につ
いてのみ検出され、数字音声/go/;(5)として誤認識
される可能性が高くなる。
第3図は数字(8)の単語音声/hat∫i/の特徴パター
ンを示すもので、無声化して脱落し易い/ha/の部分が欠
如して、/t∫i/の部分だけが音声区間候補として誤検出
される可能性が高いことを示している。この場合には、
誤検出された/t∫i/の部分の特徴パターンから数字音声
/it∫i/;(1)として誤認識される可能性が高くなる。
このような音声区間の誤検出に対して本装置では、数
字(1)の単語音声について、その正しい音声区間の/i
t∫i/なる標準パターンと共に、誤検出の可能性の高い
音声区間の/i/なる特徴パターンも補助標準パターンと
して辞書登録されているので、この補助標準パターンに
対する類似度を他のカテゴリの標準パターンに対する類
似度よりも高くすることができる。この結果、音声区間
の誤検出が生じた場合であっても、これを高精度に認識
することが可能となる。
また数字(2)の音声/ni/が与えられるような場合に
は、ここでは音声区間の誤検出の虞れが殆んどなく、そ
の音声区間が一意的に求められるので、第2の辞書であ
る数字(1)の補助標準パターン/i/との照合が行なわ
れることがない。従ってその入力単語音声が誤認識され
る虞れも生じない。
従って本装置によれば音声区間が誤検出される可能性
の高い入力音声に効果的に対処して非常に効率良く、且
つ精度良く入力音声を認識することが可能となる。
尚、本発明は上述した実施例に限定されるものではな
い。例えば補助標準パターンを第2の辞書として登録す
る音声単語については、入力音声に対する認識結果の履
歴等からその誤検出の発生頻度を調べ、その頻度に応じ
て定めれば良いものである。またここでは数字音声に付
いての音声区間の誤検出について例示したが、認識対象
単語としては特に上記数字音声に限られないことも勿論
のことである。また補助標準パターンとしては1つの標
準パターンについて複数個準備されるものであっても良
い。その他、本発明はその要旨を逸脱しない範囲で種々
変形して実施することができる。
[発明の効果] 以上説明したように本発明によれば、音声区間の誤検
出の頻度の高い音声単語に効果的に対処してその入力音
声を効率良く、しかも精度良く認識することができ、そ
の認識効率・認識精度の向上を図り得る等の実用上多大
なる効果が奏せられる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る単語音声認識装置の概
略構成図、第2図および第3図はそれぞれ実施例装置の
作用とその効果を説明する為の図である。 1…音響分析部、2…単語境界仮説生成部、3…リサン
プル部、4…類似度演算部、5…標準パターン辞書、6
…標準パターン作成部、7…認識結果出力部。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭58−52698(JP,A) 特開 昭59−36300(JP,A) 特開 昭61−99196(JP,A) 特開 昭62−217295(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 JOISファイル(JICST)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力単語音声を音響分析してその特徴パラ
    メータを求める音響分析部と、 前記音響分析部により求められた特徴パラメータから対
    応する前記入力単語音声の音声区間候補を複数求めると
    共に当該各音声区間候補の確からしさを示す尤度を求
    め、その尤度をもとに音声区間として確からしい1つ以
    上の音声区間候補を検出する単語境界仮説生成部と、 前記単語境界仮説生成部にて検出された音声区間候補毎
    に前記特徴パラメータを正規化して前記入力単語音声の
    特徴パターンを生成するリサンプル部と、 カテゴリ名が既知の種々の単語音声について、その単語
    音声の正規の音声区間の特徴パターンが、その単語音声
    のカテゴリ名と対応付けて標準パターンとして登録され
    ると共に、前記単語境界仮説生成部にて複数個の音声区
    間が検出される頻度の高い単語音声については、当該標
    準パターンに加えて、誤検出される頻度の高い音声区間
    についての特徴パターンが補助標準パターンとして登録
    される辞書と、 前記リサンプル部により生成された音声区間候補毎の入
    力単語音声の特徴パターンと前記辞書に登録されている
    認識対象単語音声の標準パターンとの類似度を計算する
    と共に、前記単語境界仮説生成部にて複数個の音声区間
    候補が検出された場合には、前記特徴パターンと前記辞
    書に登録されている認識対象単語音声の補助標準パター
    ンとの類似度も計算する類似度演算部と、 前記類似度演算部の類似度演算結果に従って前記人力単
    語音声に対する単語音声認識結果を求める認識結果出力
    部とを具備することを特徴とする単語音声認識装置。
JP63018851A 1988-01-29 1988-01-29 単語音声認識装置 Expired - Lifetime JP2892004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63018851A JP2892004B2 (ja) 1988-01-29 1988-01-29 単語音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63018851A JP2892004B2 (ja) 1988-01-29 1988-01-29 単語音声認識装置

Publications (2)

Publication Number Publication Date
JPH01193900A JPH01193900A (ja) 1989-08-03
JP2892004B2 true JP2892004B2 (ja) 1999-05-17

Family

ID=11983052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63018851A Expired - Lifetime JP2892004B2 (ja) 1988-01-29 1988-01-29 単語音声認識装置

Country Status (1)

Country Link
JP (1) JP2892004B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5852698A (ja) * 1981-09-24 1983-03-28 富士通株式会社 音声認識処理システム
DE3525979A1 (de) * 1985-07-20 1987-01-29 Philips Patentverwaltung Verfahren zur herstellung von lichtleitfasern

Also Published As

Publication number Publication date
JPH01193900A (ja) 1989-08-03

Similar Documents

Publication Publication Date Title
EP0237934B1 (en) Speech recognition system
JP3045510B2 (ja) 音声認識処理装置
JPH0352640B2 (ja)
EP0411290A2 (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US4769844A (en) Voice recognition system having a check scheme for registration of reference data
JP2996019B2 (ja) 音声認識装置
JP2892004B2 (ja) 単語音声認識装置
JPH07219579A (ja) 音声認識装置
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP2853418B2 (ja) 音声認識方法
JP3114757B2 (ja) 音声認識装置
JPS59121099A (ja) 音声区間検出装置
JP4604424B2 (ja) 音声認識装置及び方法、並びにプログラム
JPH04166900A (ja) 音声認識装置
JP2844592B2 (ja) 離散単語音声認識装置
JPH067346B2 (ja) 音声認識装置
JPH02298996A (ja) 単語音声認識装置
JPH0316038B2 (ja)
JPH0519784A (ja) 音声認識装置
JPH08254991A (ja) パターン認識装置
JPH0554678B2 (ja)
JPH06110491A (ja) 音声認識装置
JPH03174600A (ja) 音声認識方式
JPH05165491A (ja) 音声認識装置
JPH0667695A (ja) 音声認識方法および音声認識装置