JP3011421B2

JP3011421B2 - 音声認識装置

Info

Publication number: JP3011421B2
Application number: JP1255270A
Authority: JP
Inventors: 博史金澤; 洋一竹林; 宏之坪井
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-10-02
Filing date: 1989-10-02
Publication date: 2000-02-21
Anticipated expiration: 2015-02-21
Also published as: JPH03118600A

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は音声パターンの認識処理に用いられる複数の
認識対象カテゴリについての辞書パターンを効果的に学
習し得る学習機能を備えた音声認識装置に関する。

（従来の技術）音声データの認識処理は、基本的には入力音声エネル
ギーの時間的な変化等に着目してその始終端検出を行
い、その始終端間の音声特徴パラメータを抽出して認識
辞書に予め登録されている複数の認識対象カテゴリにつ
いての辞書パターンとの間で照合することによりなされ
る。このパターン照合の手法としては、DPマッチング法
やHMM（Hidden Marcov Model）法、複合類似度法（部分
空間法）等が用いられる。

このような音声パターンの照合による音声認識にあっ
ては、入力音声の始終端を如何に精度良く検出するか、
また認識辞書を如何に高性能化しておくかが、その認識
性能（認識率）を高める上で重要な課題となる。

ところで入力音声データの認識処理に用いられる認識
辞書は、専らクリーンな環境下で収集された音声データ
に基づいて作成されることが多い。これに対して認識対
象とする音声データは、一般的に種々の雑音環境下で入
力されることが多く、そのS/Nによって認識性能が左右
され易い。例えば雑音に起因して入力音声データの始終
端検出に誤りが生じたり、また認識辞書との類似度が低
くなって誤認識されることが多くなる。

そこで認識辞書を作成する際、例えば第９図（ａ）に
示すようにクリーンな環境下で収集された音声データＳ
に、第９図（ｂ）に示すような雑音データＮを人工的に
加えて雑音成分が重畳した学習用音声データＡを生成
し、この学習用音声データＡを用いて認識辞書の学習を
行うことにより、その高性能化を図ることが考えられて
いる。

しかし雑音を重畳した音声の始終端検出は、上述した
音声エネルギーの時間的な変化等を用いても、雑音のエ
ネルギーの時間的な変化を受けるので、これを高精度に
検出ることは非常に困難であった。特に第９図（ｃ）に
示すようにその音声区間を外れた位置に特異なピークＰ
を持っているような場合には、その始終端検出自体に誤
りが生じ易い等の不具合が生じた。

そこで本発明者等は、特願平１−57978号にて入力音
声データの始終端を検出することなく、始終端非固定の
ままで入力音声の特徴パラメータの系列を連続的にパタ
ーンマッチングしてその類似度の時系列を求め、この類
似度の時系列を判定し、学習対象カテゴリの辞書との間
で最大類似度を与えた入力音声の特徴ベクトルを学習用
音声データとして抽出する手法を提唱した。

即ち、この連続パターンマッチングの手法は、所謂ワ
ードスポッティングと称されるもので、第10図に例示す
るように入力音声の特徴パラメータの系列から、その特
徴パラメータを求めた各サンプル・タイミングをそれぞ
れ基準とする所定の次元数の特徴ベクトルを順次連続的
に抽出し、これらの各特徴ベクトルと認識辞書との類似
度をそれぞれ求めていく。そして各特徴ベクトルについ
て求められた類似度値を相互に比較し、最大類似度を得
た認識対象カテゴリを前記入力音声に対する認識結果と
して求めるものである。また学習対象カテゴリの辞書と
の間で最大類似度をとる特徴ベクトルを、その始終端が
正しく切り出された音声区間のものであるとして判定
し、その特徴ベクトルを認識辞書の学習用として抽出す
るものである。

このようなワードスポッティングによる音声認識処理
によれば、連続的に入力音声の特徴ベクトルを抽出して
その類似度を逐次求めることが必要なので、演算処理量
が増えるものの始終端の検出誤りに起因する問題がなく
なり、その分、認識性能を高めることが可能となる。ま
た始終端検出を行う場合に比較して認識辞書の学習に用
いる特徴ベクトルをある程度正しく切り出すことができ
るので、認識辞書の性能を効果的に高めることが可能と
なる。

然し乍ら、音声データＳに加える雑音データＮが第９
図（ｃ）に示すように、その音声区間を外れた位置に特
異なピークＰを持っているような場合、偶然的にそのピ
ークノイズ部分を含む区間での特徴ベクトルに対する類
似度が高くなることがある。従ってこのような場合に
は、誤った区間の特徴ベクトルが認識辞書学習用として
抽出されることになり、認識辞書の性能に悪影響が及
ぶ。そしてその認識辞書性能が劣化する等の不具合が生
じた。

（発明が解決しようとする課題）このように音声データの始終端検出を行うことなく、
ワードスポッティングによる連続パターンマッチングに
より認識辞書の学習に用いる特徴ベクトルを抽出する場
合であっても、非定常な雑音や特異な雑音が音声データ
に加わった場合には、類似度に基づいて抽出される特徴
ベクトルの始端点および終端点が実際の音声データの始
端点および終端点から大幅にずれることがある。この結
果、学習用特徴ベクトルの抽出精度が劣化し、更には認
識辞書の性能劣化を招来すると要因となっている。

本発明はこのような事情を考慮してなされたもので、
その目的とするところは、入力音声パターンに非定常な
雑音や特異な雑音が混入している場合であっても、その
始終端の検出誤りを防いでその特徴ベクトルを高精度に
抽出し、認識辞書の性能を効果的に高めて認識性能を高
めることのできる実用性の高い音声認識装置を提供する
ことにある。

［発明の構成］（課題を解決するための手段）本発明は、入力音声データを分析して特徴パラメータ
の系列を求める手段と、認識辞書メモリに格納された複
数の認識対象カテゴリについての各辞書パターンとの間
で連続的にパターン照合してその類似度の時系列情報を
求める手段と、この類似度の時系列から前記入力音声デ
ータに対する認識結果を求める手段とを有する音声認識
装置において、学習用音声データに雑音データを加えて
パターン変形を与えた音声データを生成する音声データ
生成手段と、この雑音データが加えられた音声データに
対して前記連続パターン照合処理によって求められる類
似度の時系列の中の、学習対象とするカテゴリの辞書と
の最大類似度を基準として定められる所定の類似度値以
上の類似度を得た音声パターンの始端と終端とをその音
声データの始端候補および終端候補としてそれぞれ求
め、これらの始端候補および終端候補と学習用音声デー
タの始端および終端に関する情報とを比較して、その音
声データに関する始終端についての所定の条件を満たす
始端候補および終端候補を始端点および終端点とする音
声区間の音声データから学習用音声特徴ベクトルを抽出
する手段と、この手段にて抽出された学習用音声特徴ベ
クトルを用いて前記認識辞書メモリに格納されている辞
書パターンを学習する辞書学習手段とを具備したことを
特徴とする。

好ましくは、音声データに関する始終端についての所
定の条件は、始端点と終端点とにより定まる音声区間幅
のずれに対する許容範囲、および始端点および終端点の
位置ずれに対する許容範囲として与えられるものである
ようにしてもよい。

好ましくは、前記学習用音声データは、無雑音環境下
で収集されたクリーンな音声データであり、前記学習用
音声データの始端および終端に関する情報は、予め前記
学習用音声データから求められたものであるようにして
もよい。

好ましくは、学習用音声特徴ベクトルの抽出時に求め
られる始端点および終端点の情報を記憶し、予め学習用
音声データについて求められる始端点および終端点に関
する情報に代えて上記学習用音声特徴ベクトルの抽出時
に求められた始端点および終端点の情報を、次回の学習
用音声特徴ベクトルの抽出処理に用いるようにしてもよ
い。

（作用）本発明によれば、学習用音声データに雑音データを加
えてパターン変形を与えた音声データを用いて認識辞書
に格納された辞書パターンを学習するに際し、連続パタ
ーン照合処理によって求められる類似度の時系列のみな
らず、その音声データの始端および終端に関する情報を
用いて学習用の音声特徴ベクトルを抽出するので、仮に
音声データに混入した非定常な雑音や特異な雑音に起因
して本来の音声区間を大幅にずれた部分での類似度が大
きくなるような場合であっても、これを学習用音声特徴
ベクトルの抽出対象から効果的に排除することが可能と
なる。

そして連続パターンマッチング処理により求められる
類似度の時系列に基づいて信頼性の高い始終端間での特
徴ベクトルを抽出するので、学習用音声特徴ベクトルの
抽出精度を高めることができ、認識辞書の学習を信頼性
良く行なわせることが可能となる。

この結果、認識辞書の学習効果を高めてその辞書性能
の向上を図り、ひいては認識性能の向上を図ることが可
能となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認
識装置について説明する。

第１図は実施例装置における特徴的な技術思想を示し
た、認識辞書学習用の音声特徴ベクトルの抽出処理手続
きの概念を示す図である。

この認識辞書学習用の音声特徴ベクトルの抽出処理
は、学習対象とするカテゴリの音声データに所定の雑音
データを加えて人工的なパターン変形を与え（処理
Ｉ）、これを学習用の音声データとすることから行われ
る。このような学習データについて、認識辞書に予め登
録されている辞書パターンを参照してワードスポッティ
ング法に基づく連続パターン照合処理を実行し、その類
似度の時系列を求める（処理II）。

しかるの後、この類似度の時系列に従い、例えば学習
対象カテゴリの辞書との最大類似度値Smaxとの差が所定
の閾値θ以内の類似度値をとる特徴ベクトルの始端点と
終端点とをそれぞれ入力音声データに対する始端候補お
よび終端候補として求める（処理III）。この処理にお
いては上述した閾値θの設定にもよるが、必ずしも１つ
の特徴ベクトルに対する始端候補および終端候補だけが
抽出されると云う保証は無く、一般的には複数組の始端
候補および終端候補が求められる。

ちなみに本発明者等が先に提唱した、例えば特願平１
−57978号における特徴ベクトルの抽出処理は、上述し
た連続パターン照合によって求められる類似度の時系列
中の、学習対象カテゴリについての最大類似度値Smaxに
着目して学習用の音声特徴ベクトルの抽出を行ってい
る。

これに対して本発明では、上述した類似度の時系列か
ら求められる複数の特徴ベクトルの始端点と終端点をそ
れぞれ始端候補および終端候補とし、学習対象とする音
声データについて予め求められている始端点と終端点の
情報に従って上記始端候補および終端候補を絞り込み処
理し、最も信頼性の高い始端候補および終端候補を求め
て学習用の音声特徴ベクトルを抽出するものとなってい
る。

即ち、連続パターン照合によって求められた類似度の
時系列に基づいて求められた数組の始端候補および終端
候補はそれぞれその音声区間を表していることから、こ
こでは先ずその音声区間が音声データの標準的な音声区
間の時間幅に適合しているか否かの検定を行い、始端候
補および終端候補の絞り込みを行う（処理IV）。具体的
には、始端候補および終端候補により示される音声区間
が音声データの最小継続時間以上で、且つ最大継続時間
以内であるかの検定を行う。

また求められた音声区間に対する音声データの最大・
最小継続時間による検定については、類似度の時系列を
求める際の始終端非固定の連続パターン照合時、つまり
ワードスポッティング時に行うようにしても良い。つま
りワードスポッティングを行う際、その音声区間が最大
継続時間以下で、最小継続時間以上となるような始終端
についてのみその類似度演算を行うようにしても良い。
このようにすれば上述した学習用音声特徴ベクトルの抽
出処理を行う際での音声区間幅のずれに対する検定（処
理IV）を省略することが可能となる。

しかしてこのような音声区間に対する検定を行った
後、次に上記始端候補および終端候補が標準的な始端点
および終端点に対して所定のずれ幅以内に収まっている
かの検定を行い、その始端候補および終端候補の絞り込
みを行う（処理Ｖ）。

この始端候補と終端候補の絞り込みについて第２図を
参照して説明すると、雑音が混入された音声データＡを
連続パターン照合処理して求められる類似度の時系列か
ら、学習対象カテゴリの辞書に対して所定値以上の類似
度をとる特徴ベクトルの始端点と終端点を求めると、例
えば類似度S1をとる特徴ベクトルの始終端が［ｔs1,te
1］、類似度S2をとる特徴ベクトルの始終端が［ｔs2,te
2］、……類似度S5をとる特徴ベクトルの始終端が［ｔs
5,te5］としてそれぞれ求められる。これらの始終端が
学習用特徴ベクトルを抽出する為の始端候補および終端
候補となる。

一方、認識対象とする音声データについての始終端に
関する情報は、例えば始端点［ｔso］，終端点［ｔeo］
として与えられ、始端点に関する許容ずれ量が［ΔT
s］，終端点に関する許容ずれ量が［ΔTe］として与え
られる。そしてその音声データの継続時間（音声区間）
については、最小継続時間［Dmin］，最大継続時間［Dm
ax］としてそれぞれ与えられる。

前述した処理IVに示す音声区間についての検定処理
は、前述した如く求められた始終端候補が上述した継続
時間幅の条件に適合するか否かを調べ、この条件に該当
しない始終端候補を特徴ベクトルの抽出対象から除外す
るものである。また前述した処理Ｖに示す始終端のずれ
に対する検定は、その始終端が許容ずれ範囲内に収まっ
ているか否かを調べ、これによってその条件に適合しな
い始終端候補を特徴ベクトルの抽出対象から除外するも
のである。

このような始終端に関する検定による始終端候補を絞
り込むことで、真に信頼性の高い候補だけが残されるこ
とになる。そこでその信頼性の高い始終端候補を持つ特
徴ベクトルの中の前述した類似度の最も高い特徴ベクト
ルを認識辞書学習用の音声特徴ベクトルとして抽出すれ
ば（処理VI）、雑音の影響を受けることなしに精度良
く、しかも高い信頼性をもって音声特徴ベクトルを求め
ることが可能となる。しかる後、この抽出された特徴ベ
クトルを用いて認識辞書の学習処理を行うことにより
（処理VII）、認識辞書の性能が効果的に高められる。

次に上述した学習用の音声特徴ベクトルの抽出機能を
備えた実施例装置の具体例について説明する。

第３図は実施例装置の概略構成図で、大略的には音声
パターン抽出部と認識処理部、そして辞書学習部の３つ
のブロックにより構成される。

音声パターン抽出部を構成する音声入力部１と音声分
析部２は、基本的にはマイクロフォンを通して入力され
る音声データを音声入力部１にてディジタル変換処理
し、音声分析部２にてFFTやフィルタ分析,LPC分析，ケ
プストラム処理等により、その音声パターンを特徴パラ
メータの系列として求める。具体的には、例えば8mSec
のフレーム周期で16次元のフィルタバンク出力を求め、
これをその特徴パラメータとして出力する。

認識処理部は、ここではワードスポッティングの手法
を用いて入力音声パターン（音声パターン抽出部で求め
られる特徴パラメータの系列）を、音声認識辞書メモリ
３に登録されている複数の認識対象カテゴリの各辞書パ
ターンとの間で連続的にパターン照合する連続パターン
照合部４と、この連続パターン照合部４にて連続的に求
められる類似度の時系列を判定し、例えば最大類似度を
とる特徴ベクトルとその認識対象カテゴリを求める類似
度判定部５とを備えて構成される。

上記連続パターン照合部４は音声パターンに対する始
終端の検出を行うことなく、前述したフレーム周期毎に
前記特徴パラメータの系列から所定の次元数の特徴ベク
トルを抽出して認識辞書パターンとの間の類似度を求め
るもので、例えば第４図に示すように連続パターン照合
範囲決定部4a,特徴ベクトル抽出部4b,パターン照合部4c
とにより構成される。

即ち、この連続パターン照合部４における連続パター
ン照合範囲決定部4aは、第10図に示すように前述したフ
レーム周期毎に抽出すべき特徴パラメータの音声継続時
間（パターン照合範囲）を設定している。この音声継続
時間は、例えば最小時間幅を120mSec,最大時間幅を2400
mSecとし、これらの間を所定の時間幅で区切って設定さ
れる複数の音声継続時間からなる。

しかして特徴ベクトル抽出部4bは上述した如く設定さ
れた各音声継続時間における特徴パラメータの系列を前
述したフレーム周期毎にそれぞれ抽出し、これらの各特
徴ラメータの系列の中からその時間軸方向に16点に亘っ
て特徴パラメータをリサンプルし、周波数軸方向に16次
元，時間軸方向に16次元の特徴パラメータで表現される
256次元の特徴ベクトルを個々に求めている。

例えばパターン照合範囲となる音声継続時間がT1,T2,
〜Tnとして定められている場合、特徴ベクトル抽出部4b
は前述したフレーム周期毎に、そのフレームタイミング
ｔを終端点とする上記音声継続時間T1,T2,〜Tnの特徴パ
ラメータの系列をそれぞれ求め、これらの各特徴パラメ
ータの系列をそれぞれ16点に亘ってリサンプル処理して
（16×16）次元の特徴パラメータX1t,X2t,〜Xntを求め
ている。このような特徴ベクトルの抽出処理は上述した
ようにフレーム周期毎に行われるから、次のフレームタ
イミングでは、X1（ｔ＋１）,X2（ｔ＋１），〜Xn（ｔ
＋１）なる特徴ベクトルが求められることになる。

パターン照合部4cでは、このようにして求められる各
特徴ベクトルX_ijについて、音声認識辞書メモリ３に登
録されている複数の認識対象カテゴリの各辞書パターン
との間でその類似度を計算し、そのパターン照合処理を
実行する。この類似度計算によるパターン照合は、例え
ば複合類似度法を用いる場合には、認識対象カテゴリ
の辞書パターンが▲ａ^（） _ｍ▼を定数，▲φ^（） _ｍ
▼を固有ベクトルとして与えられるとき、その類似度値
▲Ｓ^（） _ij▼は次のように計算される。

前述した類似度判定部５はこのようにして入力音声パ
ターンと認識辞書パターンとの間で連続的に求められる
上記類似度▲Ｓ^（） _ij▼の系列を判定し、例えばその
類似度値の大きいものを選択する等の処理を実行する。

例えば上述した類似度▲Ｓ^（） _ij▼の時系列から入
力音声パターンを認識処理する場合には、その中の最大
類似度▲maxS^（） _ij▼を基準とし、この最大類似度▲
maxS^（） _ij▼との差が所定の閾値θ以下の類似度▲Ｓ
^（） _ij▼をとる認識対象カテゴリをその認識結果候
補として求めることが行われる。

尚、上記最大類似度▲maxS^（） _ij▼が或る閾値Sth
以下の場合には、認識不能としてリジェクトされる。

このようにして求められる認識結果候補が認識結果出
力部６を介して出力され、例えば認識結果の選択処理に
供される。この際、例えば上述した最大類似度▲maxS
^（） _ij▼をとる認識対象カテゴリが最優先候補として
出力される。

尚、ここでは複合類似度法によるパターン照合の計算
例について示したが、従来より種々提唱されている手法
を適宜採用可能なことは云うまでもない。また類似度の
時系列に基づく認識処理の方式についても、種々の認識
アルゴリズムを適宜採用可能なものであが、ここでは本
発明の主旨には直接関係を有さないので、その詳しい説
明については省略する。

次に辞書学習部について説明する。この辞書学習部は
認識モードに代えて学習モードが設定されたときに起動
される。

しかしてこの辞書学習部は、雑音のないクリーンな環
境下で収集された種々の認識対象カテゴリについての音
声パターンを学習用音声データとして蓄積した音声デー
タファイル11と、種々の雑音データを収集した学習用雑
音データファイル12を備えている。この学習用雑音デー
タファイル12に収集される雑音データは、例えば街頭や
駅構内等の、所謂雑音環境下で収集された雑多な音情報
を含むデータからなる。

学習用音声データ加工部13は、学習制御部14の制御を
受けて学習対象とするカテゴリの音声データを前記学習
用音声データファイル11から読み出し、これに前記学習
用雑音データファイル12から求められる雑音データを重
畳させて上記音声データに人工的なパターン変形を加え
るものである。このパターン変形の度合いは、例えば音
声データに混入する雑音データのレベルを可変する等し
て調節される。このようにして雑音データが加えられた
音声データが前記音声分析部２に与えられて認識辞書の
学習用特徴ベクトルの抽出に供される。

前述した連続パターン照合部４は、このようにして入
力される学習用の音声データについても同様にして連続
パターンマッチング処理を実行して類似度の時系列を求
める。尚、この場合、学習対象とするカテゴリが予め判
っていることから、その認識対象カテゴリについての認
識辞書パターンとの間でだけパターン照合を行っても良
いが、類似カテゴリとの識別性を高めるような認識辞書
の学習効果も期待する場合には、これらの類似カテゴリ
についての辞書パターンとの間でもパターン照合を行う
ことが望ましい。また類似カテゴリ（誤認識される虞れ
のあるカテゴリ）が不明な場合には、認識モードの場合
と同様に、全ての認識対象カテゴリの辞書パターンとの
間でパターン照合するようにすることも勿論可能であ
る。

しかして類似度判定部５は、この学習モードの場合に
は、学習用音声データについて求められた類似度の時系
列に基づいて、例えば学習対象カテゴリの辞書に対する
最大類似度値▲maxS^（） _ij▼を基準とし、この最大類
似度▲maxS^（） _ij▼との差が所定の閾値θ以下の類似
度▲Ｓ^（） _ij▼となっている特徴ベクトルについての
始端点t_sおよび終端点t_eをそれぞれ求めている。そして
その特徴ベクトルX_ijと始端点t_s,終端点t_e,およびこの
特徴ベクトルX_ijを抽出する根拠となった類似度値S
_ijを、学習用音声特徴ベクトルの抽出候補として学習用
音声特徴ベクトル抽出部15に与えている。

この学習用音声特徴ベクトル抽出部15は、学習用音声
データ始終端情報ファイル16に格納されている上記学習
対象とするカテゴリの音声データについての始終端に関
する情報を用いて、上記抽出候補として与えられた特徴
ベクトルについての始終端に関する検定を行うものであ
る。そしてこの検定に合格した抽出候補の特徴ベクトル
を学習用の音声特徴ベクトルとして求め、これを音声認
識辞書学習部17に与えて前記音声認識辞書メモリ３に格
納されている認識辞書パターンの学習に供する。

この認識辞書の学習について簡単に説明すると、例え
ば複合類似度法による場合には、抽出された学習用音声
特徴ベクトルX_ijを用いて辞書パターンの共分散行列を
更新し、しかる後、この共分散行列をKL展開してその固
有ベクトルφを求め、この固有ベクトルφにて辞書パタ
ーンを更新する処理からなる。

第５図は上記学習用音声特徴ベクトル抽出部15にて、
学習用音声データ始終端情報ファイル16に格納されてい
る情報を参照して行われる学習用音声特徴ベクトルの抽
出処理手続きの流れを示す図である。この第５図を参照
してこの実施例装置における特徴的な学習用音声特徴ベ
クトルの抽出処理について、以下に詳しく説明する。

この処理手続きは、前述した連続パターン照合処理に
より求められた類似度の時系列に基づき、学習対象カテ
ゴリの辞書に対して所定値以上の類似度を持つ特徴ベク
トルを求め、その始端点と終端点とをそれぞれ始端候補
および終端候補として抽出する処理から開始される。具
体的には、連続パターン照合処理された複数の特徴ベク
トル（フレームタイミング毎に、そのフレームタイミン
グを終端点として求められる複数の音声区間についての
特徴ベクトルの系列）を類似度の大きい順に指定する為
の制御パラメータｎを［１］に初期設定し（ステップ
ａ）、この制御パラメータｎに従って特徴ベクトルX_nの
類似度S_nを、その類似度が大きい順にアクセスする。そ
してその類似度S_nが所定の抽出条件を満たすか否かを調
べ（ステップｂ）、その抽出条件を満たしている場合に
は、当該特徴ベクトルX_nの始端点t_snと終端点t_enとをそ
れぞれ始端候補および終端候補として抽出する。

この処理は上記制御パラメータｎをインクリメントし
ながら、この処理にて始端候補および終端候補が求めら
れた特徴ベクトルの数を制御値Ｎとして計数しながら、
全ての特徴ベクトルの類似度について繰り返し実行され
る（ステップｃ）。

しかして上記始端候補および終端候補を抽出する為の
類似度判定条件は、例えば前述した連続パターン照合処
理により求められた類似度の時系列の中の、学習対象カ
テゴリの辞書に対する最大類似度値をS_maxとしたとき、
例えばこの最大類似度値S_maxとの差が所定の閾値θ以内
である類似度を持つ特徴ベクトルX_nを抽出すると云う条
件として与えられる。従ってこの場合には、 S_n≧（S_max−θ）なる条件が満たされるか否かが判定されることになる。
このような判定処理により、例えば最大類似度値S_maxが
［0.93］として求められ、閾値θが［0.10］として与え
られるような場合には、類似度値が［0.83］以上の特徴
ベクトルX_nの始端点および終端点がそれぞれ抽出候補と
して求められる。

例えば代表的に次の５つの特徴ベクトルX₁,X₂,〜X₅に
ついて述べると、これらの情報ベクトルX₁,X₂,〜X₅の類
似度S₁,S₂,〜S₅、およびその始端点t_s1,t_s2,〜t_s5,およ
び終端点t_e1,t_e2,〜t_e5がそれぞれ次のように与えられ
る場合、 X₁…S₁＝0.93,t_s1＝0.4 sec,t_e1＝0.6sec X₂…S₂＝0.90,t_s2＝0.2 sec,t_e2＝0.8sec X₃…S₃＝0.88,t_s3＝0.4 sec,t_e3＝1.2sec X₄…S₄＝0.85,t_s4＝0.35sec,t_e4＝0.7sec X₅…S₅＝0.70,t_s5＝0.1 sec,t_e5＝1.0sec 類似度値が［0.83］以上の特徴ベクトルX_nとして、特徴
ベクトルX₁,X₂,X₃,X₄の始端点および終端点がその始終
端候補 X₁…［t_s1＝0.4 sec,t_e1＝0.6sec］ X₂…［t_s2＝0.2 sec,t_e2＝0.8sec］ X₃…［t_s3＝0.4 sec,t_e3＝1.2sec］ X₄…［t_s4＝0.35sec,t_e4＝0.7sec］として求められる。

このようにして類似度に基づく特徴ベクトルの選択抽
出が行われた後、今度は当該学習対象カテゴリの音声パ
ターンについての始終端に関する情報を用いて、始終端
についての条件判定が行われる。この音声パターンにつ
いての始終端に関する情報は、前記学習用音声データ始
終端情報ファイル16に格納された、例えば第６図に示す
如き情報として与えられる。具体的には、学習用音声デ
ータファイル11に格納された音声データの管理番号に従
って、その音声データの始端点t_s0と終端点t_e0,および
そのカテゴリ名としてその始終端に関する情報が与えら
れる。またこれらの情報と共に、その学習対象カテゴリ
の最小継続時間D_min,および最大継続時間D_maxの情報も
与えられる。この最小継続時間D_min,および最大継続時
間D_maxの情報は、予め学習用音声データファイル11等に
格納しておく。

しかしてこの処理は、前述した類似度に基づいて抽出
された候補を順に選択指定する為の制御パラメータｍを
［１］に初期設定し（ステップｄ）、この制御パラメー
タｍに従って前述した各特徴ベクトルX_nの始終端候補を
順次検定することにより実現される。この検定は、前記
始終端候補からその音声継続時間を［t_em−t_sm］として
求め、この音声継続時間が上述した最小継続時間D_min,
および最大継続時間D_maxに示される条件に適合している
か否かを調べることから行われる（ステップｅ）。

具体的には、 D_min≦［t_em−t_sm］≦D_max を満足しているかが判定される。この判定処理によっ
て、例えば上記最小継続時間D_minが［0.4Sec］，また最
大継続時間D_maxが［0.8Sec］として与えられるような場
合には、前述した特徴ベクトルの候補の内、特徴ベクト
ルX₁,X₄がリジェクトされ、その候補が X₂…［t_s2＝0.2sec,t_e2＝0.8sec］ X₃…［t_s3＝0.4sec,t_e3＝1.2sec］の２つに絞り込まれる。

その後、これらの絞り込まれた候補に対して、次にそ
の始端点および終端点の時間的なずれに対する検定が行
われる（ステップｆ）。

この処理は始端点に関する時間的ずれの許容値Δt_sが
［0.1Sec］，終端点に関する時間的ずれの許容値Δt_eが
［0.1Sec］として設定されている場合、 |t_sm−t_s0|≦Δt_s |t_em−t_e0|≦Δt_e なる条件をそれぞれ満たしているか否かを調べることに
より行われる。この判定処理の結果、上述した例では特
徴ベクトルX₃がリジェクトされ、その抽出候補として X₂…［t_s2＝0.2sec,t_e2＝0.8sec］だけが求められることになる。

尚、上述した２つの判定処理によって前記制御パラメ
ータｍにより指定された特徴ベクトルがリジェクトされ
た場合には、制御パラメータｍのインクリメントと（ス
テップｇ）、そのインクリメントされた制御パラメータ
ｍと前記制御値Ｎとの比較により、類似度に基づいて選
択された全ての特徴ベクトルについての処理が完了した
か否かを判定しながら（ステップｈ）、繰り返し実行さ
れる。

この結果、類似度に従って求められた複数の特徴ベク
トルの候補の中から、その始端点および終端点に関する
時間的な制約条件を満足するものだけが選択的に抽出さ
れることになる。そして前述した例では、１つの特徴ベ
クトルだけが残されたが、一般的には複数の特徴ベクト
ルが候補として残されることが想定される。従ってこの
ような場合には、例えば残された複数の候補の中でその
類似度S_nが最も大きいものを選ぶ等して、認識辞書の学
習に使用する特徴ベクトルを抽出する（ステップｉ）。

尚、上述した始終端に関する条件判定によって、類似
度に基づいて抽出された特徴ベクトルの全ての候補がリ
ジェクトされた場合には、上述した連続パターンマッチ
ングによる処理結果が雑音データによる悪影響を受けて
いると判定し、例えば前述した学習用音声データ始終端
情報ファイル16に格納されている音声データの始端点t
_s0,および終端点t_e0の情報に従って特徴ベクトルの抽出
を行い、これを認識辞書の学習に供する（ステップ
ｊ）。

かくしてこのような連続パターンマッチング処理によ
って求められる類似度の時系列の情報のみならず、その
音声データに関する始終端情報をも利用して認識辞書学
習用の特徴ベクトルを抽出する本装置によれば、特異な
雑音に起因する誤った音声区間からの特徴ベクトルの切
り出しを効果的に排除して、その学習用音声特徴ベクト
ルを信頼性良く、高精度に切り出し抽出することが可能
となる。この結果、認識辞書の学習効果を高めることが
でき、認識辞書性能の高性能化を図って認識性能を効果
的に高めることが可能となる。

尚、上述した始終端に関する情報に従う特徴ベクトル
の絞り込み判定に用いる時間的なずれの許容値Δt_s,許
容値Δ_ｅについては、学習対象とする認識カテゴリ毎に
その値を設定しても良いし、また学習処理に供する音声
データに応じて定めるようにすることも可能である。ま
たその音声区間に対する許容値、つまり最小継続時間D
_min,および最大継続時間D_maxについても同様にして定め
ることが可能である。

ところで上述した実施例の処理手続きは、その都度、
音声データに関する始終端の情報を用いて特徴ベクトル
の絞り込み判定を行ったが、例えば同一の音声データに
ついてそこに加える雑音データのレベルを変えながら学
習用音声特徴ベクトルを求めるような場合には、一々ク
リーンな音声データについての始終端の情報を用いるよ
りも、前回の学習時に求められた始終端に関する情報を
利用したほうが、より高精度に特徴ベクトルの絞り込み
を行うことが可能である。

このような処理手続きを行うには、例えば前述した第
５図に示す処理手順を第７図に示すように変更し、学習
用音声データ始終端情報ファイル16に登録しておく情報
項目としては、例えば第８図に示すように前回の特徴ベ
クトル抽出時の始端点および終端点に関する情報を格納
しておく項目をつけ加えるようにすれば良い。

しかしてこの場合には、第８図に示すように学習用音
声データ始終端情報ファイル16から前回の学習時に用い
られた特徴ベクトルについての始端点の情報t_sbと、終
端点の情報t_ebとをそれぞれ求め（ステップｋ）、これ
らの情報を前述したクリーンな音声データの始端点の情
報t_s0と、終端点の情報t_e0に代えて用いるようにする。

このような初期設定処理を行った後、前述した特徴ベ
クトルの抽出（絞り込み）処理を実行し、特徴ベクトル
の絞り込みがなされた時点で、その特徴ベクトルについ
て求められる始端点および終端点の情報を次回の学習処
理時に用いるべく、前記学習用音声データ始終端情報フ
ァイル16に格納する（ステップｍ）。その後、前述した
ステップｉに示されるようにして絞り込まれた情報ベク
トル中から、認識辞書の学習に用いる為の特徴ベクトル
を選択決定し、これを学習用音声特徴ベクトルとして抽
出する。

また特徴ベクトルの候補が全てリジェクトされ、学習
用特徴ベクトルとしての候補が求められなかった場合に
は、前述した前回の学習用特徴ベクトルの抽出時に用い
られた始端点の情報t_sbと終端点の情報t_ebとを用いて、
その音声データ中から学習用特徴ベクトルの抽出を行
う。

このような処理手続きによれば、特徴ベクトルの抽出
判定に失敗したような場合、クリーンな音声データの始
端点の情報t_s0と終端点の情報t_e0とに従って学習用特徴
ベクトルの抽出を行う場合に比較して、前回の学習時に
用いられた始端点の情報t_sbと終端点の情報t_ebを用いて
学習用特徴ベクトルの抽出が行われるので、その音声区
間の検出誤差量を少なくして、より高精度に学習用特徴
ベクトルを求めることが可能となる。この結果、先の実
施例以上に認識辞書の学習効果を高めることが可能とな
る等の実用上多大なる効果が奏せられる。

尚、本発明は上述した実施例に限定されるものではな
い。例えば連続パターンマッチング処理による類似度の
時系列を求める処理手続きは、従来より種々提唱されて
いる手法を適宜用いることが可能である。また特徴ベク
トル候補の絞り込みのアルゴリズムについても種々変形
可能である。また実施例では、音声認識についても連続
パターン照合処理により行っているが、他の認識処理ア
ルゴリズムを用いた音声認識装置に対しても適用可能で
ある。但し、この場合には、認識辞書の学習時に用いる
為の連続パターン照合部を別個に設ける必要があるの
で、その分、装置構成が複雑化することが否めない。し
かし認識辞書学習の為の独立した装置を実現する場合に
は、全く問題がないと云える。その他、本発明はその要
旨を逸脱しない範囲で種々変形して実施することができ
る。

［発明の効果］以上説明したように本発明によれば、連続パターン照
合処理により求められる類似度の時系列に基づいて学習
用特徴ベクトルを選択制御することのみならず、その音
声データの始終端情報についての検定を行った上で、学
習用音声特徴ベクトルの抽出を行うので、種々の雑音が
加えられた学習用音声データについても、その中から認
識辞書の学習に用いる為の学習用音声特徴データを高精
度に抽出することができるので、認識辞書の学習効果を
効果的に高め、その認識辞書性能を十分に高めていくこ
とができる。そしてひいてはその認識性能までも効果的
に高め得ると云う、実用上多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明に係る音声認識装置における認識辞書学
習用の特徴ベクトル抽出処理の概念を示す図、第２図は
特徴ベクトルの選択抽出の作用を説明する為の模式図、
第３図は実施例装置の全体的な概略構成図、第４図は実
施例装置に置ける連続パターン照合部の構成例を示す図
である。また第５図は実施例装置における学習用音声特徴ベクト
ルの抽出処理手順の流れを示す図、第６図は学習用音声
データ始終端情報ファイルの構成例を示す図、第７図は
実施例装置における学習用音声特徴ベクトルの抽出処理
手順の別の例を示す図、第８図は第７図に示す処理で用
いられる学習用音声データ始終端情報ファイルの構成例
を示す図である。そして第９図は音声データに雑音データを加えて学習用
音声データを作成する処理と従来における問題点を説明
する為の模式図、第10図は連続パターンマッチング処理
の概念を示す図である。２……音声分析部、３……音声認識辞書メモリ、４……
連続パターン照合部、５……類似度判定部、11……学習
用音声データファイル、12……学習用雑音データファイ
ル、13……学習用音声データ加工部、14……学習制御
部、15……学習用音声特徴ベクトル抽出部、16……学習
用音声データ始終端情報ファイル、17……音声認識辞書
学習部。

フロントページの続き (56)参考文献特開昭63−5394（ＪＰ，Ａ) 特開昭63−223694（ＪＰ，Ａ) 特開昭59−195700（ＪＰ，Ａ) 特開昭61−142395（ＪＰ，Ａ) 特開昭61−142396（ＪＰ，Ａ) 特開平２−238495（ＪＰ，Ａ) 電子情報通信学会技術研究報告Ｖｏｌ．89 Ｎｏ．90 ＳＰ89−19「学習型ワードスポッティング法による騒音環境下の不特定話者単語音声認識」ｐ．51− 58（1989／６／22) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 3/00 521 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力音声データを分析して特徴パラメータ
の系列を求める手段と、認識辞書メモリに格納された複
数の認識対象カテゴリについての各辞書パターンとの間
で連続的にパターン照合してその類似度の時系列情報を
求める手段と、この類似度の時系列から前記入力音声デ
ータに対する認識結果を求める手段とを有する音声認識
装置において、学習用音声データに雑音データを加えてパターン変形を
与えた音声データを生成する音声データ生成手段と、この雑音データが加えられた音声データに対して前記連
続パターン照合処理によって求められる類似度の時系列
の中の、学習対象とするカテゴリの辞書との最大類似度
を基準として定められる所定の類似度値以上の類似度を
得た音声パターンの始端と終端とをその音声データの始
端候補および終端候補としてそれぞれ求め、これらの始
端候補および終端候補と学習用音声データの始端および
終端に関する情報とを比較して、その音声データに関す
る始終端についての所定の条件を満たす始端候補および
終端候補を始端点および終端点とする音声区間の音声デ
ータから学習用音声特徴ベクトルを抽出する手段と、この手段にて抽出された学習用音声特徴ベクトルを用い
て前記認識辞書メモリに格納されている辞書パターンを
学習する辞書学習手段とを具備したことを特徴とする音
声認識装置。
【請求項２】音声データに関する始終端についての所定
の条件は、始端点と終端点とにより定まる音声区間幅の
ずれに対する許容範囲、および始端点および終端点の位
置ずれに対する許容範囲として与えられるものである請
求項１に記載の音声認識装置。
【請求項３】前記学習用音声データは、無雑音環境下で
収集されたクリーンな音声データであり、前記学習用音
声データの始端および終端に関する情報は、予め前記学
習用音声データから求められたものであることを特徴と
する請求項１に記載の音声認識装置。
【請求項４】学習用音声特徴ベクトルの抽出時に求めら
れる始端点および終端点の情報を記憶し、予め学習用音
声データについて求められる始端点および終端点に関す
る情報に代えて上記学習用音声特徴ベクトルの抽出時に
求められた始端点および終端点の情報を、次回の学習用
音声特徴ベクトルの抽出処理に用いることを特徴とする
請求項１に記載の音声認識装置。