JP2656239B2

JP2656239B2 - 音声認識学習方式

Info

Publication number: JP2656239B2
Application number: JP60254092A
Authority: JP
Inventors: 洋一竹林; 宏之坪井; 彰一平井; 博松浦; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1985-11-13
Filing date: 1985-11-13
Publication date: 1997-09-24
Anticipated expiration: 2012-09-24
Also published as: JPS62113196A

Description

【発明の詳細な説明】〔発明の技術分野〕本発明は高性能な音声認識処理を実現し得る音声認識
学習方式に関する。

〔発明の技術的背景とその問題点〕

音声認識処理技術の発達に伴い、工場における生産管
理制御の分野で特定話者認識装置が応用され、また電話
サービスの分野では不特定話者認識が応用され始めてい
る。また最近では、音声ワードプロセッサとしての実用
化が試みられている。

ところで音声ワードプロセッサや大語彙単語認識にあ
っては、その認識性能を十分に高くする必要がある。し
かし、入力音声の認識処理単位である音素や音節は、一
般にその情報量が少ない。その為、異なる音声カテゴリ
間でその音声パターンが類似していることが多くあり、
またその冗長度も少ない。これ故、入力音声を精度良く
認識することが難しい。

そこで従来より、認識性能の向上を図るべく種々の工
夫が試みられているが、音声認識処理が徒に複雑化した
り、また装置構成が大掛りとなることが否めなかった。

更には認識性能の向上を図るべく、その認識辞書の高
性能化を図ることも試みられているが、多くの音声サン
プルを収集しなければならない等、認識辞書の効果的な
学習が困難であった。

〔発明の目的〕

本発明はこのような事情を考慮してなされたもので、
その目的とするところは、音声に対する認識性能の向上
を簡易に、且つ効果的に図ることのできる実用性の高い
音声認識学習方式を提供することにある。

〔発明の概要〕

本発明は、入力音声を分析して該入力音声の特徴パラ
メータの時系列を求める手段と、この特徴パラメータの
時系列から所定のタイミングで固定次元の特徴ベクトル
を順次連続して抽出する手段と、この特徴ベクトルを音
声認識辞書と照合して認識対象とする複数の音声カテゴ
リに対する類似度をそれぞれ計算する手段と、各音声カ
テゴリ毎に上記類似度が最大となるタイミングとそのと
きの類似度値とを求める手段と、類似度が最大となる音
声カテゴリの時間的に連続した系列またはその類似度系
列から前記入力音声を認識する手段と、前記音声カテゴ
リのうち正しい音声カテゴリに対する類似度が最大とな
る時点の前記特徴ベクトルを用いて正しい音声カテゴリ
の音声認識辞書を学習する手段と、前記音声カテゴリの
うち誤認識された音声カテゴリに対する類似度が最大と
なる時点の前記特徴ベクトルを用いて誤認識された入力
音声カテゴリの音声認識辞書を学習する手段とより構成
されている。

〔発明の効果〕

かくして、本発明によれば、特徴パラメータの時系列
から固定次元の特徴ベクトルを時間的に連続して、つま
り、その抽出タイミングを連続的にずらしながら順次抽
出し、認識対象とする複数の音声カテゴリの各認識辞書
との類似度が最大となるタイミングの特徴ベクトルを求
めて入力音声を認識するものにおいて、特に、このよう
な時間連続液なパターン照合による認識処理により、正
しい音声カテゴリの類似度最大の特徴ベクトルと、誤認
識を引き起こした音声カテゴリに対する類似度最大の特
徴ベクトルを用いて、それぞれ入力音声カテゴリの音声
認識辞書を学習するようにしたので、正しい入力音声カ
テゴリによる音声認識辞書の学習と誤認識された入力音
声カテゴリによる音声認識辞書の学習がそれぞれ実行さ
れる。例えば、学習用の入力部の本来の正しいカテゴリ
が/b/で、この学習用の音声を認識した際に、本来のカ
テゴリ/b/と音声の特徴が紛らわしい/p/に誤認識される
ような場合、正しい認識結果/b/を学習しながら誤認識
結果/p/も学習されるようになり、正しい認識結果/b/の
特徴を表現しつつ、/p/に誤認識されずらい音声認識辞
書が得られることになる。このことは、このような学習
の積み重ねにより正しい認識結果/b/と誤認識結果/p/の
境界が明確になっていき、このような発音が紛らわしい
入力音声についても、認識率を格段に向上させることが
可能になる。

更には、連続的に抽出される特徴ベクトルと認識辞書
との類似度計算が連続的に行われるので、例えば認識処
理に供される入力音声期間の切出し、つまりセグメンテ
ーションを大まかに、つまり音声カテゴリの大まかな始
終端を入力しても、その認識性能が低下することがな
い。故に、簡易に、且つ精度良く入力音声を認識処理
し、またその認識辞書の性能向上を図ることが可能とな
る等の実用上多大なる効果が奏せられる。

〔発明の実施例〕

以下、図面を参照して本発明の一実施例につき説明す
る。

第１図は本発明の一実施例方式を適用して構成される
音声認識装置の概略構成図で、第２図は実施例方式にお
ける音声ベクトルの抽出概念を示す図である。

パターン入力部１はマイクロフォンや増幅器等からな
り、このパターン入力部１から認識装置に供せられる音
声が発声入力される。バンドパスフィルタ等からなる前
処理部２は、入力音声を複数チャンネルのスペクトル成
分からなる音声パラメータの時系列に変換し、これを類
似度演算部３に出力している。

類似度演算部３は、特徴パラメータの時系列から所定
のタイミングで順に固定次元の特徴ベクトルを抽出し、
その抽出した特徴ベクトルと音声辞書記憶部４に格納さ
れた複数の認識対象音声カテゴリの認識辞書との類似度
を順次計算している。この類似度計算は、例えば複合類
似度法によって行われる。

即ち、類似度演算部３は、第２図に示すように前記前
処理部２の出力（バンドパスフィルタの出力）として得
られる特徴パラメータの時系列Ａから、タイミングＴを
基準として連続するＮサンプルの特徴パラメータのパタ
ーンを上記タイミングＴにおける固定次元の特徴ベクト
ルＢとして抽出している。

つまり上記タイミングＴにおける特徴ベクトルＢは、
例えばタイミング（Ｔ−Ｎ）からタイミングＴに至る特
徴パラメータの系列として抽出される。尚、特徴パラメ
ータの抽出数Ｎは、０を含む正の整数として設定される
ものであり、タイミングＴに関して複数種類設定される
場合もある。この場合には、次元の異なる複数の特徴ベ
クトルが同時に抽出されることになる。また特徴ベクト
ルは、上記タイミングＮに亙る期間の特徴パラメータを
１つおきに選択して抽出されるものであっても良い。

しかして特徴ベクトルＢの抽出は、その処理タイミン
グ（例えば入力音声の分析タイミング）毎に順次連続し
て行われる。従って次のタイミング（Ｔ＋１）では、タ
イミング（Ｔ−Ｎ＋１）からタイミング（Ｔ＋１）に至
る特徴パラメータのパターンが、上記タイミング（Ｔ＋
１）における特徴ベクトルとして抽出される。このよう
にして特徴パラメータの時系列から順次連続して抽出さ
れる特徴ベクトルＢが、第２図中Ｃに示すように特徴ベ
クトルの時系列として出力される。

しかして前記特徴パラメータの時系列Ａから時間的に
順次連続して順に検出される特徴ベクトルＢは、認識対
象とする複数の音声カテゴリの各音声辞書との複合類似
度計算にそれぞれ供せられる。そして各音声カテゴリの
認識辞書に対する上記特徴ベクトルＢの類似度計算結果
は、上記特徴ベクトルと共に認識部５および音節切出し
部６に出力される。尚、類似度計算結果の出力は、例え
ば高い類似度値を得たＭ個の音声カテゴリについての
み、その音声カテゴリ名とその類似度値として出力する
ようにしても良い。

音節切出し部６は、各音声カテゴリについて、その音
声カテゴリに対して求められた類似度の最大値を求め、
この最大値を得た特徴ベクトルの抽出タイミング（特徴
ベクトルのパターン区間）を該音声カテゴリの音節区間
として求めている。そしてその音節区間における上記特
徴ベクトルＢを認識辞書の学習用データとして学習デー
タ記憶部７に順次記憶すると共に、その音声カテゴリ名
とその音節区間の情報を認識部５に与えている。

認識制御部８の制御の下で認識処理を実行する認識部
５は、例えば或る音声区間について、その音声区間を音
節区間とする音声カテゴリを前記音節切出し部６の検出
情報から求めている。そしてその音声カテゴリに対する
前記特徴ベクトルの類似度を相互に比較して、例えば最
大の類似度値をとる音声カテゴリを、その音声区間の入
力音声データに対する認識結果として求めている。

尚、認識結果として複数の音声カテゴリが候補として
求められた場合には、例えば第１候補順位から第Ｌ候補
順位の音声カテゴリが認識結果として出力される。

言語処理部９は、このような認識結果の系列を言語情
報辞書10を参照して言語的に検定し、最も他紙からしい
音声カテゴリの系列を前記入力音声の認識結果として求
めるものであり、その認識結果は適宜表示部11にて表示
される。

この表示部11に表示された認識結果に対して、例えば
その認識結果が誤りである等の情報が与えられる。また
誤認識された結果に対する正しい情報の修正入力が行わ
れる。この修正情報の入力は、認識結果に対する次候補
の選択や、正しい音声カテゴリのコードデータをキー入
力することによって行われる。

一方、上述したようにして入力音声に対する認識結果
が求められると、学習制御部12が起動されて、その認識
結果である音声カテゴリのデータが特性核更新部13に与
えられる。また同時にその音声カテゴリを得た特徴ベク
トルが前記学習データ記憶部７から読出されて、特性核
更新部13に読出される。

特性核更新部13は、上記音声カテゴリの特性核Ｋを特
性核記憶部14から読出し、前記認識結果に対する正誤の
判定結果に従って上記特性核Ｋを更新処理するものであ
る。この特性Ｋの更新処理は、誤認識された音声カテゴ
リ、および誤認識結果を得た特徴ベクトルに対する正し
い音声カテゴリに対して行われることは勿論のこと、正
しく認識された音声カテゴリに対しても行われる。

即ち、この特性核Ｋの更新処理は、例えばＫ＝Ｋ±αSS^t として行われる。但し、Ｓは入力音声パターン（特徴ベ
クトル）を示しており、αは特性核更新の荷重係数であ
る。

具体的には、本来音声カテゴリＸに関する特徴ベクト
ルＳを音声カテゴリＹと誤認識した場合、音声カテゴリ
Ｙの特性核Kyを Ky＝Ky−αSS^t として、負の重み（減算）を以て更新する。また音声カ
テゴリＸの特性核Kxを Kx＝Kx＋αSS^t として、正の重み（加算）を以て更新する。尚、正しい
認識結果が得られた場合も、正の重み（加算）を以てそ
の特性核を更新する。

このような特性核Ｋの更新処理によって、その特性核
Ｋ中から誤認識に至るベクトルの要素、つまり誤認識成
分が除去され、また誤認識を招かない為の成分が特性核
Ｋに追加されることになる。

しかして音声辞書作成部15は、各音声カテゴリについ
て、上述した如く更新処理された特性核Ｋを、例えばKL
展開して複合類似度計算に供する認識辞書を作成してい
る。そしてこの認識辞書を以て、前記音声辞書記憶部４
に格納された認識辞書を順次更新し、その認識辞書の充
実化、つまり高性能化を図っている。

以上、本発明の一実施例に係る音声認識装置につき説
明したように、本方式にあっては入力音声の特徴ベクト
ルを固定次元で連続的に抽出し、これによって音節の切
出しと認識処理とを同時に行うので、簡易に、且つ精度
良く入力音声を認識することが可能となる。しかも、認
識対象とする音声カテゴリの各認識辞書と連続的な特徴
ベクトルとの類似度計算結果に従ってその音節を検出す
るので、音節の切出しを効果的に行うことができる。故
に、セグメンテーションを大まかに指示するだけで、精
度の高い音節の切出しを可能とし、その認識性能の向上
を図ることができる。

更には、連続的に抽出される特徴ベクトルを用いて認
識辞書を効果的に更新し、認識辞書の充実化（高性能
化）を図ることができ、その認識辞書の学習処理も簡単
であると云う効果が奏せられる。

即ち、入力音声を分析した特徴パラメータの時系列か
ら、その特徴ベクトルを固定次元で連続的に切出してそ
の認識処理、および学習処理を行うので、簡易にして認
識学習性能の大幅な向上を図り得ると云う実用上多大な
る効果が奏せられる。

尚、本発明は上述した実施例に限定されるものではな
く、その要旨を逸脱しない範囲で種々変形して実施でき
ることは勿論のことである。

【図面の簡単な説明】

第１図は本発明の一実施例方式を適用した音声認識装置
の概略構成図、第２図は実施例方式における入力音声の
分析特徴パラメータからの連続的な特徴ベクトルの抽出
処理の概念を示す図である。１……パターン入力部、２……前処理部、３……類似度
演算部、４……音声辞書記憶部、５……認識部、６……
音節切出し部、７……学習データ記憶部、８……認識制
御部、９……言語処理部、10……言語情報辞書、11……
表示部、12……学習制御部、13……特性各更新部、14…
…特性各記憶部、15……音声辞書作成部。

───────────────────────────────────────────────────── フロントページの続き (72)発明者松浦博川崎市幸区小向東芝町１番地株式会社東芝総合研究所内 (72)発明者新田恒雄川崎市幸区小向東芝町１番地株式会社東芝総合研究所内 (56)参考文献特開昭59−3491（ＪＰ，Ａ) 特開昭58−80697（ＪＰ，Ａ) 特公昭47−21323（ＪＰ，Ｂ１) 特公昭57−1012（ＪＰ，Ｂ２) 日本音響学会講演論文集昭和58年３月３−２−８Ｐ．147〜148 電子通信学会論文誌昭和60年３月Ｖｏｌ．Ｊ68−ＤＮｏ．３Ｐ．284〜 291 新美「情報科学講座Ｅ、19、３音声認識」共立出版株式会社昭和54年Ｐ．135〜139

Claims

(57)【特許請求の範囲】

【請求項１】入力音声を分析して該入力音声の特徴パラ
メータの時系列を求める手段と、この特徴パラメータの時系列から所定のタイミングで固
定次元の特徴ベクトルを順次連続して抽出する手段と、この特徴ベクトルを音声認識辞書と照合して認識対象と
する複数の音声カテゴリに対する類似度をそれぞれ計算
する手段と、各音声カテゴリ毎に上記類似度が最大となるタイミング
とそのときの類似度値とを求める手段と、類似度が最大となる音声カテゴリの時間的に連続した系
列またはその類似度系列から前記入力音声を認識する手
段と、前記音声カテゴリのうち正しい音声カテゴリに対する類
似度が最大となる時点の前記特徴ベクトルを用いて正し
い音声カテゴリの音声認識辞書を学習する手段と、前記音声カテゴリのうち誤認識された音声カテゴリに対
する類似度が最大となる時点の前記特徴ベクトルを用い
て誤認識された入力音声カテゴリの音声認識辞書を学習
する手段とを具備したことを特徴とする音声認識学習方
式。
【請求項２】特徴ベクトルを連続的に抽出する所定のタ
イミングは、特徴パラメータを得る入力音声の分析タイ
ミングである特許請求の範囲第１項記載の音声認識学習
方式。
【請求項３】固定次元の特徴ベクトルは、次元数の異な
る複数種類の特徴ベクトルとして同時に抽出されるもの
である特許請求の範囲第１項記載の音声認識学習方式。
【請求項４】特徴ベクトルを用いた音声認識辞書の学習
は、複合類似度計算に用いられる音声認識辞書の特性核
を該特徴ベクトルで更新し、更新された特性核をKL展開
して行われるものである特許請求の範囲第１項記載の音
声認識学習方式。
【請求項５】音声認識辞書の学習は、正しい音声カテゴ
リの音声認識辞書に正しい音声カテゴリに対する類似度
が最大となる特徴ベクトルの成分を加算し、誤認識され
た音声カテゴリの音声認識辞書から誤認識された音声カ
テゴリに対する類似度値が最大となる特徴ベクトルの成
分を減算することを特徴とする特許請求の範囲第１項記
載の音声認識学習方式。
【請求項６】音声カテゴリに大まかな始端を入力する手
段と、前記始端を基準に時間連続的にパターン照合を行
う手段とを具備したことを特徴とする特許請求の範囲第
１項記載の音声認識学習方式。