JPH01277297A

JPH01277297A - 音声認識装置

Info

Publication number: JPH01277297A
Application number: JP63106221A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-04-28
Filing date: 1988-04-28
Publication date: 1989-11-07

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は特定のグループ構成員により共通に利用でき、
上記グループ構成員からの少ない学習パターンで高い認
識性能を得ることのできる音声認識装置に関する。

（従来の技術）音声による情報の入出力は人間にとって自然性が高く、
マン・マシン・インターフェースとして優れており、従
来より種々研究されている。現在、実用化されている音
声認識装置の殆んどは単語音声を認識する方式のもので
、一般的にはｔＡＢ図に示すように構成されている。

この装置は発声人力された音声を電気信号に変換して取
込み、バンド・パス・フィルタ等からなる音響分析部ｌ
にて音響分析し、始端・終端検出部２にてその単語音声
区間を検出する。そして入力音声の上記単語音声区間の
音響分析データ（特徴情報；音声パターン）と、標準パ
ターン辞書３に予め登録されている認識対象単語の各標
準パターンとの類似度や距離等をパターン・マツチング
部４にて計算し、その計算結果を判定部５にて判定して
、例えば類似度値の最も高い標準パターンのカテゴリ名
を前記入力音声に対する認識結果として求めるものとな
っている。

しかしこのようにパターンφマツチング法による音声認
識では入力音声パターンと予め登録されている標準パタ
ーンとの時間軸方向のずれ（パターン変形）が問題とな
る。そこで従来では、専ら線形伸縮や、動的計画法（Ｄ
　Ｐ）に代表される非線形伸縮等により、上述した時間
軸方向のずれに対する課題を解消している。

一方、このようなパターン型マツチング法とは別に、予
め収集された学習パターンから直交化辞書を作成し、こ
の直交化辞書を用いて音声認識する方式（部分空間法）
が提唱されている。この方式は第４図にその構成例を示
すように、音響分析されて音声区間検出された音声パタ
ーンから、標本点抽出部Ｂにて上記音声区間を等分割し
た所定点数の標本点を抽出し、（特徴ベクトルの数×標
本点数）で示される標本パターンを求める。このような
標本パターンを認識対象とするカテゴリ毎に所定数ずつ
収集してパターン蓄積部７に格納する。そしてグラム・
シュミット（ＧＳ）直交化部８において、上記パターン
蓄積部７に収集された所定数（３個以上）の標本パター
ンを用いて以下に示す手順で直交化辞書９を作成する。

即ち、上記直交化辞書９の作成は、各カテゴリ毎にその
カテゴリのｍ回目の学習パターンをａＩＩｌとし、３回
発声された学習パターンを用いる場合には、 ■　１回目の学習データａ１を第１軸の辞書ｂ１とし、ｂ１″″ａｉ　　　　　　　　　　　　　　　　　・・
・（１）これを直交化辞書９に登録する。

■　２回目の学習データａ２からグラム−シュミットの
直交化式を用い、なる計算を行い、＋＋　ｂ　２１１が一定値より大きい
場合、これを第２軸の辞書ｂ２として前記直交化辞書９
に登録する。但し、（・）は内積、１１１１はノルムを
示す。

■　そして３回目の学習データａ３から、なる計算を行
い、＋＋　ｂ　ａ　Ｉｔが一定値より大きい場合、これ
を第３軸の辞書ｂ３として前記直交化辞書９に登録する
。但し、第２軸の辞書が求められていない場合には、上
記（２）式の計算を行う。

以上の■〜■の処理を各カテゴリについて繰返し実行し
て直交化辞書９を予め形成しておく。

類似度計算部ＩＯは上述した如く作成された直交化辞書
９と、入力音声パターンＸとの間でとして、カテゴリｉ
の直交化辞書ｂ　　との間の１、ｒ類似度を計算するもので、この類似度値に従って上記入
力音声パターンＸが認識される。尚、上記カテゴリｉの
直交化辞書ｂ　　は予め正規化され１、ｒたちのであり、Ｋ１はカテゴリｉの辞書の個数（軸数）
を示している。

このようなＧＳ直交化を用いることにより、その認識性
能の大幅な向上が図られている。また微分フィルタを用
いて時間軸方向および周波数方向の変動を吸収した直交
化辞書を作成し、更にその認識性能の向上を図ることも
試みられている。

ところがこの種の装置にあっては、専ら特定の話者に対
しての標準音声辞書を作成している。この為、別の話者
が上記音声認識装置を利用しようとする場合には、その
都度、音声辞書を変更する必要が生じた。そこで多数の
話者から数多くの学習パターンを収集して直交化辞書を
作成することが考えられているが、その辞書作成が徒に
複雑化し、認識性能の高い辞書を得ることが困難化する
等の不具合が生じた。

（発明が解決しようとする問題点）このように従来の直交化辞書を用いた部分空間法による
音声認識にあっては、複数の話者から収集された学習パ
ターンから如何にして性能の高い直交化辞書を効率良く
作成するかと云う点で課題が残されている。また直交化
辞書の作成に必要な複数の話者の学習パターンを如何に
して効率良く収集し、直交化辞書を作成するかと云う点
でも問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、複数の話者から収集される少な
い学習パターンにて認識性能の高い直交化辞書を効率的
に作成し、複数の利用者にて利用可能な認識性能の高い
音声認識装置を提供することにある。

［発明の構成］（聞届点を解決するための手段）本発明は入力音声を分析処理して求められる入力音声パ
ターンと、予め収集された学習パターンに基いて作成さ
れている直交化辞書との間で類似度を計算して上記入力
音声を認識する音声認識装置において、上記直交化辞書として最初に登録する話者の学習パター
ンから基本となる直交軸を決定して基準となる辞書を作
成し、２番目以降の話者の学習パターンからの辞書作成
については、既に登録されている辞書の軸と直交する新
たな軸を決定しながら、この新たな軸の辞書を登録する
か否かを、例えばその軸のノルムの値から判定し、前記
直交化辞書を順次構築していくようにしたことを特徴と
するものである。

（作用）本発明によれば、最初に登録対象となった話者からの学
習パターンから基本となる直交軸が決定されて辞書の作
成が行なわれ、その後、次の話者からの学習パターンに
基づく辞書作成に際しては、既に作成されている辞書の
軸と直交する軸が求められ、この新たな軸についての辞
書が求められる。そしてそのノルムの値を判定すること
によって辞書に追加登録するか否かを調べ、辞書として
有用な場合にのみその辞書登録が行なわれる。

この結果、複数の話者の学習パターンから、そのパター
ン変動要素を効率良く表現した直交化辞書を構築してい
くことが可能となり、認識性能の高い直交化辞書を得る
ことが可能となる。しかも基本となる直交軸の辞書に対
して、他の話者の変動パターンを直交ベクトルの組に効
率良く組入れて辞書表現することが可能となるので、そ
の計算量を少なくし、簡易に効率良く辞書を作成してい
くことが可能となる。

（実施例）以下、図面を参照して本発明の一実施例につき説明する
。

第１図は本発明に係る一実施例方式を適用して構成され
る音声認識装置の概略構成図で、第４図に示した従来装
置と同一部分には同一符号を付して示しである。

この実施例装置が特徴とするところは、パターン蓄積部
７に蓄積された学習パターンを用いて直交化辞書９を作
成する手段として、直交ベクトル計算部８ａ、直交ベク
トル登録判定部８ｂ、および残差ノルムメモリ８ｃとか
らなる直交化辞書作成部８を設け、第２図にこの直交化
辞書作成部８における処理概念を模式的に示すように、
先ず最初（１人目）の話者から求められた学習パターン
に従って、基本となる直交軸を決定して最初の辞書を作
成し、その後の２人目以降の話者から求められる学習パ
ターンに従う辞書作成については、上記基本軸に直交す
る軸（既に登録されている辞書の各軸にそれぞれ直交す
る軸）の辞書を求め、この辞書を登録するか否かを逐次
判定しながら前記辞書に加えていくことで、直交化辞書
９を構築していくようにした点を特徴としている。

尚、ここではパターン蓄積部７に収集される学習パター
ンとしては、例えばｊ　　（−１，２，〜６）で示され
る６点の音響分析された特徴ベクトルからなり、その音
声区間をｋ　（−０，１，２，〜１１）として１１等分
する１２個の標本点に亙って採取したデータ系列として
与えられるものとして説明する。

しかして前記直交化辞書作成部８は、カテゴリｉについ
て、最初の話者から３個ずつ収集した際のｍ番目の学習
パターンをａｍ（ｊ、ｋ）としたとき、この最初の話者
に対する直交化辞＠９を次のようにして作成している。

ら、その平均パターンＡ　　　を（ｊ、ｋ）［ｊ−１，２，〜１Ｂ、　　ｋ−０，１，２，〜１７］
として求める。

■　しかる後、上述した如くして求めた平均パターンＡ
（ｊ、ｋ）を用いて、ｂｌ（ｊ、ｋ）　　　（ｊ、に−１）　　　　（ｊ、ｋ
）　　　（ｊ、に＋１）−Ａ　　　　　　　　　＋２＊
Ａ　　　　　　　＋Ａ［ｊ＝１，２．〜ＩＬ　　ｋ−１
，２，〜１６］　　　　　　　　　・・・（６）なる演
算にて第１軸の辞書ｂ　　　を求め、これ１（ｊ、ｋ）を直交化辞書９に登録する。この辞書ｂｌ（ｊ、ｋ）は
前記平均パターンＡ　　　を時間軸方向に平滑化（ｊ、
ｋ）したものとして求められ、直交化辞書９の基準となる第
１軸の辞書データとして登録される。

■　しかる後、前記平均パターンＡ（ｊ、ｋ）を用い、
ｂ２（ｊ、ｋ）　　　　Ｕ、に−１）　　　Ｕ、に＋１
）−−Ａ　　　　　＋Ａ［ｊ−１，２，〜　１Ｂ、　　　ｋ−１，２，〜　１６
コ　　　　　　　　　　　　　　・・・（７）なる演算
にて第２軸の辞書ｂ２（ｊ、ｋ）を求め、これを正規化
した後に前記直交化辞書９に登録する。

この辞”　ｂ２Ｕ、ｋ）は前記平均パターンＡ（ｊ、ｋ
）を時間軸方向に微分したものとして求められる。

尚、このようにして計算される第２軸の辞書ｂ２＜ｊ、
ｋ）は、前記第１軸の辞書ｂ　　　に対して１　（ｊ　
、ｋ）完全には直交していないことから、８２（ｊ、ｋ）−ｂ２（ｊ、ｋ） −（ｂ２（ｊ、ｋ）　　　ｌ（ｊ、ｋ））”　１（ｊ、
ｋ）φｂなる再直交化処理を施し、この再直交化された辞書デー
タＢ２Ｕ、ｋ）を正規化後、新たな第２軸の辞書ｂ　　
　として前記直交化辞書９に登録するよ２（ｊ、ｋ）うにしても良い。

尚、最初の話者からの学習パターンに従う直交化辞書を
ここでは第２軸まで作成する例を示したが、更に２次微
分を行なう等して３軸以降の辞書を作成することも勿論
可能である。

■　しかる後、上述した如く求められる直交化辞書につ
いて、直交ベクトル計算部８ａにて前記パターン蓄積部
７に格納されている学習パターンから、上記直交化辞書
に直交する付加辞書を次のようにして作成する。

即ち、この付加辞書の作成は、前記パターン蓄積部７に
収集された学習パターンａｍ（ｊ、ｋ）について、既に
求められている直交化辞書の軸数をＰとしたとき［ｎ　ｍｌ、２．〜ｐ　、　ｍｍＬ、２．〜Ｍｌなるグ
ラムシュミットの直交化式を演算して行われる。そして
この新しく求められた直交ベクトル（付加辞書）ｂ　　
を直交ベクトル登録判定部８ｂＰ＋■ に与え、そのノルムｌｌｂ　　　ＩＩが所定値よりも大
Ｉきい場合、これを付加辞書としてパターン正規化処理を
施した後に前記直交化辞書９に登録する。

この際、上記ノルムＩｌｂ　　　１１の値を残差ノルム
ｐｍテーブル８Ｃに登録する。

以上の■〜■の処理を各カテゴリ毎に繰返し実行するこ
とによって各カテゴリｉについての直交化辞書９が作成
される。そして最初の話者からの学習パターンに従う直
交化辞書作成が終了する。

次に２人目以降の話者からの学習パターンを用いた辞書
作成については、パターン蓄積部７に格納された学習パ
ターンについて上述した■に示される処理だけを実行す
る。つまり前記パターン蓄積部７に収集された学習パタ
ーンａｌｌ（ｊ、ｋ）について、既に求められている直
交化辞書の軸数をＰとしたとき、前述した［　ｎ　ｗ　１．２．〜ｐ　、　ｍ　−１，２，〜Ｍｌ
なるグラムシュミットの直交化式を演算して新たな軸の
辞書を求める。そしてこの新しく求められた直交ベクト
ル（新たな軸の辞書）ｂ　　を前記Ｐ十鳳直交ベクトル登録判定部８ｂに与え、そのノルム１１ｂ
　　　ＩＩが所定値よりも大きい場合、これを新Ｐ＋■ たに登録すべき辞書としてパターン正規化処理を施した
後に前記直交化辞書９に登録する。

尚ミ新たに求められた軸の辞書の前記直交化辞書９への
登録に際しては、直交化辞書９として予め定められてい
る軸数を越えることがある。このような場合、新たな軸
の辞書登録を中止すると、その辞書を得た話者に対する
認識性能が劣化する虞れがある。そこでこのような場合
には、前記残差ノルムメモリ８ｃからそのカテゴリｉに
ついての各軸での残差ノルムｌｌｂ　　　Ｉ＋をそれぞ
れ読出し、ｐｍ新たな軸の残差ノルムの値と比較する。そして既に登録
された辞書の中で、その残差ノルムの値が小さいものが
あれば、その残差ノルムに対応する辞書（直交ベクトル
）を前記直交化辞書９から抹消し、代わりに前述した新
しく求められた辞書（直交ベクトル）を辞書登録する。

この場合、残差ノルムメモリ８ｃにおける対応ノルムの
値も書替えることは勿論のことである。

以上のようにして最初の話者の学習パターンから求めら
れる直交軸の辞書を基本として、次の話者から求められ
る学習パターンに従う直交ベクトルを順次辞書登録して
直交化辞書９を構築していく。この結果、一定の人数範
囲内であれば、その全ての登録話者の入力音声パターン
に対して認識性能の高い直交化辞書９を得ることが可能
となり、その認識性能の向上を図ることが可能となる。

また上述したように簡単な演算処理によって新たな軸の
辞書を逐次作成していくので、その処理負担が非常に軽
く、複数の話者に適応し得る直交化辞書９を効率的に作
成することが可能となる等の効果が奏せられる。

次表は男性５名１女性３名から数字音声と人名からなる
３０語の音声データをそれぞれ１３回に亙って収集し、
そのうちの３回分を学習用、残り１０回分を認識性能評
価に用いた実験例を示すものである。

表尚、この表における話者Ａは比較的性能の悪い話者であ
り、話者Ｂは性能の良い話者である。またこれらの結果
は、１０名の話者の全てが辞書登録を終えた時点での直
交化辞書セットを用いたときの認識性能を示している。

尚、参考として上記話者Ａ、Ｂが単独で、所謂特定話者
で直交化辞書を作成したときの認識性能はそれぞれ９２
．５％。

９８．３％であった。

この実験データに示されるように、本方式によれば１０
名程度の登録話者に対して上述した如く直交化辞書９を
作成することで、その登録順序に拘らず全ての登録話者
に対して安定に、また比較的高い性能で音声認識し得る
ことが明らがとなった。

尚、本発明は上述した実施例に限定されるものではない
。ここでは最初の登録話者がら２軸の直交化辞書を作成
する例について説明したが、更に多くの軸数の直交化辞
書を作成することも可能である。この場合、直交化フィ
ルタの係数としては幾つかのバリエーションが考えられ
るが、要は学習パターンを平滑、１次微分、２次微分、
・・・すれば良いものであり、種々変形して実施するこ
とができる。また学習パターンの次元数等も特に限定さ
れるものでもない。更には新たに作成する辞書の軸数も
学習パターン数に応じて定めれば良く、グラムシュミッ
ト以外の直交化法を用いて辞書を作成することも可能で
ある。その他、本発明はその要旨を逸脱しない範囲で変
形して実施可能である。

［発明の効果］以上説明したように本発明によれば複数の話者から収集
した学習パターンを用いて、これらの話者に対応可能な
直交化辞書を簡易に、且つ性能良く生成していくことが
可能なので、少ない学習パターンでパターンの変動を効
果的に表現した辞書を得ることができ、その認識性能の
向上を図り得る等の実用上多大なる効果を奏する。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識装置の概略構
成図、第２図は実施例装置における直交化辞書作成の概
念を模式的に示す図、第３図および第４図はそれぞれ従
来の音声認識装置の概略構成を示す図である。 ■・・・音響分析部、２・・・始端・終端検出部、５・
・・判定部、′８・・・標本点抽出部、７・・・パター
ン蓄積部、訃・・直交化辞書作成部、９・・・直交化辞
書、１Ｇ・・・類似度演算部、８ａ・・・直交ベクトル
計算部、８ｂ・・・直交ベクトル登録判定部、８ｃ・・
・残差ノルムメモリ。出願人代理人　弁理士　鈴江武彦

Claims

【特許請求の範囲】入力音声を分析処理して求められる入力音声パターンと
、予め収集された複数話者の学習パターンに基いて作成
されている直交化辞書との間で類似度を計算して上記入
力音声を認識する音声認識装置において、上記直交化辞書として最初に登録する話者の学習パター
ンから基本となる直交軸を決定し、２番目以降の話者の
学習パターンからの辞書作成は、既に登録されている辞
書の軸と直交する新たな軸を決定し、この新たな軸の辞
書を登録するか否かを判定して前記直交化辞書を構築す
ることを特徴とする音声認識装置。