JPH0225898A

JPH0225898A - 音声認識装置

Info

Publication number: JPH0225898A
Application number: JP63176703A
Authority: JP
Inventors: Tsuneo Nitta; 恒雄新田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1988-07-15
Filing date: 1988-07-15
Publication date: 1990-01-29
Also published as: US4979213A

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は特定のグループ構成員により共通に利用でき、
上記グループ構成員からの少ない学習パターンで高い認
識性能を得ることのできる音声認識装置に関する。

（従来の技術）音声による情報の入出力は人間にとって自然性が高く、
マン争マシン・インターフエ・−スとして優れた利点を
存することから従来より種々研究されている。現在、実
用化されている音声認識装置の殆んどは単語音声を認識
する方式のもので、。

一般的には第３図に示すように構成されている。

この装置は発声入力された音声を電気信号に変換して取
込み、バンド・バス・フィルタ等からなる音響分析部１
にて音響分析し、始端・終端検出部２にてその単語音声
区間を検出する。そして入力音声の上記単語音声区間の
音響分析データ（特徴情報；音声パターン）と、標準パ
ターン辞書３に予め登録されている認識対象単語の各標
準パターンとの類似度や距離等をパターン・マツチング
部４にて計算し、その計算結果を判定部５にて判定して
、例えば類偏度値の最も高い標準パターンのカテゴリ名
を前記入力音声に対する認識結果として求めるものとな
っている。

しかしこのようにパターンφマツチング法による音声認
識では入力音声パターンと予め登録されている標準パタ
ーンとの時間軸方向のずれ（パターン変形）が問題とな
る。そこで従来では、専ら線形伸縮や動的計画法（ＤＰ
）に代表される非線形伸縮等により、上述した時間軸方
向のずれに対する課題を解消している。

一方、このようなパターン・マツチング法とは別に、予
め収集された学習パターンから直交化辞書を作成し、こ
の直交化辞書を用いて音声認識する方式（部分空間法）
が提唱されている。この方式は第４図にその構成例を示
すように、音響分析されて音声区間検出された音声パタ
ーンから、標本点抽出部６にて上記音声区間を等分割し
た所定点数の標本点を抽出１２て［特徴ベクトルの数×
標本点数〕で示される標本パターンを求める。このよう
な標本パターンを認識対象とするカテゴリ毎に所定数ず
つ収集してパターン蓄積部７に格納する。そしてグラム
・シュミット（Ｏ８）直交化部８において、上記パター
ン蓄積部７に収集された所定数（３個以上）の標本パタ
ーンを用い、以下に示す手順で直交化辞書９を作成する
。

即ち、上記直交化辞書９の作成は、各カテゴリ毎にその
カテゴリのｍ回目の学習パターンをａＩｌｌとし、３回
発声された学習パターンを用いる場合には、 ■　１回目の学習データａ１を第１軸の辞書ｂ１とし、ｂ　　　ｍａ　　　　　　　　　　　　　　　　　　　
　　　　　　・・・（１）！■ これを直交化辞＠９に登録する。

■　２回目の学習データａ２からグラム・シュミットの
直交化式を用い、なる計算を行い、１ｌｂ２１１が一定値より大きい場合
、これを第２軸の辞書ｂ２として前記直交化辞書９に登
録する。但し、（・）は内積、１１１１はノルムを示す
。

■　そして３回目の学習データａ３から、なる計算を行
い、１ｌｂ３１１が一定値より大きい場合、これを第３
軸の辞＠ｂ３として前記直交化辞＠９に登録する。但し
、第２軸の辞書が求められていない場合には、上記（２
）式の計算を行う。

以上の■〜■の処理を各カテゴリについて繰返し実行し
て直交化辞書９を予め形成しておく。

類似度計算部ｌＯは上述した如く作成された直交化辞！
９と、入力音声パターンＸとの間でとして、カテゴリｉ
の直交化辞書ｂ　　との間の１、「類似度を計算するものである。これらの各カテゴリｉに
ついて求められた類似度値に従って上記入力音声パター
ンＸが認識される。尚、上記カテゴリｉの直交化辞書す
、　は予め正規化されたものＩｒであり、Ｋ１はカナ５１月の辞書の個数（軸数）を示し
ている。

このようなＯＳ直交化を用いることにより、その認識性
能の大幅な向上が図られている。また微分フィルタを用
いて時間軸方向および周波数方向の変動を吸収した直交
化辞書を作成し、更にその認識性能の向上を図ることも
試みられている。

ところがこの種の装置にあっては、専ら特定の話者に対
して標準音声辞書の作成が行なわれる。

この為、別の話者が上記音声認識装置を利用しようとす
る場合には、その都度、音声辞書を変更する必要が生じ
た。そこで多数の話者から数多くの学習パターンを収集
して直交化辞書を作成することが考えられているが、そ
の辞書作成が徒に複雑化し、認識性能の高い辞書を得る
ことが困難化する等の不具合が生じた。

（発明が解決しようとする問題点）このように従来の直交化辞書を用いた部分空間法による
音声認識にあっては、複数の話者から収集された学習パ
ターンから如何にし゛Ｃ性能の高い直交化辞書を効率良
く作成するかと云う点で課題が残されている。また直交
化辞書の作成に必要な複数の話者の学習パターンを如何
にして効率良く収集し、直交化辞書を作成するかと云う
点でも問題があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、複数の話者から収集される少な
い学習パターンにて認識性能の高い直交化辞書を効率的
に作成し、複数の利用者にて共通に利用可能な認識性能
の高い音声認識装置を提供することにある。

［発明の構成コ（問題点を解決するための手段）本発明は入力音声を分析°処理して求められる入力音声
パターンと、予め収集された学習パターンに基いて作成
されている直交化辞書との間で類似度を計算して上記入
力音声を認識する音声認識装置に係わり、個々の富者毎に収集された学習パターンの平均パターン
からそのボカシ処理パターンと微分処理パターンとをそ
れぞれ求める手段とを備え、１人目の話者の学習パター
ンから求められた上記ボカシ処理パターンと微分処理パ
ターンとから直交化辞書の基本となる直交軸を決定した
後、２人目以降の話者の学習バタ・−ンから求められた
上記ボカシ処理パターンと微分処理パターンとから、既
に辞書登録されている直交化辞書の各軸と直交する新た
な軸を決定し、この新たな軸のパターンを直交化辞書と
して登録するか否かを、例えばそのノルム値から判定し
て前記直交化辞書を構築していくようにしたことを特徴
とするものである。

（作用）本発明によれば、１人目の話者から収集された学習パタ
ーンから求められるボカシ処理パターンと微分処理パタ
ーンとから直交化辞書の基本となる直交軸が決定されて
辞書の作成が行なわれ、その辞書登録がなされた後、２
人目以降の話者から収集された学習パターンに基づく辞
書作成に際しては、既に作成されて辞書登録されている
直交化辞書の各軸と直交する軸が求められ、この新たな
軸についての辞書が上記個別話者の学習パターンから求
められる。そしてそのノルムの値を判定することによっ
て辞書に追加登録するか否かが調べられ、辞書として有
用な場合にのみ前記直交化辞書への追加辞Ｎ登録が行な
われる。

この結果、複数の話者の学習パターンから、そのパター
ン変動要素を効率良く表現した直交化辞書を構築してい
くことが可能となり、認識性能の高い直交化辞書を得る
ことが可能となる。しかも基本となる直交軸の辞書に対
して、個別話者の変動パターンを直交ベクトルの組に効
率良く組入れて辞書表現することが可能となるので、そ
の計算量を少なくし、簡易に効率良く辞書を作成してい
くことが可能となる。

（実施例）以下、図面を参照して本発明の一実施例につき説明する
。

第１図は本発明の一実施例に係る音声認識装置の概略構
成図で、第４図に示した従来装置と同一部分には同一符
号を付して示しである。

この実施例装置が特徴とするところは、パターン蓄積部
７に蓄積された学習パターンを用いて直交化辞書９を作
成する手段として、平均パターン計算部８ａ、ボカシ処
理部８ｂ、微分処理部８ｃ、１α直交クトル計算部８ｄ
、および直交ベクトル登録判定部８ｃとからなる直交化
辞書作成部８を設けた点にある。

この直交化辞書作成部８により、第２図にその処理概念
を模式的に示すように１人目の話者から収集された学習
パターンから求められる平均パターンのボカシ処理パタ
ーン（平滑化パターン）と微分処理パターンとに従って
直交化辞書の基本となる直交軸が決定され、最初の辞書
が作成されて直交化辞書９に辞書登録される。その後、
２人目以降の話者から収集された学習パターンがら同様
にして求められるボカシ処理パターン（平滑化バターン
）と微分処理パターンとに従って、既に登録されている
直交化辞書の各軸に直交する軸の辞書が求められ、辞書
登録される。

即ち、この直交化辞書作成部８における平均パターン計
算部８ａは、複数の話者毎にその話者から収集されてパ
ターン蓄積部７に蓄積されている学習パターンの平均パ
ターンを〜１算するものであり、ボカシ処理部８ｂは上
記平均パターンに対してボカシ処理を施し、上記平均パ
ターンを時間軸方向に平滑化したボカシ処理パターンを
求めるものである。また微分処理部８ｃは上記平均パタ
ーンを微分処理するもので、上記平均パターンを時間軸
方向に微分してなる微分処理パターンを求めている。

直交ベクトル計算部８ｄは先ず１人目の話者の学習パタ
ーンから求められた上記ボカシ処理パターンと微分処理
パターンとに従って直交化辞書の基本となる直交軸を決
定し、最初の辞書を作成して直交化辞：ｔ１９に辞書登
録する。その後、２人目以降の各話者の学習パターンか
ら求められた上記ボカシ処理パターンと微分処理パター
ンとに従って、上記基本軸に直交する輔（既に登録され
ている辞書の各軸にそれぞれ直交する軸）の辞書を求め
、この辞書を登録するか否かを直交ベクトル登録判定部
８ｅにて逐次判定１．ながう前記直交化辞書９に追加登
録して行くことで、認識性能の高い直交化辞書９を構築
していくものとなっている。

この直交化辞書作成部８における直交化辞書９の作成に
ついて更に詳しく説明すると、パターン蓄積部７に収集
される学習パターンとしては、例えばｊ　　（−１，２
，〜６）で示される６点の音響分析された特徴ベクトル
からなり、その音声区間をｋ（−０，１，２，〜１１）
として１１等分する１２個の標本点に亙って採取したデ
ータ系列として与えられる。

前記直交化辞書作成部８は、先ず辞書登録対象とするカ
テゴリｉについて１人目の話者がら順に３個づつ学習パ
ターンを収集する。しかる後、１人目の話者から順に収
集される学習パターン中のｍ番目の学習パターンをａＩ
ＩＩＵ、ｋ）としたとき、先ず１人目の話者の学習パタ
ーンに基づいて直交化辞書９を次のようにして作成して
いる。

■　先ず、平均パターン計算部８ａにて１人目の話者の
カテゴリｉの学習パターンａｍ（ｊ、ｋ）から、その平
均パターンＡ（ｊ、ｋ）を［ｊ−１，２，〜　ＩＥｆ、　　ｋ−ロ、！、２．〜　
＋７３として求める。

■　しかる後、士述した如く求めた平均パターンＡ（ｊ
、ｋ）を用いて、ボカシ処理部８ｂにてｂｌ（ｊ、ｋ）
　　　（ｊ、に−１）　　　　（ｊ、ｋ）　　　（ｊ、
に＋１）−１Ａ　　　　　　　　＋２本Ａ　　　　　　
　＋Ａ［ｊ＝１．２．〜１Ｂ、　　ｋ−１，２，〜１６
］　　　　　　　　　・・・（６）なるボカシ（平滑化
）演算を施し、ボヵシ処理パターンｂＩ（ｊ、ｋ）を求
める。直交ベクトル計算部８ｄはこのようにして求めら
れるボカシ処理パターンｂｌ（ｊ、ｋ）を第１軸の辞書
ｂ４０．ｋ）とし、基本軸の１つとして直交化辞書′９
に登録する。つまりこの辞”　ｂｌ（ｊ、ｋ）は前記平
均パターンＡ　　　を時間（ｊ、ｋ）軸方向に平滑化したものとして求められ、直交化辞ｉ！
Ｆ９の基準となる第１軸の辞書データとなる。

■　しかる後、微分処理部８ｃにて前記平均パターンＡ
（ｊ、ｋ）を用い、一−Ａ　　　　　＋Ａｂ２（ｊ、ｋ）　　　　Ｕ、に−１）　　　　Ｕ、に→
１）［ｊ＝１，２．〜１６．に−１，２，〜１６］　　
　　　　　　　・・・（７）なる微分演算を施し、微分
処理パターンｂ２（ｊ＝ｋ）を求める。直交ベクトル計
算部８ｄはこの微分処理パターンｂ２（ｊ、ｋ）を前記
直交化辞書の今１つの基本軸としての第２軸の辞書ｂ　
　　とし、これを２　（ｊ　、　ｋ）正規化した後に前記直交化辞Ｍ９に登録する。この第２
軸の辞＠ｂ２（ｊ、ｋ）は前述した平均パターンＡ（ｊ
、ｋ）を時間軸方向に微分したものとなる。

尚、このようにして計算される第２軸の辞書ｂ２（ｊ、
ｋ）は、前記第１軸の辞書１）１（ｊ、ｋ）に対して完
全には直交していないことから、８２（ｊ、ｋ）＝　ｂ２（ｊ、ｋ）（ｂｚ（ｊ、ｋ）　　　ｌ（ｊ、ｋ））ｂｌ（ｊ、ｋ）
番　ｂなる再直交化処理を施し、この再直交化された辞書デー
タＢ２（ｊ、ｋ）を正規化後、新たな第２軸の辞書ｂ２
（ｊ、ｋ）として前記直交化辞＠９に登録するようにし
ても良い。

またここでは第２軸まで作成する例を示すが、更に２次
微分を行なう等し、て３軸以降の辞書を基本軸の直交化
辞書として作成することも勿論可能である。

■　しかる後、上述した如く最初の話者の学習パターン
から求められた直交化辞書を基本とし、直交ベクトル計
算部８ｄにて２人目の話者の学習パターンに従って上記
直交化辞書に直交する付加辞書を次のようにして作成す
る。

即ち、この付加辞書の作成は、２人目の話者の学習パタ
ーンに従って、先ず前述した平均パターンＡ（ｊ、ｋ）
の計算と、この平均パターンに対するボカシ演算処理と
微分演算処理とをそれぞれ実行し、前記パターン蓄積部
７に収集された学習パターンａｍ（ｊ、ｋ）についての
ボカシ処理パターンＣｔおよび微分処理パターンＣ２と
をそれぞれ求める。

そして既に求められている直交化辞書の軸数をＰとした
とき［ｎ　＝　１．２＋〜ｐ　　、　　ｍ　−１，２］なる
ダグラシュミットの直交化式を演算１．て行われる。そ
してこの新しく求められた２人目の話者の特徴的変動を
表現する直交ベクトル（付加辞書）ｂ　　を直交ベクト
ル登録判定部８ｅに与え、そのｐｍノルムｌｌｂ　　　１１が所定値よりも大きいか否かを
Ｐ十ｍ判定する。そしてそのノルム値が所定値よりも大きい場
合、これをパターン変動を吸収するに有用な付加辞書で
あるとしてパターン正規化処理を施した後に前記直交化
辞８９に登録する。

以上の■〜■の処理を各カテゴリ毎に繰返し実行するこ
とによって各カテゴリｉについての直交化辞書９が作成
される。そして１人目の話者の学習パターンからその基
本軸が決定された直交化辞書へのイ・１加辞書の追加登
録がなされ、その充実化が図られ゛る。

次に３人目以降の話者からの学習パターンを用いた辞書
作成については、パターン蓄積部７に格納された学習パ
ターンについて上述した■に示される処理だけを実行す
る。つまり前記パターン蓄積部７に収集された学習パタ
ーンａｌ（Ｊ、ｋ）について、そのボカシ処理パターン
Ｃ１と微分処理パターンＣ２とを求めた後、既に求めら
れている直交化辞書の各軸に直交する新たな軸の辞書を
前述したグラムシュミットの直交化式に従って求める。

そしてこの新しく求められた直交ベクトル新たな軸の辞
Ｍ）ｂ　　直交化ベクトル登録判定部８ｅにｉ１ｍ与え、そのノルムｌｌｂ　　　ＩＩが所定値より大きい
ｐ＋ＩＩｌか否かを調べる。モしてノルムｌｂ　　　ＩＩの値がａ
ｌ所定値より大きい場合、これを新たに登録すべき辞書と
して、パターン正規化処理を施したのち、前記直交化辞
書９に登録する。

以上のようにして複数の話者の学習パターンから最初に
求められる直交軸の辞書を基本として、個々の話者から
求められる学習パターンに従う直交ベクトルを順次辞書
登録して直交化辞８９を構築していく。この結果、一定
の人数範囲内であれば、その全ての登録話者の入力音声
パターンに対して認識性能の高い直交化辞、！Ｆ９を得
ることが可能となり、その認識性能の向上を図ることが
可能となる。

また上述したように簡単な演算処理によって新たな軸の
辞書を逐次作成していくので、その処理負担が非常に軽
く、複数の話者に適応し得る直交化辞書９を効率的に作
成することが可能となる等の効果が奏せられる。

次表は男性５名１女性３名から数字音声と人名からなる
３０語の音声データをそれぞれ１３回に亙って収集；７
、そのうちの３回分を学習用、残り１０回分を認識性能
評価に用いた実験例を示すものである。

表尚、この表における話者Ａは比較的性能の悪い話者であ
り、話者Ｂは性能の良い話者である。またこれらの結果
は、１０名の話者の全てが辞書登録を終えた時点での直
交化辞書セットを用いたときの認識性能を示している。

尚、参考として上記話者Ａ、Ｂが単独で、所謂特定話者
で直交化辞書（４輔）を作成したときの認識性能はそれ
ぞれ９２．５％、　９８．３％であった。

この実験データに示されるように、本方式によればｌＯ
名程度の登録話者に対して上述した如く直交化辞Ｍ９を
作成することで、その登録順序に拘らず全ての登録話者
に対して安定に、また比較的訪い性能で音声認識し得る
ことが明らかとなった。

尚、本発明は上述した実施例に限定されるものではない
。ここでは最初に複数の登録記者から２輔の直交化辞書
を作成する例について説明したが、更に多くの軸数の基
本直交化辞書を作成することも可能である。この場合、
直交化フィルタの係数と１７では幾・っかのバリエーシ
ョンが考えられるが、要は学習パターンを平滑、１次微
分、２次微分。

・・・等すれば良いものであり、種々変形して実施する
ことができる。また学習パターンの次元数等も特に限定
されるものでもない。更には新たに作成する辞書の軸数
も学習パターン数に応じて定めれば良く、グラムシュミ
ット以外の直交化法を用いて辞書を作成することも可能
である。その他、本発明はその要旨を逸脱しない範囲で
変形して実施可能である。

［発明の効果］以上説明したように本発明によれば複数の話者から収集
した学習パターンを用いて、これらの話者に対応可能な
直交化辞書を簡易に、且つ性能良（生成していくことが
可能なので、少ない学習パターンでパターンの変動を効
果的に表現１．た辞書を得ることができ、その認識性能
の向上を図り得る等の実用上多大なる効果を奏する。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識装置の概略構
成図、第２図は実施例装置における直交化辞書作成の概
念を模式的に示す図、第３図および第４図はそれぞれ従
来の音声認識装置の概略構成を示す図である。１・・・音響分析部、２・・・始端・終端検出部、５・
・・判定部、６・・・標本点抽出部、７・・・パターン
蓄積部、８・・・直交化辞書作成部、９・・・直交化辞
書、１ｏ・・・類似度演算部、８ａ・・・平均パターン
計算部、８ｂ・・・ボカシ処理部、８ｃ・・・微分処理
部、８ｄ・・・直交ベクトル計算部、８ｏ・・・直交ベ
クトル登録判定部。出願人代理人　弁理士　鈴江武彦１、事件の表示特願昭６３−１７６７０３号２、発明の名称音　　声　　認　　識　　装　　置３、補正をする者事件との関係　特許出願人（３０７）　　株式会社　東　芝４、代理人東京都千代田区霞が関３丁目７番２号５、自発補正７、補正の内容（１）　　明細書、第４頁第１７行目にｒｂｌ−ａｌＪ
とあるをｒｂｌ−ａ１／１１　ｂｌｌｌｌと訂正する。（２）同、第４頁第１８行目に「登録する。」とある次
に「但し、＋１１１はノルムを示す。」なる文章を加入
する。（３）同、第５頁第１行目に示す式を下記の通り訂正す
る。記ｂ　　−ａ　　−（ａ　　−ｂｌ）　ｂ、　　　　−（
２）（４）同、第５頁第３行目に「これを第２軸」とあ
るを［ｂ２をＩＩ　ｂ　２ＩＩで正規化した後、第２軸
」と訂正する。（５）同、第５頁第４〜５行目に「内積、１１１１はノ
ルムを示す。」とあるを「内積である。」と訂正する。（６）同、第５頁第７行目に示す式を下記の通り訂正す
る。記ｂ　　−ａ　　−Σ　（ａ　　−ｂ　　）ｂ　　　−（
３）３　　２　、．１３　　　ｔａ　　　ｍ（７）同、
第５頁第９行目に「これを第３軸」とあるを「、３を１
ｌｂ３１１で正規化した後、第３軸」と訂正する。（８）同、第５頁第１１行目に「計算を行う。」とある
を「計算（但し、ａ　２−ａ　ａ　）を行う。」と１」
圧する。（９）同、第１３頁第６行目にｒ　［ｊ−１，２，〜１
Ｂ。ｋ−０，１，２，〜１７］」とあるをｒ　ｃｊ−ｉ、２
．〜６．に、−０゜１．２．〜１１］」と訂正する。（１０）同、第１３頁第１１行目にｒ　［ｊ＝１．２．
〜１Ｇ。ｋ−１，，２，〜１６］」とあるをｒ　［ｊ−１，２，
〜８．に−０，１゜２、〜１０コ」と訂正する。（１１）同、第１３頁第１５行目に「第１軸」とあるを
「図示しない正規化回路で正規化した後に第１軸」と訂
正する。（１２）同、第１４頁第４行目にｒ　［ｊ−Ｌ２．〜ｔ
ａ。ｋ−１，２，〜１Ｂ］」とあるをｒ　［ｊ−１，２，〜
８．に−０，ｉ。２、〜１０］」と訂正する。（１３）　　同、第１５頁末行に示す式を下記の通り訂
正する。に己？ｂ　　　　　　　ｍａ　　　　　−Σ　　　（ａ　　　
　争　ｂ　　　　）ｂＰｐｍ　　　　　　　ｒａ　　　
　　、１　　　　　　　ｍ　　　　　　　　ｎ　　　　
　　　ｎ（１４）同、第１８頁に示す表中の項目に「１
０人目」とあるを「８人目」と訂正する。（１５）同、第１８頁下から２行目、および第１９頁第
６行目にそれぞれ「１０名」とあるを「８名」と訂正す
る。

Claims

【特許請求の範囲】入力音声を分析処理して求められる入力音声パターンと
、予め収集された複数話者の学習パターンに基いて作成
されている直交化辞書との間で類似度を計算して上記入
力音声を認識する音声認識装置において、個々の話者毎にその話者から求められた複数の学習パタ
ーンの平均パターンを求め、この平均パターンからその
ボカシ処理パターンと微分処理パターンとをそれぞれ求
める手段とを備え、１人目の話者の学習パターンから求められた上記ボカシ
処理パターンと微分処理パターンとから直交化辞書の基
本となる直交軸を決定した後、２人目以降の話者の学習
パターンから求められた上記ボカシ処理パターンと微分
処理パターンとから、既に登録されている辞書の軸と直
交する新たな軸を決定し、この新たな軸の辞書を登録す
るか否かを判定して前記直交化辞書を構築する手段を備
えたことを特徴とする音声認識装置。