JP2684807B2

JP2684807B2 - 音声認識装置

Info

Publication number: JP2684807B2
Application number: JP2039696A
Authority: JP
Inventors: 和永吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1990-02-22
Filing date: 1990-02-22
Publication date: 1997-12-03
Anticipated expiration: 2012-12-03
Also published as: JPH03243996A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音声を認識する音声認識装置において、ベ
クトル量子化法を用いた認識手法の改良に関するもので
ある。

〔従来の技術〕

従来、音声認識を少ない計算量とメモリ量により実現
する方法として、ベクトル量子化法を用いたものが存在
した。たとえば、電子通信学会論文誌'82/8 Vol.J65−D
No.8の第1041頁から1048頁に「擬音韻標準パタンによ
る大語い単語音声認識」と題して発表されている論文
（以下、文献１と称す）に示されている方法がある。以
下、説明を簡単にするため、特定話者の単語を単位とし
た認識の場合について述べる。複数の話者に対する場合
や単語以外の認識単位に適用する場合も同様に行うこと
ができる。

音声パターンは特徴ベクトルの時系列で表されている
とする。標準パターンを作成する場合、学習用音声とし
て、認識対象となる単語の音声パターンを用意する。ま
ず、学習用音声中の全特徴ベクトルを少ない数で代表す
る特徴ベクトルの集合をクラスタリング法を用いて求め
る。このクラスタリング法には、例えば電子情報通信学
会編、中川聖一著「確率モデルによる音声認識」（以
下、文献２と称す）の第27頁に述べられているようなLB
Gアルゴリズムを用いることができる。これらの代表特
徴ベクトルをコードベクトルとし、このコードベクトル
の集合をコードブックとする。

認識対象となる単語の音声パターンは、このコードブ
ックを用いてベクトル量子化し標準パターンを作成す
る。すなわち、各特徴ベクトルを最も距離が近いコード
ベクトルを表すコードで置き換える。その結果得られ
た、コード列で表されたパターンを標準パターンとして
保持する。

一般に、コードベクトルの数は、全認識対象の音声パ
ターンを構成する特徴ベクトルの数と比べてかなり小さ
い。このため、特徴ベクトルの時系列で標準パターンを
表す場合と比べて、大幅に少ないメモリ量で標準パター
ンを表すことができる。

認識法として、文献１に述べられているようなDPマッ
チング法を用いる場合、ベクトル量子化を用いない方式
では、入力された音声パターンの特徴ベクトルと標準パ
ターンを構成する全ての特徴ベクトルとの間の距離を計
算する必要がある。一方、ベクトル量子化を用いた方式
では、まず各コードベクトルと入力された音声パターン
の特徴ベクトルとの間の距離が計算され、テーブルに保
持される。DPマッチング処理時に、標準パターンとの間
の距離の値が、必要に応じて対応するテーブルから読み
出される。これにより、ベクトル量子化を用いた方式で
は、標準パターンを構成する全ての特徴ベクトルとの間
の距離を計算する代わりに、各コードベクトルとの間の
距離のみを計算すればよいので、距離計算量を大幅に少
なくすることができる。

〔発明が解決しようとする課題」ベクトル量子化法を用いた音声認識において、最初の
少数の単語を登録する場合、それら少数の単語の音声パ
ターンを用いてコードブックが作られ、さらに、そのコ
ードブックを用いて標準パターンが作られる。この状態
から単語を新たに追加して登録する場合、すでに作られ
ているコードブックを用いて追加された単語をベクトル
量子化し標準パターンを作成することになる。このと
き、追加登録された単語中に、最初に登録された単語中
に存在しない音素がある場合は、その音素に対応するコ
ードベクトルがコードブック中に無いため、全く異なる
特徴ベクトルに同一コードが対応されるおそれがある。
この場合、ベクトル量子化による特徴ベクトルの歪が大
きくなるため、認識誤りが生じやすくなるという問題が
あった。

これを防ぐために、登録された単語のベクトル量子化
前の音声パターンを全て保存しておき、単語を追加登録
する場合、保存されている音声パターンと追加された音
声パターンを用いてコードブックをつくり直すという方
法がある。しかし、この方法では音声パターンを保存し
ておくため、多くのメモリが必要であるという問題があ
った。

本発明の目的は、ベクトル量子化を用いた音声認識に
おいて、メモリ量を増やすことなしに、新たに単語を追
加登録した場合も精度の良い標準パターンを作成できる
ようにして、認識性能の高い音声認識装置を提供するこ
とにある。

〔課題を解決するための手段〕第１の発明は、特徴ベクトルの時系列で表される音声
パターンの集合をベクトル量子化して標準パターンとし
て保持し、この標準パターンを用いて入力された音声パ
ターンを認識する音声認識装置において、前記音声パターンの集合からベクトル量子化のための
コードブックを作成するコードブック作成部と、前記コードブックを保持するコードブック記憶部と、前記コードブックを構成するコードベクトルに対応す
る前記音声パターンの集合中の特徴ベクトルの数である
コード出現度数を保持するコード出現度数記憶部と、前記コードブックを用いて前記音声パターンの集合を
ベクトル量子化しコード列で表される標準パターンを作
成する標準パターン作成部と、前記標準パターンを保持する標準パターン記憶部と、前記コードブックと前記標準パターンを用いて入力さ
れた音声パターンを認識する認識部とを有し、標準パターンを増やすために音声パターンを追加入力
した際に、前記コードブック作成部は、追加入力された
音声パターンを構成する特徴ベクトルと、前記コードブ
ックを構成するコードベクトルを前記コード出現度数に
応じた値で重みを付けたものから新しいコードブックを
作成し、前記標準パターン作成部は、既に保持されてい
る標準パターンに対しては新しいコードブックに古いコ
ードブックを対応づけることにより得られたコードに標
準パターンを変換し、追加入力された音声パターンに対
しては新しいコードブックを用いてベクトル量子化する
ことにより標準パターンを作成することを特徴とする。

第２の発明は、第１の発明において、標準パターンを
増やすために音声パターンを追加入力し、追加入力され
た音声パターンを構成する特徴ベクトルと、前記コード
ブックを構成するコードベクトルを前記コード出現度数
に応じた値で重み付けたものから新しいコードブックを
作成する際に、前記コード出現度数が予め定められた基
準より大きいコードベクトルを判定するコード出現度数
判定部をさらに有し、前記コードブック作成部は、前記コード出現度数判定
部により基準より大きいと判定されたコードベクトルに
対しては変更せずに新しいコードベクトルを作成するこ
とを特徴とする。

第３の発明は、第１または第２の発明のおいて、標準
パターンの一部に新しく入力された音声パターンを入れ
換える際に、除かれる標準パターン中で用いられている
コードブックの数を前記コード出現度数から除くコード
計数部をさらに有し、前記コードブック作成部は、新しく入力された音声パ
ターンを構成する特徴ベクトルと、前記コードブックを
構成するコードベクトルを求められた前記コード出現度
数に応じた値で重みを付けたものとから新しいコードブ
ックを作成することを特徴とする。

〔作用〕

本発明は、ベクトル量子化を用いた音声認識におい
て、単語を追加登録する場合、予め登録されている音声
と追加登録された音声双方を精度良く表せるコードブッ
クを用意することにより、高性能な音声認識を実現する
ものである。

学習用音声パターンは、特徴ベクトルｘ（ｉ）の時系
列で表される。単語ｗの学習用音声パターンをＸ_w＝
｛ｘ_w（ｉ）;i＝１…Ｎ_w｝とする。認識対象単語の音声
パターンの集合｛Ｘ_w;w＝１…Ｗ｝を用いて、コードベ
クトルｃ（ｊ）の集合であるコードブックＣ＝｛ｃ
（ｊ）;j＝１…Ｍ｝を作成する。このコードブックＣ
は、例えば文献２に示されているようなLBGアルゴリズ
ムを用いて求めることができる。このコードブックを求
める際に、コードベクトルｃ（ｊ）によって代表される
特徴ベクトルの集合Ｓ_jに含まれる特徴ベクトルの数を
求め、この数をコード出現度数ｋ（ｊ）とする。このコ
ード出現度数ｋ（ｊ）を、コードベクトルｃ（ｊ）と対
応付けて保持しておく。

続いて、学習用音声パターンｘ_wをコードブックＣを
用いてベクトル量子化する。すなわち、特徴ベクトルｘ
_w（ｉ）に対して、最もベクトル間距離ｄ（ｘ_w（ｉ）,c
（ｍ））が小さくなるコードベクトルｃ（ｍ）の番号
（コード）ｍを求め、学習用御音声パターンをコード列
Ｂ_w＝｛ｍ_w（ｉ）;i＝１…Ｎ｝に変換する。このコード
列Ｂ_wを、標準パターンとして保持しておく。

入力された音声パターンＡを認識する場合は、このコ
ードブックＣと標準パターンＢ_wを用いて、文献１に述
べられているようなDPマッチングによる方法で認識す
る。

ここで、認識対象単語を｛w;w＝Ｗ＋１…W2｝だけ追
加する場合を考える。この時、これらの単語に対する音
声パターンの集合｛Ｘ_w:w＝Ｗ＋１…W2｝を用いて、コ
ードブックＣを作り替える。既に作られているコードブ
ックＣ中のコードベクトルｃ（ｊ）と追加された音声パ
ターンの集合｛Ｘ_w;w＝Ｗ＋１…W2｝中の特徴ベクトル
ｘ_w（ｉ）から、新しいコードブックＣ_nを作成する。こ
れを文献２に示されているようなLBGアルゴリズムを用
いて実現できる。この時、求められた特徴ベクトルの集
合Ｓ_jの代表ベクトルであるセントロイドベクトルｓ
_jは、集合の要素である特徴ベクトルの平均ベクトルと
する。ここでは、平均ベクトルを求める際に、コードベ
クトルｃ（ｊ）についてはコード出現度数ｋ（ｊ）に応
じた重みを付加する。集合Ｓ_jに含まれるコードベクト
ルを｛ｃ（ｊ）;j＝１…Ｐ｝、特徴ベクトルを｛ｘ
（ｉ）;i＝１…Ｑ｝とすると、セントロイドベクトルｓ
_jは、となる。ここでｆ（ｋ）は重みを調整するための関数で
ある。ここでは、ｆ（ｋ）＝ｋ ……（２）なる関数を用いるとする。既に登録されている標準パタ
ーンに使われているコードベクトルを優先するため、コ
ード出現度数に対する重みを大きくしたい場合は、たと
えば、ｆ（ｋ）＝ｋ² ……（３）なる関数を用いればよい。

新しい標準パターンを作るときは、まず、コードブッ
クＣ中のコードベクトルｃ（ｊ）に最も距離が小さい、
新しいコードブックＣ_n中のコードベクトルｃ_n（ｇ
（ｊ））を選び出す。選び出された、コードｊに対応す
る新しいコードブックのコードをｇ（ｊ）とする。既に
登録されている標準パターン｛Ｂ_w;w＝１…Ｗ｝に関し
ては、コード列Ｂ_w＝｛ｍ_w（ｉ）;i＝１…Ｎ｝を置き換
え、Ｂ_w＝｛ｇ（ｍ_w（ｉ））;i＝１…Ｎ｝とする。

また、追加された認識対象単語｛w;w＝Ｗ＋１…W2｝
に対しては、新しいコードブックＣ_nを用いてベクトル
量子化し、コード列Ｂ_w＝｛ｍ_w（ｉ）;i＝１…Ｎ｝に変
換する。求められたコード列を標準パターンとする。

認識対象単語を追加した場合、既に登録されている標
準パターンは既にベクトル量子化されているため、これ
をコードブックＣを用いて特徴ベクトル列に戻し、さら
に新しいコードブックＣ_nを用いてベクトル量子化する
と、量子化誤差が累積されて標準パターンの精度が低下
してしまう。これを防ぐためには、標準パターンの量子
化に用いたコードベクトルは、認識対象単語が追加され
てもなるべく動かないようにすればよい。このとき、コ
ード出現度数ｋ（ｊ）が多いコードベクトル程、動かし
た際に標準パターンの精度低下に及ぼす影響が大きい。

そこで、第２の発明では、コード出現度数ｋ（ｊ）が
比較的大きいコードベクトルｃ（ｊ）に関しては、単語
を追加登録した場合もコードベクトルを動かさないよう
にする。たとえば、コード出現度数ｋ（ｊ）の上位ｎ個
に対するコードベクトルはクラスタリング中に変更しな
いとする。この方法として、たとえば、文献２に述べら
れているようなLBGアルゴリズムを用いる場合、まず、
コードブックの初期値としてコードブックＣを用いる。
続いて、コードベクトルｃ（ｊ）に対応する特徴ベクト
ルの集合Ｓ（ｊ）を求め、（１）式に従ってセントロイ
ドベクトルを求め、新しいコードベクトルｃ_n（ｊ）を
作成する。このとき、コード出現度数ｋ（ｊ）の上位ｎ
個に対するコードベクトルｃ（ｊ）は変更せずに、ｃ_n
（ｊ）＝ｃ（ｊ）とする。変更しないコードベクトルの
選び方としては、この他にもたとえば、コード出現度数
が予め定められた数Ｋ以上の場合は変更しないとする方
法等を用いることができる。

また、認識対象単語を変更する場合は、新しく追加さ
れる単語と共に、標準パターン中から除かれる単語が存
在する。このとき、除かれた単語に特有な特徴ベクトル
がある場合は、このような特徴ベクトルを表現するため
のコードベクトルがコードブック中に残ってしまう。コ
ードブック中のコードベクトルの数は限られているが、
このように、標準パターンを表現するために必要ないコ
ードベクトルがコードブック中に存在すると、標準パタ
ーンのベクトル量子化の精度が低下する。

そこで、第３の発明では、認識対象単語を除く場合
は、その標準パターンに含まれるコードの数だけコード
出現度数ｋ（ｊ）から除いて、コードブックを作成す
る。これにより、必要ないコードに関しては、コード出
現度数が少なくなるか、または０になるため、実際の標
準パターンに則したコードブックを作成することができ
る。

〔実施例〕

本発明による音声認識装置の実施例について図面を参
照して説明する。

第１図は第１の発明による一実施例を示す構成図であ
る。

この音声認識装置は、学習用音声パターンを保持する
学習用音声パターン記憶部１と、音声パターンの集合か
らベクトル量子化のためのコードブックを作成するコー
ドブック作成部２と、コードブックを保持するコードブ
ック記憶部３と、コードブックを構成するコードベクト
ルに対応する音声パターンの集合中の特徴ベクトルの数
であるコード出現度数を保持する出現度数記憶部４と、
コードブックを用いて音声パターンの集合をベクトル量
子化しコード列で表される標準パターンを作成する標準
パターン作成部５と、標準パターンを保持する標準パタ
ーン記憶部６と、コードブックと標準パターンを用いて
入力された音声パターンを認識する認識部７とを有して
いる。

以上の構成の音声認識装置において、まず標準パター
ンを登録する場合について説明する。入力された学習用
音声パターンＸは、学習用音声パターン記憶部１に保持
される。コードブック作成部２では、学習用音声パター
ン記憶部１に保持されている学習用音声パターンＸと、
コードブック記憶部３の中に保持されているコードブッ
クＣを用いて新しいコードブックＣ_nを作成する。コー
ド出現度数記憶部４中にはコード出現度数ｋが保持され
ている。コード出現度数ｋは初期値として全て０の値が
保持されている。コードブックは文献２に述べられてい
るようなLBGアルゴリズムを用いて作成する。このアル
ゴリズムを実行する中で、代表ベクトルｓは、コード出
現度数ｋを用いて（１）式に従って求める。求められた
新しいコードブックＣ_nおよびコード出現度数ｋは、そ
れぞれコードブック記憶部３とコード出現度数記憶部４
中に保持される。

標準パターン作成部５では、まずコードブック記憶部
３中に保持されているコードブックＣと新しく作られた
コードブックＣ_n中のコードベクトル間の対応テーブル
が作成される。このテーブルに従って標準パターン記憶
部６中に保持されている標準パターンＢが変換される。
続いて、コードブック記憶部３の中の新しいコードブッ
クＣ_nを用いて、学習用音声パターン記憶部１中の学習
用音声パターンＸがベクトル量子化され、標準パターン
Ｂとして標準パターン記憶部６中に保持される。標準パ
ターンを追加登録する際も、上に述べた処理が行われ
る。

認識時には、入力された音声パターンＸが認識部７に
て、コードブック記憶部３中のコードブックＣ_nと標準
パターン記憶部６中の標準パターンＢを用いて、文献１
に述べられているような方法で認識され、認識結果が出
力される。

第２図は、第２の発明による一実施例を示す構成図で
ある。

この音声認識装置は、標準パターンを増やすために音
声パターンを追加入力し、追加入力された音声パターン
を構成する特徴ベクトルと、コードブックを構成するコ
ードベクトルをコード出現度数に応じた値で重みを付け
たものから新しいコードブックを作成する際に、コード
出現度数が予め定められた基準より大きいコードベクト
ルを判定する出現度数判定部10を有し、コードブック作
成部２は、コード出現度数判定部10で基準より大きいと
判定されたコードベクトルに対しては変更せずに新しい
コードベクトルを作成する。その他の構成は第１図の音
声認識装置と同じである。

この音声認識装置では、学習用音声パターン記憶部１
に保持されている学習用音声パターンＸを基に、コード
ブック作成部２で新しいコードブックを作成する際に、
まず、コード出現度数判定部10では、コード出現度数記
憶部４からコード出現度数ｋを読み出し、コード出現度
数ｋが大きい順に上位ｎ個のコードを選び出す。コード
ブック作成部２では、この選び出された上位ｎ個のコー
ドは変更しないようにしてコードブックを作成する。

第３図は、第３の発明による一実施例を示す構成図で
ある。

この音声認識装置は、標準パターンの一部を新しく入
力された音声パターンと入れ換える際に、除かれる標準
パターン中で用いられているコードブックの数をコード
出現度数から除くコード計数部11を有し、コードブック
作成部２は新しく入力された音声パターンを構成する特
徴ベクトルと、コードブックを構成するコードベクトル
を求められたコード出現度数に応じた値で重みを付けた
ものとから新しいコードブックを作成する。その他の構
成は第１図の音声認識装置と同じである。

この音声認識装置では、認識対象単語を標準パターン
から除く場合、まず標準パターン記憶部６中から該当す
る標準パターンを取り除くと共に、除かれる標準パター
ン中に含まれているコードの数をコード係数部11におい
てコード毎に集計する。続いて、コード出現度数記憶部
４に保持されているコード出現度数ｋから集計されたコ
ード数を減算する。以降は、既に述べた標準パターン作
成処理に従う。

〔発明の効果〕

本発明によれば、ベクトル量子化を用いた音声認識に
おいて、認識語彙を変更しても精度の高い標準パターン
が得られるようにすることにより高性能の音声認識装置
を実現することができる。

【図面の簡単な説明】

第１図は、第１の発明による実施例を示す構成図、第２図は、第２の発明による実施例を示す構成図、第３図は第３の発明による実施例を示す構成図である。１……学習用音声パターン記憶部２……コードブック作成部３……コードブック記憶部４……コード出現度数記憶部５……標準パターン作成部６……標準パターン記憶部７……認識部 10……コード出現度数判定部 11……コード計数部

Claims

(57)【特許請求の範囲】

【請求項１】特徴ベクトルの時系列で表される音声パタ
ーンの集合をベクトル量子化して標準パターンとして保
持し、この標準パターンを用いて入力された音声パター
ンを認識する音声認識装置において、前記音声パターンの集合からベクトル量子化のためのコ
ードブックを作成するコードブック作成部と、前記コードブックを保持するコードブック記憶部と、前記コードブックを構成するコードベクトルに対応する
前記音声パターンの集合中の特徴ベクトルの数であるコ
ード出現度数を保持するコード出現度数記憶部と、前記コードブックを用いて前記音声パターンの集合をベ
クトル量子化しコード列で表される標準パターンを作成
する標準パターン作成部と、前記標準パターンを保持する標準パターン記憶部と、前記コードブックと前記標準パターンを用いて入力され
た音声パターンを認識する認識部とを有し、標準パターンを増やすために音声パターンを追加入力し
た際に、前記コードブック作成部は、追加入力された音
声パターンを構成する特徴ベクトルと、前記コードブッ
クを構成するコードベクトルを前記コード出現度数に応
じた値で重みを付けたものから新しいコードブックを作
成し、前記標準パターン作成部は、既に保持されている
標準パターンに対しては新しいコードブックに古いコー
ドブックを対応づけることにより得られたコードに標準
パターンを変換し、追加入力された音声パターンに対し
ては新しいコードブックを用いてベクトル量子化するこ
とにより標準パターンを作成することを特徴とする音声
認識装置。
【請求項２】標準パターンを増やすために音声パターン
を追加入力し、追加入力された音声パターンを構成する
特徴ベクトルと、前記コードブックを構成するコードベ
クトルを前記コード出現度数に応じた値で重み付けたも
のから新しいコードブックを作成する際に、前記コード
出現度数が予め定められた基準より大きいコードベクト
ルを判定するコード出現度数判定部をさらに有し、前記コードブック作成部は、前記コード出現度数判定部
により基準より大きいと判定されたコードベクトルに対
しては変更せずに新しいコードベクトルを作成すること
を特徴とする請求項１記載の音声認識装置。
【請求項３】標準パターンの一部に新しく入力された音
声パターンを入れ換える際に、除かれる標準パターン中
で用いられているコードブックの数を前記コード出現度
数から除くコード計数部をさらに有し、前記コードブック作成部は、新しく入力された音声パタ
ーンを構成する特徴ベクトルと、前記コードブックを構
成するコードベクトルを求められた前記コード出現度数
に応じた値で重みを付けたものとから新しいコードブッ
クを作成することを特徴とする請求項１または２記載の
音声認識装置。