JP3011997B2 - 参照ベクトル更新方法 - Google Patents
参照ベクトル更新方法Info
- Publication number
- JP3011997B2 JP3011997B2 JP2310968A JP31096890A JP3011997B2 JP 3011997 B2 JP3011997 B2 JP 3011997B2 JP 2310968 A JP2310968 A JP 2310968A JP 31096890 A JP31096890 A JP 31096890A JP 3011997 B2 JP3011997 B2 JP 3011997B2
- Authority
- JP
- Japan
- Prior art keywords
- reference vector
- vector
- category
- updating
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 技術分野 本発明は、参照ベクトル更新方法、より詳細には、音
声認識、画像認識などの照合部における参照ベクトル更
新方法に関する。
声認識、画像認識などの照合部における参照ベクトル更
新方法に関する。
従来技術 パターン照合において、参照ベクトルを更新する方法
として、学習ベクトル量子化という手法が知られている
(例えば、「学習ベクトル量子化と多層パーセプトロン
との統一的扱い」電子情報通信学会技術研究報告MBE88
−72,1988年)。
として、学習ベクトル量子化という手法が知られている
(例えば、「学習ベクトル量子化と多層パーセプトロン
との統一的扱い」電子情報通信学会技術研究報告MBE88
−72,1988年)。
この手法は、カテゴリーが既知である入力ベクトルに
対して、最近傍の参照ベクトル1のカテゴリーが異る
場合に参照ベクトルを更新して最適なカテゴリー境界の
作成を目指すものである。
対して、最近傍の参照ベクトル1のカテゴリーが異る
場合に参照ベクトルを更新して最適なカテゴリー境界の
作成を目指すものである。
例えば、音素認識の例で説明すると、音素は、大まか
に言えば、発音記号に対応するものであるが、これを孤
立発声することはできないので、音素の辞書(参照ベク
トル)を作成もしくは更新する際は、単語もしくは単音
節の発声データから該当する音素の部分を切り出して、
作成(更新)用のデータとしている。
に言えば、発音記号に対応するものであるが、これを孤
立発声することはできないので、音素の辞書(参照ベク
トル)を作成もしくは更新する際は、単語もしくは単音
節の発声データから該当する音素の部分を切り出して、
作成(更新)用のデータとしている。
第3図は、「ザ」/za/の音声パターンを模式的に表わ
したものであり、横軸は時間軸、縦軸は、特徴量を示し
ている。
したものであり、横軸は時間軸、縦軸は、特徴量を示し
ている。
ここで「ザ」の音声パターンを時間的に2つの部分に
分割して、それぞれ/z/,/a/の参照ベクトルを更新する
場合を考える。
分割して、それぞれ/z/,/a/の参照ベクトルを更新する
場合を考える。
第3図のAの部分は明らかに/z/,Cの部分は/a/の特徴
を示しているが、Bの部分の扱いが難しい。Bの部分の
どこかに境界を決めて、前半を/z/,後半を/a/の更新用
データとする方法では、境界の微かなズレで、参照ベク
トルが大きく変更されてしまう可能性がある。
を示しているが、Bの部分の扱いが難しい。Bの部分の
どこかに境界を決めて、前半を/z/,後半を/a/の更新用
データとする方法では、境界の微かなズレで、参照ベク
トルが大きく変更されてしまう可能性がある。
特に学習ベクトル量子化のように、更新用入力ベクト
ルと参照ベクトル1のカテゴリーが等しくない場合
に、 1=(1+α)1−α (1) (αは更新係数)とする方法では、本来1と同じカテ
ゴリーのベクトル成分を含む入力ベクトル(Bの領
域)と遠ざかる方向へベクトル1(/z/あるいは/a/の
参照ベクトル)が歪む可能性がある。
ルと参照ベクトル1のカテゴリーが等しくない場合
に、 1=(1+α)1−α (1) (αは更新係数)とする方法では、本来1と同じカテ
ゴリーのベクトル成分を含む入力ベクトル(Bの領
域)と遠ざかる方向へベクトル1(/z/あるいは/a/の
参照ベクトル)が歪む可能性がある。
一方、Bの領域を更新用のベクトルとして使用せず、
Aの領域を/z/の更新用、Cの領域を/a/の更新用の入力
ベクトルとする方法も考えられる。この方法では、A,C
の領域を忠実に再現する参照ベクトル群が形成される。
しかし、Bの領域の入力ベクトルは、参照ベクトルの形
成に全て寄与していないので、/z/,/a/以外の音素の参
照ベクトルが、Bの領域のベクトルと最も近傍に配置さ
れる可能性がある。
Aの領域を/z/の更新用、Cの領域を/a/の更新用の入力
ベクトルとする方法も考えられる。この方法では、A,C
の領域を忠実に再現する参照ベクトル群が形成される。
しかし、Bの領域の入力ベクトルは、参照ベクトルの形
成に全て寄与していないので、/z/,/a/以外の音素の参
照ベクトルが、Bの領域のベクトルと最も近傍に配置さ
れる可能性がある。
目的 本発明は、上述のごとき実情に鑑みてなされたもの
で、例えば、第3図に示した例において、/z/,/a/の参
照ベクトるを歪ませることなく、また、Bの領域で、/z
/,/a/以外の参照ベクトルが最近傍に配置されることの
ない参照パターン更新方法を提供することを目的とする
ものである。
で、例えば、第3図に示した例において、/z/,/a/の参
照ベクトるを歪ませることなく、また、Bの領域で、/z
/,/a/以外の参照ベクトルが最近傍に配置されることの
ない参照パターン更新方法を提供することを目的とする
ものである。
構成 本発明は、上記目的を達成するために、カテガリーが
kであると既知である入力ベクトルに対して、参照ベ
クトル群の中で最も入力ベクトルと類似している参照
ベクトル1のカテゴリーがm(≠k)である場合に、
該参照ベクトル1と、カテゴリーkに属する参照ベク
トル群の中で最も入力ベクトルと類似している参照ベ
クトル2を更新する参照ベクトル更新方法において、
カテゴリーk,mの組み合わせによって参照ベクトルを更
新するか否かを記述した参照ベクトル更新カテゴリー表
を具備し、該カテゴリーの組(k,m)が、該参照ベクト
ル更新カテゴリー表の情報によって更新すると判定され
た場合のみ、該参照ベクトル1,2を更新することを
特徴としたものである。以下、本発明の実施例に基いて
説明する。
kであると既知である入力ベクトルに対して、参照ベ
クトル群の中で最も入力ベクトルと類似している参照
ベクトル1のカテゴリーがm(≠k)である場合に、
該参照ベクトル1と、カテゴリーkに属する参照ベク
トル群の中で最も入力ベクトルと類似している参照ベ
クトル2を更新する参照ベクトル更新方法において、
カテゴリーk,mの組み合わせによって参照ベクトルを更
新するか否かを記述した参照ベクトル更新カテゴリー表
を具備し、該カテゴリーの組(k,m)が、該参照ベクト
ル更新カテゴリー表の情報によって更新すると判定され
た場合のみ、該参照ベクトル1,2を更新することを
特徴としたものである。以下、本発明の実施例に基いて
説明する。
第1図は、本発明を音素認識を行なう音声認識装置の
参照パターン更新部に適用した場合の一実施例を説明す
るための図で、マイクなどの入力装置1から入力された
音声信号は、特徴系列変換部2によって特徴ベクトルの
時系列である音声パターンX=1 2…I(Iは入
力音声のフレーム数)に変換される。
参照パターン更新部に適用した場合の一実施例を説明す
るための図で、マイクなどの入力装置1から入力された
音声信号は、特徴系列変換部2によって特徴ベクトルの
時系列である音声パターンX=1 2…I(Iは入
力音声のフレーム数)に変換される。
音声認識に有効な特徴ベクトルとしては、さまざまな
ものが知られており、例えば、フレーム周期10msごとに
中心周波数250〜6300Hzに配置された15個のバンドパス
フィルタ群の出力を用いれば良い。
ものが知られており、例えば、フレーム周期10msごとに
中心周波数250〜6300Hzに配置された15個のバンドパス
フィルタ群の出力を用いれば良い。
入力された参照ベクトル更新用の音声パターンは、パ
ターン分割部3で、音素ごとに分割される。分割の方法
は、様々な方法が知られており、例えば、特徴ベクトル
の差分ベクトルが極大になるフレームとすれば良い。
ターン分割部3で、音素ごとに分割される。分割の方法
は、様々な方法が知られており、例えば、特徴ベクトル
の差分ベクトルが極大になるフレームとすれば良い。
例えば、第3図に示した単音節「ザ/za/」が入力され
た場合、1〜bフレームのベクトルが/z/の参照ベクト
ル更新用、b+1〜Iフレームのベクトルが/a/の参照
ベクトル更新用のデータとなる。
た場合、1〜bフレームのベクトルが/z/の参照ベクト
ル更新用、b+1〜Iフレームのベクトルが/a/の参照
ベクトル更新用のデータとなる。
参照ベクトル更新部4では、以下に第2図を参照して
述べる動作で、参照ベクトルを更新する。
述べる動作で、参照ベクトルを更新する。
入力ベクトルのカテゴリーをkとする。まず参照ベ
クトル格納部5に格納されている全ての参照ベクトルの
中で、に最も類似した参照ベクトル1を検出する。
1の属するカテゴリーmがkと異なる場合には、カテ
ゴリーkに属する参照ベクトルの中で、最もに類似し
た参照ベクトル2を検出する。
クトル格納部5に格納されている全ての参照ベクトルの
中で、に最も類似した参照ベクトル1を検出する。
1の属するカテゴリーmがkと異なる場合には、カテ
ゴリーkに属する参照ベクトルの中で、最もに類似し
た参照ベクトル2を検出する。
ここで、カテゴリーの組(k,m)が、参照ベクトル更
新カテゴリーテーブル6の情報から参照ベクトルを更新
すると判定された場合は、 1=(1+α)1−α (2) 2=(1−α)2+α (3) (αは更新係数) のように1をから遠ざけ、2をに近づける操作
を行なう。将来未知入力としてと同様の形状を持つベ
クトルが入力された際は、カテゴリーkの参照ベクトル
1との類似性が大きくなり、誤認識しにくくなる。
新カテゴリーテーブル6の情報から参照ベクトルを更新
すると判定された場合は、 1=(1+α)1−α (2) 2=(1−α)2+α (3) (αは更新係数) のように1をから遠ざけ、2をに近づける操作
を行なう。将来未知入力としてと同様の形状を持つベ
クトルが入力された際は、カテゴリーkの参照ベクトル
1との類似性が大きくなり、誤認識しにくくなる。
例えばカテゴリーkを/z/の音素、カテゴリーmを/a/
の音素とすれば、(k,m)は、参照ベクトルを更新しな
いように設定しておく。このようにすれば、第3図のB
領域の前半部(bフレーム以前)のベクトルに対して、
最近傍の参照ベクトルとして、/a/のベクトルが配置さ
れていた場合、1(/a/の参照ベクトル)は更新され
ない。つまり、B領域の部分は/z/もしくは/a/と判定さ
れるように参照ベクトルが更新される。
の音素とすれば、(k,m)は、参照ベクトルを更新しな
いように設定しておく。このようにすれば、第3図のB
領域の前半部(bフレーム以前)のベクトルに対して、
最近傍の参照ベクトルとして、/a/のベクトルが配置さ
れていた場合、1(/a/の参照ベクトル)は更新され
ない。つまり、B領域の部分は/z/もしくは/a/と判定さ
れるように参照ベクトルが更新される。
仮に、第3図の音声パターンが未知の入力として、認
識装置に入力された場合、A領域が/z/、C領域が/a/と
判定されれば、B領域が/z/、/a/のいずれに判定されよ
うとも音声パターン全体としては、/za/と正しく認識さ
れる。このため、第1図のパターン分割部3で決定され
る、分割点(bフレーム)の位置が多少前後に移動して
も、正しく配置された参照ベクトルが得られるので、パ
ターン分割部で正確な分割を行なう必要がなくなり処理
量を軽減できる。
識装置に入力された場合、A領域が/z/、C領域が/a/と
判定されれば、B領域が/z/、/a/のいずれに判定されよ
うとも音声パターン全体としては、/za/と正しく認識さ
れる。このため、第1図のパターン分割部3で決定され
る、分割点(bフレーム)の位置が多少前後に移動して
も、正しく配置された参照ベクトルが得られるので、パ
ターン分割部で正確な分割を行なう必要がなくなり処理
量を軽減できる。
従って、第3図のB領域について/z/、/a/以外の音素
が最近傍に配置された場合は、/z/あるいは/a/と判定さ
れるように参照ベクトルが更新される。しかし、B領域
の前半部(bフレーム以前)が/a/と判定されても参照
ベクトルは更新されない。B領域は/z/、/a/の成分を共
に含んでいるため、参照ベクトルを式(2),(3)に
よって更新してしまうと参照ベクトルが歪んでしまう
が、本発明では、B領域については/z/、/a/のいずれか
の参照ベクトルが最近傍にあれば良いように、参照ベク
トルが配置されるので参照ベクトルが歪む恐れがない。
が最近傍に配置された場合は、/z/あるいは/a/と判定さ
れるように参照ベクトルが更新される。しかし、B領域
の前半部(bフレーム以前)が/a/と判定されても参照
ベクトルは更新されない。B領域は/z/、/a/の成分を共
に含んでいるため、参照ベクトルを式(2),(3)に
よって更新してしまうと参照ベクトルが歪んでしまう
が、本発明では、B領域については/z/、/a/のいずれか
の参照ベクトルが最近傍にあれば良いように、参照ベク
トルが配置されるので参照ベクトルが歪む恐れがない。
効果 上述のように、本発明では、参照ベクトル更新カテゴ
リー表の情報によって、参照ベクトルを更新すると判定
された場合のみ参照ベクトルを更新するようにしてい
る。
リー表の情報によって、参照ベクトルを更新すると判定
された場合のみ参照ベクトルを更新するようにしてい
る。
このため、本発明の参照ベクトル更新方法によると、
歪のない参照ベクトルが正しく配置され、正確な音声認
識が可能になる。
歪のない参照ベクトルが正しく配置され、正確な音声認
識が可能になる。
第1図は、本発明の一実施例を説明するためのブロック
図、第2図は、第1図に示した参照ベクトル更新部のフ
ローチャート、第3図は、/za/の音声パターンの一例を
示す図である。 1……入力装置、2……特徴系列変換部、3……パター
ン分割部、4……参照ベクトル更新部、5……参照ベク
トル格納部、6……参照ベクトル更新カテゴリー表。
図、第2図は、第1図に示した参照ベクトル更新部のフ
ローチャート、第3図は、/za/の音声パターンの一例を
示す図である。 1……入力装置、2……特徴系列変換部、3……パター
ン分割部、4……参照ベクトル更新部、5……参照ベク
トル格納部、6……参照ベクトル更新カテゴリー表。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭59−77493(JP,A) 特開 昭63−38995(JP,A) 特開 平3−188499(JP,A) 特開 平3−90976(JP,A) 特開 平3−90975(JP,A) 特開 昭59−3491(JP,A) 特開 平4−158398(JP,A) 特公 昭61−51798(JP,B2) 特公 平4−22520(JP,B2) 特公 平3−31274(JP,B2) 特公 平4−24718(JP,B2) 特公 平4−46438(JP,B2) 特公 平7−52354(JP,B2) 特公 平8−33739(JP,B2) 日本音響学会平成2年度春季研究発表 会講演論文集,1−3−12,「混合連続 分布HMMに対する最適識別学習法の検 討」P.23−24 (58)調査した分野(Int.Cl.7,DB名) G10L 3/00 515 G10L 3/00 521 G10L 9/18 H03M 7/30 H04B 14/04 JICSTファイル(JOIS)
Claims (1)
- 【請求項1】カテゴリーがkであると既知である入力ベ
クトルに対して、参照ベクトル群の中で最も入力ベク
トルと類似している参照ベクトル1のカテゴリーが
m(≠k)である場合に、該参照ベクトル1と、カテ
ゴリーkに属する参照ベクトル群の中で最も入力ベクト
ルと類似している参照ベクトル2を更新する参照ベ
クトル更新方法において、カテゴリーk,mの組み合わせ
によって参照ベクトルを更新するか否かを記述した参照
ベクトル更新カテゴリー表を具備し、該カテゴリーの組
(k,m)が、該参照ベクトル更新カテゴリー表の情報に
よって更新すると判定された場合のみ、該参照ベクトル
1,2を更新することを特徴とする参照ベクトル更新
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2310968A JP3011997B2 (ja) | 1990-11-15 | 1990-11-15 | 参照ベクトル更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2310968A JP3011997B2 (ja) | 1990-11-15 | 1990-11-15 | 参照ベクトル更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04181298A JPH04181298A (ja) | 1992-06-29 |
JP3011997B2 true JP3011997B2 (ja) | 2000-02-21 |
Family
ID=18011571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2310968A Expired - Fee Related JP3011997B2 (ja) | 1990-11-15 | 1990-11-15 | 参照ベクトル更新方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3011997B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5481958B2 (ja) * | 2009-06-17 | 2014-04-23 | 大日本印刷株式会社 | 音素符号変換装置および音声合成装置 |
JP5471138B2 (ja) * | 2009-08-06 | 2014-04-16 | 大日本印刷株式会社 | 音素符号変換装置および音声合成装置 |
JP5360489B2 (ja) * | 2009-10-23 | 2013-12-04 | 大日本印刷株式会社 | 音素符号変換装置および音声合成装置 |
-
1990
- 1990-11-15 JP JP2310968A patent/JP3011997B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
日本音響学会平成2年度春季研究発表会講演論文集,1−3−12,「混合連続分布HMMに対する最適識別学習法の検討」P.23−24 |
Also Published As
Publication number | Publication date |
---|---|
JPH04181298A (ja) | 1992-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
JPH07334184A (ja) | 音響カテゴリ平均値計算装置及び適応化装置 | |
KR20010005674A (ko) | 인식 시스템 | |
JPH08234788A (ja) | 音声認識のバイアス等化方法および装置 | |
US6868381B1 (en) | Method and apparatus providing hypothesis driven speech modelling for use in speech recognition | |
JPH0612089A (ja) | 音声認識方法 | |
JPS6024597A (ja) | 音声登録方式 | |
EP0685835B1 (en) | Speech recognition based on HMMs | |
JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
JP3011997B2 (ja) | 参照ベクトル更新方法 | |
Wolfertstetter et al. | Structured Markov models for speech recognition | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
JPH02232696A (ja) | 音声認識装置 | |
JP3437492B2 (ja) | 音声認識方法及び装置 | |
CA2191377A1 (en) | A time-varying feature space preprocessing procedure for telephone based speech recognition | |
JP3315565B2 (ja) | 音声認識装置 | |
JP2002244697A (ja) | 音声認証装置、音声認証方法、及びプログラム | |
JP3036706B2 (ja) | 音声認識方法 | |
JP3302923B2 (ja) | 音声入力装置 | |
JP3316352B2 (ja) | 音声認識方法 | |
Munich et al. | Explicit modelling of common acoustic features for character recognition | |
JPH11212587A (ja) | 音声認識における雑音適応方法 | |
JP3166708B2 (ja) | 音声認識装置及び方法 | |
JP3448371B2 (ja) | Hmmの学習装置 | |
Blomberg et al. | Word recognition using synthesized reference templates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |