JPH04181298A - 参照ベクトル更新方法 - Google Patents
参照ベクトル更新方法Info
- Publication number
- JPH04181298A JPH04181298A JP2310968A JP31096890A JPH04181298A JP H04181298 A JPH04181298 A JP H04181298A JP 2310968 A JP2310968 A JP 2310968A JP 31096890 A JP31096890 A JP 31096890A JP H04181298 A JPH04181298 A JP H04181298A
- Authority
- JP
- Japan
- Prior art keywords
- reference vector
- vector
- input
- speech
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 abstract description 3
- 238000001228 spectrum Methods 0.000 abstract 2
- 238000013139 quantization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
伎嵐光互
本発明は、参照ベクトル更新方式、より詳細には、音声
認識、画像認識などの照合部における参照ベクトル更新
方式に関する。
認識、画像認識などの照合部における参照ベクトル更新
方式に関する。
従米1権
パターン照合において、参照ベクトルを更新する方式と
して、学習ベクトル量子化という手法が知られている(
例えば、「学習ベクトル量子化と多層パーセプトロンと
の統−的扱い」電子情報通信学会技術研究報告MBE8
8−72.1988年)。
して、学習ベクトル量子化という手法が知られている(
例えば、「学習ベクトル量子化と多層パーセプトロンと
の統−的扱い」電子情報通信学会技術研究報告MBE8
8−72.1988年)。
この手法は、カテゴリーが既知である入力ベクトルに対
して、最近傍の参照ベクトルy□のカテゴリーが異る場
合に参照ベクトルを更新して最適なカテゴリー境界の作
成を目指すものである。
して、最近傍の参照ベクトルy□のカテゴリーが異る場
合に参照ベクトルを更新して最適なカテゴリー境界の作
成を目指すものである。
例えば、音素認識の例で説明すると、音素は、大まかに
言えば、発音記号に対応するものであるが、これを孤立
発声することはできないので、音素の辞書(参照ベクト
ル)を作成もしくは更新する際は、単語もしくは単音節
の発声データから該当する音素の部分を切り出して、作
成(更新)用のデータとしている。
言えば、発音記号に対応するものであるが、これを孤立
発声することはできないので、音素の辞書(参照ベクト
ル)を作成もしくは更新する際は、単語もしくは単音節
の発声データから該当する音素の部分を切り出して、作
成(更新)用のデータとしている。
第3図は、「ザJ / z a /の音声パターンを模
式的に表わしたものであり、横軸は時間軸、縦軸は、特
徴量を示している。
式的に表わしたものであり、横軸は時間軸、縦軸は、特
徴量を示している。
ここで「ザ」の音声パターンを時間的に2つの部分に分
割して、それぞれ/z/、/a/の参照ベクトルを更新
する場合を考える。
割して、それぞれ/z/、/a/の参照ベクトルを更新
する場合を考える。
第3図のAの部分は明らかに/z/、Cの部分は/a/
の特徴を示しているが、Bの部分の扱いが難しい。Bの
部分のどこかに境界を決めて、前半を/2/、後半を/
a/の更新用データとする方法では、境界の微かなズレ
で、参照ベクトルが大きく変更されてしまう可能性があ
る。
の特徴を示しているが、Bの部分の扱いが難しい。Bの
部分のどこかに境界を決めて、前半を/2/、後半を/
a/の更新用データとする方法では、境界の微かなズレ
で、参照ベクトルが大きく変更されてしまう可能性があ
る。
特に学習ベクトル量子化のように、更新用入力ベクトル
Xと参照ベクトルy工のカテゴリーが等しくない場合に
、 yx=(1+α)yt−αX (1)(αは更新係
数)とする方式では1本来y工と同じカテゴリーのベク
トル成分を含む入力ベクトルx (Bの領域)と遠ざか
る方向へベクトル成分(/Z/あるいは/a/の参照ベ
クトル)が歪む可能性がある。
Xと参照ベクトルy工のカテゴリーが等しくない場合に
、 yx=(1+α)yt−αX (1)(αは更新係
数)とする方式では1本来y工と同じカテゴリーのベク
トル成分を含む入力ベクトルx (Bの領域)と遠ざか
る方向へベクトル成分(/Z/あるいは/a/の参照ベ
クトル)が歪む可能性がある。
一方、Bの領域を更新用のベクトルとして使用せず、A
の領域を/ z /の更新用、Cの領域を/ a /の
更新用の入力ベクトルとする方法も考えられる。この方
法では、A、Cの領域を忠実に再現する参照ベクトル群
が形成される。しかし、Bの領域の入力ベクトルは、参
照ベクトルの形成に全く寄与していないので、/z/、
/a/以外の音素の参照ベクトルが、Bの領域のベクト
ルと最も近傍に配置される可能性がある。
の領域を/ z /の更新用、Cの領域を/ a /の
更新用の入力ベクトルとする方法も考えられる。この方
法では、A、Cの領域を忠実に再現する参照ベクトル群
が形成される。しかし、Bの領域の入力ベクトルは、参
照ベクトルの形成に全く寄与していないので、/z/、
/a/以外の音素の参照ベクトルが、Bの領域のベクト
ルと最も近傍に配置される可能性がある。
■−−汐
本発明は、上述のごとき実情に鑑みてなされたもので1
例えば、第3図に示した例において、/z/、/a/の
参照ペクトるを歪ませることなく、また、Bの領域で、
/ z / 、 / a /以外の参照ベクトルが最近
値に配置されることのない参照パターン更新方式を提供
することを目的とするものである。
例えば、第3図に示した例において、/z/、/a/の
参照ペクトるを歪ませることなく、また、Bの領域で、
/ z / 、 / a /以外の参照ベクトルが最近
値に配置されることのない参照パターン更新方式を提供
することを目的とするものである。
講−一一収
本発明は、上記目的を達成するために、カテゴリーがk
であると既知である入力ベクトルXに対して、参照ベク
トル群の中で最も入力ベクトル;と類似している参照ベ
クトルy□のカテゴリーがm(≠k)である場合に、該
参照ベクトルy工と、カテゴリーkに属する参照ベクト
ル群の中で最も入力ベクトルXと類似している参照ベク
トルy2を更新する参照ベクトル更新方式において、カ
テゴリーに、mの組み合わせによって参照ベクトルを更
新するか否かを記述した参照ベクトル更新カテゴリー表
を具備し、該カテゴリーの組(k、m)が、該参照ベク
トル更新力テガリー表の情報によって更新すると判定さ
れた場合のみ、該参照ベクトルyx+ yzを更新する
ことを特徴としたものである。以下、本発明の実施例に
基いて説明する。
であると既知である入力ベクトルXに対して、参照ベク
トル群の中で最も入力ベクトル;と類似している参照ベ
クトルy□のカテゴリーがm(≠k)である場合に、該
参照ベクトルy工と、カテゴリーkに属する参照ベクト
ル群の中で最も入力ベクトルXと類似している参照ベク
トルy2を更新する参照ベクトル更新方式において、カ
テゴリーに、mの組み合わせによって参照ベクトルを更
新するか否かを記述した参照ベクトル更新カテゴリー表
を具備し、該カテゴリーの組(k、m)が、該参照ベク
トル更新力テガリー表の情報によって更新すると判定さ
れた場合のみ、該参照ベクトルyx+ yzを更新する
ことを特徴としたものである。以下、本発明の実施例に
基いて説明する。
第1図は、本発明を音素認識を行なう音声認識装置の参
照パターン更新部に適用した場合の一実施例を説明する
ための図で、マイクなどの入力装置1から入力された音
声信号は、特徴系列変換部2によって特徴ベクトルの時
系列である音声パターンX=x工x2・・・X、(Iは
入力音声のフレーム数)に変換される。
照パターン更新部に適用した場合の一実施例を説明する
ための図で、マイクなどの入力装置1から入力された音
声信号は、特徴系列変換部2によって特徴ベクトルの時
系列である音声パターンX=x工x2・・・X、(Iは
入力音声のフレーム数)に変換される。
音声認識に有効な特徴ベクトルとしては、さまざまなも
のが知られており、例えば、フレーム周期10m5ごと
に中心周波数250〜6300Hzに配置された15個
のバントパスフィルタ群の出力を用いれば良い。
のが知られており、例えば、フレーム周期10m5ごと
に中心周波数250〜6300Hzに配置された15個
のバントパスフィルタ群の出力を用いれば良い。
入力された参照ベクトル更新用の音声パターンは、パタ
ーン分割部3で、音素ごとに分割される。
ーン分割部3で、音素ごとに分割される。
分割の方法は、様々な方法が知られており9例えば、特
徴ベクトルの差分ベクトルが極大になるフレームとすれ
ば良い。
徴ベクトルの差分ベクトルが極大になるフレームとすれ
ば良い。
例えば、第3図に示した単音節[ザ/ z a / J
が入力された場合、1〜bフレームのベクトルが/ z
/の参照ベクトル更新用、b+1〜Iフレームのベク
トルが/a/の参照ベクトル更新用のデータとなる。
が入力された場合、1〜bフレームのベクトルが/ z
/の参照ベクトル更新用、b+1〜Iフレームのベク
トルが/a/の参照ベクトル更新用のデータとなる。
参照ベクトル更新部4では、以下に第2図を参照して述
べる動作で、参照ベクトルを更新する。
べる動作で、参照ベクトルを更新する。
入力ベクトルXのカテゴリーをkとする。まず参照ベク
トル格納部5に格納されている全ての参照ベクトルの中
で、Xに最も類似した参照ベクトルyよを検出する。y
□の属するカテゴリーmがkと異なる場合には、カテゴ
+J−kに属する参照ベクトルの中で、最もXに類似し
た参照ベクトルy2を検出する。
トル格納部5に格納されている全ての参照ベクトルの中
で、Xに最も類似した参照ベクトルyよを検出する。y
□の属するカテゴリーmがkと異なる場合には、カテゴ
+J−kに属する参照ベクトルの中で、最もXに類似し
た参照ベクトルy2を検出する。
ここで、カテゴリーの組(k、m)が、参照ベクトル更
新カテゴリーテーブル6の情報から参照ベクトルを更新
すると判定された場合は、(αは更新係数) 操作を行なう。将来未知入力としてXと同様の形状を持
つベクトルが入力された際は、カテゴリーにの参照ベク
トルy工との類似性が大きくなり、誤認識しにくくなる
。
新カテゴリーテーブル6の情報から参照ベクトルを更新
すると判定された場合は、(αは更新係数) 操作を行なう。将来未知入力としてXと同様の形状を持
つベクトルが入力された際は、カテゴリーにの参照ベク
トルy工との類似性が大きくなり、誤認識しにくくなる
。
例えばカテゴリーkを/ z /の音素、カテゴリーm
を/ a /の音素とすれば、(k、m)は、参照バク
1〜ルを更新しないように設定しておく。このようにす
れば、第3図のB領域の前半部(bフレーム以前)のベ
クトルに対して、最近傍の参照ベクトルとして、/ a
/のベクトルが配置されていた場合、y工(/a/の
参照ベクトル)は更新されない。つまり、B領域の部分
は/ z /もしくは/ a /と判定されるように参
照ベクトルが更新される。
を/ a /の音素とすれば、(k、m)は、参照バク
1〜ルを更新しないように設定しておく。このようにす
れば、第3図のB領域の前半部(bフレーム以前)のベ
クトルに対して、最近傍の参照ベクトルとして、/ a
/のベクトルが配置されていた場合、y工(/a/の
参照ベクトル)は更新されない。つまり、B領域の部分
は/ z /もしくは/ a /と判定されるように参
照ベクトルが更新される。
仮に、第3図の音声パターンが未知の入力として、認識
装置に入力された場合、A領域が/ 2 /、C領域が
/ a /と判定されれば、B領域が/ 2 /、/
a /のいずれに判定されようとも音声パターン全体と
しては、/z a/と正しく認識される。このため、第
1図のパターン分割部3で決定される、分割点(bフレ
ーム)の位置が多少前後に移動しても、正しく配置され
た参照ベクトルが得られるので、パターン分割部で正確
な分割を行なう必要がなくなり処理量を軽減できる。
装置に入力された場合、A領域が/ 2 /、C領域が
/ a /と判定されれば、B領域が/ 2 /、/
a /のいずれに判定されようとも音声パターン全体と
しては、/z a/と正しく認識される。このため、第
1図のパターン分割部3で決定される、分割点(bフレ
ーム)の位置が多少前後に移動しても、正しく配置され
た参照ベクトルが得られるので、パターン分割部で正確
な分割を行なう必要がなくなり処理量を軽減できる。
従って、第3図のB領域について/Z/、/ a /以
外の音素が最近傍に配置された場合は、/z/あるいは
/ a /と判定されるように参照ベクトルが更新され
る。しかし、B領域の前半部(bフレーム以前)が/
a /と判定されても参照ベクトルは更新されない。B
領域は/ 2 /、/a/の成分を共に含んでいるため
、参照ベクトルを式(2)、(3)によって更新してし
まうと参照ベクトルが歪んでしまうが、本発明では、B
領域については/ z /、/ a /のいずれかの参
照ベクトルが最近傍にあれば良いように、参照ベクトル
が配置されるので参照ベクトルが歪む恐れがない。
外の音素が最近傍に配置された場合は、/z/あるいは
/ a /と判定されるように参照ベクトルが更新され
る。しかし、B領域の前半部(bフレーム以前)が/
a /と判定されても参照ベクトルは更新されない。B
領域は/ 2 /、/a/の成分を共に含んでいるため
、参照ベクトルを式(2)、(3)によって更新してし
まうと参照ベクトルが歪んでしまうが、本発明では、B
領域については/ z /、/ a /のいずれかの参
照ベクトルが最近傍にあれば良いように、参照ベクトル
が配置されるので参照ベクトルが歪む恐れがない。
来ニーー教
上述のように1本発明では、参照ベクトル更新カテゴリ
ー表の情報によって、参照ベクトルを更新すると判定さ
れた場合のみ参照ベクトルを更新するようにしている。
ー表の情報によって、参照ベクトルを更新すると判定さ
れた場合のみ参照ベクトルを更新するようにしている。
このため、本発明の参照ベクトル更新方式によると、歪
のない参照ベクトルが正しく配置され、正確な音声認識
が可能になる。
のない参照ベクトルが正しく配置され、正確な音声認識
が可能になる。
第1図は、本発明の一実施例を説明するためのブロック
図、第2図は、第1図に示した参照ベクトル更新部のフ
ローチャート、第3図は、/ Z a /の音声パター
ンの一例を示す図である。 1・・・入力装置、2・・・特徴系列変換部、3・・・
パターン分割部、4・・・参照ベクトル更新部、5・・
・参照ベクトル格納部、6・・・参照ベクトル更新カテ
ゴリー表。 第1図 (/Za/の音声パターン) 第2図
図、第2図は、第1図に示した参照ベクトル更新部のフ
ローチャート、第3図は、/ Z a /の音声パター
ンの一例を示す図である。 1・・・入力装置、2・・・特徴系列変換部、3・・・
パターン分割部、4・・・参照ベクトル更新部、5・・
・参照ベクトル格納部、6・・・参照ベクトル更新カテ
ゴリー表。 第1図 (/Za/の音声パターン) 第2図
Claims (1)
- 1、カテゴリーがkであると既知である入力ベクトル■
に対して、参照ベクトル群の中で最も入力ベクトル■と
類似している参照ベクトル■_1のカテゴリーがm(≠
k)である場合に、該参照ベクトル■_1と、カテゴリ
ーkに属する参照ベクトル群の中で最も入力ベクトル■
と類似している参照ベクトル■_2を更新する参照ベク
トル更新方式において、カテゴリーk、mの組み合わせ
によって参照ベクトルを更新するか否かを記述した参照
ベクトル更新カテゴリー表を具備し、該カテゴリーの組
(k、m)が、該参照ベクトル更新カテガリー表の情報
によって更新すると判定された場合のみ、該参照ベクト
ル■_1、■_2を更新することを特徴とする参照ベク
トル更新方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2310968A JP3011997B2 (ja) | 1990-11-15 | 1990-11-15 | 参照ベクトル更新方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2310968A JP3011997B2 (ja) | 1990-11-15 | 1990-11-15 | 参照ベクトル更新方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04181298A true JPH04181298A (ja) | 1992-06-29 |
JP3011997B2 JP3011997B2 (ja) | 2000-02-21 |
Family
ID=18011571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2310968A Expired - Fee Related JP3011997B2 (ja) | 1990-11-15 | 1990-11-15 | 参照ベクトル更新方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3011997B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011002529A (ja) * | 2009-06-17 | 2011-01-06 | Dainippon Printing Co Ltd | 音素符号変換装置、音素符号データベース、および音声合成装置 |
JP2011039088A (ja) * | 2009-08-06 | 2011-02-24 | Dainippon Printing Co Ltd | 音素符号変換装置、音素符号データベース、および音声合成装置 |
JP2011090218A (ja) * | 2009-10-23 | 2011-05-06 | Dainippon Printing Co Ltd | 音素符号変換装置、音素符号データベース、および音声合成装置 |
-
1990
- 1990-11-15 JP JP2310968A patent/JP3011997B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011002529A (ja) * | 2009-06-17 | 2011-01-06 | Dainippon Printing Co Ltd | 音素符号変換装置、音素符号データベース、および音声合成装置 |
JP2011039088A (ja) * | 2009-08-06 | 2011-02-24 | Dainippon Printing Co Ltd | 音素符号変換装置、音素符号データベース、および音声合成装置 |
JP2011090218A (ja) * | 2009-10-23 | 2011-05-06 | Dainippon Printing Co Ltd | 音素符号変換装置、音素符号データベース、および音声合成装置 |
Also Published As
Publication number | Publication date |
---|---|
JP3011997B2 (ja) | 2000-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2733955B2 (ja) | 適応型音声認識装置 | |
JPH04181298A (ja) | 参照ベクトル更新方法 | |
JP2003005785A (ja) | 音源の分離方法および分離装置 | |
CA2191377A1 (en) | A time-varying feature space preprocessing procedure for telephone based speech recognition | |
JPH02232696A (ja) | 音声認識装置 | |
JPH04295897A (ja) | 神経回路網モデルによる音声認識方法 | |
KR100322693B1 (ko) | 선형예측분석합성을이용한음성인식방법 | |
Binh et al. | A high-performance speech-recognition method based on a nonlinear neural network | |
KR100346736B1 (ko) | 음성인식방법 | |
JPH0119596B2 (ja) | ||
JPH0390976A (ja) | パターン照合方式 | |
Blomberg et al. | Word recognition using synthesized reference templates | |
JPH11212587A (ja) | 音声認識における雑音適応方法 | |
JPS61138296A (ja) | 音声認識装置 | |
JPH02248999A (ja) | 音声認識方式 | |
Iwamida et al. | Discrimination of stop consonants using a data‐driven analysis | |
Udagawa et al. | Automatic speech recognition based on findings of the human processes of speech perception | |
Tillmann et al. | The difference between acoustic and auditory parameter signals as a cue for phonetic segmentation and categorization | |
JPH11352982A (ja) | 音声認識システムにおける単語学習および認識方法 | |
JPH06266397A (ja) | 特徴パターン作成方式 | |
Chiba | Consonant discrimination using the formant coarticulation model | |
Levinson et al. | Some preliminary results on clustering for speaker‐independent word recognition | |
JPH0244399A (ja) | 標準パターン登録方式 | |
Niimi et al. | Synthesis of speaker-adaptive word templates by concatenation of the monosyllabic sounds | |
JPS6287994A (ja) | 音声認識辞書更新方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |