JP2684807B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2684807B2 JP2684807B2 JP2039696A JP3969690A JP2684807B2 JP 2684807 B2 JP2684807 B2 JP 2684807B2 JP 2039696 A JP2039696 A JP 2039696A JP 3969690 A JP3969690 A JP 3969690A JP 2684807 B2 JP2684807 B2 JP 2684807B2
- Authority
- JP
- Japan
- Prior art keywords
- codebook
- code
- pattern
- standard pattern
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声を認識する音声認識装置において、ベ
クトル量子化法を用いた認識手法の改良に関するもので
ある。
クトル量子化法を用いた認識手法の改良に関するもので
ある。
従来、音声認識を少ない計算量とメモリ量により実現
する方法として、ベクトル量子化法を用いたものが存在
した。たとえば、電子通信学会論文誌'82/8 Vol.J65−D
No.8の第1041頁から1048頁に「擬音韻標準パタンによ
る大語い単語音声認識」と題して発表されている論文
(以下、文献1と称す)に示されている方法がある。以
下、説明を簡単にするため、特定話者の単語を単位とし
た認識の場合について述べる。複数の話者に対する場合
や単語以外の認識単位に適用する場合も同様に行うこと
ができる。
する方法として、ベクトル量子化法を用いたものが存在
した。たとえば、電子通信学会論文誌'82/8 Vol.J65−D
No.8の第1041頁から1048頁に「擬音韻標準パタンによ
る大語い単語音声認識」と題して発表されている論文
(以下、文献1と称す)に示されている方法がある。以
下、説明を簡単にするため、特定話者の単語を単位とし
た認識の場合について述べる。複数の話者に対する場合
や単語以外の認識単位に適用する場合も同様に行うこと
ができる。
音声パターンは特徴ベクトルの時系列で表されている
とする。標準パターンを作成する場合、学習用音声とし
て、認識対象となる単語の音声パターンを用意する。ま
ず、学習用音声中の全特徴ベクトルを少ない数で代表す
る特徴ベクトルの集合をクラスタリング法を用いて求め
る。このクラスタリング法には、例えば電子情報通信学
会編、中川聖一著「確率モデルによる音声認識」(以
下、文献2と称す)の第27頁に述べられているようなLB
Gアルゴリズムを用いることができる。これらの代表特
徴ベクトルをコードベクトルとし、このコードベクトル
の集合をコードブックとする。
とする。標準パターンを作成する場合、学習用音声とし
て、認識対象となる単語の音声パターンを用意する。ま
ず、学習用音声中の全特徴ベクトルを少ない数で代表す
る特徴ベクトルの集合をクラスタリング法を用いて求め
る。このクラスタリング法には、例えば電子情報通信学
会編、中川聖一著「確率モデルによる音声認識」(以
下、文献2と称す)の第27頁に述べられているようなLB
Gアルゴリズムを用いることができる。これらの代表特
徴ベクトルをコードベクトルとし、このコードベクトル
の集合をコードブックとする。
認識対象となる単語の音声パターンは、このコードブ
ックを用いてベクトル量子化し標準パターンを作成す
る。すなわち、各特徴ベクトルを最も距離が近いコード
ベクトルを表すコードで置き換える。その結果得られ
た、コード列で表されたパターンを標準パターンとして
保持する。
ックを用いてベクトル量子化し標準パターンを作成す
る。すなわち、各特徴ベクトルを最も距離が近いコード
ベクトルを表すコードで置き換える。その結果得られ
た、コード列で表されたパターンを標準パターンとして
保持する。
一般に、コードベクトルの数は、全認識対象の音声パ
ターンを構成する特徴ベクトルの数と比べてかなり小さ
い。このため、特徴ベクトルの時系列で標準パターンを
表す場合と比べて、大幅に少ないメモリ量で標準パター
ンを表すことができる。
ターンを構成する特徴ベクトルの数と比べてかなり小さ
い。このため、特徴ベクトルの時系列で標準パターンを
表す場合と比べて、大幅に少ないメモリ量で標準パター
ンを表すことができる。
認識法として、文献1に述べられているようなDPマッ
チング法を用いる場合、ベクトル量子化を用いない方式
では、入力された音声パターンの特徴ベクトルと標準パ
ターンを構成する全ての特徴ベクトルとの間の距離を計
算する必要がある。一方、ベクトル量子化を用いた方式
では、まず各コードベクトルと入力された音声パターン
の特徴ベクトルとの間の距離が計算され、テーブルに保
持される。DPマッチング処理時に、標準パターンとの間
の距離の値が、必要に応じて対応するテーブルから読み
出される。これにより、ベクトル量子化を用いた方式で
は、標準パターンを構成する全ての特徴ベクトルとの間
の距離を計算する代わりに、各コードベクトルとの間の
距離のみを計算すればよいので、距離計算量を大幅に少
なくすることができる。
チング法を用いる場合、ベクトル量子化を用いない方式
では、入力された音声パターンの特徴ベクトルと標準パ
ターンを構成する全ての特徴ベクトルとの間の距離を計
算する必要がある。一方、ベクトル量子化を用いた方式
では、まず各コードベクトルと入力された音声パターン
の特徴ベクトルとの間の距離が計算され、テーブルに保
持される。DPマッチング処理時に、標準パターンとの間
の距離の値が、必要に応じて対応するテーブルから読み
出される。これにより、ベクトル量子化を用いた方式で
は、標準パターンを構成する全ての特徴ベクトルとの間
の距離を計算する代わりに、各コードベクトルとの間の
距離のみを計算すればよいので、距離計算量を大幅に少
なくすることができる。
〔発明が解決しようとする課題」 ベクトル量子化法を用いた音声認識において、最初の
少数の単語を登録する場合、それら少数の単語の音声パ
ターンを用いてコードブックが作られ、さらに、そのコ
ードブックを用いて標準パターンが作られる。この状態
から単語を新たに追加して登録する場合、すでに作られ
ているコードブックを用いて追加された単語をベクトル
量子化し標準パターンを作成することになる。このと
き、追加登録された単語中に、最初に登録された単語中
に存在しない音素がある場合は、その音素に対応するコ
ードベクトルがコードブック中に無いため、全く異なる
特徴ベクトルに同一コードが対応されるおそれがある。
この場合、ベクトル量子化による特徴ベクトルの歪が大
きくなるため、認識誤りが生じやすくなるという問題が
あった。
少数の単語を登録する場合、それら少数の単語の音声パ
ターンを用いてコードブックが作られ、さらに、そのコ
ードブックを用いて標準パターンが作られる。この状態
から単語を新たに追加して登録する場合、すでに作られ
ているコードブックを用いて追加された単語をベクトル
量子化し標準パターンを作成することになる。このと
き、追加登録された単語中に、最初に登録された単語中
に存在しない音素がある場合は、その音素に対応するコ
ードベクトルがコードブック中に無いため、全く異なる
特徴ベクトルに同一コードが対応されるおそれがある。
この場合、ベクトル量子化による特徴ベクトルの歪が大
きくなるため、認識誤りが生じやすくなるという問題が
あった。
これを防ぐために、登録された単語のベクトル量子化
前の音声パターンを全て保存しておき、単語を追加登録
する場合、保存されている音声パターンと追加された音
声パターンを用いてコードブックをつくり直すという方
法がある。しかし、この方法では音声パターンを保存し
ておくため、多くのメモリが必要であるという問題があ
った。
前の音声パターンを全て保存しておき、単語を追加登録
する場合、保存されている音声パターンと追加された音
声パターンを用いてコードブックをつくり直すという方
法がある。しかし、この方法では音声パターンを保存し
ておくため、多くのメモリが必要であるという問題があ
った。
本発明の目的は、ベクトル量子化を用いた音声認識に
おいて、メモリ量を増やすことなしに、新たに単語を追
加登録した場合も精度の良い標準パターンを作成できる
ようにして、認識性能の高い音声認識装置を提供するこ
とにある。
おいて、メモリ量を増やすことなしに、新たに単語を追
加登録した場合も精度の良い標準パターンを作成できる
ようにして、認識性能の高い音声認識装置を提供するこ
とにある。
〔課題を解決するための手段〕 第1の発明は、特徴ベクトルの時系列で表される音声
パターンの集合をベクトル量子化して標準パターンとし
て保持し、この標準パターンを用いて入力された音声パ
ターンを認識する音声認識装置において、 前記音声パターンの集合からベクトル量子化のための
コードブックを作成するコードブック作成部と、 前記コードブックを保持するコードブック記憶部と、 前記コードブックを構成するコードベクトルに対応す
る前記音声パターンの集合中の特徴ベクトルの数である
コード出現度数を保持するコード出現度数記憶部と、 前記コードブックを用いて前記音声パターンの集合を
ベクトル量子化しコード列で表される標準パターンを作
成する標準パターン作成部と、 前記標準パターンを保持する標準パターン記憶部と、 前記コードブックと前記標準パターンを用いて入力さ
れた音声パターンを認識する認識部とを有し、 標準パターンを増やすために音声パターンを追加入力
した際に、前記コードブック作成部は、追加入力された
音声パターンを構成する特徴ベクトルと、前記コードブ
ックを構成するコードベクトルを前記コード出現度数に
応じた値で重みを付けたものから新しいコードブックを
作成し、前記標準パターン作成部は、既に保持されてい
る標準パターンに対しては新しいコードブックに古いコ
ードブックを対応づけることにより得られたコードに標
準パターンを変換し、追加入力された音声パターンに対
しては新しいコードブックを用いてベクトル量子化する
ことにより標準パターンを作成することを特徴とする。
パターンの集合をベクトル量子化して標準パターンとし
て保持し、この標準パターンを用いて入力された音声パ
ターンを認識する音声認識装置において、 前記音声パターンの集合からベクトル量子化のための
コードブックを作成するコードブック作成部と、 前記コードブックを保持するコードブック記憶部と、 前記コードブックを構成するコードベクトルに対応す
る前記音声パターンの集合中の特徴ベクトルの数である
コード出現度数を保持するコード出現度数記憶部と、 前記コードブックを用いて前記音声パターンの集合を
ベクトル量子化しコード列で表される標準パターンを作
成する標準パターン作成部と、 前記標準パターンを保持する標準パターン記憶部と、 前記コードブックと前記標準パターンを用いて入力さ
れた音声パターンを認識する認識部とを有し、 標準パターンを増やすために音声パターンを追加入力
した際に、前記コードブック作成部は、追加入力された
音声パターンを構成する特徴ベクトルと、前記コードブ
ックを構成するコードベクトルを前記コード出現度数に
応じた値で重みを付けたものから新しいコードブックを
作成し、前記標準パターン作成部は、既に保持されてい
る標準パターンに対しては新しいコードブックに古いコ
ードブックを対応づけることにより得られたコードに標
準パターンを変換し、追加入力された音声パターンに対
しては新しいコードブックを用いてベクトル量子化する
ことにより標準パターンを作成することを特徴とする。
第2の発明は、第1の発明において、標準パターンを
増やすために音声パターンを追加入力し、追加入力され
た音声パターンを構成する特徴ベクトルと、前記コード
ブックを構成するコードベクトルを前記コード出現度数
に応じた値で重み付けたものから新しいコードブックを
作成する際に、前記コード出現度数が予め定められた基
準より大きいコードベクトルを判定するコード出現度数
判定部をさらに有し、 前記コードブック作成部は、前記コード出現度数判定
部により基準より大きいと判定されたコードベクトルに
対しては変更せずに新しいコードベクトルを作成するこ
とを特徴とする。
増やすために音声パターンを追加入力し、追加入力され
た音声パターンを構成する特徴ベクトルと、前記コード
ブックを構成するコードベクトルを前記コード出現度数
に応じた値で重み付けたものから新しいコードブックを
作成する際に、前記コード出現度数が予め定められた基
準より大きいコードベクトルを判定するコード出現度数
判定部をさらに有し、 前記コードブック作成部は、前記コード出現度数判定
部により基準より大きいと判定されたコードベクトルに
対しては変更せずに新しいコードベクトルを作成するこ
とを特徴とする。
第3の発明は、第1または第2の発明のおいて、標準
パターンの一部に新しく入力された音声パターンを入れ
換える際に、除かれる標準パターン中で用いられている
コードブックの数を前記コード出現度数から除くコード
計数部をさらに有し、 前記コードブック作成部は、新しく入力された音声パ
ターンを構成する特徴ベクトルと、前記コードブックを
構成するコードベクトルを求められた前記コード出現度
数に応じた値で重みを付けたものとから新しいコードブ
ックを作成することを特徴とする。
パターンの一部に新しく入力された音声パターンを入れ
換える際に、除かれる標準パターン中で用いられている
コードブックの数を前記コード出現度数から除くコード
計数部をさらに有し、 前記コードブック作成部は、新しく入力された音声パ
ターンを構成する特徴ベクトルと、前記コードブックを
構成するコードベクトルを求められた前記コード出現度
数に応じた値で重みを付けたものとから新しいコードブ
ックを作成することを特徴とする。
本発明は、ベクトル量子化を用いた音声認識におい
て、単語を追加登録する場合、予め登録されている音声
と追加登録された音声双方を精度良く表せるコードブッ
クを用意することにより、高性能な音声認識を実現する
ものである。
て、単語を追加登録する場合、予め登録されている音声
と追加登録された音声双方を精度良く表せるコードブッ
クを用意することにより、高性能な音声認識を実現する
ものである。
学習用音声パターンは、特徴ベクトルx(i)の時系
列で表される。単語wの学習用音声パターンをXw=
{xw(i);i=1…Nw}とする。認識対象単語の音声
パターンの集合{Xw;w=1…W}を用いて、コードベ
クトルc(j)の集合であるコードブックC={c
(j);j=1…M}を作成する。このコードブックC
は、例えば文献2に示されているようなLBGアルゴリズ
ムを用いて求めることができる。このコードブックを求
める際に、コードベクトルc(j)によって代表される
特徴ベクトルの集合Sjに含まれる特徴ベクトルの数を
求め、この数をコード出現度数k(j)とする。このコ
ード出現度数k(j)を、コードベクトルc(j)と対
応付けて保持しておく。
列で表される。単語wの学習用音声パターンをXw=
{xw(i);i=1…Nw}とする。認識対象単語の音声
パターンの集合{Xw;w=1…W}を用いて、コードベ
クトルc(j)の集合であるコードブックC={c
(j);j=1…M}を作成する。このコードブックC
は、例えば文献2に示されているようなLBGアルゴリズ
ムを用いて求めることができる。このコードブックを求
める際に、コードベクトルc(j)によって代表される
特徴ベクトルの集合Sjに含まれる特徴ベクトルの数を
求め、この数をコード出現度数k(j)とする。このコ
ード出現度数k(j)を、コードベクトルc(j)と対
応付けて保持しておく。
続いて、学習用音声パターンxwをコードブックCを
用いてベクトル量子化する。すなわち、特徴ベクトルx
w(i)に対して、最もベクトル間距離d(xw(i),c
(m))が小さくなるコードベクトルc(m)の番号
(コード)mを求め、学習用御音声パターンをコード列
Bw={mw(i);i=1…N}に変換する。このコード
列Bwを、標準パターンとして保持しておく。
用いてベクトル量子化する。すなわち、特徴ベクトルx
w(i)に対して、最もベクトル間距離d(xw(i),c
(m))が小さくなるコードベクトルc(m)の番号
(コード)mを求め、学習用御音声パターンをコード列
Bw={mw(i);i=1…N}に変換する。このコード
列Bwを、標準パターンとして保持しておく。
入力された音声パターンAを認識する場合は、このコ
ードブックCと標準パターンBwを用いて、文献1に述
べられているようなDPマッチングによる方法で認識す
る。
ードブックCと標準パターンBwを用いて、文献1に述
べられているようなDPマッチングによる方法で認識す
る。
ここで、認識対象単語を{w;w=W+1…W2}だけ追
加する場合を考える。この時、これらの単語に対する音
声パターンの集合{Xw:w=W+1…W2}を用いて、コ
ードブックCを作り替える。既に作られているコードブ
ックC中のコードベクトルc(j)と追加された音声パ
ターンの集合{Xw;w=W+1…W2}中の特徴ベクトル
xw(i)から、新しいコードブックCnを作成する。こ
れを文献2に示されているようなLBGアルゴリズムを用
いて実現できる。この時、求められた特徴ベクトルの集
合Sjの代表ベクトルであるセントロイドベクトルs
jは、集合の要素である特徴ベクトルの平均ベクトルと
する。ここでは、平均ベクトルを求める際に、コードベ
クトルc(j)についてはコード出現度数k(j)に応
じた重みを付加する。集合Sjに含まれるコードベクト
ルを{c(j);j=1…P}、特徴ベクトルを{x
(i);i=1…Q}とすると、セントロイドベクトルs
jは、 となる。ここでf(k)は重みを調整するための関数で
ある。ここでは、 f(k)=k ……(2) なる関数を用いるとする。既に登録されている標準パタ
ーンに使われているコードベクトルを優先するため、コ
ード出現度数に対する重みを大きくしたい場合は、たと
えば、 f(k)=k2 ……(3) なる関数を用いればよい。
加する場合を考える。この時、これらの単語に対する音
声パターンの集合{Xw:w=W+1…W2}を用いて、コ
ードブックCを作り替える。既に作られているコードブ
ックC中のコードベクトルc(j)と追加された音声パ
ターンの集合{Xw;w=W+1…W2}中の特徴ベクトル
xw(i)から、新しいコードブックCnを作成する。こ
れを文献2に示されているようなLBGアルゴリズムを用
いて実現できる。この時、求められた特徴ベクトルの集
合Sjの代表ベクトルであるセントロイドベクトルs
jは、集合の要素である特徴ベクトルの平均ベクトルと
する。ここでは、平均ベクトルを求める際に、コードベ
クトルc(j)についてはコード出現度数k(j)に応
じた重みを付加する。集合Sjに含まれるコードベクト
ルを{c(j);j=1…P}、特徴ベクトルを{x
(i);i=1…Q}とすると、セントロイドベクトルs
jは、 となる。ここでf(k)は重みを調整するための関数で
ある。ここでは、 f(k)=k ……(2) なる関数を用いるとする。既に登録されている標準パタ
ーンに使われているコードベクトルを優先するため、コ
ード出現度数に対する重みを大きくしたい場合は、たと
えば、 f(k)=k2 ……(3) なる関数を用いればよい。
新しい標準パターンを作るときは、まず、コードブッ
クC中のコードベクトルc(j)に最も距離が小さい、
新しいコードブックCn中のコードベクトルcn(g
(j))を選び出す。選び出された、コードjに対応す
る新しいコードブックのコードをg(j)とする。既に
登録されている標準パターン{Bw;w=1…W}に関し
ては、コード列Bw={mw(i);i=1…N}を置き換
え、Bw={g(mw(i));i=1…N}とする。
クC中のコードベクトルc(j)に最も距離が小さい、
新しいコードブックCn中のコードベクトルcn(g
(j))を選び出す。選び出された、コードjに対応す
る新しいコードブックのコードをg(j)とする。既に
登録されている標準パターン{Bw;w=1…W}に関し
ては、コード列Bw={mw(i);i=1…N}を置き換
え、Bw={g(mw(i));i=1…N}とする。
また、追加された認識対象単語{w;w=W+1…W2}
に対しては、新しいコードブックCnを用いてベクトル
量子化し、コード列Bw={mw(i);i=1…N}に変
換する。求められたコード列を標準パターンとする。
に対しては、新しいコードブックCnを用いてベクトル
量子化し、コード列Bw={mw(i);i=1…N}に変
換する。求められたコード列を標準パターンとする。
認識対象単語を追加した場合、既に登録されている標
準パターンは既にベクトル量子化されているため、これ
をコードブックCを用いて特徴ベクトル列に戻し、さら
に新しいコードブックCnを用いてベクトル量子化する
と、量子化誤差が累積されて標準パターンの精度が低下
してしまう。これを防ぐためには、標準パターンの量子
化に用いたコードベクトルは、認識対象単語が追加され
てもなるべく動かないようにすればよい。このとき、コ
ード出現度数k(j)が多いコードベクトル程、動かし
た際に標準パターンの精度低下に及ぼす影響が大きい。
準パターンは既にベクトル量子化されているため、これ
をコードブックCを用いて特徴ベクトル列に戻し、さら
に新しいコードブックCnを用いてベクトル量子化する
と、量子化誤差が累積されて標準パターンの精度が低下
してしまう。これを防ぐためには、標準パターンの量子
化に用いたコードベクトルは、認識対象単語が追加され
てもなるべく動かないようにすればよい。このとき、コ
ード出現度数k(j)が多いコードベクトル程、動かし
た際に標準パターンの精度低下に及ぼす影響が大きい。
そこで、第2の発明では、コード出現度数k(j)が
比較的大きいコードベクトルc(j)に関しては、単語
を追加登録した場合もコードベクトルを動かさないよう
にする。たとえば、コード出現度数k(j)の上位n個
に対するコードベクトルはクラスタリング中に変更しな
いとする。この方法として、たとえば、文献2に述べら
れているようなLBGアルゴリズムを用いる場合、まず、
コードブックの初期値としてコードブックCを用いる。
続いて、コードベクトルc(j)に対応する特徴ベクト
ルの集合S(j)を求め、(1)式に従ってセントロイ
ドベクトルを求め、新しいコードベクトルcn(j)を
作成する。このとき、コード出現度数k(j)の上位n
個に対するコードベクトルc(j)は変更せずに、cn
(j)=c(j)とする。変更しないコードベクトルの
選び方としては、この他にもたとえば、コード出現度数
が予め定められた数K以上の場合は変更しないとする方
法等を用いることができる。
比較的大きいコードベクトルc(j)に関しては、単語
を追加登録した場合もコードベクトルを動かさないよう
にする。たとえば、コード出現度数k(j)の上位n個
に対するコードベクトルはクラスタリング中に変更しな
いとする。この方法として、たとえば、文献2に述べら
れているようなLBGアルゴリズムを用いる場合、まず、
コードブックの初期値としてコードブックCを用いる。
続いて、コードベクトルc(j)に対応する特徴ベクト
ルの集合S(j)を求め、(1)式に従ってセントロイ
ドベクトルを求め、新しいコードベクトルcn(j)を
作成する。このとき、コード出現度数k(j)の上位n
個に対するコードベクトルc(j)は変更せずに、cn
(j)=c(j)とする。変更しないコードベクトルの
選び方としては、この他にもたとえば、コード出現度数
が予め定められた数K以上の場合は変更しないとする方
法等を用いることができる。
また、認識対象単語を変更する場合は、新しく追加さ
れる単語と共に、標準パターン中から除かれる単語が存
在する。このとき、除かれた単語に特有な特徴ベクトル
がある場合は、このような特徴ベクトルを表現するため
のコードベクトルがコードブック中に残ってしまう。コ
ードブック中のコードベクトルの数は限られているが、
このように、標準パターンを表現するために必要ないコ
ードベクトルがコードブック中に存在すると、標準パタ
ーンのベクトル量子化の精度が低下する。
れる単語と共に、標準パターン中から除かれる単語が存
在する。このとき、除かれた単語に特有な特徴ベクトル
がある場合は、このような特徴ベクトルを表現するため
のコードベクトルがコードブック中に残ってしまう。コ
ードブック中のコードベクトルの数は限られているが、
このように、標準パターンを表現するために必要ないコ
ードベクトルがコードブック中に存在すると、標準パタ
ーンのベクトル量子化の精度が低下する。
そこで、第3の発明では、認識対象単語を除く場合
は、その標準パターンに含まれるコードの数だけコード
出現度数k(j)から除いて、コードブックを作成す
る。これにより、必要ないコードに関しては、コード出
現度数が少なくなるか、または0になるため、実際の標
準パターンに則したコードブックを作成することができ
る。
は、その標準パターンに含まれるコードの数だけコード
出現度数k(j)から除いて、コードブックを作成す
る。これにより、必要ないコードに関しては、コード出
現度数が少なくなるか、または0になるため、実際の標
準パターンに則したコードブックを作成することができ
る。
本発明による音声認識装置の実施例について図面を参
照して説明する。
照して説明する。
第1図は第1の発明による一実施例を示す構成図であ
る。
る。
この音声認識装置は、学習用音声パターンを保持する
学習用音声パターン記憶部1と、音声パターンの集合か
らベクトル量子化のためのコードブックを作成するコー
ドブック作成部2と、コードブックを保持するコードブ
ック記憶部3と、コードブックを構成するコードベクト
ルに対応する音声パターンの集合中の特徴ベクトルの数
であるコード出現度数を保持する出現度数記憶部4と、
コードブックを用いて音声パターンの集合をベクトル量
子化しコード列で表される標準パターンを作成する標準
パターン作成部5と、標準パターンを保持する標準パタ
ーン記憶部6と、コードブックと標準パターンを用いて
入力された音声パターンを認識する認識部7とを有して
いる。
学習用音声パターン記憶部1と、音声パターンの集合か
らベクトル量子化のためのコードブックを作成するコー
ドブック作成部2と、コードブックを保持するコードブ
ック記憶部3と、コードブックを構成するコードベクト
ルに対応する音声パターンの集合中の特徴ベクトルの数
であるコード出現度数を保持する出現度数記憶部4と、
コードブックを用いて音声パターンの集合をベクトル量
子化しコード列で表される標準パターンを作成する標準
パターン作成部5と、標準パターンを保持する標準パタ
ーン記憶部6と、コードブックと標準パターンを用いて
入力された音声パターンを認識する認識部7とを有して
いる。
以上の構成の音声認識装置において、まず標準パター
ンを登録する場合について説明する。入力された学習用
音声パターンXは、学習用音声パターン記憶部1に保持
される。コードブック作成部2では、学習用音声パター
ン記憶部1に保持されている学習用音声パターンXと、
コードブック記憶部3の中に保持されているコードブッ
クCを用いて新しいコードブックCnを作成する。コー
ド出現度数記憶部4中にはコード出現度数kが保持され
ている。コード出現度数kは初期値として全て0の値が
保持されている。コードブックは文献2に述べられてい
るようなLBGアルゴリズムを用いて作成する。このアル
ゴリズムを実行する中で、代表ベクトルsは、コード出
現度数kを用いて(1)式に従って求める。求められた
新しいコードブックCnおよびコード出現度数kは、そ
れぞれコードブック記憶部3とコード出現度数記憶部4
中に保持される。
ンを登録する場合について説明する。入力された学習用
音声パターンXは、学習用音声パターン記憶部1に保持
される。コードブック作成部2では、学習用音声パター
ン記憶部1に保持されている学習用音声パターンXと、
コードブック記憶部3の中に保持されているコードブッ
クCを用いて新しいコードブックCnを作成する。コー
ド出現度数記憶部4中にはコード出現度数kが保持され
ている。コード出現度数kは初期値として全て0の値が
保持されている。コードブックは文献2に述べられてい
るようなLBGアルゴリズムを用いて作成する。このアル
ゴリズムを実行する中で、代表ベクトルsは、コード出
現度数kを用いて(1)式に従って求める。求められた
新しいコードブックCnおよびコード出現度数kは、そ
れぞれコードブック記憶部3とコード出現度数記憶部4
中に保持される。
標準パターン作成部5では、まずコードブック記憶部
3中に保持されているコードブックCと新しく作られた
コードブックCn中のコードベクトル間の対応テーブル
が作成される。このテーブルに従って標準パターン記憶
部6中に保持されている標準パターンBが変換される。
続いて、コードブック記憶部3の中の新しいコードブッ
クCnを用いて、学習用音声パターン記憶部1中の学習
用音声パターンXがベクトル量子化され、標準パターン
Bとして標準パターン記憶部6中に保持される。標準パ
ターンを追加登録する際も、上に述べた処理が行われ
る。
3中に保持されているコードブックCと新しく作られた
コードブックCn中のコードベクトル間の対応テーブル
が作成される。このテーブルに従って標準パターン記憶
部6中に保持されている標準パターンBが変換される。
続いて、コードブック記憶部3の中の新しいコードブッ
クCnを用いて、学習用音声パターン記憶部1中の学習
用音声パターンXがベクトル量子化され、標準パターン
Bとして標準パターン記憶部6中に保持される。標準パ
ターンを追加登録する際も、上に述べた処理が行われ
る。
認識時には、入力された音声パターンXが認識部7に
て、コードブック記憶部3中のコードブックCnと標準
パターン記憶部6中の標準パターンBを用いて、文献1
に述べられているような方法で認識され、認識結果が出
力される。
て、コードブック記憶部3中のコードブックCnと標準
パターン記憶部6中の標準パターンBを用いて、文献1
に述べられているような方法で認識され、認識結果が出
力される。
第2図は、第2の発明による一実施例を示す構成図で
ある。
ある。
この音声認識装置は、標準パターンを増やすために音
声パターンを追加入力し、追加入力された音声パターン
を構成する特徴ベクトルと、コードブックを構成するコ
ードベクトルをコード出現度数に応じた値で重みを付け
たものから新しいコードブックを作成する際に、コード
出現度数が予め定められた基準より大きいコードベクト
ルを判定する出現度数判定部10を有し、コードブック作
成部2は、コード出現度数判定部10で基準より大きいと
判定されたコードベクトルに対しては変更せずに新しい
コードベクトルを作成する。その他の構成は第1図の音
声認識装置と同じである。
声パターンを追加入力し、追加入力された音声パターン
を構成する特徴ベクトルと、コードブックを構成するコ
ードベクトルをコード出現度数に応じた値で重みを付け
たものから新しいコードブックを作成する際に、コード
出現度数が予め定められた基準より大きいコードベクト
ルを判定する出現度数判定部10を有し、コードブック作
成部2は、コード出現度数判定部10で基準より大きいと
判定されたコードベクトルに対しては変更せずに新しい
コードベクトルを作成する。その他の構成は第1図の音
声認識装置と同じである。
この音声認識装置では、学習用音声パターン記憶部1
に保持されている学習用音声パターンXを基に、コード
ブック作成部2で新しいコードブックを作成する際に、
まず、コード出現度数判定部10では、コード出現度数記
憶部4からコード出現度数kを読み出し、コード出現度
数kが大きい順に上位n個のコードを選び出す。コード
ブック作成部2では、この選び出された上位n個のコー
ドは変更しないようにしてコードブックを作成する。
に保持されている学習用音声パターンXを基に、コード
ブック作成部2で新しいコードブックを作成する際に、
まず、コード出現度数判定部10では、コード出現度数記
憶部4からコード出現度数kを読み出し、コード出現度
数kが大きい順に上位n個のコードを選び出す。コード
ブック作成部2では、この選び出された上位n個のコー
ドは変更しないようにしてコードブックを作成する。
第3図は、第3の発明による一実施例を示す構成図で
ある。
ある。
この音声認識装置は、標準パターンの一部を新しく入
力された音声パターンと入れ換える際に、除かれる標準
パターン中で用いられているコードブックの数をコード
出現度数から除くコード計数部11を有し、コードブック
作成部2は新しく入力された音声パターンを構成する特
徴ベクトルと、コードブックを構成するコードベクトル
を求められたコード出現度数に応じた値で重みを付けた
ものとから新しいコードブックを作成する。その他の構
成は第1図の音声認識装置と同じである。
力された音声パターンと入れ換える際に、除かれる標準
パターン中で用いられているコードブックの数をコード
出現度数から除くコード計数部11を有し、コードブック
作成部2は新しく入力された音声パターンを構成する特
徴ベクトルと、コードブックを構成するコードベクトル
を求められたコード出現度数に応じた値で重みを付けた
ものとから新しいコードブックを作成する。その他の構
成は第1図の音声認識装置と同じである。
この音声認識装置では、認識対象単語を標準パターン
から除く場合、まず標準パターン記憶部6中から該当す
る標準パターンを取り除くと共に、除かれる標準パター
ン中に含まれているコードの数をコード係数部11におい
てコード毎に集計する。続いて、コード出現度数記憶部
4に保持されているコード出現度数kから集計されたコ
ード数を減算する。以降は、既に述べた標準パターン作
成処理に従う。
から除く場合、まず標準パターン記憶部6中から該当す
る標準パターンを取り除くと共に、除かれる標準パター
ン中に含まれているコードの数をコード係数部11におい
てコード毎に集計する。続いて、コード出現度数記憶部
4に保持されているコード出現度数kから集計されたコ
ード数を減算する。以降は、既に述べた標準パターン作
成処理に従う。
本発明によれば、ベクトル量子化を用いた音声認識に
おいて、認識語彙を変更しても精度の高い標準パターン
が得られるようにすることにより高性能の音声認識装置
を実現することができる。
おいて、認識語彙を変更しても精度の高い標準パターン
が得られるようにすることにより高性能の音声認識装置
を実現することができる。
第1図は、第1の発明による実施例を示す構成図、 第2図は、第2の発明による実施例を示す構成図、 第3図は第3の発明による実施例を示す構成図である。 1……学習用音声パターン記憶部 2……コードブック作成部 3……コードブック記憶部 4……コード出現度数記憶部 5……標準パターン作成部 6……標準パターン記憶部 7……認識部 10……コード出現度数判定部 11……コード計数部
Claims (3)
- 【請求項1】特徴ベクトルの時系列で表される音声パタ
ーンの集合をベクトル量子化して標準パターンとして保
持し、この標準パターンを用いて入力された音声パター
ンを認識する音声認識装置において、 前記音声パターンの集合からベクトル量子化のためのコ
ードブックを作成するコードブック作成部と、 前記コードブックを保持するコードブック記憶部と、 前記コードブックを構成するコードベクトルに対応する
前記音声パターンの集合中の特徴ベクトルの数であるコ
ード出現度数を保持するコード出現度数記憶部と、 前記コードブックを用いて前記音声パターンの集合をベ
クトル量子化しコード列で表される標準パターンを作成
する標準パターン作成部と、 前記標準パターンを保持する標準パターン記憶部と、 前記コードブックと前記標準パターンを用いて入力され
た音声パターンを認識する認識部とを有し、 標準パターンを増やすために音声パターンを追加入力し
た際に、前記コードブック作成部は、追加入力された音
声パターンを構成する特徴ベクトルと、前記コードブッ
クを構成するコードベクトルを前記コード出現度数に応
じた値で重みを付けたものから新しいコードブックを作
成し、前記標準パターン作成部は、既に保持されている
標準パターンに対しては新しいコードブックに古いコー
ドブックを対応づけることにより得られたコードに標準
パターンを変換し、追加入力された音声パターンに対し
ては新しいコードブックを用いてベクトル量子化するこ
とにより標準パターンを作成することを特徴とする音声
認識装置。 - 【請求項2】標準パターンを増やすために音声パターン
を追加入力し、追加入力された音声パターンを構成する
特徴ベクトルと、前記コードブックを構成するコードベ
クトルを前記コード出現度数に応じた値で重み付けたも
のから新しいコードブックを作成する際に、前記コード
出現度数が予め定められた基準より大きいコードベクト
ルを判定するコード出現度数判定部をさらに有し、 前記コードブック作成部は、前記コード出現度数判定部
により基準より大きいと判定されたコードベクトルに対
しては変更せずに新しいコードベクトルを作成すること
を特徴とする請求項1記載の音声認識装置。 - 【請求項3】標準パターンの一部に新しく入力された音
声パターンを入れ換える際に、除かれる標準パターン中
で用いられているコードブックの数を前記コード出現度
数から除くコード計数部をさらに有し、 前記コードブック作成部は、新しく入力された音声パタ
ーンを構成する特徴ベクトルと、前記コードブックを構
成するコードベクトルを求められた前記コード出現度数
に応じた値で重みを付けたものとから新しいコードブッ
クを作成することを特徴とする請求項1または2記載の
音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2039696A JP2684807B2 (ja) | 1990-02-22 | 1990-02-22 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2039696A JP2684807B2 (ja) | 1990-02-22 | 1990-02-22 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03243996A JPH03243996A (ja) | 1991-10-30 |
JP2684807B2 true JP2684807B2 (ja) | 1997-12-03 |
Family
ID=12560192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2039696A Expired - Lifetime JP2684807B2 (ja) | 1990-02-22 | 1990-02-22 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2684807B2 (ja) |
-
1990
- 1990-02-22 JP JP2039696A patent/JP2684807B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH03243996A (ja) | 1991-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN101828218B (zh) | 通过多形式段的生成和连接进行的合成 | |
US6529866B1 (en) | Speech recognition system and associated methods | |
US6253173B1 (en) | Split-vector quantization for speech signal involving out-of-sequence regrouping of sub-vectors | |
JP2002500779A (ja) | 識別訓練されたモデルを用いる音声認識システム | |
CN109346056B (zh) | 基于深度度量网络的语音合成方法及装置 | |
JPH11242494A (ja) | 話者適応化装置と音声認識装置 | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
CN111445903A (zh) | 企业名称识别方法及装置 | |
EP1771841B1 (en) | Method for generating and using a vector codebook, method and device for compressing data, and distributed speech recognition system | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
JP2684807B2 (ja) | 音声認識装置 | |
JP3093868B2 (ja) | ベクトル量子化コードブック作成装置 | |
JP4424023B2 (ja) | 素片接続型音声合成装置 | |
JP3093879B2 (ja) | ベクトル量子化コードブック作成及び探索装置 | |
JP4181272B2 (ja) | 音声認識における尤度演算装置および尤度演算方法、並びに、プログラム記録媒体 | |
JP2002244697A (ja) | 音声認証装置、音声認証方法、及びプログラム | |
JP3088121B2 (ja) | 統計励振コードベクトルの最適化方法 | |
KR0176788B1 (ko) | 음성인식의 자동모델 결정방법 | |
JP3249676B2 (ja) | パターン認識辞書作成方法 | |
JP3046871B2 (ja) | ベクトル量子化方法及びベクトル量子化装置 | |
JPH05204396A (ja) | 音声認識方法および装置 | |
CA2218605C (en) | Method and apparatus for data compression and decompression in speech recognition | |
Zhou et al. | Multisegment multiple VQ codebooks-based speaker independent isolated-word recognition using unbiased mel cepstrum | |
JP2549010B2 (ja) | 特定話者音声認識方法 |