JP3582934B2 - 音声認識装置および標準パターン登録方法 - Google Patents
音声認識装置および標準パターン登録方法 Download PDFInfo
- Publication number
- JP3582934B2 JP3582934B2 JP19007896A JP19007896A JP3582934B2 JP 3582934 B2 JP3582934 B2 JP 3582934B2 JP 19007896 A JP19007896 A JP 19007896A JP 19007896 A JP19007896 A JP 19007896A JP 3582934 B2 JP3582934 B2 JP 3582934B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pattern
- standard
- stored
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識装置および標準パターン登録方法に関する。
【0002】
【従来の技術】
一般に、音声認識装置では、1つの単語音声についての標準パターンを生成,登録するのに、話者に複数回(例えば3回)発声させ、それぞれの発声に対して特徴抽出を行ない、それぞれの発声について得られた特徴量で各発声についての音声パターンを生成し、各音声パターンを時間軸で正規化し、重ね合わせることによって、1つの標準パターンを生成し、登録するようになっている。また、標準パターンを再登録する際には、上述したと同じ手順で、新しい標準パターンを生成し、これを古い標準パターンと入れ替えることによって、標準パターンの再登録を行なっている。
【0003】
ところで、従来では、このような標準パターンの再登録の際に、標準パターンの品質を保つために、または他の標準パターンへの悪影響を軽減させるために、新しい標準パターンを古い標準パターンと入れ替えるに先立って、新しい標準パターンの類似度および他の標準パターンの類似度を算出し、新しい標準パターンの類似度が他の標準パターンの類似度よりもある値以上大きくなった時のみ、標準パターンの入れ替えを行ない、ある値よりも小さいときには標準パターンの入れ替えは行なわず、登録のやり直しを促す表示または警報等を出している。
【0004】
【発明が解決しようとする課題】
しかしながら、上記の方法において、再登録の際の複数回の発声にノイズ等が混入し、悪影響が及ぶことがある。例えば、再登録のために3回発声したが、2回目の発声をしたときにノイズが混入したような場合、類似度が所定値より大きくならず登録が拒否され、再び再登録の操作を行なわなければならない。また、上記の方法のように他の標準パターンとの類似度の差だけに着目する場合、ノイズの混入した標準パターンでも登録される可能性があり、認識率の低下を招く。また、ノイズの混入した標準パターンが多く登録されると類似度の差は小さくなり、新規登録や再登録の際に類似度の差が所定値より大きくならず登録不可能となる場合もある。
【0005】
本発明は、音声の標準パターンの登録時または再登録時に、登録のやり直し等を行なう必要なく、最適な標準パターンを得ることが可能な音声認識装置および標準パターン登録方法を提供することを目的としている。
【0006】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明では、入力された音声の特徴量を抽出する特徴抽出手段と、抽出した音声の特徴量を音声パターンとして記憶する音声パターン記憶手段と、音声パターン記憶手段に記憶された各音声パターンに基づいて標準パターンを生成する標準パターン生成手段と、標準パターン生成手段で生成された標準パターンを記憶する標準パターン記憶手段とを備えた音声認識装置において、前記標準パターン生成手段は、前記音声パターン記憶手段に記憶されている音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し、最大の類似度が得られる仮の標準パターンを標準パターンとして生成することを特徴としている。
【0008】
また、請求項2記載の発明は、請求項1記載の音声認識装置において、さらに、音声パターン記憶手段に記憶されたそれぞれの音声パターンについての情報を音声パターン情報として生成する音声パターン情報生成手段と、音声パターン情報生成手段で生成された情報を記憶する音声パターン情報記憶手段とを具備し、前記音声パターン情報生成手段によって生成され前記音声パターン情報記憶手段に記憶される音声パターン情報は、前記音声パターン記憶手段に記憶されている各音声パターンと標準パターンとの類似度、または、記憶された順番、または、標準パターンに使用された頻度、または、これらの組合せであることを特徴としている。
【0009】
また、請求項3記載の発明は、請求項1記載の音声認識装置において、音声パターン記憶手段に既に記憶されている音声パターンの数がYであり、今回の再登録時に話者がAをN回(NはN<X)発声した場合、音声パターン記憶手段の容量の制限値がXであるとするとき、音声パターン記憶手段に記憶されているY個の音声パターンをも含めた音声パターンの個数Y+Nが、Y+N>Xのときには、音声パターン情報記憶手段から、音声パターン記憶手段にすでに記憶されているY個の音声パターンのそれぞれに対応した各音声パターン情報を読み取り、それらの音声パターン情報のうち、最も性能が低いと判断された音声パターンから順に、(Y+N−X)個の音声パターンを音声パターン記憶手段から削除することを特徴としている。
【0010】
また、請求項4記載の発明は、入力された音声の特徴量を抽出し、抽出した音声の特徴量を音声パターンとして記憶し、記憶された各音声パターンに基づいて標準パターンを生成して登録する標準パターン登録方法において、記憶されている各音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し、最大の類似度が得られる仮の標準パターンを標準パターンとして生成することを特徴としている。
【0012】
請求項1乃至請求項4記載の発明では、過去の音声パターンを記憶しておき、音声の標準パターンを登録する際に最大の類似度が得られる音声パターンの組合せで標準パターンを生成するようにしている。これにより、音声の標準パターンの登録時または再登録時に、登録のやり直し等の必要がなく最適な標準パターンを得ることが可能となり、登録のやり直し等の必要がなく最適な標準パターンを得ることができる。
【0014】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。図1は本発明に係る音声認識装置の構成例を示す図である。図1を参照すると、この音声認識装置は、入力音声を電気信号(音声信号)に変換するマイクロホン等の入力部1と、入力部1からの音声信号に対して前処理(増幅,フィルタおよびA/D変換)を施す前処理部2と、前処理部2から出力される音声信号の特徴量を抽出する特徴抽出部3と、登録時あるいは再登録時にオンとなる切替スイッチSW1と、特徴抽出部3で抽出された例えば所定の単語についての音声信号の特徴量を音声パターンとして記憶する音声パターン記憶部4と、音声パターン記憶部4に記憶された所定の単語についての各音声パターンに基づいて所定の単語についての標準パターンを生成する標準パターン生成部5と、標準パターン生成部5で生成された単語毎の標準パターンを記憶する標準パターン記憶部6と、認識時にオンとなる切替スイッチSW2と、特徴抽出部3で抽出された音声信号の特徴量(音声パターン)と標準パターン記憶部6に記憶されている各単語の標準パターンとの類似度を計算する類似度計算部7と、類似度計算部7で算出された音声パターンと各単語の標準パターンの類似度から、最も高い類似度を与える単語候補を認識結果として選択する認識結果選択部8とを備えている。
【0015】
ここで、特徴抽出部3は、例えば、音声帯域(250Hz〜6.35kHz)に15チャネルのバンドパスフィルタを1/3オクターブごとに配置し、それぞれのフィルタのパワー値を、特徴量として求めるようになっている。この場合、この特徴量は、ある一定間隔ごとにサンプルするものとし、この特徴量をパターン化したものを音声パターンとして出力する。
【0016】
また、類似度計算部7,認識結果選択部8,標準パターン記憶部6は、認識時に用いられ、また、音声パターン記憶部4,標準パターン生成部5,標準パターン記憶部6は、登録時,再登録時に用いられるようになっている。
【0017】
ここで、標準パターン生成部5は、音声パターン記憶部4に記憶されている音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し最大の類似度が得られる仮の標準パターンを標準パターンとして生成するようになっている。
【0018】
なお、標準パターンの再登録は、登録と同じものであり、標準パターン記憶部6に、ある単語の標準パターンが登録されていない状態でこれから登録するときに、“登録”と称し、また、標準パターン記憶部6に、ある単語の標準パターンが登録されている状態で、これを登録し直すことを“再登録”と称す。
【0019】
図1の音声認識装置では、入力された音声パターンを記憶しておき、標準パターンの登録時または再登録時には、これまでに記憶された音声パターンから標準パターンを再構築することによって最適な標準パターンを作成し、登録または再登録することで、登録のやり直し等の必要がなく、最適な標準パターンを作成し、登録または再登録することができ、高い認識率を得ることができる。
【0020】
しかしながら、この場合、過去の音声パターンを記憶しておく必要があり、記憶する音声パターンの数が増えるに従って、音声パターンを記憶するRAM等の音声パターン記憶部4に大きな容量のものが必要になり、コストが高くなり、また、処理時間も大幅に増加するという問題が生ずる。また、記憶された音声パターンの中にはノイズ等が混入しているものや経時変化によって音声パターンの性能が低下しているものも含まれており、これらが用いられる場合、認識率が低下するという問題も生ずる。これらのことから、音声パターンを記憶している数に制限を持たせること、つまり、音声パターンがある数以上になると性能の低い音声パターンを削除する必要がある。
【0021】
図2は音声パターンがある数以上になると性能の低い音声パターンを削除する機能を備えた音声認識装置の構成例を示す図である。図2を参照すると、この音声認識装置では、図1の音声認識装置において、さらに、音声パターン記憶部4に記憶されている所定の単語についての各音声パターンと標準パターン記憶部6に記憶されている該単語の標準パターンとの類似度をそれぞれ算出し、所定の単語の各音声パターンについての標準パターンとの類似度を音声パターン情報として生成する音声パターン情報生成部9と、音声パターン情報生成部9で生成された音声パターン情報が単語毎に記憶される音声パターン情報記憶部10とが設けられている。
【0022】
ここで、所定の単語について、音声パターン情報生成部9で生成され音声パターン情報記憶部10に記憶される各音声パターン情報は、所定の単語についての標準パターンの登録時,特に再登録時に、この単語について音声パターン記憶部4に記憶される音声パターンの個数が所定の制限値を越える場合に、これに対処するために用いられるようになっている。すなわち、所定の単語についての標準パターンの登録時,特に再登録時に、この単語について音声パターン記憶部4に記憶される音声パターンの個数が所定の制限値を越える場合に、この単語について音声パターン情報記憶部10に記憶されている各音声パターン情報に基づいて、音声パターン記憶部4に現在記憶されている音声パターンのうち、性能の低い音声パターンを判断して、これを音声パターン記憶部4から削除し、再登録時において、この単語について音声パターン記憶部4に記憶される音声パターンの個数が所定の制限値以内に収まるようにしている。
【0023】
次に、図1あるいは図2の構成の音声認識装置の動作について説明する。なお、以下では、ある単語音声の標準パターンの登録時あるいは再登録時には、3つの音声パターンを組み合わせることによって標準パターンを生成するものとする。
【0024】
先ず、標準パターンの登録時には、スイッチSW2をオフにし、スイッチSW1をオンにする。次いで、例えば、Aという単語を新規に登録する場合、話者はAを3回発声する。特徴抽出部3は、例えば、音声帯域(250Hz〜6.35kHz)に15チャネルのバンドパスフィルタを1/3オクターブごとに配置し、それぞれのフィルタのパワー値を、特徴量として求めるようになっている。この場合、この特徴量は、ある一定間隔ごとにサンプルするものとし、この特徴量をパターン化したものを音声パターンとして出力する。出力された音声パターンは、音声パターン記憶部4に記憶される。それぞれの音声パターンはその発声時間により時間軸の長さは一定ではない。単語Aについてのそれぞれの発声に対して入力部1から音声パターン記憶部4までの動作が行なわれ、3回の発声が完了すると、単語Aについてそれぞれの発声に対する音声パターン(AV1,AV2,AV3)が生成され音声パターン記憶部4に例えば図3に示すように記憶される。なお、図3には、単語A以外の単語B,Cについての音声パターンもすでに記憶されている状態が示されている。
【0025】
その後、単語Aについての標準パターンの作成を行なう。すなわち、標準パターン生成部5では、単語Aについて3つの音声パターンの組合せは、いまの場合(図3の例では)、1組しかないので、無条件で、音声パターンAV1,AV2,AV3を重ね合せて標準パターンASを生成する。なお、重ね合わせの際に時間長の異なるパターンは、時間長を正規化してから重ね合わせを行なうものとする。このようにして生成された標準パターンASは標準パターン記憶部6に例えば図4に示すように記憶される。すなわち、単語Aの標準パターンとして登録される。なお、図4には、単語A以外の単語B,Cについての標準パターンBS,CSもすでに登録されている状態が示されている。
【0026】
このようにして、単語Aについて標準パターンの登録がなされた後、音声認識動作を行なうことができる。認識時には、スイッチSW1をオフにし、スイッチSW2をオンにする。次いで、話者が音声を発声すると、この音声は、入力部1で電気信号に変換され、前処理部2で前処理され、特徴抽出部3で特徴量(音声パターン)が抽出される。次いで、特徴抽出部3から出力される音声パターンは、類似度計算部7に入力し、類似度計算部7では、入力された特徴量(音声パターン)と標準パターン記憶部6に記憶されている各単語A,B,C,…の標準パターンAS,BS,CS,…との類似度をそれぞれ算出し、認識結果選択部8に与える。認識結果選択部8では、最も高い類似度を与えた標準パターンの単語を認識結果として選択し、出力する。
【0027】
このようにして、図1あるいは図2の音声認識装置では、標準パターンの登録,および話者音声認識を行なうことができる。
【0028】
ところで、上述の登録処理によって、例えばAという単語の標準パターンが標準パターン記憶部6にすでに登録されているとき(例えば図4のような状態にあるとき)、標準パターン記憶部6に登録されている単語Aの標準パターンを更新,変更したい場合がある。このような場合、図1あるいは図2の音声認識装置では、標準パターンの再登録を行なうことができる。
【0029】
標準パターンの再登録を行なう場合、例えば、Aという単語を再登録する場合、話者はAをN回発声する。N回の発声音声のそれぞれは、登録時の場合と同様にして、入力部1で電気信号に変換され、前処理部2で前処理され、特徴抽出部3で特徴量(音声パターン)が抽出され、音声パターン記憶部4に記憶される。
【0030】
このとき、音声パターン記憶部4には、図3のように登録時にすでに3つの音声パターン(AV1,AV2,AV3)が記憶されているので、再登録時のN回の音声は、音声パターン(AV4,…,AVN+3)として音声パターン記憶部4に図5のように記憶される。
【0031】
次いで、標準パターン生成部5では、先ず、仮の標準パターンの作成を行なう。ここで、AV4を入力パターンとすると、AV4を除くAV1からAVN+3までの音声パターンから、仮の標準パターンはN+3−1C3通りできる。次いで、標準パターン生成部5は、N+3−1C3通りの仮の標準パターンに対しての類似度を算出し、さらに入力パターンをAV4からAVN+3まで変えていった場合も同様に類似度を算出する。ここで最も高い類似度を示す仮の標準パターンを最適の標準パターンとみなし、これを標準パターン記憶部6に記憶(再登録)する。図6にはこの状態が示されており、この再登録によって、図4の標準パターンASは新たな標準パターンAS’に入れ替わる。
【0032】
このように、図1あるいは図2の音声認識装置では、音声の標準パターンを登録する際に最大の類似度が得られる音声パターンの組合せで標準パターンを生成することにより、音声の標準パターンの登録時または再登録時に、登録のやり直し等の必要がなく最適な標準パターンを得ることが可能となる。
【0033】
さらに、図2の音声認識装置では、音声パターン情報(音声パターン情報は、音声パターン記憶部4に記憶されている各音声パターンと標準パターンとの類似度、または、記憶された順番、または、標準パターンに使用された頻度等、または、これらの組合せが考えられるが、ここでは各音声パターンと標準パターンとの類似度を音声パターン情報として用いた場合について説明する。)を作成するために、音声パターン情報生成部9では、単語Aについての各音声パターン(AV1,…,AVN+3)と標準パターンAS’との類似度(Af1,…,AfN+3)を算出し、これらを音声パターン情報として音声パターン情報記憶部10に図7のように記憶する。ここでの音声パターン情報は、各音声パターンと標準パターンとの類似度であるので、類似度が低いほどその音声パターンの性能が低い(ノイズが混入しているまたは経時劣化した)と判断できる。なお、図7には、単語A以外の単語B,Cについての音声パターン情報も記憶されている状態が示されている。
【0034】
ところで、Aという単語についてこのような再登録処理を何回か行なうと、音声パターン記憶部4に記憶される音声パターンの個数が音声パターン記憶部4の容量によって定められる制限値(音声パターンの数または記憶部の容量等で制限できるが、ここでは音声パターンの数を制限値としてた場合の説明をする。)を超えてしまうことがある。音声パターン記憶部4に既に記憶されている音声パターンの数がYであり、今回の再登録時に話者がAをN回(NはN<X)発声した場合、音声パターン記憶部4の容量の制限値がXであるとすると、音声パターン記憶部4から、Y+N−X個の音声パターンを削除する必要がある。すなわち、N回の発声についての音声パターンが(AVY+1,…AVY+N)である場合、音声パターン記憶部4に記憶されているY個の音声パターン(AV1,…AVY)をも含めた音声パターンの個数Y+Nが、Y+N>Xのときには、本発明では、新たなN個の音声パターンが音声パターン記憶部4に記憶される前に、音声パターン記憶部4から性能の低い音声パターンを削除する。すなわち、音声パターン情報記憶部10から、音声パターン記憶部4にすでに記憶されているY個の音声パターンのそれぞれに対応した各音声パターン情報を読み取り、それらの音声パターン情報のうち、最も性能が低いと判断された音声パターンから順に、(Y+N−X)個の音声パターンを音声パターン記憶部4から削除する。これによって、音声パターン記憶部4に記憶される音声パターンの数をX個に制限することができる。そして、この場合、音声パターン記憶部4内のX個の音声パターンに基づいて、上記と同様に標準パターンを作成してこれを再登録し、また、音声パターン情報の作成を行なうことができる。
【0035】
このように、図1あるいは図2の音声認識装置では、音声パターン記憶部4に記憶されている音声パターンから最適な組合せの標準パターンを再構築することによって、登録のやり直しの必要性がない登録処理を実現することができる。
【0036】
さらに、図2の音声認識装置では、音声パターン記憶部4に記憶する音声パターンの数を制限することによって、コストの低減および処理時間の低減を図ることができ、また、音声パターン記憶部4に記憶する音声パターンの数を制限する場合にも、精度の高い標準パターンを作成でき(標準パターンの最適化を図ることができ)、認識率の低下を防止することができる。
【0037】
すなわち、本発明では、音声の登録時、特に再登録時に、これまでに記憶された音声パターンから標準パターンを再構築することによって最適な標準パターンを作成している。また、音声パターンを記憶している数に制限を持たせ、音声パターンがある数以上になると性能の低い音声パターンを削除する。これらによって、登録のやり直し等の必要がなく、最適な標準パターンを作成することができ、高い認識率を得ることができ、さらに、この場合にも、コストの低減および処理時間の低減を図ることができる。
【0038】
なお、上述の例において、再登録時の発声回数Nは重ね合わせの回数に関係なく任意の発声回数でよい。従来は重ね合わせの回数と同じ回数の発声が必要であった。ただし、N<Xの条件はある。このように、本発明では、音声パターン記憶部4に記憶されている音声パターンから最適な組合せの標準パターンを再構築することによって、登録のやり直しの必要性がない登録処理を実現することができ、さらに、音声パターン記憶部4に記憶する音声パターンの数を制限することによって、コストの低減および処理時間の低減を図ることができ、また、音声パターン記憶部4に記憶する音声パターンの数を制限する場合にも、精度の高い標準パターンを作成でき(標準パターンの最適化を図ることができ)、認識率の低下を防止することができる。
【0039】
【発明の効果】
以上に説明したように、請求項1乃至請求項4記載の発明によれば、過去の音声パターンを記憶しておき、音声の標準パターンを登録する際に最大の類似度が得られる音声パターンの組合せで標準パターンを生成することにより、音声の標準パターンの登録時または再登録時に、登録のやり直し等の必要がなく最適な標準パターンを得ることが可能となり、登録のやり直し等の必要がなく最適な標準パターンを得ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図である。
【図2】本発明に係る音声認識装置の他の構成例を示す図である。
【図3】音声パターン記憶部の状態を示す図である。
【図4】標準パターン記憶部の状態を示す図である。
【図5】音声パターン記憶部の状態を示す図である。
【図6】音声パターン記憶部の状態を示す図である。
【図7】音声パターン情報記憶部の状態を示す図である。
【符号の説明】
1 入力部
2 前処理部
3 特徴抽出部
4 音声パターン記憶部
5 標準パターン生成部
6 標準パターン記憶部
7 類似度計算部
8 認識結果選択部
9 音声パターン情報生成部
10 音声パターン情報記憶部
【発明の属する技術分野】
本発明は、音声認識装置および標準パターン登録方法に関する。
【0002】
【従来の技術】
一般に、音声認識装置では、1つの単語音声についての標準パターンを生成,登録するのに、話者に複数回(例えば3回)発声させ、それぞれの発声に対して特徴抽出を行ない、それぞれの発声について得られた特徴量で各発声についての音声パターンを生成し、各音声パターンを時間軸で正規化し、重ね合わせることによって、1つの標準パターンを生成し、登録するようになっている。また、標準パターンを再登録する際には、上述したと同じ手順で、新しい標準パターンを生成し、これを古い標準パターンと入れ替えることによって、標準パターンの再登録を行なっている。
【0003】
ところで、従来では、このような標準パターンの再登録の際に、標準パターンの品質を保つために、または他の標準パターンへの悪影響を軽減させるために、新しい標準パターンを古い標準パターンと入れ替えるに先立って、新しい標準パターンの類似度および他の標準パターンの類似度を算出し、新しい標準パターンの類似度が他の標準パターンの類似度よりもある値以上大きくなった時のみ、標準パターンの入れ替えを行ない、ある値よりも小さいときには標準パターンの入れ替えは行なわず、登録のやり直しを促す表示または警報等を出している。
【0004】
【発明が解決しようとする課題】
しかしながら、上記の方法において、再登録の際の複数回の発声にノイズ等が混入し、悪影響が及ぶことがある。例えば、再登録のために3回発声したが、2回目の発声をしたときにノイズが混入したような場合、類似度が所定値より大きくならず登録が拒否され、再び再登録の操作を行なわなければならない。また、上記の方法のように他の標準パターンとの類似度の差だけに着目する場合、ノイズの混入した標準パターンでも登録される可能性があり、認識率の低下を招く。また、ノイズの混入した標準パターンが多く登録されると類似度の差は小さくなり、新規登録や再登録の際に類似度の差が所定値より大きくならず登録不可能となる場合もある。
【0005】
本発明は、音声の標準パターンの登録時または再登録時に、登録のやり直し等を行なう必要なく、最適な標準パターンを得ることが可能な音声認識装置および標準パターン登録方法を提供することを目的としている。
【0006】
【課題を解決するための手段】
上記目的を達成するために、請求項1記載の発明では、入力された音声の特徴量を抽出する特徴抽出手段と、抽出した音声の特徴量を音声パターンとして記憶する音声パターン記憶手段と、音声パターン記憶手段に記憶された各音声パターンに基づいて標準パターンを生成する標準パターン生成手段と、標準パターン生成手段で生成された標準パターンを記憶する標準パターン記憶手段とを備えた音声認識装置において、前記標準パターン生成手段は、前記音声パターン記憶手段に記憶されている音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し、最大の類似度が得られる仮の標準パターンを標準パターンとして生成することを特徴としている。
【0008】
また、請求項2記載の発明は、請求項1記載の音声認識装置において、さらに、音声パターン記憶手段に記憶されたそれぞれの音声パターンについての情報を音声パターン情報として生成する音声パターン情報生成手段と、音声パターン情報生成手段で生成された情報を記憶する音声パターン情報記憶手段とを具備し、前記音声パターン情報生成手段によって生成され前記音声パターン情報記憶手段に記憶される音声パターン情報は、前記音声パターン記憶手段に記憶されている各音声パターンと標準パターンとの類似度、または、記憶された順番、または、標準パターンに使用された頻度、または、これらの組合せであることを特徴としている。
【0009】
また、請求項3記載の発明は、請求項1記載の音声認識装置において、音声パターン記憶手段に既に記憶されている音声パターンの数がYであり、今回の再登録時に話者がAをN回(NはN<X)発声した場合、音声パターン記憶手段の容量の制限値がXであるとするとき、音声パターン記憶手段に記憶されているY個の音声パターンをも含めた音声パターンの個数Y+Nが、Y+N>Xのときには、音声パターン情報記憶手段から、音声パターン記憶手段にすでに記憶されているY個の音声パターンのそれぞれに対応した各音声パターン情報を読み取り、それらの音声パターン情報のうち、最も性能が低いと判断された音声パターンから順に、(Y+N−X)個の音声パターンを音声パターン記憶手段から削除することを特徴としている。
【0010】
また、請求項4記載の発明は、入力された音声の特徴量を抽出し、抽出した音声の特徴量を音声パターンとして記憶し、記憶された各音声パターンに基づいて標準パターンを生成して登録する標準パターン登録方法において、記憶されている各音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し、最大の類似度が得られる仮の標準パターンを標準パターンとして生成することを特徴としている。
【0012】
請求項1乃至請求項4記載の発明では、過去の音声パターンを記憶しておき、音声の標準パターンを登録する際に最大の類似度が得られる音声パターンの組合せで標準パターンを生成するようにしている。これにより、音声の標準パターンの登録時または再登録時に、登録のやり直し等の必要がなく最適な標準パターンを得ることが可能となり、登録のやり直し等の必要がなく最適な標準パターンを得ることができる。
【0014】
【発明の実施の形態】
以下、本発明の実施形態を図面に基づいて説明する。図1は本発明に係る音声認識装置の構成例を示す図である。図1を参照すると、この音声認識装置は、入力音声を電気信号(音声信号)に変換するマイクロホン等の入力部1と、入力部1からの音声信号に対して前処理(増幅,フィルタおよびA/D変換)を施す前処理部2と、前処理部2から出力される音声信号の特徴量を抽出する特徴抽出部3と、登録時あるいは再登録時にオンとなる切替スイッチSW1と、特徴抽出部3で抽出された例えば所定の単語についての音声信号の特徴量を音声パターンとして記憶する音声パターン記憶部4と、音声パターン記憶部4に記憶された所定の単語についての各音声パターンに基づいて所定の単語についての標準パターンを生成する標準パターン生成部5と、標準パターン生成部5で生成された単語毎の標準パターンを記憶する標準パターン記憶部6と、認識時にオンとなる切替スイッチSW2と、特徴抽出部3で抽出された音声信号の特徴量(音声パターン)と標準パターン記憶部6に記憶されている各単語の標準パターンとの類似度を計算する類似度計算部7と、類似度計算部7で算出された音声パターンと各単語の標準パターンの類似度から、最も高い類似度を与える単語候補を認識結果として選択する認識結果選択部8とを備えている。
【0015】
ここで、特徴抽出部3は、例えば、音声帯域(250Hz〜6.35kHz)に15チャネルのバンドパスフィルタを1/3オクターブごとに配置し、それぞれのフィルタのパワー値を、特徴量として求めるようになっている。この場合、この特徴量は、ある一定間隔ごとにサンプルするものとし、この特徴量をパターン化したものを音声パターンとして出力する。
【0016】
また、類似度計算部7,認識結果選択部8,標準パターン記憶部6は、認識時に用いられ、また、音声パターン記憶部4,標準パターン生成部5,標準パターン記憶部6は、登録時,再登録時に用いられるようになっている。
【0017】
ここで、標準パターン生成部5は、音声パターン記憶部4に記憶されている音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し最大の類似度が得られる仮の標準パターンを標準パターンとして生成するようになっている。
【0018】
なお、標準パターンの再登録は、登録と同じものであり、標準パターン記憶部6に、ある単語の標準パターンが登録されていない状態でこれから登録するときに、“登録”と称し、また、標準パターン記憶部6に、ある単語の標準パターンが登録されている状態で、これを登録し直すことを“再登録”と称す。
【0019】
図1の音声認識装置では、入力された音声パターンを記憶しておき、標準パターンの登録時または再登録時には、これまでに記憶された音声パターンから標準パターンを再構築することによって最適な標準パターンを作成し、登録または再登録することで、登録のやり直し等の必要がなく、最適な標準パターンを作成し、登録または再登録することができ、高い認識率を得ることができる。
【0020】
しかしながら、この場合、過去の音声パターンを記憶しておく必要があり、記憶する音声パターンの数が増えるに従って、音声パターンを記憶するRAM等の音声パターン記憶部4に大きな容量のものが必要になり、コストが高くなり、また、処理時間も大幅に増加するという問題が生ずる。また、記憶された音声パターンの中にはノイズ等が混入しているものや経時変化によって音声パターンの性能が低下しているものも含まれており、これらが用いられる場合、認識率が低下するという問題も生ずる。これらのことから、音声パターンを記憶している数に制限を持たせること、つまり、音声パターンがある数以上になると性能の低い音声パターンを削除する必要がある。
【0021】
図2は音声パターンがある数以上になると性能の低い音声パターンを削除する機能を備えた音声認識装置の構成例を示す図である。図2を参照すると、この音声認識装置では、図1の音声認識装置において、さらに、音声パターン記憶部4に記憶されている所定の単語についての各音声パターンと標準パターン記憶部6に記憶されている該単語の標準パターンとの類似度をそれぞれ算出し、所定の単語の各音声パターンについての標準パターンとの類似度を音声パターン情報として生成する音声パターン情報生成部9と、音声パターン情報生成部9で生成された音声パターン情報が単語毎に記憶される音声パターン情報記憶部10とが設けられている。
【0022】
ここで、所定の単語について、音声パターン情報生成部9で生成され音声パターン情報記憶部10に記憶される各音声パターン情報は、所定の単語についての標準パターンの登録時,特に再登録時に、この単語について音声パターン記憶部4に記憶される音声パターンの個数が所定の制限値を越える場合に、これに対処するために用いられるようになっている。すなわち、所定の単語についての標準パターンの登録時,特に再登録時に、この単語について音声パターン記憶部4に記憶される音声パターンの個数が所定の制限値を越える場合に、この単語について音声パターン情報記憶部10に記憶されている各音声パターン情報に基づいて、音声パターン記憶部4に現在記憶されている音声パターンのうち、性能の低い音声パターンを判断して、これを音声パターン記憶部4から削除し、再登録時において、この単語について音声パターン記憶部4に記憶される音声パターンの個数が所定の制限値以内に収まるようにしている。
【0023】
次に、図1あるいは図2の構成の音声認識装置の動作について説明する。なお、以下では、ある単語音声の標準パターンの登録時あるいは再登録時には、3つの音声パターンを組み合わせることによって標準パターンを生成するものとする。
【0024】
先ず、標準パターンの登録時には、スイッチSW2をオフにし、スイッチSW1をオンにする。次いで、例えば、Aという単語を新規に登録する場合、話者はAを3回発声する。特徴抽出部3は、例えば、音声帯域(250Hz〜6.35kHz)に15チャネルのバンドパスフィルタを1/3オクターブごとに配置し、それぞれのフィルタのパワー値を、特徴量として求めるようになっている。この場合、この特徴量は、ある一定間隔ごとにサンプルするものとし、この特徴量をパターン化したものを音声パターンとして出力する。出力された音声パターンは、音声パターン記憶部4に記憶される。それぞれの音声パターンはその発声時間により時間軸の長さは一定ではない。単語Aについてのそれぞれの発声に対して入力部1から音声パターン記憶部4までの動作が行なわれ、3回の発声が完了すると、単語Aについてそれぞれの発声に対する音声パターン(AV1,AV2,AV3)が生成され音声パターン記憶部4に例えば図3に示すように記憶される。なお、図3には、単語A以外の単語B,Cについての音声パターンもすでに記憶されている状態が示されている。
【0025】
その後、単語Aについての標準パターンの作成を行なう。すなわち、標準パターン生成部5では、単語Aについて3つの音声パターンの組合せは、いまの場合(図3の例では)、1組しかないので、無条件で、音声パターンAV1,AV2,AV3を重ね合せて標準パターンASを生成する。なお、重ね合わせの際に時間長の異なるパターンは、時間長を正規化してから重ね合わせを行なうものとする。このようにして生成された標準パターンASは標準パターン記憶部6に例えば図4に示すように記憶される。すなわち、単語Aの標準パターンとして登録される。なお、図4には、単語A以外の単語B,Cについての標準パターンBS,CSもすでに登録されている状態が示されている。
【0026】
このようにして、単語Aについて標準パターンの登録がなされた後、音声認識動作を行なうことができる。認識時には、スイッチSW1をオフにし、スイッチSW2をオンにする。次いで、話者が音声を発声すると、この音声は、入力部1で電気信号に変換され、前処理部2で前処理され、特徴抽出部3で特徴量(音声パターン)が抽出される。次いで、特徴抽出部3から出力される音声パターンは、類似度計算部7に入力し、類似度計算部7では、入力された特徴量(音声パターン)と標準パターン記憶部6に記憶されている各単語A,B,C,…の標準パターンAS,BS,CS,…との類似度をそれぞれ算出し、認識結果選択部8に与える。認識結果選択部8では、最も高い類似度を与えた標準パターンの単語を認識結果として選択し、出力する。
【0027】
このようにして、図1あるいは図2の音声認識装置では、標準パターンの登録,および話者音声認識を行なうことができる。
【0028】
ところで、上述の登録処理によって、例えばAという単語の標準パターンが標準パターン記憶部6にすでに登録されているとき(例えば図4のような状態にあるとき)、標準パターン記憶部6に登録されている単語Aの標準パターンを更新,変更したい場合がある。このような場合、図1あるいは図2の音声認識装置では、標準パターンの再登録を行なうことができる。
【0029】
標準パターンの再登録を行なう場合、例えば、Aという単語を再登録する場合、話者はAをN回発声する。N回の発声音声のそれぞれは、登録時の場合と同様にして、入力部1で電気信号に変換され、前処理部2で前処理され、特徴抽出部3で特徴量(音声パターン)が抽出され、音声パターン記憶部4に記憶される。
【0030】
このとき、音声パターン記憶部4には、図3のように登録時にすでに3つの音声パターン(AV1,AV2,AV3)が記憶されているので、再登録時のN回の音声は、音声パターン(AV4,…,AVN+3)として音声パターン記憶部4に図5のように記憶される。
【0031】
次いで、標準パターン生成部5では、先ず、仮の標準パターンの作成を行なう。ここで、AV4を入力パターンとすると、AV4を除くAV1からAVN+3までの音声パターンから、仮の標準パターンはN+3−1C3通りできる。次いで、標準パターン生成部5は、N+3−1C3通りの仮の標準パターンに対しての類似度を算出し、さらに入力パターンをAV4からAVN+3まで変えていった場合も同様に類似度を算出する。ここで最も高い類似度を示す仮の標準パターンを最適の標準パターンとみなし、これを標準パターン記憶部6に記憶(再登録)する。図6にはこの状態が示されており、この再登録によって、図4の標準パターンASは新たな標準パターンAS’に入れ替わる。
【0032】
このように、図1あるいは図2の音声認識装置では、音声の標準パターンを登録する際に最大の類似度が得られる音声パターンの組合せで標準パターンを生成することにより、音声の標準パターンの登録時または再登録時に、登録のやり直し等の必要がなく最適な標準パターンを得ることが可能となる。
【0033】
さらに、図2の音声認識装置では、音声パターン情報(音声パターン情報は、音声パターン記憶部4に記憶されている各音声パターンと標準パターンとの類似度、または、記憶された順番、または、標準パターンに使用された頻度等、または、これらの組合せが考えられるが、ここでは各音声パターンと標準パターンとの類似度を音声パターン情報として用いた場合について説明する。)を作成するために、音声パターン情報生成部9では、単語Aについての各音声パターン(AV1,…,AVN+3)と標準パターンAS’との類似度(Af1,…,AfN+3)を算出し、これらを音声パターン情報として音声パターン情報記憶部10に図7のように記憶する。ここでの音声パターン情報は、各音声パターンと標準パターンとの類似度であるので、類似度が低いほどその音声パターンの性能が低い(ノイズが混入しているまたは経時劣化した)と判断できる。なお、図7には、単語A以外の単語B,Cについての音声パターン情報も記憶されている状態が示されている。
【0034】
ところで、Aという単語についてこのような再登録処理を何回か行なうと、音声パターン記憶部4に記憶される音声パターンの個数が音声パターン記憶部4の容量によって定められる制限値(音声パターンの数または記憶部の容量等で制限できるが、ここでは音声パターンの数を制限値としてた場合の説明をする。)を超えてしまうことがある。音声パターン記憶部4に既に記憶されている音声パターンの数がYであり、今回の再登録時に話者がAをN回(NはN<X)発声した場合、音声パターン記憶部4の容量の制限値がXであるとすると、音声パターン記憶部4から、Y+N−X個の音声パターンを削除する必要がある。すなわち、N回の発声についての音声パターンが(AVY+1,…AVY+N)である場合、音声パターン記憶部4に記憶されているY個の音声パターン(AV1,…AVY)をも含めた音声パターンの個数Y+Nが、Y+N>Xのときには、本発明では、新たなN個の音声パターンが音声パターン記憶部4に記憶される前に、音声パターン記憶部4から性能の低い音声パターンを削除する。すなわち、音声パターン情報記憶部10から、音声パターン記憶部4にすでに記憶されているY個の音声パターンのそれぞれに対応した各音声パターン情報を読み取り、それらの音声パターン情報のうち、最も性能が低いと判断された音声パターンから順に、(Y+N−X)個の音声パターンを音声パターン記憶部4から削除する。これによって、音声パターン記憶部4に記憶される音声パターンの数をX個に制限することができる。そして、この場合、音声パターン記憶部4内のX個の音声パターンに基づいて、上記と同様に標準パターンを作成してこれを再登録し、また、音声パターン情報の作成を行なうことができる。
【0035】
このように、図1あるいは図2の音声認識装置では、音声パターン記憶部4に記憶されている音声パターンから最適な組合せの標準パターンを再構築することによって、登録のやり直しの必要性がない登録処理を実現することができる。
【0036】
さらに、図2の音声認識装置では、音声パターン記憶部4に記憶する音声パターンの数を制限することによって、コストの低減および処理時間の低減を図ることができ、また、音声パターン記憶部4に記憶する音声パターンの数を制限する場合にも、精度の高い標準パターンを作成でき(標準パターンの最適化を図ることができ)、認識率の低下を防止することができる。
【0037】
すなわち、本発明では、音声の登録時、特に再登録時に、これまでに記憶された音声パターンから標準パターンを再構築することによって最適な標準パターンを作成している。また、音声パターンを記憶している数に制限を持たせ、音声パターンがある数以上になると性能の低い音声パターンを削除する。これらによって、登録のやり直し等の必要がなく、最適な標準パターンを作成することができ、高い認識率を得ることができ、さらに、この場合にも、コストの低減および処理時間の低減を図ることができる。
【0038】
なお、上述の例において、再登録時の発声回数Nは重ね合わせの回数に関係なく任意の発声回数でよい。従来は重ね合わせの回数と同じ回数の発声が必要であった。ただし、N<Xの条件はある。このように、本発明では、音声パターン記憶部4に記憶されている音声パターンから最適な組合せの標準パターンを再構築することによって、登録のやり直しの必要性がない登録処理を実現することができ、さらに、音声パターン記憶部4に記憶する音声パターンの数を制限することによって、コストの低減および処理時間の低減を図ることができ、また、音声パターン記憶部4に記憶する音声パターンの数を制限する場合にも、精度の高い標準パターンを作成でき(標準パターンの最適化を図ることができ)、認識率の低下を防止することができる。
【0039】
【発明の効果】
以上に説明したように、請求項1乃至請求項4記載の発明によれば、過去の音声パターンを記憶しておき、音声の標準パターンを登録する際に最大の類似度が得られる音声パターンの組合せで標準パターンを生成することにより、音声の標準パターンの登録時または再登録時に、登録のやり直し等の必要がなく最適な標準パターンを得ることが可能となり、登録のやり直し等の必要がなく最適な標準パターンを得ることができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図である。
【図2】本発明に係る音声認識装置の他の構成例を示す図である。
【図3】音声パターン記憶部の状態を示す図である。
【図4】標準パターン記憶部の状態を示す図である。
【図5】音声パターン記憶部の状態を示す図である。
【図6】音声パターン記憶部の状態を示す図である。
【図7】音声パターン情報記憶部の状態を示す図である。
【符号の説明】
1 入力部
2 前処理部
3 特徴抽出部
4 音声パターン記憶部
5 標準パターン生成部
6 標準パターン記憶部
7 類似度計算部
8 認識結果選択部
9 音声パターン情報生成部
10 音声パターン情報記憶部
Claims (4)
- 入力された音声の特徴量を抽出する特徴抽出手段と、抽出した音声の特徴量を音声パターンとして記憶する音声パターン記憶手段と、音声パターン記憶手段に記憶された各音声パターンに基づいて標準パターンを生成する標準パターン生成手段と、標準パターン生成手段で生成された標準パターンを記憶する標準パターン記憶手段とを備えた音声認識装置において、前記標準パターン生成手段は、前記音声パターン記憶手段に記憶されている音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し、最大の類似度が得られる仮の標準パターンを標準パターンとして生成することを特徴とする音声認識装置。
- 請求項1記載の音声認識装置において、さらに、音声パターン記憶手段に記憶されたそれぞれの音声パターンについての情報を音声パターン情報として生成する音声パターン情報生成手段と、音声パターン情報生成手段で生成された情報を記憶する音声パターン情報記憶手段とを具備し、前記音声パターン情報生成手段によって生成され前記音声パターン情報記憶手段に記憶される音声パターン情報は、前記音声パターン記憶手段に記憶されている各音声パターンと標準パターンとの類似度、または、記憶された順番、または、標準パターンに使用された頻度、または、これらの組合せであることを特徴とする音声認識装置。
- 請求項1記載の音声認識装置において、音声パターン記憶手段に既に記憶されている音声パターンの数がYであり、今回の再登録時に話者がAをN回(NはN<X)発声した場合、音声パターン記憶手段の容量の制限値がXであるとするとき、音声パターン記憶手段に記憶されているY個の音声パターンをも含めた音声パターンの個数Y+Nが、Y+N>Xのときには、音声パターン情報記憶手段から、音声パターン記憶手段にすでに記憶されているY個の音声パターンのそれぞれに対応した各音声パターン情報を読み取り、それらの音声パターン情報のうち、最も性能が低いと判断された音声パターンから順に、(Y+N−X)個の音声パターンを音声パターン記憶手段から削除することを特徴とする音声認識装置。
- 入力された音声の特徴量を抽出し、抽出した音声の特徴量を音声パターンとして記憶し、記憶された各音声パターンに基づいて標準パターンを生成して登録する標準パターン登録方法において、記憶されている各音声パターンを任意に組み合わせた仮の標準パターンと入力された音声パターンとの類似度を計算し、最大の類似度が得られる仮の標準パターンを標準パターンとして生成することを特徴とする標準パターン登録方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19007896A JP3582934B2 (ja) | 1996-07-01 | 1996-07-01 | 音声認識装置および標準パターン登録方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP19007896A JP3582934B2 (ja) | 1996-07-01 | 1996-07-01 | 音声認識装置および標準パターン登録方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1020882A JPH1020882A (ja) | 1998-01-23 |
JP3582934B2 true JP3582934B2 (ja) | 2004-10-27 |
Family
ID=16252003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP19007896A Expired - Fee Related JP3582934B2 (ja) | 1996-07-01 | 1996-07-01 | 音声認識装置および標準パターン登録方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3582934B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007111169A1 (ja) * | 2006-03-24 | 2007-10-04 | Pioneer Corporation | 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム |
US20100063817A1 (en) * | 2007-03-14 | 2010-03-11 | Pioneer Corporation | Acoustic model registration apparatus, talker recognition apparatus, acoustic model registration method and acoustic model registration processing program |
-
1996
- 1996-07-01 JP JP19007896A patent/JP3582934B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1020882A (ja) | 1998-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3078205B2 (ja) | 波形の連結及び部分的重複化による音声合成方法 | |
US4912768A (en) | Speech encoding process combining written and spoken message codes | |
US6266637B1 (en) | Phrase splicing and variable substitution using a trainable speech synthesizer | |
JP2986313B2 (ja) | 音声コード化装置及びその方法並びに音声認識装置及びその方法 | |
JP4516863B2 (ja) | 音声合成装置、音声合成方法及びプログラム | |
JP2001034282A (ja) | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 | |
EP0380572A1 (en) | SPEECH SYNTHESIS FROM SEGMENTS OF DIGITAL COARTICULATED VOICE SIGNALS. | |
US20210327446A1 (en) | Method and apparatus for reconstructing voice conversation | |
US20090157397A1 (en) | Voice Rule-Synthesizer and Compressed Voice-Element Data Generator for the same | |
US6546369B1 (en) | Text-based speech synthesis method containing synthetic speech comparisons and updates | |
JP3582934B2 (ja) | 音声認識装置および標準パターン登録方法 | |
JPH0823757B2 (ja) | 音声の区分化方法 | |
US7219061B1 (en) | Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized | |
US6832192B2 (en) | Speech synthesizing method and apparatus | |
US7298783B2 (en) | Method of compressing sounds in mobile terminals | |
JP2007025042A (ja) | 音声合成装置および音声合成プログラム | |
JP3841596B2 (ja) | 音素データの生成方法及び音声合成装置 | |
JP3474071B2 (ja) | 音声認識装置および標準パターン登録方法 | |
JPH07319495A (ja) | 音声合成装置のための合成単位データ生成方式及び方法 | |
US6934680B2 (en) | Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis | |
JPH11249679A (ja) | 音声合成装置 | |
US20230223032A1 (en) | Method and apparatus for reconstructing voice conversation | |
JP3241582B2 (ja) | 韻律制御装置及び方法 | |
JPS63199399A (ja) | 音声合成装置 | |
JPH09218696A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040316 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040727 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040727 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |