JPH1020882A - 音声認識装置および標準パターン登録方法 - Google Patents

音声認識装置および標準パターン登録方法

Info

Publication number
JPH1020882A
JPH1020882A JP8190078A JP19007896A JPH1020882A JP H1020882 A JPH1020882 A JP H1020882A JP 8190078 A JP8190078 A JP 8190078A JP 19007896 A JP19007896 A JP 19007896A JP H1020882 A JPH1020882 A JP H1020882A
Authority
JP
Japan
Prior art keywords
voice
pattern
standard
stored
patterns
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8190078A
Other languages
English (en)
Other versions
JP3582934B2 (ja
Inventor
Izumi Kinoshita
泉 木下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP19007896A priority Critical patent/JP3582934B2/ja
Publication of JPH1020882A publication Critical patent/JPH1020882A/ja
Application granted granted Critical
Publication of JP3582934B2 publication Critical patent/JP3582934B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声の標準パターンの登録時または再登録時
に、登録のやり直し等を行なう必要なく、最適な標準パ
ターンを得ることが可能である。 【解決手段】 入力された音声の特徴量を抽出する特徴
抽出部3と、抽出した音声の特徴量を音声パターンとし
て記憶する音声パターン記憶部4と、音声パターン記憶
部4に記憶された各音声パターンに基づいて標準パター
ンを生成する標準パターン生成部5と、標準パターン生
成部5で生成された標準パターンを記憶する標準パター
ン記憶部6とを備えた音声認識装置において、標準パタ
ーン生成部5は、音声パターン記憶部4に記憶されてい
る音声パターンを任意に組み合わせた仮の標準パターン
と入力された音声パターンとの類似度を計算し、最大の
類似度が得られる仮の標準パターンを標準パターンとし
て生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び標準パターン登録方法に関する。
【0002】
【従来の技術】一般に、音声認識装置では、1つの単語
音声についての標準パターンを生成,登録するのに、話
者に複数回(例えば3回)発声させ、それぞれの発声に対
して特徴抽出を行ない、それぞれの発声について得られ
た特徴量で各発声についての音声パターンを生成し、各
音声パターンを時間軸で正規化し、重ね合わせることに
よって、1つの標準パターンを生成し、登録するように
なっている。また、標準パターンを再登録する際には、
上述したと同じ手順で、新しい標準パターンを生成し、
これを古い標準パターンと入れ替えることによって、標
準パターンの再登録を行なっている。
【0003】ところで、従来では、このような標準パタ
ーンの再登録の際に、標準パターンの品質を保つため
に、または他の標準パターンへの悪影響を軽減させるた
めに、新しい標準パターンを古い標準パターンと入れ替
えるに先立って、新しい標準パターンの類似度および他
の標準パターンの類似度を算出し、新しい標準パターン
の類似度が他の標準パターンの類似度よりもある値以上
大きくなった時のみ、標準パターンの入れ替えを行な
い、ある値よりも小さいときには標準パターンの入れ替
えは行なわず、登録のやり直しを促す表示または警報等
を出している。
【0004】
【発明が解決しようとする課題】しかしながら、上記の
方法において、再登録の際の複数回の発声にノイズ等が
混入し、悪影響が及ぶことがある。例えば、再登録のた
めに3回発声したが、2回目の発声をしたときにノイズ
が混入したような場合、類似度が所定値より大きくなら
ず登録が拒否され、再び再登録の操作を行なわなければ
ならない。また、上記の方法のように他の標準パターン
との類似度の差だけに着目する場合、ノイズの混入した
標準パターンでも登録される可能性があり、認識率の低
下を招く。また、ノイズの混入した標準パターンが多く
登録されると類似度の差は小さくなり、新規登録や再登
録の際に類似度の差が所定値より大きくならず登録不可
能となる場合もある。
【0005】本発明は、音声の標準パターンの登録時ま
たは再登録時に、登録のやり直し等を行なう必要なく、
最適な標準パターンを得ることが可能な音声認識装置お
よび標準パターン登録方法を提供することを目的として
いる。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、請求項1記載の発明では、入力された音声の特徴量
を抽出する特徴抽出手段と、抽出した音声の特徴量を音
声パターンとして記憶する音声パターン記憶手段と、音
声パターン記憶手段に記憶された各音声パターンに基づ
いて標準パターンを生成する標準パターン生成手段と、
標準パターン生成手段で生成された標準パターンを記憶
する標準パターン記憶手段とを備えた音声認識装置にお
いて、前記標準パターン生成手段は、前記音声パターン
記憶手段に記憶されている音声パターンを任意に組み合
わせた仮の標準パターンと入力された音声パターンとの
類似度を計算し、最大の類似度が得られる仮の標準パタ
ーンを標準パターンとして生成することを特徴としてい
る。
【0007】また、請求項2記載の発明は、入力された
音声の特徴量を抽出する特徴抽出手段と、抽出した音声
の特徴量を音声パターンとして記憶する音声パターン記
憶手段と、音声パターン記憶手段に記憶された各音声パ
ターンに基づいて標準パターンを生成する標準パターン
生成手段と、標準パターン生成手段で生成された標準パ
ターンを記憶する標準パターン記憶手段とを備えた音声
認識装置において、さらに、音声パターン記憶手段に記
憶されたそれぞれの音声パターンについての情報を音声
パターン情報として生成する音声パターン情報生成手段
と、音声パターン情報生成手段で生成された情報を記憶
する音声パターン情報記憶手段とを具備し、音声パター
ン情報生成手段で生成され音声パターン情報記憶手段に
記憶される各音声パターン情報は、所定の単語について
の標準パターンの登録時,または再登録時に、この単語
について音声パターン記憶手段に記憶される音声パター
ンの個数が所定の制限値を越える場合に、音声パターン
記憶手段に現在記憶されている音声パターンのうち、性
能の低い音声パターンを判断して、これを音声パターン
記憶手段から削除し、この単語について音声パターン記
憶手段に記憶される音声パターンの個数が所定の制限値
以内に収まるようにするために用いられることを特徴と
している。
【0008】また、請求項3記載の発明は、請求項1記
載の音声認識装置において、音声パターン情報生成手段
によって生成され音声パターン情報記憶手段に記憶され
る音声パターン情報は、音声パターン記憶手段に記憶さ
れている各音声パターンと標準パターンとの類似度、ま
たは、記憶された順番、または、標準パターンに使用さ
れた頻度等、または、これらの組合せであることを特徴
としている。
【0009】また、請求項4記載の発明は、請求項1記
載の音声認識装置において、音声パターン記憶手段に既
に記憶されている音声パターンの数がYであり、今回の
再登録時に話者がAをN回(NはN<X)発声した場合、
音声パターン記憶手段の容量の制限値がXであるとする
とき、音声パターン記憶手段に記憶されているY個の音
声パターンをも含めた音声パターンの個数Y+Nが、Y
+N>Xのときには、音声パターン情報記憶手段から、
音声パターン記憶手段にすでに記憶されているY個の音
声パターンのそれぞれに対応した各音声パターン情報を
読み取り、それらの音声パターン情報のうち、最も性能
が低いと判断された音声パターンから順に、(Y+N−
X)個の音声パターンを音声パターン記憶手段から削除
することを特徴としている。
【0010】また、請求項5記載の発明は、入力された
音声の特徴量を抽出し、抽出した音声の特徴量を音声パ
ターンとして記憶し、記憶された各音声パターンに基づ
いて標準パターンを生成して登録する標準パターン登録
方法において、記憶されている各音声パターンを任意に
組み合わせた仮の標準パターンと入力された音声パター
ンとの類似度を計算し、最大の類似度が得られる仮の標
準パターンを標準パターンとして生成することを特徴と
している。
【0011】また、請求項6記載の発明は、入力された
音声の特徴量を抽出し、抽出した音声の特徴量を音声パ
ターンとして記憶し、記憶された各音声パターンに基づ
いて標準パターンを生成して登録する標準パターン登録
方法において、各音声パターンについての情報を音声パ
ターン情報として生成し、所定の単語についての標準パ
ターンの登録時または再登録時に、この単語についての
音声パターンの個数が所定の制限値を越える場合に、こ
の単語についての各音声パターン情報に基づいて、現在
記憶されている音声パターンのうち、性能の低い音声パ
ターンを判断して、これを削除し、この単語について、
記憶される音声パターンの個数が所定の制限値以内に収
まるようにすることを特徴としている。
【0012】請求項1,請求項5記載の発明では、過去
の音声パターンを記憶しておき、音声の標準パターンを
登録する際に最大の類似度が得られる音声パターンの組
合せで標準パターンを生成するようにしている。これに
より、音声の標準パターンの登録時または再登録時に、
登録のやり直し等の必要がなく最適な標準パターンを得
ることが可能となり、登録のやり直し等の必要がなく最
適な標準パターンを得ることができる。
【0013】また、請求項2乃至請求項4,請求項6記
載の発明では、各音声パターンについての情報を音声パ
ターン情報として生成し、所定の単語についての標準パ
ターンの登録時または再登録時に、この単語についての
音声パターンの個数が所定の制限値を越える場合に、こ
の単語についての各音声パターン情報に基づいて、現在
記憶されている音声パターンのうち、性能の低い音声パ
ターンを判断して、これを削除し、この単語について、
記憶される音声パターンの個数が所定の制限値以内に収
まるようにしている。これにより、過去の音声パターン
を記憶しておく場合にも、コストの低減,処理時間の低
減を図ることができ、また、認識率の低下を防止するこ
とができる。
【0014】
【発明の実施の形態】以下、本発明の実施形態を図面に
基づいて説明する。図1は本発明に係る音声認識装置の
構成例を示す図である。図1を参照すると、この音声認
識装置は、入力音声を電気信号(音声信号)に変換するマ
イクロホン等の入力部1と、入力部1からの音声信号に
対して前処理(増幅,フィルタおよびA/D変換)を施す
前処理部2と、前処理部2から出力される音声信号の特
徴量を抽出する特徴抽出部3と、登録時あるいは再登録
時にオンとなる切替スイッチSW1と、特徴抽出部3で
抽出された例えば所定の単語についての音声信号の特徴
量を音声パターンとして記憶する音声パターン記憶部4
と、音声パターン記憶部4に記憶された所定の単語につ
いての各音声パターンに基づいて所定の単語についての
標準パターンを生成する標準パターン生成部5と、標準
パターン生成部5で生成された単語毎の標準パターンを
記憶する標準パターン記憶部6と、認識時にオンとなる
切替スイッチSW2と、特徴抽出部3で抽出された音声
信号の特徴量(音声パターン)と標準パターン記憶部6に
記憶されている各単語の標準パターンとの類似度を計算
する類似度計算部7と、類似度計算部7で算出された音
声パターンと各単語の標準パターンの類似度から、最も
高い類似度を与える単語候補を認識結果として選択する
認識結果選択部8とを備えている。
【0015】ここで、特徴抽出部3は、例えば、音声帯
域(250Hz〜6.35kHz)に15チャネルのバン
ドパスフィルタを1/3オクターブごとに配置し、それ
ぞれのフィルタのパワー値を、特徴量として求めるよう
になっている。この場合、この特徴量は、ある一定間隔
ごとにサンプルするものとし、この特徴量をパターン化
したものを音声パターンとして出力する。
【0016】また、類似度計算部7,認識結果選択部
8,標準パターン記憶部6は、認識時に用いられ、ま
た、音声パターン記憶部4,標準パターン生成部5,標
準パターン記憶部6は、登録時,再登録時に用いられる
ようになっている。
【0017】ここで、標準パターン生成部5は、音声パ
ターン記憶部4に記憶されている音声パターンを任意に
組み合わせた仮の標準パターンと入力された音声パター
ンとの類似度を計算し最大の類似度が得られる仮の標準
パターンを標準パターンとして生成するようになってい
る。
【0018】なお、標準パターンの再登録は、登録と同
じものであり、標準パターン記憶部6に、ある単語の標
準パターンが登録されていない状態でこれから登録する
ときに、“登録”と称し、また、標準パターン記憶部6
に、ある単語の標準パターンが登録されている状態で、
これを登録し直すことを“再登録”と称す。
【0019】図1の音声認識装置では、入力された音声
パターンを記憶しておき、標準パターンの登録時または
再登録時には、これまでに記憶された音声パターンから
標準パターンを再構築することによって最適な標準パタ
ーンを作成し、登録または再登録することで、登録のや
り直し等の必要がなく、最適な標準パターンを作成し、
登録または再登録することができ、高い認識率を得るこ
とができる。
【0020】しかしながら、この場合、過去の音声パタ
ーンを記憶しておく必要があり、記憶する音声パターン
の数が増えるに従って、音声パターンを記憶するRAM
等の音声パターン記憶部4に大きな容量のものが必要に
なり、コストが高くなり、また、処理時間も大幅に増加
するという問題が生ずる。また、記憶された音声パター
ンの中にはノイズ等が混入しているものや経時変化によ
って音声パターンの性能が低下しているものも含まれて
おり、これらが用いられる場合、認識率が低下するとい
う問題も生ずる。これらのことから、音声パターンを記
憶している数に制限を持たせること、つまり、音声パタ
ーンがある数以上になると性能の低い音声パターンを削
除する必要がある。
【0021】図2は音声パターンがある数以上になると
性能の低い音声パターンを削除する機能を備えた音声認
識装置の構成例を示す図である。図2を参照すると、こ
の音声認識装置では、図1の音声認識装置において、さ
らに、音声パターン記憶部4に記憶されている所定の単
語についての各音声パターンと標準パターン記憶部6に
記憶されている該単語の標準パターンとの類似度をそれ
ぞれ算出し、所定の単語の各音声パターンについての標
準パターンとの類似度を音声パターン情報として生成す
る音声パターン情報生成部9と、音声パターン情報生成
部9で生成された音声パターン情報が単語毎に記憶され
る音声パターン情報記憶部10とが設けられている。
【0022】ここで、所定の単語について、音声パター
ン情報生成部9で生成され音声パターン情報記憶部10
に記憶される各音声パターン情報は、所定の単語につい
ての標準パターンの登録時,特に再登録時に、この単語
について音声パターン記憶部4に記憶される音声パター
ンの個数が所定の制限値を越える場合に、これに対処す
るために用いられるようになっている。すなわち、所定
の単語についての標準パターンの登録時,特に再登録時
に、この単語について音声パターン記憶部4に記憶され
る音声パターンの個数が所定の制限値を越える場合に、
この単語について音声パターン情報記憶部10に記憶さ
れている各音声パターン情報に基づいて、音声パターン
記憶部4に現在記憶されている音声パターンのうち、性
能の低い音声パターンを判断して、これを音声パターン
記憶部4から削除し、再登録時において、この単語につ
いて音声パターン記憶部4に記憶される音声パターンの
個数が所定の制限値以内に収まるようにしている。
【0023】次に、図1あるいは図2の構成の音声認識
装置の動作について説明する。なお、以下では、ある単
語音声の標準パターンの登録時あるいは再登録時には、
3つの音声パターンを組み合わせることによって標準パ
ターンを生成するものとする。
【0024】先ず、標準パターンの登録時には、スイッ
チSW2をオフにし、スイッチSW1をオンにする。次い
で、例えば、Aという単語を新規に登録する場合、話者
はAを3回発声する。特徴抽出部3は、例えば、音声帯
域(250Hz〜6.35kHz)に15チャネルのバン
ドパスフィルタを1/3オクターブごとに配置し、それ
ぞれのフィルタのパワー値を、特徴量として求めるよう
になっている。この場合、この特徴量は、ある一定間隔
ごとにサンプルするものとし、この特徴量をパターン化
したものを音声パターンとして出力する。出力された音
声パターンは、音声パターン記憶部4に記憶される。そ
れぞれの音声パターンはその発声時間により時間軸の長
さは一定ではない。単語Aについてのそれぞれの発声に
対して入力部1から音声パターン記憶部4までの動作が
行なわれ、3回の発声が完了すると、単語Aについてそ
れぞれの発声に対する音声パターン(AV1,AV2,AV3)
が生成され音声パターン記憶部4に例えば図3に示すよ
うに記憶される。なお、図3には、単語A以外の単語
B,Cについての音声パターンもすでに記憶されている
状態が示されている。
【0025】その後、単語Aについての標準パターンの
作成を行なう。すなわち、標準パターン生成部5では、
単語Aについて3つの音声パターンの組合せは、いまの
場合(図3の例では)、1組しかないので、無条件で、音
声パターンAV1,AV2,AV3を重ね合せて標準パターン
Sを生成する。なお、重ね合わせの際に時間長の異な
るパターンは、時間長を正規化してから重ね合わせを行
なうものとする。このようにして生成された標準パター
ンASは標準パターン記憶部6に例えば図4に示すよう
に記憶される。すなわち、単語Aの標準パターンとして
登録される。なお、図4には、単語A以外の単語B,C
についての標準パターンBS,CSもすでに登録されてい
る状態が示されている。
【0026】このようにして、単語Aについて標準パタ
ーンの登録がなされた後、音声認識動作を行なうことが
できる。認識時には、スイッチSW1をオフにし、スイ
ッチSW2をオンにする。次いで、話者が音声を発声す
ると、この音声は、入力部1で電気信号に変換され、前
処理部2で前処理され、特徴抽出部3で特徴量(音声パ
ターン)が抽出される。次いで、特徴抽出部3から出力
される音声パターンは、類似度計算部7に入力し、類似
度計算部7では、入力された特徴量(音声パターン)と標
準パターン記憶部6に記憶されている各単語A,B,
C,…の標準パターンAS,BS,CS,…との類似度を
それぞれ算出し、認識結果選択部8に与える。認識結果
選択部8では、最も高い類似度を与えた標準パターンの
単語を認識結果として選択し、出力する。
【0027】このようにして、図1あるいは図2の音声
認識装置では、標準パターンの登録,および話者音声認
識を行なうことができる。
【0028】ところで、上述の登録処理によって、例え
ばAという単語の標準パターンが標準パターン記憶部6
にすでに登録されているとき(例えば図4のような状態
にあるとき)、標準パターン記憶部6に登録されている
単語Aの標準パターンを更新,変更したい場合がある。
このような場合、図1あるいは図2の音声認識装置で
は、標準パターンの再登録を行なうことができる。
【0029】標準パターンの再登録を行なう場合、例え
ば、Aという単語を再登録する場合、話者はAをN回発
声する。N回の発声音声のそれぞれは、登録時の場合と
同様にして、入力部1で電気信号に変換され、前処理部
2で前処理され、特徴抽出部3で特徴量(音声パターン)
が抽出され、音声パターン記憶部4に記憶される。
【0030】このとき、音声パターン記憶部4には、図
3のように登録時にすでに3つの音声パターン(AV1
V2,AV3)が記憶されているので、再登録時のN回の
音声は、音声パターン(AV4,…,AVN+3)として音声パ
ターン記憶部4に図5のように記憶される。
【0031】次いで、標準パターン生成部5では、先
ず、仮の標準パターンの作成を行なう。ここで、AV4
入力パターンとすると、AV4を除くAV1からAVN+3まで
の音声パターンから、仮の標準パターンはN+3-13通り
できる。次いで、標準パターン生成部5は、N+3-13
りの仮の標準パターンに対しての類似度を算出し、さら
に入力パターンをAV4からAVN+3まで変えていった場合
も同様に類似度を算出する。ここで最も高い類似度を示
す仮の標準パターンを最適の標準パターンとみなし、こ
れを標準パターン記憶部6に記憶(再登録)する。図6に
はこの状態が示されており、この再登録によって、図4
の標準パターンASは新たな標準パターンAS’に入れ替
わる。
【0032】このように、図1あるいは図2の音声認識
装置では、音声の標準パターンを登録する際に最大の類
似度が得られる音声パターンの組合せで標準パターンを
生成することにより、音声の標準パターンの登録時また
は再登録時に、登録のやり直し等の必要がなく最適な標
準パターンを得ることが可能となる。
【0033】さらに、図2の音声認識装置では、音声パ
ターン情報(音声パターン情報は、音声パターン記憶部
4に記憶されている各音声パターンと標準パターンとの
類似度、または、記憶された順番、または、標準パター
ンに使用された頻度等、または、これらの組合せが考え
られるが、ここでは各音声パターンと標準パターンとの
類似度を音声パターン情報として用いた場合について説
明する。)を作成するために、音声パターン情報生成部
9では、単語Aについての各音声パターン(AV1,…,
VN+3)と標準パターンAS’との類似度(Af1,…,A
fN+3)を算出し、これらを音声パターン情報として音声
パターン情報記憶部10に図7のように記憶する。ここ
での音声パターン情報は、各音声パターンと標準パター
ンとの類似度であるので、類似度が低いほどその音声パ
ターンの性能が低い(ノイズが混入しているまたは経時
劣化した)と判断できる。なお、図7には、単語A以外
の単語B,Cについての音声パターン情報も記憶されて
いる状態が示されている。
【0034】ところで、Aという単語についてこのよう
な再登録処理を何回か行なうと、音声パターン記憶部4
に記憶される音声パターンの個数が音声パターン記憶部
4の容量によって定められる制限値(音声パターンの数
または記憶部の容量等で制限できるが、ここでは音声パ
ターンの数を制限値としてた場合の説明をする。)を超
えてしまうことがある。音声パターン記憶部4に既に記
憶されている音声パターンの数がYであり、今回の再登
録時に話者がAをN回(NはN<X)発声した場合、音声
パターン記憶部4の容量の制限値がXであるとすると、
音声パターン記憶部4から、Y+N−X個の音声パター
ンを削除する必要がある。すなわち、N回の発声につい
ての音声パターンが(AVY+1,…AVY+N)である場合、音
声パターン記憶部4に記憶されているY個の音声パター
ン(AV1,…AVY)をも含めた音声パターンの個数Y+N
が、Y+N>Xのときには、本発明では、新たなN個の
音声パターンが音声パターン記憶部4に記憶される前
に、音声パターン記憶部4から性能の低い音声パターン
を削除する。すなわち、音声パターン情報記憶部10か
ら、音声パターン記憶部4にすでに記憶されているY個
の音声パターンのそれぞれに対応した各音声パターン情
報を読み取り、それらの音声パターン情報のうち、最も
性能が低いと判断された音声パターンから順に、(Y+
N−X)個の音声パターンを音声パターン記憶部4から
削除する。これによって、音声パターン記憶部4に記憶
される音声パターンの数をX個に制限することができ
る。そして、この場合、音声パターン記憶部4内のX個
の音声パターンに基づいて、上記と同様に標準パターン
を作成してこれを再登録し、また、音声パターン情報の
作成を行なうことができる。
【0035】このように、図1あるいは図2の音声認識
装置では、音声パターン記憶部4に記憶されている音声
パターンから最適な組合せの標準パターンを再構築する
ことによって、登録のやり直しの必要性がない登録処理
を実現することができる。
【0036】さらに、図2の音声認識装置では、音声パ
ターン記憶部4に記憶する音声パターンの数を制限する
ことによって、コストの低減および処理時間の低減を図
ることができ、また、音声パターン記憶部4に記憶する
音声パターンの数を制限する場合にも、精度の高い標準
パターンを作成でき(標準パターンの最適化を図ること
ができ)、認識率の低下を防止することができる。
【0037】すなわち、本発明では、音声の登録時、特
に再登録時に、これまでに記憶された音声パターンから
標準パターンを再構築することによって最適な標準パタ
ーンを作成している。また、音声パターンを記憶してい
る数に制限を持たせ、音声パターンがある数以上になる
と性能の低い音声パターンを削除する。これらによっ
て、登録のやり直し等の必要がなく、最適な標準パター
ンを作成することができ、高い認識率を得ることがで
き、さらに、この場合にも、コストの低減および処理時
間の低減を図ることができる。
【0038】なお、上述の例において、再登録時の発声
回数Nは重ね合わせの回数に関係なく任意の発声回数で
よい。従来は重ね合わせの回数と同じ回数の発声が必要
であった。ただし、N<Xの条件はある。このように、
本発明では、音声パターン記憶部4に記憶されている音
声パターンから最適な組合せの標準パターンを再構築す
ることによって、登録のやり直しの必要性がない登録処
理を実現することができ、さらに、音声パターン記憶部
4に記憶する音声パターンの数を制限することによっ
て、コストの低減および処理時間の低減を図ることがで
き、また、音声パターン記憶部4に記憶する音声パター
ンの数を制限する場合にも、精度の高い標準パターンを
作成でき(標準パターンの最適化を図ることができ)、認
識率の低下を防止することができる。
【0039】
【発明の効果】以上に説明したように、請求項1,請求
項5記載の発明によれば、過去の音声パターンを記憶し
ておき、音声の標準パターンを登録する際に最大の類似
度が得られる音声パターンの組合せで標準パターンを生
成することにより、音声の標準パターンの登録時または
再登録時に、登録のやり直し等の必要がなく最適な標準
パターンを得ることが可能となり、登録のやり直し等の
必要がなく最適な標準パターンを得ることができる。
【0040】また、請求項2乃至請求項4,請求項6記
載の発明によれば、各音声パターンについての情報を音
声パターン情報として生成し、所定の単語についての標
準パターンの登録時または再登録時に、この単語につい
ての音声パターンの個数が所定の制限値を越える場合
に、この単語についての各音声パターン情報に基づい
て、現在記憶されている音声パターンのうち、性能の低
い音声パターンを判断して、これを削除し、この単語に
ついて、記憶される音声パターンの個数が所定の制限値
以内に収まるようにしているので、過去の音声パターン
を記憶しておく場合にも、コストの低減,処理時間の低
減を図ることができ、また、認識率の低下を防止するこ
とができる。
【図面の簡単な説明】
【図1】本発明に係る音声認識装置の構成例を示す図で
ある。
【図2】本発明に係る音声認識装置の他の構成例を示す
図である。
【図3】音声パターン記憶部の状態を示す図である。
【図4】標準パターン記憶部の状態を示す図である。
【図5】音声パターン記憶部の状態を示す図である。
【図6】音声パターン記憶部の状態を示す図である。
【図7】音声パターン情報記憶部の状態を示す図であ
る。
【符号の説明】
1 入力部 2 前処理部 3 特徴抽出部 4 音声パターン記憶部 5 標準パターン生成部 6 標準パターン記憶部 7 類似度計算部 8 認識結果選択部 9 音声パターン情報生成部 10 音声パターン情報記憶部

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 入力された音声の特徴量を抽出する特徴
    抽出手段と、抽出した音声の特徴量を音声パターンとし
    て記憶する音声パターン記憶手段と、音声パターン記憶
    手段に記憶された各音声パターンに基づいて標準パター
    ンを生成する標準パターン生成手段と、標準パターン生
    成手段で生成された標準パターンを記憶する標準パター
    ン記憶手段とを備えた音声認識装置において、前記標準
    パターン生成手段は、前記音声パターン記憶手段に記憶
    されている音声パターンを任意に組み合わせた仮の標準
    パターンと入力された音声パターンとの類似度を計算
    し、最大の類似度が得られる仮の標準パターンを標準パ
    ターンとして生成することを特徴とする音声認識装置。
  2. 【請求項2】 入力された音声の特徴量を抽出する特徴
    抽出手段と、抽出した音声の特徴量を音声パターンとし
    て記憶する音声パターン記憶手段と、音声パターン記憶
    手段に記憶された各音声パターンに基づいて標準パター
    ンを生成する標準パターン生成手段と、標準パターン生
    成手段で生成された標準パターンを記憶する標準パター
    ン記憶手段とを備えた音声認識装置において、さらに、
    音声パターン記憶手段に記憶されたそれぞれの音声パタ
    ーンについての情報を音声パターン情報として生成する
    音声パターン情報生成手段と、音声パターン情報生成手
    段で生成された情報を記憶する音声パターン情報記憶手
    段とを具備し、音声パターン情報生成手段で生成され音
    声パターン情報記憶手段に記憶される各音声パターン情
    報は、所定の単語についての標準パターンの登録時,ま
    たは再登録時に、この単語について音声パターン記憶手
    段に記憶される音声パターンの個数が所定の制限値を越
    える場合に、音声パターン記憶手段に現在記憶されてい
    る音声パターンのうち、性能の低い音声パターンを判断
    して、これを音声パターン記憶手段から削除し、この単
    語について音声パターン記憶手段に記憶される音声パタ
    ーンの個数が所定の制限値以内に収まるようにするため
    に用いられることを特徴とする音声認識装置。
  3. 【請求項3】 請求項1記載の音声認識装置において、
    音声パターン情報生成手段によって生成され音声パター
    ン情報記憶手段に記憶される音声パターン情報は、音声
    パターン記憶手段に記憶されている各音声パターンと標
    準パターンとの類似度、または、記憶された順番、また
    は、標準パターンに使用された頻度等、または、これら
    の組合せであることを特徴とする音声認識装置。
  4. 【請求項4】 請求項1記載の音声認識装置において、
    音声パターン記憶手段に既に記憶されている音声パター
    ンの数がYであり、今回の再登録時に話者がAをN回
    (NはN<X)発声した場合、音声パターン記憶手段の容
    量の制限値がXであるとするとき、音声パターン記憶手
    段に記憶されているY個の音声パターンをも含めた音声
    パターンの個数Y+Nが、Y+N>Xのときには、音声
    パターン情報記憶手段から、音声パターン記憶手段にす
    でに記憶されているY個の音声パターンのそれぞれに対
    応した各音声パターン情報を読み取り、それらの音声パ
    ターン情報のうち、最も性能が低いと判断された音声パ
    ターンから順に、(Y+N−X)個の音声パターンを音声
    パターン記憶手段から削除することを特徴とする音声認
    識装置。
  5. 【請求項5】 入力された音声の特徴量を抽出し、抽出
    した音声の特徴量を音声パターンとして記憶し、記憶さ
    れた各音声パターンに基づいて標準パターンを生成して
    登録する標準パターン登録方法において、記憶されてい
    る各音声パターンを任意に組み合わせた仮の標準パター
    ンと入力された音声パターンとの類似度を計算し、最大
    の類似度が得られる仮の標準パターンを標準パターンと
    して生成することを特徴とする標準パターン登録方法。
  6. 【請求項6】 入力された音声の特徴量を抽出し、抽出
    した音声の特徴量を音声パターンとして記憶し、記憶さ
    れた各音声パターンに基づいて標準パターンを生成して
    登録する標準パターン登録方法において、各音声パター
    ンについての情報を音声パターン情報として生成し、所
    定の単語についての標準パターンの登録時または再登録
    時に、この単語についての音声パターンの個数が所定の
    制限値を越える場合に、この単語についての各音声パタ
    ーン情報に基づいて、現在記憶されている音声パターン
    のうち、性能の低い音声パターンを判断して、これを削
    除し、この単語について、記憶される音声パターンの個
    数が所定の制限値以内に収まるようにすることを特徴と
    する標準パターン登録方法。
JP19007896A 1996-07-01 1996-07-01 音声認識装置および標準パターン登録方法 Expired - Fee Related JP3582934B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP19007896A JP3582934B2 (ja) 1996-07-01 1996-07-01 音声認識装置および標準パターン登録方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP19007896A JP3582934B2 (ja) 1996-07-01 1996-07-01 音声認識装置および標準パターン登録方法

Publications (2)

Publication Number Publication Date
JPH1020882A true JPH1020882A (ja) 1998-01-23
JP3582934B2 JP3582934B2 (ja) 2004-10-27

Family

ID=16252003

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19007896A Expired - Fee Related JP3582934B2 (ja) 1996-07-01 1996-07-01 音声認識装置および標準パターン登録方法

Country Status (1)

Country Link
JP (1) JP3582934B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007111169A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2008111190A1 (ja) * 2007-03-14 2008-09-18 Pioneer Corporation 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007111169A1 (ja) * 2006-03-24 2007-10-04 Pioneer Corporation 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
JP4854732B2 (ja) * 2006-03-24 2012-01-18 パイオニア株式会社 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
WO2008111190A1 (ja) * 2007-03-14 2008-09-18 Pioneer Corporation 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム
JP4897040B2 (ja) * 2007-03-14 2012-03-14 パイオニア株式会社 音響モデル登録装置、話者認識装置、音響モデル登録方法及び音響モデル登録処理プログラム

Also Published As

Publication number Publication date
JP3582934B2 (ja) 2004-10-27

Similar Documents

Publication Publication Date Title
US6266637B1 (en) Phrase splicing and variable substitution using a trainable speech synthesizer
JPH0554959B2 (ja)
JPH0585916B2 (ja)
JP2001034282A (ja) 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JPS6024597A (ja) 音声登録方式
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US20090157397A1 (en) Voice Rule-Synthesizer and Compressed Voice-Element Data Generator for the same
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
US7162417B2 (en) Speech synthesizing method and apparatus for altering amplitudes of voiced and invoiced portions
EP1426926A2 (en) Apparatus and method for changing the playback rate of recorded speech
US8990092B2 (en) Voice recognition device
JPH0823757B2 (ja) 音声の区分化方法
US7219061B1 (en) Method for detecting the time sequences of a fundamental frequency of an audio response unit to be synthesized
JP4564416B2 (ja) 音声合成装置および音声合成プログラム
JP3582934B2 (ja) 音声認識装置および標準パターン登録方法
US20080228477A1 (en) Method and Device For Processing a Voice Signal For Robust Speech Recognition
JP3474071B2 (ja) 音声認識装置および標準パターン登録方法
JPH0430040B2 (ja)
JPH09218696A (ja) 音声認識装置
US20230223032A1 (en) Method and apparatus for reconstructing voice conversation
Govind et al. Expressive speech synthesis using prosodic modification and dynamic time warping
JPH0643892A (ja) 音声認識方法
JP3315565B2 (ja) 音声認識装置
JP2980382B2 (ja) 話者適応音声認識方法および装置
CN117636842B (zh) 基于韵律情感迁移的语音合成系统及方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040727

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees