JPH04296799A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH04296799A JPH04296799A JP3062865A JP6286591A JPH04296799A JP H04296799 A JPH04296799 A JP H04296799A JP 3062865 A JP3062865 A JP 3062865A JP 6286591 A JP6286591 A JP 6286591A JP H04296799 A JPH04296799 A JP H04296799A
- Authority
- JP
- Japan
- Prior art keywords
- parameters
- section
- spectrum
- signal
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 46
- 238000012937 correction Methods 0.000 claims abstract description 32
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 230000003595 spectral effect Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000010183 spectrum analysis Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 10
- 238000001514 detection method Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 6
- 239000012536 storage buffer Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 101000582320 Homo sapiens Neurogenic differentiation factor 6 Proteins 0.000 description 1
- 102100030589 Neurogenic differentiation factor 6 Human genes 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【0001】
【産業上の利用分野】本発明は、音声認識装置に関する
ものである。
ものである。
【0002】
【従来の技術】近年、音声認識技術の発達と共に、音声
認識装置が様々の分野で実用化されようとしており、実
用化するためには、認識装置を実用する上での様々の問
題点を解決する必要がある。この問題点の1つに、騒音
の大きい環境下で認識装置を使用した場合、音声に騒音
が重畳することで音声スペクトルが変動し、予め学習し
ておいた標準音声スペクトルでは変動を吸収できずに誤
認識してしまうという点がある。
認識装置が様々の分野で実用化されようとしており、実
用化するためには、認識装置を実用する上での様々の問
題点を解決する必要がある。この問題点の1つに、騒音
の大きい環境下で認識装置を使用した場合、音声に騒音
が重畳することで音声スペクトルが変動し、予め学習し
ておいた標準音声スペクトルでは変動を吸収できずに誤
認識してしまうという点がある。
【0003】上記問題点を解決するために、予め予測で
きる全ての騒音パターンを装置に学習させておく方法が
とられているが、全ての騒音パターンを学習させるため
には、学習時間、装置の容量、使用者の手間が膨大とな
り実用的ではない。
きる全ての騒音パターンを装置に学習させておく方法が
とられているが、全ての騒音パターンを学習させるため
には、学習時間、装置の容量、使用者の手間が膨大とな
り実用的ではない。
【0004】そこで、環境騒音により大きく変動する音
声スペクトルの概形情報を軽減し、変動の少ないスペク
トルの詳細情報を重視するように、特徴パラメータに重
みを付ける方法が近年提案されている。この方法により
、学習時間、装置の容量、使用者の手間が少なく、しか
も騒音によるスペクトル変動を吸収することができるよ
うになる。
声スペクトルの概形情報を軽減し、変動の少ないスペク
トルの詳細情報を重視するように、特徴パラメータに重
みを付ける方法が近年提案されている。この方法により
、学習時間、装置の容量、使用者の手間が少なく、しか
も騒音によるスペクトル変動を吸収することができるよ
うになる。
【0005】以下,図面を参照しながら、上述したよう
な従来の音声認識装置について説明を行う。ここでは、
標準音声を登録することで上記学習を行う登録型音声認
識装置において説明する。
な従来の音声認識装置について説明を行う。ここでは、
標準音声を登録することで上記学習を行う登録型音声認
識装置において説明する。
【0006】第2図は、従来の単語音声認識装置のブロ
ック図である。1は信号入力端子,3は分析部、15は
重み付け部、8は照合部、9は認識結果出力端子、10
は標準音声保管バッファ、16はスイッチである。以上
のように構成された音声認識装置について以下その動作
について説明する。
ック図である。1は信号入力端子,3は分析部、15は
重み付け部、8は照合部、9は認識結果出力端子、10
は標準音声保管バッファ、16はスイッチである。以上
のように構成された音声認識装置について以下その動作
について説明する。
【0007】まず標準音声登録時には、信号入力端子1
より入力された標準音声用信号を用いて、分析部3でフ
レーム毎の信号のパワーと特徴パラメータが算出される
。分析方法として、たとえば次数14次のLPCケプス
トラム法を用いれば1フレーム毎に14個のLPCケプ
ストラム係数が特徴パラメータとして算出される。そし
てパワーが所定の音声区間検出閾値以上の場合、相当す
る特徴パラメータは重み付け部15に入力される。重み
付け部15では下記(数1)のように係数に重みを付け
る。
より入力された標準音声用信号を用いて、分析部3でフ
レーム毎の信号のパワーと特徴パラメータが算出される
。分析方法として、たとえば次数14次のLPCケプス
トラム法を用いれば1フレーム毎に14個のLPCケプ
ストラム係数が特徴パラメータとして算出される。そし
てパワーが所定の音声区間検出閾値以上の場合、相当す
る特徴パラメータは重み付け部15に入力される。重み
付け部15では下記(数1)のように係数に重みを付け
る。
【0008】
【数1】
【0009】但し n=1,2,…NN : 次数
Cn: 第n次LPCケフ゜ストラム係数LPCケプス
トラム係数は低次でスペクトルの概形情報を、高次でス
ペクトルの詳細情報を表しており、(数1) のように
高次になるほど重みを大きくすることで、スペクトルの
詳細情報を強調していることと等価になる。次に上記で
重み付けされた特徴パラメータを標準音声とみなしバッ
ファ10に保管する。
トラム係数は低次でスペクトルの概形情報を、高次でス
ペクトルの詳細情報を表しており、(数1) のように
高次になるほど重みを大きくすることで、スペクトルの
詳細情報を強調していることと等価になる。次に上記で
重み付けされた特徴パラメータを標準音声とみなしバッ
ファ10に保管する。
【0010】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、登録を終了する
。
処理を認識すべき全単語について行い、登録を終了する
。
【0011】次に認識時には、まず登録時と同様に1フ
レーム毎に14個のLPCケプストラム係数がパラメー
タとして算出され、重み付け部15に入力される。重み
付け部15でも登録時と同様に(数1) のように重み
が付けられ、照合部8で、上記により重み付けされたパ
ラメータを用いて標準音声と入力音声との照合を行い、
最短距離を示す単語を認識結果として認識結果出力端子
9より出力する。
レーム毎に14個のLPCケプストラム係数がパラメー
タとして算出され、重み付け部15に入力される。重み
付け部15でも登録時と同様に(数1) のように重み
が付けられ、照合部8で、上記により重み付けされたパ
ラメータを用いて標準音声と入力音声との照合を行い、
最短距離を示す単語を認識結果として認識結果出力端子
9より出力する。
【0012】なお上記重み付けは、騒音環境下で装置を
用いた際のスペクトル変動の影響を軽減するために用い
ているが、たとえ上記のようなスペクトル変動をしてい
ない場合でも、重み付けすることで認識率は低下しない
。そこで実施例では、登録時と認識時の区別なく、また
騒音の有無にかかわらず重み付けを行うように構成され
ている。
用いた際のスペクトル変動の影響を軽減するために用い
ているが、たとえ上記のようなスペクトル変動をしてい
ない場合でも、重み付けすることで認識率は低下しない
。そこで実施例では、登録時と認識時の区別なく、また
騒音の有無にかかわらず重み付けを行うように構成され
ている。
【0013】なおスイッチ16は、登録時には標準音声
保管バッファ10に、認識時には重み付け部15にパラ
メータを入力するように動作する。
保管バッファ10に、認識時には重み付け部15にパラ
メータを入力するように動作する。
【0014】
【発明が解決しようとする課題】しかしながら、上記の
ような構成では、騒音自身がスペクトルに及ぼす影響は
除去できるが、発声者が騒音を聞きながら発声するため
に発声自身が変動すること(以後ロンバード効果という
)から起きるスペクトル変形の影響を除去できない。 しかもロンバード効果によるスペクトル変形はスペクト
ルの詳細な構造の情報に影響するため、従来のように詳
細情報を強調するように重み付けすることで、逆に認識
率が低下する場合もあるという課題を有していた。
ような構成では、騒音自身がスペクトルに及ぼす影響は
除去できるが、発声者が騒音を聞きながら発声するため
に発声自身が変動すること(以後ロンバード効果という
)から起きるスペクトル変形の影響を除去できない。 しかもロンバード効果によるスペクトル変形はスペクト
ルの詳細な構造の情報に影響するため、従来のように詳
細情報を強調するように重み付けすることで、逆に認識
率が低下する場合もあるという課題を有していた。
【0015】本発明は上記課題に鑑み、騒音の影響を除
去し、さらに従来補正できなかったロンバード効果によ
るスペクトルピーク周波数をも補正することで、認識率
向上を可能とする音声認識装置を提供するものである。
去し、さらに従来補正できなかったロンバード効果によ
るスペクトルピーク周波数をも補正することで、認識率
向上を可能とする音声認識装置を提供するものである。
【0016】
【課題を解決するための手段】この目的を達成するため
に本発明は、入力信号のフレーム毎の特徴パラメータを
分析する分析部と、スペクトルのピーク周波数を補正す
るスペクトルピーク補正部と、特徴パラメータに重みを
付ける重み付け部と、標準信号パラメータと入力信号パ
ラメータとを照合し認識結果を出力する照合部を具備し
、分析部でスペクトル分析を行い、フレーム毎に一組の
特徴パラメータを算出し、スペクトルピーク補正部で入
力信号の変動に伴って生じるスペクトルのピーク周波数
の変動を補正し、重み付け部で入力信号スペクトルの詳
細構造に対する情報を強調するように、特徴パラメータ
に重み付けを行い、照合部で前記補正されたパラメータ
を認識パラメータとして標準音声と入力音声との照合を
行うよう音声認識装置を構成するものである。
に本発明は、入力信号のフレーム毎の特徴パラメータを
分析する分析部と、スペクトルのピーク周波数を補正す
るスペクトルピーク補正部と、特徴パラメータに重みを
付ける重み付け部と、標準信号パラメータと入力信号パ
ラメータとを照合し認識結果を出力する照合部を具備し
、分析部でスペクトル分析を行い、フレーム毎に一組の
特徴パラメータを算出し、スペクトルピーク補正部で入
力信号の変動に伴って生じるスペクトルのピーク周波数
の変動を補正し、重み付け部で入力信号スペクトルの詳
細構造に対する情報を強調するように、特徴パラメータ
に重み付けを行い、照合部で前記補正されたパラメータ
を認識パラメータとして標準音声と入力音声との照合を
行うよう音声認識装置を構成するものである。
【0017】
【作用】この構成によって、本発明の音声認識装置は、
騒音の影響を除去し、さらに従来補正できなかったロン
バード効果によるスペクトルのピーク周波数の変動をも
補正し、認識率を向上させることが可能となる。さらに
本発明は、スペクトルの詳細な構造を補正した後に、ス
ペクトルの詳細情報を強調するため、従来の、補正せず
にスペクトルの詳細情報を強調することで逆に認識率が
低下する場合があるという問題点を解決している。
騒音の影響を除去し、さらに従来補正できなかったロン
バード効果によるスペクトルのピーク周波数の変動をも
補正し、認識率を向上させることが可能となる。さらに
本発明は、スペクトルの詳細な構造を補正した後に、ス
ペクトルの詳細情報を強調するため、従来の、補正せず
にスペクトルの詳細情報を強調することで逆に認識率が
低下する場合があるという問題点を解決している。
【0018】
【実施例】以下,本発明の実施例について図を参照しな
がら説明する。
がら説明する。
【0019】第1図は本発明請求項1〜3に記載の発明
の一実施例における単語音声認識装置のブロック図であ
る。1は信号入力端子,2は信号レベル測定部、3は分
析部、4はスペクトルピーク周波数検出部、5は補正値
算出部、6はパラメータ補正部、7は重み付け部、8は
照合部、9は認識結果出力端子、10は標準音声保管バ
ッファ、11、12、13、14はスイッチであり、前
記従来例と同じものは,同一の番号を付与している。
の一実施例における単語音声認識装置のブロック図であ
る。1は信号入力端子,2は信号レベル測定部、3は分
析部、4はスペクトルピーク周波数検出部、5は補正値
算出部、6はパラメータ補正部、7は重み付け部、8は
照合部、9は認識結果出力端子、10は標準音声保管バ
ッファ、11、12、13、14はスイッチであり、前
記従来例と同じものは,同一の番号を付与している。
【0020】以上のように構成された音声認識装置につ
いて以下その動作について説明する。
いて以下その動作について説明する。
【0021】まず標準音声登録時には、音声入力直前の
背景雑音が信号入力端子1より入力され、入力信号レベ
ル測定部2で背景雑音のパワーが算出され、パワーが一
定閾値P1以上の場合は、周囲状況が登録時にふさわし
くないとみなし、登録を中断する。
背景雑音が信号入力端子1より入力され、入力信号レベ
ル測定部2で背景雑音のパワーが算出され、パワーが一
定閾値P1以上の場合は、周囲状況が登録時にふさわし
くないとみなし、登録を中断する。
【0022】背景雑音のパワーが一定閾値P1以下の場
合には、信号声入力端子1より入力された学習用信号は
分析部3に入力され、フレーム毎の入力信号パワーと特
徴パラメータが算出される。分析方法は従来例と同様で
ある。そしてパワーが所定の音声区間検出閾値以上の特
徴パラメータは重み付け部7に入力され、従来例同様に
(数1) のように重みを付ける。
合には、信号声入力端子1より入力された学習用信号は
分析部3に入力され、フレーム毎の入力信号パワーと特
徴パラメータが算出される。分析方法は従来例と同様で
ある。そしてパワーが所定の音声区間検出閾値以上の特
徴パラメータは重み付け部7に入力され、従来例同様に
(数1) のように重みを付ける。
【0023】そして、重みを付けられたパラメータは標
準音声保管バッファ10に保管される。
準音声保管バッファ10に保管される。
【0024】標準音声用信号が入力されてからの上記の
処理を認識すべき全単語について行い、登録を終了する
。
処理を認識すべき全単語について行い、登録を終了する
。
【0025】次に認識時には、まず登録時と同様に背景
雑音のパワーが測定された後、信号入力端子1より認識
されるべき信号が入力される。
雑音のパワーが測定された後、信号入力端子1より認識
されるべき信号が入力される。
【0026】背景雑音パワーが一定閾値P1以下の場合
には、登録時と同様に、分析部3で特徴パラメータが算
出され、重み付け部7で重みを付けられる。そしてパラ
メータは照合部8に入力される。照合部8で照合を行い
、最短距離を示す単語を認識結果として認識結果出力端
子9より出力する。
には、登録時と同様に、分析部3で特徴パラメータが算
出され、重み付け部7で重みを付けられる。そしてパラ
メータは照合部8に入力される。照合部8で照合を行い
、最短距離を示す単語を認識結果として認識結果出力端
子9より出力する。
【0027】背景雑音パワーが一定閾値P1以上の場合
には、登録時と同様に、分析部3でフレーム毎の入力信
号パワーと特徴パラメータが算出され、パラメータはホ
ルマント周波数検出部4に入力され、スペクトルピーク
周波数検出部5で信号のスペクトルピーク周波数が検出
される。ここでは、音声の声道の共振周波数であるホル
マント周波数を推定し、推定されたホルマント周波数を
スペクトルピーク周波数とする。本実施例の認識パラメ
ータであるLPCケプストラムを算出する過程で、LP
Cパラメータa(i)が求められており、このパラメー
タを用いて音声のスペクトルは
には、登録時と同様に、分析部3でフレーム毎の入力信
号パワーと特徴パラメータが算出され、パラメータはホ
ルマント周波数検出部4に入力され、スペクトルピーク
周波数検出部5で信号のスペクトルピーク周波数が検出
される。ここでは、音声の声道の共振周波数であるホル
マント周波数を推定し、推定されたホルマント周波数を
スペクトルピーク周波数とする。本実施例の認識パラメ
ータであるLPCケプストラムを算出する過程で、LP
Cパラメータa(i)が求められており、このパラメー
タを用いて音声のスペクトルは
【0028】
【数2】
【0029】但し S:音声のスペクトルN:分析次
数 で表される。このA(z)の複素根の実数部Re(z)
と虚数部Im(z)から、ホルマント周波数の推定値は
数 で表される。このA(z)の複素根の実数部Re(z)
と虚数部Im(z)から、ホルマント周波数の推定値は
【0030】
【数3】
【0031】但し f :ホルマント周波数の推定
値fs :サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を推
定することができる。
値fs :サンプリング周波数 となり、LPCパラメータから、ホルマント周波数を推
定することができる。
【0032】次に、補正値算出部5で、上記ホルマント
周波数の推定値とLPCケプストラムをホルマント周波
数推定値で微分した値との積値を用いてLPCケプスト
ラムの補正値を算出する。算出式は(数4)の通りであ
る。
周波数の推定値とLPCケプストラムをホルマント周波
数推定値で微分した値との積値を用いてLPCケプスト
ラムの補正値を算出する。算出式は(数4)の通りであ
る。
【0033】
【数4】
【0034】H(fi,n):ホルマント周波数推定値
がfiHzの時の第n次ケフ゜ストラム係数の補正量 Δfi :発声変形の有無によるホルマント周波数
推定値の差M/2 Cn :第n次ケフ゜ストラム係数bi
:第iホルマントのハ゛ント゛幅fi :
第iホルマント周波数推定値fs :サンフ゜
リンク゛周波数M/2 :ホルマントの個数 たとえば、 (数4)において △fi(第iホルマント周波数推定値の変動量)= 1
20Hzbi(第iホルマントのハ゛ント゛幅)= 1
50Hzfs(サンフ゜リンク゛周波数)= 10KH
zとし、ロンバード効果により変動が大きかった周波数
範囲(300Hz〜1500Hz )に含まれるホルマ
ントに対してのみ補正を行うと(数4)は(数5)とな
る。
がfiHzの時の第n次ケフ゜ストラム係数の補正量 Δfi :発声変形の有無によるホルマント周波数
推定値の差M/2 Cn :第n次ケフ゜ストラム係数bi
:第iホルマントのハ゛ント゛幅fi :
第iホルマント周波数推定値fs :サンフ゜
リンク゛周波数M/2 :ホルマントの個数 たとえば、 (数4)において △fi(第iホルマント周波数推定値の変動量)= 1
20Hzbi(第iホルマントのハ゛ント゛幅)= 1
50Hzfs(サンフ゜リンク゛周波数)= 10KH
zとし、ロンバード効果により変動が大きかった周波数
範囲(300Hz〜1500Hz )に含まれるホルマ
ントに対してのみ補正を行うと(数4)は(数5)とな
る。
【0035】
【数5】
【0036】但し( 300Hz < fi < 15
00Hz )補正されたパラメータはパラメータ補正部
7に入力され、上記(数5)を用いて下記(数6)のよ
うにLPCケプストラムCn を補正する。
00Hz )補正されたパラメータはパラメータ補正部
7に入力され、上記(数5)を用いて下記(数6)のよ
うにLPCケプストラムCn を補正する。
【0037】
【数6】
【0038】補正されたパラメータは重み付け部7に入
力される。重み付け部7で登録時と同様に(数1)のよ
うに係数に重みを付け、スペクトルの詳細な情報を強調
する。
力される。重み付け部7で登録時と同様に(数1)のよ
うに係数に重みを付け、スペクトルの詳細な情報を強調
する。
【0039】次に照合部8で、上記により重み付けされ
たパラメータを用いて標準音声と入力音声との照合を行
い、最短距離を示す単語を認識結果として認識結果出力
端子W9より出力する。
たパラメータを用いて標準音声と入力音声との照合を行
い、最短距離を示す単語を認識結果として認識結果出力
端子W9より出力する。
【0040】以上のように、本実施例によれば、分析部
でスペクトル分析を行い、さらにスペクトルをケプスト
ラム変換したものを認識パラメータとして算出し、スペ
クトルピーク検出部で入力信号のホルマント周波数を推
定し、補正値算出部で(数4) にて補正値を算出し、
パラメータ補正部で入力音声のホルマント周波数の変動
に対応して、上記補正値を認識パラメータに加算または
減算し、補正されたケプストラムパラメータを(数1)
を用いて高次重み付けすることで、騒音の影響を除去
し、さらに従来補正できなかったロンバード効果による
スペクトルピーク周波数の変動をも補正し、認識率を向
上させることが可能となる。さらに本方法は、スペクト
ルピークのようなスペクトルの詳細な構造を補正した後
に、スペクトルの詳細情報を強調するため、従来の、補
正せずにスペクトルの詳細情報を強調することで逆に認
識率が低下する場合があるという問題点を解決している
。
でスペクトル分析を行い、さらにスペクトルをケプスト
ラム変換したものを認識パラメータとして算出し、スペ
クトルピーク検出部で入力信号のホルマント周波数を推
定し、補正値算出部で(数4) にて補正値を算出し、
パラメータ補正部で入力音声のホルマント周波数の変動
に対応して、上記補正値を認識パラメータに加算または
減算し、補正されたケプストラムパラメータを(数1)
を用いて高次重み付けすることで、騒音の影響を除去
し、さらに従来補正できなかったロンバード効果による
スペクトルピーク周波数の変動をも補正し、認識率を向
上させることが可能となる。さらに本方法は、スペクト
ルピークのようなスペクトルの詳細な構造を補正した後
に、スペクトルの詳細情報を強調するため、従来の、補
正せずにスペクトルの詳細情報を強調することで逆に認
識率が低下する場合があるという問題点を解決している
。
【0041】なお、スイッチ11は、背景雑音を入力す
る場合にはパワー測定部2に音声を入力する場合には分
析部3に信号を入力するように動作する。またスイッチ
12は、登録時には重み付け部7に認識時には下記スイ
ッチ13に特徴パラメータを入力するように動作する。 またスイッチ13は、背景雑音パワーが一定閾値P1以
上の場合にはホルマント周波数検出部4に、一定閾値P
1以下の場合には重み付け部7にパラメータを入力する
ように動作する。スイッチ14は登録時には標準音声保
管バッファ10に、認識時には照合部8に信号を入力す
るように動作する。
る場合にはパワー測定部2に音声を入力する場合には分
析部3に信号を入力するように動作する。またスイッチ
12は、登録時には重み付け部7に認識時には下記スイ
ッチ13に特徴パラメータを入力するように動作する。 またスイッチ13は、背景雑音パワーが一定閾値P1以
上の場合にはホルマント周波数検出部4に、一定閾値P
1以下の場合には重み付け部7にパラメータを入力する
ように動作する。スイッチ14は登録時には標準音声保
管バッファ10に、認識時には照合部8に信号を入力す
るように動作する。
【0042】なお本実施例では、騒音環境にて発声した
場合の発声変動について説明したが、それ以外の発声変
動においても本発明は有効である。
場合の発声変動について説明したが、それ以外の発声変
動においても本発明は有効である。
【0043】なお本実施例は、請求項第3項に記載した
ように、スペクトルピーク周波数をホルマント周波数の
推定値として記載したが、ホルマント周波数以外のスペ
クトルピークにおいても効果は同様である。
ように、スペクトルピーク周波数をホルマント周波数の
推定値として記載したが、ホルマント周波数以外のスペ
クトルピークにおいても効果は同様である。
【0044】また本実施例は、請求項第2項に記載した
ように、特徴パラメータをスペクトルを直交展開したパ
ラメータ(実施例ではその代表としてケプストラムパラ
メータを用いた)として記載したが、スペクトルを直交
展開したパラメータ以外でも効果は同様である。但し、
スペクトルを直交展開したパラメータを用いると、スペ
クトルの概形情報と詳細情報との分離が容易なため、容
易にしかも効率よく効果が得られる。
ように、特徴パラメータをスペクトルを直交展開したパ
ラメータ(実施例ではその代表としてケプストラムパラ
メータを用いた)として記載したが、スペクトルを直交
展開したパラメータ以外でも効果は同様である。但し、
スペクトルを直交展開したパラメータを用いると、スペ
クトルの概形情報と詳細情報との分離が容易なため、容
易にしかも効率よく効果が得られる。
【0045】
【発明の効果】本発明により、騒音の影響を除去し、さ
らに従来補正できなかったロンバード効果によるスペク
トルのピーク周波数の変動をも補正し、認識率を向上さ
せることが可能となる。さらに本発明は、スペクトルの
詳細な構造を補正した後に、スペクトルの詳細情報を強
調するため、従来の、補正せずにスペクトルの詳細情報
を強調することで逆に認識率が低下する場合があるとい
う問題点を解決している。
らに従来補正できなかったロンバード効果によるスペク
トルのピーク周波数の変動をも補正し、認識率を向上さ
せることが可能となる。さらに本発明は、スペクトルの
詳細な構造を補正した後に、スペクトルの詳細情報を強
調するため、従来の、補正せずにスペクトルの詳細情報
を強調することで逆に認識率が低下する場合があるとい
う問題点を解決している。
【0046】また、請求の範囲第2項記載のように、変
動の補正、及びスペクトルの詳細構造の強調を、共にス
ペクトルを直交展開したパラメータを用いて行うことで
、さらに処理が容易になり、補正効率も向上する。
動の補正、及びスペクトルの詳細構造の強調を、共にス
ペクトルを直交展開したパラメータを用いて行うことで
、さらに処理が容易になり、補正効率も向上する。
【図1】本発明の実施例における音声認識装置のブロッ
ク図
ク図
【図2】従来例における音声認識装置のブロック図
1 音声入力端子
2 信号レベル測定部
3 分析部
4 スペクトルピーク検出部
5 補正値算出部
6 パラメータ補正部
7 重み付け部
8 照合部
9 認識結果出力端子
10 標準音声保管バッファ
11、12、13、14 スイッチ
Claims (3)
- 【請求項1】 信号の単位時間(以後フレームと呼ぶ
)毎の特徴パラメータを分析する分析部と、スペクトル
のピーク周波数を補正するスペクトルピーク補正部と、
特徴パラメータに重みを付ける重み付け部と、標準信号
パラメータと入力信号パラメータとを照合し認識結果を
出力する照合部を具備し、分析部でスペクトル分析を行
い、フレーム毎に一組の特徴パラメータを算出し、スペ
クトルピーク補正部で入力信号と標準信号との変化(以
後変動と呼ぶ)に伴って生じるスペクトルのピーク周波
数の変動を標準信号または入力信号に対して補正し、重
み付け部で信号のスペクトルの詳細構造に対する情報を
強調するように、特徴パラメータに重み付けを行い、照
合部で前記補正されたパラメータを認識パラメータとし
て標準音声と入力音声との照合を行うことを特徴とする
音声認識装置。 - 【請求項2】 分析部は、スペクトル分析を行いさら
にスペクトルを直交展開したパラメータを特徴パラメー
タとし、さらにスペクトルピーク補正部は、スペクトル
ピーク周波数を補正するための補正値を算出する補正値
算出部と、特徴パラメータを補正するパラメータ補正部
とから構成され、補正値算出部で信号の変動に伴って生
じるスペクトルピーク周波数の変動を推定し、この推定
値より補正値を算出し、パラメータ補正部で前記補正値
にて前記特徴パラメータ自身を補正することを特徴とす
る請求項1に記載の音声認識装置。 - 【請求項3】 スペクトルピーク補正部は、信号の共
振周波数(以後ホルマント周波数と呼ぶ)の推定値を補
正することを特徴とする請求項1に記載の音声認識装置
。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3062865A JP2817429B2 (ja) | 1991-03-27 | 1991-03-27 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3062865A JP2817429B2 (ja) | 1991-03-27 | 1991-03-27 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04296799A true JPH04296799A (ja) | 1992-10-21 |
JP2817429B2 JP2817429B2 (ja) | 1998-10-30 |
Family
ID=13212617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3062865A Expired - Fee Related JP2817429B2 (ja) | 1991-03-27 | 1991-03-27 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2817429B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532743A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US10068566B2 (en) | 2005-02-04 | 2018-09-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6482000A (en) * | 1987-09-24 | 1989-03-28 | Nec Corp | Pattern feature normalization system |
JPH02238498A (ja) * | 1989-03-13 | 1990-09-20 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
-
1991
- 1991-03-27 JP JP3062865A patent/JP2817429B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6482000A (en) * | 1987-09-24 | 1989-03-28 | Nec Corp | Pattern feature normalization system |
JPH02238498A (ja) * | 1989-03-13 | 1990-09-20 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868421B2 (en) | 2005-02-04 | 2014-10-21 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US9202458B2 (en) | 2005-02-04 | 2015-12-01 | Vocollect, Inc. | Methods and systems for adapting a model for a speech recognition system |
US9928829B2 (en) | 2005-02-04 | 2018-03-27 | Vocollect, Inc. | Methods and systems for identifying errors in a speech recognition system |
US10068566B2 (en) | 2005-02-04 | 2018-09-04 | Vocollect, Inc. | Method and system for considering information about an expected response when performing speech recognition |
JP2009532743A (ja) * | 2006-04-03 | 2009-09-10 | ヴォコレクト・インコーポレーテッド | 音声認識システムに対するモデル適合を最適化するための方法およびシステム |
US8914290B2 (en) | 2011-05-20 | 2014-12-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9697818B2 (en) | 2011-05-20 | 2017-07-04 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US10685643B2 (en) | 2011-05-20 | 2020-06-16 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11810545B2 (en) | 2011-05-20 | 2023-11-07 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US11817078B2 (en) | 2011-05-20 | 2023-11-14 | Vocollect, Inc. | Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment |
US9978395B2 (en) | 2013-03-15 | 2018-05-22 | Vocollect, Inc. | Method and system for mitigating delay in receiving audio stream during production of sound from audio stream |
US11837253B2 (en) | 2016-07-27 | 2023-12-05 | Vocollect, Inc. | Distinguishing user speech from background speech in speech-dense environments |
Also Published As
Publication number | Publication date |
---|---|
JP2817429B2 (ja) | 1998-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
Cui et al. | Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR | |
CA2204866C (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
JP3114468B2 (ja) | 音声認識方法 | |
JPS62231997A (ja) | 音声認識システム及びその方法 | |
EP0691024A1 (en) | A method and apparatus for speaker recognition | |
JP3451146B2 (ja) | スペクトルサブトラクションを用いた雑音除去システムおよび方法 | |
JP2969862B2 (ja) | 音声認識装置 | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
JPH04362699A (ja) | 音声認識方法及び装置 | |
JP2015022112A (ja) | 音声区間検出装置および方法 | |
Hamid et al. | Makhraj recognition for Al-Quran recitation using MFCC | |
JP2955297B2 (ja) | 音声認識システム | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
US10418030B2 (en) | Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method | |
JPH04296799A (ja) | 音声認識装置 | |
WO1994022132A1 (en) | A method and apparatus for speaker recognition | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
US20100305948A1 (en) | Phoneme Model for Speech Recognition | |
JP3493849B2 (ja) | 音声認識装置 | |
JPH0792989A (ja) | 音声認識方法 | |
Upadhyay et al. | Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario | |
JP3026855B2 (ja) | 音声認識装置 | |
Sarangi et al. | Gaussian Filter Based Data-Driven Cepstral Features for Robust Speaker Verification System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |