JPH0387900A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0387900A JPH0387900A JP1224956A JP22495689A JPH0387900A JP H0387900 A JPH0387900 A JP H0387900A JP 1224956 A JP1224956 A JP 1224956A JP 22495689 A JP22495689 A JP 22495689A JP H0387900 A JPH0387900 A JP H0387900A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- comparison
- audio signal
- logarithmic
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 claims abstract description 42
- 230000008602 contraction Effects 0.000 claims abstract description 38
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 230000005236 sound signal Effects 0.000 claims description 28
- 238000004364 calculation method Methods 0.000 claims description 24
- 230000001186 cumulative effect Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- ATJFFYVFTNAWJD-UHFFFAOYSA-N Tin Chemical group [Sn] ATJFFYVFTNAWJD-UHFFFAOYSA-N 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、音声信号から抽出された特徴ベクトルに基づ
いて音声マッチングパタンを生成し、この音声マッチン
グパタンと比較マッチングパタンとの類似度を算出する
ことにより音声を認識する音声認識装置に関するもので
ある。
いて音声マッチングパタンを生成し、この音声マッチン
グパタンと比較マッチングパタンとの類似度を算出する
ことにより音声を認識する音声認識装置に関するもので
ある。
第2図は従来の音声認識装置の構成を示すブロック図で
ある。
ある。
この音声認識装置においては、入力端子TINから入力
された音声信号が音声分析部11によりアナログ/デジ
タル変換され、音声分析部11に備えられた中心周波数
の異なる9個のバンドパスフィルタ群によって抽出され
た帯域内周波数成分をフレーム周期毎に取り出されて特
徴ベクトルが算出され、この特徴ベクトルの要素5−(
iはフレ−ム番号、j=1.2.・・・、p>から対数
音声パワーP、が算出される。
された音声信号が音声分析部11によりアナログ/デジ
タル変換され、音声分析部11に備えられた中心周波数
の異なる9個のバンドパスフィルタ群によって抽出され
た帯域内周波数成分をフレーム周期毎に取り出されて特
徴ベクトルが算出され、この特徴ベクトルの要素5−(
iはフレ−ム番号、j=1.2.・・・、p>から対数
音声パワーP、が算出される。
音声区間検出部12では対数音声パワーP、に基づいて
音声区間、即ち、音声の始端フレーム及び音声の終端フ
レームが決定される。
音声区間、即ち、音声の始端フレーム及び音声の終端フ
レームが決定される。
線形伸縮部13では音声区間における特徴ベクトル系列
で表される音声パタンを所定のフレーム数に線形伸縮し
て音声マッチングパタンを生成する。この線形伸縮は、
線形伸縮前のフレーム番号をi、線形伸縮前の始端フレ
ームの番号をI8、線形伸縮前の終端フレームの番号を
IE、線形伸縮後のフレーム番号を1とした場合に、次
の式(1〉により行われる。
で表される音声パタンを所定のフレーム数に線形伸縮し
て音声マッチングパタンを生成する。この線形伸縮は、
線形伸縮前のフレーム番号をi、線形伸縮前の始端フレ
ームの番号をI8、線形伸縮前の終端フレームの番号を
IE、線形伸縮後のフレーム番号を1とした場合に、次
の式(1〉により行われる。
=(I (32−u)+■E(J−1))/(32−
1)・・・式(1) この結果、音声パタン S 、S ・・・、S9.・・・’ ”IE−1
’ ”IEIs IS+I++ は、線形伸縮されて Sl・S2・°°°・S、l!・°°°・S31・”3
2なる音声マッチングパタンとなる。尚、ここで、S・
=(Si1.Si2.・・・、 s、p)である。
1)・・・式(1) この結果、音声パタン S 、S ・・・、S9.・・・’ ”IE−1
’ ”IEIs IS+I++ は、線形伸縮されて Sl・S2・°°°・S、l!・°°°・S31・”3
2なる音声マッチングパタンとなる。尚、ここで、S・
=(Si1.Si2.・・・、 s、p)である。
く
線形伸縮部15では、音声標準パタンとして比較パタン
メモリ部14に予め格納されている比較マッチングパタ
ンと音声マッチングパタンとの間の類似度を算出する。
メモリ部14に予め格納されている比較マッチングパタ
ンと音声マッチングパタンとの間の類似度を算出する。
判定部16では、算出された類似度の中で最大値を与え
る比較マツチングパタンに付与されている単語名(以下
、カテゴリと称する)を出力する。
る比較マツチングパタンに付与されている単語名(以下
、カテゴリと称する)を出力する。
しかしながら、上記した従来の音声認識装置においては
、時間軸の伸縮操作を単なる線形伸縮により行っていた
ので、この伸縮操作に際してフレーム数を減少させた場
合、音声の特徴点を有するフレームが欠落することがあ
り認識性能が悪いという問題があった。特に、長母音剣
發音の無音部分等のような音響的性質が変化しない音節
を多く含む単語の認識性能が悪かった。
、時間軸の伸縮操作を単なる線形伸縮により行っていた
ので、この伸縮操作に際してフレーム数を減少させた場
合、音声の特徴点を有するフレームが欠落することがあ
り認識性能が悪いという問題があった。特に、長母音剣
發音の無音部分等のような音響的性質が変化しない音節
を多く含む単語の認識性能が悪かった。
そこで、本発明は上記したような従来技術の課題を解決
するためになされたものであり、その目的とするところ
は、認識性能の良好な音声認識装置を提供することにあ
る。
するためになされたものであり、その目的とするところ
は、認識性能の良好な音声認識装置を提供することにあ
る。
本発明に係る音声認識装置は、音声信号を周波数分析し
、一定の時間間隔であるフレーム毎に上記音声信号の特
徴を表わす特徴ベクトルを算出し、この特徴ベクトルか
らフレーム毎に対数音声パワーを算出する音声分析部と
、上記対数音声パワーより上記音声信号の始端と終端と
を検出する音声区間検出部と、上記対数音声パワーより
対数音声パワーの短時間変化量を算出する特徴変化量算
出部と、上記音声信号の始端がら終@までの区間内にお
ける上記短時間変化量の累積値を算出し、この累積値に
基づいて上記音声信号の始端から終端までの特徴ベクト
ル系列を伸縮して一定長の音声マッチングパタンを生成
する非線形伸縮部と、学習用の音声信号に基づく標準パ
タンである比較マッチングパタンを予め格納しておく比
較パタンメモリ部と、上記非線形伸縮部より出力された
音声マッチングパタンと上記比較パタンメモリ部に格納
された比較マッチングパタンとの間の類似度を算出する
類似度算出部と、上記算出された類似度の中で最大値を
与える比較マッチングパタンに付与されているカテゴリ
名を出力する判定部とを有することを特徴としている。
、一定の時間間隔であるフレーム毎に上記音声信号の特
徴を表わす特徴ベクトルを算出し、この特徴ベクトルか
らフレーム毎に対数音声パワーを算出する音声分析部と
、上記対数音声パワーより上記音声信号の始端と終端と
を検出する音声区間検出部と、上記対数音声パワーより
対数音声パワーの短時間変化量を算出する特徴変化量算
出部と、上記音声信号の始端がら終@までの区間内にお
ける上記短時間変化量の累積値を算出し、この累積値に
基づいて上記音声信号の始端から終端までの特徴ベクト
ル系列を伸縮して一定長の音声マッチングパタンを生成
する非線形伸縮部と、学習用の音声信号に基づく標準パ
タンである比較マッチングパタンを予め格納しておく比
較パタンメモリ部と、上記非線形伸縮部より出力された
音声マッチングパタンと上記比較パタンメモリ部に格納
された比較マッチングパタンとの間の類似度を算出する
類似度算出部と、上記算出された類似度の中で最大値を
与える比較マッチングパタンに付与されているカテゴリ
名を出力する判定部とを有することを特徴としている。
また、他の発明に係る音声認識装置は、音声信号を周波
数分析し、一定の時間間隔であるフレーム毎に上記音声
信号の特徴を表わす特徴ベクトルを算出し、この特徴ベ
クトルからフレーム毎に対数音声パワーを算出する音声
分析部と、上記対数音声パワーより上記音声信号の始端
と終端とを検出する音声区間検出部と、上記対数音声パ
ワーより対数音声パワーの短時間変化量を算出し、上記
特徴ベクトルより特徴ベクトルの要素の短時間変化量を
算出し、上記対数音声パワーの短時間変化量と上記特徴
ベクトルの周波数スペクトル毎の要素の短時間変化量と
の線形和である特徴変化量を算出する特徴変化量算出部
と、上記音声信号の始端から終#Aまでの区間内におけ
る上記特徴変化量の累積値を算出し、この累積値に基づ
いて上記音声信号の始端から終端までの特徴ベクトル系
列を伸縮して一定長の音声マッチングパタンを生成する
非線形伸縮部と、学習用の音声信号に基づく標準パタン
である比較マッチングパタンを予め格納しておく比較パ
タンメモリ部と、上記非線形伸縮部より出力された音声
マッチングパタンと上記比較パタンメモリ部に格納され
た比較マッチングパタンとの間の類似度を算出する類似
度算出部と、上記算出された類似度の中で最大値を与え
る比較マッチングパタンに付与されているカテゴリ名を
出力する判定部とを有することを特徴としている。
数分析し、一定の時間間隔であるフレーム毎に上記音声
信号の特徴を表わす特徴ベクトルを算出し、この特徴ベ
クトルからフレーム毎に対数音声パワーを算出する音声
分析部と、上記対数音声パワーより上記音声信号の始端
と終端とを検出する音声区間検出部と、上記対数音声パ
ワーより対数音声パワーの短時間変化量を算出し、上記
特徴ベクトルより特徴ベクトルの要素の短時間変化量を
算出し、上記対数音声パワーの短時間変化量と上記特徴
ベクトルの周波数スペクトル毎の要素の短時間変化量と
の線形和である特徴変化量を算出する特徴変化量算出部
と、上記音声信号の始端から終#Aまでの区間内におけ
る上記特徴変化量の累積値を算出し、この累積値に基づ
いて上記音声信号の始端から終端までの特徴ベクトル系
列を伸縮して一定長の音声マッチングパタンを生成する
非線形伸縮部と、学習用の音声信号に基づく標準パタン
である比較マッチングパタンを予め格納しておく比較パ
タンメモリ部と、上記非線形伸縮部より出力された音声
マッチングパタンと上記比較パタンメモリ部に格納され
た比較マッチングパタンとの間の類似度を算出する類似
度算出部と、上記算出された類似度の中で最大値を与え
る比較マッチングパタンに付与されているカテゴリ名を
出力する判定部とを有することを特徴としている。
本発明においては、音声信号の特徴を表わす特徴ベクト
ルより算出された対数音声パワーから、対数音声パワー
の短時間変化量を算出し、この対数音声パワーの短時間
変化量の累積値を算出し、この累積値に基づいて音声信
号の始端から終@までの特徴ベクトル系列を伸縮して一
定長の音声マッチングパタンを生成している。即ち、特
徴ベクトル系列の伸縮を対数音声パワーの短時間変化量
の累積値に基づいて非線形に行っている。このような音
声の特徴に基づく非線形の伸縮により、音声パタンの伸
縮に際してフレーム数が削減されても音声の特徴点を有
するフレームを欠落させないようにしている。
ルより算出された対数音声パワーから、対数音声パワー
の短時間変化量を算出し、この対数音声パワーの短時間
変化量の累積値を算出し、この累積値に基づいて音声信
号の始端から終@までの特徴ベクトル系列を伸縮して一
定長の音声マッチングパタンを生成している。即ち、特
徴ベクトル系列の伸縮を対数音声パワーの短時間変化量
の累積値に基づいて非線形に行っている。このような音
声の特徴に基づく非線形の伸縮により、音声パタンの伸
縮に際してフレーム数が削減されても音声の特徴点を有
するフレームを欠落させないようにしている。
また、他の発明においては、対数音声パワーの短時間変
化量と特徴ベクトルの周波数スペクトル毎の要素の短時
間変化量の線形和で得られる特徴変化量の累積値に基づ
いて音声信号の始端から終端までの特徴ベクトル系列を
伸縮して一定長の音声マッチングパタンを生成している
。即ち、対数音声パワーの短時間変化量だけではなく、
特徴ベクトルの周波数スペクトル毎の要素の短時間変化
量をも考慮した非線形の伸縮がなされる。
化量と特徴ベクトルの周波数スペクトル毎の要素の短時
間変化量の線形和で得られる特徴変化量の累積値に基づ
いて音声信号の始端から終端までの特徴ベクトル系列を
伸縮して一定長の音声マッチングパタンを生成している
。即ち、対数音声パワーの短時間変化量だけではなく、
特徴ベクトルの周波数スペクトル毎の要素の短時間変化
量をも考慮した非線形の伸縮がなされる。
対数音声パワーの短時間変化量だけを考慮した場合には
長母音剣發音のような音響的性質が変化しない音節を多
く含む単語が認識されにくいことがあるが、特徴ベクト
ルの周波数スペクトル毎の要素の短時間変化量には長母
音や設置に固有の特徴が現れるので、対数音声パワーの
短時間変化量と特徴ベクトルの周波数スペクトル毎の要
素の短時間変化量の両方を考慮した非線形の伸縮により
、特徴点を有するフレームを欠落させないようにできる
。
長母音剣發音のような音響的性質が変化しない音節を多
く含む単語が認識されにくいことがあるが、特徴ベクト
ルの周波数スペクトル毎の要素の短時間変化量には長母
音や設置に固有の特徴が現れるので、対数音声パワーの
短時間変化量と特徴ベクトルの周波数スペクトル毎の要
素の短時間変化量の両方を考慮した非線形の伸縮により
、特徴点を有するフレームを欠落させないようにできる
。
以下に本発明を図示の実施例に基づいて説明する。
第1図は本発明に係る音声認識装置の一実施例を示すブ
ロック図である。
ロック図である。
同図において、1は音声分析部であり、この音声分析部
1は中心周波数が少しずつ異なる複数のバンドパスフィ
ルタ群を有し、入力端子TINから入力された音声信号
を特徴ベクトルの時系列に変換する。尚、この音声分析
部1としては高速フーリエ変換により特徴ベクトルの時
系列を生成するものもある。
1は中心周波数が少しずつ異なる複数のバンドパスフィ
ルタ群を有し、入力端子TINから入力された音声信号
を特徴ベクトルの時系列に変換する。尚、この音声分析
部1としては高速フーリエ変換により特徴ベクトルの時
系列を生成するものもある。
音声分析部1による処理を詳細に説明すると、この音声
分析部1は入力された音声信号をアナログ/デジタル変
換し、その後、バンドパスフィルタ群によって各フィル
タ固有の周波数成分のみを抽出し、抽出された各フィル
タの出力の絶対値の平均値をフレーム周期毎に算出する
。この算出値は、そのフレームにおける各バンドパスフ
ィルタの特徴ベクトルの大きさになる。バンドパスフィ
ルタがpチャネルある場合には、i番目のフレームにお
ける特徴ベクトルの大きさA、(J=1゜2、・・・、
p)は、次のようになる。
分析部1は入力された音声信号をアナログ/デジタル変
換し、その後、バンドパスフィルタ群によって各フィル
タ固有の周波数成分のみを抽出し、抽出された各フィル
タの出力の絶対値の平均値をフレーム周期毎に算出する
。この算出値は、そのフレームにおける各バンドパスフ
ィルタの特徴ベクトルの大きさになる。バンドパスフィ
ルタがpチャネルある場合には、i番目のフレームにお
ける特徴ベクトルの大きさA、(J=1゜2、・・・、
p)は、次のようになる。
A・・−(Ail Ai:l”・・・+ Ai p )
J また、音声分析部1においては、この特徴ベクトルの大
きさAijから、次の式(2)に基づいて対数音声パワ
ーP、を、式(3)に基づいて特徴ベクトル(特徴ベク
トルの要素をS、、で表す)をJ 算出する。
J また、音声分析部1においては、この特徴ベクトルの大
きさAijから、次の式(2)に基づいて対数音声パワ
ーP、を、式(3)に基づいて特徴ベクトル(特徴ベク
トルの要素をS、、で表す)をJ 算出する。
・・・式(3)
2は音声区間検出部であり、この音声区間検出部2は音
声分析部1から送出される対数音声パワーP、に基づい
て音声区間、即ち、音声の始端フレーム(i=a)及び
音声の終端フレーム(i=b)を決定する(例えば、特
開昭60−254100号公報に開示されている)。
声分析部1から送出される対数音声パワーP、に基づい
て音声区間、即ち、音声の始端フレーム(i=a)及び
音声の終端フレーム(i=b)を決定する(例えば、特
開昭60−254100号公報に開示されている)。
3は特徴変化量算出部であり、この特徴変化量算出部3
は以下の処理を行う。先ず、音声分析部1により得られ
た対数音声パワーP、から、フレーム毎に、次の式(4
)により短時間パワー変化量R4を算出する。
は以下の処理を行う。先ず、音声分析部1により得られ
た対数音声パワーP、から、フレーム毎に、次の式(4
)により短時間パワー変化量R4を算出する。
・・・式(4)
4は非線形伸縮部であり、この非線形伸縮部4は、先ず
、短時間パワー変化iRから次の式(5)により累積値
(累積変化量)Yを算出する。
、短時間パワー変化iRから次の式(5)により累積値
(累積変化量)Yを算出する。
Y=X (i )
ここで、b<iのときにYをnとし、i<aのときにY
を0としたのは、式(5)の演算を統一的に行うためで
ある。
を0としたのは、式(5)の演算を統一的に行うためで
ある。
さらに、非線形伸縮部4は、式(6)により累積値Y(
第1項)と音声始端からの時間経過を考慮するための時
間経過環(第2項)とを重み付けし加算して得られた総
合変化ff1Q・を算出する。
第1項)と音声始端からの時間経過を考慮するための時
間経過環(第2項)とを重み付けし加算して得られた総
合変化ff1Q・を算出する。
=μX(i) ・・・第1項
+(1−u)(n−1)(b −a)−1(i −a)
−・・第2項・・・式(6) ここで、μは各々の変化量の重み係数(0〜1)であり
、通常、0.6程度に設定される。
+(1−u)(n−1)(b −a)−1(i −a)
−・・第2項・・・式(6) ここで、μは各々の変化量の重み係数(0〜1)であり
、通常、0.6程度に設定される。
式(6)において第1項に第2項を加えた理由は、短時
間パワー変化量R1の累積値に基づく第1項のみでは長
母音剖發音等のような音響変化率の少ない音節を多く含
む単語の認識率の向上が不十分な場合があるので(例え
ば、母音「あ」は音響パワーの変化は小さくOに近いの
で短時間パワー変化量R・では識別しにくい)、時間経
過項である第2項を加えることにより音響変化率の少な
い音節を多く含む単語の認識率を向上させる(例えば、
短く「あ」と発音したときの音響パワーの変化は小さい
が、これを連続して「あああ」と発音するとその音響パ
ワーは一定ではなく時間の経過とともに変化するように
なるので(人間の口からは一定パワーの音声を連続して
発声できず、多少のぶれがある〉、時間経過項はこれを
音響パワーの変化として抽出できる〉ためである、換言
すれば、式(6)は第2項を加えるという簡単な処理に
より長母音や撥音等の認識率を向上させるものである。
間パワー変化量R1の累積値に基づく第1項のみでは長
母音剖發音等のような音響変化率の少ない音節を多く含
む単語の認識率の向上が不十分な場合があるので(例え
ば、母音「あ」は音響パワーの変化は小さくOに近いの
で短時間パワー変化量R・では識別しにくい)、時間経
過項である第2項を加えることにより音響変化率の少な
い音節を多く含む単語の認識率を向上させる(例えば、
短く「あ」と発音したときの音響パワーの変化は小さい
が、これを連続して「あああ」と発音するとその音響パ
ワーは一定ではなく時間の経過とともに変化するように
なるので(人間の口からは一定パワーの音声を連続して
発声できず、多少のぶれがある〉、時間経過項はこれを
音響パワーの変化として抽出できる〉ためである、換言
すれば、式(6)は第2項を加えるという簡単な処理に
より長母音や撥音等の認識率を向上させるものである。
尚、この総合変化量Q(i)は音声始端(i=a)では
O1音声終Vl、 (i = b )ではn−1となる
増加関数となる。
O1音声終Vl、 (i = b )ではn−1となる
増加関数となる。
そして、次に、式(6)の逆関数である式(7)を求め
る。
る。
1=X−’(Y)
(X(i)≦Y<X(i+1)のとき〉・・・式〈7)
ここで、伸縮後のフレーム番号をJl(j=1゜2、・
・・、n)とすると、フレーム番号」に対応する伸縮前
のフレーム番号iは次の式(8)により表される。
・・、n)とすると、フレーム番号」に対応する伸縮前
のフレーム番号iは次の式(8)により表される。
i =X−’ (J−1ン
・・・式(8ン従って、伸縮前の音声パタン ”a 、”a+1 、’・+、S、、−・’、”b−1
、’bは、伸縮されて 8G ・・・ S ・・・ 8
Si l I 、I I n−1
’ nなる特徴ベクトル系列からなる音声マッチン
グパタンとなる。
・・・式(8ン従って、伸縮前の音声パタン ”a 、”a+1 、’・+、S、、−・’、”b−1
、’bは、伸縮されて 8G ・・・ S ・・・ 8
Si l I 、I I n−1
’ nなる特徴ベクトル系列からなる音声マッチン
グパタンとなる。
5は比較パタンメモリ部であり、この比較パタンメモリ
部5には予め学習用の音声信号に基づく標準パタンであ
る比較マッチングパタンが格納されている。この比較マ
ッチングパタンは、例えば、話者を限定する特定話者音
声認識では、認識対象となる単語(以下、カテゴリと称
する)を予め発声し、既に説明した音声分析部1、音声
区間検出部2、情報変化量算出部3及び非線形伸縮部4
による処理と同一の処理を特定話者の音声信号に施して
求める。
部5には予め学習用の音声信号に基づく標準パタンであ
る比較マッチングパタンが格納されている。この比較マ
ッチングパタンは、例えば、話者を限定する特定話者音
声認識では、認識対象となる単語(以下、カテゴリと称
する)を予め発声し、既に説明した音声分析部1、音声
区間検出部2、情報変化量算出部3及び非線形伸縮部4
による処理と同一の処理を特定話者の音声信号に施して
求める。
6は類似度算出部であり、この類似度算出部6では音声
マッチングパタンと比較マッチングパタンとの類似度を
、例えば、DP(ダイナミックプログラミング)マツチ
ング法や線形マツチング法(例えば、特開昭62−73
299号に開示されたものがあるンにより計算する。
マッチングパタンと比較マッチングパタンとの類似度を
、例えば、DP(ダイナミックプログラミング)マツチ
ング法や線形マツチング法(例えば、特開昭62−73
299号に開示されたものがあるンにより計算する。
7は判定部であり、この判定部7は類似度算出部6にお
いて比較マッチングパタン毎に計算された類似度を用い
て、最大類似度を与える比較パタンに与えられたカテゴ
リ名を認識結果として出力端子T。、1から出力する。
いて比較マッチングパタン毎に計算された類似度を用い
て、最大類似度を与える比較パタンに与えられたカテゴ
リ名を認識結果として出力端子T。、1から出力する。
以上説明したように、本実罷例においては、音声信号の
特徴を表わす特徴ベクトルより算出された対数音声パワ
ーから、対数音声パワーの短時間変化量を算出し、この
対数音声パワーの短時間変化量の累積値を算出し、この
累積値に基づいて音声信号の始端から終端までの特徴ベ
クトル系列を伸縮して一定長の音声マッチングパタンを
1戒している。このように、音声の特徴に基づく非線形
の伸縮により所定のフレーム数の音声マッチングパタン
を1戒しているので、音声の特徴点を有するフレームを
欠落させない伸縮が可能になり、よって、認識率の向上
を図ることができる。また、認識率が向上することによ
って、従来は32フレームであった伸縮後のフレーム数
を16フレ一ム程度にまで削減できるので、認識に要す
る類似度算出処理が少なくなり、認識処理を迅速にする
ことが可能になる。
特徴を表わす特徴ベクトルより算出された対数音声パワ
ーから、対数音声パワーの短時間変化量を算出し、この
対数音声パワーの短時間変化量の累積値を算出し、この
累積値に基づいて音声信号の始端から終端までの特徴ベ
クトル系列を伸縮して一定長の音声マッチングパタンを
1戒している。このように、音声の特徴に基づく非線形
の伸縮により所定のフレーム数の音声マッチングパタン
を1戒しているので、音声の特徴点を有するフレームを
欠落させない伸縮が可能になり、よって、認識率の向上
を図ることができる。また、認識率が向上することによ
って、従来は32フレームであった伸縮後のフレーム数
を16フレ一ム程度にまで削減できるので、認識に要す
る類似度算出処理が少なくなり、認識処理を迅速にする
ことが可能になる。
次に、他の発明に係る音声認識装置の実施例(以下、第
二実施例という)について説明する。
二実施例という)について説明する。
第二実施例は、先に説明された第1図の実施例(以下、
第一実施例という)と特徴変化量算出部3及び非線形伸
縮部4の機能のみが相違する。従って、以下に特徴変化
量算出部3及び非線形伸縮部4の機能を中心に説明する
。尚、この実施例は第一実施例と同様の構成を有してい
るので、以下の説明においては第1図を参照する。
第一実施例という)と特徴変化量算出部3及び非線形伸
縮部4の機能のみが相違する。従って、以下に特徴変化
量算出部3及び非線形伸縮部4の機能を中心に説明する
。尚、この実施例は第一実施例と同様の構成を有してい
るので、以下の説明においては第1図を参照する。
第二実施例の特徴変化量算出部3は、音声分析部1で算
出された対数音声パワーP、の短時間変化量と、次の式
(9) G、、=S、、−P、 ・・・式
(9)J IJ で表される正規化特徴ベクトル(正規化特徴ベクトルの
要素をG1.で表す)から、次の式(10〉によりフレ
ーム毎に特徴変化量R1を算出する。
出された対数音声パワーP、の短時間変化量と、次の式
(9) G、、=S、、−P、 ・・・式
(9)J IJ で表される正規化特徴ベクトル(正規化特徴ベクトルの
要素をG1.で表す)から、次の式(10〉によりフレ
ーム毎に特徴変化量R1を算出する。
(i≠0のとき)
・・・式(10)
ここで、C,、Cgは音声区間内の各々の変化量を正規
化する係数であり、それぞれ式(11)、式(12)で
表される。
化する係数であり、それぞれ式(11)、式(12)で
表される。
=a
・・・式(11)
・・・式(12)
尚、μは各々の変化量の重み係数く0〜1)であり、通
例0.5程度に設定される。
例0.5程度に設定される。
非線形伸縮部4は、先ず、短時間パワー変化量Riから
次の式(13)により累積値(累積変化量)Yを算出す
る。
次の式(13)により累積値(累積変化量)Yを算出す
る。
Y=X (i )
ここで、b<iのときにYをnとし、i<aのときにY
をOとしたのは、式(13)の演算を統一的に行うため
である。
をOとしたのは、式(13)の演算を統一的に行うため
である。
そして、次に、式(13)の逆関数である式(14)を
求める。
求める。
i =X−’(Y)
<X(i)≦Y<X(i+1)のとき)i +1 =X
” (Y) (Y=X (i ) =X (i+1 >のとき)・・
・式(14〉 ここで、伸縮後のフレーム番号を、I! <p−i。
” (Y) (Y=X (i ) =X (i+1 >のとき)・・
・式(14〉 ここで、伸縮後のフレーム番号を、I! <p−i。
2、・・・、n)とすると、フレーム番号」に対応する
伸縮前のフレーム番号iは次の式く15)により表され
る。
伸縮前のフレーム番号iは次の式く15)により表され
る。
1=X−’ <j −1)
・・・式(15)
従って、伸縮前の音声パタン
S、G、・・・、Sl、・・・、5b−i ’ ”ba
a+1 は、伸縮されて Si 、 S2 、・・−、S、 、・・・’ ”n−
1、Snなる特徴ベクトル系列からなる音声マッチング
パタンとなる。
a+1 は、伸縮されて Si 、 S2 、・・−、S、 、・・・’ ”n−
1、Snなる特徴ベクトル系列からなる音声マッチング
パタンとなる。
以上説明したように、第二実施例においても、第一実施
例と同様に音声の特徴に基づく非線形の伸縮により所定
のフレーム数の音声マッチングパタンを生成しているの
で、音声の特徴点を有するフレームを欠落させない伸縮
が可能になり、認識率の向上を図ることができる。また
、認識率が向上することによって、フレーム数を削減で
きるので、認識に要する類似度算出処理が少なくなり、
認識処理を迅速にすることが可能になる。
例と同様に音声の特徴に基づく非線形の伸縮により所定
のフレーム数の音声マッチングパタンを生成しているの
で、音声の特徴点を有するフレームを欠落させない伸縮
が可能になり、認識率の向上を図ることができる。また
、認識率が向上することによって、フレーム数を削減で
きるので、認識に要する類似度算出処理が少なくなり、
認識処理を迅速にすることが可能になる。
さらに、第二実施例においては、対数音声パワーの短時
間変化量のみならず音声信号の特徴を表わす特徴ベクト
ルの周波数スペクトルの要素の短時間変化量をも考慮し
た特徴変化量に基づいて非線形の伸縮を行っているので
、上記第−実態例よりは処理が複雑になるが、対数音声
パワーの短時間変化量だけを考慮した場合に認識されに
くい傾向がある長母音や撥音のような音響的性質が変化
しない音節の認識性能を一層良好にできる。
間変化量のみならず音声信号の特徴を表わす特徴ベクト
ルの周波数スペクトルの要素の短時間変化量をも考慮し
た特徴変化量に基づいて非線形の伸縮を行っているので
、上記第−実態例よりは処理が複雑になるが、対数音声
パワーの短時間変化量だけを考慮した場合に認識されに
くい傾向がある長母音や撥音のような音響的性質が変化
しない音節の認識性能を一層良好にできる。
これは、音響的性質が変化しない音節であっても〈例え
ば、母音「あ」)、特徴ベクトルの周波数スペクトル毎
の要素の短時間変化量で見れば長母音や撥音に固有の特
徴が現れる(母音「あ」は周波数毎に固有のパワーの分
布を持っている)からである。換言すれば、第二実施例
は処理内容は複雑になるが、長母音や撥音等の認識率を
第一実施例より一層向上させるものである。このため、
第二実施例においては、第一実施例の式(6)に示され
るような時間経過項を設ける必要性が少ないということ
ができるが、式(6)に示されるように時間経過項を考
慮した処理を行うことも可能である。
ば、母音「あ」)、特徴ベクトルの周波数スペクトル毎
の要素の短時間変化量で見れば長母音や撥音に固有の特
徴が現れる(母音「あ」は周波数毎に固有のパワーの分
布を持っている)からである。換言すれば、第二実施例
は処理内容は複雑になるが、長母音や撥音等の認識率を
第一実施例より一層向上させるものである。このため、
第二実施例においては、第一実施例の式(6)に示され
るような時間経過項を設ける必要性が少ないということ
ができるが、式(6)に示されるように時間経過項を考
慮した処理を行うことも可能である。
以上詳細に説明したように、本発明によれば、音声の特
徴に基づく非線形の伸縮により所定のフレーム数の音声
マツチングパタンを生成しているので、音声の特徴点を
有するフレームを欠落させない伸縮が可能になり、認識
率の向上を図ることができるという効果がある。
徴に基づく非線形の伸縮により所定のフレーム数の音声
マツチングパタンを生成しているので、音声の特徴点を
有するフレームを欠落させない伸縮が可能になり、認識
率の向上を図ることができるという効果がある。
また、認識率が向上することによって、フレーム数を少
なくすることができるので、認識処理を迅速にできると
いう効果がある。
なくすることができるので、認識処理を迅速にできると
いう効果がある。
一方、他の発明によれば、上記効果に加えて、長母音清
音のような音響的性質が変化しない音節の認識性能を一
層良好にできるという効果がある。
音のような音響的性質が変化しない音節の認識性能を一
層良好にできるという効果がある。
第1図は本発明に係る音声認識装置の一実施例を示すブ
ロック図、 第2図は従来の音声認識装置のブロック図である。 1・・・音声分析部、 2・・・音声区間検出部、 3・・・特徴変化量算出部、 4・・・非線形伸縮部、 5・・・比較パタンメモリ部、 6・・・類似度算出部、 7・・・判定部、 TIN ・・・入力端子、 ToU□・・・出力端子。
ロック図、 第2図は従来の音声認識装置のブロック図である。 1・・・音声分析部、 2・・・音声区間検出部、 3・・・特徴変化量算出部、 4・・・非線形伸縮部、 5・・・比較パタンメモリ部、 6・・・類似度算出部、 7・・・判定部、 TIN ・・・入力端子、 ToU□・・・出力端子。
Claims (2)
- (1)音声信号を周波数分析し、一定の時間間隔である
フレーム毎に上記音声信号の特徴を表わす特徴ベクトル
を算出し、この特徴ベクトルからフレーム毎に対数音声
パワーを算出する音声分析部と、 上記対数音声パワーより上記音声信号の始端と終端とを
検出する音声区間検出部と、 上記対数音声パワーより対数音声パワーの短時間変化量
を算出する特徴変化量算出部と、上記音声信号の始端か
ら終端までの区間内における上記短時間変化量の累積値
を算出し、この累積値に基づいて上記音声信号の始端か
ら終端までの特徴ベクトル系列を伸縮して一定長の音声
マッチングパタンを生成する非線形伸縮部と、 学習用の音声信号に基づく標準パタンである比較マッチ
ングパタンを予め格納しておく比較パタンメモリ部と、 上記非線形伸縮部より出力された音声マッチングパタン
と上記比較パタンメモリ部に格納された比較マッチング
パタンとの間の類似度を算出する類似度算出部と、 上記算出された類似度の中で最大値を与える比較マッチ
ングパタンに付与されているカテゴリ名を出力する判定
部とを有することを特徴とする音声認識装置。 - (2)音声信号を周波数分析し、一定の時間間隔である
フレーム毎に上記音声信号の特徴を表わす特徴ベクトル
を算出し、この特徴ベクトルからフレーム毎に対数音声
パワーを算出する音声分析部と、 上記対数音声パワーより上記音声信号の始端と終端とを
検出する音声区間検出部と、 上記対数音声パワーより対数音声パワーの短時間変化量
を算出し、上記特徴ベクトルより特徴ベクトルの周波数
スペクトル毎の要素の短時間変化量を算出し、上記対数
音声パワーの短時間変化量と上記特徴ベクトルの要素の
短時間変化量との線形和である特徴変化量を算出する特
徴変化量算出部と、 上記音声信号の始端から終端までの区間内における上記
特徴変化量の累積値を算出し、この累積値に基づいて上
記音声信号の始端から終端までの特徴ベクトル系列を伸
縮して一定長の音声マッチングパタンを生成する非線形
伸縮部と、 学習用の音声信号に基づく標準パタンである比較マッチ
ングパタンを予め格納しておく比較パタンメモリ部と、 上記非線形伸縮部より出力された音声マッチングパタン
と上記比較パタンメモリ部に格納された比較マッチング
パタンとの間の類似度を算出する類似度算出部と、 上記算出された類似度の中で最大値を与える比較マッチ
ングパタンに付与されているカテゴリ名を出力する判定
部とを有することを特徴とする音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1224956A JP3065088B2 (ja) | 1989-08-31 | 1989-08-31 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1224956A JP3065088B2 (ja) | 1989-08-31 | 1989-08-31 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0387900A true JPH0387900A (ja) | 1991-04-12 |
JP3065088B2 JP3065088B2 (ja) | 2000-07-12 |
Family
ID=16821828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1224956A Expired - Fee Related JP3065088B2 (ja) | 1989-08-31 | 1989-08-31 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3065088B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101904423B1 (ko) * | 2014-09-03 | 2018-11-28 | 삼성전자주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
-
1989
- 1989-08-31 JP JP1224956A patent/JP3065088B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP3065088B2 (ja) | 2000-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4391701B2 (ja) | 音声信号の区分化及び認識のシステム及び方法 | |
WO1996013828A1 (en) | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs | |
JPH0585916B2 (ja) | ||
CN105448289A (zh) | 一种语音合成、删除方法、装置及语音删除合成方法 | |
US5734793A (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
GB2347775A (en) | Method of extracting features in a voice recognition system | |
JP3014177B2 (ja) | 話者適応音声認識装置 | |
JP2980026B2 (ja) | 音声認識装置 | |
JPS6350896A (ja) | 音声認識装置 | |
JPH10149191A (ja) | モデル適応方法、装置およびその記憶媒体 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JPH0387900A (ja) | 音声認識装置 | |
Chiba et al. | A speaker-independent word-recognition system using multiple classification functions | |
Binh et al. | A high-performance speech-recognition method based on a nonlinear neural network | |
JP3352144B2 (ja) | 音声認識装置 | |
JP2980382B2 (ja) | 話者適応音声認識方法および装置 | |
Venkateswarlu et al. | Developing efficient speech recognition system for Telugu letter recognition | |
JP2002244697A (ja) | 音声認証装置、音声認証方法、及びプログラム | |
Bhabad et al. | Effect of performance parameters of SVM and k-NN on speech recognition for articulatory Handicapped people | |
JP2975808B2 (ja) | 音声認識装置 | |
JP2752981B2 (ja) | 音声認識装置 | |
JPH04181298A (ja) | 参照ベクトル更新方法 | |
JPH09127977A (ja) | 音声認識方法 | |
JP4882152B2 (ja) | 話速検出方法および音声信号処理装置 | |
JPH03269500A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |