JPH0612089A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0612089A JPH0612089A JP4167832A JP16783292A JPH0612089A JP H0612089 A JPH0612089 A JP H0612089A JP 4167832 A JP4167832 A JP 4167832A JP 16783292 A JP16783292 A JP 16783292A JP H0612089 A JPH0612089 A JP H0612089A
- Authority
- JP
- Japan
- Prior art keywords
- time
- cepstrum
- spectrum
- hmm
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000001228 spectrum Methods 0.000 claims abstract description 44
- 230000000873 masking effect Effects 0.000 claims abstract description 25
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000009499 grossing Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 abstract description 5
- 238000007796 conventional method Methods 0.000 abstract description 2
- 238000010219 correlation analysis Methods 0.000 abstract 1
- 238000001914 filtration Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 9
- 230000008859 change Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 241001415395 Spea Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Complex Calculations (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
(57)【要約】
【目的】 この発明は継続時間に依存した通過特性をも
つ時間周波数フィルタの原理を用いることにより、従来
方法に比べて人間が聞いているのにより近いスペクトル
時系列を求め、機械による音声の自動認識の性能を向上
し得る音声認識方法を提供することを主要な特徴とす
る。 【構成】 マイクロフォン1に入力された音声をA/D
変換器3でデジタル信号に変換し、自己相関分析部4で
自己相関係数を求め、線形予測分析部5で線形予測係数
を求める。さらに、ケプストラム分析部6でケプストラ
ム係数を求め、動的ケプストラム生成部7によりケプス
トラム時系列に時間周波数マスキングフィルタを施し、
動的ケプストラムの時系列を得る。スイッチSW1を切
換えて動的ケプストラムのベクトル量子化を行ない、コ
ードブック蓄積部9に蓄え、ベクトル量子化部10で音
声をベクトルコード列で表わし、HMM学習により得ら
れたHMMをHMM蓄積部12に蓄積し、HMM認識部
13で認識を行なう。
つ時間周波数フィルタの原理を用いることにより、従来
方法に比べて人間が聞いているのにより近いスペクトル
時系列を求め、機械による音声の自動認識の性能を向上
し得る音声認識方法を提供することを主要な特徴とす
る。 【構成】 マイクロフォン1に入力された音声をA/D
変換器3でデジタル信号に変換し、自己相関分析部4で
自己相関係数を求め、線形予測分析部5で線形予測係数
を求める。さらに、ケプストラム分析部6でケプストラ
ム係数を求め、動的ケプストラム生成部7によりケプス
トラム時系列に時間周波数マスキングフィルタを施し、
動的ケプストラムの時系列を得る。スイッチSW1を切
換えて動的ケプストラムのベクトル量子化を行ない、コ
ードブック蓄積部9に蓄え、ベクトル量子化部10で音
声をベクトルコード列で表わし、HMM学習により得ら
れたHMMをHMM蓄積部12に蓄積し、HMM認識部
13で認識を行なう。
Description
【0001】
【産業上の利用分野】この発明は音声認識方法に関し、
特に、入力された音声スペクトル時系列と基準となる音
声スペクトル時系列またはその統計モデルとの類似度を
用いて電子計算機などの機械による自動音声認識を行な
うような音声認識方法に関する。
特に、入力された音声スペクトル時系列と基準となる音
声スペクトル時系列またはその統計モデルとの類似度を
用いて電子計算機などの機械による自動音声認識を行な
うような音声認識方法に関する。
【0002】
【従来の技術】電子計算機などによる音声の自動認識に
おいては、主として音声をスペクトル時系列に変換して
認識される。スペクトルを表わす最も基本的な特徴パラ
メータはケプストラムである。ケプストラムは対数スペ
クトルのフーリエ変換により定義されている。以後、対
数スペクトルを単にスペクトルと記述する。
おいては、主として音声をスペクトル時系列に変換して
認識される。スペクトルを表わす最も基本的な特徴パラ
メータはケプストラムである。ケプストラムは対数スペ
クトルのフーリエ変換により定義されている。以後、対
数スペクトルを単にスペクトルと記述する。
【0003】最近、スペクトルのほかにスペクトルの時
間または周波数方向の変化を特徴として併用すると音声
認識性能を向上できることが報告されてきた。スペクト
ルの変化の特徴としては、スペクトルの時間変化を利用
するデルタケプストラム[S.Furui:“Spea
ker−Independent IsolatedW
ord Recognition Using Dyn
amic Features of Speech S
pectrum”,IEEE Trans.,ASSP
−34,No.1,pp.52−59,(1986−
2)]、スペクトルの周波数変化を利用するスペクトル
スロープ、[D.H.Klatt:“Predicti
on of Perceived Phonetic
Distance from Critical−ba
nd Spectra:A First Step,
“Proc.ICASSP82,pp.1278−12
81,(May.1982)]、および、重み付きケプ
ストラム[Y.Tohkura:“A Weighte
d Cepstral Distance Measu
re for Speech Recognitio
n”,IEEE Trans.,ASSP−35,N
o.10,pp.1414−1422,(1987−1
0)]、これらを組合せた重み付きデルタケプストラム
[F.K.Soong and A.E.Rosenb
erg:“On the Use of Instan
taneous and Transitional
Spectral Information in S
peaker Recognition”,Proc.
ICASSP86,pp.877−880,(1986
−4)],および、ホルマントの動きを捉えるホルマン
ト移動関数[相川清明、古井貞煕:”FMニューロンモ
デルに基づく音声認識のための距離尺度”、電子情報通
信学会論文誌、Vol.J74−A.No.6,pp.
822−828,(1991−06)]がある。
間または周波数方向の変化を特徴として併用すると音声
認識性能を向上できることが報告されてきた。スペクト
ルの変化の特徴としては、スペクトルの時間変化を利用
するデルタケプストラム[S.Furui:“Spea
ker−Independent IsolatedW
ord Recognition Using Dyn
amic Features of Speech S
pectrum”,IEEE Trans.,ASSP
−34,No.1,pp.52−59,(1986−
2)]、スペクトルの周波数変化を利用するスペクトル
スロープ、[D.H.Klatt:“Predicti
on of Perceived Phonetic
Distance from Critical−ba
nd Spectra:A First Step,
“Proc.ICASSP82,pp.1278−12
81,(May.1982)]、および、重み付きケプ
ストラム[Y.Tohkura:“A Weighte
d Cepstral Distance Measu
re for Speech Recognitio
n”,IEEE Trans.,ASSP−35,N
o.10,pp.1414−1422,(1987−1
0)]、これらを組合せた重み付きデルタケプストラム
[F.K.Soong and A.E.Rosenb
erg:“On the Use of Instan
taneous and Transitional
Spectral Information in S
peaker Recognition”,Proc.
ICASSP86,pp.877−880,(1986
−4)],および、ホルマントの動きを捉えるホルマン
ト移動関数[相川清明、古井貞煕:”FMニューロンモ
デルに基づく音声認識のための距離尺度”、電子情報通
信学会論文誌、Vol.J74−A.No.6,pp.
822−828,(1991−06)]がある。
【0004】デルタケプストラムは対数スペクトル時系
列の時間微分,スペクトルスロープ,重み付けケプスト
ラムは対数スペクトルの周波数微分,重み付きデルタケ
プストラム,ホルマント移動関数は対数スペクトルの時
間周波数微分に基づいている。時間微分,周波数微分は
それぞれ音声スペクトル時系列に対するフィルタとして
表わされるが、以上の演算においては時間微分フィルタ
のみ、または、周波数微分フィルタのみ、または両方で
あるが、両方のフィルタを施す場合、両者は独立であ
る。すなわち、周波数に関するフィルタは時間の関数で
はなく、時間に関するフィルタは周波数の関数ではな
い。ここで、時間フィルタとは、時間、周波数平面上の
スペクトルの時間方向の変動に対するものであって、周
波数フィルタとは同じくスペクトルの周波数方向の変動
に対するものである。
列の時間微分,スペクトルスロープ,重み付けケプスト
ラムは対数スペクトルの周波数微分,重み付きデルタケ
プストラム,ホルマント移動関数は対数スペクトルの時
間周波数微分に基づいている。時間微分,周波数微分は
それぞれ音声スペクトル時系列に対するフィルタとして
表わされるが、以上の演算においては時間微分フィルタ
のみ、または、周波数微分フィルタのみ、または両方で
あるが、両方のフィルタを施す場合、両者は独立であ
る。すなわち、周波数に関するフィルタは時間の関数で
はなく、時間に関するフィルタは周波数の関数ではな
い。ここで、時間フィルタとは、時間、周波数平面上の
スペクトルの時間方向の変動に対するものであって、周
波数フィルタとは同じくスペクトルの周波数方向の変動
に対するものである。
【0005】
【発明が解決しようとする課題】しかしながら、人間の
聴覚系の特徴抽出機構は、これとは異なると考えられ
る。人間の聴覚系にはマスキング効果がある。時間周波
数平面上のスペクトルにおいて、ある時点のある周波数
の音声信号は時間的あるいは周波数的に近くにある音声
信号によりマスクされる。すなわち、抑制される。マス
キングは過去の時点の音声を記憶する働きがあると見る
ことができるので、動的な特徴を抽出できる。時間周波
数マスキングパターンは時間が離れるに従って起伏が小
さくなるので、過去のスペクトルによる影響は時間が離
れるほど周波数に関して平滑化されると考えられる。
(宮坂栄一、「急激な立上り,立下りを有する正弦波信
号に対する聴覚マスキングの時空間特性」Vol.3
9,No.9,第614頁〜623頁,1983)。人
間はこのマスキングの影響を受けた音声を実効的な音声
として知覚している。この信号処理機構を時間周波数フ
ィルタとして実現した場合、聴覚刺激を受けてからの継
続時間により周波数平滑フィルタの特性が変化するもの
となり、時間と周波数に関する演算を切離せない。この
ような聴覚特性を導入した特徴パラメータの抽出機構は
報告されていない。
聴覚系の特徴抽出機構は、これとは異なると考えられ
る。人間の聴覚系にはマスキング効果がある。時間周波
数平面上のスペクトルにおいて、ある時点のある周波数
の音声信号は時間的あるいは周波数的に近くにある音声
信号によりマスクされる。すなわち、抑制される。マス
キングは過去の時点の音声を記憶する働きがあると見る
ことができるので、動的な特徴を抽出できる。時間周波
数マスキングパターンは時間が離れるに従って起伏が小
さくなるので、過去のスペクトルによる影響は時間が離
れるほど周波数に関して平滑化されると考えられる。
(宮坂栄一、「急激な立上り,立下りを有する正弦波信
号に対する聴覚マスキングの時空間特性」Vol.3
9,No.9,第614頁〜623頁,1983)。人
間はこのマスキングの影響を受けた音声を実効的な音声
として知覚している。この信号処理機構を時間周波数フ
ィルタとして実現した場合、聴覚刺激を受けてからの継
続時間により周波数平滑フィルタの特性が変化するもの
となり、時間と周波数に関する演算を切離せない。この
ような聴覚特性を導入した特徴パラメータの抽出機構は
報告されていない。
【0006】それゆえに、この発明の主たる目的は、継
続時間に依存した通過特性をもつ時間周波数フィルタの
原理を用いることにより、従来方法に比べて人間が聞い
ているのにより近いスペクトル時系列を求め、機械によ
る音声の自動認識の性能を向上し得る音声認識方法を提
供することである。
続時間に依存した通過特性をもつ時間周波数フィルタの
原理を用いることにより、従来方法に比べて人間が聞い
ているのにより近いスペクトル時系列を求め、機械によ
る音声の自動認識の性能を向上し得る音声認識方法を提
供することである。
【0007】
【課題を解決するための手段】この発明は入力音声をス
ペクトルまたはケプストラムなどの特徴ベクトルの時系
列に変換し、これと基準となるスペクトルまたは特徴ベ
クトルの時系列、または、その統計的な分布のモデルと
の類似度を求めて認識する音声認識方法であって、時間
を遡るほど周波数平滑化が進むフィルタの組、あるいは
時間の関数として記述される前記機能をもつフィルタを
スペクトルに施すことによって過去の各時点のマスキン
グパターン得、それらのマスキングパターンを過去のあ
る時点から現時点の直前まで累積することにより、過去
の影響による現時点のマスキングパターンを求め、現時
点のスペクトルとマスキングパターンの差などの演算に
より、マスクされたスペクトルまたはそれに対応する特
徴ベクトルを求め、この操作を各時点ごとに行なって求
めた特徴ベクトル時系列を用いて認識を行なう。
ペクトルまたはケプストラムなどの特徴ベクトルの時系
列に変換し、これと基準となるスペクトルまたは特徴ベ
クトルの時系列、または、その統計的な分布のモデルと
の類似度を求めて認識する音声認識方法であって、時間
を遡るほど周波数平滑化が進むフィルタの組、あるいは
時間の関数として記述される前記機能をもつフィルタを
スペクトルに施すことによって過去の各時点のマスキン
グパターン得、それらのマスキングパターンを過去のあ
る時点から現時点の直前まで累積することにより、過去
の影響による現時点のマスキングパターンを求め、現時
点のスペクトルとマスキングパターンの差などの演算に
より、マスクされたスペクトルまたはそれに対応する特
徴ベクトルを求め、この操作を各時点ごとに行なって求
めた特徴ベクトル時系列を用いて認識を行なう。
【0008】
【作用】この発明に係る音声認識方法では、人間の聴覚
のマスキング特性に見られるような動的な特徴抽出を行
なうことができる。すなわち、現時点の直前に現われて
いない特徴が強調され、継続している情報が抑制され
る。過去のスペクトルは平滑化されてマスキングパター
ンに加算されるので、マスキングパターンは大局的な特
徴を捉えることになり、これからの変化成分が各時点の
特徴となる。この方法により、音声の認識に重要な動的
な特徴を抽出できるだけでなく、音声中に定常的に含ま
れている個人性に依存したスペクトルの傾き、音声信号
伝達系の伝達関数などの影響を軽減できる。また、マス
クとケプストラムはスペクトル形状を含んでいるので、
スペクトル形状を表わす他のパラメータと併用する必要
がなくなる。
のマスキング特性に見られるような動的な特徴抽出を行
なうことができる。すなわち、現時点の直前に現われて
いない特徴が強調され、継続している情報が抑制され
る。過去のスペクトルは平滑化されてマスキングパター
ンに加算されるので、マスキングパターンは大局的な特
徴を捉えることになり、これからの変化成分が各時点の
特徴となる。この方法により、音声の認識に重要な動的
な特徴を抽出できるだけでなく、音声中に定常的に含ま
れている個人性に依存したスペクトルの傾き、音声信号
伝達系の伝達関数などの影響を軽減できる。また、マス
クとケプストラムはスペクトル形状を含んでいるので、
スペクトル形状を表わす他のパラメータと併用する必要
がなくなる。
【0009】
【実施例】まず、この発明の原理について説明する。こ
の発明では、音声がケプストラム係数の時系列に変換さ
れる。ケプストラムは線形予測分析を用いて容易に求め
ることができる[J.D.Markel and A.
H.Gray,Jr,“Linear Predict
ion of Speech”,Springer−V
erlag(Berlin Heidelberg N
ew York,1976),日本語訳:J.D.マー
ケル、A.H.グレイ、Jr、(鈴木久喜訳)音声の線
形予測、コロナ社、1980]。スペクトルを周波数平
滑化する演算は周波数軸上でスペクトルと平滑化フィル
タのインパルスレスポンスのコンボリューションをとる
ことであり、スペクトルを逆フーリエ変換して求めたケ
プストラムに対してはリフタによる重み付けをすること
にあたる。現時点iにおける音声のk次のケプストラム
係数をck (i)とする。j時点前のマスキングパター
ンを平滑化するリフタをlk (j)とすると、j時点前
のスペクトルに起因するマスキングパターンのケプスト
ラム展開係数は gk (i−j)=ck (i−j)lk (j) により表わされる。
の発明では、音声がケプストラム係数の時系列に変換さ
れる。ケプストラムは線形予測分析を用いて容易に求め
ることができる[J.D.Markel and A.
H.Gray,Jr,“Linear Predict
ion of Speech”,Springer−V
erlag(Berlin Heidelberg N
ew York,1976),日本語訳:J.D.マー
ケル、A.H.グレイ、Jr、(鈴木久喜訳)音声の線
形予測、コロナ社、1980]。スペクトルを周波数平
滑化する演算は周波数軸上でスペクトルと平滑化フィル
タのインパルスレスポンスのコンボリューションをとる
ことであり、スペクトルを逆フーリエ変換して求めたケ
プストラムに対してはリフタによる重み付けをすること
にあたる。現時点iにおける音声のk次のケプストラム
係数をck (i)とする。j時点前のマスキングパター
ンを平滑化するリフタをlk (j)とすると、j時点前
のスペクトルに起因するマスキングパターンのケプスト
ラム展開係数は gk (i−j)=ck (i−j)lk (j) により表わされる。
【0010】ここで、周波数平滑化リフタlk (j)は
時間とともに通過帯域が直流を中心として徐々に狭くな
るので、
時間とともに通過帯域が直流を中心として徐々に狭くな
るので、
【0011】
【数1】
【0012】により表わされるものを用いるとよい結果
が得られる。ここで、q0 は現時点より1時点前におけ
るカットオフケフレンシ,νは時点が1(フレーム)進
むごとに通過帯域が狭くなる速さを示している。w
(j)はケフレンシkによらず一定であるが、時間jと
ともに減衰する。
が得られる。ここで、q0 は現時点より1時点前におけ
るカットオフケフレンシ,νは時点が1(フレーム)進
むごとに通過帯域が狭くなる速さを示している。w
(j)はケフレンシkによらず一定であるが、時間jと
ともに減衰する。
【0013】初期減衰率をα,減衰率をβとすると、w
(j)は w(j)=αβj-1 により表わされるものを用いるとよい結果が得られる。
時点iにおけるk時ケプストラムに対するマスキングレ
ベルはこれらの減衰したマスキングレベルの総和として
(j)は w(j)=αβj-1 により表わされるものを用いるとよい結果が得られる。
時点iにおけるk時ケプストラムに対するマスキングレ
ベルはこれらの減衰したマスキングレベルの総和として
【0014】
【数2】
【0015】として求められる。現時点の実効的なスペ
クトルはその時点のスペクトルからマスキングパターン
を引いたものであるから、 bk (i)=ck (i)−mk (i) により表わされる。この特徴パラメータを動的ケプスト
ラムと呼ぶことにする。動的ケプストラムの時系列を用
いて認識を行なうが、認識方法には動的計画法を用いた
テンプレートマッチングによる方法,隠れマルコフモデ
ル(HideenMarkov Model:HMM)
による方法などが使用できる。この原理に従って以下に
実施例を説明する。
クトルはその時点のスペクトルからマスキングパターン
を引いたものであるから、 bk (i)=ck (i)−mk (i) により表わされる。この特徴パラメータを動的ケプスト
ラムと呼ぶことにする。動的ケプストラムの時系列を用
いて認識を行なうが、認識方法には動的計画法を用いた
テンプレートマッチングによる方法,隠れマルコフモデ
ル(HideenMarkov Model:HMM)
による方法などが使用できる。この原理に従って以下に
実施例を説明する。
【0016】図1はこの発明の一実施例のブロック図で
ある。入力音声はマイクロフォン1によって電気信号に
変換され、低域フィルタ2によって高域成分が除去さ
れ、A/D変換器3に与えられる。A/D変換器3はた
とえばサンプリング周波数12kHzのクロック信号に
より、量子化レベル16ビットのデジタル信号に変換さ
れる。このデジタル信号は自己相関分析部4に与えら
れ、たとえば10msecごとに幅30msecのハミ
ングウィンドウにより音声が切出され、1次から16次
までの自己相関係数が求められる。線形予測分析部5は
自己相関係数から1次より16次までの線形予測係数を
求め、さらにケプストラム分析部6は1次から16次ま
でのケプストラム係数を求める。
ある。入力音声はマイクロフォン1によって電気信号に
変換され、低域フィルタ2によって高域成分が除去さ
れ、A/D変換器3に与えられる。A/D変換器3はた
とえばサンプリング周波数12kHzのクロック信号に
より、量子化レベル16ビットのデジタル信号に変換さ
れる。このデジタル信号は自己相関分析部4に与えら
れ、たとえば10msecごとに幅30msecのハミ
ングウィンドウにより音声が切出され、1次から16次
までの自己相関係数が求められる。線形予測分析部5は
自己相関係数から1次より16次までの線形予測係数を
求め、さらにケプストラム分析部6は1次から16次ま
でのケプストラム係数を求める。
【0017】動的ケプストラム生成部7はケプストラム
時系列に時間周波数マスキングフィルタを施し、動的ト
ケプストラムの時系列を得る。ここで、マスキングフィ
ルタの各定数はq0 =6,α=0.25,β=0.5,
ν=1に設定される。時間遅れjにおけるk次のケプス
トラム係数に対する重みは次の表1に示される。
時系列に時間周波数マスキングフィルタを施し、動的ト
ケプストラムの時系列を得る。ここで、マスキングフィ
ルタの各定数はq0 =6,α=0.25,β=0.5,
ν=1に設定される。時間遅れjにおけるk次のケプス
トラム係数に対する重みは次の表1に示される。
【0018】
【表1】
【0019】スイッチSW1は一定時間内における特徴
ベクトルのサンプルからセントロイドベクトルを得るた
めに切換えるものあり、このスイッチSW1がa側に切
換えられると、マスクトケプストラム生成部7で得られ
た特徴ベクトルの多数のサンプルがセントロイド作成部
8に与えられ、ベクトル量子化により、256個のセン
トロイド(中心)ベクトルが得られる。このセントロイ
ドベクトルはコードブック蓄積部9に蓄えられる。次
に、スイッチSW1をb側に切換えると、ベクトル量子
化部10によって音声の動的ケプストラム時系列の各ベ
クトルに最も近いセントロイドベクトルが当てはめられ
て音声がベクトル列で表わされる。
ベクトルのサンプルからセントロイドベクトルを得るた
めに切換えるものあり、このスイッチSW1がa側に切
換えられると、マスクトケプストラム生成部7で得られ
た特徴ベクトルの多数のサンプルがセントロイド作成部
8に与えられ、ベクトル量子化により、256個のセン
トロイド(中心)ベクトルが得られる。このセントロイ
ドベクトルはコードブック蓄積部9に蓄えられる。次
に、スイッチSW1をb側に切換えると、ベクトル量子
化部10によって音声の動的ケプストラム時系列の各ベ
クトルに最も近いセントロイドベクトルが当てはめられ
て音声がベクトル列で表わされる。
【0020】スイッチSW2はHMM学習するかあるい
は認識するかを切換えるものであって、a側に切換えら
れると、HMM学習部11で多数の音韻学習サンプルが
収集され、その学習アルゴリズムでHMM学習される。
これについては、Baum−Welch 学習アルゴリ
ズムでHMMを学習する[L.E.Baum,“Ani
nequality and associated
maximization technique in
statistical estimation f
or probabilistic function
s of aMarkov process,”Ine
qualities,3,pp.1−8,1972]。
は認識するかを切換えるものであって、a側に切換えら
れると、HMM学習部11で多数の音韻学習サンプルが
収集され、その学習アルゴリズムでHMM学習される。
これについては、Baum−Welch 学習アルゴリ
ズムでHMMを学習する[L.E.Baum,“Ani
nequality and associated
maximization technique in
statistical estimation f
or probabilistic function
s of aMarkov process,”Ine
qualities,3,pp.1−8,1972]。
【0021】音韻学習サンプルは不定長のベクトルコー
ド列であり、得られたHMMはHMM蓄積部12に蓄え
られる。音韻認識のためには最終状態を含む4状態の左
から右に流れるHMMが用いられる。このHMMではル
ープのある状態数は3である。認識時にはスイッチSW
2をb側に切換え、HMM認識部13によってベクトル
コード列がHMMで認識される。いくつかの音韻を認識
するHMMで認識された結果、最も高い確率を示したモ
デルが認識結果として認識結果表示部14に表示され
る。
ド列であり、得られたHMMはHMM蓄積部12に蓄え
られる。音韻認識のためには最終状態を含む4状態の左
から右に流れるHMMが用いられる。このHMMではル
ープのある状態数は3である。認識時にはスイッチSW
2をb側に切換え、HMM認識部13によってベクトル
コード列がHMMで認識される。いくつかの音韻を認識
するHMMで認識された結果、最も高い確率を示したモ
デルが認識結果として認識結果表示部14に表示され
る。
【0022】この発明の一実施例による効果を、HMM
を用いた6音韻/b,d,g,m,n,N/の認識実験
により確認した。学習に用いた音韻サンプルは男性1名
が発声した重要語2640単語から抽出した。試験に用
いた音韻サンプルは異なる重要語2640単語から抽出
した。学習音声と音声の発声者は同一であり、これによ
りケプストラム係数を特徴パラメータとして用いた場合
に比べて認識誤りを16.6%から11.9%に減少で
きた。
を用いた6音韻/b,d,g,m,n,N/の認識実験
により確認した。学習に用いた音韻サンプルは男性1名
が発声した重要語2640単語から抽出した。試験に用
いた音韻サンプルは異なる重要語2640単語から抽出
した。学習音声と音声の発声者は同一であり、これによ
りケプストラム係数を特徴パラメータとして用いた場合
に比べて認識誤りを16.6%から11.9%に減少で
きた。
【0023】
【発明の効果】以上のように、この発明によれば、時間
を遡るほど平滑化が進む周波数フィルタを音声スペクト
ル時系列に施すことによりマスキングパターンを求める
ようにしたので、人間が知覚しているような動的スペク
トルを抽出でき、音声認識誤りを通常のケプストラムを
用いた場合に比べて大幅に改善することができる。
を遡るほど平滑化が進む周波数フィルタを音声スペクト
ル時系列に施すことによりマスキングパターンを求める
ようにしたので、人間が知覚しているような動的スペク
トルを抽出でき、音声認識誤りを通常のケプストラムを
用いた場合に比べて大幅に改善することができる。
【図1】この発明の一実施例のブロック図である。
1 マイクロフォン 2 低域フィルタ 3 A/D変換器 4 自己相関分析部 5 線形予測分析部 6 ケプストラム分析部 7 動的ケプストラム生成部 8 セントロイド作成部 9 コードブック蓄積部 10 ベクトル量子化部 11 HMM学習部 12 HMM蓄積部 13 HMM認識部 14 認識結果表示部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 河原 英紀 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内 (72)発明者 東倉 洋一 京都府相楽郡精華町大字乾谷小字三平谷5 番地 株式会社エイ・ティ・アール人間情 報通信研究所内
Claims (1)
- 【請求項1】 入力音声をスペクトルまたはケプストラ
ムなどの特徴ベクトルの時系列に変換し、これと基準と
なるスペクトルまたは特徴ベクトルの時系列、またはそ
の統計的な分布のモデルとの類似度を求めて認識する音
声認識方法において、 時間を遡るほど周波数平滑化が進むフィルタの組、ある
いは時間の関数として記述される前記機能をもつフィル
タをスペクトル時系列に施すことによって過去の各時点
のマスキングパターン得、 前記マスキングパターンを過去のある時点から現時点の
直前まで累積することにより、過去の影響による現時点
のマスキングパターンを求め、 現時点のスペクトルとマスキングパターンの差などの演
算により、マスクされたスペクトルまたはそれに対応す
る特徴ベクトルを求め、 上述の操作を各時点ごとに行なって求めた特徴ベクトル
時系列を用いて認識を行なうことを特徴とする、音声認
識方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4167832A JPH0743598B2 (ja) | 1992-06-25 | 1992-06-25 | 音声認識方法 |
DE69321656T DE69321656T2 (de) | 1992-06-25 | 1993-06-08 | Verfahren zur Spracherkennung |
EP93109222A EP0575815B1 (en) | 1992-06-25 | 1993-06-08 | Speech recognition method |
CA002098629A CA2098629C (en) | 1992-06-25 | 1993-06-17 | Speech recognition method using time-frequency masking mechanism |
US08/079,425 US5459815A (en) | 1992-06-25 | 1993-06-21 | Speech recognition method using time-frequency masking mechanism |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4167832A JPH0743598B2 (ja) | 1992-06-25 | 1992-06-25 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0612089A true JPH0612089A (ja) | 1994-01-21 |
JPH0743598B2 JPH0743598B2 (ja) | 1995-05-15 |
Family
ID=15856918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4167832A Expired - Fee Related JPH0743598B2 (ja) | 1992-06-25 | 1992-06-25 | 音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5459815A (ja) |
EP (1) | EP0575815B1 (ja) |
JP (1) | JPH0743598B2 (ja) |
CA (1) | CA2098629C (ja) |
DE (1) | DE69321656T2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046370A (ja) * | 2002-07-09 | 2004-02-12 | Sony Corp | 類似度算出方法及び装置、並びにプログラム及び記録媒体 |
KR100476103B1 (ko) * | 2002-08-09 | 2005-03-10 | 한국과학기술원 | 특징벡터의 필터링을 이용한 음성인식방법 |
US7058576B2 (en) | 2001-07-24 | 2006-06-06 | Seiko Epson Corporation | Method of calculating HMM output probability and speech recognition apparatus |
JP2011150280A (ja) * | 2009-12-22 | 2011-08-04 | Vinogradov Alexei | 信号検出方法、信号検出装置、及び、信号検出プログラム |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5590242A (en) * | 1994-03-24 | 1996-12-31 | Lucent Technologies Inc. | Signal bias removal for robust telephone speech recognition |
US5794198A (en) * | 1994-10-28 | 1998-08-11 | Nippon Telegraph And Telephone Corporation | Pattern recognition method |
EP0720146A1 (en) * | 1994-12-30 | 1996-07-03 | AT&T Corp. | A method for measuring speech masking properties |
US5646961A (en) * | 1994-12-30 | 1997-07-08 | Lucent Technologies Inc. | Method for noise weighting filtering |
JP3697748B2 (ja) * | 1995-08-21 | 2005-09-21 | セイコーエプソン株式会社 | 端末、音声認識装置 |
JPH0990974A (ja) * | 1995-09-25 | 1997-04-04 | Nippon Telegr & Teleph Corp <Ntt> | 信号処理方法 |
JP3397568B2 (ja) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | 音声認識方法及び装置 |
US6366883B1 (en) | 1996-05-15 | 2002-04-02 | Atr Interpreting Telecommunications | Concatenation of speech segments by use of a speech synthesizer |
US5758277A (en) * | 1996-09-19 | 1998-05-26 | Corsair Communications, Inc. | Transient analysis system for characterizing RF transmitters by analyzing transmitted RF signals |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
KR100434527B1 (ko) * | 1997-08-01 | 2005-09-28 | 삼성전자주식회사 | 벡터 테일러 급수를 이용한 음성 모델 보상 방법 |
US6895374B1 (en) * | 2000-09-29 | 2005-05-17 | Sony Corporation | Method for utilizing temporal masking in digital audio coding |
SG140445A1 (en) * | 2003-07-28 | 2008-03-28 | Sony Corp | Method and apparatus for automatically recognizing audio data |
US9240188B2 (en) | 2004-09-16 | 2016-01-19 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US9355651B2 (en) | 2004-09-16 | 2016-05-31 | Lena Foundation | System and method for expressive language, developmental disorder, and emotion assessment |
US8938390B2 (en) * | 2007-01-23 | 2015-01-20 | Lena Foundation | System and method for expressive language and developmental disorder assessment |
US10223934B2 (en) | 2004-09-16 | 2019-03-05 | Lena Foundation | Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
CA2676380C (en) | 2007-01-23 | 2015-11-24 | Infoture, Inc. | System and method for detection and analysis of speech |
US8725498B1 (en) * | 2012-06-20 | 2014-05-13 | Google Inc. | Mobile speech recognition with explicit tone features |
CN104123934A (zh) * | 2014-07-23 | 2014-10-29 | 泰亿格电子(上海)有限公司 | 一种构音识别方法及其系统 |
US10529357B2 (en) | 2017-12-07 | 2020-01-07 | Lena Foundation | Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness |
CN111613243B (zh) * | 2020-04-26 | 2023-04-18 | 云知声智能科技股份有限公司 | 一种语音检测的方法及其装置 |
CN111948171B (zh) * | 2020-08-19 | 2023-04-07 | 长春理工大学 | 基于动态时间规整的复合材料缺陷识别方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4956865A (en) * | 1985-01-30 | 1990-09-11 | Northern Telecom Limited | Speech recognition |
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
EP0290190B1 (en) * | 1987-04-30 | 1991-10-09 | Oki Electric Industry Company, Limited | Pattern matching system |
US5097510A (en) * | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
EP0475759B1 (en) * | 1990-09-13 | 1998-01-07 | Oki Electric Industry Co., Ltd. | Phoneme discrimination method |
JP3134338B2 (ja) * | 1991-03-30 | 2001-02-13 | ソニー株式会社 | ディジタル音声信号符号化方法 |
-
1992
- 1992-06-25 JP JP4167832A patent/JPH0743598B2/ja not_active Expired - Fee Related
-
1993
- 1993-06-08 DE DE69321656T patent/DE69321656T2/de not_active Expired - Fee Related
- 1993-06-08 EP EP93109222A patent/EP0575815B1/en not_active Expired - Lifetime
- 1993-06-17 CA CA002098629A patent/CA2098629C/en not_active Expired - Fee Related
- 1993-06-21 US US08/079,425 patent/US5459815A/en not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058576B2 (en) | 2001-07-24 | 2006-06-06 | Seiko Epson Corporation | Method of calculating HMM output probability and speech recognition apparatus |
JP2004046370A (ja) * | 2002-07-09 | 2004-02-12 | Sony Corp | 類似度算出方法及び装置、並びにプログラム及び記録媒体 |
KR100476103B1 (ko) * | 2002-08-09 | 2005-03-10 | 한국과학기술원 | 특징벡터의 필터링을 이용한 음성인식방법 |
JP2011150280A (ja) * | 2009-12-22 | 2011-08-04 | Vinogradov Alexei | 信号検出方法、信号検出装置、及び、信号検出プログラム |
Also Published As
Publication number | Publication date |
---|---|
DE69321656T2 (de) | 1999-04-15 |
US5459815A (en) | 1995-10-17 |
EP0575815B1 (en) | 1998-10-21 |
CA2098629A1 (en) | 1993-12-26 |
JPH0743598B2 (ja) | 1995-05-15 |
DE69321656D1 (de) | 1998-11-26 |
CA2098629C (en) | 1997-07-15 |
EP0575815A1 (en) | 1993-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0612089A (ja) | 音声認識方法 | |
Vergin et al. | Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition | |
JP4218982B2 (ja) | 音声処理 | |
JP3364904B2 (ja) | 自動音声認識方法及び装置 | |
Milner et al. | Speech reconstruction from mel-frequency cepstral coefficients using a source-filter model | |
JPH07271394A (ja) | 確実な電話音声認識のための信号バイアスの除去 | |
JPH05216490A (ja) | 音声コード化装置及び方法並びに音声認識装置及び方法 | |
AU684214B2 (en) | System for recognizing spoken sounds from continuous speech and method of using same | |
JP3451146B2 (ja) | スペクトルサブトラクションを用いた雑音除去システムおよび方法 | |
Dharanipragada et al. | Robust feature extraction for continuous speech recognition using the MVDR spectrum estimation method | |
Athineos et al. | LP-TRAP: Linear predictive temporal patterns | |
Zulkifly et al. | Relative spectral-perceptual linear prediction (RASTA-PLP) speech signals analysis using singular value decomposition (SVD) | |
JP3250604B2 (ja) | 音声認識方法および装置 | |
JP3098593B2 (ja) | 音声認識装置 | |
Tolba et al. | Automatic speech recognition based on cepstral coefficients and a mel-based discrete energy operator | |
JP2001083978A (ja) | 音声認識装置 | |
Kuah et al. | A neural network-based text independent voice recognition system | |
Nijhawan et al. | A comparative study of two different neural models for speaker recognition systems | |
Tan et al. | Speech feature extraction and reconstruction | |
JP2658426B2 (ja) | 音声認識方法 | |
Yapanel et al. | Perceptual MVDR-based cepstral coefficients (PMCCs) for high accuracy speech recognition. | |
JPH09160585A (ja) | 音声認識装置および音声認識方法 | |
Van der Merwe | Variations on statistical phoneme recognition: a hybrid approach | |
HARSHA et al. | Voice Verification and Comparison of Various Feature Extraction Algorithms | |
Farooq et al. | Evaluation of a wavelet based ASR front-end |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19951114 |
|
LAPS | Cancellation because of no payment of annual fees |