JP2745535B2 - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2745535B2 JP2745535B2 JP63127825A JP12782588A JP2745535B2 JP 2745535 B2 JP2745535 B2 JP 2745535B2 JP 63127825 A JP63127825 A JP 63127825A JP 12782588 A JP12782588 A JP 12782588A JP 2745535 B2 JP2745535 B2 JP 2745535B2
- Authority
- JP
- Japan
- Prior art keywords
- band
- low
- standard pattern
- feature vector
- vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000013598 vector Substances 0.000 claims description 56
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001568 sexual effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 28
- 238000001228 spectrum Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- LFYJSSARVMHQJB-QIXNEVBVSA-N bakuchiol Chemical compound CC(C)=CCC[C@@](C)(C=C)\C=C\C1=CC=C(O)C=C1 LFYJSSARVMHQJB-QIXNEVBVSA-N 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Description
【発明の詳細な説明】 (産業上の利用分野) 本発明は高雑音下で発生された音声を認識する音声認
識装置の改良に関する。
識装置の改良に関する。
(従来の技術) 従来、単語認識方式としては迫江、千葉、「動的計画
法を利用した音声の時間正規化に基づく連続単語認
識」、音響学会誌、27、9、pp483−500(1971),(以
下、「文献1」)に示されるようなDPマッチングを用い
た方式が知られている。この方式を第2図を用いて説明
する。
法を利用した音声の時間正規化に基づく連続単語認
識」、音響学会誌、27、9、pp483−500(1971),(以
下、「文献1」)に示されるようなDPマッチングを用い
た方式が知られている。この方式を第2図を用いて説明
する。
端子201には音声が入力されるものとする。
分析部202は入力音声を分析し、特徴ベクトルの時系
列に変換する。求められた特徴ベクトル時系列を、 A={a(1),a(2),a(3),…,a(i),…,a
(I)} と表すことにする。ここで、a(i)はiフレームの特
徴ベクトルである。特徴ベクトルを求めるための分析法
としては、例えば古井、「ディジタル音声処理」、東海
大学出版会(以下、「文献2」)に示されるような帯域
フィルタ群による分析、FFT分析、ケプストラム分析な
どがある。
列に変換する。求められた特徴ベクトル時系列を、 A={a(1),a(2),a(3),…,a(i),…,a
(I)} と表すことにする。ここで、a(i)はiフレームの特
徴ベクトルである。特徴ベクトルを求めるための分析法
としては、例えば古井、「ディジタル音声処理」、東海
大学出版会(以下、「文献2」)に示されるような帯域
フィルタ群による分析、FFT分析、ケプストラム分析な
どがある。
記憶部203にはあらかじめ登録されたM個の単語の標
準パターンが記憶されている。単語m、1≦m≦Mの標
準パターンを、 B(m)={b(m,1),b(m,2),b(m,3),…,b(m,j),…,b(m,Jm)} と表すことにする。
準パターンが記憶されている。単語m、1≦m≦Mの標
準パターンを、 B(m)={b(m,1),b(m,2),b(m,3),…,b(m,j),…,b(m,Jm)} と表すことにする。
距離計算部204は入力パターンのiフレームa(i)
と標準パターンのjフレームb(m,j)とのフレーム間
距離d(m,i,j)を全てのフレームに対して計算する。
フレーム間距離d(m,i,j)は例えば、 ユークリッド距離 d(m,i,j)=‖a(i)−b(m,j)‖ (1) を用いる。
と標準パターンのjフレームb(m,j)とのフレーム間
距離d(m,i,j)を全てのフレームに対して計算する。
フレーム間距離d(m,i,j)は例えば、 ユークリッド距離 d(m,i,j)=‖a(i)−b(m,j)‖ (1) を用いる。
マッチング部205は距離計算部204からフレーム間距離
d(m,i,j)を受け取り、以下の漸化式に従って評価関
数g(m,i,j)を最小とするように、入力パターンと標
準パターンの時間対応づけを行う。
d(m,i,j)を受け取り、以下の漸化式に従って評価関
数g(m,i,j)を最小とするように、入力パターンと標
準パターンの時間対応づけを行う。
g(m,i,j)=d(m,i,j)+min g(m,i−1,j) g(m,i−1,j−1) (2) g(m,i−1,j−2) マッチング部は全ての標準パターンB(m)に対する
距離 dist(m)=g(m,I,Jm)、1≦m≦M を計算する。
距離 dist(m)=g(m,I,Jm)、1≦m≦M を計算する。
決定部206はマッチング部205からdist(m)を受け取
り、最小値を与えるmを認識結果として端子207へ出力
する。
り、最小値を与えるmを認識結果として端子207へ出力
する。
このような方式を用いて雑音下で発生された音声を認
識する場合には、低雑音下における場合よりも認識率が
低下するという問題点があった。雑音下で発生された音
声の認識が困難であるのは、音声が付加雑音によりマス
クされるだけでなく、発声自身のスペクトルが変形する
ためである。この変形は雑音により、発声者が自分の発
声を聞き取り辛くなるために、より大きく、より明瞭に
発声しようとするために生じる。同一男性話者が静かな
環境と高雑音下において発声した母音/a/のスペクトル
の例を第3図に示す。第3図において実線は静かな環境
において発生された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
3図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなく、そのスペクトルの概
形やホルマントの位置および帯域幅も変化している。こ
のような変形は例に示した母音以外でも一般に生じる。
このように、背景雑音レベルが異なる場合の発生は、同
じ母音であってもスペクトル形状が大きく異なったもの
となるため、母音パターン間距離が大きくなり認識誤り
の原因となっている。
識する場合には、低雑音下における場合よりも認識率が
低下するという問題点があった。雑音下で発生された音
声の認識が困難であるのは、音声が付加雑音によりマス
クされるだけでなく、発声自身のスペクトルが変形する
ためである。この変形は雑音により、発声者が自分の発
声を聞き取り辛くなるために、より大きく、より明瞭に
発声しようとするために生じる。同一男性話者が静かな
環境と高雑音下において発声した母音/a/のスペクトル
の例を第3図に示す。第3図において実線は静かな環境
において発生された音声のスペクトルであり、点線は高
雑音下において発声された音声のスペクトルである。第
3図に示すように高雑音下において発声された場合は全
体のエネルギーの上昇だけでなく、そのスペクトルの概
形やホルマントの位置および帯域幅も変化している。こ
のような変形は例に示した母音以外でも一般に生じる。
このように、背景雑音レベルが異なる場合の発生は、同
じ母音であってもスペクトル形状が大きく異なったもの
となるため、母音パターン間距離が大きくなり認識誤り
の原因となっている。
雑音下の音声を認識する方法はいくつか考えられる。
例えば、雑音下音声を認識する場合、認識時と登録時の
環境が近いほど認識率はよいことがC.H.Lee、K.Ganesan
によって“Speech Recognition Under Additive Nois
e″,ICASSP1984,35,7,(1984.3)(以下、「文献
3」)、に示されている。そこで、あらかじめ多数の環
境下で発声した標準パターンを登録する方法(以下、
「方法1」)が考えられる。
例えば、雑音下音声を認識する場合、認識時と登録時の
環境が近いほど認識率はよいことがC.H.Lee、K.Ganesan
によって“Speech Recognition Under Additive Nois
e″,ICASSP1984,35,7,(1984.3)(以下、「文献
3」)、に示されている。そこで、あらかじめ多数の環
境下で発声した標準パターンを登録する方法(以下、
「方法1」)が考えられる。
また、梅崎、板倉、「重みつきFFTケプストラム係数
と平滑化群遅延スペクトル係数による距離尺度の比較と
評価」、日本音響学会講演論文集1−5−11、昭和62年
10月(以下、「文献4」)に、重みつきケプストラム距
離を距離尺度とする方法(以下、「方法2」)が雑音下
音声の認識に有効であることが報告されている。
と平滑化群遅延スペクトル係数による距離尺度の比較と
評価」、日本音響学会講演論文集1−5−11、昭和62年
10月(以下、「文献4」)に、重みつきケプストラム距
離を距離尺度とする方法(以下、「方法2」)が雑音下
音声の認識に有効であることが報告されている。
また、第3図によれば2.5kHz以上の周波数領域でのス
ペクトルの変形は大きいが、それ以下の周波数領域での
スペクトルでの変形は少ないことがわかる。この傾向は
他の母音に関しても同様である。そこで、2.5kHz以下の
低域のスペクトルの特徴のみを用いて音声認識を行う方
法(「方法3」)も考えられよう。
ペクトルの変形は大きいが、それ以下の周波数領域での
スペクトルでの変形は少ないことがわかる。この傾向は
他の母音に関しても同様である。そこで、2.5kHz以下の
低域のスペクトルの特徴のみを用いて音声認識を行う方
法(「方法3」)も考えられよう。
(発明が解決しようとする問題点) 雑音下で発声した音声のスペクトル変動に「方法1」
で対処する場合には、登録時の手間や記憶量、処理量が
膨大になるという問題点がある。また、方法2の重みつ
きケプストラム距離はホルマントピークへの比重が高い
距離尺度であって、加法性の白色雑音等に対しては効果
がある。しかし、この方法はホルマントの位置、帯域幅
の変動の影響を受け易いため、上記のようなスペクトル
変動には対処できない。また、方法3の低域の情報のみ
を用いて認識を行う場合は、高域に特徴を持つ摩擦音や
破裂音等の子音を識別することは困難であり、認識率は
かえって低下するおそれがある。
で対処する場合には、登録時の手間や記憶量、処理量が
膨大になるという問題点がある。また、方法2の重みつ
きケプストラム距離はホルマントピークへの比重が高い
距離尺度であって、加法性の白色雑音等に対しては効果
がある。しかし、この方法はホルマントの位置、帯域幅
の変動の影響を受け易いため、上記のようなスペクトル
変動には対処できない。また、方法3の低域の情報のみ
を用いて認識を行う場合は、高域に特徴を持つ摩擦音や
破裂音等の子音を識別することは困難であり、認識率は
かえって低下するおそれがある。
本発明は、登録時の手間や記憶量、処理量を増大させ
ることなく、高雑音下における発声を高精度で認識する
音声認識装置を提供するものである。
ることなく、高雑音下における発声を高精度で認識する
音声認識装置を提供するものである。
(発明の構成) 本発明は、入力された音声の全帯域の情報を表す全帯
域特徴ベクトルを求める全帯域分析部と、入力された音
声の低域の情報を表す低域特徴ベクトルを求める低域分
析部と、あらかじめ用意された標準パターンの全帯域特
徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
らかじめ用意された標準パターンの低域特徴ベクトルを
記憶する低域標準パターン記憶部と、あらかじめ用意さ
れた重み係数を記憶する係数記憶部と、前記入力音声の
全帯域特徴ベクトルと前記標準パターンの全帯域特徴ベ
クトルとの間の全帯域距離を求める全帯域距離計算部
と、前記入力音声の低域特徴ベクトルと前記標準パター
ンの低域特徴ベクトルとの間の低域距離を求める低域距
離計算部と、前記重み係数により前記全帯域距離と前記
低域距離に重み付けを行い入力パターンと標準パターン
のフレーム間距離を求める距離計算部と、前記フレーム
間距離を用いて入力音声と標準パターンとの間のパター
ン間距離を求め、入力された音声の認識を行う認識部
と、から構成されることを特徴とする。あるいは、前記
係数記憶部に変えて、入力音声から前記重み係数を計算
する係数計算部と、をから構成されることを特徴とす
る。
域特徴ベクトルを求める全帯域分析部と、入力された音
声の低域の情報を表す低域特徴ベクトルを求める低域分
析部と、あらかじめ用意された標準パターンの全帯域特
徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
らかじめ用意された標準パターンの低域特徴ベクトルを
記憶する低域標準パターン記憶部と、あらかじめ用意さ
れた重み係数を記憶する係数記憶部と、前記入力音声の
全帯域特徴ベクトルと前記標準パターンの全帯域特徴ベ
クトルとの間の全帯域距離を求める全帯域距離計算部
と、前記入力音声の低域特徴ベクトルと前記標準パター
ンの低域特徴ベクトルとの間の低域距離を求める低域距
離計算部と、前記重み係数により前記全帯域距離と前記
低域距離に重み付けを行い入力パターンと標準パターン
のフレーム間距離を求める距離計算部と、前記フレーム
間距離を用いて入力音声と標準パターンとの間のパター
ン間距離を求め、入力された音声の認識を行う認識部
と、から構成されることを特徴とする。あるいは、前記
係数記憶部に変えて、入力音声から前記重み係数を計算
する係数計算部と、をから構成されることを特徴とす
る。
またあるいは、前記係数記憶部に変えて、入力音声か
ら母音らしさを表す母音性特徴量を求める母音性抽出部
と、あらかじめ用意された標準パターンの母音性特徴量
を記憶する母音性特徴量記憶部と、前記入力音声の母音
性特徴量と前記標準パターンの母音性特徴量から前記重
み係数を計算する係数計算部、から構成されることを特
徴とする。
ら母音らしさを表す母音性特徴量を求める母音性抽出部
と、あらかじめ用意された標準パターンの母音性特徴量
を記憶する母音性特徴量記憶部と、前記入力音声の母音
性特徴量と前記標準パターンの母音性特徴量から前記重
み係数を計算する係数計算部、から構成されることを特
徴とする。
(作用) 本発明は音声の母音らしい部分ではスペクトル変動の
少ない低域の情報を用い、そうでない部分では全帯域の
情報を用いて識別を行うことにより、高精度の音声認識
装置を実現するものである。以下に本発明の作用を説明
する。
少ない低域の情報を用い、そうでない部分では全帯域の
情報を用いて識別を行うことにより、高精度の音声認識
装置を実現するものである。以下に本発明の作用を説明
する。
入力音声の全帯域の情報は全帯域特徴ベクトル時系列
Aall、 Aall={aall(1),aall(2),…,aall(i),…aall(I)} と表せる。全帯域特徴ベクトルとしては文献2に示され
ているフィルタバンクによる分析やFFT分析、ケプスト
ラム分析等を利用し求めることが出来る。
Aall、 Aall={aall(1),aall(2),…,aall(i),…aall(I)} と表せる。全帯域特徴ベクトルとしては文献2に示され
ているフィルタバンクによる分析やFFT分析、ケプスト
ラム分析等を利用し求めることが出来る。
また、低域の情報は低域特徴ベクトル時系列Alow、 Alow={alow(1),alow(2),…,alow(i),…,alow(I)} と表せる。低域特徴ベクトルは、例えば、第1、第2ホ
ルマントを含むような2.5kHz以下の帯域を用いて分析す
ることにより求めることができる。
ルマントを含むような2.5kHz以下の帯域を用いて分析す
ることにより求めることができる。
単語mの標準パターンの全帯域特徴ベクトル時系列を
Ball(m)、 Ball(m)={ball(m,1),ball(m,2),…,ball(m,j),…,ball(m,Jm)} 低域特徴ベクトル時系列をBlow(m) Blow(m)={blow(m,1),blow(m,2),…,blow(m,j),…,blow(m,Jm)} あらかじめ用意された重み付け係数をW(m) W(m)={w(m,1),w(m,2),…w(m,j),…w(m,Jm)} とする。w(m,j)は単語mの標準パターンの第jフレ
ームが母音らしい場合には1に近い値を、そうでない場
合には0に近い値を取るように定められているものとす
る。
Ball(m)、 Ball(m)={ball(m,1),ball(m,2),…,ball(m,j),…,ball(m,Jm)} 低域特徴ベクトル時系列をBlow(m) Blow(m)={blow(m,1),blow(m,2),…,blow(m,j),…,blow(m,Jm)} あらかじめ用意された重み付け係数をW(m) W(m)={w(m,1),w(m,2),…w(m,j),…w(m,Jm)} とする。w(m,j)は単語mの標準パターンの第jフレ
ームが母音らしい場合には1に近い値を、そうでない場
合には0に近い値を取るように定められているものとす
る。
次に入力パターンのiフレームと単語mの標準パター
ンのjフレームとの全帯域距離dall(m,i,j)、低域特
徴ベクトル間距離dlow(m,i,j)を求める。dall(m,i,
j)、dlow(m,i,j)としては、例えば(1)式に示すユ
ークリッド距離を利用して求めることができる。
ンのjフレームとの全帯域距離dall(m,i,j)、低域特
徴ベクトル間距離dlow(m,i,j)を求める。dall(m,i,
j)、dlow(m,i,j)としては、例えば(1)式に示すユ
ークリッド距離を利用して求めることができる。
フレーム間距離d(m,i,j)はw(m,j)によりd
all(m,i,j)、dlow(m,i,j)に重み付けを行って求め
られる。例えば、 d(m,i,j)=(1−w(m,j))×dall(m,i,j)+w(m,j)×dlow(m,i,j) (3) の様に求められる。
all(m,i,j)、dlow(m,i,j)に重み付けを行って求め
られる。例えば、 d(m,i,j)=(1−w(m,j))×dall(m,i,j)+w(m,j)×dlow(m,i,j) (3) の様に求められる。
このように求められるフレーム間距離を用いて、例え
ば文献1に示されているようなDPマッチングを行うこと
により入力音声を認識する。認識方法としてはこのDPマ
ッチング以外にも、ベクトル間距離に基づく認識方法と
して、線形マッチング等を用いることもできる。
ば文献1に示されているようなDPマッチングを行うこと
により入力音声を認識する。認識方法としてはこのDPマ
ッチング以外にも、ベクトル間距離に基づく認識方法と
して、線形マッチング等を用いることもできる。
上記の音声認識装置において、重み係数W(m,j)を
記憶しておく代わりに入力音声から重み係数を求めるこ
とができる。入力音声から重み係数を求める方式は、認
識時の処理量は増加するが、入力音声の母音の無声化や
消失に対処できる利点がある。
記憶しておく代わりに入力音声から重み係数を求めるこ
とができる。入力音声から重み係数を求める方式は、認
識時の処理量は増加するが、入力音声の母音の無声化や
消失に対処できる利点がある。
はじめに入力音声から音声の母音らしさを表す母音性
特徴量α α={α(1),α(2),…,α(i),…,α(I)} を求める。母音性特徴量αを求める方法としては、例え
ば第1の方法として、α(i)=第iフレームの第1ホ
ルマントを含む帯域エネルギー (4) の様に求められる。第2の方法としては、第iフレーム
の全帯域エネルギーEall(i)と低域エネルギーE
low(i)との比、 の様に求められる。
特徴量α α={α(1),α(2),…,α(i),…,α(I)} を求める。母音性特徴量αを求める方法としては、例え
ば第1の方法として、α(i)=第iフレームの第1ホ
ルマントを含む帯域エネルギー (4) の様に求められる。第2の方法としては、第iフレーム
の全帯域エネルギーEall(i)と低域エネルギーE
low(i)との比、 の様に求められる。
あるいは第3の方法として、ピッチ抽出を行い、 の様に求められる。ピッチ抽出に関しては、例えば文献
2に示されるような自己相関方法を用いることができ
る。
2に示されるような自己相関方法を用いることができ
る。
このようにして求められた母音性特徴量から重み係数
W W={w(1),w(2),…,w(i),…w(I)} を計算する。w(i)としては例えば の様に計算される。ここでαmaxはα(i)の最大値、t
hは別に定められた閾値である。フレーム間距離d(m,
i,j)はw(i)によりdall(m,i,j)、dlow(m,i,j)
に重み付けを行って求める。例えば、 d(m,i,j)=(1-w(i)×dall(m,i,j)+w(i)×dlow(m,i,j) (8) の様な式により求められる。
W W={w(1),w(2),…,w(i),…w(I)} を計算する。w(i)としては例えば の様に計算される。ここでαmaxはα(i)の最大値、t
hは別に定められた閾値である。フレーム間距離d(m,
i,j)はw(i)によりdall(m,i,j)、dlow(m,i,j)
に重み付けを行って求める。例えば、 d(m,i,j)=(1-w(i)×dall(m,i,j)+w(i)×dlow(m,i,j) (8) の様な式により求められる。
また上記の音声認識装置において、入力音声のみから
重み係数を求める代わりに、入力音声の母音性特徴量と
標準パターンの母音性特徴量から重み係数を計算する方
法が考えられる。この方式は認識時の処理量と標準パタ
ーンの記憶量は増加するが、母音の無声化や消失に対処
できる上、入力パターンと標準パターンの両方の情報を
用いるので適した重み付けが可能になる。
重み係数を求める代わりに、入力音声の母音性特徴量と
標準パターンの母音性特徴量から重み係数を計算する方
法が考えられる。この方式は認識時の処理量と標準パタ
ーンの記憶量は増加するが、母音の無声化や消失に対処
できる上、入力パターンと標準パターンの両方の情報を
用いるので適した重み付けが可能になる。
入力音声から音声の母音らしさを表す母音性特徴量を
求める方法としては上記の(4)(5)(6)式に示し
た方法を用いることができる。
求める方法としては上記の(4)(5)(6)式に示し
た方法を用いることができる。
求められた入力音声の母音性特徴量α(i)とあらか
じめ用意された単語mの標準パターンの母音性特徴量β
(m)、 β(m)={β(m,1),β(m,2),…β(m,j),…β(m,Jm),} 1≦m≦M から重み係数W(m)、 W(m)={w(m,i,J)},1≦m≦M,1≦i≦I,1≦j≦Jm を計算する。W(m,i,j)としては例えば の様に計算される。ここでαmaxはα(i)の最大値、
βmax(m)はβ(m,j),1≦j≦Jmの最大値、thは別に
定められる閾値である。ベクトル間距離d(m,i,j)はd
all(m,i,j)、dlow(m,i,j)にW(m,i,j)により重み
付けを行って求める。例えば、 d(m,i,J)= (1−w(m,i,j)×dall(m,i,j)+w(m,i,j)×dlow(m,i,j)
(10) の様に求めることができる。
じめ用意された単語mの標準パターンの母音性特徴量β
(m)、 β(m)={β(m,1),β(m,2),…β(m,j),…β(m,Jm),} 1≦m≦M から重み係数W(m)、 W(m)={w(m,i,J)},1≦m≦M,1≦i≦I,1≦j≦Jm を計算する。W(m,i,j)としては例えば の様に計算される。ここでαmaxはα(i)の最大値、
βmax(m)はβ(m,j),1≦j≦Jmの最大値、thは別に
定められる閾値である。ベクトル間距離d(m,i,j)はd
all(m,i,j)、dlow(m,i,j)にW(m,i,j)により重み
付けを行って求める。例えば、 d(m,i,J)= (1−w(m,i,j)×dall(m,i,j)+w(m,i,j)×dlow(m,i,j)
(10) の様に求めることができる。
上に述べた方法において、ケプストラム分析のよう
に、特徴ベクトルを求める際に周波数分析を行う方法を
用いる場合には、全帯域特徴ベクトルを求めた時の周波
数分析結果を低域特徴ベクトルや母音性特徴量を求める
際に利用することができる。
に、特徴ベクトルを求める際に周波数分析を行う方法を
用いる場合には、全帯域特徴ベクトルを求めた時の周波
数分析結果を低域特徴ベクトルや母音性特徴量を求める
際に利用することができる。
(実施例) 本発明による実施例について図面をもとに説明する。
第4図に示すのは本発明の一実施例を示す構成図であ
る。
る。
全帯域分析部402は端子401に入力された音声を信号線
421より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列Aallとする。
421より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列Aallとする。
低域分析部403は入力音声を信号線422より受取り、2.
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
全帯域標準パターン記憶部404にはM個の単語の全帯
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
低域標準パターン記憶部406にはM個の単語の低域特
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
係数記憶部408にはM個の単語の重み付け係数W
(m)、1≦m≦Mが蓄えられている。
(m)、1≦m≦Mが蓄えられている。
全帯域距離計算部405は信号線423から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線424から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
域特徴ベクトル時系列Aallを、信号線424から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
低域距離計算部407は信号線425から入力音声の低域特
徴ベクトル時系列Alowを、信号線426から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
徴ベクトル時系列Alowを、信号線426から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
フレーム間距離計算部409は信号線427から全帯域距離
dall(m,i,j)を、信号線428から低域距離dlow(m,i,
j)を、信号線429から重み係数α(m)を受取り、入力
パターンのiフレームと標準パターンのjフレームとの
フレーム間距離d(m,i,j)を(3)式により計算す
る。
dall(m,i,j)を、信号線428から低域距離dlow(m,i,
j)を、信号線429から重み係数α(m)を受取り、入力
パターンのiフレームと標準パターンのjフレームとの
フレーム間距離d(m,i,j)を(3)式により計算す
る。
認識部410は信号線430からフレーム間距離d(m,i,
j)を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
j)を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
また、第5図に示すのは本発明の別の実施例を示す構
成図である。
成図である。
全帯域分析部502は端子501に入力された音声を信号線
521より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列Aallとする。
521より受取り、全帯域の情報を用いてケプストラム係
数を求め、全帯域特徴ベクトル時系列Aallとする。
低域分析部503は入力音声を信号線522より受取り、2.
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
5kHz以下の情報を用いてケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
全帯域標準パターン記憶部504にはM個の単語の全帯
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
低域標準パターン記憶部506にはM個の単語の低域特
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
係数計算部508は入力音声を信号線501より受取り、
(4)式により入力音声の母音性特徴量αを求め、αか
ら(7)式により重み付け係数Wを計算する。
(4)式により入力音声の母音性特徴量αを求め、αか
ら(7)式により重み付け係数Wを計算する。
全帯域距離計算部505は信号線523から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線524から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
域特徴ベクトル時系列Aallを、信号線524から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
低域距離計算部507は信号線525から入力音声の低域特
徴ベクトル時系列Alowを、信号線526から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
徴ベクトル時系列Alowを、信号線526から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
フレーム間距離計算部509は信号線527から全帯域距離
dall(m,i,j)を、信号線528から低域距離dlow(m,i,
j)を、信号線532から重み係数Wを受取り、入力パター
ンのiフレームと標準パターンのjフレームとのフレー
ム間距離d(m,i,j)を(8)式により計算する。
dall(m,i,j)を、信号線528から低域距離dlow(m,i,
j)を、信号線532から重み係数Wを受取り、入力パター
ンのiフレームと標準パターンのjフレームとのフレー
ム間距離d(m,i,j)を(8)式により計算する。
認識部510は信号線529からフレーム間距離d(m,i,
j)を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
j)を受取り、DPマッチングを行い、認識結果を端子411
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
また、第1図に示すのは本発明の別の実施例を示す構
成図である。
成図である。
周波数分析部102は端子101に入力された音声を信号線
121より受け取り、FFT分析を行った後、対数を取ること
により対数スペクトルを求める。
121より受け取り、FFT分析を行った後、対数を取ること
により対数スペクトルを求める。
全帯域分析部103は信号線122より全帯域の対数スペク
トルを受取り、ケプストラム係数を求め、全帯域特徴ベ
クトル時系列Aallとする。
トルを受取り、ケプストラム係数を求め、全帯域特徴ベ
クトル時系列Aallとする。
低域分析部104は信号線123より2.5kHz以下の低域の対
数スペクトルを受取り、ケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
数スペクトルを受取り、ケプストラム係数を求め、低域
特徴ベクトル時系列Alowとする。
母音性抽出部105は信号線124より第1ホルマントを含
むような200〜800Hzの帯域の対数スペクトルを受取り、
エネルギーを求め(4)式により母音性特徴量αを計算
する。
むような200〜800Hzの帯域の対数スペクトルを受取り、
エネルギーを求め(4)式により母音性特徴量αを計算
する。
全帯域標準パターン記憶部106にはM個の単語の全帯
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
域特徴ベクトルBall(m)、1≦m≦Mが蓄えられてい
る。
低域標準パターン記憶部107にはM個の単語の低域特
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
徴ベクトルBlow(m)、1≦m≦Mが蓄えられている。
母音性特徴量記憶部108にはM個の単語の母音性特徴
量β(m)、1≦m≦Mが蓄えられている。
量β(m)、1≦m≦Mが蓄えられている。
全帯域距離計算部109は信号線125から入力音声の全帯
域特徴ベクトル時系列Aallを、信号線126から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
域特徴ベクトル時系列Aallを、信号線126から単語mの
全帯域特徴ベクトル時系列Ball(m)を受取り、全帯域
距離dall(m,i,j)を(1)式により計算する。
低域距離計算部110は信号線127から入力音声の低域特
徴ベクトル時系列Alowを、信号線128から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
徴ベクトル時系列Alowを、信号線128から単語mの低域
特徴ベクトル時系列Blow(m)を受取り、低域距離dlow
(m,i,j)を(1)式により計算する。
係数計算部111は信号線129から入力音声の母音性特徴
量αを、信号線130から単語mの母音性特徴量β(m)
を受け取り、重み係数W(m)を(9)式により計算す
る。
量αを、信号線130から単語mの母音性特徴量β(m)
を受け取り、重み係数W(m)を(9)式により計算す
る。
フレーム間距離計算部112は信号線131から全帯域類似
度dall(m,i,j)を,信号線132から低域距離dlow(m,i,
j)を、信号線133から重み係数W(m)を受取り、入力
パターンのiフレームと標準パターンのjフレームとの
フレーム間距離d(m,i,j)を(10)式により計算す
る。
度dall(m,i,j)を,信号線132から低域距離dlow(m,i,
j)を、信号線133から重み係数W(m)を受取り、入力
パターンのiフレームと標準パターンのjフレームとの
フレーム間距離d(m,i,j)を(10)式により計算す
る。
認識部113は信号線134からフレーム間距離d(m,i,
j)を受取り、DPマッチングを行い、認識結果を端子114
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
j)を受取り、DPマッチングを行い、認識結果を端子114
に出力する。DPマッチングによる認識方法については文
献1に述べられている。
(発明の効果) 以上のように本発明によれば、高雑音下で発声した音
声を高精度に認識することのできる音声認識装置を実現
できる。
声を高精度に認識することのできる音声認識装置を実現
できる。
第1図、第4図、第5図は本発明の一実施例である。第
2図、第3図は従来法の説明図である。図において、10
1は入力端子、102は周波数分析部、103は全帯域分析
部、104は低域分析部、105は母音性抽出部、106は全帯
域標準パターン記憶部、107は低域標準パターン記憶
部、108は母音性特徴量記憶部、109は全帯域距離計算
部、110は低域距離計算部、111は係数計算部、112はフ
レーム間距離計算部、113は認識部、114は出力端子、20
1は入力端子、202は分析部、203は記憶部、204は距離計
算部、205はマッチング部、206は決定部、207は出力端
子、401は入力端子、402は全帯域分析部、403は低域分
析部、404は全帯域標準パターン記憶部、405は全帯域距
離計算部、406は低域標準パターン記憶部、407は低域距
離計算部、408は係数記憶部、409はフレーム間距離計算
部、410は認識部、411は出力端子、501は入力端子、502
は全帯域分析部、503は低域分析部、504は全帯域標準パ
ターン記憶部、505は全帯域距離計算部、506は低域標準
パターン記憶部、507は低域距離計算部、508は係数計算
部、509はフレーム間距離計算部、510は認識部、511は
出力端子、である。
2図、第3図は従来法の説明図である。図において、10
1は入力端子、102は周波数分析部、103は全帯域分析
部、104は低域分析部、105は母音性抽出部、106は全帯
域標準パターン記憶部、107は低域標準パターン記憶
部、108は母音性特徴量記憶部、109は全帯域距離計算
部、110は低域距離計算部、111は係数計算部、112はフ
レーム間距離計算部、113は認識部、114は出力端子、20
1は入力端子、202は分析部、203は記憶部、204は距離計
算部、205はマッチング部、206は決定部、207は出力端
子、401は入力端子、402は全帯域分析部、403は低域分
析部、404は全帯域標準パターン記憶部、405は全帯域距
離計算部、406は低域標準パターン記憶部、407は低域距
離計算部、408は係数記憶部、409はフレーム間距離計算
部、410は認識部、411は出力端子、501は入力端子、502
は全帯域分析部、503は低域分析部、504は全帯域標準パ
ターン記憶部、505は全帯域距離計算部、506は低域標準
パターン記憶部、507は低域距離計算部、508は係数計算
部、509はフレーム間距離計算部、510は認識部、511は
出力端子、である。
Claims (3)
- 【請求項1】入力された音声の全帯域の情報を表す全帯
域特徴ベクトルを求める全帯域分析部と、入力された音
声の低域の情報を表す低域特徴ベクトルを求める低域分
析部と、あらかじめ用意された標準パターンの全帯域特
徴ベクトルを記憶する全帯域標準パターン記憶部と、あ
らかじめ用意された標準パターンの低域特徴ベクトルを
記憶する低域標準パターン記憶部と、前記標準パターン
に対応させてあらかじめ用意された重み係数を記憶する
係数記憶部と、前記入力音声の全帯域特徴ベクトルと前
記標準パターンの全帯域特徴ベクトルとの間の全帯域距
離を求める全帯域距離計算部と、前記入力音声の低域特
徴ベクトルと前記標準パターンの低域特徴ベクトルとの
間の低域距離を求める低域距離計算部と、前記全帯域距
離と前記低域距離に、前記重み係数により重み付けを行
って入力パターンと標準パターンのフレーム間距離を求
める距離計算部と、前記フレーム間距離を用いて入力さ
れた音声の認識を行う認識部と、から構成されることを
特徴とする音声認識装置。 - 【請求項2】請求項1記載の音声認識装置において、前
記係数記憶部に変えて、入力音声から前記重み係数を計
算する係数計算部を備えたことを特徴とする音声認識装
置。 - 【請求項3】請求項1記載の音声認識装置において、前
記係数記憶部に変えて、入力音声から母音らしさを表す
母音性特徴量を求める母音性抽出部と、あらかじめ用意
された標準パターンの母音性特徴量を記憶する母音性特
徴量記憶部と、前記入力音声の母音性特徴量と前記標準
パターンの母音性特徴量から前記重み係数を計算する係
数計算部と、を備えたことを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63127825A JP2745535B2 (ja) | 1988-05-24 | 1988-05-24 | 音声認識装置 |
US07/356,049 US4937871A (en) | 1988-05-24 | 1989-05-24 | Speech recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63127825A JP2745535B2 (ja) | 1988-05-24 | 1988-05-24 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01296299A JPH01296299A (ja) | 1989-11-29 |
JP2745535B2 true JP2745535B2 (ja) | 1998-04-28 |
Family
ID=14969602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63127825A Expired - Lifetime JP2745535B2 (ja) | 1988-05-24 | 1988-05-24 | 音声認識装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US4937871A (ja) |
JP (1) | JP2745535B2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2019628B3 (es) * | 1986-02-15 | 1991-07-01 | Smiths Ind Public Ltd Company | Procesador de textos hablados y metodo.. |
US5794194A (en) * | 1989-11-28 | 1998-08-11 | Kabushiki Kaisha Toshiba | Word spotting in a variable noise level environment |
US5548681A (en) * | 1991-08-13 | 1996-08-20 | Kabushiki Kaisha Toshiba | Speech dialogue system for realizing improved communication between user and system |
JPH05249990A (ja) * | 1992-03-04 | 1993-09-28 | Sony Corp | パターンマッチング方法およびパターン認識装置 |
US5745873A (en) * | 1992-05-01 | 1998-04-28 | Massachusetts Institute Of Technology | Speech recognition using final decision based on tentative decisions |
US5825977A (en) * | 1995-09-08 | 1998-10-20 | Morin; Philippe R. | Word hypothesizer based on reliably detected phoneme similarity regions |
US5822728A (en) * | 1995-09-08 | 1998-10-13 | Matsushita Electric Industrial Co., Ltd. | Multistage word recognizer based on reliably detected phoneme similarity regions |
US5684925A (en) * | 1995-09-08 | 1997-11-04 | Matsushita Electric Industrial Co., Ltd. | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity |
US5832440A (en) * | 1996-06-10 | 1998-11-03 | Dace Technology | Trolling motor with remote-control system having both voice--command and manual modes |
US5825898A (en) * | 1996-06-27 | 1998-10-20 | Lamar Signal Processing Ltd. | System and method for adaptive interference cancelling |
US6178248B1 (en) | 1997-04-14 | 2001-01-23 | Andrea Electronics Corporation | Dual-processing interference cancelling system and method |
US7630895B2 (en) * | 2000-01-21 | 2009-12-08 | At&T Intellectual Property I, L.P. | Speaker verification method |
US6076055A (en) * | 1997-05-27 | 2000-06-13 | Ameritech | Speaker verification method |
US6363345B1 (en) | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
SE521465C2 (sv) * | 1999-06-07 | 2003-11-04 | Ericsson Telefon Ab L M | Mobiltelefon med taligenkänningssystem innehållande en beräkningsenhet för spektralavstånd. |
US6594367B1 (en) | 1999-10-25 | 2003-07-15 | Andrea Electronics Corporation | Super directional beamforming design and implementation |
JP2006337667A (ja) * | 2005-06-01 | 2006-12-14 | Ntt Communications Kk | 発音評価方法、音素列モデル学習方法、これらの方法を用いた装置、プログラム、および記録媒体。 |
GB2552723A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
GB2552722A (en) | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58130396A (ja) * | 1982-01-29 | 1983-08-03 | 株式会社東芝 | 音声認識装置 |
JPS5972496A (ja) * | 1982-10-19 | 1984-04-24 | 株式会社東芝 | 単音識別装置 |
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
US4783807A (en) * | 1984-08-27 | 1988-11-08 | John Marley | System and method for sound recognition with feature selection synchronized to voice pitch |
-
1988
- 1988-05-24 JP JP63127825A patent/JP2745535B2/ja not_active Expired - Lifetime
-
1989
- 1989-05-24 US US07/356,049 patent/US4937871A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH01296299A (ja) | 1989-11-29 |
US4937871A (en) | 1990-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2745535B2 (ja) | 音声認識装置 | |
US7756700B2 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
EP0625774B1 (en) | A method and an apparatus for speech detection | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US5459815A (en) | Speech recognition method using time-frequency masking mechanism | |
CA2020242C (en) | Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns | |
Hunt | Spectral signal processing for ASR | |
JP2000507714A (ja) | 言語処理 | |
Seman et al. | An evaluation of endpoint detection measures for malay speech recognition of an isolated words | |
Zolnay et al. | Extraction methods of voicing feature for robust speech recognition. | |
JP2797861B2 (ja) | 音声検出方法および音声検出装置 | |
Dumpala et al. | Robust Vowel Landmark Detection Using Epoch-Based Features. | |
JPH0449952B2 (ja) | ||
Ouzounov | Cepstral features and text-dependent speaker identification–A comparative study | |
Deng et al. | Speech Recognition | |
JP2879989B2 (ja) | 音声認識方法 | |
Jing et al. | Auditory-modeling inspired methods of feature extraction for robust automatic speech recognition | |
TWI395200B (zh) | 一種不用樣本能辨認所有語言的辨認方法 | |
Seyedin et al. | A new subband-weighted MVDR-based front-end for robust speech recognition | |
WO1991011696A1 (en) | Method and apparatus for recognizing command words in noisy environments | |
JPH07271392A (ja) | 話者認識用類似度正規化方法及びこの方法を用いた話者認識装置 | |
De Mori et al. | Augmenting standard speech recognition features with energy gravity centres | |
JP2658426B2 (ja) | 音声認識方法 | |
Mut et al. | Improved Weighted Matching for Speaker Recognition. | |
JPH09160585A (ja) | 音声認識装置および音声認識方法 |