JPH0237399A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JPH0237399A JPH0237399A JP63185537A JP18553788A JPH0237399A JP H0237399 A JPH0237399 A JP H0237399A JP 63185537 A JP63185537 A JP 63185537A JP 18553788 A JP18553788 A JP 18553788A JP H0237399 A JPH0237399 A JP H0237399A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- distance
- standard
- input
- standard pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000001514 detection method Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000010606 normalization Methods 0.000 description 6
- 238000000034 method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
目 次
概 要 ・ ・ ・ ・ ・ ・ ・ ・ ・
・ ・ ・ 2頁産業上の利用分野 ・・・・・・・
・ 3頁従来の技術 ・・・・・・・・・・・ 5頁発
明が解決しようとする課題 ・・・ 8頁課題を解決“
するための手段 ・・・・ 9頁作 用 ・ ・
・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 10真実
施 例 ・ ・ ・ ・ ・ ・ ・ ・
・ ・ 13頁発明の効果 ・・・・・・・・・ ・2
0頁概要 入力された音声信号による入力パターンと予め登録され
た複数の標準パターンとの距離を求め、その入力パター
ンに対して最も距離が小さい標準パターンを認識結果と
して出力する音声認識装置に関し、 音声のゆらぎ等による誤認識を減少させることを目的と
し、 入力された音声信号から特徴パラメータを抽出し、その
特徴パラメータにより構成された入力パターンと予め登
録された複数の標準パターンとの距離を距離計算手段に
より求め、その複数の標準パターンに対してそれぞれ求
めた距離の内、最も小さい距離に対応する標準パターン
を、入力パターンと同等であると認識する音声認識装置
において、標準パターンのそれぞれの特徴パラメータに
対応させた重みデータを設け、距離計算手段により、入
力パターンの特徴パラメータと標準パターンの特徴パラ
メータの差に対して、又は入力パターンの特徴パラメー
タと標準パターンの特徴パラメータに対して重みデータ
を乗じて、入力パターンと標準パターンの距離を求める
ように構成する。
・ ・ ・ 2頁産業上の利用分野 ・・・・・・・
・ 3頁従来の技術 ・・・・・・・・・・・ 5頁発
明が解決しようとする課題 ・・・ 8頁課題を解決“
するための手段 ・・・・ 9頁作 用 ・ ・
・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 10真実
施 例 ・ ・ ・ ・ ・ ・ ・ ・
・ ・ 13頁発明の効果 ・・・・・・・・・ ・2
0頁概要 入力された音声信号による入力パターンと予め登録され
た複数の標準パターンとの距離を求め、その入力パター
ンに対して最も距離が小さい標準パターンを認識結果と
して出力する音声認識装置に関し、 音声のゆらぎ等による誤認識を減少させることを目的と
し、 入力された音声信号から特徴パラメータを抽出し、その
特徴パラメータにより構成された入力パターンと予め登
録された複数の標準パターンとの距離を距離計算手段に
より求め、その複数の標準パターンに対してそれぞれ求
めた距離の内、最も小さい距離に対応する標準パターン
を、入力パターンと同等であると認識する音声認識装置
において、標準パターンのそれぞれの特徴パラメータに
対応させた重みデータを設け、距離計算手段により、入
力パターンの特徴パラメータと標準パターンの特徴パラ
メータの差に対して、又は入力パターンの特徴パラメー
タと標準パターンの特徴パラメータに対して重みデータ
を乗じて、入力パターンと標準パターンの距離を求める
ように構成する。
産業上の利用分野
本発明は入力された音声信号による入力パターンと予め
登録された複数の標準パターンとの距離を求め、その入
力パターンに対して最も距離が小さい標準パターンを認
識結果として出力する音声認識装置に関する。
登録された複数の標準パターンとの距離を求め、その入
力パターンに対して最も距離が小さい標準パターンを認
識結果として出力する音声認識装置に関する。
近年の音声認識においては、音声S2識処理技術が確立
し、その実用性が色々な面で確かめられた結果、音声認
識処理に必要な回路がLSI化されてきている。このよ
うなLSIを用いた多種多様の音声認識装置が開発され
てきている中で、人間の声を入力とするマンマシンイン
タフェース(MMI)に用いる装置の開発が特に活発に
行われており、例えば、電話機での電話番号入力、プロ
グラム作成時のコマンド入力等がある。また、音声は、
発声時のゆらぎ等により変動するため、音声認識装置へ
の音声の入力は、常に一定した値ではない。
し、その実用性が色々な面で確かめられた結果、音声認
識処理に必要な回路がLSI化されてきている。このよ
うなLSIを用いた多種多様の音声認識装置が開発され
てきている中で、人間の声を入力とするマンマシンイン
タフェース(MMI)に用いる装置の開発が特に活発に
行われており、例えば、電話機での電話番号入力、プロ
グラム作成時のコマンド入力等がある。また、音声は、
発声時のゆらぎ等により変動するため、音声認識装置へ
の音声の入力は、常に一定した値ではない。
よって、−111Q的な音声認識処理手順としては、入
力音声から特徴量を抽出し、その特徴量によるパターン
と予め登録された複数の標準となるパターンとを比較し
て、入力音声によるパターンに対して最も似ている標準
のパターンを認識結果として出力している。このときの
「似ている」という類似の度合いを距離と称している。
力音声から特徴量を抽出し、その特徴量によるパターン
と予め登録された複数の標準となるパターンとを比較し
て、入力音声によるパターンに対して最も似ている標準
のパターンを認識結果として出力している。このときの
「似ている」という類似の度合いを距離と称している。
このようなパターン比較による音声認識装置において、
誤認識しないように信頼性を向上させることが要望され
ている。
誤認識しないように信頼性を向上させることが要望され
ている。
従来の技術
第5図は従来の音声認識装置のブロック図、第6図は従
来の距離計算部での距離計算説明図を示している。
来の距離計算部での距離計算説明図を示している。
特徴抽出部41での入力音声の特徴抽出は、複数のバン
ドパスフィルタ(BPF)により構成されたフィルタバ
ンクや線形予測係数(LPC)分析等により行われる。
ドパスフィルタ(BPF)により構成されたフィルタバ
ンクや線形予測係数(LPC)分析等により行われる。
音声区間検出部42では、音声のパワーから音声の始端
、終端が検出され、その始端から終端までの時間内に特
徴抽出部41より出力された特徴パラメータ10が格納
される。
、終端が検出され、その始端から終端までの時間内に特
徴抽出部41より出力された特徴パラメータ10が格納
される。
特徴抽出部41において、フィルタバンクを用いた場合
の特徴パラメータ10は、周波数成分となる。始端から
終端までの時間の長さは、入力する時の音声によりそれ
ぞれ異なるため、正規化部27により、その時間の長さ
が、予め定められた時間に正規化される。この正規化さ
れた特徴パラメータ10によるパターンが、入力パター
ン11となる。辞書用メモリ30には、予め入力された
音声による複数の標準パターン12が登録されている。
の特徴パラメータ10は、周波数成分となる。始端から
終端までの時間の長さは、入力する時の音声によりそれ
ぞれ異なるため、正規化部27により、その時間の長さ
が、予め定められた時間に正規化される。この正規化さ
れた特徴パラメータ10によるパターンが、入力パター
ン11となる。辞書用メモリ30には、予め入力された
音声による複数の標準パターン12が登録されている。
また、標準パターン12を作成するときは、入力パター
ン11が辞書用メモ’J30へ登録される。
ン11が辞書用メモ’J30へ登録される。
一方、音声認識時においては、入力パターン11は、距
離計算部39へ送出されて、辞書用メモリ30内の標準
パターン12とのパターン比較が行われる。
離計算部39へ送出されて、辞書用メモリ30内の標準
パターン12とのパターン比較が行われる。
距離計算部39での計算手順を第6図を用いて説明する
。
。
先ず、入力パターン11の特徴パラメータ10と、それ
に対応する標準パターン12の特徴パラメータ14の差
ε1kThを求める。入力パターン11のn番目の特徴
パラメータ10をPt、Sl数の標準パターン12の内
のkという標準パターン12におけるn番目の特徴パラ
メータ14をPkr+とすると、 εlkh = PlhPkn となる。また、入力パターン11とに番目の標準パター
ン12の距11 D i kは、それらのパターンの全
ての特徴パラメータ10.14についての差εlkn
の合計であるため、入力パターン11とに番目の標準パ
ターン12を構成している特徴パラメータ10.14の
数をNとすると、 となる。このような計算を1〜に番目までの標準パター
ン12全てについて行う。
に対応する標準パターン12の特徴パラメータ14の差
ε1kThを求める。入力パターン11のn番目の特徴
パラメータ10をPt、Sl数の標準パターン12の内
のkという標準パターン12におけるn番目の特徴パラ
メータ14をPkr+とすると、 εlkh = PlhPkn となる。また、入力パターン11とに番目の標準パター
ン12の距11 D i kは、それらのパターンの全
ての特徴パラメータ10.14についての差εlkn
の合計であるため、入力パターン11とに番目の標準パ
ターン12を構成している特徴パラメータ10.14の
数をNとすると、 となる。このような計算を1〜に番目までの標準パター
ン12全てについて行う。
距離計算部39において求めた入力パターン11と標準
パターン12の距離は、スコア計算部40に送られ、そ
のスコア計算部40において、最も距離の小さい標準パ
ターン12が判別される。
パターン12の距離は、スコア計算部40に送られ、そ
のスコア計算部40において、最も距離の小さい標準パ
ターン12が判別される。
そして、単語音声IJの場合は、その判別された標準パ
ターンに対応する単工吾番号が認識結果として出力され
る。
ターンに対応する単工吾番号が認識結果として出力され
る。
発明が解決しようとする課題
しかし、上述したような従来の音声認識装置では、入力
パターンと標準パターンの各特徴パラメータの差に対し
て、見掛は上、重み1を乗じた距離計算となっており、
全ての特徴パラメータの差に対して、等しい重み付けが
なされた状態となっている。このような等しい重み付け
において、例えば、数字H1tj14を行う場合、「い
ち(1)」の音声を入力して、「いち(1)」と「はち
(8)」の標準パターンと比較すると、「ち」の発音部
分は、殆ど同じであり、「いち」の「い」の部分と「は
ち」の「は」の部分が異なるのみであり、それぞれの距
離の値にあまり差が出ないことになる。
パターンと標準パターンの各特徴パラメータの差に対し
て、見掛は上、重み1を乗じた距離計算となっており、
全ての特徴パラメータの差に対して、等しい重み付けが
なされた状態となっている。このような等しい重み付け
において、例えば、数字H1tj14を行う場合、「い
ち(1)」の音声を入力して、「いち(1)」と「はち
(8)」の標準パターンと比較すると、「ち」の発音部
分は、殆ど同じであり、「いち」の「い」の部分と「は
ち」の「は」の部分が異なるのみであり、それぞれの距
離の値にあまり差が出ないことになる。
よって、音声のゆらぎ等の発生により、全体の特徴パラ
メータが微妙に変化した場合には、正しい判別が困難に
なるという問題があった。
メータが微妙に変化した場合には、正しい判別が困難に
なるという問題があった。
本発明はこのような点に鑑みてなされたものであり、そ
の目的とするところは、音声のゆらぎ等による誤認識を
減少させる音声認識装置を提供することである。
の目的とするところは、音声のゆらぎ等による誤認識を
減少させる音声認識装置を提供することである。
課題を解決するための手段
第1図は本発明の原理ブロック図である。
入力された音声信号から特徴パラメータ10を抽出し、
その特徴パラメータ10により構成された入力パターン
11と予め登録された複数の標準パターン12との距離
を距離計算手段13により求め、その複数の標準パター
ン12に対してそれぞれ求めた距離の内、最も小さい距
離に対応する標準パターン12を、入力パターン11と
同等であると認識する音声認識装置において、標準パタ
ーン12のそれぞれの特徴パラメータ14に対応させた
重みデータ15を設ける。
その特徴パラメータ10により構成された入力パターン
11と予め登録された複数の標準パターン12との距離
を距離計算手段13により求め、その複数の標準パター
ン12に対してそれぞれ求めた距離の内、最も小さい距
離に対応する標準パターン12を、入力パターン11と
同等であると認識する音声認識装置において、標準パタ
ーン12のそれぞれの特徴パラメータ14に対応させた
重みデータ15を設ける。
そして、距離計算手段13により、入力パターン11の
特徴パラメータ10と標準パターン12の特徴パラメー
タ14の差に対して、又は人カフXIターン11の特徴
パラメータ10と標準パターン12の特徴パラメータ1
4に対して重みデータ15を乗じて、入力パターン11
と標準パターン12の距離を求める。
特徴パラメータ10と標準パターン12の特徴パラメー
タ14の差に対して、又は人カフXIターン11の特徴
パラメータ10と標準パターン12の特徴パラメータ1
4に対して重みデータ15を乗じて、入力パターン11
と標準パターン12の距離を求める。
作 用
本発明によれば、入力パターン11の特徴パラメータ1
0と標準パターン12の特徴パラメータ14との差に重
みデータ15を乗じて、距離を求めている。
0と標準パターン12の特徴パラメータ14との差に重
みデータ15を乗じて、距離を求めている。
第2図は入力パターンと標準パターンの特徴パラメータ
の差に対して重みを乗じた場合の距離計算部での距離計
算説明図を示している。
の差に対して重みを乗じた場合の距離計算部での距離計
算説明図を示している。
入力パターン11の特徴パラメータ10(Pi、、)と
標準パターン12の特徴パラメータ14(Pkfi)の
差をεlkn とすると、ε+mh=Pすれ−Pk、
。
標準パターン12の特徴パラメータ14(Pkfi)の
差をεlkn とすると、ε+mh=Pすれ−Pk、
。
となる。このεlknの値の絶対値に重みデータ15
(’VVk、、)を乗じて得られた値をd lkn と
すると、dlkl、=Wい・ εlkl。
(’VVk、、)を乗じて得られた値をd lkn と
すると、dlkl、=Wい・ εlkl。
となる。そして、特徴パラメータPLnsPkhの個数
をNとすると、入力パターン11と標準パターン12の
距離Dlkは、 となる。
をNとすると、入力パターン11と標準パターン12の
距離Dlkは、 となる。
ここで、複数の標準パターン12の内のkという標準パ
ターン12において、入力パターン11とのパターン比
較を行う際に、n′番目の特徴パラメータ14 (P
k、、’ )が非常に重要であるとすると、標準パター
ン12のn′番目の特徴パラメータp、、/ に対する
重みデータ15 (Wk、、’ )を、0<Wkh′
<1 と設定する。重みデータWk、、′が0に近づく程、n
′番目の特徴パラメータPk、、′が、他の特徴パラメ
ータPkhに比べて重要であることを意味する。
ターン12において、入力パターン11とのパターン比
較を行う際に、n′番目の特徴パラメータ14 (P
k、、’ )が非常に重要であるとすると、標準パター
ン12のn′番目の特徴パラメータp、、/ に対する
重みデータ15 (Wk、、’ )を、0<Wkh′
<1 と設定する。重みデータWk、、′が0に近づく程、n
′番目の特徴パラメータPk、、′が、他の特徴パラメ
ータPkhに比べて重要であることを意味する。
そして、重みデータwkfi == 1 (n f−
n )と設定し、且つ標準パターン12の特徴パラメー
タ14に対する重みデータ15を全て1と設定したとき
の入力パターン11と標準パターン12の距離をDlk
とすると、本発明による入力パターン11とに番目の標
準パターン12との距離D’lkは、+wkfi
P in P kr+= Dlk (I W
kn’ ) ・ ε1に、。
n )と設定し、且つ標準パターン12の特徴パラメー
タ14に対する重みデータ15を全て1と設定したとき
の入力パターン11と標準パターン12の距離をDlk
とすると、本発明による入力パターン11とに番目の標
準パターン12との距離D’lkは、+wkfi
P in P kr+= Dlk (I W
kn’ ) ・ ε1に、。
となる。よって、本発明による距離D’lkは、均等重
み付けによる距離Dlkに対して、D′□<Di++ となり、距離がより小さくなるため、認識率が向上する
。
み付けによる距離Dlkに対して、D′□<Di++ となり、距離がより小さくなるため、認識率が向上する
。
標準パターン12のn′番目の特徴パラメータ14(P
*□′)が重要でない場合には、その特徴パラメータP
、′に対する重みデータWk、、′を、1<wkg′ となるように設定することにより、n′番目の特徴パラ
メータPk、、′ は、他の特徴パラメータ14に比べ
て重要でないようにすることができる。このように設定
したときの距離をD’ lk%重みデータWk、、=1
(n≠n’)とすると、均等重み付けによる距離Dlk
に対する距離D’lkは、D’ +x>D+に となり、距離がより大きくなるため、認識率が向上する
。
*□′)が重要でない場合には、その特徴パラメータP
、′に対する重みデータWk、、′を、1<wkg′ となるように設定することにより、n′番目の特徴パラ
メータPk、、′ は、他の特徴パラメータ14に比べ
て重要でないようにすることができる。このように設定
したときの距離をD’ lk%重みデータWk、、=1
(n≠n’)とすると、均等重み付けによる距離Dlk
に対する距離D’lkは、D’ +x>D+に となり、距離がより大きくなるため、認識率が向上する
。
また、標準パターン12の特徴パラメータ14と入力パ
ターン11の特徴パラメータ10に対して重みデータ1
5を乗じて、その標準パターン12と入力パターン11
の距離を求める場合でも、上述したのと同様に重みデー
タ15を設定することにより、上述と同様の距離が得ら
れて誤認識が少なくなる。
ターン11の特徴パラメータ10に対して重みデータ1
5を乗じて、その標準パターン12と入力パターン11
の距離を求める場合でも、上述したのと同様に重みデー
タ15を設定することにより、上述と同様の距離が得ら
れて誤認識が少なくなる。
実 施 例
以下本発明を図面に示す実施例に基づいて詳細に説明す
る。
る。
第3図は本発明による音声認識装置の一実施例ブロック
図を示している。
図を示している。
第3図において、20はマイクロホン、21はA/D変
換器、22はブリプロセッサ、23は特徴抽出部、24
は音声区間検出部25、記憶部26、正規化部27、距
離計算部28及びスコア計算部29により構成されたメ
インプロセッサ、30は標準パターン12により構成さ
れた辞書用メモリ、16は、標準パターン12の特徴パ
ラメータ14に対応させて設けられた重みパターン、3
1はこの重みパターン16により構成された辞書用メモ
リ、32はダイヤラである。
換器、22はブリプロセッサ、23は特徴抽出部、24
は音声区間検出部25、記憶部26、正規化部27、距
離計算部28及びスコア計算部29により構成されたメ
インプロセッサ、30は標準パターン12により構成さ
れた辞書用メモリ、16は、標準パターン12の特徴パ
ラメータ14に対応させて設けられた重みパターン、3
1はこの重みパターン16により構成された辞書用メモ
リ、32はダイヤラである。
本実施例は、10単語数字音声認識装置を示しており、
音声により自動的にダイヤル発信を行うシステムとなっ
ている。
音声により自動的にダイヤル発信を行うシステムとなっ
ている。
発生された音声は、マイク20により電気的音声信号に
変換されて、A/D変換器21へ送出される。A/D変
換器21でディジタル化された音声信号は音声区間検出
部25と特徴抽出部23へ送出される。音声区間検出部
25では、音声信号のレベルにより音声の始端、終端が
検出され、その始端から終端までの時間内において、v
f機微抽出23から出力された特徴パラメータ10が記
憶部26へ格納される。
変換されて、A/D変換器21へ送出される。A/D変
換器21でディジタル化された音声信号は音声区間検出
部25と特徴抽出部23へ送出される。音声区間検出部
25では、音声信号のレベルにより音声の始端、終端が
検出され、その始端から終端までの時間内において、v
f機微抽出23から出力された特徴パラメータ10が記
憶部26へ格納される。
特徴抽出部23であるブリプロセッサ22の内部につい
て、第4図のブリプロセッサ内部のブロック図を用いて
詳細に説明する。
て、第4図のブリプロセッサ内部のブロック図を用いて
詳細に説明する。
複数のバンドパスフィルタ(BPF)33、検波回路(
ABS)36、ローパスフィルタ37によりフィルタバ
ンクが構成されてふり、特徴パラメータ10として、音
声の周波数成分が使用されることになる。例えば、BP
F33、検波回路36及びローパスフィルタ37をそれ
ぞれ12個設けて、音声信号を12チヤンネルで帯域分
割して、その各チャンネルからの出力パワーを求め、イ
ンクフェース回路38により10ミリ秒毎に出力する。
ABS)36、ローパスフィルタ37によりフィルタバ
ンクが構成されてふり、特徴パラメータ10として、音
声の周波数成分が使用されることになる。例えば、BP
F33、検波回路36及びローパスフィルタ37をそれ
ぞれ12個設けて、音声信号を12チヤンネルで帯域分
割して、その各チャンネルからの出力パワーを求め、イ
ンクフェース回路38により10ミリ秒毎に出力する。
ブリプロセッサ22内部での特徴抽出については、この
ようなバンドパスフィルタの外にLPG係数等を用いる
ことも可能である。
ようなバンドパスフィルタの外にLPG係数等を用いる
ことも可能である。
再び第3図を参照すると、音声区間検出部25により検
出された音声信号の始端から終端までの時間の長さは、
正規化部27により、予め定められた時間へ正規化され
る。例えば、記憶部26に格納された12チャンネル分
の特徴パラメータ10の時間軸を、8分割して、その8
分割された時間を正規化する。このときの特徴パラメー
タ10の個数Nは、 N=12X8=96個 となり、正規化部27から出力される入力パターン11
は、96個の特徴パラメータ10より構成される。
出された音声信号の始端から終端までの時間の長さは、
正規化部27により、予め定められた時間へ正規化され
る。例えば、記憶部26に格納された12チャンネル分
の特徴パラメータ10の時間軸を、8分割して、その8
分割された時間を正規化する。このときの特徴パラメー
タ10の個数Nは、 N=12X8=96個 となり、正規化部27から出力される入力パターン11
は、96個の特徴パラメータ10より構成される。
辞書用メモリ30内の標準パターン12は、君忍識対象
となる複数の音声に対応するパターンが予め登録されて
いる。標準パターン12を作成するときは、最適な環境
条件下で、同一単語・につき、例えば、100回発声し
て、その発声したそれぞれの音声に対して標準パターン
12を作成する。
となる複数の音声に対応するパターンが予め登録されて
いる。標準パターン12を作成するときは、最適な環境
条件下で、同一単語・につき、例えば、100回発声し
て、その発声したそれぞれの音声に対して標準パターン
12を作成する。
そして、100回分の標準パターン12の各特徴パラメ
ータ14の平均値を求め、その値を標準パターン12と
して、辞書用メモリ30へ登録する。
ータ14の平均値を求め、その値を標準パターン12と
して、辞書用メモリ30へ登録する。
本実施例は、数字認識であるため、「ぜろ(0)」〜「
きゅう(9)」までの音声信号に対応させて標準パター
ン12が設けられており、この各標準パターン12に対
しては、単梧番号の0〜9がそれぞれ割り当てられてい
る。
きゅう(9)」までの音声信号に対応させて標準パター
ン12が設けられており、この各標準パターン12に対
しては、単梧番号の0〜9がそれぞれ割り当てられてい
る。
また、この標準パターン12作成時に、100回分の標
準パターン12における各特徴パラメータ14の値の標
準偏差を求めて、各特徴パラメータ14の標準偏差の平
均が1になるようにしだものを重みパターン16のデー
タとして辞書用メモリ31内に登録する。重みパターン
16のデータは、標準パターン12の特徴パラメータ1
4に対応しているため、ある1つの標準パターン12に
対応する重みパターン16のデータは96個となる。尚
、このような重みパターン16の作成手順は、はんの−
例であって、これに限られるものではない。
準パターン12における各特徴パラメータ14の値の標
準偏差を求めて、各特徴パラメータ14の標準偏差の平
均が1になるようにしだものを重みパターン16のデー
タとして辞書用メモリ31内に登録する。重みパターン
16のデータは、標準パターン12の特徴パラメータ1
4に対応しているため、ある1つの標準パターン12に
対応する重みパターン16のデータは96個となる。尚
、このような重みパターン16の作成手順は、はんの−
例であって、これに限られるものではない。
距離計算部28は、入力音声により作成された入力パタ
ーン11と標準パターン12の各特徴パラメータ10.
14間の差分を求め、その差分を絶対値化した後、重み
パターン16のデータをその絶対値化された差分に乗す
る。また、これとは別に、標準パターン12の特徴パラ
メータ14に重みパターン16のデータを乗じたものと
、入力パターン11の特徴パラメータ10に重みパター
ン16のデータを乗じたものとの差分を求めてもよい。
ーン11と標準パターン12の各特徴パラメータ10.
14間の差分を求め、その差分を絶対値化した後、重み
パターン16のデータをその絶対値化された差分に乗す
る。また、これとは別に、標準パターン12の特徴パラ
メータ14に重みパターン16のデータを乗じたものと
、入力パターン11の特徴パラメータ10に重みパター
ン16のデータを乗じたものとの差分を求めてもよい。
このような計算手順で、1つの標準パターン12に含ま
れる96個の特徴パラメータ14について、それぞれ差
分を求めて合計することにより、入力パターン11と標
準パターン12の距離が求まる。さらに、標準パターン
12として登録されている1ouN全てについてこのよ
うな計算を行い、それぞれの距離をスコア計算部29へ
送出する。このスコア計算部29では、10単言吾につ
いての距離をスコアとして、スコアが最も小さい値とな
る標準パターン12の単語番号を、ダイヤラ32へ送出
する。
れる96個の特徴パラメータ14について、それぞれ差
分を求めて合計することにより、入力パターン11と標
準パターン12の距離が求まる。さらに、標準パターン
12として登録されている1ouN全てについてこのよ
うな計算を行い、それぞれの距離をスコア計算部29へ
送出する。このスコア計算部29では、10単言吾につ
いての距離をスコアとして、スコアが最も小さい値とな
る標準パターン12の単語番号を、ダイヤラ32へ送出
する。
上述したような構成において、数字の「1」をダイヤラ
32から発信するときの各構成部分の動作について以下
に説明する。
32から発信するときの各構成部分の動作について以下
に説明する。
先ず、マイクロホン20に向かって、「いち」と発声す
ると、A/’D変換器21により音声信号がディジタル
化され、音声区間検出部25で、「いち」の音声区間が
検出され、その区間で抽出された12チャンネル分の特
徴パラメータ10が記憶部26へ格納される。この特徴
パラメータlOの時間軸は、正規化部27により等間隔
に8分割されて、さらに正規化(平均化)される。これ
によって得られた96個の特徴パラメータ10によるパ
ターンを入力パターン11として用いる。
ると、A/’D変換器21により音声信号がディジタル
化され、音声区間検出部25で、「いち」の音声区間が
検出され、その区間で抽出された12チャンネル分の特
徴パラメータ10が記憶部26へ格納される。この特徴
パラメータlOの時間軸は、正規化部27により等間隔
に8分割されて、さらに正規化(平均化)される。これ
によって得られた96個の特徴パラメータ10によるパ
ターンを入力パターン11として用いる。
辞書用メモリ30では、1〜10の順番でアクセスされ
るものとすると、「いち(1)」に対応する標準パター
ン12の特徴パラメータ14と入力パターン11の特徴
パラメータ10のそれぞれの差分が絶対値化されて計算
される。この絶対値化された96個の差分の値に対して
、「いち」の標準パターン12に対応する重みパターン
16のデータをそれぞれ乗じた後、この96個の値が合
計され、入力パターン11と「いち」の標準パターン1
2の距離が求められる。同様に、辞書用メモリ30内に
登録されている2〜9,0の数字についても距離の計算
が行われる。そして、これらの距離の値がスコア計算部
29により比較されると、最も小さい距離の標準パター
ン12は、「いち」の標準パターン12となるため、「
いち」の標準パターン12の単工吾番号「1」がダイヤ
ラ32に対して出力される。単3吾番号「1」は、ダイ
ヤラ32によりダイヤルパルスに変換され、回線。
るものとすると、「いち(1)」に対応する標準パター
ン12の特徴パラメータ14と入力パターン11の特徴
パラメータ10のそれぞれの差分が絶対値化されて計算
される。この絶対値化された96個の差分の値に対して
、「いち」の標準パターン12に対応する重みパターン
16のデータをそれぞれ乗じた後、この96個の値が合
計され、入力パターン11と「いち」の標準パターン1
2の距離が求められる。同様に、辞書用メモリ30内に
登録されている2〜9,0の数字についても距離の計算
が行われる。そして、これらの距離の値がスコア計算部
29により比較されると、最も小さい距離の標準パター
ン12は、「いち」の標準パターン12となるため、「
いち」の標準パターン12の単工吾番号「1」がダイヤ
ラ32に対して出力される。単3吾番号「1」は、ダイ
ヤラ32によりダイヤルパルスに変換され、回線。
へ送出される。
また、このような距離計算部28での距離計算手順とは
別に、標準パターン12の特徴パラメータ14に対して
重みパターン16のデータをそれぞれ乗じた後で、入力
パターン11とその重みパターン16を乗じた標準パラ
メータ12の距離を計算するようにしてもよい。
別に、標準パターン12の特徴パラメータ14に対して
重みパターン16のデータをそれぞれ乗じた後で、入力
パターン11とその重みパターン16を乗じた標準パラ
メータ12の距離を計算するようにしてもよい。
本実施例では、XO車車数数字音声認識場合について説
明したが、認識対象は数字以外でも可能であり、また、
認識単位は単語以外の50音節認識等でも可能である。
明したが、認識対象は数字以外でも可能であり、また、
認識単位は単語以外の50音節認識等でも可能である。
さらに、本実施例は、離散発声音声認識を行っているが
、音声区間検出部25における音声区間検出を連続音声
でも切り出せるようにして連続音声&E fiを行うこ
とも可能である。
、音声区間検出部25における音声区間検出を連続音声
でも切り出せるようにして連続音声&E fiを行うこ
とも可能である。
発明の効果
本発明による音声認識装置は、以上詳述したように構成
したので、音声のゆらぎ等により音声入力信号にばらつ
きが発生しても、誤認識する可能性が少なく音声認識時
の信頼性が向上するという効果を奏する。
したので、音声のゆらぎ等により音声入力信号にばらつ
きが発生しても、誤認識する可能性が少なく音声認識時
の信頼性が向上するという効果を奏する。
第1図は本発明の原理ブロック図、
第2図は入力パターンと標準/zNターンの特徴ノくラ
メータの差に対して重みを乗じた場合の距離計算部での
距離計算説明図、 第3図は本発明による音声認識装置の一実施例ブロック
図、 第4図はブリプロセッサ内部のブロック図、第5図は従
来の音声認識装置のブロック図、第6図は従来の距離計
算部での計算計算説明図を示している。 10.14・・・特徴パラメータ、 11・・・入力パターン、 12・・・標準パターン、 13・・・距離計算手段、 16・・・重みパターン、 20・・・マイクロホン、 21・・・A/D変換器、 15・・・重みデータ、 2・・・ブリプロセッサ、 3.41・・・特徴抽出部、 4・・・メインプロセッサ、 5.42・・・音声区間検出部、 6・・・記憶部、 27・・・正規化部、8.3
9・・・距離計算部、 9.40・・・スコア計算部、 0.31・・・辞書用メモリ、 2・・・ダイヤラ、 33・・・BPF、6・・・
検波回路、 37・・・LPF、8・・・インタフェ
ース回路。
メータの差に対して重みを乗じた場合の距離計算部での
距離計算説明図、 第3図は本発明による音声認識装置の一実施例ブロック
図、 第4図はブリプロセッサ内部のブロック図、第5図は従
来の音声認識装置のブロック図、第6図は従来の距離計
算部での計算計算説明図を示している。 10.14・・・特徴パラメータ、 11・・・入力パターン、 12・・・標準パターン、 13・・・距離計算手段、 16・・・重みパターン、 20・・・マイクロホン、 21・・・A/D変換器、 15・・・重みデータ、 2・・・ブリプロセッサ、 3.41・・・特徴抽出部、 4・・・メインプロセッサ、 5.42・・・音声区間検出部、 6・・・記憶部、 27・・・正規化部、8.3
9・・・距離計算部、 9.40・・・スコア計算部、 0.31・・・辞書用メモリ、 2・・・ダイヤラ、 33・・・BPF、6・・・
検波回路、 37・・・LPF、8・・・インタフェ
ース回路。
Claims (1)
- 【特許請求の範囲】 入力された音声信号から特徴パラメータ(10)を抽出
し、その特徴パラメータ(10)により構成された入力
パターン(11)と予め登録された複数の標準パターン
(12)との距離を距離計算手段(13)により求め、
その複数の標準パターン(12)に対してそれぞれ求め
た距離の内、最も小さい距離に対応する標準パターン(
12)を、入力パターン(11)と同等であると認識す
る音声認識装置において、 標準パターン(12)のそれぞれの特徴パラメータ(1
4)に対応させた重みデータ(15)を設け、距離計算
手段(13)により、入力パターン(11)の特徴パラ
メータ(10)と標準パターン(12)の特徴パラメー
タ(14)の差に対して、又は入力パターン(11)の
特徴パラメータ(10)と標準パターン(12)の特徴
パラメータ(14)に対して重みデータ(15)を乗じ
て、入力パターン(11)と標準パターン(12)の距
離を求めることを特徴とする音声認識装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63185537A JPH0237399A (ja) | 1988-07-27 | 1988-07-27 | 音声認識装置 |
US07/821,861 US5159637A (en) | 1988-07-27 | 1992-01-16 | Speech word recognizing apparatus using information indicative of the relative significance of speech features |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63185537A JPH0237399A (ja) | 1988-07-27 | 1988-07-27 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0237399A true JPH0237399A (ja) | 1990-02-07 |
Family
ID=16172541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63185537A Pending JPH0237399A (ja) | 1988-07-27 | 1988-07-27 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0237399A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0426900A (ja) * | 1990-05-22 | 1992-01-30 | Nec Corp | 音声認識装置 |
-
1988
- 1988-07-27 JP JP63185537A patent/JPH0237399A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0426900A (ja) * | 1990-05-22 | 1992-01-30 | Nec Corp | 音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5528725A (en) | Method and apparatus for recognizing speech by using wavelet transform and transient response therefrom | |
JPH0352640B2 (ja) | ||
JPH0361959B2 (ja) | ||
JP2019101385A (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
US4078154A (en) | Voice recognition system using locus of centroid of vocal frequency spectra | |
US5159637A (en) | Speech word recognizing apparatus using information indicative of the relative significance of speech features | |
JPH03120598A (ja) | 音声認識方法及び装置 | |
JPH0237399A (ja) | 音声認識装置 | |
JPH0449952B2 (ja) | ||
JPS6114520B2 (ja) | ||
JPH0430040B2 (ja) | ||
JP2001042889A (ja) | 音声認識入力音声の音程正規化装置 | |
JP2834880B2 (ja) | 音声認識装置 | |
JP3100180B2 (ja) | 音声認識方法 | |
JP2557497B2 (ja) | 男女声の識別方法 | |
JP2989231B2 (ja) | 音声認識装置 | |
JPS60217395A (ja) | 音声による危機状態の検出装置 | |
JPS6126678B2 (ja) | ||
JPS6039695A (ja) | 自動音声アクチビテイ検出方法および装置 | |
JPH034918B2 (ja) | ||
Nair et al. | Comparison of Isolated Digit Recognition Techniques based on Feature Extraction | |
JPH0316038B2 (ja) | ||
JP2599974B2 (ja) | 音声検出方式 | |
JPH01310399A (ja) | 音声認識装置 | |
JPS62113197A (ja) | 音声認識装置 |