JPH0235500A - 音声認識方式 - Google Patents
音声認識方式Info
- Publication number
- JPH0235500A JPH0235500A JP63186352A JP18635288A JPH0235500A JP H0235500 A JPH0235500 A JP H0235500A JP 63186352 A JP63186352 A JP 63186352A JP 18635288 A JP18635288 A JP 18635288A JP H0235500 A JPH0235500 A JP H0235500A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- standard
- input
- matching
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001755 vocal effect Effects 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims description 28
- 230000005236 sound signal Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 abstract description 6
- 239000013598 vector Substances 0.000 abstract description 4
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 210000003928 nasal cavity Anatomy 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000002459 sustained effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000008602 contraction Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〈産業上の利用分野〉
この発明は、音声認識におけるマツチングの際の計算量
の低減・効率化や高認識率化を目脂した音声認識方式に
関する。
の低減・効率化や高認識率化を目脂した音声認識方式に
関する。
〈従来の技術〉
一般に単語音声認識装置には、単語単位の標準パターン
を用いてマツチングによって音声を認識する方式(単語
音声認識方式)と、単語より小さい音素や音節を単位と
する標準パターンを用いてマツチングによって音声を認
識する方式(音素音声認識方式あるいは音節音声認識方
式)がある。
を用いてマツチングによって音声を認識する方式(単語
音声認識方式)と、単語より小さい音素や音節を単位と
する標準パターンを用いてマツチングによって音声を認
識する方式(音素音声認識方式あるいは音節音声認識方
式)がある。
上記単語音声認識方式は、調音結合の問題はなく高い認
識率が得られる反面、語曇数が増すと標準パターンの記
憶容1が大きくなり、マツチングにおける計算量も膨大
なものとなると言う問題がある。これに対して音素音声
認識方式は、標準パターンの数がある程度限られるため
、語常数の増加に伴う記憶容量の増大やマツチングにお
ける計算量の増大という問題はあまりない。しかしなが
ら、調音結合の規則がまだ不明確であるため、つの音素
の前後に結合し得る音素を結合した多数の標準パターン
を必要とするという問題がある。
識率が得られる反面、語曇数が増すと標準パターンの記
憶容1が大きくなり、マツチングにおける計算量も膨大
なものとなると言う問題がある。これに対して音素音声
認識方式は、標準パターンの数がある程度限られるため
、語常数の増加に伴う記憶容量の増大やマツチングにお
ける計算量の増大という問題はあまりない。しかしなが
ら、調音結合の規則がまだ不明確であるため、つの音素
の前後に結合し得る音素を結合した多数の標準パターン
を必要とするという問題がある。
さらに、スペクトル包絡の時間パターン等から音素単位
にセグメンテーションする際に誤って音素の境界を決定
してしまうと、認識率が低下するという問題もある。
にセグメンテーションする際に誤って音素の境界を決定
してしまうと、認識率が低下するという問題もある。
以下、単語音声認識方式について詳細に述べる。
単語音声認識方式の人語曇化においては、類似した単語
同志のマツチングが問題となる。特に、単語中のある一
部分(例えば、一つの子音)だけが異なり、他は同一で
あるような場合、通常のDPマッヂングにおいてはマツ
チングパスの自由度が大きすぎるため類似度が高くなり
、誤認識につながるという問題がある。また、上述のよ
うにマツチングにおける計算mも増加するという問題も
ある。
同志のマツチングが問題となる。特に、単語中のある一
部分(例えば、一つの子音)だけが異なり、他は同一で
あるような場合、通常のDPマッヂングにおいてはマツ
チングパスの自由度が大きすぎるため類似度が高くなり
、誤認識につながるという問題がある。また、上述のよ
うにマツチングにおける計算mも増加するという問題も
ある。
そこで従来より、このような問題の対策として、DPマ
ツチングの際のマツチングパスの設定を適当な方法で制
限することが提案されている。
ツチングの際のマツチングパスの設定を適当な方法で制
限することが提案されている。
すなわち、例えば、単語中の無音区間に着目して、入力
音声パターンと標準パターンとの無音部の終端をマツチ
ングパスが通過するように制限を加える方法(rLPC
ケプストラムによる小型単語音声認識装置」 則松他(
日本音響学会講演論文集1−4−151985.3))
がある。また、短時間平均パワーが比較的高くて安定し
ている区間の両端をマツチングパスの経路限定点の候補
としてマツチングパスの経路を制限する方法(「短時間
平均パワーを利用した経路限定DP照合法」 藤崎他(
日本音響学会講演論文集2−1−171986 、3
))がある。
音声パターンと標準パターンとの無音部の終端をマツチ
ングパスが通過するように制限を加える方法(rLPC
ケプストラムによる小型単語音声認識装置」 則松他(
日本音響学会講演論文集1−4−151985.3))
がある。また、短時間平均パワーが比較的高くて安定し
ている区間の両端をマツチングパスの経路限定点の候補
としてマツチングパスの経路を制限する方法(「短時間
平均パワーを利用した経路限定DP照合法」 藤崎他(
日本音響学会講演論文集2−1−171986 、3
))がある。
さらに、類似性の少ない単語の識別には、DPマツチン
グのような計算量の多い精密な照合処理は必要でないと
いう観点から、精密な照合に先立って、入カバターンと
類似しているパターンを有する単語のクラスと、そうで
ない単語のクラスとを簡単な照合操作によって区別する
(すなわち単語の予備選択をする)ことによって計算量
を制限する方法がある。その際の上記簡単な照合操作と
しては、例えば標準パターンとのDPマツチングの中間
結果や入力音声の音素数、入力音声の音韻の大分類(例
えば、有声音、摩擦音および無音等)を用いる。
グのような計算量の多い精密な照合処理は必要でないと
いう観点から、精密な照合に先立って、入カバターンと
類似しているパターンを有する単語のクラスと、そうで
ない単語のクラスとを簡単な照合操作によって区別する
(すなわち単語の予備選択をする)ことによって計算量
を制限する方法がある。その際の上記簡単な照合操作と
しては、例えば標準パターンとのDPマツチングの中間
結果や入力音声の音素数、入力音声の音韻の大分類(例
えば、有声音、摩擦音および無音等)を用いる。
〈発明が解決しようとする課題〉
このように、上記従来の単語音声認識装置においては、
単語中の無音区間、単語中の短時間平均パワーあるいは
単語中の音韻の大分類等の特徴量に基づいてマツチング
パスの制限あるいは単語の予備選択をするようにしてい
る。しかしながら、単語中の無音区間、単語中の短時間
平均パワーあるいは単語中の音韻の大分類の出現頻度は
、話者や発声方法の違い、あるいは周囲の騒音レベルに
よってかなり変動する値である。したがって、上記各特
徴量は真に安定した特徴量であるとは言えないという問
題がある。
単語中の無音区間、単語中の短時間平均パワーあるいは
単語中の音韻の大分類等の特徴量に基づいてマツチング
パスの制限あるいは単語の予備選択をするようにしてい
る。しかしながら、単語中の無音区間、単語中の短時間
平均パワーあるいは単語中の音韻の大分類の出現頻度は
、話者や発声方法の違い、あるいは周囲の騒音レベルに
よってかなり変動する値である。したがって、上記各特
徴量は真に安定した特徴量であるとは言えないという問
題がある。
上述のような話者や発声方法による変動の問題を解決す
る手段としてマルチテンプレート方式がある。しかしな
がら、このマルチテンプレート方式を用いた場合には標
準パターン数が多くなり、結局類似単語数が多いという
問題や計算量が多いという問題は解決されない。
る手段としてマルチテンプレート方式がある。しかしな
がら、このマルチテンプレート方式を用いた場合には標
準パターン数が多くなり、結局類似単語数が多いという
問題や計算量が多いという問題は解決されない。
そこで、この発明の目的は、単語音声認識を行う際にお
いて、効果的にマツチングパスの制限や標準パターンの
予備選択を行うことができる音声認識方式を提供するこ
とにある。
いて、効果的にマツチングパスの制限や標準パターンの
予備選択を行うことができる音声認識方式を提供するこ
とにある。
く課題を解決するための手段〉
上記目的を達成するため、この発明は、入力された音声
信号からこの音声信号の特徴を表す特徴パターンを音響
分析部で求め、標準パターン格納部に格納された標準パ
ターンと上記特徴パターンとのマツチングを識別部で行
って入力音声を認識する音声認識方式において、入力さ
れた音声信号に基づいて、声道の狭めの度合いを表すパ
ラメータの時系列と上記パラメータの継続時間情報の時
系列からなる入力補助パターンを求める入力補助パター
ン作成手段と、上記標準パターンにおける声道の狭めの
度合いを表すパラメータの時系列と上記パラメータの継
続時間情報の時系列と上記パラメータの継続時間情報に
対する制限窓からなる標準補助パターンを格納している
標準補助パターン格納部を備えて、上記入力補助パター
ンと上記標準補助パターンとを比較することにより、上
記識別部においてマツチングを実行する際のマツチング
パスの制限や標準パターンの予備選択を行うことを特徴
としている。
信号からこの音声信号の特徴を表す特徴パターンを音響
分析部で求め、標準パターン格納部に格納された標準パ
ターンと上記特徴パターンとのマツチングを識別部で行
って入力音声を認識する音声認識方式において、入力さ
れた音声信号に基づいて、声道の狭めの度合いを表すパ
ラメータの時系列と上記パラメータの継続時間情報の時
系列からなる入力補助パターンを求める入力補助パター
ン作成手段と、上記標準パターンにおける声道の狭めの
度合いを表すパラメータの時系列と上記パラメータの継
続時間情報の時系列と上記パラメータの継続時間情報に
対する制限窓からなる標準補助パターンを格納している
標準補助パターン格納部を備えて、上記入力補助パター
ンと上記標準補助パターンとを比較することにより、上
記識別部においてマツチングを実行する際のマツチング
パスの制限や標準パターンの予備選択を行うことを特徴
としている。
く作用〉
音声信号が入力されると、この音声信号からこの音声の
特徴を表す特徴パターンが音響分析部によって求められ
る。一方、上記入力された音声信号に基づいて、声道の
狭めの度合いを表すパラメータの時系列と上記パラメー
タの継続時間情報の時系列からなる入力補助パターンが
入力補助パターン作成手段によって求められる。また、
予め標準パターン格納部に格納された標準パターンにお
ける声道の狭めの度合を表すパラメータの時系列と上記
パラメータの継続時間情報の時系列と上記パラメータの
継続時間情報に対する制限窓からなる標準補助パターン
が標準補助パターン格納部に格納されている。したがっ
て、上記入力補助パターンと標準補助パターン格納部に
格納された標準補助パターンとを比較することによって
、マツチングパスの制限や標準パターンの予備選択が行
われる。
特徴を表す特徴パターンが音響分析部によって求められ
る。一方、上記入力された音声信号に基づいて、声道の
狭めの度合いを表すパラメータの時系列と上記パラメー
タの継続時間情報の時系列からなる入力補助パターンが
入力補助パターン作成手段によって求められる。また、
予め標準パターン格納部に格納された標準パターンにお
ける声道の狭めの度合を表すパラメータの時系列と上記
パラメータの継続時間情報の時系列と上記パラメータの
継続時間情報に対する制限窓からなる標準補助パターン
が標準補助パターン格納部に格納されている。したがっ
て、上記入力補助パターンと標準補助パターン格納部に
格納された標準補助パターンとを比較することによって
、マツチングパスの制限や標準パターンの予備選択が行
われる。
〈実施例〉
以下、この発明を図示の実施例により詳細に説明する。
第1図はこの発明に係る音声認識装置のブロック図であ
る。マイクロホン1から入力された音声信号は音響分析
部2によって分析処理され、単位時間(フレーム)毎に
特徴ベクトルの時系列として出力される。この音響分析
部2としては、バンドパスフィルタ(BPF’)群によ
る周波数分析、線形予測分析およびケプストラム分析等
がある。
る。マイクロホン1から入力された音声信号は音響分析
部2によって分析処理され、単位時間(フレーム)毎に
特徴ベクトルの時系列として出力される。この音響分析
部2としては、バンドパスフィルタ(BPF’)群によ
る周波数分析、線形予測分析およびケプストラム分析等
がある。
次に、上述のようにして得られた特徴ベクトル時系列は
パターン変換部3に入力され、セグメンテーション等の
手法により、後に詳述するようにして音韻もしくはそれ
に相当するラベル系列で入カバターンが表現される。こ
の場合′、上記ラベルを付加する際には標準パターン格
納部4に格納されたラベル別の標準パターンを参照する
。また、鼻子音やバズバーを検出しやすくするために有
音・無音判定部5からの判定結果をも参考にする。
パターン変換部3に入力され、セグメンテーション等の
手法により、後に詳述するようにして音韻もしくはそれ
に相当するラベル系列で入カバターンが表現される。こ
の場合′、上記ラベルを付加する際には標準パターン格
納部4に格納されたラベル別の標準パターンを参照する
。また、鼻子音やバズバーを検出しやすくするために有
音・無音判定部5からの判定結果をも参考にする。
予備選択部6では、単語標梨パターン格納部8に格納さ
れた各単語標準パターンと人カバターンを比較して単語
標準パターンの予備選択が行われる。そして、予備選択
された単語標準パターンの情報が識別部7に入力される
。そうすると、識別部7では予備選択部6からの予備選
択された単語標準パターンの情報に基づいて、単語標準
パターン格納部8に格納された単語標準パターンを参照
する。そして、上記予備選択された単語標準パターンと
入カバターンとのマツ・チングが実行される。
れた各単語標準パターンと人カバターンを比較して単語
標準パターンの予備選択が行われる。そして、予備選択
された単語標準パターンの情報が識別部7に入力される
。そうすると、識別部7では予備選択部6からの予備選
択された単語標準パターンの情報に基づいて、単語標準
パターン格納部8に格納された単語標準パターンを参照
する。そして、上記予備選択された単語標準パターンと
入カバターンとのマツ・チングが実行される。
そして、マツチングによって認識された単語が表示部9
に表示される。
に表示される。
この発明においては、マツチングパスの制限や単語標準
パターンの予備選択に使用する特徴量として、声道の狭
めの度合いを表すパラメータCを導入する。上記パラメ
ータCはC−0で声道が閉鎖されている状態を表し、C
=1で声道に狭めが形成されている状態を表し、C=2
で声道が開放されている状態を表す。
パターンの予備選択に使用する特徴量として、声道の狭
めの度合いを表すパラメータCを導入する。上記パラメ
ータCはC−0で声道が閉鎖されている状態を表し、C
=1で声道に狭めが形成されている状態を表し、C=2
で声道が開放されている状態を表す。
実際の音声においては、同じ単語であっても話者による
生理的な差や発声法の違いや騒音等の周囲環境によって
、そのスペクトル・パワーパターンは様々に変動する。
生理的な差や発声法の違いや騒音等の周囲環境によって
、そのスペクトル・パワーパターンは様々に変動する。
特にその影響はパワーの小さい区間に現れやすく、その
区間におけるスペクトル・パワーパターンは乱れる。と
ころが、上記パラメータCによって表した3つの声道の
状態においては、夫々特徴のあるスペクトル形状を有し
ており、話者や発声方法の違いに影響されない。
区間におけるスペクトル・パワーパターンは乱れる。と
ころが、上記パラメータCによって表した3つの声道の
状態においては、夫々特徴のあるスペクトル形状を有し
ており、話者や発声方法の違いに影響されない。
すなわち、C=2の場合にはピッチによる調波構造を有
し、さらに低周波帯〜高周波帯にホルマントと呼ばれる
大きなピークが存在する。また、C=1の場合には摩擦
音では高周波数領域にエネルギーが集中する。また、C
=0の場合にはいくつかの状態が存在する。すなわち、
鼻子音およびバズバーのときはピッチによる調波構造を
有し、さらに低周波数領域にエネルギーが集中する。無
音のときは環境騒音と同じになる。
し、さらに低周波帯〜高周波帯にホルマントと呼ばれる
大きなピークが存在する。また、C=1の場合には摩擦
音では高周波数領域にエネルギーが集中する。また、C
=0の場合にはいくつかの状態が存在する。すなわち、
鼻子音およびバズバーのときはピッチによる調波構造を
有し、さらに低周波数領域にエネルギーが集中する。無
音のときは環境騒音と同じになる。
このように、パラメータCは話者や発声環境によらずに
安定した特徴型であり、上記音響分析部2からの音響パ
ラメータあるいはパターン変換部3からのラベルから抽
出することができる。
安定した特徴型であり、上記音響分析部2からの音響パ
ラメータあるいはパターン変換部3からのラベルから抽
出することができる。
次に、上記パターン変換部3におけるラベル系列付加お
よび補助パターン付加、上記予備選択部6における単語
標準パターンの予備選択、上記識別部7における予備選
択された単語標準パターンと入カバターンとのマツチン
グについて詳細に述べる。
よび補助パターン付加、上記予備選択部6における単語
標準パターンの予備選択、上記識別部7における予備選
択された単語標準パターンと入カバターンとのマツチン
グについて詳細に述べる。
まず、上記パターン変換部3によるラベル系列付加およ
び補助パターン付加について述べる。
び補助パターン付加について述べる。
第2図(a)は「ジダイ」と発声された入力音声の波形
を示し、第2図(b)は上記入力音声波形に基づいて得
られたラベル系列Q(j 、 I)を示し、第2図(c
)は上記ラベル系列&(j 、 I)から得られる補助
パターンを示す。ここで、上記12(j、I)のjはフ
レーム番号を表し、■は入カバターンであることを表す
。上記ラベル系列f2(j 、 I)はbb(バズバー
)、dz(有声摩擦音)、i(母音イ)、S(無音)、
d(有声破裂音)、a(母音ア)およびe(母音工)等
のラベルがフレーム毎に付加されたものである。
を示し、第2図(b)は上記入力音声波形に基づいて得
られたラベル系列Q(j 、 I)を示し、第2図(c
)は上記ラベル系列&(j 、 I)から得られる補助
パターンを示す。ここで、上記12(j、I)のjはフ
レーム番号を表し、■は入カバターンであることを表す
。上記ラベル系列f2(j 、 I)はbb(バズバー
)、dz(有声摩擦音)、i(母音イ)、S(無音)、
d(有声破裂音)、a(母音ア)およびe(母音工)等
のラベルがフレーム毎に付加されたものである。
上記ラベルは、いわゆる音素に相当するものではなく、
音素よりも細かい単位であり一つの調音状態に対応する
。例えば、音素/d/(有声破裂音)は、有声の持続音
部(bb)と破裂音部(d)の二つのラベルに分割でき
るのである。ラベルの算出は、予め統計処理によって求
められて標準パターン格納部4に格納されているラベル
別の標準パターンと入力フレームの特徴ベクトルとの距
離を計算し、最も近い標準パターンのラベルをその入力
フレームのラベルとして採用するのである。
音素よりも細かい単位であり一つの調音状態に対応する
。例えば、音素/d/(有声破裂音)は、有声の持続音
部(bb)と破裂音部(d)の二つのラベルに分割でき
るのである。ラベルの算出は、予め統計処理によって求
められて標準パターン格納部4に格納されているラベル
別の標準パターンと入力フレームの特徴ベクトルとの距
離を計算し、最も近い標準パターンのラベルをその入力
フレームのラベルとして採用するのである。
このようにして得られたラベル系列C(j 、 l)か
ら、パラメータCの系列(以下、C系列C(i、I)と
言う)がほぼ一意的に決められる。ここで、上記C(i
、 l)のiは同一のパラメータCが連続する区間(以
下、セグメントと言う)の番号を表す。すなわち、ラベ
ルがs、mm(IJ子音)およびbb(バズバー)のう
ちいずれかであれば声道は閉鎖されているとしてC=0
とする。また、ラベルが気音(h)、破裂音(p、t、
k。
ら、パラメータCの系列(以下、C系列C(i、I)と
言う)がほぼ一意的に決められる。ここで、上記C(i
、 l)のiは同一のパラメータCが連続する区間(以
下、セグメントと言う)の番号を表す。すなわち、ラベ
ルがs、mm(IJ子音)およびbb(バズバー)のう
ちいずれかであれば声道は閉鎖されているとしてC=0
とする。また、ラベルが気音(h)、破裂音(p、t、
k。
b、d、g)および摩擦音(r、z、dz、sh、ts
等)のうちいずれかであれば声道に狭めが形成されてい
るとしてc=iとする。さらに、ラベルが母音(a、i
、u、e、o)および鼻音化母音(N)のうちいずれか
であれば声道は開放されているとしてC=2とするので
ある。
等)のうちいずれかであれば声道に狭めが形成されてい
るとしてc=iとする。さらに、ラベルが母音(a、i
、u、e、o)および鼻音化母音(N)のうちいずれか
であれば声道は開放されているとしてC=2とするので
ある。
ここで、C=0における鼻子音やバズバーは話者や発声
の仕方あるいは周囲環境によって出たり出なかったりし
て、その継続時間が大きく変化する。
の仕方あるいは周囲環境によって出たり出なかったりし
て、その継続時間が大きく変化する。
したがって、これら声道の閉鎖による持続音と無音とを
同一視して同じパラメータの値(C=O)としている。
同一視して同じパラメータの値(C=O)としている。
また、C==1における摩擦音および破裂音では有声摩
擦音と無声摩擦音の区別をしていない。これは、有声/
無声すなわち声帯振動の有無は摩擦音部あるいは破裂音
部は同一であっても、その前に付加される持続音部は話
者や発声の仕方による差が非常に大きいため、単に声道
の狭めによる摩擦あるいは破裂の有無のみを抽出する方
がより安定するためである。
擦音と無声摩擦音の区別をしていない。これは、有声/
無声すなわち声帯振動の有無は摩擦音部あるいは破裂音
部は同一であっても、その前に付加される持続音部は話
者や発声の仕方による差が非常に大きいため、単に声道
の狭めによる摩擦あるいは破裂の有無のみを抽出する方
がより安定するためである。
このようにしてlフレームのラベルから1つのパラメー
タCの値が一意的に決まる。ところが、実際に入力され
る音声の中には、例えば子音と母音との境界等に摩擦音
と母音との両方の性質を帯びた区間が現れる場合がある
。このような場合には、上述のような区間においては摩
擦音のラベルと母音のラベルとが混在することがあり、
得られたC系列をスムージング処理をする必要がある。
タCの値が一意的に決まる。ところが、実際に入力され
る音声の中には、例えば子音と母音との境界等に摩擦音
と母音との両方の性質を帯びた区間が現れる場合がある
。このような場合には、上述のような区間においては摩
擦音のラベルと母音のラベルとが混在することがあり、
得られたC系列をスムージング処理をする必要がある。
そして、このようにしてラベル12(j、l)から得ら
れたC系列C(i 、 l)によって、入力音声の特徴
パターンを補助的に表すのである(以下、補助パターン
と言う)。すなわち、この補助パターンは入力音声の大
局的な特徴を表すものである。また、補助パターンは上
記C系列C(i、l)の他に、夫々のパラメータCに対
応してフレーム数によって表されるパラメータCの継続
時間情報d(i、I)をも含む。
れたC系列C(i 、 l)によって、入力音声の特徴
パターンを補助的に表すのである(以下、補助パターン
と言う)。すなわち、この補助パターンは入力音声の大
局的な特徴を表すものである。また、補助パターンは上
記C系列C(i、l)の他に、夫々のパラメータCに対
応してフレーム数によって表されるパラメータCの継続
時間情報d(i、I)をも含む。
第2図(c)に示す例の場合の補助パターンは下記のよ
うになる。
うになる。
次に、上記予備選択部6における単語標孕パターンの予
備選択について述べる。ここでは、上記単語標準パター
ン格納部8に格納されている単語標準パターンと人カバ
ターンとの簡単なマツチングが行われる。ここで、上記
人カバターンが上述のようにして補助パターンを備える
のと同様にして、単語標準パターンも補助パターンを備
えている。ただし、単語標準パターンの補助パターンに
はC系列C(i、R)のフレーム数d(i、R)に制限
窓W(i)が設けである。ここで、C(i、R)および
d(i、R)のRは単語標準パターンであることを表す
。
備選択について述べる。ここでは、上記単語標準パター
ン格納部8に格納されている単語標準パターンと人カバ
ターンとの簡単なマツチングが行われる。ここで、上記
人カバターンが上述のようにして補助パターンを備える
のと同様にして、単語標準パターンも補助パターンを備
えている。ただし、単語標準パターンの補助パターンに
はC系列C(i、R)のフレーム数d(i、R)に制限
窓W(i)が設けである。ここで、C(i、R)および
d(i、R)のRは単語標準パターンであることを表す
。
予備選択部6では、まず、人カバターンのC系列C(i
、 I)と単語標準パターンのC系列C(i、R)と
が比較される。その結果、両者が完全に一致するか、あ
るいは、パラメータCがC=1(すなわち声道に狭めが
形成されている)であるセグメントの継続時間長が20
〜30m5以下の場合にはそのセグメントを除外した他
の総てのセグメントの両C系列が同一である場合には次
のステップに進む。
、 I)と単語標準パターンのC系列C(i、R)と
が比較される。その結果、両者が完全に一致するか、あ
るいは、パラメータCがC=1(すなわち声道に狭めが
形成されている)であるセグメントの継続時間長が20
〜30m5以下の場合にはそのセグメントを除外した他
の総てのセグメントの両C系列が同一である場合には次
のステップに進む。
そして、次のステップで上記制限窓W(i)に基づいて
継続時間が調べられる。その結果、総てのセグメントi
に対して入カバターンのフレーム数d(i 、 I)が
単語標準パターンのフレーム数d(i、R)に対するの
制限窓W(i)内に収まっていれば、上記識別部7でマ
ツチングを実行して単語認識を行う際の単語標準パター
ンの候補として選出される。すなわち、 すべてのiに対して d(i、R)−11(i)<d(i、 I)<d(i、
R)+W(i)ならば、マツチングの際における単語標
準パターンの候補として残る。したがって、このように
して残った単語標準パターンのC系列は、C=1である
セグメントの一部を除いて(U続時間長が20〜30m
5以下の場合のみ)入カバターンのC系列とほぼ一致し
ている。
継続時間が調べられる。その結果、総てのセグメントi
に対して入カバターンのフレーム数d(i 、 I)が
単語標準パターンのフレーム数d(i、R)に対するの
制限窓W(i)内に収まっていれば、上記識別部7でマ
ツチングを実行して単語認識を行う際の単語標準パター
ンの候補として選出される。すなわち、 すべてのiに対して d(i、R)−11(i)<d(i、 I)<d(i、
R)+W(i)ならば、マツチングの際における単語標
準パターンの候補として残る。したがって、このように
して残った単語標準パターンのC系列は、C=1である
セグメントの一部を除いて(U続時間長が20〜30m
5以下の場合のみ)入カバターンのC系列とほぼ一致し
ている。
次に、上記識別部7における予備選択された単語標準パ
ターンと人カバターンとのマツチングについて述べる。
ターンと人カバターンとのマツチングについて述べる。
ここでは、予備選択部6で選出された単語認識の際の単
語標準パターンの候補と入カバターンとのマツチングが
行われる。本実施例におけるマツチングはDPマッヂン
グによる音韻ラベル系列間の非線形伸縮を行う。
語標準パターンの候補と入カバターンとのマツチングが
行われる。本実施例におけるマツチングはDPマッヂン
グによる音韻ラベル系列間の非線形伸縮を行う。
その際に、上述の予備選択によって選出された単語標準
パターンの大局的な特徴を表す補助パターンと入カバタ
ーンの補助パターンとはほぼ一致しているので、全区間
に渡ってDPマツチングを実施するのは得策ではない。
パターンの大局的な特徴を表す補助パターンと入カバタ
ーンの補助パターンとはほぼ一致しているので、全区間
に渡ってDPマツチングを実施するのは得策ではない。
そこで、入カバターンと単語標準パターンとの補助パタ
ーンのC系列中のパラメータCの値が一致している区間
同志、すなわち、同種類のセグメント間同志でのDPマ
ツチングを行うのである。こうすることによって、マツ
チングパスは各セグメントの境界で制限されるのである
。また、C=1であるセグメントであって継続時間長が
20〜30m5以下と短い場合には、人カバターンであ
れ単語標準パターンであれ、そのセグメントの境界はマ
ツチングパス限定点の対象にはしない。
ーンのC系列中のパラメータCの値が一致している区間
同志、すなわち、同種類のセグメント間同志でのDPマ
ツチングを行うのである。こうすることによって、マツ
チングパスは各セグメントの境界で制限されるのである
。また、C=1であるセグメントであって継続時間長が
20〜30m5以下と短い場合には、人カバターンであ
れ単語標準パターンであれ、そのセグメントの境界はマ
ツチングパス限定点の対象にはしない。
第3図は、セグメント数が6であり、第2図(c)と同
じC系列であるサンプルにおけるDPマツチングバスと
各セグメント毎に設けられた整合窓を例示したものであ
る。
じC系列であるサンプルにおけるDPマツチングバスと
各セグメント毎に設けられた整合窓を例示したものであ
る。
第iセグメント間同志のDPマツチングによる距離をd
iとおくと、入カバターンと単語標準パターンとの間の
距離dは各セグメント間距離diの和として表される。
iとおくと、入カバターンと単語標準パターンとの間の
距離dは各セグメント間距離diの和として表される。
その際に、パラメータCの値に応じてセグメント間距離
diに次のような重みg(k)(k=o、1.2)を付
けてパターン間距離dを算出する。すなわち、第iセグ
メントにおけるパラメータCの値をCi、総セグメント
数をNとすると、パターン間距離dの値は d=(1/N)・Σ g(Ci)・di (g(C
i)≧0)i=1 となる。
diに次のような重みg(k)(k=o、1.2)を付
けてパターン間距離dを算出する。すなわち、第iセグ
メントにおけるパラメータCの値をCi、総セグメント
数をNとすると、パターン間距離dの値は d=(1/N)・Σ g(Ci)・di (g(C
i)≧0)i=1 となる。
ここで、上述のようにC=0のセグメントは話者や発声
環境による差が大きく、C=1およびC−2の場合に比
較して安定した特徴量とは言えないので、C=0のセグ
メントにおけ゛る重みg(0)は小さい値にする。すな
わち、鼻子音やバズバーは時間方向の変動が大きいのみ
ならず、発声機構上個人差の大きい鼻腔を通過している
ためスペクトルの変動も大きい。しかも、鼻腔は口腔と
は違って調音運動によってその形を変えることができな
いため、スペクトル形状の個人差として直接税れるので
ある。また、無音区間は周囲騒音そのものであり、発声
環境に大きく影響される。つまり、C−0のセグメント
は種々の要件によって継続時間、スペクトルの両面にお
いてばらつきが大きい。
環境による差が大きく、C=1およびC−2の場合に比
較して安定した特徴量とは言えないので、C=0のセグ
メントにおけ゛る重みg(0)は小さい値にする。すな
わち、鼻子音やバズバーは時間方向の変動が大きいのみ
ならず、発声機構上個人差の大きい鼻腔を通過している
ためスペクトルの変動も大きい。しかも、鼻腔は口腔と
は違って調音運動によってその形を変えることができな
いため、スペクトル形状の個人差として直接税れるので
ある。また、無音区間は周囲騒音そのものであり、発声
環境に大きく影響される。つまり、C−0のセグメント
は種々の要件によって継続時間、スペクトルの両面にお
いてばらつきが大きい。
したがって、DPマッヂング時におけるC−0のセグメ
ントの重みg(0)をC=1のセグメントにおける重み
g(1)およびC=2のセグメントにおける重みg(2
)の値に比較して小さく設定することによって、上記継
続時間およびスペクトルのばらつきによる単語認識への
影響をより小さくすることができるのである。すなわち
、重みg(Ci)の具体的な値は、g(0)< 1 、
g(1)> 1およびg(2)−1となるように設定す
る。
ントの重みg(0)をC=1のセグメントにおける重み
g(1)およびC=2のセグメントにおける重みg(2
)の値に比較して小さく設定することによって、上記継
続時間およびスペクトルのばらつきによる単語認識への
影響をより小さくすることができるのである。すなわち
、重みg(Ci)の具体的な値は、g(0)< 1 、
g(1)> 1およびg(2)−1となるように設定す
る。
さらに、全区間での重みg(k)によるバランスをなリ
ジェクト判定閾値を制御する。すなわち、上記予備選択
部6によって選出された単語標準パターンの総ての中か
ら、上述のようにして入カバターンとの距離がもっとも
小さい単語標準パターンが識別部7によって選出された
後、予め設定されたりジエクト閾値θと上記(1/N)
・2g(Ci)の値i=1 との積で表されるリジェクト判定閾値と、上記識別部7
によって最終的に選出された単語標準パターンと人カバ
ターンとの距離とが比較される。そして、パターン間距
離がリジェクト判定閾値以内であれば、その入カバター
ンの単語がその単語標準パターンの単語として認識され
る。
ジェクト判定閾値を制御する。すなわち、上記予備選択
部6によって選出された単語標準パターンの総ての中か
ら、上述のようにして入カバターンとの距離がもっとも
小さい単語標準パターンが識別部7によって選出された
後、予め設定されたりジエクト閾値θと上記(1/N)
・2g(Ci)の値i=1 との積で表されるリジェクト判定閾値と、上記識別部7
によって最終的に選出された単語標準パターンと人カバ
ターンとの距離とが比較される。そして、パターン間距
離がリジェクト判定閾値以内であれば、その入カバター
ンの単語がその単語標準パターンの単語として認識され
る。
また、多人数の発声サンプルから単語標準パターンを作
成した場合には、各セグメントの継続時間の平均値や標
準偏差が導出できる。したがって、それらの値を利用し
て各セグメントを伸縮する際の上限下限を設定する。
成した場合には、各セグメントの継続時間の平均値や標
準偏差が導出できる。したがって、それらの値を利用し
て各セグメントを伸縮する際の上限下限を設定する。
すなわち、この発明においては、人カバターンおよび単
語標準パターンを声道の狭めの度合いを表すパラメータ
Cの時系列とこのパラメータCの継続時間情報の時系列
とからなる補助パターンによって表し、入カバターンの
補助パターンと単語標準パターンの補助パターンとを比
較して、両補助パターンのパラメータCの時系列とこの
パラメータCの継続時間情報の時系列に基づいて、予め
単語標準パターンの予備選択を行い、この予備選択され
た単語標準パターンと入カバターンとをDPマツチング
を行うようにしている。このように、話者や発声環境に
影響されない声道の狭めの度合いに基づいて単語標準パ
ターンの予備選択を行うので、安定した特徴量に基づい
て単語標準パターンの予備選択を行うことができる。し
たがって、DPマツチングの際の計算量を少なくし、誤
認識率を低下することができる。
語標準パターンを声道の狭めの度合いを表すパラメータ
Cの時系列とこのパラメータCの継続時間情報の時系列
とからなる補助パターンによって表し、入カバターンの
補助パターンと単語標準パターンの補助パターンとを比
較して、両補助パターンのパラメータCの時系列とこの
パラメータCの継続時間情報の時系列に基づいて、予め
単語標準パターンの予備選択を行い、この予備選択され
た単語標準パターンと入カバターンとをDPマツチング
を行うようにしている。このように、話者や発声環境に
影響されない声道の狭めの度合いに基づいて単語標準パ
ターンの予備選択を行うので、安定した特徴量に基づい
て単語標準パターンの予備選択を行うことができる。し
たがって、DPマツチングの際の計算量を少なくし、誤
認識率を低下することができる。
また、この発明においては、上記DPマツチングを行う
際のマツチングパスを、同一のパラメータCが続く区間
(セグメント)の境界に対応させて制限するので、話者
や発声環境に左右されずに安定した位置でマツチングパ
スを制限することができる。したがって、DPマツチン
グの際の計算量を少なくし、さらに誤認識率を低下する
ことができる。
際のマツチングパスを、同一のパラメータCが続く区間
(セグメント)の境界に対応させて制限するので、話者
や発声環境に左右されずに安定した位置でマツチングパ
スを制限することができる。したがって、DPマツチン
グの際の計算量を少なくし、さらに誤認識率を低下する
ことができる。
また、この発明においては、パラメータc h< c=
0となるセグメントにおけるマツチング距離の重みg(
0)を、C=1となるセグメントにおける重みg(1)
およびC=2となるセグメントにおける重みg(2)よ
りも小さくしているので、さらに話者や発声環境の変動
に対して影響されることなく音声認識を行うことができ
る。したがって、話者や発声環境の変動等に備えたテン
プレートの数を減少することができる。
0となるセグメントにおけるマツチング距離の重みg(
0)を、C=1となるセグメントにおける重みg(1)
およびC=2となるセグメントにおける重みg(2)よ
りも小さくしているので、さらに話者や発声環境の変動
に対して影響されることなく音声認識を行うことができ
る。したがって、話者や発声環境の変動等に備えたテン
プレートの数を減少することができる。
本実施例においてはDPマッヂングによって音声認識を
行っているが、この発明はこれに限定されることがなく
、他のマツチング方法によってもよいことは言うまでも
ない。
行っているが、この発明はこれに限定されることがなく
、他のマツチング方法によってもよいことは言うまでも
ない。
〈発明の効果〉
以上より明らかなように、この発明の音声認識方式は、
入力された音声信号に基づいて、声道の狭めの度合いを
表すパラメータの時系列と上記パラメータの継続時間情
報の時系列からなる入力補助パターンを入力補助パター
ン作成手段によって求め、上記入力補助パターンと標準
補助パターン格納部に格納された標準補助パターンとを
比較することにより、マツチングパスの制限や標準パタ
ーンの予備選択を行うようにしたので、マツチングの際
の計算量を少なくでき、誤認識率を低下することができ
る。
入力された音声信号に基づいて、声道の狭めの度合いを
表すパラメータの時系列と上記パラメータの継続時間情
報の時系列からなる入力補助パターンを入力補助パター
ン作成手段によって求め、上記入力補助パターンと標準
補助パターン格納部に格納された標準補助パターンとを
比較することにより、マツチングパスの制限や標準パタ
ーンの予備選択を行うようにしたので、マツチングの際
の計算量を少なくでき、誤認識率を低下することができ
る。
第1図はこの発明に係る音声認識装置の一実施例を示す
ブロック図、第2図(a)は入力音声波形の一例を示す
図、第2図(b)は第2図(a)の音声波形に基づいて
得られたラベルの時系列を示す図、第2図(C)は第2
図(b)のラベルの時系列から得られた補助パターンを
示す図、第3図は第1図の識別部において実行されるD
Pマツチングのマツチングパスおよび整合窓の一例を示
す図である。 ■・・・マイクロホン、2・・・音響分析部、3・・・
パターン変換部、4・・・標県パターン格納部、5・・
・有音・無音判定部、 6・・・予備選択部、 7・・・識別部、訃・・単
語標準パターン格納部、 9・・・表示部。
ブロック図、第2図(a)は入力音声波形の一例を示す
図、第2図(b)は第2図(a)の音声波形に基づいて
得られたラベルの時系列を示す図、第2図(C)は第2
図(b)のラベルの時系列から得られた補助パターンを
示す図、第3図は第1図の識別部において実行されるD
Pマツチングのマツチングパスおよび整合窓の一例を示
す図である。 ■・・・マイクロホン、2・・・音響分析部、3・・・
パターン変換部、4・・・標県パターン格納部、5・・
・有音・無音判定部、 6・・・予備選択部、 7・・・識別部、訃・・単
語標準パターン格納部、 9・・・表示部。
Claims (1)
- (1)入力された音声信号からこの音声信号の特徴を表
す特徴パターンを音響分析部で求め、標準パターン格納
部に格納された標準パターンと上記特徴パターンとのマ
ッチングを識別部で行って入力音声を認識する音声認識
方式において、 入力された音声信号に基づいて、声道の狭めの度合いを
表すパラメータの時系列と、上記パラメータの継続時間
情報の時系列からなる入力補助パターンを求める入力補
助パターン作成手段と、上記標準パターンにおける声道
の狭めの度合いを表すパラメータの時系列と、上記パラ
メータの継続時間情報の時系列と、上記パラメータの継
続時間情報に対する制限窓からなる標準補助パターンを
格納している標準補助パターン格納部を備えて、 上記入力補助パターンと上記標準補助パターンとを比較
することにより、上記識別部においてマッチングを実行
する際のマッチングパスの制限や標準パターンの予備選
択を行うことを特徴とする音声認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63186352A JPH0235500A (ja) | 1988-07-26 | 1988-07-26 | 音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63186352A JPH0235500A (ja) | 1988-07-26 | 1988-07-26 | 音声認識方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0235500A true JPH0235500A (ja) | 1990-02-06 |
Family
ID=16186857
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63186352A Pending JPH0235500A (ja) | 1988-07-26 | 1988-07-26 | 音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0235500A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008249807A (ja) * | 2007-03-29 | 2008-10-16 | Kddi Corp | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
-
1988
- 1988-07-26 JP JP63186352A patent/JPH0235500A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008249807A (ja) * | 2007-03-29 | 2008-10-16 | Kddi Corp | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6553342B1 (en) | Tone based speech recognition | |
EP1647970B1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
JPS6336676B2 (ja) | ||
JPH07146699A (ja) | 音声認識方法 | |
JP2001521193A (ja) | パラメータ共用音声認識方法及び装置 | |
Verhasselt et al. | A fast and reliable rate of speech detector | |
JP2006171750A (ja) | 音声認識のための特徴ベクトル抽出方法 | |
US20070203700A1 (en) | Speech Recognition Apparatus And Speech Recognition Method | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Stouten et al. | A feature-based filled pause detection system for Dutch | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
Shafie et al. | Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR | |
JPH0235500A (ja) | 音声認識方式 | |
Huckvale | 14 An Introduction to Phonetic Technology | |
JP2943473B2 (ja) | 音声認識方法 | |
Bhardwaj et al. | A Study of Methods Involved In Voice Emotion Recognition | |
JP2943445B2 (ja) | 音声認識方法 | |
KR100322731B1 (ko) | 음성인식방법및이에적합한음성패턴의시간정규화방법 | |
JP2574557B2 (ja) | 音声認識方法 | |
Bhattachajee et al. | An experimental analysis of speech features for tone speech recognition | |
JP2692382B2 (ja) | 音声認識方法 | |
JP2862306B2 (ja) | 音声認識装置 | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 |