JPH0255398A - 相対関係に基づく音声認識方式 - Google Patents
相対関係に基づく音声認識方式Info
- Publication number
- JPH0255398A JPH0255398A JP63205684A JP20568488A JPH0255398A JP H0255398 A JPH0255398 A JP H0255398A JP 63205684 A JP63205684 A JP 63205684A JP 20568488 A JP20568488 A JP 20568488A JP H0255398 A JPH0255398 A JP H0255398A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- basic unit
- vowel
- candidate sequence
- unit candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 113
- 238000000034 method Methods 0.000 claims description 78
- 238000000605 extraction Methods 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 20
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000009826 distribution Methods 0.000 claims description 10
- 238000000611 regression analysis Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 9
- 239000000284 extract Substances 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔概 要〕
連続音声中における母音等の認識基本単位の認識方式に
係り、特に不特定話者にも適用可能な相対関係に基づく
音声認識方式に関し、 話者の変動及び調音結合の影響等を受けにくく、かつ、
簡単な構成によって高い認識率で、母音又は子音等の認
識基本単位の認識を可能とすることを目的とし、 同一のものを含む所定複数種類の認識基本単位の組の各
々につき、その組の各認識基本単位から得られる各特徴
量間の特徴空間上の相対的な位置関係の標準パターンを
記憶する相対関係標準パターン記憶手段と、未知入力音
声から各々複数候補ずつの認識基本単位候補系列群を抽
出する予i識別手段と、該認識基本単位候補系列群から
選択される前記所定複数種類の認識基本単位候補の組の
各々につき、その組内の各特徴間と前記相対関係標準パ
ターン記憶手段上のその組に対応する前記相対関係標章
パターンとの整合度を演算し、該各整合度に基づいて前
記認識基本単位候補系列群の中から前記未知人力音声に
対応する最適認識基本単位候補系列を認識する最適認識
基本単位候補系列認識手段とを有するように構成する。
係り、特に不特定話者にも適用可能な相対関係に基づく
音声認識方式に関し、 話者の変動及び調音結合の影響等を受けにくく、かつ、
簡単な構成によって高い認識率で、母音又は子音等の認
識基本単位の認識を可能とすることを目的とし、 同一のものを含む所定複数種類の認識基本単位の組の各
々につき、その組の各認識基本単位から得られる各特徴
量間の特徴空間上の相対的な位置関係の標準パターンを
記憶する相対関係標準パターン記憶手段と、未知入力音
声から各々複数候補ずつの認識基本単位候補系列群を抽
出する予i識別手段と、該認識基本単位候補系列群から
選択される前記所定複数種類の認識基本単位候補の組の
各々につき、その組内の各特徴間と前記相対関係標準パ
ターン記憶手段上のその組に対応する前記相対関係標章
パターンとの整合度を演算し、該各整合度に基づいて前
記認識基本単位候補系列群の中から前記未知人力音声に
対応する最適認識基本単位候補系列を認識する最適認識
基本単位候補系列認識手段とを有するように構成する。
本発明は、連続音声中における母音等の認識基本単位の
認識方式に係り、特に不特定話者にも適用可能な相対関
係に基づく音声認識方式に関する。
認識方式に係り、特に不特定話者にも適用可能な相対関
係に基づく音声認識方式に関する。
音声認識を行う場合、通常は、音声を短いフレーム(数
十m5ec)に分割し、各フレーム毎に特徴ベクトル(
特徴間)を抽出し、その特徴ベクトルに基づいて認識を
行う。そして、この特徴ベクトルにつき、典型的な標準
パターン(例えば母音の場合、5母音)を予め辞書とし
て記憶させておき、未知入力音声の特徴ベクトルを、辞
書内の各標準パターンと距離尺度を用いてマツチングさ
せることにより、音声の各部分の認識を行っている。こ
のような認識方式を個別認識方式と呼ぶ。
十m5ec)に分割し、各フレーム毎に特徴ベクトル(
特徴間)を抽出し、その特徴ベクトルに基づいて認識を
行う。そして、この特徴ベクトルにつき、典型的な標準
パターン(例えば母音の場合、5母音)を予め辞書とし
て記憶させておき、未知入力音声の特徴ベクトルを、辞
書内の各標準パターンと距離尺度を用いてマツチングさ
せることにより、音声の各部分の認識を行っている。こ
のような認識方式を個別認識方式と呼ぶ。
一方、母音等に対応する特徴ベクトル間の相対的な距離
関係、すなわち、例えば5母音から選択可能な3母音の
組み合わせの各々につき、3母音の特徴ベクトルの相互
の距離の大小関係を標準パターンとして記憶させておき
、その相対距離に基づいて認識を行う方式も提案されて
いる。
関係、すなわち、例えば5母音から選択可能な3母音の
組み合わせの各々につき、3母音の特徴ベクトルの相互
の距離の大小関係を標準パターンとして記憶させておき
、その相対距離に基づいて認識を行う方式も提案されて
いる。
しかし、一般に、連続音声中から抽出される特徴間は、
音韻性の情報の他に、個人性及び前後の音韻による調音
結合の影響が混在する複雑な形態を示すため、例えば不
特定多数話者を対象とする音声認識では、音韻情報の分
離が困難である。
音韻性の情報の他に、個人性及び前後の音韻による調音
結合の影響が混在する複雑な形態を示すため、例えば不
特定多数話者を対象とする音声認識では、音韻情報の分
離が困難である。
例えば、母音について考察してみると、まず、母音は一
般に周波数軸上の特定の2〜3個の周波数位置にピーク
をもち、このうち低周波数領域の2つの周波数は、第1
ホルマント周波数F1及び第2ホルマント周波数F2と
呼ばれている。そして、Flを横軸、F2を縦軸にとっ
て、5種類の母音(/I/、/E/、/A/、10/、
/U/ lの各々についてプロットすると、5母音は第
6図の実線で示した5角形を形成する。従って、このよ
うなホルマント周波数に良く対応する特徴ベクトルを辞
書として持っておけば認識ができることになるが、実際
には、例えば話者が異なった場合の5種類の母音の形成
する5角形は、第6図の破線及び小文字で示したように
変動する。そしてこのとき、実線の方の母音10/と、
破線の方の母音/u/及び10/とが接近し、従って、
片方のみの標準パターンを持っているだけでは、これら
の母音が相互に誤認識されてしまう。この問題は、連続
音声中の母音が前後の音韻の調音結合の影響を受ける場
合にも同様に発生する。このように、従来の個別識別法
では、話者の変動又は調音結合の影響等により、認識率
が悪くなるという問題点を有している。
般に周波数軸上の特定の2〜3個の周波数位置にピーク
をもち、このうち低周波数領域の2つの周波数は、第1
ホルマント周波数F1及び第2ホルマント周波数F2と
呼ばれている。そして、Flを横軸、F2を縦軸にとっ
て、5種類の母音(/I/、/E/、/A/、10/、
/U/ lの各々についてプロットすると、5母音は第
6図の実線で示した5角形を形成する。従って、このよ
うなホルマント周波数に良く対応する特徴ベクトルを辞
書として持っておけば認識ができることになるが、実際
には、例えば話者が異なった場合の5種類の母音の形成
する5角形は、第6図の破線及び小文字で示したように
変動する。そしてこのとき、実線の方の母音10/と、
破線の方の母音/u/及び10/とが接近し、従って、
片方のみの標準パターンを持っているだけでは、これら
の母音が相互に誤認識されてしまう。この問題は、連続
音声中の母音が前後の音韻の調音結合の影響を受ける場
合にも同様に発生する。このように、従来の個別識別法
では、話者の変動又は調音結合の影響等により、認識率
が悪くなるという問題点を有している。
上記問題点のうち、個人性の問題を解決するためには、
0個人性の変動に強い特徴間・距離尺度の選択、■変動
に強い標準パターン・認識関数の選択、■個人差への適
応化等の解決策が考えられる。■、■は、統計的手法に
代表され、高い認識率を示すが、標準パターンの設計に
用いた集団の分布から外れた話者に対して、著しく誤り
が多くなる。従って、多数話者を対象とする場合には、
標準パターンの複数化や、学習による適応が必要になる
。■については、予め用意しである標準パターンを話者
の発声に適応して教師なしで修正していく方式があるが
、次のような問題点がある。
0個人性の変動に強い特徴間・距離尺度の選択、■変動
に強い標準パターン・認識関数の選択、■個人差への適
応化等の解決策が考えられる。■、■は、統計的手法に
代表され、高い認識率を示すが、標準パターンの設計に
用いた集団の分布から外れた話者に対して、著しく誤り
が多くなる。従って、多数話者を対象とする場合には、
標準パターンの複数化や、学習による適応が必要になる
。■については、予め用意しである標準パターンを話者
の発声に適応して教師なしで修正していく方式があるが
、次のような問題点がある。
まず、初期標準パターンによる認識結果をもとにして、
その時々の入力音声を修正に用いるか否かを判断して5
母音を個別に修正すると、誤った方向に修正が行われる
危険性がある。また、修正の方向は正しくても、認識率
は必ずしも向上しない可能性もある。そして、教師なし
学習は、このような問題を避けるために複雑な認識系を
構成する必要がある。
その時々の入力音声を修正に用いるか否かを判断して5
母音を個別に修正すると、誤った方向に修正が行われる
危険性がある。また、修正の方向は正しくても、認識率
は必ずしも向上しない可能性もある。そして、教師なし
学習は、このような問題を避けるために複雑な認識系を
構成する必要がある。
一方、調音結合の問題では、主に連続母音について、前
後の音韻の影響を考慮した方式が考えられるが、通常の
単語音声中の子音に後続する母音はより複雑な挙動を示
し、その解析も困難である。
後の音韻の影響を考慮した方式が考えられるが、通常の
単語音声中の子音に後続する母音はより複雑な挙動を示
し、その解析も困難である。
また、前記した特徴ベクトル間の相対的な距離関係に基
づいて母音等の認識を行う方式は、第6図の5母音の5
角形は、移動することはあっても、その形自体は話者の
変動等があってもあまり変化しないという事実に基づき
、5母音の相対的な関係を認識に利用しようという方式
であり、個人性又は調音結合の影響等に比較的強いとい
う利点を有する。しかし、特徴ベクトル間の単純な距離
関係だけでは、情報量が少なすぎ、認識率が必ずしも高
くないという問題点を有している。
づいて母音等の認識を行う方式は、第6図の5母音の5
角形は、移動することはあっても、その形自体は話者の
変動等があってもあまり変化しないという事実に基づき
、5母音の相対的な関係を認識に利用しようという方式
であり、個人性又は調音結合の影響等に比較的強いとい
う利点を有する。しかし、特徴ベクトル間の単純な距離
関係だけでは、情報量が少なすぎ、認識率が必ずしも高
くないという問題点を有している。
本発明は、話者の変動及び調音結合の影響等を受けにく
く、かつ、簡単な構成によって高い認識率で、母音又は
子音等の認識基本単位の認識を可能とすることを目的と
する。
く、かつ、簡単な構成によって高い認識率で、母音又は
子音等の認識基本単位の認識を可能とすることを目的と
する。
第1図は、本発明による相対関係に基づく音声認識方式
のブロック図である。
のブロック図である。
相対関係標準パターン記憶手段105は、同一のものを
含む所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係の標準パターン106を記憶す
る。同手段は、例えば同一のものを含む2種類の母音の
組の各々につき、その組の各母音から得られる各特徴ベ
クトルの差ベクトルの標準パターンを記憶する差ベクト
ル標準パターン記憶手段により実現される。そして、こ
の差ベクトル標準パターン記憶手段には、例えば2種類
の母音の組の各々につき、その組の複数の学習サンプル
から得られる差ベクトルの平均差ベクトルと共分散行列
が前記差ベクトル標準パターンとして記憶される。
含む所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係の標準パターン106を記憶す
る。同手段は、例えば同一のものを含む2種類の母音の
組の各々につき、その組の各母音から得られる各特徴ベ
クトルの差ベクトルの標準パターンを記憶する差ベクト
ル標準パターン記憶手段により実現される。そして、こ
の差ベクトル標準パターン記憶手段には、例えば2種類
の母音の組の各々につき、その組の複数の学習サンプル
から得られる差ベクトルの平均差ベクトルと共分散行列
が前記差ベクトル標準パターンとして記憶される。
予備識別手段102は、未知入力音声101から各々複
数候補ずつの認識基本単位候補系列群103を抽出する
。同手段は、例えば5母音の各母音毎の特徴量の標準パ
ターンを記憶する母音別標準パターン記憶手段と、未知
入力単語音声101を時間軸方向に分割した複数フレー
ムから複数の母音区間とその区間の特徴量を抽出する母
音区間抽出手段と、各母音区間毎に、その区間の特@量
と母音側標準パターン記憶手段上の各標準パターンとの
マツチングをとることにより、各母音区間毎に3位まで
の母音候補を識M11シ、3候補ずつの母音候補系列群
として出力する母音候補系列群生成手段とによって実現
される。
数候補ずつの認識基本単位候補系列群103を抽出する
。同手段は、例えば5母音の各母音毎の特徴量の標準パ
ターンを記憶する母音別標準パターン記憶手段と、未知
入力単語音声101を時間軸方向に分割した複数フレー
ムから複数の母音区間とその区間の特徴量を抽出する母
音区間抽出手段と、各母音区間毎に、その区間の特@量
と母音側標準パターン記憶手段上の各標準パターンとの
マツチングをとることにより、各母音区間毎に3位まで
の母音候補を識M11シ、3候補ずつの母音候補系列群
として出力する母音候補系列群生成手段とによって実現
される。
最適認識基本単位候補系列認識手段104は、認識基本
単位候補系列群103から選択される前記所定複数種類
の認識基本単位候補の組の各々につき、その組内の各特
徴量と相対関係標準パターン記憶手段105上のその組
に対応する相対関係標準パターン106との整合度を演
算し、該各整合度に基づいて認識基本単位候補系列群1
03の中から未知入力音声101に対応する最適認識基
本単位候補系列107を認識する。同手段は、例えば前
記母音候補系列群から選択される前記2種類の母音の組
の各々につき、その組内の各特徴ヘクトルの差ベクトル
を演算し該差ベクトルと前記差ベクトル標準パターン記
憶手段上のその組に対応する前記差ベクトル標準パター
ンとの整合度を演算し、その各整合度に基づいて前記母
音候補系列群の中から前記未知入力音声101に対応す
る最適母音候補系列を認識する手段により実現される。
単位候補系列群103から選択される前記所定複数種類
の認識基本単位候補の組の各々につき、その組内の各特
徴量と相対関係標準パターン記憶手段105上のその組
に対応する相対関係標準パターン106との整合度を演
算し、該各整合度に基づいて認識基本単位候補系列群1
03の中から未知入力音声101に対応する最適認識基
本単位候補系列107を認識する。同手段は、例えば前
記母音候補系列群から選択される前記2種類の母音の組
の各々につき、その組内の各特徴ヘクトルの差ベクトル
を演算し該差ベクトルと前記差ベクトル標準パターン記
憶手段上のその組に対応する前記差ベクトル標準パター
ンとの整合度を演算し、その各整合度に基づいて前記母
音候補系列群の中から前記未知入力音声101に対応す
る最適母音候補系列を認識する手段により実現される。
そして、そのときの整合度の演算は、2種類の母音の各
組の生起確率が等しく、整合を行うべき組における差ベ
クトルの確率分布が、前記差ベクトル標準パターン記憶
手段上のその組に対応する前記平均差ベクトルと前記共
分散行列とで定まる多次元正規分布に従うと仮定した場
合の、整合を行うべき差ベクトルを入力とするベイズ識
別関数を求める演算により実現される。そして、各整合
度からの最適母音候補系列の認識は、確率的弛緩法によ
り前記母音候補系列群の各母音候補の確率を各整合度に
基づいて更新し、所定回数の更新動作の後、各母音候補
毎に各々の確率が最も高(なった母音候補を選択して母
音候補系列を認識する動作により実現される。
組の生起確率が等しく、整合を行うべき組における差ベ
クトルの確率分布が、前記差ベクトル標準パターン記憶
手段上のその組に対応する前記平均差ベクトルと前記共
分散行列とで定まる多次元正規分布に従うと仮定した場
合の、整合を行うべき差ベクトルを入力とするベイズ識
別関数を求める演算により実現される。そして、各整合
度からの最適母音候補系列の認識は、確率的弛緩法によ
り前記母音候補系列群の各母音候補の確率を各整合度に
基づいて更新し、所定回数の更新動作の後、各母音候補
毎に各々の確率が最も高(なった母音候補を選択して母
音候補系列を認識する動作により実現される。
以上の手段において、まず、認識の基本となる整合度の
計算において、所定複数種類の認識基本単位の組の各々
につき、その組の各認識基本単位から得られる各特tL
I間の特徴空間上の相対的な位置関係を用いることによ
り、話者の変動や調音結合の影響に左右されにくい整合
度の演算が可能となる。これにより、単純に特@量間の
距離によって認識基本単位間の相対関係を表現する方式
等に比較して、認識基本単位間の相対関係に関する情報
がはるかに多く抽出され、精度の高い認識処理が実現さ
れる。
計算において、所定複数種類の認識基本単位の組の各々
につき、その組の各認識基本単位から得られる各特tL
I間の特徴空間上の相対的な位置関係を用いることによ
り、話者の変動や調音結合の影響に左右されにくい整合
度の演算が可能となる。これにより、単純に特@量間の
距離によって認識基本単位間の相対関係を表現する方式
等に比較して、認識基本単位間の相対関係に関する情報
がはるかに多く抽出され、精度の高い認識処理が実現さ
れる。
次に、本発明では、予備識別手段102で抽出される各
々複数候補ずつの認識基本単位候補系列群103を認識
に使用することにより、真の認識基本単位候補が除外さ
れてしまうのを防いでいる。
々複数候補ずつの認識基本単位候補系列群103を認識
に使用することにより、真の認識基本単位候補が除外さ
れてしまうのを防いでいる。
更に、本発明では、認識対象を認識基本単位候補系列群
とし、そのような系列群に対して、そこから選択される
前記所定複数種類の認識基本単位候補の組の整合度を順
次評価し、それらを総合して全体的に高く評価された系
列を最適認識基本単位候補系列として認識している。従
って、本発明では、多(の認識基本単位候補を用いて総
合的な評価を行うことにより、個人性や調音結合の影響
による個々の認識基本単位の曖昧性を減少させ、前記整
合度の利用による効果とあいまって、安定かつ精度の高
い認識が行われる。
とし、そのような系列群に対して、そこから選択される
前記所定複数種類の認識基本単位候補の組の整合度を順
次評価し、それらを総合して全体的に高く評価された系
列を最適認識基本単位候補系列として認識している。従
って、本発明では、多(の認識基本単位候補を用いて総
合的な評価を行うことにより、個人性や調音結合の影響
による個々の認識基本単位の曖昧性を減少させ、前記整
合度の利用による効果とあいまって、安定かつ精度の高
い認識が行われる。
特にこの場合、最適認識基本単位候補系列の選択のため
に確率的弛緩法を採用することにより、認識基本単位候
補系列群の全ての系列の組み合わせについて計算を行う
必要性を回避し、効率の高い処理を実現している。
に確率的弛緩法を採用することにより、認識基本単位候
補系列群の全ての系列の組み合わせについて計算を行う
必要性を回避し、効率の高い処理を実現している。
以下、本発明の実施例につき詳細に説明を行う。
(本発明の実施例の構成)
第2図は、本発明の実施例の構成図である。未知入力音
声201は、特徴ベクトル抽出部202に入力し、ここ
で10次のメル・ケプストラム係数である特徴ベクトル
が抽出される。
声201は、特徴ベクトル抽出部202に入力し、ここ
で10次のメル・ケプストラム係数である特徴ベクトル
が抽出される。
次に、その特徴ベクトル及び同時に求まる対数パワー(
後述する)は母音特徴ベクトル系列抽出部203に入力
し、ここで未知人力音声201の母音区間が抽出され、
その区間の母音特徴ベクトル系列(後述する)が抽出さ
れる。
後述する)は母音特徴ベクトル系列抽出部203に入力
し、ここで未知人力音声201の母音区間が抽出され、
その区間の母音特徴ベクトル系列(後述する)が抽出さ
れる。
続いて、母音特徴ベクトル系列は予備識別部204に入
力する。ここでは、上記母音特徴ベクトル系列の各特徴
ベクトルと、母音別標卓パターン記憶部205に予め記
憶されている5母音別の各特徴ベクトルの標準パターン
とがパターンマツチングされ、各々第3位までの候補か
らなる母音候補系列群が識別される。
力する。ここでは、上記母音特徴ベクトル系列の各特徴
ベクトルと、母音別標卓パターン記憶部205に予め記
憶されている5母音別の各特徴ベクトルの標準パターン
とがパターンマツチングされ、各々第3位までの候補か
らなる母音候補系列群が識別される。
母音候補系列群は、更に最適母音候補系列抽出部206
に入力する。ここでは、相対関係標準パターン記憶部2
07に予め記憶されている相対関係標準パターンに基づ
いて、母音候補系列群の中から最も良く相対関係を満た
す母音候補系列を最適母音候補系列として出力して、未
知入力音声201の最P、認識結果とする。
に入力する。ここでは、相対関係標準パターン記憶部2
07に予め記憶されている相対関係標準パターンに基づ
いて、母音候補系列群の中から最も良く相対関係を満た
す母音候補系列を最適母音候補系列として出力して、未
知入力音声201の最P、認識結果とする。
(本発明の実施例の動作)
上記実施例の動作につき以下に説明を行う。
入 ゛ の 1の の
まず、第2図の実施例の説明を行う前に、本実施例の全
体動作の基本となる整合度演算方式の第1の実施例につ
き説明を行う。
体動作の基本となる整合度演算方式の第1の実施例につ
き説明を行う。
機械による母音認識は、入力の母音を個別・独立に認識
する方式が一般的である。しかし、母音を個別に見た場
合、「発明が解決しようとする課題」の項で説明したよ
うに、話者の個人差及び前後の音韻による調音結合の影
響を受けて、各母音の特徴空間上の特性は複雑に変化す
る。
する方式が一般的である。しかし、母音を個別に見た場
合、「発明が解決しようとする課題」の項で説明したよ
うに、話者の個人差及び前後の音韻による調音結合の影
響を受けて、各母音の特徴空間上の特性は複雑に変化す
る。
一方、母音間に何らかの相関があるとすれば、母音を系
列として捉え、総合的に評価することにより、認識の精
度を高めることができる。ここで、第6図で説明したよ
うに、母音の第1、第2ホルマント平面における5母音
の5角形は話者の変動や発声の変動に対して、その相対
的な位置関係を良く保存している。
列として捉え、総合的に評価することにより、認識の精
度を高めることができる。ここで、第6図で説明したよ
うに、母音の第1、第2ホルマント平面における5母音
の5角形は話者の変動や発声の変動に対して、その相対
的な位置関係を良く保存している。
そこで、本実施例では、まず、5母音から選択される各
2母音間の相対的な位置関係を表す2項関係の整合度を
以下のようにして定義、する。
2母音間の相対的な位置関係を表す2項関係の整合度を
以下のようにして定義、する。
今、人力として2母音(特徴ベクトルxIl+Xq+次
元数m)が与えられた場合、それらが母音組(vr +
vi )である確からしさ、すなわち、母音組(v
t、Vj)に対する特徴ベクトル(X +)+ X Q
)の整合度をRvivJ(Xp+XJで表し、2項関係
の整合度と呼ぶことにする。但し、V 、、 V 、E
Vで、V= (/i/、/e/、/a/、10/、/u
/ )とする。
元数m)が与えられた場合、それらが母音組(vr +
vi )である確からしさ、すなわち、母音組(v
t、Vj)に対する特徴ベクトル(X +)+ X Q
)の整合度をRvivJ(Xp+XJで表し、2項関係
の整合度と呼ぶことにする。但し、V 、、 V 、E
Vで、V= (/i/、/e/、/a/、10/、/u
/ )とする。
ここで、2母音の特徴ベクトルXp+XQの差ベクトル
を、 ΔPQ”’Xp Xq としたとき、2項関係の整合度Rvrvjを以下のよう
に定義する。
を、 ΔPQ”’Xp Xq としたとき、2項関係の整合度Rvrvjを以下のよう
に定義する。
RvえVj(X 11+ X 11) =−(Δpq−
Δvivj)t×(ΣVtVt1×(Δpq−Avtv
j)−1oglΣVIVJ・・・(1) ここで、入viv」は、母音組(vllvJ)に対する
特徴ベクトルを各々X V l + X V Jとする
とき、ΔVIVJ=XVI XVJの平均ベクトル、
ΣVIVJは、次に述べるようにして求まる共分散行列
であり、(ΣV、VJI −’Itまその逆行列である
。
Δvivj)t×(ΣVtVt1×(Δpq−Avtv
j)−1oglΣVIVJ・・・(1) ここで、入viv」は、母音組(vllvJ)に対する
特徴ベクトルを各々X V l + X V Jとする
とき、ΔVIVJ=XVI XVJの平均ベクトル、
ΣVIVJは、次に述べるようにして求まる共分散行列
であり、(ΣV、VJI −’Itまその逆行列である
。
まず、複数の話者による学習用母音をM個のグループに
分割し、各グループ内には5母音が各々N個あるものと
する。グループ番号g(1≦g≦N)における母音vk
の第2番目(1≦p≦N)の学習資料をx(91v、、
とおいたとき、母音Mi(Vi、Vj)の共分散行列Σ
ViVJを次式で定義する。
分割し、各グループ内には5母音が各々N個あるものと
する。グループ番号g(1≦g≦N)における母音vk
の第2番目(1≦p≦N)の学習資料をx(91v、、
とおいたとき、母音Mi(Vi、Vj)の共分散行列Σ
ViVJを次式で定義する。
x1g′vjq −人VtV」)X
(X (91v、pX (9’VJQ Avtvj
)L一般に、グループ数Mは学習資料に使われる話者数
に等しくするのが妥当である。
)L一般に、グループ数Mは学習資料に使われる話者数
に等しくするのが妥当である。
ここで、前記(1)式は、母音組(v1、vj)におい
て、その特徴ベクトルxVi+xVJO差ベクトルΔV
IVJ =XVi XVjの確率分布が、多次元の正
規分布(11vt vj* ΣVtVJ)に従うと仮
定した場合の、未知入力である差ベクトルΔpqを入力
とするヘイズ識別関数を対数表現したものである。
て、その特徴ベクトルxVi+xVJO差ベクトルΔV
IVJ =XVi XVjの確率分布が、多次元の正
規分布(11vt vj* ΣVtVJ)に従うと仮
定した場合の、未知入力である差ベクトルΔpqを入力
とするヘイズ識別関数を対数表現したものである。
ベイズ識別関数は、一般にカテゴリΩ1につき、Gt(
x) = P (x lΩt)・P(Ωl)・・ ・(
2) として与えられる。この式は、入力XがカテゴリΩ1に
含まれる確率を示している。上記(2)式について対数
表現をしても大小関係は不変であるので、−iにベイズ
識別関数GrCx) は、(2)式の対数をとって、 ct(x) =log P(x lΩt)+1og P
(ΩI)・・・(3) で与えられる。上記(3)式において、未知人力Xが前
記の差ベクトルΔρ9で、また、カテゴリΩ、が母音組
(VllVJ)で、その特徴ベクトルXv□。
x) = P (x lΩt)・P(Ωl)・・ ・(
2) として与えられる。この式は、入力XがカテゴリΩ1に
含まれる確率を示している。上記(2)式について対数
表現をしても大小関係は不変であるので、−iにベイズ
識別関数GrCx) は、(2)式の対数をとって、 ct(x) =log P(x lΩt)+1og P
(ΩI)・・・(3) で与えられる。上記(3)式において、未知人力Xが前
記の差ベクトルΔρ9で、また、カテゴリΩ、が母音組
(VllVJ)で、その特徴ベクトルXv□。
XVJの差ベクトルΔVIVJ=Xvi xvJの確
率分布が、多次元の正規分布(ΔV I V J、 Σ
vivj)に従うと仮定し、かつ、母音組(vllvJ
)の生起確率が他の母音組のそれと等しいと仮定して(
3)式の左辺第2項を省略することにより、前記(1)
式が得られる。従って、(1)式の意味を前記(2)式
と同様に考えると、差ベクトルΔp9に対応する未知入
力の母音組が、母音組(Vll”J)である確からしさ
を整合度Rvivjと定義していることにほかならない
。
率分布が、多次元の正規分布(ΔV I V J、 Σ
vivj)に従うと仮定し、かつ、母音組(vllvJ
)の生起確率が他の母音組のそれと等しいと仮定して(
3)式の左辺第2項を省略することにより、前記(1)
式が得られる。従って、(1)式の意味を前記(2)式
と同様に考えると、差ベクトルΔp9に対応する未知入
力の母音組が、母音組(Vll”J)である確からしさ
を整合度Rvivjと定義していることにほかならない
。
上記考察より、2母音の次元数mの特徴ベクトルxIl
+xQの、母音組(vr + vJ) ニ対する整合
度Rvtvj(xp+ xq)は、2母音の特徴ヘクト
ルノ差ベクトルとして表現される特徴空間上でのm次元
の相対的な位置関係を評価尺度とした場合に、入力した
母音組が母音組(vt、 VJ)にどの程度似ている
かということを表している。
+xQの、母音組(vr + vJ) ニ対する整合
度Rvtvj(xp+ xq)は、2母音の特徴ヘクト
ルノ差ベクトルとして表現される特徴空間上でのm次元
の相対的な位置関係を評価尺度とした場合に、入力した
母音組が母音組(vt、 VJ)にどの程度似ている
かということを表している。
そして、この相対的な位置関係は、話者の変動や発声の
変動に対して良く保存され、従って、不特定話者の音声
認識装置を構成する上で、有効な評価尺度となる。
変動に対して良く保存され、従って、不特定話者の音声
認識装置を構成する上で、有効な評価尺度となる。
従って、5母音から同一のものを含む2母音ずつを選択
して得た各母音M(vt、vz)に対応する△VIVJ
と(ΣvI V j) −1を辞書として記憶させ、未
知入力の母音組について、辞書の各母音組に対する整合
度を計算することにより、その整合度の高さを母音認識
のための有効な評価尺度とすることができる。
して得た各母音M(vt、vz)に対応する△VIVJ
と(ΣvI V j) −1を辞書として記憶させ、未
知入力の母音組について、辞書の各母音組に対する整合
度を計算することにより、その整合度の高さを母音認識
のための有効な評価尺度とすることができる。
なお、本実施例では、上記各母音組(v1、vj)に対
応する入VIVJと(ΣViVj)−’を相対関係標準
パターンとして、第2図の相対関係標準パターン記憶部
207にあらかじめ記憶させておくが、入VIVJ=−
ムViVjであるから、同一母音関係を含めて全部で1
5組準備しておけばよいことになる。
応する入VIVJと(ΣViVj)−’を相対関係標準
パターンとして、第2図の相対関係標準パターン記憶部
207にあらかじめ記憶させておくが、入VIVJ=−
ムViVjであるから、同一母音関係を含めて全部で1
5組準備しておけばよいことになる。
二1の凭i′φ
上記2項関係の整合度を利用して、母音系列の認識を行
う第2図の実施例の動作につき、以下に説明を行う。
う第2図の実施例の動作につき、以下に説明を行う。
まず、未知入力音声201は、第2図の特徴ベクトル抽
出部202に入力する。ここでの動作フローチャートを
第3図に示す。以下、これに従って動作説明を行う。
出部202に入力する。ここでの動作フローチャートを
第3図に示す。以下、これに従って動作説明を行う。
まず、未知入力音声201は、カットオフ周波数9kH
z、−40dB10Ctのローパスフィルタ(LPF)
に通される(S301)。
z、−40dB10Ctのローパスフィルタ(LPF)
に通される(S301)。
続いて、20kHz、12bitの符号付きでA/D変
換され、ディジタル音声信号に変換される(3302)
。
換され、ディジタル音声信号に変換される(3302)
。
次に、この信号に対して、パワーの時間的な変化が演算
され、一定量値を設定することにより、単語区間が自動
的に切り出される(S303)。
され、一定量値を設定することにより、単語区間が自動
的に切り出される(S303)。
続いて、このようにして切り出された単語区間の先頭か
ら順に、1次差分による高域強調の後、窓長25.6m
sec(Hamming Window)、更新周期1
2.8m5ecで各フレームのディジタル音声信号が切
り出される(S304)。
ら順に、1次差分による高域強調の後、窓長25.6m
sec(Hamming Window)、更新周期1
2.8m5ecで各フレームのディジタル音声信号が切
り出される(S304)。
その後、そのフレームのディジタル音声信号に対して、
512ポイントのFFT(高速フーリエ変換)分析を行
い、対数化して対数パワースペクトルに変換する(S3
05)。
512ポイントのFFT(高速フーリエ変換)分析を行
い、対数化して対数パワースペクトルに変換する(S3
05)。
上記処理により求められた512ポイントパワースペク
トルに対して、ノル周波数上を50チヤネルに等分割し
たバンドパスフィルタ(BPF)を構成し、周波数軸を
メル尺度に変換して5oチヤネルのメル化した対数パワ
ースペクトルを求める(S306)。
トルに対して、ノル周波数上を50チヤネルに等分割し
たバンドパスフィルタ(BPF)を構成し、周波数軸を
メル尺度に変換して5oチヤネルのメル化した対数パワ
ースペクトルを求める(S306)。
次のケプストラム分析(3307)は、上記50チヤネ
ルのうち、1〜40チヤネルまでの出力を20チヤネル
に圧縮した後、次式のコサイン展開を行う。
ルのうち、1〜40チヤネルまでの出力を20チヤネル
に圧縮した後、次式のコサイン展開を行う。
ここで、Ctはi次のメル・ケプストラム係数、Xkは
圧縮後のにチャネルのパワースペクトルである。母音認
識においては、直流分(C0)は必要なく、また、各係
数は正規化されていた方が取扱が簡単で、かつ、識別結
果にほとんど影響を及ぼさないので、以下のようにノル
ムを1にする正規化を行う。
圧縮後のにチャネルのパワースペクトルである。母音認
識においては、直流分(C0)は必要なく、また、各係
数は正規化されていた方が取扱が簡単で、かつ、識別結
果にほとんど影響を及ぼさないので、以下のようにノル
ムを1にする正規化を行う。
更に、後述する認識処理には20次までのメル・ケプス
トラム係数のうち低次の1〜10次までの係数を使用す
る。
トラム係数のうち低次の1〜10次までの係数を使用す
る。
上記処理を、l単語区間の全フレームについて繰り返し
く3308→3304)、これにより得られる全フレー
ム分の正規化されたメル・ケプストラム係数を、特徴ベ
クトルとして第2図の特徴ベクトル抽出部202から出
力する(3309)。
く3308→3304)、これにより得られる全フレー
ム分の正規化されたメル・ケプストラム係数を、特徴ベ
クトルとして第2図の特徴ベクトル抽出部202から出
力する(3309)。
次に、第2図の母音特徴ベクトル系列抽出部203の動
作について説明を行う。
作について説明を行う。
ここでは、未知入力音声201から母音区間を抽出し、
前記処理により抽出された特徴ベクトルのうち母音区間
に対応するものから母音特徴ベクトル系列を抽出する。
前記処理により抽出された特徴ベクトルのうち母音区間
に対応するものから母音特徴ベクトル系列を抽出する。
そのためのアルゴリズムを以下に示す。
■前記特徴ベクトル抽出部202から出力された特徴ベ
クトルと、前記第3図の8305で求まる対数パワーを
用い、主にその時間変化の極大点を区間(セグメント)
の境界とする。
クトルと、前記第3図の8305で求まる対数パワーを
用い、主にその時間変化の極大点を区間(セグメント)
の境界とする。
■区間毎に、無声化、パワー・デイツプ、過渡部等のラ
ベル付けを行い、それを基に、母音区間の判別を行う。
ベル付けを行い、それを基に、母音区間の判別を行う。
■母音区間内で最も変化の小さい安定なフレームを母音
の中心フレームとする。そして、中心フレームを含む3
フレームを切り出し、そのメル・ケプストラム係数の平
均値をもって、この区間の代表値とし、後述する認識処
理に使用する。
の中心フレームとする。そして、中心フレームを含む3
フレームを切り出し、そのメル・ケプストラム係数の平
均値をもって、この区間の代表値とし、後述する認識処
理に使用する。
以上のアルゴリズムにより求まる長さnの母音特徴ベク
トル系列を(x+。X2+・・・、xn)とする。ここ
で、x p (p=1.2. ・・・、n)は、各々
10次のメル・ケプストラム係数からなる特徴ベクトル
であり、各母音区間の周波数包絡特性をパラメータ化し
たものである。
トル系列を(x+。X2+・・・、xn)とする。ここ
で、x p (p=1.2. ・・・、n)は、各々
10次のメル・ケプストラム係数からなる特徴ベクトル
であり、各母音区間の周波数包絡特性をパラメータ化し
たものである。
続いて、第2図の予備識別部204の動作につき説明を
行う。
行う。
ここでは、母音特徴ベクトル系列抽出部203で求まる
上記母音特徴ベクトル系列の各々につき、パターンマツ
チングによる予OI識別を行う。
上記母音特徴ベクトル系列の各々につき、パターンマツ
チングによる予OI識別を行う。
そのために、第2図の母音別標準パターン記憶部205
に、予め5母音の特徴ベクトルの代表的な標準パターン
が記憶されている。
に、予め5母音の特徴ベクトルの代表的な標準パターン
が記憶されている。
そして、母音特徴ベクトル系列抽出部203では母音特
徴ベクトル系列(XI+X2+・・・、xn)を順次入
力し、各xp (p=1.2. ・・・、n)毎に、
母音側標準パターン記憶部205上の各母音別標準パタ
ーンとパターンマツチングを行い、第3位までの候補を
求めて、母音候補系列群を作成する。
徴ベクトル系列(XI+X2+・・・、xn)を順次入
力し、各xp (p=1.2. ・・・、n)毎に、
母音側標準パターン記憶部205上の各母音別標準パタ
ーンとパターンマツチングを行い、第3位までの候補を
求めて、母音候補系列群を作成する。
このとき、p番目の母音特徴ベクトルXp (P=1+
2、・・・、n)の母音候補を c(p) =(c(p1、、、(p)、c(p1、)t
で表す。但し、第i候補c(D) 、は5母音のいずれ
かを指すものとする。すなわち、C(p)、EV、V=
(/i/、/e/、/a/、10/、/u/ ) 、
(i=1.2.3)である。また、tは転置を表す。こ
こで、母音候補として第3候補まで考慮するのは、5つ
の母音候補のうち第3候補までとれば、その中に正しい
候補が含まれていると考えられるからである。実際、上
記のような簡単な予備識別処理でも、第3位までに正し
い母音が入る割合は99.5%程度にまでなり、実用上
問題ない。以上の処理により、第2図に示すような母音
候補系列群が出力される。
2、・・・、n)の母音候補を c(p) =(c(p1、、、(p)、c(p1、)t
で表す。但し、第i候補c(D) 、は5母音のいずれ
かを指すものとする。すなわち、C(p)、EV、V=
(/i/、/e/、/a/、10/、/u/ ) 、
(i=1.2.3)である。また、tは転置を表す。こ
こで、母音候補として第3候補まで考慮するのは、5つ
の母音候補のうち第3候補までとれば、その中に正しい
候補が含まれていると考えられるからである。実際、上
記のような簡単な予備識別処理でも、第3位までに正し
い母音が入る割合は99.5%程度にまでなり、実用上
問題ない。以上の処理により、第2図に示すような母音
候補系列群が出力される。
次に、第2図の最適母音候補系列抽出部206の動作に
つき説明を行う。
つき説明を行う。
ここでは、第2図の予備識別部204で得られた母音候
補系列群に対し、個別に認識を行うのではなく、母音系
列全体で一括して認識を行うことを特徴とする。すなわ
ち、各母音系列から選択される2母音の組に対して、既
に説明した整合度を評価しながら、系列全体として認識
を行い、このように大局的に相互間の情報を利用するこ
とにより、個々の母音のゆらぎを吸収し、認識をより確
実に行うように動作する。
補系列群に対し、個別に認識を行うのではなく、母音系
列全体で一括して認識を行うことを特徴とする。すなわ
ち、各母音系列から選択される2母音の組に対して、既
に説明した整合度を評価しながら、系列全体として認識
を行い、このように大局的に相互間の情報を利用するこ
とにより、個々の母音のゆらぎを吸収し、認識をより確
実に行うように動作する。
まず、最適母音候補系列抽出部206の具体的な動作の
説明の前に、最適母音候補系列抽出のための理論的動作
につき説明を行う。
説明の前に、最適母音候補系列抽出のための理論的動作
につき説明を行う。
第2図の予備識別部204で求まる長さnの母音候補系
列群から得られる可能な母音候補系列は3n通りあり、
この中に正しい母音系列が含まれているとする。
列群から得られる可能な母音候補系列は3n通りあり、
この中に正しい母音系列が含まれているとする。
今、任意の母音候補系列を
C5−(C”’+ ” +c + ”+””)m
I m p m
n1、e (112+3) IP=l12+ ・・・
+nで表し、その集合をC5=(c8)とする。ここで
、添え字m、はc(p)の第mp要素(候補)を表す。
I m p m
n1、e (112+3) IP=l12+ ・・・
+nで表し、その集合をC5=(c8)とする。ここで
、添え字m、はc(p)の第mp要素(候補)を表す。
今、母音候補系列C8に含まれる長さ2の部分列の任意
の1つを、 (1≦p<q≦n) としたとき、その部分列における相対関係の整合として
の整合度R(c、)は、全ての部分列の整合度の和とし
て、 で与えられる。なお、整合度の定義式である前記(1)
式の表現を用いれば、 である。従って、第2図の相対関係標準パターン記憶部
207には、母音候補系列csから選択しうる長さ2の
部分列Csubの全ての可能な組み合わせに対して、前
記(1)、(4)、(5)弐の整合度を計算できるよう
に、5母音から同一のものを含む2母音ずつを選択して
得られる部分列(母音組)のすべての組み合わせに対し
て、前記(1)式の計算のための、△ViVJと(ΣV
iVJ) −’を相対関係標準パターンとして記憶させ
ておけばよく、その組み合わせは既に説明したように1
5組でよい。
の1つを、 (1≦p<q≦n) としたとき、その部分列における相対関係の整合として
の整合度R(c、)は、全ての部分列の整合度の和とし
て、 で与えられる。なお、整合度の定義式である前記(1)
式の表現を用いれば、 である。従って、第2図の相対関係標準パターン記憶部
207には、母音候補系列csから選択しうる長さ2の
部分列Csubの全ての可能な組み合わせに対して、前
記(1)、(4)、(5)弐の整合度を計算できるよう
に、5母音から同一のものを含む2母音ずつを選択して
得られる部分列(母音組)のすべての組み合わせに対し
て、前記(1)式の計算のための、△ViVJと(ΣV
iVJ) −’を相対関係標準パターンとして記憶させ
ておけばよく、その組み合わせは既に説明したように1
5組でよい。
ここで、R(c、)は、純粋に相対関係に基づく整合度
を与えるが、個別認識による母音個々の信頼度も考慮に
入れるために以下のようなA(cs)を導入する。
を与えるが、個別認識による母音個々の信頼度も考慮に
入れるために以下のようなA(cs)を導入する。
もので、第2図の予備識別部204における予備識別の
結果に基づいて与えられるものとする。上記(6)式で
定義されるA(c、)を使うことにより、母音候補系列
の得点はR(c、)とA(c、)の重み付き線形和、 で定義することができる。従って、求める最適母音候補
系列1 、 (9) 00.、c(n)) c、opt =((+11. 、 、 、C。
結果に基づいて与えられるものとする。上記(6)式で
定義されるA(c、)を使うことにより、母音候補系列
の得点はR(c、)とA(c、)の重み付き線形和、 で定義することができる。従って、求める最適母音候補
系列1 、 (9) 00.、c(n)) c、opt =((+11. 、 、 、C。
m l m p
m nmpE (1,2,3) +p=1.2+
” ・、nは、S(c、)を最大にする系列として定
義される。すなわち、 c s”t=arg (maxs (c s))
・・・(8)s である。これにより、第2図の最適母音候補系列抽出部
206から、最適母音候補系列C,opLが出力される
。
m nmpE (1,2,3) +p=1.2+
” ・、nは、S(c、)を最大にする系列として定
義される。すなわち、 c s”t=arg (maxs (c s))
・・・(8)s である。これにより、第2図の最適母音候補系列抽出部
206から、最適母音候補系列C,opLが出力される
。
以上の最適母音候補系列抽出動作において、第2図の予
備識別部204で求まる長さnの母音候補系列群から得
られる可能な母音候補系列は3″通りあり、この中から
長さ2の部分列を選択する組み合わせは、、02通りあ
る。従って、単純に計算を行うと、最適母音候補系列を
求めるために必要な計算量は、。C2・3n通り程度の
膨大な組み合わせ計算が必要となり、実用的でない。例
えば、n=10のとき、2,657,205通りとなっ
てしまう。このような計算方式は、全ての組み合わせに
ついて行う方式のため、枚挙法と呼ばれる。
備識別部204で求まる長さnの母音候補系列群から得
られる可能な母音候補系列は3″通りあり、この中から
長さ2の部分列を選択する組み合わせは、、02通りあ
る。従って、単純に計算を行うと、最適母音候補系列を
求めるために必要な計算量は、。C2・3n通り程度の
膨大な組み合わせ計算が必要となり、実用的でない。例
えば、n=10のとき、2,657,205通りとなっ
てしまう。このような計算方式は、全ての組み合わせに
ついて行う方式のため、枚挙法と呼ばれる。
そこで、第2図の最適母音候補系列抽出部206におい
ては、計算量を減らすために、枚挙法で厳密な最適解の
みを求めることにこだわらず、近似解を求める手法とし
て、弛緩整合法を採用する。
ては、計算量を減らすために、枚挙法で厳密な最適解の
みを求めることにこだわらず、近似解を求める手法とし
て、弛緩整合法を採用する。
弛緩法は、各母音候補に初期確率を与えた後、相対関係
の整合度を利用して各候補の確率を修正する操作を操り
返し、最終的に最も整合度の高い候補の確率を最大にす
る手法である。以下に、第2図の最適母音候補系列抽出
部206の動作アルゴリズムを詳細に説明する。ここで
の動作アルゴリズムは、次の(STEPI)〜(STE
P3)の繰り返し動作からなっている。
の整合度を利用して各候補の確率を修正する操作を操り
返し、最終的に最も整合度の高い候補の確率を最大にす
る手法である。以下に、第2図の最適母音候補系列抽出
部206の動作アルゴリズムを詳細に説明する。ここで
の動作アルゴリズムは、次の(STEPI)〜(STE
P3)の繰り返し動作からなっている。
(STEPI) 第2図の母音特徴ベクトル系列抽出
部203から出力される母音特徴ベクトル系列X。
部203から出力される母音特徴ベクトル系列X。
(p=1.2.・・、n)に対して、第2図の予備識別
部204での予備識別の結果に基づき、第3位までの各
母音候補Ctp)、に、その確からしさを表す候補確率
5(p) 、を、次式により第4図に示すように与える
。
部204での予備識別の結果に基づき、第3位までの各
母音候補Ctp)、に、その確からしさを表す候補確率
5(p) 、を、次式により第4図に示すように与える
。
cfp) =(C(p1、、、(pl2.、(p)、
)ts(p) =(s(p1、、、(p)2,5(p
)3)tここで、予(ii識別の結果、1位から3位ま
での候補に対する順序付けが数量的に、 g(pi、≧g312≧g +pl 3) Qの形で与
えられたとすると、S(pゝt (i=1.2.3)に
与えられる初′M確率は、 となる。また、count=oとおく。
)ts(p) =(s(p1、、、(p)2,5(p
)3)tここで、予(ii識別の結果、1位から3位ま
での候補に対する順序付けが数量的に、 g(pi、≧g312≧g +pl 3) Qの形で与
えられたとすると、S(pゝt (i=1.2.3)に
与えられる初′M確率は、 となる。また、count=oとおく。
(STEP2) 各候補の確率5(p1、を次式の修
正公式で更新する。
正公式で更新する。
s (p) 、 −s (E’)、十Δ(s (p)
、 u(p) )×(Σ(u(p)、 −u(p)j)
ψ(s ”’ i))×ψ(s(pi量)
・・・(II)(STEP3) (終了
条件の判定) count=count + 1 STEP2において全ての5(Ill 、が変化しない
か、又は、count≧L(最大修正回数)ならば、終
了 そうでないときは、5TEP2に戻る。
、 u(p) )×(Σ(u(p)、 −u(p)j)
ψ(s ”’ i))×ψ(s(pi量)
・・・(II)(STEP3) (終了
条件の判定) count=count + 1 STEP2において全ての5(Ill 、が変化しない
か、又は、count≧L(最大修正回数)ならば、終
了 そうでないときは、5TEP2に戻る。
5TEP2において、初期確率の設定方法として前記0
0式を使用しているが、弛緩法における初′M確率の与
え方として、各候補に等確率(1/3)を与える方法と
、収束を早め、誤りを少なくするために何らかの異なる
初期確率を与える方法が考えられる。一般に、パターン
マツチングによる個別識別では、母音候補間の距離(尤
度)が近い(高い)場合には認識の信頼性が高く、大き
い(低い)場合には信頼性が低い。従って、個別識別で
ある予備識別の結果を弛緩法の初期確率に反映させるこ
とは有効である。
0式を使用しているが、弛緩法における初′M確率の与
え方として、各候補に等確率(1/3)を与える方法と
、収束を早め、誤りを少なくするために何らかの異なる
初期確率を与える方法が考えられる。一般に、パターン
マツチングによる個別識別では、母音候補間の距離(尤
度)が近い(高い)場合には認識の信頼性が高く、大き
い(低い)場合には信頼性が低い。従って、個別識別で
ある予備識別の結果を弛緩法の初期確率に反映させるこ
とは有効である。
前記5TEP2において、u (p ) +は候補C(
pl□について、Xpの近傍入力(XQ)Q≠ρとの整
合性の良さを表すもので、次式で与える。
pl□について、Xpの近傍入力(XQ)Q≠ρとの整
合性の良さを表すもので、次式で与える。
ここで、r (D+ Q)は、母音候補c(p)、とC
Tqljでj 定まる長さ2の部分列の整合度であり、前記(1)及び
(5)式で与えられる。また、N (p) 、はpの近
傍を意味し、5(p1、に直接影響を及ぼす範囲を決め
るもので、その幅をWNとすれば、 N”’b = (q l l q−p 15w、、q≠
p。
Tqljでj 定まる長さ2の部分列の整合度であり、前記(1)及び
(5)式で与えられる。また、N (p) 、はpの近
傍を意味し、5(p1、に直接影響を及ぼす範囲を決め
るもので、その幅をWNとすれば、 N”’b = (q l l q−p 15w、、q≠
p。
1≦q≦n) ・・・側
である。次に前記01)式において、Δ(S、U)は正
規化関数であり、候補確率5(p1、がOと1の間に収
まるように正規化をかける関数である。また、ψ(s)
は弛緩法における収束を早めるために強調をかける関数
であり、ψ(0)=Oを満たす滑らかな非負関数で、次
式で与えられる。
規化関数であり、候補確率5(p1、がOと1の間に収
まるように正規化をかける関数である。また、ψ(s)
は弛緩法における収束を早めるために強調をかける関数
であり、ψ(0)=Oを満たす滑らかな非負関数で、次
式で与えられる。
ψ(s(p)、) =s(p)、 (b>O)Δ(
S(p)、u(p)) = η ・ ・ ・04) 但し、ηは0くη≦1なる定数である。
S(p)、u(p)) = η ・ ・ ・04) 但し、ηは0くη≦1なる定数である。
次に、前記(7)式で定義したように、個別識別に基づ
く各候補の信頼度を弛緩法に導入することを考える。前
記(7)式を直接表現する代わりに、ここでは各候補の
近傍との整合性の良さを示すu(p)。
く各候補の信頼度を弛緩法に導入することを考える。前
記(7)式を直接表現する代わりに、ここでは各候補の
近傍との整合性の良さを示すu(p)。
に自分自身の個別識別の信頼度を加える事によって間接
的に表現する。すなわち、u(p1、の計算に自己ルー
プの特性を加え、以下のように前記(12)弐を修正す
る。
的に表現する。すなわち、u(p1、の計算に自己ルー
プの特性を加え、以下のように前記(12)弐を修正す
る。
u (pl 、 −(1−α)・λ×
前記θ力式又は前記θつ式のu(p)iを求め、゛それ
に基づいて前記01)式の各候補確率5(p)、を更新
する。
に基づいて前記01)式の各候補確率5(p)、を更新
する。
そして、所定回数り回繰り返した後に、各母音特徴ベク
トルx p (p=1.2.・・、n)に対応する第3
位までの各母音候補C(p1、のうち、その候補確率s
(pゝ量が最も高い候補を選択し、p=1〜nについて
選択したもの全体を、最適母音候補系列、・ ・ ・θ
つ ここで、λは正規化係数で、 λ−Σ! で与えられる。なお、βは前記5TEPI〜5TEP3
の現在までの更新の回数である。この05)式と前記θ
り式のどちらを用いるかによって、認識結果にどのよう
な影響を及ぼすかについては、後に検討することとする
。
トルx p (p=1.2.・・、n)に対応する第3
位までの各母音候補C(p1、のうち、その候補確率s
(pゝ量が最も高い候補を選択し、p=1〜nについて
選択したもの全体を、最適母音候補系列、・ ・ ・θ
つ ここで、λは正規化係数で、 λ−Σ! で与えられる。なお、βは前記5TEPI〜5TEP3
の現在までの更新の回数である。この05)式と前記θ
り式のどちらを用いるかによって、認識結果にどのよう
な影響を及ぼすかについては、後に検討することとする
。
以上に示した5TEPI〜5TEP3のアルゴリズムを
を繰り返しながら、第2図の相対関係標準パターン記憶
部207に記憶されている相対関係標準パターンを用い
て、前記(1)、(5)式の整合度、続いてmI、tF
= (L2,3) IP=1121 ・・・、nとし
て出力する。
を繰り返しながら、第2図の相対関係標準パターン記憶
部207に記憶されている相対関係標準パターンを用い
て、前記(1)、(5)式の整合度、続いてmI、tF
= (L2,3) IP=1121 ・・・、nとし
て出力する。
第5図に、上記アルゴリズムにより母音候補系列群の各
候補確率が更新されてゆく例を示す。但し、初期確率は
簡単のため全て0.33にしである。
候補確率が更新されてゆく例を示す。但し、初期確率は
簡単のため全て0.33にしである。
この結果、3回程度の更新で、最終的に下線を付した確
率が非常に高くなり、それに対応する下線を付した各母
音候補が、最適母音候補系列として出力されることにな
る。
率が非常に高くなり、それに対応する下線を付した各母
音候補が、最適母音候補系列として出力されることにな
る。
以上に示した母音認識処理の認識性能につき、簡単に説
明する。
明する。
まず、認識環境について説明を行う。始めに、弛緩法に
おける前記整合性u(p)、の計算において、前記0り
式と前記(6)式に基づく前記05)式のどちらを用い
るかについて検討すると、実験的に、前記05)式を用
いてα=0.5〜0.7程度に設定するのが最も高い認
識結果が得られる。しかし、05)式でα= O((6
)式ではα=1)として、相対関係の整合度のみの情報
を用いて決定した場合と比較して、認識率の差は0.1
〜0.47程度にすぎないため、実用上は前記02)式
を用いても問題はない。次に、前記0式の近傍幅WNは
n−1、すなわち長さnの母音系列のうち自分を除いた
全体とするのが望ましいが、N=2程度に狭くしても認
識率は、1%以下程度しか下がらず、その場合、計算量
を172程度に削減できる。また、前記04)式の弛緩
法の修正式においては、実験的にb=2、η=0.67
程度、弛緩法の最大修正回数L=20回程度程度い。
おける前記整合性u(p)、の計算において、前記0り
式と前記(6)式に基づく前記05)式のどちらを用い
るかについて検討すると、実験的に、前記05)式を用
いてα=0.5〜0.7程度に設定するのが最も高い認
識結果が得られる。しかし、05)式でα= O((6
)式ではα=1)として、相対関係の整合度のみの情報
を用いて決定した場合と比較して、認識率の差は0.1
〜0.47程度にすぎないため、実用上は前記02)式
を用いても問題はない。次に、前記0式の近傍幅WNは
n−1、すなわち長さnの母音系列のうち自分を除いた
全体とするのが望ましいが、N=2程度に狭くしても認
識率は、1%以下程度しか下がらず、その場合、計算量
を172程度に削減できる。また、前記04)式の弛緩
法の修正式においては、実験的にb=2、η=0.67
程度、弛緩法の最大修正回数L=20回程度程度い。
次に、第2図の未知入力音声201に含まれる母音系列
の影響について検討する。本実施例による認識方式は、
母音を系列として認識する方式であるため、認識精度は
系列長の影響を受ける。系列の長さが極端に短い場合に
は、2項関係を調べる母音組が少な(、また、母音の種
類も少なくなるが、実験的には、系列長n(第2図参照
)は、10〜20程度あれば十分高い認識率が得られ、
従って、単音節でない単語であればそれほど問題はなく
、また、単音節であっても、いくつかをまとめて認識す
ることにより、認識率の低下を防ぐことができる。なお
、本実施例による方法では、単語の順序を入れ換えても
、認識率の変動はほとんどないことが実験的に確かめら
れている。
の影響について検討する。本実施例による認識方式は、
母音を系列として認識する方式であるため、認識精度は
系列長の影響を受ける。系列の長さが極端に短い場合に
は、2項関係を調べる母音組が少な(、また、母音の種
類も少なくなるが、実験的には、系列長n(第2図参照
)は、10〜20程度あれば十分高い認識率が得られ、
従って、単音節でない単語であればそれほど問題はなく
、また、単音節であっても、いくつかをまとめて認識す
ることにより、認識率の低下を防ぐことができる。なお
、本実施例による方法では、単語の順序を入れ換えても
、認識率の変動はほとんどないことが実験的に確かめら
れている。
続いて、個人性の影響について検討する。一般に、単語
中では個人性の影響と、前後の音韻による影響とを分離
するのは困難であるため、単音節母音を複数個合わせた
ものを用いて個人性の影響を検討する。これによると、
本実施例は従来の個別識別法と比較して、平均認識率が
高く、個人性による変動に強いことが確かめられている
。これは、本実施例が母音間の相対的な位置関係を整合
度として認識に用いたためであり、上記位置関係は個人
性の影響を受けにくいということがいえる。
中では個人性の影響と、前後の音韻による影響とを分離
するのは困難であるため、単音節母音を複数個合わせた
ものを用いて個人性の影響を検討する。これによると、
本実施例は従来の個別識別法と比較して、平均認識率が
高く、個人性による変動に強いことが確かめられている
。これは、本実施例が母音間の相対的な位置関係を整合
度として認識に用いたためであり、上記位置関係は個人
性の影響を受けにくいということがいえる。
一方、音韻性の影響について検討すると、本実施例によ
る認識方式では、単語の語頭、語尾、連鎖部分のいずれ
においても、全体的に高い認識率を示すことが実験的に
確認されている。従って、調音結合の影響を受けた母音
系列においても本実施例の認識方式は有効である。すな
わち、母音間の相対的な位置関係は調音結合の影響も受
けにくいということがいえる。
る認識方式では、単語の語頭、語尾、連鎖部分のいずれ
においても、全体的に高い認識率を示すことが実験的に
確認されている。従って、調音結合の影響を受けた母音
系列においても本実施例の認識方式は有効である。すな
わち、母音間の相対的な位置関係は調音結合の影響も受
けにくいということがいえる。
次に、最適母音候補系列を求めるためのアルゴリズムで
ある弛緩法の信頼性について検討する。
ある弛緩法の信頼性について検討する。
既に説明したように、弛緩法は、近似解を求める手法で
あるため、得られた最適母音候補系列が真に最適なもの
であるという保証はない。従って、本実施例による認識
方式の誤認識の原因が、弛緩法の誤りによるのか、相対
関係の与え方の問題によるのかどうかを明らかにしてお
くことは重要である。弛緩法による誤りを調べるには、
前記(4)〜(8)式による枚挙法で得られる最適母音
候補系列と、前記(9)弐〜θ0式による弛緩法で得ら
れる最適母音候補系列との比較をすればよいが、枚挙法
は前記したように膨大な計算量が必要なため、実現困難
である。そこで、あらかじめ視察ラベリングにより抽出
した正しい母音系列を含む母音候補系列群について、ま
ず、前記(7)式で正しい母音系列の得点S (c s
)を計算し、一方、上記母音候補系列群から弛緩法によ
り抽出した最適母音候補系列の得点を同様に前記(7)
式で計算する。そして、もし、弛緩法による系列の得点
の方が低ければ、弛緩法が誤ったことを示している。こ
のようにして、弛緩法の信頼性を実験的に検討すると、
弛緩法による認識誤りの確率は、本実施例全体の認識誤
り数を100としたときに、そのうちのわずか1%前後
にすぎない。従って、弛緩法の信頼性は非常に高いとい
うことがわかる。
あるため、得られた最適母音候補系列が真に最適なもの
であるという保証はない。従って、本実施例による認識
方式の誤認識の原因が、弛緩法の誤りによるのか、相対
関係の与え方の問題によるのかどうかを明らかにしてお
くことは重要である。弛緩法による誤りを調べるには、
前記(4)〜(8)式による枚挙法で得られる最適母音
候補系列と、前記(9)弐〜θ0式による弛緩法で得ら
れる最適母音候補系列との比較をすればよいが、枚挙法
は前記したように膨大な計算量が必要なため、実現困難
である。そこで、あらかじめ視察ラベリングにより抽出
した正しい母音系列を含む母音候補系列群について、ま
ず、前記(7)式で正しい母音系列の得点S (c s
)を計算し、一方、上記母音候補系列群から弛緩法によ
り抽出した最適母音候補系列の得点を同様に前記(7)
式で計算する。そして、もし、弛緩法による系列の得点
の方が低ければ、弛緩法が誤ったことを示している。こ
のようにして、弛緩法の信頼性を実験的に検討すると、
弛緩法による認識誤りの確率は、本実施例全体の認識誤
り数を100としたときに、そのうちのわずか1%前後
にすぎない。従って、弛緩法の信頼性は非常に高いとい
うことがわかる。
なお、第2図の母音特徴ベクトル系列抽出部203にお
いて、母音区間を抽出する場合の抽出精度も全体の認識
結果に影響を及ぼすが、母音区間の認識方式としては、
本実施例で示したアルゴリズムの他にも抽出精度の高い
様々な方式が提案されているため、特には言及しないこ
とにする。
いて、母音区間を抽出する場合の抽出精度も全体の認識
結果に影響を及ぼすが、母音区間の認識方式としては、
本実施例で示したアルゴリズムの他にも抽出精度の高い
様々な方式が提案されているため、特には言及しないこ
とにする。
計算量は、枚挙法による場合、n C2・3nものの組
み合わせ計算が必要であるが、弛緩法を適用するとn
C2・n3・l程度で済む。ここで、2(1≦2≦L)
は更新の回数である。
み合わせ計算が必要であるが、弛緩法を適用するとn
C2・n3・l程度で済む。ここで、2(1≦2≦L)
は更新の回数である。
人 ゛ の 2の の
上記実施例においては、第2図の最適母音候補系列抽出
部206での認識動作に用いた整合度は、2母音間の相
対的な位置関係として、2母音の特徴ベクトルX□x9
の差ベクトルとして、Δpq=xい−xq を用いたものに基づく、前記(1)式で定義されるもの
であった。
部206での認識動作に用いた整合度は、2母音間の相
対的な位置関係として、2母音の特徴ベクトルX□x9
の差ベクトルとして、Δpq=xい−xq を用いたものに基づく、前記(1)式で定義されるもの
であった。
しかし、本発明による相対的な位置関係は、上記のよう
な2母音間の差ベクトルに限られるものではな(、特徴
空間上の相対的な位置関係を示すものであれば他のもの
でも利用可能であり、更に、2母音以上の例えば3母音
の関係も規定できる。
な2母音間の差ベクトルに限られるものではな(、特徴
空間上の相対的な位置関係を示すものであれば他のもの
でも利用可能であり、更に、2母音以上の例えば3母音
の関係も規定できる。
ここでは、整合度演算方式の第2の実施例として、母音
推定を用いた方式について説明する。
推定を用いた方式について説明する。
この方式は、話者の変動や発声の変動に対して、母音の
相対的な位置関係が良く保存されることから、既知の2
母音叉は3母音の組につき、1つの母音を他の母音から
推定する場合のパラメータを、第2図の相対関係標準パ
ターン記憶部207に相対関係標準パターンとして記憶
する方式である。
相対的な位置関係が良く保存されることから、既知の2
母音叉は3母音の組につき、1つの母音を他の母音から
推定する場合のパラメータを、第2図の相対関係標準パ
ターン記憶部207に相対関係標準パターンとして記憶
する方式である。
今、2つの母音組の特徴ベクトル)Cv、Xy1、又は
3つの母音組の特徴ベクトルXv、Xv・、Xv”があ
るとき、そのうち1つの特徴ベクトルXVを他の特徴ベ
クトルXν・又はxv・、Xv・から推定するための、
次式に示す2項関係及び3項関係の線形モデルを定義す
る。
3つの母音組の特徴ベクトルXv、Xv・、Xv”があ
るとき、そのうち1つの特徴ベクトルXVを他の特徴ベ
クトルXν・又はxv・、Xv・から推定するための、
次式に示す2項関係及び3項関係の線形モデルを定義す
る。
+Rv = Avv+ 8x v+ + a vv+こ
こで、父、は、特徴ベクトルXvの推定値(ベクトル)
であり、添え字v、 v″、V°′は5母音のうちい
ずれかを指す。また、AXBは推定係数行列、a、bは
定数ベクトルで、いずれも重回帰分析によって決定する
。そして、これらの推定係数行列及び定数ベクトルは、
5母音の中から選択される2母音又は3母音の各組み合
わせ毎に求め、第2図の相対関係標準パターン記憶部2
07に相対関係標準パターンとして記憶させる。従って
、2項関係用に25組(同一母音関係を含む)、3項関
係用に30組(全て異なる母音の組み合わせ)を用意す
ればよい。
こで、父、は、特徴ベクトルXvの推定値(ベクトル)
であり、添え字v、 v″、V°′は5母音のうちい
ずれかを指す。また、AXBは推定係数行列、a、bは
定数ベクトルで、いずれも重回帰分析によって決定する
。そして、これらの推定係数行列及び定数ベクトルは、
5母音の中から選択される2母音又は3母音の各組み合
わせ毎に求め、第2図の相対関係標準パターン記憶部2
07に相対関係標準パターンとして記憶させる。従って
、2項関係用に25組(同一母音関係を含む)、3項関
係用に30組(全て異なる母音の組み合わせ)を用意す
ればよい。
次に、上記0(i)式で定義される母音推定モデルを用
いて、第2図の最適母音候補系列抽出部206において
、第1の実施例の整合度を与える前記(1)弐に対応す
る第2の実施例の整合度を与える式を以下のように定義
する。すなわち、2母音(特徴ベクトルxp+ xQ
)が与えられた場合に、それに対応する2項関係の整合
度RVIν」CXp、Xq)を次式で定義する。但し、
v、、vg6Vであって、V= (/i/、/e/、/
a/、10/、/u/ )とする。
いて、第2図の最適母音候補系列抽出部206において
、第1の実施例の整合度を与える前記(1)弐に対応す
る第2の実施例の整合度を与える式を以下のように定義
する。すなわち、2母音(特徴ベクトルxp+ xQ
)が与えられた場合に、それに対応する2項関係の整合
度RVIν」CXp、Xq)を次式で定義する。但し、
v、、vg6Vであって、V= (/i/、/e/、/
a/、10/、/u/ )とする。
Rvtvj(x p+ X Q) =−(11父vi
xpH+lI父vj xqIt)父v4= Avjv
t °x q+ a VJVI父vj=Avtvj°x
p+ a vtvj・ ・ ・θ′7) ここで、II・11はベクトルのノルムを意味し、次式
のように定義する。
xpH+lI父vj xqIt)父v4= Avjv
t °x q+ a VJVI父vj=Avtvj°x
p+ a vtvj・ ・ ・θ′7) ここで、II・11はベクトルのノルムを意味し、次式
のように定義する。
II x If 2= xLWvivjx
・・・08)上記08)式で、W v iV Jは重
み係数行列で、WViVJ=■ (単位行列)のときは
、いわゆるユークリッド距離になる。
・・・08)上記08)式で、W v iV Jは重
み係数行列で、WViVJ=■ (単位行列)のときは
、いわゆるユークリッド距離になる。
上記θ′7)、08)式は、2項関係の整合度Rvtv
j(x p+xq)を演算するための式であるが、3項
関係の整合度Rvtvjvk(xp、 Xq+ x
r)も同様に定義できる。
j(x p+xq)を演算するための式であるが、3項
関係の整合度Rvtvjvk(xp、 Xq+ x
r)も同様に定義できる。
以上のような母音推定モデルを用いた2項関係又は3項
関係の整合度を、前記(4)〜05)式で示した母音系
列認識に適用することにより、前記差ベクトルに基づ(
整合度を用いたものと同様に母音系列の認識を実現する
ことができる。この場合、2項関係と共に3項関係も用
いているが、3項関係に基づく母音系列認識は、前記(
4)式のもとになる長さ2の部分列の代わりに、長さ3
の部分列をとって行えばよく、また、弛緩法のアルゴリ
ズムに3項関係を適用する場合、前記面弐の代わりに、
次の09)式を用いればよい。
関係の整合度を、前記(4)〜05)式で示した母音系
列認識に適用することにより、前記差ベクトルに基づ(
整合度を用いたものと同様に母音系列の認識を実現する
ことができる。この場合、2項関係と共に3項関係も用
いているが、3項関係に基づく母音系列認識は、前記(
4)式のもとになる長さ2の部分列の代わりに、長さ3
の部分列をとって行えばよく、また、弛緩法のアルゴリ
ズムに3項関係を適用する場合、前記面弐の代わりに、
次の09)式を用いればよい。
u L p ) 、 =Σ m a x (r j
p+ Q I°c+ 21 ・s (q I −q
2) )(lIIQ2 Jl−J2 1− Jl
+ J2 jl+ J2S(41°
q2ゝ =(5(Qll + 5(Q2) )
/2J1、J2 JI
J2・ ・ ・09) 本 日の他の り 以上、第1及び第2の整合度の演算方式につき説明を行
ってきたが、そのほかにも、例えば前記差ベクトルを3
項関係に適用することも可能である。すなわち、3つの
母音組から2母音ずつとった組み合わせの各差ベクトル
同士につき、更に差ベクトルをとったもの等によっても
整合度を演算することができる。ここで、2項関係の整
合度を用いた弛緩法の計算では、既に説明したように、
n C2・n3 ・2程度の組み合わせ計算となるが、
上記3項関係の場合は、n C3・n3 ・2程度とな
る。
p+ Q I°c+ 21 ・s (q I −q
2) )(lIIQ2 Jl−J2 1− Jl
+ J2 jl+ J2S(41°
q2ゝ =(5(Qll + 5(Q2) )
/2J1、J2 JI
J2・ ・ ・09) 本 日の他の り 以上、第1及び第2の整合度の演算方式につき説明を行
ってきたが、そのほかにも、例えば前記差ベクトルを3
項関係に適用することも可能である。すなわち、3つの
母音組から2母音ずつとった組み合わせの各差ベクトル
同士につき、更に差ベクトルをとったもの等によっても
整合度を演算することができる。ここで、2項関係の整
合度を用いた弛緩法の計算では、既に説明したように、
n C2・n3 ・2程度の組み合わせ計算となるが、
上記3項関係の場合は、n C3・n3 ・2程度とな
る。
一方、前記差ベクトルを用いた第1の実施例における整
合度演算方式において相対関係標準パターンとの整合度
を評価する場合、(1)式に示したようにベイズ識別関
数を利用しているが、そのほかにもユークリッド距離又
はマハラノビス距離等の評価尺度を用いても実現可能で
ある。
合度演算方式において相対関係標準パターンとの整合度
を評価する場合、(1)式に示したようにベイズ識別関
数を利用しているが、そのほかにもユークリッド距離又
はマハラノビス距離等の評価尺度を用いても実現可能で
ある。
また、上記実施例では、本発明による相対関係を用いた
系列認識方式を、母音系列の認識に適用した例を示した
が、母音認識以外の例えば子音認識に適用することも可
能である。
系列認識方式を、母音系列の認識に適用した例を示した
が、母音認識以外の例えば子音認識に適用することも可
能である。
いずれにしても、本発明では、2母音等の各認識基本単
位の特徴量間の単純な距離ではなく、多次元の特徴量空
間上の相対的な位置関係を整合度演算のために用いるこ
とにより、高い認識率を実現、することができる。
位の特徴量間の単純な距離ではなく、多次元の特徴量空
間上の相対的な位置関係を整合度演算のために用いるこ
とにより、高い認識率を実現、することができる。
本発明によれば、認識の基本となる整合度の計算におい
て、所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係を用いることにより、話者の変
動や調音結合の影響に左右されにくい整合度の演算が可
能となる。これにより、単純に特徴量間の距離によって
認識基本単位間の相対関係を表現する方式等に比較して
、認識基本単位間の相対関係に関する情報がはるかに多
く抽出され、精度の高い認識処理が実現される。
て、所定複数種類の認識基本単位の組の各々につき、そ
の組の各認識基本単位から得られる各特徴量間の特徴空
間上の相対的な位置関係を用いることにより、話者の変
動や調音結合の影響に左右されにくい整合度の演算が可
能となる。これにより、単純に特徴量間の距離によって
認識基本単位間の相対関係を表現する方式等に比較して
、認識基本単位間の相対関係に関する情報がはるかに多
く抽出され、精度の高い認識処理が実現される。
特に、2種類の認識基本単位の組の各特徴ベクトルの差
ベクトルを用いることにより、少ない計算量で多くの相
対関係の情報を得ることが可能となる。
ベクトルを用いることにより、少ない計算量で多くの相
対関係の情報を得ることが可能となる。
更に、この場合、相対関係標準パターンである差ベクト
ル標準パターンとして、平均差ベクトルと共分散行列を
記憶させ、ベイズ識別を用いて整合度を計算することに
より、精度の高い整合度の計算が可能となる。
ル標準パターンとして、平均差ベクトルと共分散行列を
記憶させ、ベイズ識別を用いて整合度を計算することに
より、精度の高い整合度の計算が可能となる。
次に、本発明では、予備識別手段で抽出される各々複数
候補ずつの認識基本単位候補系列群を認識に使用するこ
とにより、真の認識基本単位候補が除外されてしまうの
を防ぐことができる。
候補ずつの認識基本単位候補系列群を認識に使用するこ
とにより、真の認識基本単位候補が除外されてしまうの
を防ぐことができる。
更に、本発明では、認識基本単位候補系列群を入力とし
、前記整合度をもとにして、多くの認識基本単位候補を
用いて総合的な評価を行うことにより、個人性や調音結
合の影響による個々の認識基本単位の曖昧性を減少させ
、前記整合度の利用による効果とあいまって、安定かつ
精度の高い認識が行われる。すなわち、本発明では、情
報量の多い相対関係に基づく整合度演算と、曖昧性を減
少させることのできる系列認識とを組み合わせることに
より、相乗効果的な認識性能の向上を実現している。そ
して、全体的な構成は、基本的にはこの2つの構成の組
み合わせからなる簡単な構成とすることができるという
効果も有する。
、前記整合度をもとにして、多くの認識基本単位候補を
用いて総合的な評価を行うことにより、個人性や調音結
合の影響による個々の認識基本単位の曖昧性を減少させ
、前記整合度の利用による効果とあいまって、安定かつ
精度の高い認識が行われる。すなわち、本発明では、情
報量の多い相対関係に基づく整合度演算と、曖昧性を減
少させることのできる系列認識とを組み合わせることに
より、相乗効果的な認識性能の向上を実現している。そ
して、全体的な構成は、基本的にはこの2つの構成の組
み合わせからなる簡単な構成とすることができるという
効果も有する。
そして、特に上記の場合、最適認識基本単位候補系列の
選択のために確率的弛緩法を採用することにより、認識
基本単位候補系列群の全ての系列の組み合わせについて
計算を行う必要性を回避し、効率の高い処理を実現して
いる。
選択のために確率的弛緩法を採用することにより、認識
基本単位候補系列群の全ての系列の組み合わせについて
計算を行う必要性を回避し、効率の高い処理を実現して
いる。
一方、2種類の認識基本単位の組の各特徴ベクトルを線
形モデルで互いに推定する場合の推定行列及び定数ベク
トルを相対関係として用いて整合度を演算し、前記系列
認識と組み合わせることによっても精度の高い音声認識
を実現することができる。
形モデルで互いに推定する場合の推定行列及び定数ベク
トルを相対関係として用いて整合度を演算し、前記系列
認識と組み合わせることによっても精度の高い音声認識
を実現することができる。
第1図は、本発明のブロツク図、
第2図は、本発明の実施例の構成図、
第3図は、特徴ベクトル抽出部の動作フローチャートを
示した図、 第4図は、弛緩法の説明図、 第5図は、弛緩法による候補確率の変化例を示した図、 第6図は、従来例の問題点の説明図である。 101・・・未知人力音声、 102・・・予備識別手段、 103・・・認識基本単位候補系列群、104・・・最
適認識基本単位候補系列認識手段、 105・・・相対関係標準パターン記憶手段、106・
・・相対関係標準パターン、 107・・・最適認識基本単位候補系列。 未知入力有声201
示した図、 第4図は、弛緩法の説明図、 第5図は、弛緩法による候補確率の変化例を示した図、 第6図は、従来例の問題点の説明図である。 101・・・未知人力音声、 102・・・予備識別手段、 103・・・認識基本単位候補系列群、104・・・最
適認識基本単位候補系列認識手段、 105・・・相対関係標準パターン記憶手段、106・
・・相対関係標準パターン、 107・・・最適認識基本単位候補系列。 未知入力有声201
Claims (1)
- 【特許請求の範囲】 1)同一のものを含む所定複数種類の認識基本単位の組
の各々につき、その組の各認識基本単位から得られる各
特徴量間の特徴空間上の相対的な位置関係の標準パター
ン(106)を記憶する相対関係標準パターン記憶手段
(105)と、 未知入力音声(101)から各々複数候補ずつの認識基
本単位候補系列群(103)を抽出する予備識別手段(
102)と、 該認識基本単位候補系列群(103)から選択される前
記所定複数種類の認識基本単位候補の組の各々につき、
その組内の各特徴量と前記相対関係標準パターン記憶手
段(105)上のその組に対応する前記相対関係標準パ
ターン(106)との整合度を演算し、該各整合度に基
づいて前記認識基本単位候補系列群(103)の中から
前記未知入力音声(101)に対応する最適認識基本単
位候補系列(107)を認識する最通認識基本単位候補
系列認識手段(104)とを有することを特徴とする相
対関係に基づく音声認識方式。 2)同一のものを含む2種類の認識基本単位の組の各々
につき、その組の各認識基本単位から得られる各特徴ベ
クトルの差ベクトルの標準パターンを記憶する差ベクト
ル標準パターン記憶手段と、未知入力音声から各々複数
候補ずつの認識基本単位候補系列群を抽出する予備識別
手段と、該認識基本単位候補系列群から選択される前記
2種類の認識基本単位候補の組の各々につき、その組内
の各特徴ベクトルの差ベクトルを演算し該差ベクトルと
前記差ベクトル標準パターン記憶手段上のその組に対応
する前記差ベクトル標準パターンとの整合度を演算し、
該各整合度に基づいて前記認識基本単位候補系列群の中
から前記未知入力音声に対応する最適認識基本単位候補
系列を認識する最適認識基本単位候補系列認識手段とを
有することを特徴とする相対関係に基づく音声認識方式
。 3)前記差ベクトル標準パターン記憶手段には、前記2
種類の認識基本単位の組の各々につき、その組の複数の
学習サンプルから得られる前記差ベクトルの平均差ベク
トルと共分散行列が前記差ベクトル標準パターンとして
記憶され、 前記最適認識基本単位候補系列認識手段における前記整
合度の演算は、前記2種類の認識基本単位候補の各組の
生起確率が等しく、整合を行うべき組における前記差ベ
クトルの確率分布が、前記差ベクトル標準パターン記憶
手段上のその組に対応する前記平均差ベクトルと前記共
分散行列とで定まる多次元正規分布に従うと仮定した場
合の、前記整合を行うべき差ベクトルを入力とするベイ
ズ識別関数を求める演算であることを特徴とする請求項
2記載の相対関係に基づく音声認識方式。 4)同一のものを含む所定複数種類の認識基本単位候補
の組の各々につき、その組の各種類の認識基本単位候補
の特徴ベクトルをその種類を除くその組の他の認識基本
単位候補の特徴ベクトルから線形モデルで推定する場合
の推定係数行列及び定数ベクトルを各々その組の複数の
学習サンプルから重回帰分析により演算して求めたもの
を相対関係標準パターンとして記憶する相対関係標準パ
ターン記憶手段と、 未知入力音声から各々複数候補ずつの認識基本単位候補
系列群を抽出する予備識別手段と、該認識基本単位候補
系列群から選択される前記所定複数種類の認識基本単位
候補の組の各々につき、その組の各種類の認識基本単位
候補の特徴ベクトルとそれを前記相対関係標準パターン
記憶手段上のその組に対応する前記推定係数行列及び定
数ベクトルを用いて前記線形モデルで推定したものとの
差ベクトルのノルムのその組の全種類についての総和に
負符号を付した値を演算することにより整合度を求め、
該各整合度に基づいて前記認識基本単位候補系列群の中
から前記未知入力音声に対応する最適認識基本単位候補
系列を認識する最適認識基本単位候補系列認識手段とを
有することを特徴とする相対関係に基づく音声認識方式
。 5)前記認識基本単位は母音であり、 前記予備識別手段は、 5母音の各母音毎の特徴量の標準パターンを記憶する母
音別標準パターン記憶手段と、 前記未知入力単語音声を時間軸方向に分割した複数フレ
ームから複数の母音区間とその区間の特徴量を抽出する
母音区間抽出手段と、 該各母音区間毎に、その区間の特徴量と前記母音別標準
パターン記憶手段上の前記各標準パターンとのマッチン
グをとることにより、前記各母音区間毎に3位までの母
音候補を識別し、3候補ずつの母音候補系列群として出
力する母音候補系列群生成手段とによって構成されるこ
とを特徴とする請求項1、2、3又は4記載の相対関係
に基づく音声認識方式。 6)前記最適認識基本単位候補系列認識手段は、確率的
弛緩法により前記認識基本単位候補系列群の各認識基本
単位候補の確率を前記各整合度に基づいて更新し、所定
回数の更新動作の後、各認識基本単位候補毎に各々の確
率が最も高くなった認識基本単位候補を選択して前記最
適認識基本単位候補系列を認識することを特徴とする請
求項1、2、3、4又は5記載の相対関係に基づく音声
認識方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63205684A JPH067358B2 (ja) | 1988-08-20 | 1988-08-20 | 相対関係に基づく音声認識方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63205684A JPH067358B2 (ja) | 1988-08-20 | 1988-08-20 | 相対関係に基づく音声認識方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0255398A true JPH0255398A (ja) | 1990-02-23 |
JPH067358B2 JPH067358B2 (ja) | 1994-01-26 |
Family
ID=16510987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63205684A Expired - Fee Related JPH067358B2 (ja) | 1988-08-20 | 1988-08-20 | 相対関係に基づく音声認識方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH067358B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180417A (ja) * | 2010-03-02 | 2011-09-15 | Mitsubishi Electric Corp | 音楽音響信号のピッチ推定装置及び方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57195300A (en) * | 1981-05-26 | 1982-11-30 | Sanyo Electric Co | Voice recognition unit |
JPS6255700A (ja) * | 1985-09-04 | 1987-03-11 | 木村 正行 | 音声母音認識方法 |
-
1988
- 1988-08-20 JP JP63205684A patent/JPH067358B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57195300A (en) * | 1981-05-26 | 1982-11-30 | Sanyo Electric Co | Voice recognition unit |
JPS6255700A (ja) * | 1985-09-04 | 1987-03-11 | 木村 正行 | 音声母音認識方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180417A (ja) * | 2010-03-02 | 2011-09-15 | Mitsubishi Electric Corp | 音楽音響信号のピッチ推定装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH067358B2 (ja) | 1994-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9984682B1 (en) | Computer-implemented systems and methods for automatically generating an assessment of oral recitations of assessment items | |
US11450332B2 (en) | Audio conversion learning device, audio conversion device, method, and program | |
US5684925A (en) | Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity | |
Sharma et al. | Acoustic model adaptation using in-domain background models for dysarthric speech recognition | |
Chang et al. | A Segment-based Speech Recognition System for Isolated Mandarin Syllables | |
Liu et al. | Graph-based semi-supervised learning for phone and segment classification. | |
Lin et al. | Deep Feature Transfer Learning for Automatic Pronunciation Assessment. | |
US20220223066A1 (en) | Method, device, and computer program product for english pronunciation assessment | |
CN103489445A (zh) | 一种识别音频中人声的方法及装置 | |
Sharma et al. | Sparse coding based features for speech units classification | |
US20230178099A1 (en) | Using optimal articulatory event-types for computer analysis of speech | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
Deng et al. | Deep dynamic models for learning hidden representations of speech features | |
Dileep et al. | Class-specific GMM based intermediate matching kernel for classification of varying length patterns of long duration speech using support vector machines | |
Yılmaz et al. | Noise robust exemplar matching using sparse representations of speech | |
Shah et al. | Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion. | |
CN107610720B (zh) | 发音偏误检测方法、装置、存储介质及设备 | |
Chen et al. | Mandarin Chinese mispronunciation detection and diagnosis leveraging deep neural network based acoustic modeling and training techniques | |
Singh et al. | Application of different filters in mel frequency cepstral coefficients feature extraction and fuzzy vector quantization approach in speaker recognition | |
JPH0255398A (ja) | 相対関係に基づく音声認識方式 | |
CN114566147A (zh) | 语音评测方法、计算机设备、存储介质和计算机程序产品 | |
Hanifa et al. | Comparative analysis on different cepstral features for speaker identification recognition | |
Gowrishankar et al. | Deep learning long short-term memory based automatic music transcription system for carnatic music | |
Viszlay et al. | Alternative phonetic class definition in linear discriminant analysis of speech | |
Patil et al. | Linear collaborative discriminant regression and Cepstra features for Hindi speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |