JPH0316040B2

JPH0316040B2 -

Info

Publication number: JPH0316040B2
Application number: JP9835083A
Authority: JP
Inventors: Masakatsu Hoshimi; Katsuyuki Futayada
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-06-02
Filing date: 1983-06-02
Publication date: 1991-03-04
Also published as: JPS59223498A

Description

【発明の詳細な説明】

産業上の利用分野本発明は音声認識における音素判別法に関する
ものである。従来例の構成とその問題点入力音声を音素単位に分けて音素の組合せとし
て認識し（音素認識とよぶ）音素単位で表記され
た単語辞書との類似度を求めて認識結果を出力す
る従来の単語認識システムのブロツク図を第１図
に示す。まず、あらかじめ多数話者の音声を10msの分
析区間毎に音響分析部１によつてフイルタバンク
を用いて分析し、得られたスペクトル情報をもと
に特徴抽出部２によつて特徴パラメータを求め
る。この特徴パラメータから／ａ／，／ｏ／等の
母音や、／ｍ／，／ｂ／等の子音に代表される音
素毎又は音素グループ毎に標準パターンを作成し
て標準パターン登録部５に登録しておく。次に、
入力された不特定話者の音声を、同様に分析区間
毎に音響分析部１によつて分析し、特徴抽出部２
によつて特徴パラメータを求める。この特徴パラ
メータと標準パターン登録部５の標準パターンを
用いてセグメンテーシヨン部３において母音と子
音の区切り作業（以下セグメンテーシヨンと呼
ぶ）を行なう。この結果をもとに、音素判別部４
において、標準パターン登録部５の標準パターン
と照合することによつて、最も類似度の高い標準
パターンに該当する音素をその区間における音素
と決定する。最後に、この結果作成した音素の時
系列（以下音素系列と呼ぶ）を単語認識部６に送
り、同様に音素系列で表現された単語辞書７と最
も類似度の大きい項目に該当する単語を認識結果
として出力する。本構成において音素判別部４で音素の判別を行
う場合、従来では、子音区間と判定された区間に
ついてフレーム毎に音素の特徴を示す特徴パラメ
ータを求め、あらかじめ用意されている各音素ま
たは音素群の標準パターンと比較してフレーム毎
に子音分類を行なう。この結果を子音分類ツリー
に適用して、条件の一致したものを認識された子
音としていた。しかし、この場合子音のうちのい
くつかについては明確な判定を行なわずに音素群
の判定にとどまつている。（たとえば、／
ｂ／，／ｄ／，／ｇ／を音声破裂音群としてい
る）音声破裂音群の判別については、たとえば「日
本語有声破裂音の分析」細谷、藤崎、日本音響学
会音声研究会（S80−67）などで報告されてい
る。しかし、これらの方法は分析時間、アルゴリ
ズムの複雑さのために、実際の単語認識システム
に使用された例は報告されていない。以上述べたように、従来の方法では、いくつか
の音素については音素群の判別にとどまつており
認識対象単語によつては問題が生じる。また、音
素群内での判別方法も報告されているが、まだ、
分析時間、アルゴリズムの複雑さなどの問題があ
り実際のシステムに使用されていない。発明の目的本発明は、以上のような従来の問題点を解決す
るためになされたもので、分析時間、アルゴリズ
ムを考慮して実際のシステムで使用出来る音素群
内での音素判別法を提供することを目的とする。発明の構成この目的を達成するために本発明は、子音群内
で子音の判定を行うに際し、音声スペクトルの低
域パワーと高域パワーの時間的変動を用いて子音
を認識する音素判定法を提供するものである。実施例の説明本発明は入力音声のスペクトルとその時間的変
化過程を用いて子音認識を行う。子音、特に破裂性を有するものは、破裂時点や
母音へのわたりの部分に特徴があることが知られ
ている。本実施例はこの性質を利用して、対象音
素の時間的な動きとスペクトルの特徴の両方をパ
ラメータとして抽出し、パターンマツチングによ
つて予め用意されている標準パターンとの間で類
似度を求め、最も類似度の大きい音素を判別結果
とする方法である。この場合標準パターンは音素
ごとに性質のわかつた多くのデータを使用して作
成しておく。すなわちスペクトルの特徴を表わす
パラメータをフレームごとにＰ個ずつｑフレーム
分、計ｐ×ｑ個をパラメータとし、多くのデータ
を使つてこれらの平均値と共分散マトリツクスを
求め標準パターンとする。このとき、パターンマツチングを行う場所（時
間的な基準点）を正確に定めることが要求され
る。このために本実施例では、スペクトルの音韻
性が現われ始める遷移開始時点を自動的に精度良
く検出するために低域パワーと高域パワーの時間
的変動を使用する。以下に本実施例の詳細を図面を用いて説明す
る。子音を判別する際、従来の方法によつて｛／
Ｐ／，／ｔ／，／ｋ／，／ｃ／｝や｛／ｂ／，／
ｄ／｝等のような音素群に分類することが出来る
ので、本実施例では音素群内において音素の判定
を行なう方法を対象とする。本実施例では｛／
ｐ／，／ｔ／，／ｋ／，／ｃ／｝と｛／ｂ／，／
ｄ／｝の２つの音素群についてそれぞれの群内で
音素の判別を例として説明する。本実施例では、スペクトルの特徴を表わすパラ
メータとしてLPCケプストラム係数C₀〜Cn（ただ
しｎは正の整数）を使用する。音素の遷移開始時
点の定めかたにより、音素判別率が大きく変動す
るので、遷移開始時点を精度良く自動検出するた
めに、パラメータとして低域パワーと高域パワー
を使用する。この低域パワーと高域パワーの時間
的変動の特徴をとらえることにより音素の遷移開
始時点を正確に早めることが出来る。スペクトルの時間的変化過程としては、音素の
特徴を良く表わす遷移開始時点から連続ｍフレー
ム分のLPCケプストラム係数を（ｎ×ｍ）次元
ベクトルとして取扱う（本実施例では、ｎ＝５，
ｍ＝３とし、15次元ベクトルとする）。スペクトルの時間的変化過程の標準パターンの
求め方としては、あらかじめ目視によつて各音素
毎にスペクトルの時間的変化の特徴を良く表わす
遷移開始時点を基準フレーム（本実施例では１フ
レームを10msecとする）として15次元ベクトル
の平均および共分散の標準パターンを多くのデー
タから作成しておく。この標準パターンについて
正規分布を仮定したベイズ判定に基づく距離尺度
を用いて音素の判定を行なう。遷移開始時点である基準フレームの自動検出法
としては、低域パワーと高域パワーの時間的変動
を用いて行なう。以下に基準フレームの自動検出法を無声破裂音
群｛／ｐ／，／ｔ／，／ｋ／，／ｃ／｝と音声破
裂音群｛／ｂ／，／ｄ／｝の両方について述べ
る。まず最初は、無声破裂音群｛／ｐ／，／
ｔ／，／ｋ／，／ｃ／｝について説明する。音
素／ｋ／の場合の低域パワーと高域パワーの時間
的変化のようすを第２図に示す。ａは低域パワ
ー、ｂは高域パワーであり、横軸はフレーム番
号、縦軸はパワーである。図において８，９がそ
れぞれ低域パワー、高域パワーの時間的動きであ
り、１０，１１はれぞれのパワーの差分値であ
る。図からわかるように低域、高域パワー８及び
９ともに１度凸状になり、その後、渡りの部分で
パワーが凹状になつてから再び立ち上げつてい
く。この時、子音区間（図中でＫと表示してあ
る）の中で低域、高域パワーの差分値10及び11が
最初にピークになるフレーム番号をPL1，PH1と
し、２番目にピークになるフレーム番号をPL2，
PH2とする。もし、２つピークが現われない場
合はPL1＝PL2またはPH1＝PH2とする。この場合、基準フレームは、 MIN（PL1，PH1）−F1 〜MAX（PL1，PH1）＋F2 （ここでF1，F2は正の整数とする）より定められる。基準フレームを１限定しないのは、基準フレー
ムが１フレームずれたために標準パターンと一致
しないことをさけるためである。次に、有声破裂音群｛／ｂ／，／ｄ／｝につい
て説明する。音素／ｄ／の場合の低域パワーと高
域パワーの時間的変化のようすを第３図に示す。
ａは低域パワー、ｂは高域パワーであり、横軸は
フレーム番号、縦軸はパワーである。図において
１２，１３は低域、高域パワーで１４，１５はそ
れぞれのパワーの差分値である。子音区間Ｄの中
で低域パワーと高域パワーの差分値14及び15が正
のピークになるフレーム番号をそれぞれPL3，
PH3とする。破裂音の場合は破裂時点に特徴が
あるため基準フレームとしては破裂時点のフレー
ムをとる。この場合の基準フレームは MIN（PL3，PH3）−F3 〜MAX（PL3，PH3）＋F4 （ここでF3，F4は正の整数とする）より定められる。基準フレームを１フレームに限
定しないのは、基準フレームが１フレームずれた
ために標準パターンと一致しないことを避けるた
めである。このようにして基準フレーム区間を定め、区間
中の各フームを中心としてその前後各１フレーム
の計３フレームを対象として、標準パターンとの
類似度を計算する。そしてその操作を区間内にお
いて１フレームずつずらせて各々の基準フレーム
での類似度を求め、区間内で一番類似度が大きい
音素を判別結果として出力する。類似度の計算は３フレーム（基準フレーム±
１）×５パラメータ（C₀〜C₄）の15次元マトリツ
クススを使用してベイズ判定によつて行う。以上のように、本実施例によれば、低域パワー
と高域パワーの時間的変化から音素の遷移開始時
点である基準フレームを自動的に検出し、あらか
じめ用意している標準パターンと比較することに
よつて、今までは音素群の判別までしか行なつて
いかつた音素を音素毎にまで判別出来るようにな
つた。また、アルゴリズムも簡単で、すぐにシス
テムで使用することが出来る。本実施例を用いて212単語を発声した男女各10
名を評価した時の結果を表−１に示す。

【表】この結果からわかるように、本発明を用いると
比較的簡単な手法によつてかなり高い認識率を得
ることが出来る。なお、以上の実施例では、スペクトルの特徴を
表わすパラメータとしてケプストラム係数を使用
したが、他にバンバ・パス・フイルタの出力など
のようにスペクトルの特徴を表わすパラメータな
らば使用出来る。また、基準フレームを検出するパラメータとし
て低域パワーと高域パワーを併用しているが、ど
ちらか１方だけか、あるいは全域パワーも使用出
来る。発明の効果以上述べたように本発明は、パワーの時間的変
動を利用して、音素のスペクトルの時間的変化過
程をよく表わす基準フレームを自動的に検出し、
この基準フレームから、スペクトルの特徴を表わ
すパラメータの時間的変化過程をとらえ、あらか
じめ用意している音素毎の標準パターンと比較す
ることによつて音素判別を行うもので、いままで
は音素群の判別にとどまつていたものを音素毎に
判別出来るようになつた。また、アルゴリズムも
簡単で、単語認識システムにすぐに組み込むこと
が出来る利点を有する。

【図面の簡単な説明】

第１図は従来の音声認識システムのブロツク
図、第２図は本発明の一実施例として無声破裂音
群の基準フレームの検出法を説明するための音
素／ｋ／の低域パワーと高域パワーの変化のよう
すを表わす図、第３図は本発明の一実施例として
有声破裂音群の基準フレームの検出法を説明する
ための音素／ｄ／の低域パワーと高域パワーの変
化のようすを表わす図である。１……音響分析部、２……特徴抽出部、３……
セグメンテーシヨン部、４……音素判別部、５…
…標準パターン登録部、６……単語認識部、７…
…単語辞書、８，１２……低域パワー、９，１３
……高域パワー、１０，１４……低域パワーの差
分値、１１，１５……高域パワーの差分値。

Claims

【特許請求の範囲】

１入力音声の子音を子音群に分類し、前記子音
群内で子音の判定を行うに際し、音声スペクトル
の低域パワーと高域パワーの時間的変動から複数
の基準フレームを含む区間を検出し、前記複数の
基準フレームを含む区間に対してスペクトルの時
間的変化過程を含む標準パターンと比較すること
により子音を判定することを特徴とする音素判別
法。