JPH0316040B2 - - Google Patents

Info

Publication number
JPH0316040B2
JPH0316040B2 JP9835083A JP9835083A JPH0316040B2 JP H0316040 B2 JPH0316040 B2 JP H0316040B2 JP 9835083 A JP9835083 A JP 9835083A JP 9835083 A JP9835083 A JP 9835083A JP H0316040 B2 JPH0316040 B2 JP H0316040B2
Authority
JP
Japan
Prior art keywords
phoneme
frequency power
standard pattern
frame
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP9835083A
Other languages
English (en)
Other versions
JPS59223498A (ja
Inventor
Masakatsu Hoshimi
Katsuyuki Futayada
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP9835083A priority Critical patent/JPS59223498A/ja
Priority to US06/616,836 priority patent/US4817159A/en
Publication of JPS59223498A publication Critical patent/JPS59223498A/ja
Publication of JPH0316040B2 publication Critical patent/JPH0316040B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】
産業上の利用分野 本発明は音声認識における音素判別法に関する
ものである。 従来例の構成とその問題点 入力音声を音素単位に分けて音素の組合せとし
て認識し(音素認識とよぶ)音素単位で表記され
た単語辞書との類似度を求めて認識結果を出力す
る従来の単語認識システムのブロツク図を第1図
に示す。 まず、あらかじめ多数話者の音声を10msの分
析区間毎に音響分析部1によつてフイルタバンク
を用いて分析し、得られたスペクトル情報をもと
に特徴抽出部2によつて特徴パラメータを求め
る。この特徴パラメータから/a/,/o/等の
母音や、/m/,/b/等の子音に代表される音
素毎又は音素グループ毎に標準パターンを作成し
て標準パターン登録部5に登録しておく。次に、
入力された不特定話者の音声を、同様に分析区間
毎に音響分析部1によつて分析し、特徴抽出部2
によつて特徴パラメータを求める。この特徴パラ
メータと標準パターン登録部5の標準パターンを
用いてセグメンテーシヨン部3において母音と子
音の区切り作業(以下セグメンテーシヨンと呼
ぶ)を行なう。この結果をもとに、音素判別部4
において、標準パターン登録部5の標準パターン
と照合することによつて、最も類似度の高い標準
パターンに該当する音素をその区間における音素
と決定する。最後に、この結果作成した音素の時
系列(以下音素系列と呼ぶ)を単語認識部6に送
り、同様に音素系列で表現された単語辞書7と最
も類似度の大きい項目に該当する単語を認識結果
として出力する。 本構成において音素判別部4で音素の判別を行
う場合、従来では、子音区間と判定された区間に
ついてフレーム毎に音素の特徴を示す特徴パラメ
ータを求め、あらかじめ用意されている各音素ま
たは音素群の標準パターンと比較してフレーム毎
に子音分類を行なう。この結果を子音分類ツリー
に適用して、条件の一致したものを認識された子
音としていた。しかし、この場合子音のうちのい
くつかについては明確な判定を行なわずに音素群
の判定にとどまつている。(たとえば、/
b/,/d/,/g/を音声破裂音群としてい
る) 音声破裂音群の判別については、たとえば「日
本語有声破裂音の分析」細谷、藤崎、日本音響学
会音声研究会(S80−67)などで報告されてい
る。しかし、これらの方法は分析時間、アルゴリ
ズムの複雑さのために、実際の単語認識システム
に使用された例は報告されていない。 以上述べたように、従来の方法では、いくつか
の音素については音素群の判別にとどまつており
認識対象単語によつては問題が生じる。また、音
素群内での判別方法も報告されているが、まだ、
分析時間、アルゴリズムの複雑さなどの問題があ
り実際のシステムに使用されていない。 発明の目的 本発明は、以上のような従来の問題点を解決す
るためになされたもので、分析時間、アルゴリズ
ムを考慮して実際のシステムで使用出来る音素群
内での音素判別法を提供することを目的とする。 発明の構成 この目的を達成するために本発明は、子音群内
で子音の判定を行うに際し、音声スペクトルの低
域パワーと高域パワーの時間的変動を用いて子音
を認識する音素判定法を提供するものである。 実施例の説明 本発明は入力音声のスペクトルとその時間的変
化過程を用いて子音認識を行う。 子音、特に破裂性を有するものは、破裂時点や
母音へのわたりの部分に特徴があることが知られ
ている。本実施例はこの性質を利用して、対象音
素の時間的な動きとスペクトルの特徴の両方をパ
ラメータとして抽出し、パターンマツチングによ
つて予め用意されている標準パターンとの間で類
似度を求め、最も類似度の大きい音素を判別結果
とする方法である。この場合標準パターンは音素
ごとに性質のわかつた多くのデータを使用して作
成しておく。すなわちスペクトルの特徴を表わす
パラメータをフレームごとにP個ずつqフレーム
分、計p×q個をパラメータとし、多くのデータ
を使つてこれらの平均値と共分散マトリツクスを
求め標準パターンとする。 このとき、パターンマツチングを行う場所(時
間的な基準点)を正確に定めることが要求され
る。このために本実施例では、スペクトルの音韻
性が現われ始める遷移開始時点を自動的に精度良
く検出するために低域パワーと高域パワーの時間
的変動を使用する。 以下に本実施例の詳細を図面を用いて説明す
る。子音を判別する際、従来の方法によつて{/
P/,/t/,/k/,/c/}や{/b/,/
d/}等のような音素群に分類することが出来る
ので、本実施例では音素群内において音素の判定
を行なう方法を対象とする。本実施例では{/
p/,/t/,/k/,/c/}と{/b/,/
d/}の2つの音素群についてそれぞれの群内で
音素の判別を例として説明する。 本実施例では、スペクトルの特徴を表わすパラ
メータとしてLPCケプストラム係数C0〜Cn(ただ
しnは正の整数)を使用する。音素の遷移開始時
点の定めかたにより、音素判別率が大きく変動す
るので、遷移開始時点を精度良く自動検出するた
めに、パラメータとして低域パワーと高域パワー
を使用する。この低域パワーと高域パワーの時間
的変動の特徴をとらえることにより音素の遷移開
始時点を正確に早めることが出来る。 スペクトルの時間的変化過程としては、音素の
特徴を良く表わす遷移開始時点から連続mフレー
ム分のLPCケプストラム係数を(n×m)次元
ベクトルとして取扱う(本実施例では、n=5,
m=3とし、15次元ベクトルとする)。 スペクトルの時間的変化過程の標準パターンの
求め方としては、あらかじめ目視によつて各音素
毎にスペクトルの時間的変化の特徴を良く表わす
遷移開始時点を基準フレーム(本実施例では1フ
レームを10msecとする)として15次元ベクトル
の平均および共分散の標準パターンを多くのデー
タから作成しておく。この標準パターンについて
正規分布を仮定したベイズ判定に基づく距離尺度
を用いて音素の判定を行なう。 遷移開始時点である基準フレームの自動検出法
としては、低域パワーと高域パワーの時間的変動
を用いて行なう。 以下に基準フレームの自動検出法を無声破裂音
群{/p/,/t/,/k/,/c/}と音声破
裂音群{/b/,/d/}の両方について述べ
る。 まず最初は、無声破裂音群{/p/,/
t/,/k/,/c/}について説明する。音
素/k/の場合の低域パワーと高域パワーの時間
的変化のようすを第2図に示す。aは低域パワ
ー、bは高域パワーであり、横軸はフレーム番
号、縦軸はパワーである。図において8,9がそ
れぞれ低域パワー、高域パワーの時間的動きであ
り、10,11はれぞれのパワーの差分値であ
る。図からわかるように低域、高域パワー8及び
9ともに1度凸状になり、その後、渡りの部分で
パワーが凹状になつてから再び立ち上げつてい
く。この時、子音区間(図中でKと表示してあ
る)の中で低域、高域パワーの差分値10及び11が
最初にピークになるフレーム番号をPL1,PH1と
し、2番目にピークになるフレーム番号をPL2,
PH2とする。もし、2つピークが現われない場
合はPL1=PL2またはPH1=PH2とする。 この場合、基準フレームは、 MIN(PL1,PH1)−F1 〜MAX(PL1,PH1)+F2 (ここでF1,F2は正の整数とする) より定められる。 基準フレームを1限定しないのは、基準フレー
ムが1フレームずれたために標準パターンと一致
しないことをさけるためである。 次に、有声破裂音群{/b/,/d/}につい
て説明する。音素/d/の場合の低域パワーと高
域パワーの時間的変化のようすを第3図に示す。
aは低域パワー、bは高域パワーであり、横軸は
フレーム番号、縦軸はパワーである。図において
12,13は低域、高域パワーで14,15はそ
れぞれのパワーの差分値である。子音区間Dの中
で低域パワーと高域パワーの差分値14及び15が正
のピークになるフレーム番号をそれぞれPL3,
PH3とする。破裂音の場合は破裂時点に特徴が
あるため基準フレームとしては破裂時点のフレー
ムをとる。 この場合の基準フレームは MIN(PL3,PH3)−F3 〜MAX(PL3,PH3)+F4 (ここでF3,F4は正の整数とする) より定められる。基準フレームを1フレームに限
定しないのは、基準フレームが1フレームずれた
ために標準パターンと一致しないことを避けるた
めである。 このようにして基準フレーム区間を定め、区間
中の各フームを中心としてその前後各1フレーム
の計3フレームを対象として、標準パターンとの
類似度を計算する。そしてその操作を区間内にお
いて1フレームずつずらせて各々の基準フレーム
での類似度を求め、区間内で一番類似度が大きい
音素を判別結果として出力する。 類似度の計算は3フレーム(基準フレーム±
1)×5パラメータ(C0〜C4)の15次元マトリツ
クススを使用してベイズ判定によつて行う。 以上のように、本実施例によれば、低域パワー
と高域パワーの時間的変化から音素の遷移開始時
点である基準フレームを自動的に検出し、あらか
じめ用意している標準パターンと比較することに
よつて、今までは音素群の判別までしか行なつて
いかつた音素を音素毎にまで判別出来るようにな
つた。また、アルゴリズムも簡単で、すぐにシス
テムで使用することが出来る。 本実施例を用いて212単語を発声した男女各10
名を評価した時の結果を表−1に示す。
【表】 この結果からわかるように、本発明を用いると
比較的簡単な手法によつてかなり高い認識率を得
ることが出来る。 なお、以上の実施例では、スペクトルの特徴を
表わすパラメータとしてケプストラム係数を使用
したが、他にバンバ・パス・フイルタの出力など
のようにスペクトルの特徴を表わすパラメータな
らば使用出来る。 また、基準フレームを検出するパラメータとし
て低域パワーと高域パワーを併用しているが、ど
ちらか1方だけか、あるいは全域パワーも使用出
来る。 発明の効果 以上述べたように本発明は、パワーの時間的変
動を利用して、音素のスペクトルの時間的変化過
程をよく表わす基準フレームを自動的に検出し、
この基準フレームから、スペクトルの特徴を表わ
すパラメータの時間的変化過程をとらえ、あらか
じめ用意している音素毎の標準パターンと比較す
ることによつて音素判別を行うもので、いままで
は音素群の判別にとどまつていたものを音素毎に
判別出来るようになつた。また、アルゴリズムも
簡単で、単語認識システムにすぐに組み込むこと
が出来る利点を有する。
【図面の簡単な説明】
第1図は従来の音声認識システムのブロツク
図、第2図は本発明の一実施例として無声破裂音
群の基準フレームの検出法を説明するための音
素/k/の低域パワーと高域パワーの変化のよう
すを表わす図、第3図は本発明の一実施例として
有声破裂音群の基準フレームの検出法を説明する
ための音素/d/の低域パワーと高域パワーの変
化のようすを表わす図である。 1……音響分析部、2……特徴抽出部、3……
セグメンテーシヨン部、4……音素判別部、5…
…標準パターン登録部、6……単語認識部、7…
…単語辞書、8,12……低域パワー、9,13
……高域パワー、10,14……低域パワーの差
分値、11,15……高域パワーの差分値。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声の子音を子音群に分類し、前記子音
    群内で子音の判定を行うに際し、音声スペクトル
    の低域パワーと高域パワーの時間的変動から複数
    の基準フレームを含む区間を検出し、前記複数の
    基準フレームを含む区間に対してスペクトルの時
    間的変化過程を含む標準パターンと比較すること
    により子音を判定することを特徴とする音素判別
    法。
JP9835083A 1983-06-02 1983-06-02 音素判別法 Granted JPS59223498A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9835083A JPS59223498A (ja) 1983-06-02 1983-06-02 音素判別法
US06/616,836 US4817159A (en) 1983-06-02 1984-06-04 Method and apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9835083A JPS59223498A (ja) 1983-06-02 1983-06-02 音素判別法

Publications (2)

Publication Number Publication Date
JPS59223498A JPS59223498A (ja) 1984-12-15
JPH0316040B2 true JPH0316040B2 (ja) 1991-03-04

Family

ID=14217444

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9835083A Granted JPS59223498A (ja) 1983-06-02 1983-06-02 音素判別法

Country Status (1)

Country Link
JP (1) JPS59223498A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6068395A (ja) * 1983-09-26 1985-04-18 松下電器産業株式会社 音素認識方法
JP2760096B2 (ja) * 1989-10-31 1998-05-28 日本電気株式会社 音声認識方式

Also Published As

Publication number Publication date
JPS59223498A (ja) 1984-12-15

Similar Documents

Publication Publication Date Title
US5097509A (en) Rejection method for speech recognition
EP1083542B1 (en) A method and apparatus for speech detection
US4910782A (en) Speaker verification system
JPS6336676B2 (ja)
US4817159A (en) Method and apparatus for speech recognition
EP1005019A2 (en) Segment-based similarity measurement method for speech recognition
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JPH0316040B2 (ja)
Nehra et al. Speaker identification system using CNN approach
Niederjohn et al. Computer recognition of the continuant phonemes in connected English speech
CA2013263C (en) Rejection method for speech recognition
JPS6336678B2 (ja)
JPH034918B2 (ja)
JP2744622B2 (ja) 破裂子音識別方式
JPH0455520B2 (ja)
JPH01260499A (ja) 子音認識法
JPS6363920B2 (ja)
JPH0120440B2 (ja)
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPH01260500A (ja) 子音認識法
JPS5958498A (ja) 音声認識装置
JPS62111295A (ja) 音声認識装置
JPH0220900A (ja) 音素判別方法
JPH0316038B2 (ja)