JPH0640274B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0640274B2
JPH0640274B2 JP1061928A JP6192889A JPH0640274B2 JP H0640274 B2 JPH0640274 B2 JP H0640274B2 JP 1061928 A JP1061928 A JP 1061928A JP 6192889 A JP6192889 A JP 6192889A JP H0640274 B2 JPH0640274 B2 JP H0640274B2
Authority
JP
Japan
Prior art keywords
phoneme
frequency band
power
certain frequency
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1061928A
Other languages
English (en)
Other versions
JPH02239290A (ja
Inventor
康弘 小森
香一郎 畑崎
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP1061928A priority Critical patent/JPH0640274B2/ja
Publication of JPH02239290A publication Critical patent/JPH02239290A/ja
Publication of JPH0640274B2 publication Critical patent/JPH0640274B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は音声認識装置に関し、特に、入力された音声
の音韻グループごとの位置または区間を検出してセグメ
ンテーションを行ない、検出した位置または区間に対し
て音韻を認識するような音声認識装置に関する。
[従来の技術および発明が解決しようとする課題] 従来の音声認識の方法は、連続した音声波形に時間区分
を入れてセグメンテーションを行なった後に、音韻認識
を行なう方法と、連続した音声波形の時間区分およびそ
の部分の音韻認識を同時に行なういわゆる音韻スポッテ
ィング方法とが提案されている。
しかしながら、前者の方法においては、各音韻の存在す
る音韻環境にかかわらず画一的なパワーやスペクトルの
変化などの単純なパラメータの組合わせでセグメンテー
ションを行なっているため、高精度のセグメンテーショ
ンを行なうことができない。その結果、高い音韻認識率
を得ることができない。また、後者の方法においては、
連続する音韻の境界付近で音韻の誤認識や挿入誤りが多
く、その結果高い音韻認識率が得られないという欠点が
あった。
それゆえに、この発明の主たる目的は、セグメンテーシ
ョン誤りによる音韻の誤認識および音韻スポッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決して、高い音韻認識が可能な音声認識装置を提供する
ことである。
[課題を解決するための手段] この発明は入力された音声を認識する音声認識装置であ
って、入力された音声のある周波数帯域におけるパワー
の大きさと、ある周波数帯域におけるパワーの変化量
と、ある周波数帯域におけるスペクトルの変化量と、あ
る周波数帯域と他のある周波数帯域におけるパワーの比
とに基づいて、音韻グループごとの位置または区間を検
出する検出手段と、入力された音声から予め設定された
音韻グループ内の音韻を識別するニューラルネットワー
クと、検出された音韻グループごとの位置または区間と
識別された音韻とに基づいて音声認識を行なう音声認識
手段とを備えて構成される。
[作用] この発明に係る音声認識装置は、入力された音声のある
周波数帯域におけるパワーの大きさとパワーの変化量と
スペクトルの変化量とある周波数帯域と他のある周波数
帯域におけるパワーの比とに基づいて音韻グループごと
の位置または区間を検出すると同時に、ニューラルネッ
トワークによって入力された音声から予め設定された音
韻グループ内の音韻を識別し、検出された音韻グループ
ごとの位置または区間と識別された音韻とに基づいて音
声を認識することにより、高い性能の音韻認識を可能に
し、高性能な音声認識装置を構築できる。
[発明の実施例] 第1図はこの発明が適用される音声認識装置の概略ブロ
ック図である。第1図を参照して、音声認識装置はアン
プ1とローパスフィルタ2とA/D変換器3と処理装置
4とを含む。アンプ1は入力された音声信号を増幅し、
ローパスフィル2は増幅された音声信号から折返し雑音
を除去する。A/D変換器3は音声信号を12kHzの
サンプリング信号により、16ビットのデジタル信号に
変換する。処理装置4はコンピュータ5と磁気ディスク
6と端末類7とプリンタ8とを含む。コンピュータ5は
A/D変換器3から入力された音声のディジタル信号に
基づいて、後述の第2図ないし第5図に示した手法を用
いて音声認識を行なう。
第2図はこの発明の一実施例による音韻グループごとに
区間を検出する手順を示す図であり、第3図はスペクト
ログラムの一例を示す図であり、第4図は認識結果を示
す図であり、第5図はニューラルネットワークを用いて
音韻を識別する一例を示す図である。
次に、第1図ないし第5図を参照して、この発明の一実
施例の具体的な動作について説明する。第1図に示した
A/D変換器3からディジタル化された音韻スペクトル
がコンピュータ5に与えられる。コンピュータ5はステ
ップ(図示ではSP1と略称する)SP1において、入
力された音韻スペクトルに基づいて、スペクトログラム
上の大まかな音韻特徴を参照する。第3図は[suku
nakutomo」と発音したときのスペクトログラム
であり、縦軸は周波数を示し、横軸は時間経過を示して
いる。このスペクトログラムにおいて黒く示されている
部分はパワーの大きいことを示しており、白くなるに従
ってパワーの小さいことを示している。第2図のステッ
プSP2において音韻候補が検出される。すなわち、前
述のステップSP1における音韻特徴の参照結果に基づ
いて、音韻グループごとの大まかな位置を大まかな特徴
を用いて音韻候補が検出される。ここでの音韻グループ
は、たとえば無声摩擦音,有声破裂音,鼻音,流音など
である。
第3図に示したスペクトログラムでは、/s/に対応し
て、335msec〜492msecの区間において、
4000Hz〜6000Hzの周波数帯域のパワーが大
きく、1000Hz〜2000Hz付近の周波数帯域で
はパワーが小さく、カットオフ点は5000Hz付近に
あることから、ほぼ無声摩擦音または有声摩擦音に近い
と判断され、無声摩擦音と有声摩擦音とが音韻候補とさ
れる。
次に、/s/に引き続いて、/k/に対応して、492
〜562msecの区間におけるパワーの変化,スペク
トルの変化などに基づいて、無声破裂音を音韻候補とす
る。
次に、ステップSP3において、音韻環境の仮説が行な
われる。すなわち、上述のステップSP2において検出
された音韻候補ごとに予め設定された前後の音韻の種
類,音韻変形が仮説される。すなわち、前述のステップ
SP2で検出された無声摩擦音と有声摩擦音のそれぞれ
の前後の音韻の種類が仮説される。/s/という無声摩
擦音に対して、その前には無音,閉鎖音,母音が仮説さ
れ、後の音韻に対して閉鎖音,無音,母音,摩擦音が仮
説される。ステップSP2で検出された有声摩擦音に対
しても、前後の音韻の種類が仮説され、前の音韻が無音
と母音であり、後の音韻として母音が仮説される。
上述のステップSP3において仮説された音韻環境ごと
に可能性のある音韻境界の検出および仮説の検証が行な
われる。正しい仮説の下では、仮説ごとに高い確信度が
得られ、結果として音韻環境が検出される。逆に誤った
仮説では確信度が低くなり、音韻環境を得るに至らな
い。仮説が正しいか否かの判断はスペクトログラム上の
音響特徴、すなわち、入力された音声の或る周波数帯域
におけるパワーの大きさと、パワーの変化量と、スペク
トルの変化量と、他の周波数帯域に対するパワーの比と
に基づいて判別される。
ステップSP5において、各音韻グループが決定された
区間のうち、最も確信度の高い区間を最終セグメンテー
ションおよび音韻グループの結果とされる。この最終セ
グメンテーションの結果に対して、ステップSP6で対
応する音韻グループの識別が行なわれる。ステップSP
3における無音の仮説に対して、335msecから無
声摩擦音がスタートし、その確信度(cf)が0.64
であるという結果が得られ、母音の仮説に対しては結果
が得られず、閉鎖音の仮説に対しては325msecか
らスタートし、その確信度が0.60であるという結果
が得られる。また、破裂音の仮説に対してはスタートす
る492msecの境界が/s/の終端であり、その確
信度が0.66であると仮説される。
ステップSP6において、確信度の最も高い結果が選ば
れ、ステップSP7において、/s/は335msec
からスタートし、492msecでエンドであることが
識別され、それによってセグメンテーションが決定され
ると同時に音韻グループの識別が行なわれる。
次に、第5図を参照して、検出されたセグメンテーショ
ンの音韻を識別する方法について説明する。第5図に示
した時間遅れニューラルネットワークは、18の子音を
有声破裂音,無声破裂音,鼻音,有声摩擦音,無声摩擦
音,流音の6つのクラスにグループ化し、それぞれのグ
ループを入力層10として用いる。入力層10は従来か
ら知られているバックプロパゲーションの学習により、
セグメンテーションされた音韻の識別を行なう。各クラ
スの識別は入力層11によって行なわれる。時間遅れニ
ューラルネットワークの学習は、すべての子音の終端位
置の入力層10の150msecの前から100mse
cの位置に合わせて行なわれ、同様に、音韻識別ではセ
グメンテーション結果の終端は入力層10の同じ位置に
適用され、時間遅れニューラルネットワークの出力層1
2が出力する最大確信度を与える音韻を識別結果とす
る。この識別結果の一例を示したのが、第4図である。
なお、上述の実施例における位置検出においては、音韻
グループとその区間を示した。しかし、この方法の他
に、たとえば破裂の特徴を有する音韻グループと破裂位
置,局所的パワーのディップの特徴を有する音韻グルー
プとディップの位置などのように、或る特徴を有する音
韻グループとその特徴の位置による方法でも可能であ
る。
また、上述の第5図に示した音韻識別方式においては、
時間遅れニューラルネットワークを用いたが、その他の
一般的な統計的手法による音韻グループ内の音韻認識方
法でも可能である。たとえば、一般のニューラルネット
ワークによる音韻識別方法や、HMMによる音韻識別方
法や、ベイズ則による音韻識別方法や、線形判別による
音韻識別方法や、LVQなどの方法にて設定した標準パ
ターンを用いた音韻識別方法などが適用可能である。
[発明の効果] 以上のように、この発明によれば入力された音声のある
周波数帯域におけるパワーの大きさと、パワーの変化量
と、スペクトルの変化量と、ある周波数帯域と他のある
周波数帯域におけるパワーの比とに基づいて音韻グルー
プごとの位置または区間を検出し、ニューラルネットワ
ークへ入力された音声から予め設定された音韻グループ
内の音韻を識別し、検出された音韻グループごとの位置
または区間と識別された音韻とに基づいて音声認識を行
なうようにしたので、従来のようにセグメンテーション
誤りによる音韻の誤認識や音韻スポッティングによる音
韻境界における音韻の誤認識や挿入誤りを解決すること
ができ、音韻認識の高性能化を図ることができる。
【図面の簡単な説明】
第1図はこの発明の一実施例が適用される音声認識装置
の全体の構成を示すブロック図である。第2図はこの発
明の一実施例による音韻グループごとに区間を検出する
手順を示す図である。第3図はスペクトログラムの一例
を示す図である。第4図は音声認識結果を示す図であ
る。第5図は時間遅れニューラルネットを用いて音声認
識する一例を示す図である。 図において、1はアンプ、2はローパスフィルタ、3は
A/D変換器、4は処理装置、5はコンピュータ、6は
磁気ディスク、7は端末類、8はプリンタを示す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 電子情報通信学会技術研究報告SP87− 117(1988−1−29)p.29−34

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力された音声を認識する音声認識装置で
    あって、 前記入力された音声のある周波数帯域におけるパワーの
    大きさと、ある周波数帯域におけるパワーの変化量と、
    ある周波数帯域におけるスペクトルの変化量と、ある周
    波数帯域と他のある周波数帯域におけるパワーの比とに
    基づいて、音韻グループごとの位置または区間を検出す
    る検出手段、 前記入力された音声から予め設定された音韻グループ内
    の音韻を識別するニューラルネットワーク、および 前記検出手段によって検出された音韻グループごとの位
    置または区間と、前記識別手段によって識別された音韻
    とに基づいて音声認識を行なう音声認識手段を備えた、
    音声認識装置。
JP1061928A 1989-03-13 1989-03-13 音声認識装置 Expired - Fee Related JPH0640274B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1061928A JPH0640274B2 (ja) 1989-03-13 1989-03-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1061928A JPH0640274B2 (ja) 1989-03-13 1989-03-13 音声認識装置

Publications (2)

Publication Number Publication Date
JPH02239290A JPH02239290A (ja) 1990-09-21
JPH0640274B2 true JPH0640274B2 (ja) 1994-05-25

Family

ID=13185312

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1061928A Expired - Fee Related JPH0640274B2 (ja) 1989-03-13 1989-03-13 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0640274B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0682275B2 (ja) * 1989-09-11 1994-10-19 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識装置
JP5257680B2 (ja) * 2006-03-30 2013-08-07 本田技研工業株式会社 音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子情報通信学会技術研究報告SP87−117(1988−1−29)p.29−34

Also Published As

Publication number Publication date
JPH02239290A (ja) 1990-09-21

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
Liu Landmark detection for distinctive feature‐based speech recognition
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP2048655B1 (en) Context sensitive multi-stage speech recognition
Ravinder Comparison of hmm and dtw for isolated word recognition system of punjabi language
US4707857A (en) Voice command recognition system having compact significant feature data
JPS6138479B2 (ja)
JP2745562B2 (ja) ノイズ適応形音声認識装置
JPH0640274B2 (ja) 音声認識装置
JP2580768B2 (ja) 音声認識装置
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JPH0682275B2 (ja) 音声認識装置
JP3110025B2 (ja) 発声変形検出装置
JP2664136B2 (ja) 音声認識装置
Hauenstein Using syllables in a hybrid HMM-ANN recognition system.
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
JP2594916B2 (ja) 音声認識装置
Scagliola et al. Continuous speech recognition via diphone spotting a preliminary implementation
Pawate et al. A new method for segmenting continuous speech
JPS59224900A (ja) 音声認識方法
EP0245252A1 (en) System and method for sound recognition with feature selection synchronized to voice pitch
JPS63217399A (ja) 音声区間検出装置
JPS59170894A (ja) 音声区間の切り出し方式
JPH0376475B2 (ja)
KASUYA et al. Automatic Detection of Vowel Centers from Continuous Speech

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees