JPH0640274B2

JPH0640274B2 - 音声認識装置

Info

Publication number: JPH0640274B2
Application number: JP1061928A
Authority: JP
Inventors: 康弘小森; 香一郎畑崎
Original assignee: 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date: 1989-03-13
Filing date: 1989-03-13
Publication date: 1994-05-25
Anticipated expiration: 2009-05-25
Also published as: JPH02239290A

Description

【発明の詳細な説明】［産業上の利用分野］この発明は音声認識装置に関し、特に、入力された音声
の音韻グループごとの位置または区間を検出してセグメ
ンテーションを行ない、検出した位置または区間に対し
て音韻を認識するような音声認識装置に関する。

［従来の技術および発明が解決しようとする課題］従来の音声認識の方法は、連続した音声波形に時間区分
を入れてセグメンテーションを行なった後に、音韻認識
を行なう方法と、連続した音声波形の時間区分およびそ
の部分の音韻認識を同時に行なういわゆる音韻スポッテ
ィング方法とが提案されている。

しかしながら、前者の方法においては、各音韻の存在す
る音韻環境にかかわらず画一的なパワーやスペクトルの
変化などの単純なパラメータの組合わせでセグメンテー
ションを行なっているため、高精度のセグメンテーショ
ンを行なうことができない。その結果、高い音韻認識率
を得ることができない。また、後者の方法においては、
連続する音韻の境界付近で音韻の誤認識や挿入誤りが多
く、その結果高い音韻認識率が得られないという欠点が
あった。

それゆえに、この発明の主たる目的は、セグメンテーシ
ョン誤りによる音韻の誤認識および音韻スポッティング
法による音韻境界における音韻の誤認識や挿入誤りを解
決して、高い音韻認識が可能な音声認識装置を提供する
ことである。

［課題を解決するための手段］この発明は入力された音声を認識する音声認識装置であ
って、入力された音声のある周波数帯域におけるパワー
の大きさと、ある周波数帯域におけるパワーの変化量
と、ある周波数帯域におけるスペクトルの変化量と、あ
る周波数帯域と他のある周波数帯域におけるパワーの比
とに基づいて、音韻グループごとの位置または区間を検
出する検出手段と、入力された音声から予め設定された
音韻グループ内の音韻を識別するニューラルネットワー
クと、検出された音韻グループごとの位置または区間と
識別された音韻とに基づいて音声認識を行なう音声認識
手段とを備えて構成される。

［作用］この発明に係る音声認識装置は、入力された音声のある
周波数帯域におけるパワーの大きさとパワーの変化量と
スペクトルの変化量とある周波数帯域と他のある周波数
帯域におけるパワーの比とに基づいて音韻グループごと
の位置または区間を検出すると同時に、ニューラルネッ
トワークによって入力された音声から予め設定された音
韻グループ内の音韻を識別し、検出された音韻グループ
ごとの位置または区間と識別された音韻とに基づいて音
声を認識することにより、高い性能の音韻認識を可能に
し、高性能な音声認識装置を構築できる。

［発明の実施例］第１図はこの発明が適用される音声認識装置の概略ブロ
ック図である。第１図を参照して、音声認識装置はアン
プ１とローパスフィルタ２とＡ／Ｄ変換器３と処理装置
４とを含む。アンプ１は入力された音声信号を増幅し、
ローパスフィル２は増幅された音声信号から折返し雑音
を除去する。Ａ／Ｄ変換器３は音声信号を１２ｋＨｚの
サンプリング信号により、１６ビットのデジタル信号に
変換する。処理装置４はコンピュータ５と磁気ディスク
６と端末類７とプリンタ８とを含む。コンピュータ５は
Ａ／Ｄ変換器３から入力された音声のディジタル信号に
基づいて、後述の第２図ないし第５図に示した手法を用
いて音声認識を行なう。

第２図はこの発明の一実施例による音韻グループごとに
区間を検出する手順を示す図であり、第３図はスペクト
ログラムの一例を示す図であり、第４図は認識結果を示
す図であり、第５図はニューラルネットワークを用いて
音韻を識別する一例を示す図である。

次に、第１図ないし第５図を参照して、この発明の一実
施例の具体的な動作について説明する。第１図に示した
Ａ／Ｄ変換器３からディジタル化された音韻スペクトル
がコンピュータ５に与えられる。コンピュータ５はステ
ップ（図示ではＳＰ１と略称する）ＳＰ１において、入
力された音韻スペクトルに基づいて、スペクトログラム
上の大まかな音韻特徴を参照する。第３図は［ｓｕｋｕ
ｎａｋｕｔｏｍｏ」と発音したときのスペクトログラム
であり、縦軸は周波数を示し、横軸は時間経過を示して
いる。このスペクトログラムにおいて黒く示されている
部分はパワーの大きいことを示しており、白くなるに従
ってパワーの小さいことを示している。第２図のステッ
プＳＰ２において音韻候補が検出される。すなわち、前
述のステップＳＰ１における音韻特徴の参照結果に基づ
いて、音韻グループごとの大まかな位置を大まかな特徴
を用いて音韻候補が検出される。ここでの音韻グループ
は、たとえば無声摩擦音，有声破裂音，鼻音，流音など
である。

第３図に示したスペクトログラムでは、／ｓ／に対応し
て、３３５ｍｓｅｃ〜４９２ｍｓｅｃの区間において、
４０００Ｈｚ〜６０００Ｈｚの周波数帯域のパワーが大
きく、１０００Ｈｚ〜２０００Ｈｚ付近の周波数帯域で
はパワーが小さく、カットオフ点は５０００Ｈｚ付近に
あることから、ほぼ無声摩擦音または有声摩擦音に近い
と判断され、無声摩擦音と有声摩擦音とが音韻候補とさ
れる。

次に、／ｓ／に引き続いて、／ｋ／に対応して、４９２
〜５６２ｍｓｅｃの区間におけるパワーの変化，スペク
トルの変化などに基づいて、無声破裂音を音韻候補とす
る。

次に、ステップＳＰ３において、音韻環境の仮説が行な
われる。すなわち、上述のステップＳＰ２において検出
された音韻候補ごとに予め設定された前後の音韻の種
類，音韻変形が仮説される。すなわち、前述のステップ
ＳＰ２で検出された無声摩擦音と有声摩擦音のそれぞれ
の前後の音韻の種類が仮説される。／ｓ／という無声摩
擦音に対して、その前には無音，閉鎖音，母音が仮説さ
れ、後の音韻に対して閉鎖音，無音，母音，摩擦音が仮
説される。ステップＳＰ２で検出された有声摩擦音に対
しても、前後の音韻の種類が仮説され、前の音韻が無音
と母音であり、後の音韻として母音が仮説される。

上述のステップＳＰ３において仮説された音韻環境ごと
に可能性のある音韻境界の検出および仮説の検証が行な
われる。正しい仮説の下では、仮説ごとに高い確信度が
得られ、結果として音韻環境が検出される。逆に誤った
仮説では確信度が低くなり、音韻環境を得るに至らな
い。仮説が正しいか否かの判断はスペクトログラム上の
音響特徴、すなわち、入力された音声の或る周波数帯域
におけるパワーの大きさと、パワーの変化量と、スペク
トルの変化量と、他の周波数帯域に対するパワーの比と
に基づいて判別される。

ステップＳＰ５において、各音韻グループが決定された
区間のうち、最も確信度の高い区間を最終セグメンテー
ションおよび音韻グループの結果とされる。この最終セ
グメンテーションの結果に対して、ステップＳＰ６で対
応する音韻グループの識別が行なわれる。ステップＳＰ
３における無音の仮説に対して、３３５ｍｓｅｃから無
声摩擦音がスタートし、その確信度（ｃｆ）が０．６４
であるという結果が得られ、母音の仮説に対しては結果
が得られず、閉鎖音の仮説に対しては３２５ｍｓｅｃか
らスタートし、その確信度が０．６０であるという結果
が得られる。また、破裂音の仮説に対してはスタートす
る４９２ｍｓｅｃの境界が／ｓ／の終端であり、その確
信度が０．６６であると仮説される。

ステップＳＰ６において、確信度の最も高い結果が選ば
れ、ステップＳＰ７において、／ｓ／は３３５ｍｓｅｃ
からスタートし、４９２ｍｓｅｃでエンドであることが
識別され、それによってセグメンテーションが決定され
ると同時に音韻グループの識別が行なわれる。

次に、第５図を参照して、検出されたセグメンテーショ
ンの音韻を識別する方法について説明する。第５図に示
した時間遅れニューラルネットワークは、１８の子音を
有声破裂音，無声破裂音，鼻音，有声摩擦音，無声摩擦
音，流音の６つのクラスにグループ化し、それぞれのグ
ループを入力層１０として用いる。入力層１０は従来か
ら知られているバックプロパゲーションの学習により、
セグメンテーションされた音韻の識別を行なう。各クラ
スの識別は入力層１１によって行なわれる。時間遅れニ
ューラルネットワークの学習は、すべての子音の終端位
置の入力層１０の１５０ｍｓｅｃの前から１００ｍｓｅ
ｃの位置に合わせて行なわれ、同様に、音韻識別ではセ
グメンテーション結果の終端は入力層１０の同じ位置に
適用され、時間遅れニューラルネットワークの出力層１
２が出力する最大確信度を与える音韻を識別結果とす
る。この識別結果の一例を示したのが、第４図である。

なお、上述の実施例における位置検出においては、音韻
グループとその区間を示した。しかし、この方法の他
に、たとえば破裂の特徴を有する音韻グループと破裂位
置，局所的パワーのディップの特徴を有する音韻グルー
プとディップの位置などのように、或る特徴を有する音
韻グループとその特徴の位置による方法でも可能であ
る。

また、上述の第５図に示した音韻識別方式においては、
時間遅れニューラルネットワークを用いたが、その他の
一般的な統計的手法による音韻グループ内の音韻認識方
法でも可能である。たとえば、一般のニューラルネット
ワークによる音韻識別方法や、ＨＭＭによる音韻識別方
法や、ベイズ則による音韻識別方法や、線形判別による
音韻識別方法や、ＬＶＱなどの方法にて設定した標準パ
ターンを用いた音韻識別方法などが適用可能である。

［発明の効果］以上のように、この発明によれば入力された音声のある
周波数帯域におけるパワーの大きさと、パワーの変化量
と、スペクトルの変化量と、ある周波数帯域と他のある
周波数帯域におけるパワーの比とに基づいて音韻グルー
プごとの位置または区間を検出し、ニューラルネットワ
ークへ入力された音声から予め設定された音韻グループ
内の音韻を識別し、検出された音韻グループごとの位置
または区間と識別された音韻とに基づいて音声認識を行
なうようにしたので、従来のようにセグメンテーション
誤りによる音韻の誤認識や音韻スポッティングによる音
韻境界における音韻の誤認識や挿入誤りを解決すること
ができ、音韻認識の高性能化を図ることができる。

【図面の簡単な説明】

第１図はこの発明の一実施例が適用される音声認識装置
の全体の構成を示すブロック図である。第２図はこの発
明の一実施例による音韻グループごとに区間を検出する
手順を示す図である。第３図はスペクトログラムの一例
を示す図である。第４図は音声認識結果を示す図であ
る。第５図は時間遅れニューラルネットを用いて音声認
識する一例を示す図である。図において、１はアンプ、２はローパスフィルタ、３は
Ａ／Ｄ変換器、４は処理装置、５はコンピュータ、６は
磁気ディスク、７は端末類、８はプリンタを示す。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献電子情報通信学会技術研究報告ＳＰ87− 117（1988−１−29）ｐ．29−34

Claims

【特許請求の範囲】

【請求項１】入力された音声を認識する音声認識装置で
あって、前記入力された音声のある周波数帯域におけるパワーの
大きさと、ある周波数帯域におけるパワーの変化量と、
ある周波数帯域におけるスペクトルの変化量と、ある周
波数帯域と他のある周波数帯域におけるパワーの比とに
基づいて、音韻グループごとの位置または区間を検出す
る検出手段、前記入力された音声から予め設定された音韻グループ内
の音韻を識別するニューラルネットワーク、および前記検出手段によって検出された音韻グループごとの位
置または区間と、前記識別手段によって識別された音韻
とに基づいて音声認識を行なう音声認識手段を備えた、
音声認識装置。