JPS6039691A

JPS6039691A - 音声認識方法

Info

Publication number: JPS6039691A
Application number: JP14730983A
Authority: JP
Inventors: 金指　久則; 秋場　国夫; 入間野　孝雄
Original assignee: Computer Basic Technology Research Association Corp
Current assignee: Computer Basic Technology Research Association Corp
Priority date: 1983-08-13
Filing date: 1983-08-13
Publication date: 1985-03-01
Also published as: JPH0474720B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は入力音声の音素認識を行ない、その結果を用い
て、音節、単語２文章等を認識する音声認識方法特に破裂音を認識する認識方法に関するものである。

従来例の構成とその問題点一般に、音声の破裂音を認識する場合、破裂音の物理的
特徴としての破裂時点直前の無音区間を検出し、それを
利用して破裂音を認識する方法がとられる。第１図は、
従来の音声認識装置の破裂音検出部の構成図である。

以下にこの従来例の構成について第１図とともに説明す
る。第１図において１は環境騒音（ノイズ）を検出する
ノイズレベル検出部であり、このノイズレベル検出部１
の出力は無音部検出の閾値設定部２及び音声区間検出部
３に人力される。音声区間検出部３の出力は破裂音の無
音区間検出部４に入力される。

次に上記従来例の動作について第２図を用いて説明する
。第２図において、先ず、ノイズレベル検出部１で発声
環境のノイズレベル５を検出する。

このノイズレベル５を用いて、無音区間検出の閾値設定
部２において、閾値６の設定を行なう。同様にノイズレ
ベル５を利用して音声区間（音声区間の始端７．終端８
）を音声区間検出部３で検出する。破裂音の無音区間検
出部４において、無音区間（無音区間の始端９．終端１
０）ｅ検出する。

しかしながら、上記従来例においては無音部の・ぞワー
の絶対値を使った闇値設定がなされているために調音結
合の影響により破裂音の無音区間の音声・やワーが十分
に小さくならない場合に、閾値以下にならず無音区間の
検出を誤る欠点があった。

その具体例を第３図に示す。

第３図は°゛囲い（ＫＡＫＯｒ　）”と発生した時の音
声ノｅ７−の時間変化を示した図である。／に／に挾ま
れた母音／Ａ／が十分発声し終わらないうちに次の／に
／を発声するため２番目の／に／の直前の無音区間１１
の２４９−が十分下がらないため、閾値１２より大きく
なり無音区間の検出を誤る。この現象はとくに早口で発
声した場合に多発する。

発明の目的本発明は、上記従来例の欠点を除去し、音声の調音結合
の影響により、従来検出が困難であった破裂音の無音区
間の検出の精度を向上させることを目的とするものであ
る。

発明の構成本発明の音声認識方法は、上記目的を達成するために、
音声区間内の音声パワーの最大値−と最小値の差で音声
・母ワーを正規化し、その正規化した値によって破裂音
の無音区間検出の閾値を設定することを特徴とする。

実施例の説明以下に本発明の一実施例について、図面と共に説明する
。第４図は本発明の一実施例の音声認識方法を実施する
装置の破裂音の無音区間検出部のプロヴク図である。

同図において、１３はノイズレベル検出部であす、コノ
ノイズレ勺し検出部１３の出方を使って音声区間検出部
１４で音声区間を検出する。音声・切−正規化部１５で
は音声区間検出部１４の出方を用いて音声・やワーの正
規化を行ない破裂音の無音区間の閾値設定部１６で閾値
を設定し、破裂音の無音区間検出部１７で無音区間を検
出する。

次に上記実施例の動作について第５図を用いて説明する
。第５図において、ノイズレベル検出部１３で検出され
たノイズレベルを使って、音声区間検出部１４で音声区
間（音声区間の始端１８゜終端１９）を検出する。音声
・ぐワー正規化部１５において、音声区間内における音
声・切−の最大値２０　（ＭＡＸ）及び最小値２１　（
ＭＩＮ）　ｔ−［出り、　次式に従って音声の正規化パ
ワーを算出する・但し、ＰＷ（１）　：第１フレームの音声・ぐワーＭＡＸ　：
音声区間の最大値ＭＩＮ　：音声区間の最小値ＮＰＷ（１）　：　第１フレームの正規化音声・母ワー
この音声の正規化・やワーを用いて破裂音の無音区間検
出のための閾値２２を設定する。破裂音の無音区間検出
部１７においては第５図における正規化・ぐワーが減少
する区間２３と正規化・やワーが急激に上昇する区間２
４を検出し無音区間の候補とする。さらに正規化パワー
が谷の区間２５が閾値２２より低く、かつ、区間２５の
持続時間長が所定の値より短い場合に区間２５を破裂音
の無音区間として検出する。

本実施例においては、音声の・ぐワーを音声区間内で正
規化しているため無音区間の検出は音声区間内のパワー
の大きさの比で判断できる。よって調音結合の影響によ
り破桜音の破裂直前の無音部のパワーの絶対値が十分に
低くならない場合においても、無音部を検出できる利点
がある。

なお、複数の話者の発声による認識実験において、従来
例では破裂音の無音区間の検出が８５チであるのに対し
、本発明の方法を用いることにより、９４％に検出率が
向上した。

発明の効果本発明によれば破裂音の無音区間の検出に、音声区間内
で正規化したパワーを用いているため、調音結合によっ
て検出し難い破裂音の無音区間検出を精度よく検出でき
る利点を有する。

【図面の簡単な説明】

第１図は、従来の音声認識装置の破裂音の無音区間検出
部のブロック図、第２図、第３図は従来例の動作を説明
する図、第４図は不発明の一実施例における音声認識方
法を実施する装置の破裂音の無音区間検出部のブロック
図、第５図は本発明の一実施例の動作を説明する図であ
る。１３・・・ノイズレベル検出部、１４・・・音声区間検出部、１５・・・音声パワー正規化部、１６・・・無音区間閾値設定部、１７・・・破裂音の無音区間検出部。

Claims

【特許請求の範囲】

入力音声に対して単位時間毎に分析を行ない音素認識を
行なった後に単語音声を認識する方法において、破裂音
の認識に際し、破裂時点直前の無音区間の検出のための
閾値を、音声区間の・やワーの最大値と最小値の差で正
規化した値により設定することを特徴とする音声認識方
法。