JPH0474720B2 - - Google Patents

Info

Publication number
JPH0474720B2
JPH0474720B2 JP58147309A JP14730983A JPH0474720B2 JP H0474720 B2 JPH0474720 B2 JP H0474720B2 JP 58147309 A JP58147309 A JP 58147309A JP 14730983 A JP14730983 A JP 14730983A JP H0474720 B2 JPH0474720 B2 JP H0474720B2
Authority
JP
Japan
Prior art keywords
section
power
silent
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP58147309A
Other languages
English (en)
Other versions
JPS6039691A (ja
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed filed Critical
Priority to JP14730983A priority Critical patent/JPS6039691A/ja
Publication of JPS6039691A publication Critical patent/JPS6039691A/ja
Publication of JPH0474720B2 publication Critical patent/JPH0474720B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は入力音声の音素認識を行ない、その結
果を用いて、音節、単語、文章等を認識する音声
認識方法、特に破裂音を認識する認識方法に関す
るものである。
(従来例の構成とその問題点) 一般に、音声の破裂音を認識する場合、破裂音
の物理的特徴としての破裂時点直前の無音区間を
検出し、それを利用して破裂音を認識する方法が
とられる。第1図は、従来の音声認識装置の破裂
音検出部の構成図である。
以下にその従来例の構成について第1図ととも
に説明する。第1図において1は環境騒音(ノイ
ズ)を検出するノイズレベル検出部であり、この
ノイズレベル検出部1の出力は無音部検出の閾値
設定部2及び音声区間検出部3に入力される。そ
して、閾値設定部2及び音声区間検出部3の各出
力はそれぞれ破裂音の無音区間検出部4に入力さ
れる。
次に上記従来例の動作について第2図を用いて
説明する。第2図は、ある音声区間(フレーム)
における音声パワーを取り出したもので、横軸の
単位は時間(t)、縦軸の単位は音声パワー(例
えばワツト:W)である。先ず、ノイズレベル検
出部1で発声環境のノイズレベル5を検出する。
このノイズレベル5を用いて、無音区間検出の閾
値設定部2において、閾値6の設定を行なう。同
様にノイズレベル5を利用して、音声区間検出部
3で音声区間(音声区間の始端7、終端8)を検
出する。破裂音の無音区間検出部4においては、
閾値6と音声パワーの谷部の値とを比較して、無
音区間(無音区間の始端9,終端10)を検出す
る。このようにして、無音区間を検出し、破裂音
を認識することができる。
しかしながら、上記従来方法においては、無音
部のパワーの絶対値を使つた閾値設定がなされて
いるため、調音結合の影響により破裂音の無音区
間の音声パワーが十分に小さくならない場合が発
声するのみでなく、発声音の大小に応じて閾値6
のレベルも変えなければならず、従つて、閾値設
定が複雑になり、無音区間の検出を誤る欠点があ
つた。その具体例を第3図に示す。
第3図は“囲い(KAKOI)”と発声した時の
音声パワーの時間変化を示した図である。/K/
に挾まれた母音/A/が十分発声し終わらないう
ちに次の/K/を発音すると、2番目の/K/の
直前の無音区間11のパワーが十分下がらないた
め、閾値12より大きくなり無音区間の検出を誤
る。この現象はとくに早口で発声した場合に多発
する。
(発明の目的) 本発明は、上記従来例の欠点を除去し、音声の
調音結合の影響により、従来検出が困難であつた
破裂音の無音区間の検出を精度を向上させること
を目的とするものである。
(発明の構成) 上記目的を達成するために、本発明の音声認識
方法は、音声区間の音声パワーをその最大値と最
小値の差で正規化し、その正規化音声パワーに対
応して予め設定された値を閾値とし、その閾値を
正規化音声パワーの谷部の値と比較して、破裂時
直前の無音区間を検出することを特徴とするもの
である。
(実施例の説明) 以下、本発明の一実施例について、図面と共に
説明する。第4図は、本発明の一実施例の音声認
識方法を実施する装置の破裂音の無音区間検出部
のブロツク図を示したものである。同図におい
て、13はノイズレベル検出部であり、このノイ
ズレベル検出部13の出力を使つて音声区間検出
部14で音声区間を検出する。音声パワー正規化
部15では、音声区間検出部14の出力を用いて
音声パワーの正規化を行ない、破裂音の無音区間
の閾値設定部16で閾値を設定し、破裂音の無音
区間検出部17では、その閾値を用いて無音区間
を検出する。
次に、本実施例の動作を、第5図を用いて詳細
に説明する。第5図において、横軸の単位は時間
(t)であり、縦軸の単位は音声パワー(W)及び正規化
音声パワー(無名数)である。まず、ノイズレベ
ル検出部13でノイズレベルを検出し、そのノイ
ズレベルを使つて、それより音声パワーの大きい
区間を音声区間とし、音声区間検出部14で検出
する。ここでは、18を音声区間の始端、19を
終端としている。
次に、音声パワー正規化部15において、音声
区間内における音声パワーの最大値(MAX)20
及び最小値(MIN:例えばノイズレベル)21を
検出し、次式に従つて音声パワーの正規化を行
う。
NPW(I)=PW(I)−MIN/MAX−MIN 但し、 PW(I):第Iフレームの音声パワー MAX:音声区間のパワーの最大値 MIN:音声区間のパワーの最小値 NPW(I):第Iフレームの正規化音声パワー 即ち、音声パワーPW(I)からノイズレベル
(MIN21)を引くことにより音声区間の実質的な
音声パワーを取り出し、その実質的音声パワーの
各時点の高さについて、その最大値(MAX20−
MIN21)に対する比を求めれば(正規化すれ
ば)、音声パワーの最大の部分が1となり、最小
の部分が0となる。つまり、発声音の大小に関わ
らず、音声区間における音声パワーの高低を0〜
1の中に収めるものである。
この音声の正規化パワーを用いて破裂音の無音
区間検出のための閾値22を設定する。従来の場
合は音声レベルそのものを用いるのに対し、本発
明では正規化された値(無名数)を用いる点で大
きく異なる。
破裂音の無音区間検出部17においては、第5
図における正規化パワーが減少する区間23と正
規化パワーが急激に上昇する区間24を検出し無
音区間の候補とする。さらに正規化パワーが、谷
の区間25で閾値22より低く、かつ、区間25
の持続時間長が所定の値より短い場合に区間25
を破裂音の無音区間として検出する。
本実施例においては、音声のパワーを音声区間
内で正規化しているため、無音区間の検出は音声
区間内のパワーの大きさの比で判断でき、従つ
て、個人差等による発声音の大小に関わらず、閾
値の設定が容易になり、また、調音結合の影響に
より破裂音の破裂直前の無音部のパワーの絶対値
が十分に低くならない場合においても、無音部を
検出できる利点がある。
なお、複数の話者の発声による認識実験におい
て、従来例では破裂音の無音区間の検出が85%で
あるのに対し、本発明の方法を用いることにより
94%に検出率を向上した。
発明の効果 以上説明したように、本発明によれば、破裂音
の無音区間の検出に、音声区間内で正規化したパ
ワーを用いているため、発声音の大小に関わら
ず、閾値の設定が容易になり、また、調音結合に
よつて検出し難い破裂音の無音区間検出を精度よ
く検出できる利点を有する。
【図面の簡単な説明】
第1図は、従来の音声認識装置の破裂音の無音
区間検出部のブロツク図、第2図、第3図は従来
例の動作を説明する図、第4図は本発明の一実施
例における音声認識方法を実施する装置の破裂音
の無音区間検出部のブロツク図、第5図は本発明
の一実施例の動作を説明する図である。 13……ノイズレベル検出部、14……音声区
間検出部、15……音声パワー正規化部、16…
…無音区間閾値設定部、17……破裂音の無音区
間検出部。

Claims (1)

    【特許請求の範囲】
  1. 1 入力音声に対して単位時間毎に分析を行ない
    音素認識を行なつた後に単語音声を認識する方法
    において、破裂音の認識に際し、音声区間のパワ
    ーをその最大値と最小値の差で正規化し、この正
    規化音声パワーに対応して予め設定された値を閾
    値として正規化音声パワーの谷部の値と比較し、
    破裂時点直前の無音区間を検出することを特徴と
    する音声認識方法。
JP14730983A 1983-08-13 1983-08-13 音声認識方法 Granted JPS6039691A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14730983A JPS6039691A (ja) 1983-08-13 1983-08-13 音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14730983A JPS6039691A (ja) 1983-08-13 1983-08-13 音声認識方法

Publications (2)

Publication Number Publication Date
JPS6039691A JPS6039691A (ja) 1985-03-01
JPH0474720B2 true JPH0474720B2 (ja) 1992-11-26

Family

ID=15427276

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14730983A Granted JPS6039691A (ja) 1983-08-13 1983-08-13 音声認識方法

Country Status (1)

Country Link
JP (1) JPS6039691A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0673079B2 (ja) * 1985-03-29 1994-09-14 沖電気工業株式会社 音声区間検出回路
JP2625682B2 (ja) * 1986-09-19 1997-07-02 松下電器産業株式会社 音声区間の始端検出装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5797599A (en) * 1980-12-10 1982-06-17 Matsushita Electric Ind Co Ltd System of detecting final end of each voice section

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5797599A (en) * 1980-12-10 1982-06-17 Matsushita Electric Ind Co Ltd System of detecting final end of each voice section

Also Published As

Publication number Publication date
JPS6039691A (ja) 1985-03-01

Similar Documents

Publication Publication Date Title
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP3069531B2 (ja) 音声認識方法
JPH0474720B2 (ja)
JP2797861B2 (ja) 音声検出方法および音声検出装置
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JPH0950288A (ja) 音声認識装置及び音声認識方法
Garg et al. Detecting filled pauses in tutorial dialogs
JP3360978B2 (ja) 音声認識装置
JPH07295588A (ja) 発話速度推定方法
JPH0222399B2 (ja)
JP2737109B2 (ja) 音声区間検出方式
JPH034918B2 (ja)
JPH02103599A (ja) 音声認識装置
JP2578771B2 (ja) 音声認識装置
JPS61260299A (ja) 音声認識装置
JPS63217399A (ja) 音声区間検出装置
JPH0567039B2 (ja)
JPH0413719B2 (ja)
JPS63161499A (ja) 音声認識装置
JP2891259B2 (ja) 音声区間検出装置
JPH032320B2 (ja)
JPS6039699A (ja) 音声認識方法
JPS59123900A (ja) 音声入力装置における長母音の検出方法
CHANGCHUN A new method to distinguish non-voice and voice in speech recognition
JPS607492A (ja) 単音節音声認識方式