JPS60262198A - 子音区間検出装置 - Google Patents

子音区間検出装置

Info

Publication number
JPS60262198A
JPS60262198A JP59118854A JP11885484A JPS60262198A JP S60262198 A JPS60262198 A JP S60262198A JP 59118854 A JP59118854 A JP 59118854A JP 11885484 A JP11885484 A JP 11885484A JP S60262198 A JPS60262198 A JP S60262198A
Authority
JP
Japan
Prior art keywords
values
value
sequence
converting
consonant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP59118854A
Other languages
English (en)
Inventor
吉村 元一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Brother Industries Ltd
Original Assignee
Brother Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Brother Industries Ltd filed Critical Brother Industries Ltd
Priority to JP59118854A priority Critical patent/JPS60262198A/ja
Publication of JPS60262198A publication Critical patent/JPS60262198A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野1 本発明は音声波形の時間変化に対づる振幅変化に対して
サンプリングやその他の処理を行うことにより、子音区
間に対応する区間を検出して出力する子音区間検出装置
に関する。
[従来の技術] 従来、この種の子音区間検出!8@は、まず音声波形の
時間変化に対する振幅の連続変化をサンプリングして複
数の値の列に変換する。次に、このそれぞれの値を2乗
して音声の短時間エネルギーの値の列に変換する。一般
に、音声のエネルギーは母音区間に比較して子音区間は
低くなっているため、次に、複数の閾値を設定しこの短
時間]−ネルキーの値の列か閾値を上下する時点を検出
して子音区間の始端及び終端を決定していた。ここにお
いて非常に重要な意味をもつこの閾値は、音声を入力す
る際の周囲の雑音や共鳴状態の複雑な音W!環堤等を考
慮して予め設定する必要があった。
しかし、音声を発する人によって音声レベルに個人差か
生じることや一定であることを前提としている雑音レベ
ルに予期しない変動が生じること等により、雑音レベル
と音声レベルとの区別が不可能になる問題点があった。
この問題点を解決するため、ただ単に音声波形の短時間
エネルギーの値の511が定められた@値を上下するこ
との検出によるだけでなく、他の処理との粗み合わせに
よる子音区間の決定か行われていた。他の処理として例
えば、音声波形の符号のみを残して振幅を1ヒツトに量
子化づる雪受差波分析がある。この分析と前記閾値に関
する分析とを組み合わせることによって一時的な増大に
より定常的な音声レベルに達し1=雑音と音p1との区
別を行っていた。
また、音声波形に対して各種演樟等の多数の処i、 理
を実行し、周波数とエネルギーとの関係をめて周波数ス
ペクトル分析により子音区間を決定することも行われて
いた。
[発明か解決しようとづる問題点1 音甫の短時間エネルギーの値と予め設定された閾値との
関係の分析にお(プる閾値の設定は、周囲の雑音や共鳴
状態の音響環境等を考慮しなければならず、最適な値を
めるのか非常に勤しい作業であった。また、このように
して様々な条件を検討して設定した閾値も、音声レベル
に個人差かあり、また、音声入力時における話者の動作
や周囲の状況の変化等により予期しない雑音が生じた場
合には不適当な値となってしまい、誤認の原因となって
いた。また、このような雑音の影響を除去するために例
えば零交差分析等の他の分析をイバ用づることが行われ
たが、非常に複雑な処理どなり処理時間の増大につなが
っていた。また、別の手段として音声波形の周波数スペ
クトル分析か行われたが、やはり処理が非常に複雑にな
り、膨大な準の演算を実行する必要を生じるため処理時
間か長かった。従って、倒れの手段も音声認識の実時間
処理にお(ブる一過程としての子音区間検出には時間が
かかり過ぎて満足のいくものではなかった。
[発明の目的] 本発明の目的は上記従来の問題点を解消し、周囲の雑音
レベルの変動や話者の音声レベルの個人差の影響を受t
ノることなく、しかも簡単な処理により処理時間を極力
抑えた子音区間検出装置を提供づることにある。
[問題点を解決するための手段] 本発明においでは、人力された音声の短時間エネルギー
の逆数値と短時間エネルギーの1次差分(直との積をと
り、これにより1qられた値の列から極大値のうち最大
のものと2番目に大きいものとのそれぞれに対応する時
点をめてこの2つの時点の区間を子音区間として信号を
出力している。
[作用] まり゛、音声の短時間エネルギーの1次差分値をとるこ
とにより、音声の短時間エネルギーの時間に対する変化
の割合がはっきりしてくる。しかし、Cれだけでは、子
音区間の始点と音声が入力される前の雑音とのレベル差
がはっきりせず、子音区間の始点を決定するのは難しい
。ここで、この1次差分値と短時間エネルギーの逆数値
との積をとると、短時間エネルギーの高い区間にお(′
Iる変化の割合は低く抑えられ、反対に短時間エネルギ
ーの低い区間、すなわち子音区間にお(プる変化の割合
は増幅されることになる。従って、■音だりのエネルギ
ーの低い状態の部分へ音声の子音のように母音よりもは
るかに低いエネルギーが加わったとしてもやはりこの部
分における全体としての1ネルギーは母音の部分よりも
かなり低い。このlCめ、子音のエネルギーか加わるよ
うな小さなエネルギーの変化であっても前記した積をと
れば大きなピーク値として現われる。同様に、エネルギ
ーの低い子音区間からエネルギーの高い母音区間へ移行
する時にも大きなピーク値が現われる。しかし、母音区
間では子音区間に比べ常にエネルギーが高いためエネル
ギーに多少の変化があってもピーク値としては現われな
い。従って、子音区間の始点と終点に対応する時点を簡
単な処理により処理時間を極力抑えて検出することがで
きる。
[実施例] 以下、第1図乃至第5図を参照して本発明の一実施例を
説明する。
第2図において話者の発音した音声が収音されるマイク
ロフォン1は、増幅器2を介してA/D変換器3に接続
されている。ここで、増幅器2はマイクロフォン1で収
音した音声のレベルを以後の処理に適する1ノベルに増
幅するものである。また、A/D変換器3は中央処理装
置(以下CPUと称1)4に接続されている。またCP
U4には各処理のプログラム等が書き込まれているRO
M(読み出し専用メモリ)5及びRAM (読み出し書
き込み可能なメモリ)6が接続されている。ここで、I
(△M6は、A/D変換器3でサンプリングされた音声
波形の振幅値が次々に書き込まれていく振幅バッファ6
a、前記振幅値に基づいて算出された短時間エネルギー
値が書き込まれていくエネルギーバッファ6b、前記短
時間エネルギー11′ 値の逆数値が書き込まれていく
逆数バッファ6C1前記知時間エネルギー値の1次差分
値が書き込まれていく差分バッフr6d及び前記逆数値
と前記1次差分値どの積が書き込まれていく槓バッフi
・60等としてのワーキング用としてはたらくようにな
っている。
上記構成において、次にその動作を話者か日本詔の°°
け″を発音した場合について説明する。
話者が発音した゛け″の音声は、まずマイクロフォン1
で収音され増幅器2で適正なレベルに増幅されIC後、
A/D変換器3でのサンプリングにより時間変化に対す
る音声波形の振幅の変化を示す複数の値の列としてのデ
ータに変換されてCI’)U4へ入力される。ここで、
第3図ステップ21で示t A / D変換は4kl−
(Zまでの音声波形の情報を得るためにサンプリングの
定理よりサンブリンク周波数を8k Hzとして行って
いる。従って、音声波形の振幅データが1秒間に800
0個、古い換えれば125マイクロ秒毎に1個の振幅デ
ータか得られ、順次振幅バッファ6aへ書き込まれてい
く。この各振幅データのうち隣接するものをそれぞれ直
線で結び、横軸に時間、縦軸に電圧をとって図示すると
第1図<a >に示づ゛ような波形図となる。また、こ
の△/D変換は、マイクロフォン1のスイッチがONさ
れたことをCPU4が検出づることにより開始され、O
Nされている間実行される。従って、波形図には音声区
間の前後に雑音のみの区間か現われている。この125
マイクロ秒毎の振幅データのうち1番目の振幅データを
△(i)で表わすことにする。ここで、iは1からnま
での整数であり、nは振幅データの総数である。j:た
、iが1増加すると時間は125マイクロ秒経過する。
次にステップ22へ進み、ステップ21で得られた11
個の振幅データ△(i)のそれぞれを2乗してn個の2
乗値S〈1)の痺出を行い、順次2乗バッファ6bへ南
き込んでいく。次にステップ23へ進み、2乗値5(i
)の64個毎、すなわち、8ミリ秒ごとの和をとって短
時間エネルギー値[(j)とする。つまり、(4,i と表わされる。ここで、jは1から(n/64)までの
整数をとる。横軸に時間をとり、縦軸に1三(、))を
その最大値を基準にして対数表示すると第1図<b>の
ようになる。次にステップ24へ進み、ステップ23で
算出した短時間エネルギー値E(j)の逆数値R(j 
>の算出を行い、順次逆数バッファ6dへ書き込んでい
く。従って、1番目の逆数値はF< (j ) =1/
E (j >と表わける。次にステップ25へ進み、ス
テップ23で算出した短時間エネルギー値E(j>の1
次差分値の算出を行い、順次差分バッファ6eへ書き込
んでいく。1次差分値は、隣り合う短時間エネルギー値
E (j )の差をとることにより算出する。従って、
(〕番目の1次差分値はD(h+1>=E(h +1 
> −E (h )と表わせる。ここで、hは1からj
のとり得る最大値より1小さい値まで、すなわち、(n
 /65−1>までの整数をとる。
横軸に時間をとり、縦軸にこれらの1次差分値D(h+
1)をその最大値を基準にして図示すると第1図<C>
のようになる。次にステップ26へ進み、ステップ24
で算出したjか2以上の知時間エネルギー値E (j 
)の逆数値R(j)とステップ25で算出した短時間エ
ネルギー値E(j)の1次差分値D(h+1)との積を
算出し、順次積バッファ6fへ書き込んでいく。従って
、9番目の梢はP (g)=R((+ >・D(g)と
表わされる。ここでgは2から(n/65−1)まぐの
整数をどる。横すク11に時間をとり、縦軸にこれらの
積P((1)をその最大値を基準にして図示すると第1
図(d >のように°なる。次にステップ27へ進み、
ステップ26で算出した積の列において極大値のうち最
大のものPl及び2番目に大きいものP2が書き込まれ
ている積バッフ戸のそれぞれのアドレスに対応する時点
t1及びt2のデータ信号7を出力する。この2個の時
点により区切られた区間とこれより後の区間とでは、第
1図(a )かられかるように、音声のエネルギーが大
きく異なる。すなわち、前の区間の音声のエネルギーの
1・□ 方が後の区間の音声の]エネルギーよりも低く
なっており、この区間が子音区間であることが確認でき
る。また、この区間は、同一の音声のデータから得られ
ICスペクトルダラム(図示していない)において子音
区間と判断される区間ともほぼ一致する。
また、全く同様な処理によって°゛ひ°′及び゛ぶ″と
発音した音声について子音区間を検出した例を第4図及
び第5図にそれぞれ示り。これらの例においても、極大
値のうちの最大なものとシ番目に大きいもの、ずなわち
、P3.P4及びP5.P6を検出し、子音区間に対応
する時点t3、[4及びt5、t6のデータ信号がそれ
ぞれ出力され、これらの時点により区分された区間は子
音区間となっている。尚、第1図、第4図及び第5図に
おいて1次差分値[) (h +1 )及び積P(9)
の波形図は#f徴の顕著な区間以外は省略しである。
[発明の効果] 以、[に詳述した通り、本発明に係る子音区間検出装置
は、周囲の雑音レベルや音響特性、話者の発音する音声
レベルの個人差等を考虚して閾値を設定するようなこと
は不要であり、また、簡潔な構成による処理で演n量を
減少できる。従って、子音区間を検出づ−るまでの処理
時間を極力短く抑えることが可能である。よって、処理
の結果得られた子音区間の第2及び第3候補等の考fi
lや仙の処理との組み合わせにより、子音区間をより一
層高いIi度で検出ターる場合や音声認識の一過程どし
て応用する場合においても、本発明に係る子音区間検出
装置はもともと処理時間が短いため全体どしての処理時
間の短縮に非常に有効である。
【図面の簡単な説明】
第1図(a>乃至(d )は゛(プ″と発音した音声に
本発明の一実施例に基づく各処理を実行した結果を示゛
す図、第2図はそのブロック図、第3図はそのフローチ
ャート、第4図(a)乃至(d >は°゛ひ″と発音し
た音声に各処理を実行した結果を示す図、第5図(a)
乃至<d)は°ぷ″と発音した音声に各処理を実行した
結果を示す図である。 図中、1はマイクロフォン、2は増幅器、3はA/D変
換器、4はCPU、5はROM、6はRAMである。 83 第1図 (a) (b) (c) 第2図 839− 第3図 第4図 (C) (d) 第5 (a) (b) 841 (C)

Claims (1)

  1. 【特許請求の範囲】 1、音声の時間変化に対づる振幅変化をサンプリングし
    て複数の値の列に変換するザンブリング手段と、 前記複数の値をそれぞれ2乗した値の列に変換する2乗
    変換手段と、 前記2乗した値の列を複数のグループに分割してそれぞ
    れのグループの代表値の列に変換する代表値化手段と、 前記代表値の列を1次差分値の列に変換する1次差分変
    換手段と、 前記2乗した値をそれぞれの逆数値に変換′りる逆数変
    換手段と、 前記1次差分値をそれぞれに対応する前記逆数値に乗じ
    た値を算出する算出手段と、 前記乗じた値のグJにおいて極大値のうち最大のもの及
    び2番目に大きいもののそれぞれに対応する時点を検出
    して出力するピーク検出手段とを設けたことを特徴とす
    る子音区間検出装置。
JP59118854A 1984-06-08 1984-06-08 子音区間検出装置 Pending JPS60262198A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59118854A JPS60262198A (ja) 1984-06-08 1984-06-08 子音区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59118854A JPS60262198A (ja) 1984-06-08 1984-06-08 子音区間検出装置

Publications (1)

Publication Number Publication Date
JPS60262198A true JPS60262198A (ja) 1985-12-25

Family

ID=14746781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59118854A Pending JPS60262198A (ja) 1984-06-08 1984-06-08 子音区間検出装置

Country Status (1)

Country Link
JP (1) JPS60262198A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63175894A (ja) * 1987-01-16 1988-07-20 有限会社 桜屋 音声合成レコ−ダ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63175894A (ja) * 1987-01-16 1988-07-20 有限会社 桜屋 音声合成レコ−ダ

Similar Documents

Publication Publication Date Title
JPS5844500A (ja) 音声認識方式
US5845092A (en) Endpoint detection in a stand-alone real-time voice recognition system
JPS60262198A (ja) 子音区間検出装置
JP2992324B2 (ja) 音声区間検出方法
JP3266124B2 (ja) アナログ信号中の類似波形検出装置及び同信号の時間軸伸長圧縮装置
JP2564821B2 (ja) 音声判定検出装置
JP3232112B2 (ja) 小節境界時刻抽出装置
JPH04261591A (ja) 自動採譜装置
JP2806048B2 (ja) 自動採譜装置
JP2559475B2 (ja) 音声検出方式
KR0171004B1 (ko) Samdf를 이용한 기본 주파수와 제1포만트의 비율 측정방법
JPS60262199A (ja) 母音区間検出装置
JPS63235999A (ja) 音声始端検出装置
JP2599974B2 (ja) 音声検出方式
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
JPH03147000A (ja) 音声入力装置
JPS63223696A (ja) 音声パタ−ン作成方式
JPS63257797A (ja) 音声始端検出装置
JP3008404B2 (ja) 音声認識装置
JPS6230640B2 (ja)
JPH02226300A (ja) 音韻区間情報形成装置
JPS6243697A (ja) 音声分析装置
JPH0285898A (ja) 音声検出方式
JPS5872994A (ja) 信号入力装置
JPS6146998A (ja) 音声始端検出装置