JPS58130395A - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JPS58130395A
JPS58130395A JP57012795A JP1279582A JPS58130395A JP S58130395 A JPS58130395 A JP S58130395A JP 57012795 A JP57012795 A JP 57012795A JP 1279582 A JP1279582 A JP 1279582A JP S58130395 A JPS58130395 A JP S58130395A
Authority
JP
Japan
Prior art keywords
audio
time series
section
speech
tentative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57012795A
Other languages
English (en)
Other versions
JPH0376471B2 (ja
Inventor
篠田 英範
坂田 富生
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tokyo Shibaura Electric Co Ltd filed Critical Tokyo Shibaura Electric Co Ltd
Priority to JP57012795A priority Critical patent/JPS58130395A/ja
Publication of JPS58130395A publication Critical patent/JPS58130395A/ja
Publication of JPH0376471B2 publication Critical patent/JPH0376471B2/ja
Granted legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 本発明は孤立発声された単語音声の音声区間を安定確実
に検出し得る音声区間検出装、置に関する。
〔発明の技術的背景〕
孤立発声された単語音声の全体的な音声パターンを用い
て上記単I音声を認識する場合、その音声区間・の検出
精度が認識率に大きく影響する。%4ここの音声区間の
検出に際しては、雑音響を音声区間の一部として敗込む
ことによる所請付加誤りを未然に防ぐこと、才た音声の
一部が欠落した状態で音声区間を定めたことlこよる所
調脱落誤りを未然に防ぐことが重要な課題となる。
しかして一般に音声がエネルギーにして30dB以上確
保される静かな環境下で与えられるような、会話型の認
識システムにあっては、上述した問題は比較的簡単に解
決される。即ち、この種のシステムでは、話者に対して
積極的に発声促進が行われるので、発声前の無音区間が
ある程度保証される。従ってこの区間におけるエネルギ
ーや零交差数の平均値、更には分散等を求めておけば背
景雑音レベルに応じて音声区間検出の閾値を設定できる
ので、正確な音声区間検出が可能となる。
〔背景技術の問題点〕
然し乍ら音声入力がなされる環境が必ずしも靜かJある
とは伺ら保証されず、一般的には上述した無音区間を?
に実に設定することはできなG)。しかも発声環境によ
っては、周囲メ雑音レベルが高かったり、雑音レベル自
体が変動していることもある。この為、従来システムで
はこのような背景雑音に対して何ら対処することができ
ず、その音声区間を正確に、且つ安定に検出することが
蓋だ困難であった。この為、付加・脱落誤りにより、g
wIk率を十分1こ高くすることができなかった。
また精度の高い音声認識を行う為lこは、音声区間の始
端および終端位置の安定化を図ることが必要である。例
えば始端を単一の最初の音素の母音の開始点として定義
するならば、音声のレベルや背景雑音レベルに無関係に
上記開始点を検出することが必要である。然し、これら
の要求を、単一の音声パラメータのみを用いて、あるい
は単一のアルゴリズムだけで満たすことは非常に困難で
あり、実用性の点でも問題があった。
〔発明の目的〕
本発明はこのような事情を考慮してなされたもので、そ
の目的とする心ころは、音声信号と背景雑音とのS/N
が悪く、シかも背景雑音レベルが大きく変動する環境下
で発声された音声の始端と終端を正確に検出して、その
音声区間を安定に、且つ高精度に検出することのできる
実用性の高い音声区間検出装置を提供することにある。
〔発明の概要〕
本発明は入力音声の成る音声パラメータを抽出し、この
抽出された音声パラメータを用いて上記入力音声の大略
的な音声区間を検出したのち、この音声区間の仮始端か
ら数フレーム前、および上記音声区間の仮終端から数フ
レーム後までの区間を検出区間として定めて、この検出
区間の音声を前記入力音声の別の特徴パラメータを用い
て検出して音声区間の始端とP:端とをそれぞれa度艮
く足めるようにしたものである。
(発明の効果〕 従って本発明によれば、雑音ζこ対して比較的耐性のあ
る音声パラメータを用いて仮りに音声区間を定めたのち
、別の特徴パラメータを用いて高精度に音声の一意的暑
こ定まる始端と終端とをそれぞれ検出するので、正確に
音声1メ間を検出することが可能となる。しかも雑音に
対して耐性のあるパラメータを用いて音声区間を板検出
し、この板検出区間を含む前後に所定フレーム数付加さ
れた区間を検出対象として軸度の渦い音声検出を行うの
で、背景雑音の大きな影響を受けることなしに安定に音
声区間検出を行うことが可能となる。従って、発声環境
に左右されることなく音声区間検出を正確に行い得るの
て、音声認識率の向上を図り得る等の実用上、絶大なる
効果が奏せられる。
〔発明の実施例〕
以下、図面を参照して本発明の一実施例につIj!説明
する。
第1図は実施例装置の概略栴成図で、第2図は実施例装
置の作用を説萌する為の図である。
マイクロホンから入力増幅器を介して入力された音声信
号は、音声パラメータ抽出部′1に導ひかれる。この音
声パラメータ抽出部lは、短時間幅T=に、上記入力音
声信号の全帯域エネルギーの実効値Eと、例えば4チヤ
ンネルの広帯域チャンネルフィルタを介して抽出された
入力音声信号の各チャンネル員力の実効11tB1゜B
l、331.34を求め、これを音声パラメータとして
時系列に出力している。このようにして求められるE、
Bl、B2.Bl、B4の音声パラメータ時系列は所定
時間幅着こ亘って、一旦バツファメモリ2に格納される
。第2図に示す信号Eは、エネルギーを音声パラメータ
とした音声パターンの例を示すものである0しかして、
第1段音声区間検出部3は、エネルギーEの音声パラメ
ータ時系列を入力し、そのエネルギーと予め設定された
閾値Elとを比較して、上記閾値E1を越える時点a1
を音声の仮始端として検出している。この仮始17i!
a+の検出アルゴリズムは、入力音声エネルギーEが閾
値Elを越え、所定時間継続したときに上記閾値Elを
越えた時点を仮始端alとして定めることにより行われ
る0仮りに、上記−i E lを越える期間が所定時間
(所定フレーム数:50〜70m5Ile)継続しない
場合には、これを雑音と着像し、仮始端検出をし直す。
しかるのち、このようにして検出された仮始f4mlの
情報は閾値計算部4に与えられる。閾値計算部4では、
例えば音声入力開始時点から上記仮始端alまでの入力
音声エネルギーEの平均値を求め、これに所定の値を加
える等して、仮縫端検出の為の閾値E雪を設定し、これ
を前記第1段音声区間検出部3に与えている。第1段音
声区間検出@3では、この新た1こ与えられた閾値E!
に従い、今度は入力音声エネルギーEが上記閾値E!を
下まわり、且つ所定時間(所定フレーム数:250〜3
00m1IIee程度)継続しタトき、上記エネルギー
Eが閾値Y:、2を下まわった時点b1を仮終端として
検出している。従って、この仮終端b1の検出は、仮始
端atの検出に比して、成る程度背景雑音レベルを考慮
したものとなる0このようにして、第1段音声区間検出
部3により、入力音声に対する仮りの音声区間が、エネ
ルギーEを音声パラメータとした閾値El、E2との比
較により仮始端all、仮終端btが求められて検出さ
れている。そして、上記仮始端alおよび仮縫4btに
よって示される音声区間は、パルス性雑音によりエネル
ギーが高くなった区間や、プレストによって短時間に音
の途切れが生じた区間尋の影響を受けないものとなって
いる。
さて、ラベリング部6には、上記第1段音声区間検出部
3によって検出された仮始端alおよび仮終端b1の情
報が与えられる。また、前記閾値計算部4では、上記仮
始端atから仮終端b17での区間の音声パラメータE
、Bl。
Bx、Bs、B4を前記バッファメモリ2から読出し、
エネルギーEが最大値をとる時点Mにおける最大工ネル
キー値EMおよびこの時点Mにおける各チャンネル出力
131M、B!M、B3M。
B4Mを求め、各パラメータ毎に上記各値からそれぞれ
所定値を差引いて、ラベリング用の閾値8丁、BIT、
BIT、B!JT、B4丁の情報が前記ラベリング部5
に与えられている。
ラベリング部5では、前記仮始malの情報から、この
仮始WaSより数フレーム前の時点(at−NF)を区
間検出用の始端a!とじて定め、また前記仮終端b1の
情報から、この仮始端b1より数フレーム後の時点(b
 1−NIC)を区間検出用の終端b2として足めてい
る。そして、この始熾a!から終端b!によって示され
る区間について前記バッファメモリ2から音声パラメー
タを順次続出し、先に設定されたラベリング用のw4(
JET、BIT、f12T、BnT、B4Tとそれぞれ
比較している。そして、第2図にそのテーブルを示すよ
うに、各時点毎に、上記各音声パラメータとその閾値と
の比較結果を順次登録している。この比較結果の登録は
、例えば音声パラメータが閾値より大なるとき、音声要
素が強いとして「1」なるデータを、また音声パラメー
タが閾値より小なるときには音声要素が弱いとして「0
」なるデータをそれぞれ登録することlこより行われる
。そして、このようにして求められたテーブルを各時点
毎に、例えば論理和処理する等して、その結果rQJ 
 rVJの時系列を得ている。このQ−Vテーブルは、
rVJを音声区間の4J素、「Q」を無音区間の要素と
して示すものである。
第2段音声区間検出部6では、上記の如く求められたラ
ベリング結果rQJ 、rVJを基にして、入力音声に
対する区間検出を行う。即ち、この区間検出における始
端および終端の検出は、ルゴリズムとばば同様なもので
あるが、Q−Vテーブルを参照して時間方向(こ音声要
−$ rVJとラベリング用 とにより行われる。そして、最初にrVJとラベリング
されたフレームaを検出し、ぞの恢rVJなるラベリン
グか所定フレーム数、レリえば40〜5Qmsec継続
するか沓かを調べる。そして、この条件が満たされたと
き、上記フレームaを入力音声の始端であるとMQする
。その体、最初にrQJとラベリングされたフレームb
を検出し、そのあとに所定フレーム数、例えば250〜
300m5=+eに亘ってrQJなるラベリングが継続
するか否かを検出する。この検出で否と判定された場合
には、上記フレームbをパルス性雑音によるものと着樹
2シ、次にI Q’Jなるラベリングがなされたフレー
ムを慣出し°c1同様に終端であるか否かの判定を行っ
ている。
これにより、入力音声に対する始端aと軒端すとがそれ
ぞれ検出され、その音声区間が検出法定さ、れることに
なる。
かくして本装置による上述した音声区間検出によれば、
背景雑音の渉影響を受けることなしに安wbこ、且つ確
実に入力音声の音声区間を精度良く検出することができ
る。即ち、音声区間の始端および?P、端は、背景雑音
のレベルとは無関係であり、従って背景雑音のレベルに
左右されることなく決定されるべきものである。ただ、
背景雑音のレベルが商い場合には、音声信号とのS/N
が患い為にその識別が困難となる。しかるに本装置では
、入力音声の成人レベルを基準として閾値を定め、この
閾値に従って各音声パラメータについてそれぞれラベリ
ング用ている。従って、音声レベルが背景雑音に埋もれ
ているような場合であっても、これを音声要素として検
出することが9舵となる。しかも、複数の音声パラメー
タに亘ってラベリング判定しているので、例え成る帯域
にエネルギーが集中し、全体的にエネルギーレベルが低
くなっている音素であっても、これを確実に検出するこ
とができる。従って、入力音声の各フレームにおける音
素をそれぞれ確芙lこ検出することかでき、音声区間を
正確に検出することが口」舵となる。これ故、発戸譲境
に左右されることなく、しかも背量雑音レベルが変動し
ている〕相合であっても安だに且つ正確に音声区間検出
かでき、その実用的利点は肥大である。
同、本発明は上meVj4施例(こ限定されるものでは
ない。例えば入力音声から抽出する1#戸パラメータと
しては、各捕次数でのLPCf64111A&や、音声
信号の相関係数等の%似パラメータを法用することもで
きる。またチャンネルフィルタの各出力の関連性を特徴
パラメータとすることも有用であり、このチャンネルフ
ィルタのチャンネル数は仕様に応じて足めればよい。資
するに本発明は、その要旨を逸脱しtよい範囲で檀々変
形して実施することができる。
【図面の簡単な説明】
第1図は本発明の一実施例装置の似略噂成図、第2図は
夷尻例装置の作用を説明する為の1μ・パラメータとラ
ベリングテーブルを示す図である。 1・・・音声パラメータ抽出部、2・・・バッファメモ
リ、3・・・第1段1声区間慎出部、4・・・閾値計算
部、5・・・ラベリング部、6・・・第2段音声区間検
出部。 出細人代理人 弁理士 鈴 江 武 彦1、事件の表7
1< ”1%、!!  日’B   S”r−12−’r9s
−−52,46β目cPl兄オも 1声区南検出貰1 3、袖山をする各 π件との関係  特寵午出]殉人 (ヨー7)東!¥傭電気U式へ11 4、代理人 5 白発淳所ミ 7、籟゛1仇内島 (1)  e@ gm−L  −>Be It−rもQ
 目1= ”:L4+レギー1:L?J’c 7.a 
te ”x4ル+’−err 5y IZ L? J 
ヒirZ’l。 (ン) 1町、牙7)斗14釘自1zrチャ〕ネ1しλ
1υり」ヒあコ(「バードへ〇lフィII−タ」 盲 
’trai3゜(3>  In、斗’7 申”r +6
〜17野口に 1五ンバラメータヒしこBq % ?l
J li」 ヒあ3 Te  ”壱%”パラメータ峙ル
・旬ヒしらヒ許113゜ 性)回、>ゴな>63〒91= t−下さh 、 T−
=昨り苧、」ヒムふterTlわ、Hp前o、 ’B?
y A 」ヒtr 23 A。 (5) li、>’e申% +で〜i St @ +=
 r−j’しzト〜’rCr=区向」VあJ ¥’蹄話
印の濃壱巨向うとt石73゜ 6)1句、矛1ユゆ 矛aミ了6♂・よ0゛゛矛1R1
7目1z芝μ杯″ff ’ %94QJ  k:、、i
、3 =%+z ’2N”l ’3j  7L−−4−
1’」)3な句モ加入了コ。 け)  1司、;F12φ 矛19〜181口+−s 
 V二層と2し一6〜官)?賦3  ヒ淑J発下」隨の
遜γhとJ、3p」 を己 rV」ヒラΔ゛゛リー2パ″!東上フレー4功\−所気
暑丸廊1ミ1番゛40′ゝ0霜鈎C1ミ杢目も V37
し一乙、婁ス随F芝にカ\杏力゛−墾71粕へ′3゜ 
 ミし7’l:I7Iよイ+力\−鳴盲りさしhz%与
1: l;J 、蹄謎中の711め上声m向功1゛現わ
東R上もΔ攻し2 ど愛釣?J:言こ外云島倹亀偽譜4
賞塾壮ら。文。 上艶考4十カー i?@ hご小ないヒさ+1よ、≧中
51/4ス゛に多コもの辷り盪准文し71V」とライ゛
シシグJ東札フレー4般11α」)力う〉トに加ミa9 CE>  lq、++3S>rg〒目+= 「t’r5
2 ヒ;!i−,3”e ’ヒ13の+aJ L酊走3
ム。 (3) 同、矛]3小才δ〜I1g〒01= 「孔r、
〜を乃3゜しか3に、ヒ養コヘ 芝ミZJヒYT正了&
。 (to)+J、 、haht 〜17fiffl l:
 ’51sp、〜’Wflhb札ヒ五コ処を肯13゜ (++)IJl、i+4”;y G  +χ〜1ヨ 1
ミ口 1ミ 「フ十z’++し71.lL9’)洛ぬ力
」 ヒ以3も 1ハ5゛レドハ2スフ、Iレタの一各ヲ
輌シ耳1し出力、し針止J五。 (n)   IJ、  >I’)! >141〒1ff
i tz  「fヤ>−Hv>、、し>−」旨訊J% 
 rバニドハ@ス3レジ」 しtr−とjム。

Claims (1)

  1. 【特許請求の範囲】 入力音声の複数種類の音声パラメータ時系列をそれぞれ
    抽出する手段と、これらの抽出された音声パラメータ時
    系列を記憶するメモリと、上記音声パラメータ時系列の
    うちの特定された1つの音声パラメータ時系列から音声
    区間の仮始端および仮終端をそれぞれ検出する手段と、
    上記仮始端の所定フレーム数前から前記仮終端の所定フ
    レーム数後までの区間をラベリング対象区間として設定
    する手段と、この設定されたラベリング対象区間につい
    て少なくとも前記仮始端および仮終端検出に用いた音声
    パラメータ時系列以外の前記記憶された音声パラメータ
    時系列を用いて各フレームが無音か否かのラベリングを
    行う手段と、このラベリング結果に従って前記入力音声
    の音声区間の始端および終端をそれぞれ決定する手段と
    を具備したことを特徴とする音声区間検出装置。 (2)仮始端および仮終端の検出に用いられる音声パラ
    メータ時系列は、入力音声エネルギーを特徴パラメータ
    としたものである特許請求の範囲第1項記載の音声区間
    検出装置。 (3)  仮始端の検出は、音声エネルギーを特徴パラ
    メータとした音声パラメータ時系列のレベルが所定の閾
    値を越えて所定フレーム数継続した時点を検出して行わ
    れ、仮終端は、音声入力時点から上記仮始端までの区間
    の音声パラメータの分布に従って定められた閾値を前記
    音声パラメータ時系列のレベルが下値わって所定フレー
    ム数継続した時点を検出して行われるものである特許請
    求の範囲第1項記載の音声区間検出装置。 (4)始端および終端の検出は、無音を示すラベリング
    が所定フレーム継続した直後および直前を検出して行わ
    れるものである特許請求の範囲第1項記載の音声区間検
    出装置。
JP57012795A 1982-01-29 1982-01-29 音声区間検出装置 Granted JPS58130395A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57012795A JPS58130395A (ja) 1982-01-29 1982-01-29 音声区間検出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57012795A JPS58130395A (ja) 1982-01-29 1982-01-29 音声区間検出装置

Publications (2)

Publication Number Publication Date
JPS58130395A true JPS58130395A (ja) 1983-08-03
JPH0376471B2 JPH0376471B2 (ja) 1991-12-05

Family

ID=11815326

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57012795A Granted JPS58130395A (ja) 1982-01-29 1982-01-29 音声区間検出装置

Country Status (1)

Country Link
JP (1) JPS58130395A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696041A (en) * 1983-01-31 1987-09-22 Tokyo Shibaura Denki Kabushiki Kaisha Apparatus for detecting an utterance boundary
DE4126902A1 (de) * 1990-08-15 1992-02-20 Ricoh Kk Sprachintervall - feststelleinheit
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696041A (en) * 1983-01-31 1987-09-22 Tokyo Shibaura Denki Kabushiki Kaisha Apparatus for detecting an utterance boundary
DE4126902A1 (de) * 1990-08-15 1992-02-20 Ricoh Kk Sprachintervall - feststelleinheit
US6236970B1 (en) 1997-04-30 2001-05-22 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
US6374213B2 (en) 1997-04-30 2002-04-16 Nippon Hoso Kyokai Adaptive speech rate conversion without extension of input data duration, using speech interval detection
EP1944753A2 (en) 1997-04-30 2008-07-16 Nippon Hoso Kyokai Method and device for detecting voice sections, and speech velocity conversion method and device utilizing said method and device

Also Published As

Publication number Publication date
JPH0376471B2 (ja) 1991-12-05

Similar Documents

Publication Publication Date Title
TW201830377A (zh) 一種語音端點檢測方法及語音辨識方法
JPS58130393A (ja) 音声認識装置
JPS5876899A (ja) 音声区間検出装置
Gonzalez et al. Recursive forced alignment: A test on a minority language
JPS58130395A (ja) 音声区間検出装置
JPS584198A (ja) 音声認識装置における標準パタ−ン登録方式
WO2023047893A1 (ja) 認証装置および認証方法
JP3020999B2 (ja) パターン登録方法
Seman et al. Hybrid methods of Brandt’s generalised likelihood ratio and short-term energy for Malay word speech segmentation
JP2000148187A (ja) 話者認識方法、その方法を用いた装置及びそのプログラム記録媒体
JPH02103599A (ja) 音声認識装置
JP3058569B2 (ja) 話者照合方法及び装置
JPS6039691A (ja) 音声認識方法
JPS61233792A (ja) 音声認識装置
JPS61260299A (ja) 音声認識装置
JPS63142396A (ja) 標準パターン作成方法
JPS59149400A (ja) 音声入力装置
JPS5936299A (ja) 音声認識装置
JPS63306498A (ja) 音声区間検出方式
JPS61278896A (ja) 話者照合装置
JPS63220199A (ja) 音声認識装置
JPS62245295A (ja) 特定話者音声認識装置
JPS6225796A (ja) 音声認識装置
JPH0316038B2 (ja)
JPS62226199A (ja) 標準パターン作成装置