JPS59139099A - 音声区間検出装置 - Google Patents

音声区間検出装置

Info

Publication number
JPS59139099A
JPS59139099A JP58013997A JP1399783A JPS59139099A JP S59139099 A JPS59139099 A JP S59139099A JP 58013997 A JP58013997 A JP 58013997A JP 1399783 A JP1399783 A JP 1399783A JP S59139099 A JPS59139099 A JP S59139099A
Authority
JP
Japan
Prior art keywords
section
voice
threshold
audio
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP58013997A
Other languages
English (en)
Inventor
坂田 富生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP58013997A priority Critical patent/JPS59139099A/ja
Priority to US06/575,383 priority patent/US4696041A/en
Publication of JPS59139099A publication Critical patent/JPS59139099A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔発明の技術分野〕 この発明は、音声認識システムに使用される音声区間検
出装置に関する。
〔発明の技術的背景とその問題点〕
音声認識システムにおいては、その前処理として音声区
間の検出を正確に行なう必要がある。
通常、音声区間検出において、信号対雑音比(S/N比
)が良好で(例えばエネルギーS/N比にして30 d
B以上の音声波を扱う場合)、シかも背景雑音レベルが
あまシ変動しない本うな環境下では比較的容易に検出を
行なうことができる。具体的な検出方式としては、音声
波全広帯域マイクロホンを介して入力し、その入力音声
信号の短時間エネルギーおよび電文差数を求め、これら
が所定の固定閾値全所定期間連続して越えるか否かを調
べるなどの方式がある。
このような固定閾値方式では、背景雑音レベルが時間的
にある程度変動する場合には下記のような問題が生ずる
。即ち、まず固定閾値が低く設定されると、背景雑音レ
ベルが少し高くなっただけで、閾値を越えてしまい雑音
を音声区間の一部として取込むという不都合がある。逆
に固定閾値が高く設定されていると、音声区間中のレベ
ルの低い部分を取シこほすという不都合がある。このよ
5な点を解決するためには、背景雑音レベルに応じた閾
値を決定する方式がある。即ち、まず音声が発声される
前(後)の無音区間と見なされる区間での入力音声信号
の短時間エネルギーおよび零交差数の平均値を求める。
そして、この平均値に所定の固定・ぐイアス値を加えた
ものを閾値として用いることが行なわれる。
しかしながら、上記のような方式においても、背景雑音
レベルの変動が大きい場合には、固定バイアス値による
閾値では正確な音声区間検出は困難である。これは、仮
にバイアス値を低く設定すると、短時間エネルギーおよ
び零交差数が閾値を越える雑音区間が頻出することにな
る。
これによシ、雑音区間が音声区間の一部とじて取込まれ
たシ、または雑音区間のみが音声区間として検出される
という重大な誤動作が生ずる。
逆に、バイアス値を高く設定すると、音声区間の一部ま
たは全部が欠落するという誤動作が生ずる欠点があった
〔発明の目的〕
この発明は上記の事情に鑑みてなされたもので、その目
的は、背景雑音レベルの変動が大きい場合でも、適切な
バイアス値を加えた閾値を設定することによシ、正確な
音声区間検出を行なうことができる音声区間検出装置を
提供することにある。
〔発明の概要〕
この発明は、入力音声信号に基づく音声パラメータ時系
夕「よ)音声区間の始端および終端を検出する音声区間
検出手段を用いる。この場合、音声パラメータ時系列に
ょシ、音声信号の大刀直後の数フレームにおける無音区
間の音声パラメータの平均値を雑音レベル計算手段で求
める。
さらに、無音区間の音声パラメータの平均値に基づいて
決定されるバイアス値を含む閾値が、閾値計算手段によ
り算出される。この閾値に基づいて、音声区間検出手段
は音声区間の始端および終端を検出するものである。
〔発明の実施例〕
以下図面を参照してこの発明の一実施例について説明す
る。第1図はこの発明に係る音声区間装置の構成を示す
ブロック図で、1は音声信号Sの入力端子である。音声
信号Sは、入力端子1から音声パラメータ抽出部2に与
えられる。
音声パラメータ抽出部2は、音声信号Sから短時間エネ
ルギー等の音声パラメータ時系列を抽出する。バッファ
メモリ3は、音声パラメータ抽出部2から出力する音声
パラメータ時系列を一時格納する。4は音声区間検出部
で、閾値計算部6から出力する閾値ETHに基づいて、
バッファメモリ3からの音声ノ9ラメータ時系列におけ
る音声区間の始端および終端を検出する・閾値計算部6
は、雑音レベル計算部5から出力する背景雑音の音声・
ぐう・メータ値の平均値に応じて決定されるバイアス値
を含む音声区間検出用の閾値ETHを算出して出力する
。雑音レベル計算部5は、バッファメモリ3の音声パラ
メータ時系列より、音声信号Sの入力開始直後の数フレ
ームにおける無音区間の音声パラメータの平均値(背景
雑音の音声・やラメータ値の平均値)を算出して出力す
る。7は出力端子で、音声区間検出部4で得られた音声
区間の始端および終端の情報を出力する。
このような構成において、その動作を説明する。音声信
号Sは、通常広帯域マイクワホンまたは電話回線等を介
して音声パラメータ抽出部2に与えられる。音声パラメ
ータ抽出部2は、音声信号Sの1フレ一ム間のrma値
、即ち短時間エネルギーEと各7レーム毎に計算し出力
する。ここで、フレーム幅及びフレーム周期は10 m
5es程度とする。このようにして、音声ノクラメータ
抽出部2は、第2図に示すような音声パラメータ時系列
をバッファメモリ3に出力する。雑音レベル計算部5は
、バッファメモリ3から第1フレーム(即ち音声信号S
の入力開始時点)から第1フレームまでの音声パラメー
タ値を読み出す。そして、Mフレーム(例えば80〜1
00m5ec)の音声パラメータの平均値EXを求める
。この平均値EIは、背景雑音の音声パラメータ値の平
均値としてみなされる。これは、一般に音声認識装置で
はアイスプレイおよび信号音等によシ発声者に発声タイ
ミングを知らせ、同時に信号全取込み始める。しかしな
がら、通常、発声者は発声促進信号と同時に発声すると
いうことは殆んどなく、発声促進信号が出力された後、
少し遅れて発生する。したがって、音声信号Sの入力開
始後100m5ec程度は、無音区間であると考えられ
、Elは背景雑音の音声パラメータ値の平均値とみなさ
れる。
上記のようにして、雑音レベル計算部5から出力される
背景雑音の音声・そラメータの平均値EXは閾値計算部
6に与えられる。閾値計算部6では、平均値E□に基づ
いて第3図に示すEI−バイアス値αの関係よυバイア
ス値αを求め、「E□十α」を音声区間検出用閾値ET
Hとして出力することになる。ここで、第3図は下記の
ような式(1)〜(3)によシ求められる。
E□<Esでα=α1   ・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・(1)Ex≧E
2でα=α2   ・・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・(3)これは、一般に音
声信号入力部の増幅器または電話回線系の利得がn倍に
なったとすると、音声と共に背景雑音の短時間エネルギ
ーの平均値及び分散はn倍になる。音声区間検出用閾値
E7H!j:、背景雑音の短時間エネルギーの平均値E
□にバイアス値αを加えた形で与えることにすると、第
1項EIによシ平均値の変動は吸収されるが、分散の変
動は吸収されない。そこで、分散の変動音、第2項のバ
イアス値αを適切に設定して吸収することになる。その
ため、上記式(2)に示すようにバイアス値αヲEXの
値に応じて線形に変化させればよい。これがE1≦EI
(E 2の区間である。但し、E工が極端に小さい(太
きい)場合には、上記式(2)で計算されるバイアス値
が小さく(大きく)なシ過ぎることを避けるため、式(
2)ヲ適用するElの範囲に制限を付け、EI(El、
に、≧E2の範囲ではそれぞれ固定値αl 、α2とす
る。ここで、El、E2 、α工。
α2等の値は実験的に設定される。
音声区間検出部4は、閾値計算部6で算出された閾値E
THに基づいて、バッファメモリ3から読出す音声パラ
メータ時系列における音声区間の始端aおよび終端bi
それぞれ検出する(第2図)。具体的には、まず始端a
の検出において、音声信号の入力開始時点から短時間エ
ネルギーEの時系列を辿シ、最初にE>ETHとなる時
点7を検出する。このiによ’) 、E > E7Hな
る区間、即ち音声区間が所定フレーム数N1だけ継続す
るか否かを調べる。このフレーム数N1は例えば50〜
60 m5ecに相当する値である0そして%Nl フ
レーム継続の条件が満足されたとき、上記時点iを始端
aとして出力する0また\i以降、E>ETHなる区間
がNlフレーム継続しないときにはこれを雑音によるも
のとみなして、改めてiの検出を行なう。
一方、終端すの検出において、始端aよシ音声パラメー
タ時系列を辿シ、最初にE≦ETHとなる時点τを検出
する。このτよJ)、E≦ETHなる区間が所定フレー
ム数N2だけ継続するか否かを調べる。このフレーム数
N2は例えば250〜300m5ecに相当する値であ
る。そして、N2フレーム継続の条件が満足されたとき
、上記時点τを終端すとして出力する。なお、τ以降、
Nmフレーム内にE>ETHなる区間が出現したとき、
その区間が所定フレーム数N3に達しないならば、これ
を雑音によるものとみなし、この区間のフレーム数を無
音区間のフレーム数に加える。
ここで、フレーム数N3は例えば40〜50m5ecに
相当する値である。また、E>ETHなる区間がN3以
上継続した場合には、音声区間の別の部分が出現したも
のとみなして、改めて嘗の検出を行なう。このようにし
て、音声区間検出部4によシ音声・4ラメ一タ時系列か
ら音声区間の始端aおよび終端すのそれぞれが検出され
て、出力端子7に出力される。
〔発明の効果〕
以上詳述したようにこの発明によれば、背景雑音レベル
が高く、シかも時間的に大きく変動する場合でも、背景
雑音の音声パラメータの平均値に基づいて求められる適
切なバイアス値を含む閾値を設定し、この閾値に基づい
て音声信号の音声区間における始端および終端を確実に
検出できる。したがって、音声信号の音声区間検出を正
確に行なうことができ、結果的に音声認識システムの精
度を向上できるものである。
【図面の簡単な説明】
第1図はこの発明の一実施例に係る音声区間検出装置の
構成を示すブロック図、第2図は第1図の装置の動作を
説明するだめの音声パラメータ時系列の波形を示す図、
第3図は第1図の装置の動作を説明するための平均値E
ニーバイアス値αの関係を示す図である。 2・・・音声パラメータ抽出部、3・・・バッファメモ
リ、4・・・音声区間検出部、5・・・雑音レベル計算
″部、6・・・閾値計算部。

Claims (1)

    【特許請求の範囲】
  1. 入力音声信号から音声パラメータ時系列を抽出する音声
    パラメータ抽出手段と、この音声ノぐ2メ一タ抽出手段
    から出力される上記音声パラメータ時系列を一時的に格
    納するバッファメモリと、上記音声パラメータ時系列に
    基づいて背景雑音の音声パラメータ値の平均値全算出す
    る雑音レベル計算手段と、この雑音レベル計算手段から
    出力される上記背景雑音の音声パラメータ値の平均値に
    基づいて決定されるバイアス値を含む音声区間検出用閾
    値を算出する閾値計算手段と、上記音声区間検出用閾値
    に基づいて上記バッファメモリに格納された音声パラメ
    ータ時系列から音声区間の始端および終端の両者をそれ
    ぞれ検出する音声区間検出手段とを具備したことを特徴
    とする音声区間検出装置。
JP58013997A 1983-01-31 1983-01-31 音声区間検出装置 Pending JPS59139099A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP58013997A JPS59139099A (ja) 1983-01-31 1983-01-31 音声区間検出装置
US06/575,383 US4696041A (en) 1983-01-31 1984-01-30 Apparatus for detecting an utterance boundary

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58013997A JPS59139099A (ja) 1983-01-31 1983-01-31 音声区間検出装置

Publications (1)

Publication Number Publication Date
JPS59139099A true JPS59139099A (ja) 1984-08-09

Family

ID=11848864

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58013997A Pending JPS59139099A (ja) 1983-01-31 1983-01-31 音声区間検出装置

Country Status (2)

Country Link
US (1) US4696041A (ja)
JP (1) JPS59139099A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01244497A (ja) * 1988-03-25 1989-09-28 Toshiba Corp 音声区間検出回路

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4829578A (en) * 1986-10-02 1989-05-09 Dragon Systems, Inc. Speech detection and recognition apparatus for use with background noise of varying levels
GB2196460B (en) * 1986-10-03 1991-05-15 Ricoh Kk Methods for comparing an input voice pattern with a registered voice pattern and voice recognition systems
JP2551050B2 (ja) * 1987-11-13 1996-11-06 ソニー株式会社 有音無音判定回路
US5008941A (en) * 1989-03-31 1991-04-16 Kurzweil Applied Intelligence, Inc. Method and apparatus for automatically updating estimates of undesirable components of the speech signal in a speech recognition system
US5168524A (en) * 1989-08-17 1992-12-01 Eliza Corporation Speech-recognition circuitry employing nonlinear processing, speech element modeling and phoneme estimation
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
CA2042926C (en) * 1990-05-22 1997-02-25 Ryuhei Fujiwara Speech recognition method with noise reduction and a system therefor
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
FR2686183A1 (fr) * 1992-01-15 1993-07-16 Idms Sa Systeme de numerisation d'un signal audio, procede et dispositif de mise en óoeuvre pour constituer une base de donnees numeriques.
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
JP3533696B2 (ja) * 1994-03-22 2004-05-31 三菱電機株式会社 音声認識の境界推定方法及び音声認識装置
US5864793A (en) * 1996-08-06 1999-01-26 Cirrus Logic, Inc. Persistence and dynamic threshold based intermittent signal detector
US5995924A (en) * 1997-05-05 1999-11-30 U.S. West, Inc. Computer-based method and apparatus for classifying statement types based on intonation analysis
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6097776A (en) * 1998-02-12 2000-08-01 Cirrus Logic, Inc. Maximum likelihood estimation of symbol offset
US6480823B1 (en) 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
GB9822529D0 (en) * 1998-10-16 1998-12-09 Dragon Syst Uk Ltd Speech processing
US7440034B2 (en) * 2002-08-20 2008-10-21 Optinetix (Israel) Ltd. Method and apparatus for transferring data within viewable portion of video signal
US20050015244A1 (en) * 2003-07-14 2005-01-20 Hideki Kitao Speech section detection apparatus
WO2006107833A1 (en) * 2005-04-01 2006-10-12 Qualcomm Incorporated Method and apparatus for vector quantizing of a spectral envelope representation
US9043214B2 (en) 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
US9516165B1 (en) * 2014-03-26 2016-12-06 West Corporation IVR engagements and upfront background noise
US10090005B2 (en) * 2016-03-10 2018-10-02 Aspinity, Inc. Analog voice activity detection
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
US11188718B2 (en) * 2019-09-27 2021-11-30 International Business Machines Corporation Collective emotional engagement detection in group conversations

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4277645A (en) * 1980-01-25 1981-07-07 Bell Telephone Laboratories, Incorporated Multiple variable threshold speech detector
JPS5852695A (ja) * 1981-09-25 1983-03-28 日産自動車株式会社 車両用音声検出装置
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
JPS58130395A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声区間検出装置
JPS58130393A (ja) * 1982-01-29 1983-08-03 株式会社東芝 音声認識装置
JPS599779A (ja) * 1982-07-07 1984-01-19 Toshiba Corp パタ−ン認識装置
JPS5936300A (ja) * 1982-08-24 1984-02-28 株式会社東芝 音声認識装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57177197A (en) * 1981-04-24 1982-10-30 Hitachi Ltd Pick-up system for sound section

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01244497A (ja) * 1988-03-25 1989-09-28 Toshiba Corp 音声区間検出回路

Also Published As

Publication number Publication date
US4696041A (en) 1987-09-22

Similar Documents

Publication Publication Date Title
JPS59139099A (ja) 音声区間検出装置
US5617508A (en) Speech detection device for the detection of speech end points based on variance of frequency band limited energy
CN108877776B (zh) 语音端点检测方法、装置、计算机设备和存储介质
US5579431A (en) Speech detection in presence of noise by determining variance over time of frequency band limited energy
JPS5876899A (ja) 音声区間検出装置
JP3255584B2 (ja) 有音検知装置および方法
CN109994129B (zh) 语音处理系统、方法和设备
Hogg et al. Speaker change detection using fundamental frequency with application to multi-talker segmentation
US8315865B2 (en) Method and apparatus for adaptive conversation detection employing minimal computation
US6539350B1 (en) Method and circuit arrangement for speech level measurement in a speech signal processing system
JPS6257040B2 (ja)
JPH07109559B2 (ja) 音声区間検出方法
JPS5984300A (ja) 音声区間検出回路
JPH0376471B2 (ja)
JPS59219797A (ja) 音声区間切り出し方式
JP3026855B2 (ja) 音声認識装置
JPS63306497A (ja) 音声区間検出方式
JPS61140999A (ja) 音声区間検出方式
JPS63259596A (ja) 音声区間検出方式
JPH0546196A (ja) 音声認識装置
JPS6039691A (ja) 音声認識方法
JPH0773175B2 (ja) 自動利得制御装置
JPS62217296A (ja) 音声認識装置の入力キヤンセル法
JPS6395500A (ja) 音声検出回路
JPS6146999A (ja) 音声始端決定装置