JPH03223798A - 音声切り出し装置 - Google Patents

音声切り出し装置

Info

Publication number
JPH03223798A
JPH03223798A JP2047940A JP4794090A JPH03223798A JP H03223798 A JPH03223798 A JP H03223798A JP 2047940 A JP2047940 A JP 2047940A JP 4794090 A JP4794090 A JP 4794090A JP H03223798 A JPH03223798 A JP H03223798A
Authority
JP
Japan
Prior art keywords
band
threshold
amplitude values
voice
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2047940A
Other languages
English (en)
Inventor
Shoichi Kamei
亀井 正一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2047940A priority Critical patent/JPH03223798A/ja
Publication of JPH03223798A publication Critical patent/JPH03223798A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (イ)産業上の利用分野 本発明は、音声入力によって目的の電気機器を制御し得
るようになした音声認識装置において、音声区間を抽出
するために必要な音声切り出し装置に関する。
(ロ)従来の技術 従来の音声切り出し装置では、音声信号の短区間エネル
ギーが、予め設定された閾値を越えた区間を音声区間と
して検出するものが一般的であった。しかし、この方法
では雑音のレベルが非常に高くなって閾値を越えてしま
った場合、音声区間を検出することが不可能となってし
まう。
これに対しては、周囲雑音のレベルに応じて閾値を動的
に変化させることにより周囲雑音に対処することができ
る。即ち、音声信号の周波数分析の前段階として周囲雑
音の周波数分析を行ない、予め定められた個数だけ出力
された帯域振幅値の平均値を算出し、該平均値をもとに
動的に閾値を設定し、該閾値を越えるエネルギーを存す
る区間を音声区間としていた。
(ハ)発明が解決しようとした課題 上述の如く、予め定められた個数だけ出力された帯域振
幅値の平均値をもとに閾値を設定し、音声区間の検出を
行なう従来の音声切り出し方法に於ては、雑音の種類に
よって、ある一部の帯域にエネルギーがかたよっている
(例えば、自動車内雑音は約1 kHz以下に大きなエ
ネルギーをもっている)場合があるため、全帯域振幅値
の平均値をもとに闇値の設定を行なうと、閾値が相当高
めに設定されてしまい、音声区間の検出が曖昧になり適
切な音声区間を得ることができない不都合があった。
(ニ)課題を解決するための手段 第1の本発明の音声切り出し装置は、音声信号を周波数
分析して予め定められた数の帯域振幅値を出力する周波
数分析手段と、該分析手段から出力される帯域振幅値の
中から該帯域振幅値が所定の帯域選択閾値より大きい振
幅値からなる第1の帯域群と該帯域振幅値が所定の帯域
選択閾値より小さい振幅値からなる第2の帯域群を選択
する帯域選択手段と、該選択手段で選択された各帯域群
に属する複数の帯域振幅値の平均値を算出する平均ft
fl算出手段と、該算出手段から得られる帯域群毎の帯
域振幅平均値に基づいて音声区間を切り出すのに有効な
帯域群毎の切り出し閾値を設定する切り出し閾値設定手
段と、該閾値設定手段で設定された帯域群毎の各閾値よ
りその帯域群での単区間音声パワーが大きな区間を音声
区間として設定する音声区間設定手段を設けたものであ
る。
第2の本発明の音声切り出し装置は、音声信号を周波数
分析して予め定められた数の帯域振幅値を出力する周波
数分析手段と、該帯域振幅値が所定の帯域選択閾値より
小さい振幅値からなる帯域群を選択する帯域選択手段と
、該選択手段で選択された帯域群に属する複数の帯域振
幅値の平均値並びに全帯域に属する全ての帯域振幅値の
平均値を算出する平均値算出手段と、該算出手段から得
られる帯域群並びに全帯域の帯域振幅平均値に基づいて
音声区間を切り出すのに有効な帯域群あるいは全帯域の
切り出し閾値を設定する切り出し閾値設定手段と、該閾
値設定手段で設定された帯域群あるいは全帯域の各閾値
よりその帯域群あるいは全帯域での単区間音声パワーが
大きな区間を音声区間として設定する音声区間設定手段
を設けたものである。
(ホ)作用 第1の本発明の音声切り出し装置によれば、例えば自動
車内雑音のように約1kHz以下の大きなエネルギーを
もっている雑音環境下で音声区間切り出しを行なう場合
、帯域スペクトルパワーの小さい1kHz以上の帯域を
選択して閾値を設定し、該帯域の平均エネルギーレベル
を比較することにより音声区間切り出しを行なうことに
より、雑音にあまり影響されない適切な切り出しを行な
うことが可能になる。また、計算機室での雑音のように
音声帯域全体にわたって、不規則な大きさの振幅値をも
つような場合に、雑音の帯域振幅値の小さい帯域と、音
声の帯域振幅値の小さい帯域が重なって、その帯域での
音声切り出しが困難な場合でも、雑音の帯域振幅値の大
きい帯域でのパワーより、該帯域での音声パワーの方が
大きければ音声切り出しが可能となる。
また、第2の本発明の音声切り出し装置によれば、帯域
全体に亘って略平均的なエネルギーを持つ雑音環境下で
音声区間切り出しを行う場合、雑音の帯域振幅値の大き
い帯域でのパワーによるよりも、全帯域のパワーに従っ
て、音声区間を切り出す方が、平均値を算出するのに用
いる帯域振幅値が多くなるので、この平均値レベルの変
動を抑制でき、切り出し閾値を適切に設定できる。
(へ)実施例 第1図に本発明の音声切り出し装置の構成を示し、以下
に解説する。
まず、周囲雑音がマイクから入力されて周波数分析部(
1)に於て予め定められた個数の帯域で周波数分析され
、第1の切り出し帯域選択部(2−1)に於て各帯域の
帯域振幅値の中で、最大振幅値との差が一定値以上の帯
域が音声切り出しに有効な7!S1の切り出し帯域群と
して選択される。そしてさらに、第2の切り出し帯域選
択部(2−2)に於て上記第1の切り出し帯域選択部(
2−1)で選択されたしの以外の帯域が第2の切り出し
帯域群として選択される。
なお、上記第1の切り出し帯域選択部(2−1)で選択
された帯域の数が必要最低個数以下の場合には、残りの
帯域から最大振幅値との差が大きいものから順に特定個
数に達するまで選択帯域を増やして第1の切り出し帯域
群を設定すれば、極端に少ない数の帯域が第1の切り出
し帯域群として選択されることはない。また、全帯域を
いくつかのグループに分けて、最大振幅値との差が大き
い帯域振幅値をもつ帯域が多く存在するグループの帯域
を第1の切り出し帯域群として選択することもできる。
また、上記第2の切り出し帯域選択部(2−2)に於て
は、上記第1の切り出し帯域選択部(2−1)とは逆に
帯域振幅値の小さいものから順に特定数の帯域を選択し
、これを第2の切り出し帯域群として設定することがで
きる。
上述の如く、第1、及び第2の切り出し帯域群が設定さ
れると、各群の帯域振幅値を夫々受信する第1、及び第
2の闇値設定部(3−1)(3−2)の夫々に於て、各
帯域の振幅値の平均値を算出し、該平均値に基づいて音
声切り出しのための閾値Vsを設定する。この時の閾値
の設定方法としては、例えば、該平均値のn倍(nは実
数)の値をもって閾値とし、nの値は該平均値の値に応
じて適応的に変化させるようにできる。
このようにして、上記第1の閾値設定部(3−1)で第
1の閾値Vslが設定され、上記第2の閾値設定部(3
−2)で第2の閾値Vs2が設定される。
次に、マイクから音声を入力する。
マイクから入力された音声についても、上述の雑音の場
合と同様に、上記周波数分析部(1)に於て予め定めら
れた個数の帯域で周波数分析され、この分析結果が音声
区間切り出し部(4)に入力される。
音声区間切り出し部(4)では、入力された音声の帯域
毎の信号は、上述の雑音分析時に第1、第2の切り出し
帯域選択部(2−1)(2−2)で設定された第1、及
び第2の切り出し帯域群毎に、夫々その各帯域群に属す
る帯域振幅値の平均値v1、v2を算出して、これらの
値を対応する閾値Vsl、Vs2と比較する。
この比較の結果、 V1≧Vs2、又は、v2≧Vs2 となる区間が一定時間幅(約30ミリ秒)以上続いた場
合に、その区間を音声区間と判断し、この区間内に存在
する上記周波数分析結果が音声分析結果として出力され
る。
このような第1図の構成のシステムにおいて、例えば、
低域の雑音エネルギーが大きい自動車内などの雑音環境
下で音声認識のための音声切り出し処理を実行できる。
以下に具体的動作について解説する。
具体的に周波数分析部(1)として30Hz〜3000
Hzの範囲を16分割した16チヤンネルのバンドパス
フィルタを使用した場合には、自動車内の雑音エネルギ
ーは低帯域側が高帯域側よりエネルギーが大きくなる。
このような雑音環境下での音声切りだし動作を第3図に
示す。
同図(a)は周波数分析部(1)の出力、即ち、16チ
ヤンネルのバンドパスフィルタ出力であり、この場合、
第1の切り出し帯域選択部(2−1)がこれらのチャン
ネルの内、振幅値が高い順に例えば半数の8チヤンネル
(チャンネル番号°1〜8)の帯域を選択する。
この場合同図(C)に示す如く、低域側8チヤンネルの
帯域が第2の切り出し帯域として選択されて、第1の閾
値設定部(3−1)が前述の手法に基づきこの8チヤン
ネル出力がち第1の閾値Vslを設定し、この値Vsl
に基づいて低域側8チヤンネルを用いて音声区間切り出
し部(4)が音声区間の検出を行う。
また、同時に第1の切り出し帯域選択部(2−2)では
、第3図(b)に示す如く、低域側の8チヤンネル(チ
ャンネル番号=9〜16)の帯域が選択されて、第2の
閾値設定部(3−2)でこの8チヤンネルの出力から閾
値Vs2を設定し、この閾値Vs2に基づいて、高域側
8チヤンネルを用いて音声区間切り出し部(4)が音声
区間を検出する。
第3図に図示したような雑音状態では、低域側では閾値
Vs2が相当高くなるので、音声入力に対する音声区間
検出時に、その音声区間の検出ができないが、雑音レベ
ルの低い高域側の8チヤンネル出力に従った小さな閾値
Vs2によって音声区間は確実に切り出すことができる
。従って、全帯域の平均レベルとしては高レベルの雑音
環境下でも適切な音声切り出しが行える。
一方、音声帯域全体に亘って不規則な大きさのスペクト
ルエネルギーをもつような計算機室などの雑音環境下に
於ける音声切り出し動作を第4図に示す。
同図(a)のような不規則雑音環境下では、帯域振幅値
の小さい帯域では、同図(b)に示す如く第2の閾値V
s2がその帯域の平均的音声パワーよりも大きくなって
いても、同[(C)に示す如く第1の閾値Vslがその
帯域の平均的音声パワーより小さくなっているので、主
に第2の閾値Vs2によって音声区間の切り出しが行え
る。即ち、上述の第3図とは逆に雑音の帯域振幅値が大
きい帯域で音声パワーが大きい場合であっても音声区間
の適切な切り出しが行える。
また、音声の全帯域にわたって略平均的なエネルギーの
帯域振幅値をもつ白色雑音のような環境下に於ける適切
は音声の切り出しを可能とした音声切り出し装置の構成
を第5図に示す。
第5図の音声切り出し装置は、第1図の本発明装置の第
1の切り出し帯域選択部(2−1)の代わりに全帯域選
択部(2−3)、第1の閾値設定部(3−1)の代わり
に全帯域閾値設定部(3−3)を備えたものである。
即ち、全帯域選択部(2−3)は周波数分析部(1)か
ら得られる全帯域の振幅値をそのまま選択して全帯域閾
値設定部(3−3)へ電送するものであり、該全帯域R
fM設定部(3−3)では第3の閾値Vs3を設定する
。この第3の閾値Vs3は、全帯域の全振幅値に基づい
て設定されるので変動の少ない安定した閾値となる。
上述の如く、白色雑音のような環境下に於て、適用され
る第5図の本発明装置の動作を第6図に基づいて脱明す
る。
同図(a)のように、各帯域振幅値の差が小さい白色雑
音環境下に於て、同図(b)に示す如く第2の帯域閾値
設定部(3−2)で得られる帯域閾値の小さい方の帯域
群での第2の閾値Vs2が、その音声パワー(帯域振幅
値の平均値V2)より大きくなっている時でも、第1図
の実施例装置の第1の帯域閾値設定部(3−1)で得ら
れる帯域閾値の大きい方の帯域群での第1の閾値Vsl
を用いると同図(C)に示すようにこの閾値Vslより
その音声のパワー(帯域振幅値の平均1V1)より大き
くなる危惧が考えられる。
この場合には、上述の帯域闇値の大きい方の帯域群を考
慮せずに、これを全帯域まで拡張した本実施例装置の全
帯域闇値設定部(3−3)で得られる低くて安定した第
3の閾値Vs3を用いるべく、全帯域閾値設定部(3−
3)を動作させる。従って、音声区間切り出し部(4)
では、同図(d)に示す如く、全帯域の全振幅値に基づ
いて設定される第3の閾値Vs3によって、全帯域の音
声パワーが比較され、音声区間が切り出されることにな
る。
【図面の簡単な説明】
第1図は本発明の音声切り出し装置の機能構成図、第2
図は本発明装置を採用可能な音声認識装置の構成図、第
3図(a) 、(b)、(c) 、及び第4図(a)=
 (b) 、(c)は夫々第1図の本発明装置の動作を
示す周波数帯域振幅図、第5図は本発明の他の音声切り
出し装置の機能構成図、第6図は第5図の本発明装置の
動作を示す周波数帯域振幅図である。 (1)・・・周波数分析部、(2−1)(2−2)(2
−3)・・・帯域選択部、(3−1)(3−2)(3−
3)・・・閾値設定部、(4)・・・音声区間切り出し
部、(5)・・・特徴抽出部、(6)・・・標準パター
ンメモリ、(7)・・・識別処理部。

Claims (3)

    【特許請求の範囲】
  1. (1)音声信号を周波数分析して予め定められた数の帯
    域振幅値を出力する周波数分析手段と、該分析手段から
    出力される帯域振幅値の中から該帯域振幅値が所定の帯
    域選択閾値より大きい振幅値からなる第1の帯域群と該
    帯域振幅値が所定の帯域選択閾値より小さい振幅値から
    なる第2の帯域群を選択する帯域選択手段と、該選択手
    段で選択された各帯域群に属する複数の帯域振幅値の平
    均値を算出する平均値算出手段と、該算出手段から得ら
    れる帯域群毎の帯域振幅平均値に基づいて音声区間を切
    り出すのに有効な帯域群毎の切り出し閾値を設定する切
    り出し閾値設定手段と、該閾値設定手段で設定された帯
    域群毎の各閾値よりその帯域群での単区間音声パワーが
    大きな区間を音声区間として設定する音声区間設定手段
    を設けてなる音声切り出し装置。
  2. (2)音声信号を周波数分析して予め定められた数の帯
    域振幅値を出力する周波数分析手段と、該帯域振幅値が
    所定の帯域選択閾値より小さい振幅値からなる帯域群を
    選択する帯域選択手段と、該選択手段で選択された帯域
    群に属する複数の帯域振幅値の平均値、並びに全帯域に
    属する全ての帯域振幅値の平均値を算出する平均値算出
    手段と、該算出手段から得られる帯域群、並びに全帯域
    の帯域振幅平均値に基づいて音声区間を切り出すのに有
    効な帯域群、あるいは全帯域の切り出し閾値を設定する
    切り出し閾値設定手段と、該閾値設定手段で設定された
    帯域群あるいは全帯域の各閾値よりその帯域群あるいは
    全帯域での単区間音声パワーが大きな区間を音声区間と
    して設定する音声区間設定手段を設けてなる音声切り出
    し装置。
  3. (3)上記閾値設定手段において音声区間を切り出すそ
    れぞれの閾値は、選択された帯域の帯域振幅値の平均値
    のn倍(nは実数)で与えられ、nの値は該平均値のエ
    ネルギーレベルに応じて変化させることを特徴とした請
    求項1、または2記載の音声切り出し装置。
JP2047940A 1989-12-22 1990-02-28 音声切り出し装置 Pending JPH03223798A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2047940A JPH03223798A (ja) 1989-12-22 1990-02-28 音声切り出し装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP33420289 1989-12-22
JP1-334202 1989-12-22
JP2047940A JPH03223798A (ja) 1989-12-22 1990-02-28 音声切り出し装置

Publications (1)

Publication Number Publication Date
JPH03223798A true JPH03223798A (ja) 1991-10-02

Family

ID=26388150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2047940A Pending JPH03223798A (ja) 1989-12-22 1990-02-28 音声切り出し装置

Country Status (1)

Country Link
JP (1) JPH03223798A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675962A (ja) * 1992-05-01 1994-03-18 Internatl Business Mach Corp <Ibm> 空マルチメディアデータオブジェクトの自動検出/処理方法及び装置
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
WO2010113220A1 (ja) * 2009-04-02 2010-10-07 三菱電機株式会社 雑音抑圧装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675962A (ja) * 1992-05-01 1994-03-18 Internatl Business Mach Corp <Ibm> 空マルチメディアデータオブジェクトの自動検出/処理方法及び装置
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
WO2010113220A1 (ja) * 2009-04-02 2010-10-07 三菱電機株式会社 雑音抑圧装置
JP5535198B2 (ja) * 2009-04-02 2014-07-02 三菱電機株式会社 雑音抑圧装置

Similar Documents

Publication Publication Date Title
US6570991B1 (en) Multi-feature speech/music discrimination system
US7711123B2 (en) Segmenting audio signals into auditory events
US5319703A (en) Apparatus and method for identifying speech and call-progression signals
AU2002252143B2 (en) Segmenting audio signals into auditory events
US8065115B2 (en) Method and system for identifying audible noise as wind noise in a hearing aid apparatus
EP0707433A2 (en) Hearing aid
JPS58184200A (ja) 対話了解度を強調する装置およびその方法
JPH06153244A (ja) 複数の単一周波数信号中に存在する周波数信号の識別方法及び装置
KR910020641A (ko) 잡음예측장치와 이것을 사용한 신호처리장치
JP5605575B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
US20230245671A1 (en) Methods, apparatus, and systems for detection and extraction of spatially-identifiable subband audio sources
JPH03223798A (ja) 音声切り出し装置
EP3696815A1 (en) Nonlinear noise reduction system
JP2792939B2 (ja) 音声切り出し方法
US6243671B1 (en) Device and method for analysis and filtration of sound
EP0348888B1 (en) Overflow speech detecting apparatus
JPH04100099A (ja) 音声検出装置
JP2975712B2 (ja) 音声切出し方式
KR100262602B1 (ko) 시간별 가중치에 의한 음성신호 검출방법
JPH0114599B2 (ja)
JP3474949B2 (ja) 音声認識装置
SU1755321A1 (ru) Способ разделени тональных и шумовых сигналов звуков речи
JP3130369B2 (ja) ヘリコプタ音の抽出・識別装置
Urrigshardt et al. General detection of speech signals in the time-frequency plane
JPH0673079B2 (ja) 音声区間検出回路