JP2608702B2 - 音声認識における音声区間検出方法 - Google Patents

音声認識における音声区間検出方法

Info

Publication number
JP2608702B2
JP2608702B2 JP60285832A JP28583285A JP2608702B2 JP 2608702 B2 JP2608702 B2 JP 2608702B2 JP 60285832 A JP60285832 A JP 60285832A JP 28583285 A JP28583285 A JP 28583285A JP 2608702 B2 JP2608702 B2 JP 2608702B2
Authority
JP
Japan
Prior art keywords
noise
power
data
voice
section detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60285832A
Other languages
English (en)
Other versions
JPS62145296A (ja
Inventor
久則 金指
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60285832A priority Critical patent/JP2608702B2/ja
Publication of JPS62145296A publication Critical patent/JPS62145296A/ja
Application granted granted Critical
Publication of JP2608702B2 publication Critical patent/JP2608702B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、音声認識装置における音声区間検出方法に
関する。
(従来の技術) 近時、音声認識の利用が高まってきており、その音声
認識は従来次のように行なわれている。
すなわち第4図は、従来の音声認識装置のブロック構
成図を示し、1はマイクロホンで、これから入力される
音声または騒音は前処理部2においてA/D変換され、そ
の音声または騒音パワーが次のパワー算出部3により算
出される。4はモード切換スイッチであり、音声認識お
よび騒音学習の2つのモードに、接点a,bにより切り換
えられる。5は騒音データ選択部、6は騒音学習部、7
は音声区間検出部、8は音声認識部であり、そして9は
音声認識結果の出力部である。
上記のように構成される従来の音声認識装置は以下の
ように動作する。
初め、モード切換スイッチ4を騒音学習モード側bに
しておき、前処理部2によりA/D変換されたマイクロホ
ン1からの騒音を、LPF(低域ろ波器)に通して異状現
象を取り除きパワー算出部3に加える。ここで下記
(1)式に従い単位時間(以下、フレームという)毎の
騒音パワーが算出される。
ただし、P(J):Jフレームの騒音パワー値(Jは任
意の自然数)、X(i):当該フレーム内における第i
番目のサンプル値(iは任意の自然数)、N:当該フレー
ム内のサンプル数である。
騒音データ選択部5では、音声区間検出のための、し
きい値設定に使用する騒音データの選択を行なう。これ
は、騒音学習時に入力された騒音レベルが、予め設定し
た範囲内に入っている騒音データだけを、しきい値設定
用のデータとして使用するためのものである。
第5図は騒音学習から音声区間検出までのフレーム毎
の騒音パワーの時間変化を示している。騒音データ選択
部5ではパワー算出部3により得られた区間L1騒音パワ
ーを取込み、下記(2)式に従い、その区間L1内の騒音
パワーの平均値▲▼を求める。
なお、上式のΣはJは区間L1内のフレーム番号を示し
ており、以下、この発明において同様に記す。
次に、予め設定してある騒音パワーの平均値▲▼
および分散(σの基準値と比較して、先に求めた
区間L1内の騒音パワーの平均値▲▼を有する上記
騒音が、下記(3)式を満足するかどうかを決定する。
ここで、区間L1内の騒音パワーの平均値▲▼
が、上記(3)式の条件を満たさない時、区間L1から取
込んだ騒音データは、しきい値設定のデータとしては不
適当と判定する。
したがって、次の段階として、第5図における区間L2
の騒音データを、しきい値設定の為の騒音データとし
て、騒音データ選択部5に入力させ、上記と同様に下記
(4)式にしたがつて区間L2の騒音データの平均値▲
▼を求める。
その時、騒音データの平均値▲▼が、上記
(5)式の条件を満足する時、▲▼を、しきい値
設定用の値として騒音学習部6に出力させる。
この騒音学習部6では区間L2の騒音データの平均値▲
▼を用いて下記(6)式に従って騒音区間検出の
しきい値TPxを求める。
ただし、Bは定数 つぎに、モード切換スイッチ4を音声モードa側に切
換、マイクロホン1から認識すべき音声パワーをパワー
算出部3を経て音声区間検出部7に入力させ、上述のし
きい値をTPxを用いて始端をS、終端をEとする音声区
間(第5図)を検出させ、音声認識部8において音声認
識を行なわせる。
第6図は第5図の場合とは異なる騒音環境において発
生した“赤い”(/akai/)という単語の音声パワーの時
間変化を示している。この図において、区間L3の騒音デ
ータを入力し、第5図の場合の(4)式で求めたと同様
に区間L3の音声パワーの平均値▲▼を求める。次
に、上記(6)式に従って、それが騒音学習用のデータ
として不適当か否かを判断しなければならないが、この
第6図の区間L3の騒音の場合、周期的な波形を示してお
り、騒音のスペクトルが、ある特定の周波数でピークを
もち、騒音学習用の騒音データとしては不適当であるに
もかかわらず、下記(7)式を満足するような場合、そ
れが音声の区間検出のたための、しきい値設定の騒音デ
ータとして取り扱われることになり、しきい値が本来の
TPxよりもTPx′のように高く設定され本来の音声区間、
SないしEに対しS′ないしE′となって、たとえば、
本来の音声/akai/が/kai/となるように音声区間検出を
誤ることが多かった。
(発明が解決しようとする問題点) 以上のように従来の音声区間検出がなされるが、しき
い値設定の学習時間内で、騒音のレベルやスペクトルの
変動が大きくなることにより、音声の発声のときの騒音
レベルに比べ、学習時の騒音レベルが過大に評価され、
しきい値設定を誤り、ひいては音声認識を誤る欠点があ
った。
本発明は上述の欠点を排除して、音声区間を精度よく
可能な音声区間検出方法を提供することを目的にするも
のである。
(問題点を解決するための手段) 上記の目的を達成するため本発明は、騒音学習を行な
うに際し、騒音レベルだけでなく騒音のスペクトル成分
を分析し、騒音のスペクトルの偏りをもとにして、予め
設定した騒音のスペクトルに近い騒音データを使用し
て、しきい値を設定し、それにより音声区間検出を行な
うようにしたものである。
(作 用) したがって本発明によれば騒音学習用の騒音データ
は、騒音のスペクトルの偏りに着目して選択的に選んだ
ものを用いるから、音声区間検出の精度が向上し、その
結果、音声認識の誤り率を減少させることができる。
(実施例) 以下、本発明を実施例により図面を用いて説明する。
第1図は本発明の一実施例の構成を示し、符号10ない
し13は本発明の構成に特徴のパワー算出部で、10は全帯
域パワー算出部、11は低域パワー算出部、12は中域パワ
ー算出部、そして13は高域パワー算出部であり、その他
の説明しない第4図と同じ符号は、その符号と、同じ、
または同機能のものである。
第1図のように構成される本発明の動作は、まず、モ
ード切換スイッチ4を騒音学習モードb側に切換えてお
く。マイクロホン1から入力される騒音は前処理部2に
おいて従来のようにA/D変換され、さらに、LPFを用いて
異状現象が取り除かれ、次の全帯域パワー算出部10によ
り、従来例と同様に前記(1)式に従い騒音パワーが算
出される。同時に、BEF(帯域ろ波器)群により構成し
た低域パワー算出部11、中域パワー算出部12および高域
パワー算出器13により、下記(8)式によってそれら各
帯域の騒音パワーを算出する。
ただし、PL(J)、PM(J)、PH(J)は、それぞれ
低域、中域および高域の、第J番目のフレームの騒音パ
ワーの値、また、XL(i)、XM(i)およびXH(i)
は、それぞれそのフレーム内における低域、中域および
高域フィルタのサンプル出力値、そしてNはフレーム内
のサンプル数である。
騒音データ選択部5では、得られた各帯域の騒音パワ
ーの値をもとに、低、中、および高の各帯域の騒音パワ
ーの平均値を求め、それらの値を用いて音声区間検出の
ための、しきい値設定に使用する騒音データの選択を行
なう。
第2図は前出第6図の場合と同様の騒音環境において
本発明の方法で騒音学習を行い、音声区間を検出した場
合の波形図である。
第1図において、騒音データ選択部5では各帯域のパ
ワー算出部10ないし13により得られた区間L3(第2図)
における上記各帯域の騒音パワーを取込み、下記の
(9)式に従って区間L3の各帯域のパワーの平均値▲
▼、▲▼、▲▼および▲
▼を求める。
次に従来同様に、予め設定してある騒音パワーの平均
値▲▼および分散(σの基準値と、上記で求
めた騒音パワーの平均値▲▼とから下記(10)式
に従って、騒音学習用のデータとして適当か否か判断す
る。
上述で(10)式を満足した時、各帯域の騒音パワーの
比を用いて騒音のスペクトルの偏りを調べ、それが下記
の(11)式を満足した場合、しきい値設定のための騒音
データとして騒音学習部6に入力させる。そして(10)
式を満足しない時は、区間L4について区間L3で行なった
と同様の処理を行なう。
ただし、T1,T2,T3,T4は定数。
第3図は上述の騒音データ選択部5の処理のフローチ
ャートである。これはまたず、騒音データの取込み区間
Lxを設定し(ステップ1)、たとえば区間L3の場合、
(9)式により全帯域および、低、中、高の帯域の騒音
パワー平均値を求め、その区間の全帯域の騒音パワーが
(10)式の条件を満足するかどうかを調べる(ステップ
2)。それが満足されておれば(11)式の条件を満足す
るかを調べ(ステップ3)、満足しておればその区間の
騒音が、しきい値を設定するための騒音データとして使
用できることを示している。
さて、騒音データ選択部5により得られた、しきい値
設定のための騒音データは、騒音学習部6に入力され、
しきい値TPxを下記(12)式に従って設定する。
ただし、Bは定数とする。
最後に、モード切換スイッチ4をa側にして音声入力
モードとし、上記により得たしきい値TPxを使用して音
声区間検出部7において音声区間を検出する。
以上、本発明を説明して容易に判るとおり、本発明
は、騒音学習のための騒音データを入力する際、騒音の
レベルのみでなく騒音スペクトルの偏りをも考慮するこ
とにより音声区間検出に必要な、しきい値設定のための
騒音データを選択するものであるから、したがって精度
のよい音声区間検出が可能になる。
(発明の効果) 以上説明して明らかなように、本発明は、音声学習を
行なうに際し、学習用の騒音データを、その騒音スペク
トルの偏りに着目して選択的に取り扱うことにより、音
声区間を精度よく検出でき、したがって本発明を用いて
行なう音声認識は、その認識率を大幅に向上させること
ができる。
【図面の簡単な説明】
第1図は本発明の一実施例のブロック構成図、第2図は
その動作説明のための波形図、第3図は本発明の要部を
示すフローチャート、第4図は従来例のブロック構成
図、第5図および第6図は従来例の動作を説明する波形
図である。 1……マイクロホン、2……前処理部、3……パワー算
出部、4……モード切換スイッチ、5……騒音データ選
択部、6……騒音学習部、7……音声区間検出部、8…
…音声認識部、9……認識結果出力部、10……全域パワ
ー算出部、11……低域パワー算出部、12……中域パワー
算出部、13……高域パワー算出部。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】騒音学習を行なうことにより適応する騒音
    データを選択して、その騒音データを用いてしきい値を
    設定させ、音声区間検出を行なう音声認識における音声
    区間検出方法において、入力された騒音の全帯域のレベ
    ル変動に基づいて上記しきい値設定のための騒音レベル
    の範囲を限定し、さらに入力された騒音から異なる帯域
    の騒音出力を算出するために設けられた複数の帯域ろ波
    器からの各出力の比に基づいて、上記しきい値設定のた
    めの騒音のスペクトルにおける偏りの範囲を限定し、騒
    音学習時に、その範囲に適合する騒音のみをしきい値設
    定のための騒音データとすることを特徴とする音声認識
    における音声区間検出方法。
JP60285832A 1985-12-20 1985-12-20 音声認識における音声区間検出方法 Expired - Lifetime JP2608702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60285832A JP2608702B2 (ja) 1985-12-20 1985-12-20 音声認識における音声区間検出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60285832A JP2608702B2 (ja) 1985-12-20 1985-12-20 音声認識における音声区間検出方法

Publications (2)

Publication Number Publication Date
JPS62145296A JPS62145296A (ja) 1987-06-29
JP2608702B2 true JP2608702B2 (ja) 1997-05-14

Family

ID=17696655

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60285832A Expired - Lifetime JP2608702B2 (ja) 1985-12-20 1985-12-20 音声認識における音声区間検出方法

Country Status (1)

Country Link
JP (1) JP2608702B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5885498A (ja) * 1981-11-18 1983-05-21 株式会社デンソー 音声入力装置

Also Published As

Publication number Publication date
JPS62145296A (ja) 1987-06-29

Similar Documents

Publication Publication Date Title
EP0763811B1 (en) Speech signal processing apparatus for detecting a speech signal
WO1986003047A1 (en) Endpoint detector
CN103886871A (zh) 语音端点的检测方法和装置
JPS5870299A (ja) 音声信号の判定法及び解析装置
CN116597864A (zh) 一种嗓音检测方法及装置
JP2608702B2 (ja) 音声認識における音声区間検出方法
JPH0462399B2 (ja)
JP2589468B2 (ja) 音声認識装置
JPH04100099A (ja) 音声検出装置
JP3410789B2 (ja) 音声認識装置
JP2521425B2 (ja) 音声区間検出装置
JP2966452B2 (ja) 音声認識装置の雑音除去システム
JP4360527B2 (ja) ピッチ検出方法
JP2643202B2 (ja) 入力音声の定常部、過渡部、不確定部の検出装置
Rossignol et al. Single-speaker/multi-speaker co-channel speech classification
JP2000352987A (ja) 音声認識装置
CN117789764A (zh) 车机输出音频检测方法、系统、控制装置及存储介质
JPH0573090A (ja) 音声認識方法
JPH02232699A (ja) 音声認識装置
JPH0454960B2 (ja)
JP2959791B2 (ja) 音声信号処理装置
JPH02232698A (ja) 音声認識装置
JPH0141998B2 (ja)
JPH04211299A (ja) 単音節音声認識装置
JPS6444492A (en) Voice segmentation apparatus