JPH0114599B2 - - Google Patents

Info

Publication number
JPH0114599B2
JPH0114599B2 JP56029948A JP2994881A JPH0114599B2 JP H0114599 B2 JPH0114599 B2 JP H0114599B2 JP 56029948 A JP56029948 A JP 56029948A JP 2994881 A JP2994881 A JP 2994881A JP H0114599 B2 JPH0114599 B2 JP H0114599B2
Authority
JP
Japan
Prior art keywords
speech
section
energy
audio signal
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56029948A
Other languages
English (en)
Other versions
JPS57144597A (en
Inventor
Akihiro Kimura
Kyoshi Iwata
Yasuhiro Nara
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56029948A priority Critical patent/JPS57144597A/ja
Publication of JPS57144597A publication Critical patent/JPS57144597A/ja
Publication of JPH0114599B2 publication Critical patent/JPH0114599B2/ja
Granted legal-status Critical Current

Links

Description

【発明の詳細な説明】 本発明は音声信号処理装置に係り、特に、音声
信号波の音声区間と無音声区間の識別を、雑音特
性、音声パラメータ変動情報等を用いて行う音声
信号処理装置に関する。
音声信号波には音声区間と無音声区間が繰返し
現われる。音声信号波を良好なSN比で再生する
ためには、音声区間と無音声区間を区別して音声
区間の信号波のみを再生することが要求される。
ところが種々な雑音環境では無音声区間に雑音が
含まれているので音声区間と無音声区間とを区別
するためには困難を伴う。
音声信号波の短区間エネルギが、前もつて設定
された閾値を越えた区間を音声区間、それ以外の
区間を無音声区間とする方式は従来から知られて
いる。この従来方式では、雑音の特性(雑音エネ
ルギの平均、分散等)が変化すると閾値を再設定
する必要があり、又、エネルギの時間変動の情報
を利用していないので、無音声区間の雑音エネル
ギより小さい音声エネルギの音声区間を検出でき
なかつた。
無音声区間の雑音エネルギより小さい音声エネ
ルギの音声区間を検出するために、2つの閾値を
用いる方式が知られているが、種々の雑音環境下
で2つの閾値を適切に再調整して決定することは
困難であつた。
本発明の目的は上述の従来技術における問題点
にかんがみ、音声信号波に含まれる無音声区間の
雑音特性を音声信号波の一部又は全体から適切に
推定することにより二種類の閾値を自動的に設定
し、閾値を二種類設定することにより音声パラメ
ータの時間変動の情報を利用して音声区間の検出
をすることによつて、音声信号処理装置におい
て、音声信号波の無音声区間と音声区間を閾値の
再調整なしに正確に分離することを可能にするこ
とにある。
以下、本発明の実施例を添附の図面に基づいて
説明する。
第1図Aは本発明を説明するための音声信号波
の1例を示す波形図である。図において、横軸t
は時間軸を表わし、縦軸Eは音声信号波のエネル
ギを対数表示したものである。図示されている音
声信号波形には音声区間と無音声区間とが繰返さ
れており、本発明によりこれらを識別する。この
ために、まず無音声区間の雑音の特性を音声信号
波形の一部又は全体から推定する。この推定は音
声信号波形の各エネルギレベルについて音声信号
波形の一部又は全ての時間における度数を累積し
たヒストグラムを作成することによつて行う。第
1図Bはこうして得られたヒストグラムを示して
いる。第1図Bのヒストグラムにおいて、横軸S
は累積度数を表わし、縦軸は第1図Aと同様に音
声信号波のエネルギを対数表示したものである。
第1図Bにおいて、累積度数が最大を示す縦軸の
エネルギレベルは雑音の平均エネルギレベルと
みなすことができる。また、最低のエネルギレベ
ルはNMINで示されている。雑音平均エネルギ
レベルと最低エネルギレベルNMINとの差ND
は雑音変動レベルとみなすことができる。すなわ
ち、雑音エネルギは雑音平均エネルギレベルを
中心として雑音変動レベルNDの幅で変動するも
のと考えられる。真の音声区間を識別するため
に、まず音声区間候補の区間を第1図に示された
音声信号波形から抽出する。このために、第1閾
値TH1を次の式(1)で決定する。
TH1=+ND ……(1) 雑音エネルギは雑音平均エネルギレベルの上
下に均等に分布するので、第1閾値TH1を越え
る雑音エネルギが存在する可能性は極めて低く、
従つて音声信号波形が第1閾値より大の区間は真
の音声区間の部分集合と考えてよい。この部分集
合を音声区間候補とする。第1図Aにおいては、
第1閾値と音声信号波形との交点x1及びx2で挾ま
れた区間aと交点x3及びx4で挾まれた区間bの2
つの音声区間候補が示されている。実際には真の
音声区間は、第1閾値より低いエネルギレベルの
区間にも存在し得る。真の音声区間を抽出するた
めに、第2閾値TH2を次の式(2)で決定する。
TH2=+NA ……(2) ここで、NAは零に等しいか、零より大で雑音
変動レベルNDより小の適当な値でよいが、本実
施例においてはNAを零として、第2閾値TH2
を雑音平均レベルに等しく設定する。第1閾値
TH1によつて切り取られた音声区間候補a,b
の前後で、音声信号波形のエネルギレベルが第2
閾値TH2と交わる点x5及びx6で挾まれた区間c
は、真の音声区間として認識される。すなわち、
音声区間候補a及びbの近傍で第1閾値より小の
エネルギレベルを有する音声波形も音声区間の波
形とみなされたことになる。
以上に述べた方式により、真の音声区間cの範
囲外にある無音声区間dの音声信号波形は、例え
ば点Aで示されるように雑音変動レベルが比較的
高いものでも音声信号とはみなされない。また、
真の音声区間cの範囲内にある音声信号波形は、
例えば点Bで示されるようにエネルギレベルが比
較的低いものでも音声信号として識別される。
他の音声の多次元パラメータを用いる場合も、
多次元パラメータ空間中のあるベクトルA→と各音
声パラメータとの内積又はその非線形変換が上で
述べた対数表示のエネルギと同等の性質になるよ
うにベクトルA→を選べば、上述の方式と同様にし
て音声区間と無音声区間を分離できる。
第2図は本発明による音声信号処理装置を1実
施例を示すブロツク回路図である。第2図におい
て、概略的には、マイクロフオン1から入力され
た音声は、前処理装置12によつて本発明により
音声区間と無音声区間を識別した後に、音声区間
の信号のみを音声認識装置13に送出する。更に
詳細には、マイクロフオン1から入力された音声
の信号は音声入力部2を通つて短区間エネルギ計
算部3に入力される。短区間エネルギ計算部3で
は音声信号波形の数十ミリ秒の単位時間毎のエネ
ルギが計算され、その値が対数変換部4において
対数変換される。一定の個数の単位時間のエネル
ギは時間順にエネルギバツフア8に並べられる。
エネルギバツフア8の内容はヒストグラム計算部
9に送られ、そこで各対数エネルギの頻度が計算
されてピーク及び最低レベル抽出部10に入力さ
れる。ピーク及び最低レベル抽出部10ではヒス
トグラムのピーク及び最低レベルの抽出が行わ
れ、抽出結果は閾値計算部11に入力される。閾
値計算部11では、前述の式(1)及び式(2)に相当す
る演算が行われ、その演算結果は識別部7に送ら
れる。識別部7では閾値TH1及びTH2をエネ
ルギバツフアの出力と比較し、第1図A,Bにつ
いて前述した方式により無音声区間を識別する。
一方、音声バツフア5には、エネルギバツフア8
にその時点で蓄積されているエネルギデータに対
応する音声波形が、音声入力部2から送られて蓄
積されている。無音声符号置換部6では識別部7
からの無音声区間情報によつて音声バツフアの各
無音声区間を無音声符号に置き換え、その結果を
音声認識装置に送出する。
以上の説明から明らかなように、本発明によれ
ば、音声信号波の音声区間と無音声区間を正確に
識別することができるので、音声信号波の無音声
区間に高度な信号処理を行なう必要がなくなり、
音声認識装置の負担の軽減、無音声区間の正確な
識別による破裂音検出率の向上という効果が得ら
れる。
なお、本発明は前述の実施例に限定されるもの
ではなく、例えば第2閾値を必要に応じて雑音変
動レベルの範囲内の任意の値に設定してもよい。
【図面の簡単な説明】
第1図Aは本発明を説明するための音声信号波
の1例を示す波形図、第1図Bは第1図Aから得
られたヒストグラム、第2図は本発明による音声
信号処理装置の1実施例を示すブロツク回路図で
ある。 E……エネルギの対数表示、S……累積度数、
N……雑音の平均エネルギレベル、NMIN……
最低エネルギレベル、TH1……第1閾値、ND
……雑音変動レベル、a,b……音声区間候補、
c……音声区間、d……無音声区間、TH2……
第2閾値、1……マイクロフオン、2……音声入
力部、3……短区間エネルギ計算部、4……対数
変換部、5……音声バツフア、6……無音声符号
置換部、7……識別部、8……エネルギバツフ
ア、9……ヒストグラム計算部、10……ピーク
及び最低レベルの抽出部、11……閾値計算部、
12……前処理装置、13……音声認識装置。

Claims (1)

    【特許請求の範囲】
  1. 1 音声信号波から雑音を除去するための前処理
    装置と、該前処理装置の出力に接続されており音
    声を認識するための音声認識装置とからなる音声
    信号処理装置において、該前処理装置は、該音声
    信号波の一部又は全体の単位時間毎のエネルギを
    計算する短区間パワー計算部、該エネルギの各レ
    ベル毎の頻度をヒストグラムとして求めるヒスト
    グラム計算部、該ヒストグラムにおける最大頻度
    のエネルギレベルを雑音平均エネルギレベルとみ
    なし、該雑音平均エネルギレベルと該ヒストグラ
    ムにおける最小エネルギレベルとの差を該雑音平
    均エネルギレベルに加えたレベルを閾値として求
    める閾値計算部、及び該閾値よりエネルギが大の
    音声信号波を音声区間候補とし該音声区間候補の
    時間軸上の前後で該音声信号波のエネルギレベル
    が該雑音平均エネルギレベルに実質的に一致した
    点で挾まれた区間を音声区間とみなすようにした
    音声区間識別部を具備することを特徴とする音声
    信号処理装置。
JP56029948A 1981-03-04 1981-03-04 Voice signal processor Granted JPS57144597A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56029948A JPS57144597A (en) 1981-03-04 1981-03-04 Voice signal processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56029948A JPS57144597A (en) 1981-03-04 1981-03-04 Voice signal processor

Publications (2)

Publication Number Publication Date
JPS57144597A JPS57144597A (en) 1982-09-07
JPH0114599B2 true JPH0114599B2 (ja) 1989-03-13

Family

ID=12290203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56029948A Granted JPS57144597A (en) 1981-03-04 1981-03-04 Voice signal processor

Country Status (1)

Country Link
JP (1) JPS57144597A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002425A (ja) * 2009-06-22 2011-01-06 Furuno Electric Co Ltd レーダ装置

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59219797A (ja) * 1983-05-30 1984-12-11 株式会社日立製作所 音声区間切り出し方式
JP2521425B2 (ja) * 1985-07-24 1996-08-07 松下電器産業株式会社 音声区間検出装置
JP5402089B2 (ja) * 2009-03-02 2014-01-29 富士通株式会社 音響信号変換装置、方法、及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002425A (ja) * 2009-06-22 2011-01-06 Furuno Electric Co Ltd レーダ装置

Also Published As

Publication number Publication date
JPS57144597A (en) 1982-09-07

Similar Documents

Publication Publication Date Title
Talkin et al. A robust algorithm for pitch tracking (RAPT)
KR950013551B1 (ko) 잡음신호예측장치
Haigh et al. A voice activity detector based on cepstral analysis.
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
Markel Application of a digital inverse filter for automatic formant and F o analysis
US20060178881A1 (en) Method and apparatus for detecting voice region
EP0474496B1 (en) Speech recognition apparatus
JPH0114599B2 (ja)
US20020010576A1 (en) A method and device for estimating the pitch of a speech signal using a binary signal
Abu-Shikhah et al. A novel pitch estimation technique using the Teager energy function
EP0109140B1 (en) Recognition of continuous speech
Nadeu Camprubí et al. Pitch determination using the cepstrum of the one-sided autocorrelation sequence
JPH0449952B2 (ja)
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
KR100273395B1 (ko) 음성인식시스템의음성구간검출방법
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
Prasad et al. Noise estimation using negentropy based voice-activity detector
Dasgupta et al. Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope.
Kader Pitch detection algorithm using a wavelet correlation model
von Zeddelmann A feature-based approach to noise robust speech detection
JP2666296B2 (ja) 音声認識装置
Boll et al. Event driven speech enhancement
CN116229988A (zh) 一种电力调度系统人员声纹识别鉴权方法、系统及装置
JP2557497B2 (ja) 男女声の識別方法
Bhore et al. Comparison of Formant Estimation Techniques