JP3032215B2 - Sound detection device and method - Google Patents

Sound detection device and method

Info

Publication number
JP3032215B2
JP3032215B2 JP1183684A JP18368489A JP3032215B2 JP 3032215 B2 JP3032215 B2 JP 3032215B2 JP 1183684 A JP1183684 A JP 1183684A JP 18368489 A JP18368489 A JP 18368489A JP 3032215 B2 JP3032215 B2 JP 3032215B2
Authority
JP
Japan
Prior art keywords
noise
frame
feature parameter
input
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1183684A
Other languages
Japanese (ja)
Other versions
JPH0348900A (en
Inventor
仁樹 佐藤
恒雄 新田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP1183684A priority Critical patent/JP3032215B2/en
Publication of JPH0348900A publication Critical patent/JPH0348900A/en
Application granted granted Critical
Publication of JP3032215B2 publication Critical patent/JP3032215B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は、ATM(Asynchronous Transfer Mode)通
信、DSI(Digital Speech Interplation)、パケット
通信、音声認識の分野に適用され、音声信号中の有音区
間を精度良く検出する有音検出装置に関する。
DETAILED DESCRIPTION OF THE INVENTION [Purpose of the Invention] (Industrial application field) The present invention is applied to the fields of ATM (Asynchronous Transfer Mode) communication, DSI (Digital Speech Interplation), packet communication, and speech recognition. The present invention relates to a sound detection device that accurately detects a sound section in a signal.

(従来の技術) 第6図は従来の有音検出装置の一構成を示している。(Prior Art) FIG. 6 shows one configuration of a conventional sound detection device.

入力端子100に入力された音声信号中から電力、零交
差数、自己相関関数、スペクトルなどの特徴パラメータ
がフレーム単位で特徴パラメータ計算器101によって計
算される。
Feature parameters such as power, the number of zero crossings, an autocorrelation function, and a spectrum are calculated by the feature parameter calculator 101 from the audio signal input to the input terminal 100 in frame units.

計算された特徴パラメータは、マッチング器102へ出
力され、予め設定された有音標準パターン103及び雑音
標準パターン104と比較し、それぞれの距離が算出され
る。
The calculated feature parameters are output to the matching unit 102, and are compared with the preset sound standard pattern 103 and noise standard pattern 104 to calculate the respective distances.

もし、特徴パラメータと有音標準パターン103の距離
が特徴パラメータと雑音パターン104との距離よりも小
さければ、入力フレームは有音に属し、反対であれば雑
音に属すると判定され、その判定結果が出力端子105か
ら出力される。
If the distance between the feature parameter and the sound standard pattern 103 is smaller than the distance between the feature parameter and the noise pattern 104, the input frame is determined to belong to voice, and if the distance is opposite, it is determined to belong to noise. Output from the output terminal 105.

(発明が解決しようとする課題) しかしながら、有音であっても子音の電力は母音と異
なり背景雑音の電力を下回ることが多い。このため、背
景雑音が大きい環境下では、子音区間の特徴パラメータ
に背景雑音の特徴が大きく出てしまう。
(Problems to be Solved by the Invention) However, even if there is a sound, the power of consonants is often lower than the power of background noise, unlike vowels. For this reason, in an environment where the background noise is large, the feature of the background noise appears largely in the feature parameter of the consonant section.

上記従来の有音検出装置によれば、背景雑音の影響を
受けた特徴パラメータをそのまま判定に用いていたの
で、背景雑音が大きい場合には、子音の検出誤りが多く
なっていた。
According to the above-described conventional sound detection device, the characteristic parameter affected by the background noise is used for the determination as it is. Therefore, when the background noise is large, the detection error of the consonant is increased.

このことによって、通信の分野では音質の劣化の要因
となり、また、音声認識の分野で認識率の低下を招いて
いた。
This has caused deterioration in sound quality in the field of communication, and has also led to a decrease in the recognition rate in the field of speech recognition.

本発明は上記事情に鑑みてなされたものであり、その
目的は、背景雑音が大きい場合にあっても有音の検出精
度を向上することができる音声検出装置を提供すること
にある。
The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a voice detection device that can improve the detection accuracy of a sound even when background noise is large.

[発明の構成] (課題を解決するための手段) 上記課題を解決するために、本発明は、ある長さごと
に区切ったフレームを単位として入力された入力音声信
号の特徴パラメータを求める特徴パラメータ生成手段
と、この特徴パラメータ生成手段で求められた前記特徴
パラメータに基づいて、前記入力音声信号が雑音である
か否かをフレーム毎に仮に判定する雑音判定手段と、こ
の雑音判定手段により雑音であると仮に判定されたフレ
ームの前記特徴パラメータ生成手段により求められた特
徴パラメータを複数フレーム分蓄積する蓄積手段と、こ
の蓄積手段に蓄積された前記複数フレーム分の特徴パラ
メータを用いて、前記入力音声信号のフレームの特徴パ
ラメータを変換パラメータに変換する変換手段と、この
変換手段により変換された前記変換パラメータに基づい
て、前記入力音声信号のフレームが音声に属するか雑音
に属するかを判定する有音判定手段とからなることを特
徴とする。
[Structure of the Invention] (Means for Solving the Problems) In order to solve the above problems, the present invention provides a feature parameter for obtaining a feature parameter of an input audio signal input in units of frames divided for each length. Generating means, noise determining means for temporarily determining, on a frame-by-frame basis, whether or not the input speech signal is noise, based on the characteristic parameters obtained by the characteristic parameter generating means; A storage unit for storing a plurality of frames of the feature parameters of the frame temporarily determined to be obtained by the feature parameter generation unit, and using the feature parameters for the plurality of frames stored in the storage unit to generate the input voice. Conversion means for converting the characteristic parameters of the signal frame into conversion parameters; Based on the conversion parameters, the frame of the input audio signal is characterized by comprising a sound presence judgment means for judging whether belonging to or noise belongs to the voice.

(作用) 以上の構成において、本発明ではフレーム単位で求め
られた全ての特徴パラメータあるいは雑音区間の特徴パ
ラメータに基づいて変換パラメータを生成し、この変換
パラメータを用いることにより音声信号の有音区間と雑
音区間を判別することができる。とくに、雑音区間の特
徴パラメータを基にして変換パラメータを生成した場合
には雑音の影響を回避した有音判別が可能となる。
(Operation) In the configuration described above, in the present invention, a conversion parameter is generated based on all the characteristic parameters obtained in frame units or the characteristic parameters of the noise section, and the conversion parameter is used to generate the sound section of the audio signal. The noise section can be determined. In particular, when a conversion parameter is generated based on a feature parameter in a noise section, it is possible to perform sound discrimination while avoiding the influence of noise.

(実施例) 第1図は本発明に係る有音検出装置の概略的構成を示
すブロック図であり、この装置は、特徴パラメータ計算
器1と、特徴パラメータ変換器2と、有音判定器3と、
雑音検出器4と、スイッチ5と、バッファ6とから構成
される。
(Embodiment) FIG. 1 is a block diagram showing a schematic configuration of a sound detection device according to the present invention. This device includes a feature parameter calculator 1, a feature parameter converter 2, and a sound determination device 3. When,
It comprises a noise detector 4, a switch 5, and a buffer 6.

なお、以下の実施例では、音声信号をフレーム単位に
分析し有無・音声の判定を行なっていく。例えば、音声
信号を8KHzでサンプリングし、160サンプルづつまとめ
て1フレームとする。ただし、フレーム長は、常に一定
長である必要はない。
In the following embodiment, an audio signal is analyzed on a frame basis, and the presence / absence and audio are determined. For example, the audio signal is sampled at 8 KHz, and 160 samples are combined to form one frame. However, the frame length does not need to be always constant.

特徴パラメータ計算器1では、フレーム単位にDurbin
法などを用いて線形予測係数を計算する。ここで、線形
予測係数からPARCOR係数、LPCケプストラム、メルケプ
ストラム等を計算し、特徴パラメータとしてもよい。ま
た、電力、自己相関関数、零交差数、等も計算してもよ
い。
In the feature parameter calculator 1, the Durbin
The linear prediction coefficient is calculated using the method or the like. Here, a PARCOR coefficient, an LPC cepstrum, a mel cepstrum, or the like may be calculated from the linear prediction coefficient, and may be used as a feature parameter. Also, the power, the autocorrelation function, the number of zero crossings, and the like may be calculated.

現在有音か無音かを判定しようとしているフレームを
以下では入力フレームという。また、特徴パラメータ計
算器1で得られた入力フレームの特徴パラメータを とする。nはフレームのシーケンシャルな番号である。
特徴パラメータはp次元のベクトルで、次の(1)の式
で書き表わされる。
The frame for which it is currently determined that there is sound or silence is hereinafter referred to as an input frame. Further, the characteristic parameters of the input frame obtained by the characteristic parameter calculator 1 are And n is the sequential number of the frame.
The feature parameter is a p-dimensional vector and is represented by the following equation (1).

雑音検出器4では、フレーム単位に次の(3)式で平
均電力Powを測定する。フレーム内の音声信号のサンプ
ルをa(i)(i=0,1,…,s−1)、1フレームのサン
プル数をsとすると、 そして、入力信号の中から、確実に雑音であるという区
間を検出するためにあらかじめ与えられているしきい値
Tと平均電力Powとを比較する。
The noise detector 4 measures the average power Pow by the following equation (3) for each frame. If the sample of the audio signal in the frame is a (i) (i = 0, 1,..., S−1) and the number of samples in one frame is s, Then, a threshold value T given in advance and the average power Pow are compared with each other in order to reliably detect a section in which noise is present from the input signal.

もし、Pow≧Tならば雑音でないと判定し“0"をSW5に
出力する。
If Pow ≧ T, it is determined that the noise is not a noise, and “0” is output to SW5.

そうでなければ雑音と判定し“1"をSW5に出力する。 Otherwise, it is determined to be noise and "1" is output to SW5.

SW5は、雑音検出器の出力が“1"ならば、バッファ6
にそのフレームの特徴パラメータを記憶させる。
SW5 is the buffer 6 if the output of the noise detector is "1".
To store the feature parameters of the frame.

バッファ6では、第2図に示されているように、特徴
パラメータがバッファ6に蓄積される時間の順序関係を
保存するために、特徴パラメータがバッファに入力され
た順番で、バッファのヘッドからテイルに向かって蓄積
する。すなわち、一番新しい特徴パラメータ(現在判定
すべきフレームの特徴パラメータ)をバッファのヘッド
に、一番過去の特徴パラメータをテイルに蓄積する。
In the buffer 6, as shown in FIG. 2, in order to preserve the order of the time when the characteristic parameters are accumulated in the buffer 6, in order of the characteristic parameters to be input to the buffer, the tail from the head of the buffer is tailed. Accumulate towards. That is, the newest feature parameter (the feature parameter of the frame to be determined at present) is stored in the head of the buffer, and the oldest feature parameter is stored in the tail.

この実施例では雑音検出器4で雑音と判定されたフレ
ームの特徴パラメータのみをバッファに蓄積しているが
雑音判定を行わずに全ての特徴パラメータをバッファに
蓄積しても良い。
In this embodiment, only the characteristic parameters of the frame determined to be noise by the noise detector 4 are stored in the buffer. However, all the characteristic parameters may be stored in the buffer without performing the noise determination.

バッファ6に蓄積された特徴パラメータのうち、入力
フレームのSフレーム前(バッファのヘッドからSフレ
ームめ)からバッファのテイルに向かってNフレーム分
の特徴パラメータ集合Ωを取り出し、第2図に示すよう
に、 とする。
From among the feature parameters stored in the buffer 6, a feature parameter set Ω for N frames is extracted from S frames before the input frame (from the head of the buffer to the S frame) toward the tail of the buffer, and as shown in FIG. To And

なお、前記Sフレーム、Nフレームは任意の数フレー
ムを取り得るが、数フレームから20フレーム程度が好適
である。
The S frame and the N frame can take an arbitrary number of frames, but it is preferable that the number of frames is from about several frames to about 20 frames.

特徴パラメータ変換器2では、音声と雑音の違いを強
調するために特徴パラメータを変換する。ここで変換さ
れた特徴パラメータを、以下では変換パラメータ と呼び、変換パラメータ はp次元のベクトルである。
The feature parameter converter 2 converts feature parameters to emphasize the difference between speech and noise. Here, the converted feature parameters are referred to as And the conversion parameters Is a p-dimensional vector.

ここでは、変換パラメータ は、Ωの平均ベクトル と入力フレームの特徴パラメータ との差を取り距離ベクトルを計算して、Ωの標準偏差で
正規化したものである。次の(3)〜(7)式で各成分
は表され、第3図には特徴パラメータ 特徴パラメータ集合Ω、変換パラメータ Ωの平均ベクトル の関係が図示されている。
Here, the conversion parameters Is the mean vector of Ω And input frame feature parameters , The distance vector is calculated and normalized by the standard deviation of Ω. Each component is represented by the following equations (3) to (7), and FIG. Feature parameter set Ω, conversion parameter Mean vector of Ω Is shown.

とすると、 yi(n)=(xi(n)−mi)/σ …(5) ここで、i=1,2,…,p、である。 Then, y i (n) = (x i (n) −m i ) / σ i (5) Here, i = 1, 2,..., P.

有音判定器3では、特徴パラメータ変換器2から得ら
れた変換パラメータを基に有音区間を判定する。この有
音判定器3は第4図に示すように、マッチング器7と、
M個の標準パターン8とから構成されている。
The sound existence determiner 3 determines a sound period based on the conversion parameter obtained from the feature parameter converter 2. As shown in FIG. 4, this sound existence judgment device 3 includes a matching device 7 and
And M standard patterns 8.

標準パターン8は以下のように定義できる。標準パタ
ーン8は の平均値ベクトルμおよび、 の共分散行列Σである。なお、以下(8)〜(10)式で
は標準パターンのクラスを示すiを簡易のため省略す
る。
The standard pattern 8 can be defined as follows. Standard pattern 8 Mean vector μ of and Is the covariance matrix. In the following equations (8) to (10), i indicating the class of the standard pattern is omitted for simplicity.

クラスωに属するL個のp次元変換パラメータを として、μとΣの各要素をμ、Σklとすると、 と表される。Let L p-dimensional conversion parameters belonging to class ω be Let μ k and Σ kl be the elements of μ and Σ, respectively. It is expressed as

マッチング器7では、標準パターンωと変換パラメ
ータ の距離を測定し、音声に属する標準パターンωにマッ
チングされた場合音声、そうでない場合無音と判定す
る。
In the matching unit 7, the standard pattern ω i and the conversion parameter If the distance is measured, is matched to the standard pattern omega i belonging to the speech determines the speech, a silent otherwise.

まず、次式より各標準パターンω(i=1,…,M)と
変換パラメータ との距離 を測定する。
First, according to the following equation, each standard pattern ω i (i = 1,. Distance to Is measured.

この を用いて、クラスiを計算すると、 となる。これによって、 はクラスiのωに属していることになる。もしω
音声を表すパターンであれば、そのフレームは有音、ω
が雑音をあらわすパターンであれば、そのフレームは
雑音であると判定する。
this Is used to calculate the class i, Becomes by this, Belongs to ω i of class i. If ω i is a pattern representing voice, the frame is voiced, ω
If i is a pattern representing noise, the frame is determined to be noise.

以上の各実施例の効果を具体的な測定結果を基に説明
する。
The effects of the above embodiments will be described based on specific measurement results.

母音と異なり、子音の電力は背景音電力を下回ること
が多い。そのため、背景雑音が大きな環境では、子音区
間でも特徴パラメータに雑音の特徴が大きく出てしま
う。従来の方式では、背景雑音の影響を受けた特徴パラ
メータをそのまま判定に用いていたため、背景雑音が大
きな場合には、子音の検出誤りが多くなっていた。
Unlike vowels, the power of consonants is often lower than the power of background sounds. Therefore, in an environment where the background noise is large, the feature of the noise appears largely in the feature parameter even in the consonant section. In the conventional method, the characteristic parameter affected by the background noise is used for the determination as it is. Therefore, when the background noise is large, the detection error of the consonant is increased.

本発明の各実施例では、雑音と音声の特徴を強調する
ため、S/N比が20dBから14dBほどの、背景雑音の大きな
環境でも検出率が良好な検出率が得られた。以下に、特
徴パラメータ・特徴パラメータ変換法を変えたときの語
頭子音の検出結果を示す。音声データに付けられたラベ
ルが子音を示しているフレームが子音のクラスのうちい
ずれかであると判定された場合、正しく検出されたもの
であるとする。
In each embodiment of the present invention, a good detection rate was obtained even in an environment with a large background noise, such as an S / N ratio of about 20 to 14 dB, in order to emphasize noise and speech characteristics. The detection result of the initial consonant when the feature parameter / feature parameter conversion method is changed is shown below. When it is determined that the frame in which the label attached to the audio data indicates a consonant is one of the consonant classes, it is determined that the frame is correctly detected.

第5図に示した検出率は子音検出率と雑音検出率の平
均値である。子音検出率は、次式で定義される。
The detection rate shown in FIG. 5 is an average value of the consonant detection rate and the noise detection rate. The consonant detection rate is defined by the following equation.

また、雑音データのフレームが、雑音クラスのうちい
ずれかであると判定された場合、正しく検出されたもの
とする。これが雑音検出率であり、次式で定義される。
When it is determined that the frame of the noise data is any of the noise classes, it is assumed that the noise data is correctly detected. This is the noise detection rate and is defined by the following equation.

第5図において、縦軸は検出率である。また、横軸は
特徴パラメータの種類を示しており、LPCはLPCケプスト
ラム、Pはフレーム内平均電力、P+LPCはPとLPCの併
用である。
In FIG. 5, the vertical axis is the detection rate. The horizontal axis indicates the type of feature parameter, LPC is LPC cepstrum, P is average power in a frame, and P + LPC is a combination of P and LPC.

なお、以下ではLPCケプストラム分析次元は12次、変
換パラメータ次元は特徴パラメータがLPCのとき4次、
P+LPCのとき5次とした。特徴パラメータ変換法は、
プロットを変えて示した。
In the following, the LPC cepstrum analysis dimension is 12th order, the transformation parameter dimension is 4th order when the feature parameter is LPC,
In the case of P + LPC, the fifth order was set. The feature parameter conversion method is
The plot is shown differently.

cは、特徴パラメータ変換を行わない従来の方法であ
る。
c is a conventional method that does not perform feature parameter conversion.

nは、第1図に示した実施例であり、雑音判定をして
いるものである。
n is the embodiment shown in FIG. 1 and is for noise determination.

vは、第1図に示した実施例で、雑音判定をしていな
いものである。
“v” represents the embodiment shown in FIG. 1 in which the noise is not determined.

[発明の効果] 以上説明したように本発明によれば、特徴パラメータ
変換により特徴パラメータから雑音の影響を除去できる
ので、背景雑音が大きい環境下にあっても精確に有音区
間を判別することができる。
[Effects of the Invention] As described above, according to the present invention, since the influence of noise can be removed from feature parameters by feature parameter conversion, it is possible to accurately determine a sound section even in an environment where background noise is large. Can be.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明に係る有音検出装置の概略構成を示すブ
ロック図、第2図は同実施例で使用されるバッファの構
成図、第3図は同実施例の変換パラメータの説明図、第
4図は有音判定器の構成例を示すブロック図、第5図は
各実施例における特徴パラメータと検出率との関係を示
す特性図、第6図は従来の有音検出装置の構成例を示す
ブロック図である。 1……特徴パラメータ計算器 2……特徴パラメータ変換器 3……有音判定器 4……雑音検出器 5……スイッチ 6……バッファ 7……マッチング器 8……標準パターン
1 is a block diagram showing a schematic configuration of a sound detection device according to the present invention, FIG. 2 is a configuration diagram of a buffer used in the embodiment, FIG. 3 is an explanatory diagram of conversion parameters in the embodiment, FIG. 4 is a block diagram showing a configuration example of a sound presence detector, FIG. 5 is a characteristic diagram showing a relationship between a characteristic parameter and a detection rate in each embodiment, and FIG. 6 is a configuration example of a conventional sound presence detector. FIG. DESCRIPTION OF SYMBOLS 1 ... Feature parameter calculator 2 ... Feature parameter converter 3 ... Speech presence detector 4 ... Noise detector 5 ... Switch 6 ... Buffer 7 ... Matching device 8 ... Standard pattern

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−266400(JP,A) 特開 昭60−200300(JP,A) 特開 平1−302298(JP,A) 特開 平4−58297(JP,A) 特開 昭61−48898(JP,A) 特開 平2−282798(JP,A) 特開 平2−26640(JP,A) 特開 平3−48900(JP,A) 特公 平5−56512(JP,B2) 1989年電子情報通信学会春季全国大会 講演論文集 第3分冊p.3−78「B− 372 ATM通信のための音声セル化方 式」(1989/3/28) 古井「ディジタル音声処理」(1985− 9−25)東海大学出版会 p.44−48 斎藤・中田「音声情報処理の基礎」 (昭56−11−30)オーム社 p.99− 103 電子情報通信学会技術研究報告[通信 ]Vol.89,No.132,CS89−33, 「音声パケット通信のための有音検出方 式」p.61−66(1989年7月19日発行) (58)調査した分野(Int.Cl.7,DB名) G10L 11/02 G10L 15/04 H04B 14/04 JICSTファイル(JOIS)──────────────────────────────────────────────────続 き Continuation of front page (56) References JP-A-2-266400 (JP, A) JP-A-60-200300 (JP, A) JP-A-1-302298 (JP, A) JP-A-4- 58297 (JP, A) JP-A-61-48898 (JP, A) JP-A-2-282798 (JP, A) JP-A-2-26640 (JP, A) JP-A-3-48900 (JP, A) Special Publication Hei 5-56512 (JP, B2) 1989 IEICE Spring National Convention Lecture Papers, Third Volume, p. 3-78 "B-372 Speech Cellization Method for ATM Communication" (March 28, 1989) Furui "Digital Speech Processing" (1985-9-25) Tokai University Press p. 44-48 Saito and Nakata, "Basics of Speech Information Processing" (56-11-30), Ohmsha p. 99-103 IEICE Technical Report [Communication] Vol. 89, No. 132, CS89-33, "Sound detection method for voice packet communication" p. 61-66 (Issued July 19, 1989) (58) Fields investigated (Int. Cl. 7 , DB name) G10L 11/02 G10L 15/04 H04B 14/04 JICST file (JOIS)

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】ある長さごとに区切ったフレームを単位と
して入力された入力音声信号の特徴パラメータを求める
特徴パラメータ生成手段と、 この特徴パラメータ生成手段で求められた前記特徴パラ
メータに基づいて、前記入力音声信号が雑音であるか否
かをフレーム毎に仮に判定する雑音判定手段と、 この雑音判定手段により雑音であると仮に判定されたフ
レームの前記特徴パラメータ生成手段により求められた
特徴パラメータを複数フレーム分蓄積する蓄積手段と、 この蓄積手段に蓄積された前記複数フレーム分の特徴パ
ラメータを用いて、前記入力音声信号のフレームの特徴
パラメータを変換パラメータに変換する変換手段と、 この変換手段により変換された前記変換パラメータに基
づいて、前記入力音声信号のフレームが音声に属するか
雑音に属するかを判定する有音判定手段と からなることを特徴とする有音検出装置。
1. A feature parameter generating means for obtaining a feature parameter of an input audio signal input in units of a frame delimited by a certain length, based on the feature parameter obtained by the feature parameter generating means. Noise determining means for temporarily determining, for each frame, whether or not the input speech signal is noise; and a plurality of feature parameters obtained by the feature parameter generating means for the frame temporarily determined to be noise by the noise determining means. Accumulating means for accumulating frames, and converting means for converting the characteristic parameters of the frame of the input audio signal into conversion parameters using the characteristic parameters for the plurality of frames stored in the accumulating means. The frame of the input audio signal belongs to the audio based on the converted And a sound determining means for determining whether the sound belongs to noise or noise.
【請求項2】前記変換手段は、前記入力音声信号のフレ
ームの特徴パラメータと前記蓄積手段に蓄積された前記
複数フレーム分の特徴パラメータとの距離ベクトルを求
めることによって、前記入力音声信号のフレームの特徴
パラメータを前記変換パラメータに変換することを特徴
とする請求項1に記載の有音検出装置。
2. The method according to claim 1, wherein the converting unit obtains a distance vector between a feature parameter of the frame of the input voice signal and a feature parameter of the plurality of frames stored in the storage unit, thereby obtaining a frame of the frame of the input voice signal. 2. The sound detection device according to claim 1, wherein a characteristic parameter is converted into the conversion parameter.
【請求項3】ある長さごとに区切ったフレームを単位と
して入力された入力音声信号の特徴パラメータを求める
特徴パラメータ生成ステップと、 この特徴パラメータ生成ステップで求められた前記特徴
パラメータに基づいて、前記入力音声信号が雑音である
か否かをフレーム毎に仮に判定する雑音判定ステップ
と、 この雑音判定ステップにより雑音であると仮に判定され
たフレームの前記特徴パラメータ生成ステップにより求
められた特徴パラメータを複数フレーム分蓄積する蓄積
ステップと、 この蓄積ステップに蓄積された前記複数フレーム分の特
徴パラメータを用いて、前記入力音声信号のフレームの
特徴パラメータを変換パラメータに変換する変換ステッ
プと、 この変換ステップにより変換された前記変換パラメータ
に基づいて、前記入力音声信号のフレームが音声に属す
るか雑音に属するかを判定する有音判定ステップと からなることを特徴とする有音検出方法。
3. A feature parameter generating step for obtaining a feature parameter of an input audio signal input in units of frames divided by a certain length, based on the feature parameter obtained in the feature parameter generating step. A noise determination step of temporarily determining whether or not the input speech signal is noise for each frame; and a plurality of feature parameters obtained by the feature parameter generation step of the frame temporarily determined to be noise by the noise determination step. An accumulating step of accumulating frames, a converting step of using the characteristic parameters of the plurality of frames accumulated in the accumulating step to convert a characteristic parameter of a frame of the input voice signal into a conversion parameter, Based on the conversion parameters A sound determination step of determining whether a frame of the input voice signal belongs to voice or noise.
JP1183684A 1989-07-18 1989-07-18 Sound detection device and method Expired - Fee Related JP3032215B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1183684A JP3032215B2 (en) 1989-07-18 1989-07-18 Sound detection device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1183684A JP3032215B2 (en) 1989-07-18 1989-07-18 Sound detection device and method

Publications (2)

Publication Number Publication Date
JPH0348900A JPH0348900A (en) 1991-03-01
JP3032215B2 true JP3032215B2 (en) 2000-04-10

Family

ID=16140121

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1183684A Expired - Fee Related JP3032215B2 (en) 1989-07-18 1989-07-18 Sound detection device and method

Country Status (1)

Country Link
JP (1) JP3032215B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111755029B (en) * 2020-05-27 2023-08-25 北京大米科技有限公司 Voice processing method, device, storage medium and electronic equipment

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
1989年電子情報通信学会春季全国大会講演論文集 第3分冊p.3−78「B−372 ATM通信のための音声セル化方式」(1989/3/28)
古井「ディジタル音声処理」(1985−9−25)東海大学出版会 p.44−48
斎藤・中田「音声情報処理の基礎」(昭56−11−30)オーム社 p.99−103
電子情報通信学会技術研究報告[通信]Vol.89,No.132,CS89−33,「音声パケット通信のための有音検出方式」p.61−66(1989年7月19日発行)

Also Published As

Publication number Publication date
JPH0348900A (en) 1991-03-01

Similar Documents

Publication Publication Date Title
US5692104A (en) Method and apparatus for detecting end points of speech activity
EP1083542B1 (en) A method and apparatus for speech detection
US5596680A (en) Method and apparatus for detecting speech activity using cepstrum vectors
EP2083417B1 (en) Sound processing device and program
US4937870A (en) Speech recognition arrangement
JP2002366192A (en) Method and device for recognizing voice
JP3032215B2 (en) Sound detection device and method
JPS6138479B2 (en)
JP3354252B2 (en) Voice recognition device
JPH0797279B2 (en) Voice recognizer
JP2002189487A (en) Speech recognition device and speech recognition method
KR0136608B1 (en) Phoneme recognizing device for voice signal status detection
JP3034279B2 (en) Sound detection device and sound detection method
JP2580768B2 (en) Voice recognition device
JP2001083978A (en) Speech recognition device
JPH02205897A (en) Sound detector
JPH034918B2 (en)
KR100345402B1 (en) An apparatus and method for real - time speech detection using pitch information
JP3008404B2 (en) Voice recognition device
JP3049711B2 (en) Audio processing device
JPH0398098A (en) Voice recognition device
JPH0546558B2 (en)
JPS60198596A (en) Syllable boundary selection system
JPS6227798A (en) Voice recognition equipment
JPH03290700A (en) Sound detector

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees