JPH056193A - Voice section detecting system and voice recognizing device - Google Patents

Voice section detecting system and voice recognizing device

Info

Publication number
JPH056193A
JPH056193A JP3166391A JP16639191A JPH056193A JP H056193 A JPH056193 A JP H056193A JP 3166391 A JP3166391 A JP 3166391A JP 16639191 A JP16639191 A JP 16639191A JP H056193 A JPH056193 A JP H056193A
Authority
JP
Japan
Prior art keywords
voice
voice section
feature amount
input
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3166391A
Other languages
Japanese (ja)
Other versions
JP3118023B2 (en
Inventor
Takashi Ariyoshi
敬 有吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03166391A priority Critical patent/JP3118023B2/en
Publication of JPH056193A publication Critical patent/JPH056193A/en
Application granted granted Critical
Publication of JP3118023B2 publication Critical patent/JP3118023B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To detect a voice section by suitably removing noise even under a time-instable environment. CONSTITUTION:A first characteristic value extracting section 10 obtains a voice characteristic value (Xi) while a second characteristic value extracting part 20 obtains a noise characteristic value (Ni), and a coefficient computing part 40 computes a coefficient K(i) from an equation, k(i)=[X(i)+C1]/[N(i)+C2] (C1, C2 = constants > 0). Further, a noise component removing part 50 computes an estimated value S(i) of a voice sectrum in a voice section from equation S(i)=X(i)-k(i)*N(i). A voice section detecting part 60 detects a voice section for every band in each channel in view of whether the above-mentioned S(i) exceeds a threshold value or not, in a section which is set by adding predetermined sections to a substantial voice section detected by a voice section detecting part 30, in front and rear thereof. If it is in a voice section, S(i) is delivered, but otherwise, 0 is delivered.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【技術分野】本発明は、音声区間検出方式及び該音声区
間検出方式を用いた音声認識装置、より詳細には、高騒
音環境下の音声入力装置の音声区間検出技術に関し、特
に、高騒音環境下の音声認識装置、例えば、自動車内、
工場内、家庭内の音声認識装置に応用可能であり、ま
た、音声合成装置、通信機器など他の音声入力装置にお
ける雑音除去に応用可能なものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice section detection method and a voice recognition apparatus using the voice section detection method, and more particularly to a voice section detection technique for a voice input device in a high noise environment, and more particularly to a high noise environment. A voice recognition device below, for example in a car,
It can be applied to a voice recognition device in a factory or a home, and can be applied to noise removal in other voice input devices such as a voice synthesizer and a communication device.

【0002】[0002]

【従来技術】音声認識装置の実用化においては、周囲の
騒音に対する雑音対策が重要な課題である。特に、雑音
が重畳した音声から正確に音声区間を検出することが容
易でないため、この様な環境では、著しく認識率が低下
する。雑音が重畳した音声に適した音声区間検出方式と
しては、例えば、特公昭63−29754号公報があ
る。これは、2つの閾値を用いていて、高い閾値以上の
区間がある時間以上である場合に、低い閾値以上の区間
を音声区間としているが、時間非定常的な雑音がその高
い閾値の条件を超えるような環境では、区間検出が困難
になる。この時間非定常的な雑音に効果がある方法とし
て、例えば、特開昭58−130395号公報がある。
これは、音声用マイクと騒音用マイクの2つの入力のパ
ワーの差と閾値を比較して音声区間を決めている。しか
しながら、音声区間中の音声に重畳している雑音の成分
は除去されていない。
2. Description of the Related Art In practical use of a voice recognition device, noise countermeasures against ambient noise are an important issue. In particular, since it is not easy to accurately detect a voice section from a voice on which noise is superimposed, in such an environment, the recognition rate is significantly reduced. As a voice section detection method suitable for a voice on which noise is superimposed, there is, for example, Japanese Patent Publication No. 63-29754. This uses two thresholds, and when a section equal to or higher than the high threshold is longer than a certain time, a section equal to or higher than the low threshold is set as a voice section. In an environment that exceeds the limit, section detection becomes difficult. Japanese Patent Laid-Open No. 58-130395 discloses, for example, a method effective against the noise which is non-stationary.
This determines a voice section by comparing a difference between powers of two inputs of a voice microphone and a noise microphone and a threshold value. However, the noise component superimposed on the voice in the voice section is not removed.

【0003】更に、2つの入力を用いて、雑音成分を除
去する方法として、従来広く用いられているスペクトル
サブトラクション法があるが、この方法は時間非定常性
の強い騒音には対応できないという欠点がある。こうし
た騒音にも比較的効果のある方法として、特開昭58−
196599号公報、特開昭63−262695号公
報、特開平1−115798号公報、特開平1−239
596号公報がある。これら公報に記載された発明はい
ずれも、音声用入力と騒音用入力との2つの入力手段を
用いたアダプティブノイズキャンセリング法の一種であ
って、次のように表せる。音声用入力のスペクトルをX
(i)、騒音用入力のスペクトルをN(i)として(i:各
周波数帯域を表す)、2つの入力で得られる雑音の周波
数帯域毎の比k(i)を、 k(i)=X(i)/N(i) として求めておき、音声区間中の音声のスペクトルの推
定値S(i)を、 S(i)=X(i)−k(i)・N(i) として求めるものである。この方法によれば、ある帯域
iに関して、雑音源が1つであると仮定すると、雑音レ
ベルが変化しても2つの入力で得られる雑音の比k(i)
は変らないので、音声区間中のX(i)に含まれる雑音成
分をk(i)・N(i)で推定することができる。従っ
て、ある程度時間非定常的な騒音に関しても効果があ
る。しかし、この方法は、比k(i)の計算を雑音が小さ
い時に行なうと誤差が大きくなり、次の音声区間中に比
較的大きな雑音成分が含まれると、適切な音声スペクト
ルの推定ができない。従って、全ての帯域に常に雑音が
存在するような場合でないと適切な雑音除去が行なえな
いという欠点がある。
Further, as a method of removing a noise component by using two inputs, there is a spectrum subtraction method which has been widely used in the past, but this method has a drawback that it cannot deal with a noise having a strong time non-stationarity. is there. As a method relatively effective against such noise, Japanese Patent Laid-Open No. 58-
196599, JP-A-63-262695, JP-A-1-115798, and JP-A-1-239.
There is a 596 publication. Each of the inventions described in these publications is a kind of adaptive noise canceling method using two input means for voice input and noise input, and can be expressed as follows. X for the spectrum of the voice input
(i), where the noise input spectrum is N (i) (i: represents each frequency band), the ratio k (i) of the noise obtained by the two inputs for each frequency band is k (i) = X (i) / N (i), and the estimated value S (i) of the speech spectrum in the speech section is calculated as S (i) = X (i) −k (i) · N (i). It is a thing. According to this method, assuming that there is one noise source for a certain band i, the noise ratio k (i) obtained at two inputs even if the noise level changes.
Does not change, the noise component included in X (i) in the voice section can be estimated by k (i) · N (i). Therefore, it is also effective for noise that is unsteady for some time. However, in this method, if the calculation of the ratio k (i) is performed when the noise is small, the error becomes large, and if a relatively large noise component is included in the next speech section, an appropriate speech spectrum cannot be estimated. Therefore, there is a drawback that proper noise removal cannot be performed unless noise always exists in all bands.

【0004】[0004]

【目的】本発明は、上述のごとき実情に鑑みてなされた
もので、第1に、時間非定常な騒音環境下でも、適切な
音声区間検出を行なうことができる音声区間検出方式を
提供することを目的とするものであり、第2に、時間非
定常な騒音環境下でも、適切な雑音除去を行なうことが
できる雑音除去装置を提供することを目的とするもので
あり、更には、時間非定常な騒音環境下でも、良好な認
識率の得られる音声認識装置を提供することを目的とす
るものである。
[Object] The present invention has been made in view of the above circumstances, and firstly, to provide a voice section detection method capable of performing an appropriate voice section detection even in a noise environment where time is unsteady. Secondly, it is an object of the present invention to provide a noise elimination device capable of performing appropriate noise elimination even in a noise environment in which the time is non-stationary. It is an object of the present invention to provide a voice recognition device that can obtain a good recognition rate even in a steady noise environment.

【0005】[0005]

【構成】本発明は、上記目的を達成するために、(1)
音声を入力するための第1の入力手段と、第1の入力手
段で得られた第1の入力信号の複数の要素から成る特徴
量を求める第1の特徴量抽出手段と、雑音を入力するた
めの第2の入力手段と、第2の入力手段で得られた第2
の入力信号の複数の要素から成る特徴量を求める第2の
特徴量抽出手段と、上記第1の特徴量と上記第2の特徴
量とから各要素毎に係数の演算を行う係数演算手段と、
上記第2の特徴量と上記係数とを用いて上記第1の特徴
量から雑音成分を除去することにより音声の特徴量を推
定する雑音成分除去手段と、少なくとも上記雑音成分除
去手段で推定された音声の特徴量を用いて、上記各要素
毎に音声区間を検出する音声区間検出手段とを具備して
成ること、或いは、(2)音声を入力するための第1の
入力手段と、第1の入力手段で得られた第1の入力信号
の複数の要素から成る特徴量を求める第1の特徴量抽出
手段と、雑音を入力するための第2の入力手段と、第2
の入力手段で得られた第2の入力信号の複数の要素から
成る特徴量を求める第2の特徴量抽出手段と、上記第1
の特徴量と上記第2の特徴量とから各要素毎に係数の演
算を行う係数演算手段と、上記第2の特徴量と上記係数
とを用いて上記第1の特徴量から雑音成分を除去するこ
とにより音声の特徴量を推定する雑音成分除去手段と、
上記雑音成分除去手段で推定された音声の特徴量を用い
て音声の大きさを求め、該音声の大きさから第1の音声
区間を検出する第1の音声区間検出手段と、上記第1の
音声区間検出手段で検出された第1の音声区間の前後に
それぞれ予め定められた区間を付け加えた区間で、少な
くとも上記雑音成分除去手段で推定された音声の特徴量
を用いて、上記各要素毎に第2の音声区間を検出する第
2の音声区間検出手段とを具備して成ること、或いは、
(3)音声を入力するための第1の入力手段と、第1の
入力手段で得られた第1の入力信号の複数の要素から成
る特徴量を求める第1の特徴量抽出手段と、雑音を入力
するための第2の入力手段と、第2の入力手段で得られ
た第2の入力信号の複数の要素から成る特徴量を求める
第2の特徴量抽出手段と、上記第1の特徴量と上記第2
の特徴量とから各要素毎に係数の演算を行う係数演算手
段と、上記第2の特徴量と上記係数とを用いて上記第1
の特徴量から雑音成分を除去することにより音声の特徴
量を推定する雑音成分除去手段と、少なくとも、上記第
1の信号の大きさと上記第2の信号の大きさを用いて第
1の音声区間を検出する第1の音声区間検出手段と、上
記第1の音声区間検出手段で検出された第1の音声区間
の前後にそれぞれ予め定められた区間を付け加えた区間
で、少なくとも上記雑音成分除去手段で推定された音声
の特徴量を用いて、上記各要素毎に第2の音声区間を検
出する第2の音声区間検出手段とを具備して成ること、
或いは、(4)前記(1)記載の音声区間検出方式であ
って、更に、上記雑音成分除去手段は、雑音成分を除去
するための係数を上記各要素毎に保持し、該各要素毎の
係数は、上記音声区間検出手段における対応する各要素
毎の音声区間に関する情報に基づいて更新されること、
或いは、(5)前記(2)又は(3)記載の音声区間検
出方式であって、更に、上記雑音成分除去手段は、雑音
成分を除去するための係数を上記各要素毎に保持し、該
各要素毎の係数は、上記第2の音声区間検出手段におけ
る対応する各要素毎の音声区間に関する情報に基づいて
更新されること、或いは、(6)前記(1)記載の音声
区間検出方式であって、更に、上記音声区間検出手段
は、上記各要素毎の音声区間を検出するための閾値を保
持し、該各要素毎の閾値は、上記音声区間検出手段にお
ける対応する各要素毎の音声区間に関する情報に基づい
て更新されること、或いは、(7)前記(2)又は
(3)記載の音声区間検出方式であって、更に、上記第
2の音声区間検出手段は、上記各要素毎の第2の音声区
間を検出するための閾値を保持し、該各要素毎の閾値
は、対応する第2の各要素毎の音声区間に関する情報に
基づいて更新されること、或いは、(8)前記(1)又
は(2)又は(3)記載の音声区間検出方式であって、
上記係数演算手段は、上記第1の特徴量または上記第2
の特徴量の各要素が大きい場合には、対応する係数の値
を上記第1の特徴量の対応する要素と上記第2の特徴量
の対応する要素の比の値、又は、該値に近い値とし、上
記第1の特徴量または上記第2の特徴量の各要素が小さ
い場合には、対応する係数の値を予め定められた値、又
は、該値に近い値とすること、或いは、(9)前記
(8)記載の音声区間検出方式であって、更に、上記係
数演算手段は、上記第1の特徴量の各要素X(i)、上
記第2の特徴量の対応する要素N(i)に対して、対応
する係数k(i)の値を、 k(i)=〔X(i)+C〕/〔N(i)+C〕 (C=定数>0) とすること、或いは、(10)前記(8)記載の音声区
間検出方式であって、更に、上記係数演算手段は、上記
第1の特徴量の各要素X(i)、上記第2の特徴量の対
応する要素N(i)に対して、対応する係数k(i)の
値を、 k(i)=〔X(i)+C1〕/〔N(i)+C2〕 (C1,C2=定数>0) とすること、或いは、(11)前記(1)乃至(10)
のいずれか1に記載の音声区間検出方式であって、更
に、音声を入力するための第1の入力手段と雑音を入力
するための第2の入力手段とはいずれもマイクロフォン
であること、或いは、(12)前記(1)乃至(10)
のいずれか1に記載の音声区間検出方式であって、更
に、音声を入力するための第1の入力手段はマイクロフ
ォンであり、雑音を入力するための第2の入力手段は上
記マイクロフォンの付近におかれたスピーカであり、該
スピーカから再生される音響信号を入力とすること、或
いは、(13)前記(1)乃至(12)のいずれか1に
記載の音声区間検出方式を用いて得られた音声の特徴量
から入力された音声の入力パターンを作成する入力パタ
ーン生成部と、予め登録された音声の標準パターンを記
憶する標準パターンメモリと、上記入力パターンと上記
標準パターンとで認識処理を行なう認識部とを具備して
成ることを特徴としたものである。以下、本発明の実施
例に基いて説明する。
In order to achieve the above object, the present invention provides (1)
First input means for inputting voice, first characteristic amount extraction means for obtaining a characteristic amount including a plurality of elements of the first input signal obtained by the first input means, and noise input And a second input means for obtaining the second input means for
Second feature amount extraction means for obtaining a feature amount consisting of a plurality of elements of the input signal, and coefficient calculation means for calculating a coefficient for each element from the first feature amount and the second feature amount. ,
A noise component removing unit that estimates a voice feature amount by removing a noise component from the first feature amount using the second feature amount and the coefficient, and at least estimated by the noise component removing unit. A voice section detecting means for detecting a voice section for each of the above-mentioned elements using a voice feature amount; or (2) first input means for inputting a voice; First feature amount extracting means for obtaining a feature amount consisting of a plurality of elements of the first input signal obtained by the input means, second input means for inputting noise, and second
Second feature quantity extraction means for finding a feature quantity consisting of a plurality of elements of the second input signal obtained by the input means,
Of the noise component from the first feature amount using the coefficient calculation means for calculating the coefficient for each element from the feature amount of the second feature amount and the second feature amount, and the second feature amount and the coefficient. Noise component removing means for estimating the feature amount of the voice by
A first voice section detecting means for detecting a voice volume using the feature quantity of the voice estimated by the noise component removing means, and detecting a first voice section from the voice volume; For each of the above elements, at least the feature quantity of the voice estimated by the noise component removing means is used in a zone in which a predetermined zone is added before and after the first voice zone detected by the voice zone detecting means. And a second voice section detecting means for detecting the second voice section, or
(3) First input means for inputting voice, first feature quantity extraction means for obtaining a feature quantity composed of a plurality of elements of the first input signal obtained by the first input means, and noise Second input means for inputting, a second feature quantity extracting means for obtaining a feature quantity consisting of a plurality of elements of the second input signal obtained by the second input means, and the first feature Quantity and above second
The coefficient calculating means for calculating the coefficient for each element from the feature quantity of the first feature, and the first feature quantity using the second feature quantity and the coefficient.
Noise component removing means for estimating a voice feature amount by removing a noise component from the feature amount, and a first voice section using at least the magnitude of the first signal and the magnitude of the second signal. At least the noise component removing means, which is a section in which a predetermined section is added before and after the first voice section detected by the first voice section detecting means. A second voice section detecting means for detecting a second voice section for each of the above-mentioned elements by using the feature quantity of the voice estimated in
Alternatively, (4) the voice section detection method according to (1), wherein the noise component removing means holds a coefficient for removing a noise component for each element, and for each element, The coefficient is updated based on information about the voice section for each corresponding element in the voice section detecting means,
Alternatively, (5) the voice section detection method according to (2) or (3), wherein the noise component removing means holds a coefficient for removing a noise component for each element, The coefficient for each element is updated based on the information about the corresponding speech section for each element in the second speech section detection means, or (6) the speech section detection method described in (1) above. Further, the voice section detecting means holds a threshold for detecting the voice section of each element, and the threshold of each element is the voice of each corresponding element in the voice section detecting means. Updating based on information about a section, or (7) the voice section detecting method according to (2) or (3) above, wherein the second voice section detecting means further comprises: For detecting the second voice section of the Retaining and updating the threshold value for each element based on the information on the corresponding second voice element interval for each element, or (8) above (1) or (2) or (3) The voice section detection method of
The coefficient calculating means may be the first feature quantity or the second feature quantity.
When each element of the feature quantity is large, the value of the corresponding coefficient is set to the value of the ratio of the corresponding element of the first feature quantity to the corresponding element of the second feature quantity, or close to the value. When each element of the first feature amount or the second feature amount is small, the value of the corresponding coefficient is set to a predetermined value or a value close to the value, or (9) In the voice section detection method according to (8), the coefficient calculating means further includes each element X (i) of the first feature quantity and a corresponding element N of the second feature quantity. For (i), the value of the corresponding coefficient k (i) is k (i) = [X (i) + C] / [N (i) + C] (C = constant> 0), or (10) The voice section detection method according to (8), wherein the coefficient calculation means further includes each element X (i) of the first feature quantity, and the second feature. For the corresponding element N (i) of the quantity, the value of the corresponding coefficient k (i) is k (i) = [X (i) + C 1 ] / [N (i) + C 2 ] (C 1 , C 2 = constant> 0), or (11) above (1) to (10)
The voice section detection method according to any one of 1 to 3, wherein both the first input means for inputting voice and the second input means for inputting noise are microphones, or , (12) The above (1) to (10)
The voice section detection method according to any one of 1 to 3, further, the first input means for inputting voice is a microphone, and the second input means for inputting noise is in the vicinity of the microphone. It is a speaker that is placed and receives an audio signal reproduced from the speaker, or (13) is obtained by using the voice section detection method according to any one of (1) to (12) above. An input pattern generation unit that creates an input pattern of an input voice from a feature amount of an input voice, a standard pattern memory that stores a standard pattern of voice registered in advance, and a recognition process using the input pattern and the standard pattern. It is characterized by comprising a recognition unit for performing. Hereinafter, it demonstrates based on the Example of this invention.

【0006】図1は、本発明の一実施例を説明するため
の構成図で、図中、1は第1のマイクロフォン、2は第
2のマイクロフォン、10は第1の特徴量抽出部、20
は第2の特徴量抽出部、30は第1の音声区間検出部、
40は係数演算部、50は雑音成分除去部、60は第2
の音声区間検出部である。第1のマイク1は、音声を入
力する(主入力)ためのマイクで、該マイク1は発声者
の口の近くに置かれ、ここで得られた主入力信号には音
声と周囲の雑音が含まれる。第2のマイク2は、周囲の
雑音を入力する(参照入力)ためのマイクで、該マイク
2は発声者の口から離れた位置に置かれ、ここで得られ
た参照入力信号には周囲の雑音のみが含まれ、音声は殆
ど含まれない。
FIG. 1 is a block diagram for explaining an embodiment of the present invention. In the figure, 1 is a first microphone, 2 is a second microphone, 10 is a first feature quantity extraction unit, and 20 is a second feature microphone.
Is a second feature amount extraction unit, 30 is a first voice section detection unit,
40 is a coefficient calculation unit, 50 is a noise component removal unit, and 60 is a second
Is a voice section detection unit. The first microphone 1 is a microphone for inputting voice (main input), and the microphone 1 is placed near the mouth of the speaker, and the main input signal obtained here includes voice and ambient noise. included. The second microphone 2 is a microphone for inputting ambient noise (reference input), and the microphone 2 is placed at a position away from the speaker's mouth, and the reference input signal obtained here includes the ambient noise. It contains only noise, and almost no speech.

【0007】第1の特徴量抽出部10は、マイクアンプ
11、15チャンネルのバンドパスフィルタ12、整流
器13、ローパスフィルタ14、マルチプレクサ15、
A/D変換器16から成り、一定フレーム時間毎にマイ
ク1で得られた主入力信号のスペクトルX(i)(i=
1,2,…,15)を求める。第2の特徴量抽出部20
は、マイクアンプ21、15チャンネルのバンドパスフ
ィルタ22、整流器23、ローパスフィルタ24、マル
チプレクサ25、A/D変換器26より成り、一定フレ
ーム時間毎にマイク2で得られた参照入力信号のスペク
トルN(i)を求める。マイクアンプ11とマイクアンプ
21は、遠い音源からの雑音に対して主入力信号と参照
入力信号がほぼ同レベルとなるように各入力のゲインを
予め調整しておく。第1、及び、第2の特徴量抽出部の
その他の部分の特性は、それぞれ同一である。第1、及
び、第2の特徴量抽出部で得られる特徴量は、他の公知
の特徴量でも良い。
The first characteristic amount extraction section 10 includes a microphone amplifier 11, a 15-channel bandpass filter 12, a rectifier 13, a lowpass filter 14, a multiplexer 15,
The spectrum X (i) of the main input signal, which is composed of the A / D converter 16 and is obtained by the microphone 1 at a constant frame time (i =
1, 2, ..., 15) are obtained. Second feature amount extraction unit 20
Is composed of a microphone amplifier 21, a 15-channel band-pass filter 22, a rectifier 23, a low-pass filter 24, a multiplexer 25, and an A / D converter 26, and the spectrum N of the reference input signal obtained by the microphone 2 at constant frame time intervals. Find (i). The microphone amplifier 11 and the microphone amplifier 21 are adjusted in advance in gain of each input so that the main input signal and the reference input signal have substantially the same level with respect to noise from a distant sound source. The characteristics of the other portions of the first and second feature amount extraction units are the same. The feature amount obtained by the first and second feature amount extraction units may be another known feature amount.

【0008】第1の音声区間検出部30は、主入力信号
のパワーΣX(i)と参照入力信号のパワーΣN(i)との
差が閾値Tpwrを超えたかどうかで、概略の音声区間を
検出する。各入力信号のパワーは、別の手段で求めても
良いし、概略の音声区間検出の方法は、他の方法を用い
ても良い。閾値Tpwrは、概略の音声区間でない区間で
そのフレーム以前の複数フレームの主入力信号のパワー
pwr=ΣX(i)と参照入力信号のパワーNpwr=ΣN
(i)の平均値(それぞれAv・Xpwr、Av・Npwrと記
す)から計算され、順次更新される。即ち、 Tpwr=apwr(Av・Xpwr−Av・Npwr)+bpwr (1) (apwr,bpwr:定数,apwr,bpwr>0) また、この音声区間検出部30は、後述する雑音成分除
去部50で求められる雑音成分を除去した音声の特徴量
S(i)から音声のパワーΣS(i)を求めて、閾値Tpwr
と比較しても良い。
The first voice section detection unit 30 determines a rough voice section based on whether the difference between the power ΣX (i) of the main input signal and the power ΣN (i) of the reference input signal exceeds a threshold T pwr. To detect. The power of each input signal may be obtained by another means, and another method may be used as the method of detecting the voice section. The threshold value T pwr is the power X pwr = ΣX (i) of the main input signal and the power N pwr = ΣN of the reference input signal of a plurality of frames before the frame in a section that is not a general speech section.
It is calculated from the average value of (i) ( denoted as Av · X pwr and Av · N pwr , respectively), and is sequentially updated. That is, T pwr = a pwr (Av · X pwr −Av · N pwr ) + b pwr (1) (a pwr , b pwr : constant, a pwr , b pwr > 0) The power ΣS (i) of the voice is calculated from the feature amount S (i) of the voice from which the noise component is removed, which is obtained by the noise component removing unit 50 described later, and the threshold T pwr is obtained.
You may compare with.

【0009】係数演算部40は、各チャンネルi毎に、
主入力信号のスペクトルX(i)と参照入力信号のスペク
トルN(i)とから係数k(i)を次のように演算する。 k(i)=〔X(i)+C1〕/〔N(i)+C2〕 (C1,C2:定数,C1,C2>0) (2) 式(2)の係数k(i)は、そのフレーム以前の複数フレ
ームの主入力信号のスペクトルX(i)と参照入力信号の
スペクトルN(i)の平均値から計算しても良いが、平均
するフレームの数は、閾値Tpwr,Tiを求めるための
フレームの数より小さい数が良い。
The coefficient calculation unit 40, for each channel i,
The coefficient k (i) is calculated from the spectrum X (i) of the main input signal and the spectrum N (i) of the reference input signal as follows. k (i) = [X (i) + C 1 ] / [N (i) + C 2 ] (C 1 , C 2 : constant, C 1 , C 2 > 0) (2) Coefficient k ( i) may be calculated from the average value of the spectrum X (i) of the main input signal and the spectrum N (i) of the reference input signal of a plurality of frames before that frame, but the number of frames to be averaged is the threshold T A number smaller than the number of frames for obtaining pwr and Ti is preferable .

【0010】また、式(2)から明らかなように、X
(i),N(i)の値が大きい場合、k(i)は、従来技術
で用いられている値、X(i)/N(i)に近付き、逆に、
X(i),N(i)の値が小さい場合、k(i)は、C1/C
2(一定)に近付く。従って、X(i),N(i)の値が小
さい場合、C1/C2の値をシステムに応じて適当な値に
設定しておけば、k(i)の誤差は少なくなる。ここ
で、C1,C2の値は、X(i),N(i)の値が8bit(0〜2
55)で表される場合、8〜32程度が良い。C1/C2の値
は、遠い音源からの雑音、あるいは、決まった音源から
の雑音に対して実験的に予め測定されるX(i),N
(i)がほぼ同レベルになる場合は1で良いが、そうでな
い場合は、X(i)/N(i)などとする。更に、C1,C2
の値は、チャンネルによって異なる値を用いても良い。
また、マイク2に音声がある程度混入するようなシステ
ムでは、C1/C2の値を1とする(C1=C2)と、音声
成分の一部が雑音成分として除去されてしまうので、1
より小さい値にする(C1<C2)と良い。式(2)の演
算は、音声が入力されていない区間で行なわれ順次更新
される。ここで求めた係数k(i)の値は、時間軸上で
平滑化処理をしても良い。また、係数k(i)とスペク
トルX(i),N(i)との関係は、式(2)の関係に限
らず、双曲線関数や指数関数を用いた式でも良いし、重
み付などの手法を用いて同様な効果を持たせることも可
能である。
Further, as is clear from the equation (2), X
When the values of (i) and N (i) are large, k (i) approaches the value used in the prior art, X (i) / N (i), and conversely,
When the values of X (i) and N (i) are small, k (i) is C 1 / C
Approach 2 (constant). Therefore, when the values of X (i) and N (i) are small, if the value of C 1 / C 2 is set to an appropriate value according to the system, the error of k (i) will be small. Here, regarding the values of C 1 and C 2 , the values of X (i) and N (i) are 8 bits (0 to 2).
When expressed by 55), about 8 to 32 is good. The value of C 1 / C 2 is X (i), N which is experimentally measured in advance for noise from a distant sound source or noise from a fixed sound source.
If (i) is almost at the same level, 1 is acceptable, but if not, X (i) / N (i) is used. Furthermore, C 1 , C 2
The value of may be different depending on the channel.
Further, in a system in which the voice is mixed into the microphone 2 to some extent, if the value of C 1 / C 2 is set to 1 (C 1 = C 2 ), a part of the voice component will be removed as a noise component. 1
A smaller value (C 1 <C 2 ) is preferable. The calculation of Expression (2) is performed in a section in which no voice is input and is sequentially updated. The value of the coefficient k (i) obtained here may be smoothed on the time axis. Further, the relationship between the coefficient k (i) and the spectra X (i) and N (i) is not limited to the relationship of the expression (2), but may be an expression using a hyperbolic function or an exponential function, or weighting or the like. It is also possible to have a similar effect by using a method.

【0011】雑音成分除去部50は、各チャンネルi毎
に、主入力信号のスペクトルX(i)、参照入力信号のス
ペクトルN(i)、係数k(i)から雑音成分を除去した音
声の特徴量S(i)を次のように演算する。 S(i)=X(i)−k(i)・N(i) (3) また、音声区間でない場合は、S(i)=0としても良
い。尚、式(3)において、更に加減算を施して誤差な
どを調整し、より正確な音声の特徴量S(i)を求めるこ
とも可能である。
The noise component removing unit 50 removes noise components from the spectrum X (i) of the main input signal, the spectrum N (i) of the reference input signal, and the coefficient k (i) for each channel i. The quantity S (i) is calculated as follows. S (i) = X (i) -k (i) .N (i) (3) Further, if it is not a voice section, S (i) = 0 may be set. Note that it is also possible to obtain a more accurate voice feature amount S (i) by further adding / subtracting in Expression (3) to adjust the error and the like.

【0012】第2の音声区間検出部60は、第1の音声
区間検出部30で検出された概略の音声区間の前後にそ
れぞれ予め定められた区間を付け加えた区間で、雑音成
分除去部50で推定された音声のスペクトルS(i)が閾
値Tiを超えたかどうかで、上記各チャンネルi毎に、
帯域毎の音声区間を検出する。そこで、帯域毎の音声区
間である場合には、S(i)を、そうでない場合には、0
を後続の音声認識装置などに出力する。
The second voice section detecting section 60 is a section in which a predetermined section is added before and after the general voice section detected by the first voice section detecting section 30, and in the noise component removing section 50. Whether or not the estimated speech spectrum S (i) exceeds the threshold value Ti, for each channel i,
The voice section for each band is detected. Therefore, S (i) is set if it is a voice section for each band, and 0 otherwise.
Is output to a subsequent voice recognition device or the like.

【0013】図2は、概略の音声区間(A)と、その前
後にそれぞれ予め定められた区間を付け加えた区間
(B)と、各チャンネルiに関する帯域毎の音声区間
(C)の関係を示した図である。閾値Tiは、 Ti=a(Av・X(i)−Av・N(i))+b (4) (a,b:定数,a,b>0) で表わされ、チャンネルiが帯域の音声区間でない区間
でそのフレーム以前の複数フレームの主入力信号のスペ
クトルX(i)と参照入力信号のスペクトルN(i)の平均
値(それぞれAv・X(i)、Av・N(i))から計算さ
れ、順次更新される。
FIG. 2 shows the relationship between a general voice section (A), a section (B) in which a predetermined section is added before and after it, and a voice section (C) for each band for each channel i. It is a figure. The threshold value Ti is expressed by Ti = a (Av · X (i) −Av · N (i)) + b (4) (a, b: constant, a, b> 0), and channel i is a band audio signal. From the average value (Av · X (i) and Av · N (i) of the spectrum X (i) of the main input signal and the spectrum N (i) of the reference input signal of a plurality of frames before that frame in a non-interval interval, respectively) Calculated and updated sequentially.

【0014】尚、この実施例において、雑音レベルがそ
れほど大きくない環境下で使用される場合には、第1の
音声区間検出部30で概略の音声区間を求めることな
く、直接、第2の音声区間検出部60で帯域の音声区間
を求めることも可能である(請求項1)。また、第2の
音声区間検出部60での閾値Tiの計算、係数演算部4
0での係数k(i)の計算は、チャンネルi毎ではなく、
幾つかのチャンネル毎にグループにまとめて各グループ
毎に行なっても良い。
In this embodiment, when used in an environment where the noise level is not so high, the first voice section detection unit 30 does not calculate the rough voice section, but directly outputs the second voice. It is also possible to obtain the voice section of the band by the section detection unit 60 (claim 1). Also, the calculation of the threshold value Ti in the second voice section detection unit 60 and the coefficient calculation unit 4
The calculation of the coefficient k (i) at 0 is not for each channel i, but
It is also possible to combine several channels into groups and perform each group.

【0015】図3は、音声を入力するためのマイク付近
に置かれたスピーカからの雑音を除去するための本発明
の一実施例を示す構成図で、図中、図1に示した実施例
と同様の作用をする部分には、図1の場合と同一の参照
番号が付してある。而して、この実施例は、図1のマイ
ク2からの入力の代りに、スピーカ2sへ送られる音響
信号を入力すること以外は、図1の発明と同様であり、
マイクアンプ11,21の調整は、音響信号に対して主
入力信号と参照入力信号がほぼ同レベルになるように調
整される。
FIG. 3 is a block diagram showing an embodiment of the present invention for removing noise from a speaker placed near a microphone for inputting voice, and the embodiment shown in FIG. 1 in the drawing. The same reference numerals as in the case of FIG. Thus, this embodiment is the same as the invention of FIG. 1 except that an acoustic signal sent to the speaker 2s is input instead of the input from the microphone 2 of FIG.
The microphone amplifiers 11 and 21 are adjusted so that the main input signal and the reference input signal have substantially the same level with respect to the acoustic signal.

【0016】図4は、本発明の雑音除去装置を用いた音
声認識装置の一例を示す構成図で、入力パターン生成部
70は、上述の雑音除去装置で得られた音声のスペクト
ルから入力された音声の入力パターンを作成し、標準パ
ターンメモリ80は、予め登録された音声の標準パター
ンを記憶し、認識部90は入力パターンと標準パターン
とで認識処理を行なう。入力パターン生成部70、標準
パターンメモリ80、認識部90の構成、動作は、公知
のBTSP音声認識方式によるものであるが、他の方式
を用いても良い。
FIG. 4 is a block diagram showing an example of a speech recognition apparatus using the noise elimination apparatus of the present invention. The input pattern generation unit 70 is inputted from the spectrum of the speech obtained by the noise elimination apparatus described above. An input pattern of voice is created, the standard pattern memory 80 stores the standard pattern of voice registered in advance, and the recognition unit 90 performs a recognition process with the input pattern and the standard pattern. The configurations and operations of the input pattern generation unit 70, the standard pattern memory 80, and the recognition unit 90 are based on the known BTSP voice recognition method, but other methods may be used.

【0017】[0017]

【効果】請求項1に記載の発明によると、音声を入力す
るための主入力信号の特徴量と、雑音を入力するための
参照入力信号から得られる特徴量とを用いて、帯域毎に
音声区間検出を行なっているので、ある帯域が音声区間
であっても音声の成分が存在しない他の帯域は音声区間
とされないので、音声の特徴量が正確に抽出でき、時間
非定常な高騒音環境下の音声認識において、良好な認識
率が得られる。請求項2に記載の発明によると、雑音成
分除去手段で推定された音声の特徴量を用いて音声の大
きさを求め、該音声の大きさから概略の音声区間を検出
し、その概略の音声区間の前後にそれぞれ予め定められ
た区間を付け加えた区間で、帯域毎に音声区間検出を行
なっているので、概略の音声区間からある程度離れた区
間の騒音を音声とまちがうことがなく、更に、正確な音
声区間検出が行なえる。請求項3に記載の発明による
と、主入力信号のパワーと参照入力信号のパワーを用い
て音声の大きさを求め、該音声の大きさから概略の音声
区間を検出し、その概略の音声区間の前後にそれぞれ予
め定められた区間を付け加えた区間で、帯域毎に音声区
間検出を行なっているので、音声と同程度の大きさの騒
音であっても、音声とまちがうことがなく、更に正確な
音声区間検出が行なえる。請求項4,5に記載の発明に
よると、雑音成分除去のための各帯域毎の係数を帯域毎
の音声区間の情報に基づいて更新しているので、音声区
間中に騒音環境が変化したとしても、音声成分の含まれ
ない帯域では上記係数を更新して、騒音環境の変化に対
応する事が可能であり、更に正確な音声区間検出が行な
える。 請求項6,7に記載の発明によると、各帯域毎の音声区
間を検出するための閾値を帯域毎の音声区間の情報に基
づいて更新しているので、音声区間中に騒音環境が変化
したとしても、音声成分の含まれない帯域では上記閾値
を更新して、騒音環境の変化に対応する事が可能であ
り、更に正確な音声区間検出が行なえる。請求項8に記
載の発明によると、式(2)から明らかなように、時間
非定常な騒音下において、周囲の騒音レベルが小さい時
に係数k(i)が決められ、その次の音声区間中に比較的
大きな雑音成分が含まれるような場合には、係数k(i)
は予め定められた定数に近くなり、係数k(i)の誤差が
少なく、また騒音レベルが大きい場合には係数k(i)は
主入力と参照入力の比に近くなるのでいずれの場合にも
適切な雑音成分の除去、即ち、適切な音声スペクトルの
推定ができる。請求項9に記載の発明によると、主入力
と参照入力がほぼ同レベルになり、参照入力に音声が含
まれないようなシステムにおいて、周囲の騒音レベルが
小さい時の係数k(i)が1に近くなり、係数k(i)の誤
差が少なく、また騒音レベルが大きい場合には係数k
(i)は主入力と参照入力の比に近くなり、更に、騒音レ
ベルが小さい場合から大きい場合まで係数k(i)は連続
的に変化していくのでいかなる騒音レベルであっても適
切な雑音成分の除去、即ち、適切な音声スペクトルの推
定ができる。請求項10に記載の発明によると、主入力
と参照入力がほぼ同レベルにはならないか、または、参
照入力に音声がある程度混入するようなシステムにおい
て、周囲の騒音レベルが小さい時の係数k(i)がシステ
ムに適した定数に近くなり、請求項10に記載の発明の
効果と同様の効果がある。請求項11に記載の発明によ
ると、主入力、参照入力として2つのマイクを用いる場
合に、上述の効果がある。請求項12に記載の発明によ
ると、主入力としてマイク、参照入力としてスピーカに
送られる音響信号を用いる場合に、上述の効果がある。
請求項13に記載の発明によると、時間非定常な騒音環
境下の音声認識において、良好な認識率が得られる。
According to the invention as set forth in claim 1, by using the feature amount of the main input signal for inputting the voice and the feature amount obtained from the reference input signal for inputting the noise, the voice for each band Since the section detection is performed, even if a certain band is the voice section, the other bands in which the voice component does not exist are not considered as the voice section, so that the feature quantity of the voice can be accurately extracted, and the time is unsteady in a high noise environment. In the voice recognition below, a good recognition rate is obtained. According to the invention described in claim 2, the loudness of the voice is obtained using the feature quantity of the voice estimated by the noise component removing means, the rough voice section is detected from the loudness of the voice, and the rough voice is obtained. Since the voice section is detected for each band in a section in which a predetermined section is added before and after the section, noise in a section distant from the approximate voice section is not mistaken for voice, and further, it is accurate. It is possible to detect various voice sections. According to the invention described in claim 3, the loudness of the voice is obtained by using the power of the main input signal and the power of the reference input signal, the rough voice section is detected from the loudness of the voice, and the rough voice section is detected. Since a voice section is detected for each band in a section with a predetermined section added before and after each, even if the noise is about the same as the voice, it is not different from the voice and more accurate. It is possible to detect various voice sections. According to the invention described in claims 4 and 5, since the coefficient for each band for removing the noise component is updated based on the information of the voice section for each band, it is assumed that the noise environment changes during the voice section. Also, it is possible to update the above coefficient in a band in which no voice component is included to deal with changes in the noise environment, and more accurate voice section detection can be performed. According to the invention described in claims 6 and 7, since the threshold for detecting the voice section for each band is updated based on the information of the voice section for each band, the noise environment changes during the voice section. Even in this case, it is possible to update the threshold value in a band that does not include a voice component to deal with a change in the noise environment, and more accurate voice section detection can be performed. According to the invention described in claim 8, as is clear from the equation (2), the coefficient k (i) is determined when the ambient noise level is small under a noise which is not constant in time, and during the next speech section. When a relatively large noise component is included in the coefficient k (i)
Is close to a predetermined constant, the error of the coefficient k (i) is small, and when the noise level is high, the coefficient k (i) is close to the ratio of the main input and the reference input. An appropriate noise component can be removed, that is, an appropriate speech spectrum can be estimated. According to the invention described in claim 9, in a system in which the main input and the reference input are almost at the same level and the reference input does not include voice, the coefficient k (i) when the ambient noise level is low is 1 , The coefficient k (i) has a small error, and the noise level is large, the coefficient k
(i) is close to the ratio of the main input to the reference input, and the coefficient k (i) continuously changes from the low noise level to the high noise level, so that appropriate noise is obtained at any noise level. It is possible to remove components, that is, to estimate an appropriate speech spectrum. According to the invention as set forth in claim 10, in a system in which the main input and the reference input do not become substantially at the same level or the reference input is mixed with voice to some extent, the coefficient k ( i) is close to a constant suitable for the system, and has the same effect as the effect of the invention described in claim 10. According to the invention described in claim 11, the above-mentioned effect is obtained when two microphones are used as the main input and the reference input. According to the twelfth aspect of the present invention, when the microphone is used as the main input and the acoustic signal sent to the speaker is used as the reference input, the above-mentioned effect is obtained.
According to the thirteenth aspect of the present invention, a good recognition rate can be obtained in voice recognition in a time-unsteady noise environment.

【図面の簡単な説明】[Brief description of drawings]

【図1】 本発明の一実施例を説明するための構成図で
ある。
FIG. 1 is a configuration diagram for explaining an embodiment of the present invention.

【図2】 図1の動作説明をするためのタイムチャート
である。
FIG. 2 is a time chart for explaining the operation of FIG.

【図3】 本発明による音声区間検出方式の実施例を説
明するための構成図である。
FIG. 3 is a configuration diagram for explaining an embodiment of a voice section detection system according to the present invention.

【図4】 本発明による音声認識装置の実施例を説明す
るための構成図である。
FIG. 4 is a configuration diagram for explaining an embodiment of a voice recognition device according to the present invention.

【符号の説明】[Explanation of symbols]

1…第1のマイクロフォン、2…第2のマイクロフォ
ン、10…第1の特徴量抽出部、20…第2の特徴量抽
出部、30…第1の音声区間検出部、40…係数演算
部、50…雑音成分除去部、60…第2の音声区間検出
部、70…入力パターン生成部、80…標準パターンメ
モリ、90…認識部。
DESCRIPTION OF SYMBOLS 1 ... 1st microphone, 2 ... 2nd microphone, 10 ... 1st feature-value extraction part, 20 ... 2nd feature-value extraction part, 30 ... 1st speech area detection part, 40 ... Coefficient calculation part, 50 ... Noise component removal unit, 60 ... Second voice section detection unit, 70 ... Input pattern generation unit, 80 ... Standard pattern memory, 90 ... Recognition unit.

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】 音声を入力するための第1の入力手段
と、第1の入力手段で得られた第1の入力信号の複数の
要素から成る特徴量を求める第1の特徴量抽出手段と、
雑音を入力するための第2の入力手段と、第2の入力手
段で得られた第2の入力信号の複数の要素から成る特徴
量を求める第2の特徴量抽出手段と、上記第1の特徴量
と上記第2の特徴量とから各要素毎に係数の演算を行う
係数演算手段と、上記第2の特徴量と上記係数とを用い
て上記第1の特徴量から雑音成分を除去することにより
音声の特徴量を推定する雑音成分除去手段と、少なくと
も上記雑音成分除去手段で推定された音声の特徴量を用
いて、上記各要素毎に音声区間を検出する音声区間検出
手段とを具備して成る事を特徴とする音声区間検出方
式。
1. A first input unit for inputting a voice, and a first feature amount extraction unit for obtaining a feature amount composed of a plurality of elements of a first input signal obtained by the first input unit. ,
Second input means for inputting noise, second characteristic amount extraction means for obtaining a characteristic amount composed of a plurality of elements of the second input signal obtained by the second input means, and the first A noise component is removed from the first feature amount by using a coefficient calculation unit that calculates a coefficient for each element from the feature amount and the second feature amount, and the second feature amount and the coefficient. The noise component removing means for estimating the voice feature amount by the above, and the voice interval detecting means for detecting the voice interval for each of the elements using at least the voice feature amount estimated by the noise component removing means. A voice section detection method characterized by the following.
【請求項2】 音声を入力するための第1の入力手段
と、第1の入力手段で得られた第1の入力信号の複数の
要素から成る特徴量を求める第1の特徴量抽出手段と、
雑音を入力するための第2の入力手段と、第2の入力手
段で得られた第2の入力信号の複数の要素から成る特徴
量を求める第2の特徴量抽出手段と、上記第1の特徴量
と上記第2の特徴量とから各要素毎に係数の演算を行う
係数演算手段と、上記第2の特徴量と上記係数とを用い
て上記第1の特徴量から雑音成分を除去することにより
音声の特徴量を推定する雑音成分除去手段と、上記雑音
成分除去手段で推定された音声の特徴量を用いて音声の
大きさを求め、該音声の大きさから第1の音声区間を検
出する第1の音声区間検出手段と、上記第1の音声区間
検出手段で検出された第1の音声区間の前後にそれぞれ
予め定められた区間を付け加えた区間で、少なくとも上
記雑音成分除去手段で推定された音声の特徴量を用い
て、上記各要素毎に第2の音声区間を検出する第2の音
声区間検出手段とを具備して成る事を特徴とする音声区
間検出方式。
2. A first input unit for inputting a voice, and a first feature amount extraction unit for obtaining a feature amount composed of a plurality of elements of the first input signal obtained by the first input unit. ,
Second input means for inputting noise, second characteristic amount extraction means for obtaining a characteristic amount composed of a plurality of elements of the second input signal obtained by the second input means, and the first A noise component is removed from the first feature amount by using a coefficient calculation unit that calculates a coefficient for each element from the feature amount and the second feature amount, and the second feature amount and the coefficient. By using the noise component removing means for estimating the voice feature amount, the voice volume is obtained using the voice feature amount estimated by the noise component removing means, and the first voice segment is obtained from the voice volume. First voice section detecting means for detecting, and a section obtained by adding a predetermined section before and after the first voice section detected by the first voice section detecting means, at least by the noise component removing means. For each of the above elements, using the estimated voice features VAD method, characterized in that formed by and a second voice activity detection means for detecting a second audio segment.
【請求項3】 音声を入力するための第1の入力手段
と、第1の入力手段で得られた第1の入力信号の複数の
要素から成る特徴量を求める第1の特徴量抽出手段と、
雑音を入力するための第2の入力手段と、第2の入力手
段で得られた第2の入力信号の複数の要素から成る特徴
量を求める第2の特徴量抽出手段と、上記第1の特徴量
と上記第2の特徴量とから各要素毎に係数の演算を行う
係数演算手段と、上記第2の特徴量と上記係数とを用い
て上記第1の特徴量から雑音成分を除去することにより
音声の特徴量を推定する雑音成分除去手段と、少なくと
も、上記第1の信号の大きさと上記第2の信号の大きさ
を用いて第1の音声区間を検出する第1の音声区間検出
手段と、上記第1の音声区間検出手段で検出された第1
の音声区間の前後にそれぞれ予め定められた区間を付け
加えた区間で、少なくとも上記雑音成分除去手段で推定
された音声の特徴量を用いて、上記各要素毎に第2の音
声区間を検出する第2の音声区間検出手段とを具備して
成る事を特徴とする音声区間検出方式。
3. A first input unit for inputting a voice, and a first feature amount extraction unit for obtaining a feature amount consisting of a plurality of elements of the first input signal obtained by the first input unit. ,
Second input means for inputting noise, second characteristic amount extraction means for obtaining a characteristic amount composed of a plurality of elements of the second input signal obtained by the second input means, and the first A noise component is removed from the first feature amount by using a coefficient calculation unit that calculates a coefficient for each element from the feature amount and the second feature amount, and the second feature amount and the coefficient. Noise component removing means for estimating the feature quantity of the voice, and first voice section detection for detecting the first voice section using at least the magnitude of the first signal and the magnitude of the second signal. Means and a first voice section detected by the first voice section detection means.
A second voice section is detected for each of the above elements by using at least the feature amount of the voice estimated by the noise component removing means in a section in which a predetermined section is added before and after the voice section. 2. A voice section detection method, characterized in that it comprises two voice section detection means.
【請求項4】 請求項1記載の音声区間検出方式であっ
て、更に、上記雑音成分除去手段は、雑音成分を除去す
るための係数を上記各要素毎に保持し、該各要素毎の係
数は、上記音声区間検出手段における対応する各要素毎
の音声区間に関する情報に基づいて更新される事を特徴
とする音声区間検出方式。
4. The voice section detection method according to claim 1, wherein the noise component removing means holds a coefficient for removing a noise component for each element, and a coefficient for each element. Is a voice section detection method which is updated based on information about the voice section for each corresponding element in the voice section detecting means.
【請求項5】 請求項2、又は、3記載の音声区間検出
方式であって、更に、上記雑音成分除去手段は、雑音成
分を除去するための係数を上記各要素毎に保持し、該各
要素毎の係数は、上記第2の音声区間検出手段における
対応する各要素毎の音声区間に関する情報に基づいて更
新される事を特徴とする音声区間検出方式。
5. The voice section detection method according to claim 2 or 3, wherein said noise component removing means holds a coefficient for removing a noise component for each element, The coefficient for each element is updated based on the information about the corresponding speech section for each element in the second speech section detecting means.
【請求項6】 請求項1記載の音声区間検出方式であっ
て、更に、上記音声区間検出手段は、上記各要素毎の音
声区間を検出するための閾値を保持し、該各要素毎の閾
値は、上記音声区間検出手段における対応する各要素毎
の音声区間に関する情報に基づいて更新される事を特徴
とする音声区間検出方式。
6. The voice section detection method according to claim 1, wherein the voice section detecting means further holds a threshold for detecting a voice section for each element, and the threshold for each element. Is a voice section detection method which is updated based on information about the voice section for each corresponding element in the voice section detecting means.
【請求項7】 請求項2、又は、3記載の音声区間検出
方式であって、更に、上記第2の音声区間検出手段は、
上記各要素毎の第2の音声区間を検出するための閾値を
保持し、該各要素毎の閾値は、対応する第2の各要素毎
の音声区間に関する情報に基づいて更新される事を特徴
とする音声区間検出方式。
7. The voice section detection method according to claim 2 or 3, wherein the second voice section detection means further comprises:
A threshold for detecting the second voice section for each element is held, and the threshold for each element is updated based on information about the corresponding second voice section for each element. Voice section detection method.
【請求項8】 請求項1又は2又は3記載の音声区間検
出方式であって、上記係数演算手段は、上記第1の特徴
量または上記第2の特徴量の各要素が大きい場合には、
対応する係数の値を上記第1の特徴量の対応する要素と
上記第2の特徴量の対応する要素の比の値、又は、該値
に近い値とし、上記第1の特徴量または上記第2の特徴
量の各要素が小さい場合には、対応する係数の値を予め
定められた値、又は、該値に近い値とすることを特徴と
する音声区間検出方式。
8. The voice section detection method according to claim 1, 2 or 3, wherein the coefficient calculation means is such that when each element of the first characteristic amount or the second characteristic amount is large,
The value of the corresponding coefficient is set to the value of the ratio between the corresponding element of the first feature quantity and the corresponding element of the second feature quantity or a value close to the value, and the first feature quantity or the first feature quantity is set. A method of detecting a voice segment, characterized in that when each element of the feature amount 2 is small, the value of the corresponding coefficient is set to a predetermined value or a value close to the predetermined value.
【請求項9】 請求項8記載の音声区間検出方式であっ
て、更に、上記係数演算手段は、上記第1の特徴量の各
要素X(i)、上記第2の特徴量の対応する要素N
(i)に対して、対応する係数k(i)の値を、 k(i)=〔X(i)+C〕/〔N(i)+C〕 (C=定数>0) とすることを特徴とする音声区間検出方式。
9. The voice section detection method according to claim 8, wherein the coefficient calculation means further includes each element X (i) of the first feature quantity and a corresponding element of the second feature quantity. N
For (i), the value of the corresponding coefficient k (i) is set to k (i) = [X (i) + C] / [N (i) + C] (C = constant> 0) Voice section detection method.
【請求項10】 請求項8記載の音声区間検出方式であ
って、更に、上記係数演算手段は、上記第1の特徴量の
各要素X(i)、上記第2の特徴量の対応する要素N
(i)に対して、対応する係数k(i)の値を、 k(i)=〔X(i)+C1〕/〔N(i)+C2〕 (C1,C2=定数>0) とすることを特徴とする音声区間検出方式。
10. The voice activity detection method according to claim 8, wherein the coefficient calculation means further includes each element X (i) of the first feature quantity and a corresponding element of the second feature quantity. N
For (i), the value of the corresponding coefficient k (i) is k (i) = [X (i) + C 1 ] / [N (i) + C 2 ] (C 1 , C 2 = constant> 0 ) Is a voice section detection method.
【請求項11】 請求項1乃至10のいずれか1に記載
の音声区間検出方式であって、更に、音声を入力するた
めの第1の入力手段と雑音を入力するための第2の入力
手段とはいずれもマイクロフォンであることを特徴とす
る音声区間検出方式。
11. The voice section detection method according to claim 1, further comprising a first input means for inputting voice and a second input means for inputting noise. Is a voice section detection method characterized in that both are microphones.
【請求項12】 請求項1乃至10のいずれか1に記載
の音声区間検出方式であって、更に、音声を入力するた
めの第1の入力手段はマイクロフォンであり、雑音を入
力するための第2の入力手段は上記マイクロフォンの付
近におかれたスピーカであり、該スピーカから再生され
る音響信号を入力とすることを特徴とする音声区間検出
方式。
12. The voice section detection system according to claim 1, further comprising a microphone as a first input means for inputting voice, and a first input means for inputting noise. The second input means is a speaker placed in the vicinity of the microphone, and a sound signal reproduced from the speaker is input to the voice section detection method.
【請求項13】 請求項請求項1乃至12のいずれか1
に記載の音声区間検出方式を用いて得られた音声の特徴
量から入力された音声の入力パターンを作成する入力パ
ターン生成部と、予め登録された音声の標準パターンを
記憶する標準パターンメモリと、上記入力パターンと上
記標準パターンとで認識処理を行なう認識部とを具備し
て成ることを特徴とする音声認識装置。
13. The method according to any one of claims 1 to 12.
An input pattern generation unit that creates an input pattern of a voice input from the feature amount of the voice obtained by using the voice section detection method described in (1), and a standard pattern memory that stores a standard pattern of a voice registered in advance, A voice recognition device comprising a recognition unit that performs a recognition process using the input pattern and the standard pattern.
JP03166391A 1990-08-15 1991-06-11 Voice section detection method and voice recognition device Expired - Fee Related JP3118023B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03166391A JP3118023B2 (en) 1990-08-15 1991-06-11 Voice section detection method and voice recognition device

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP2-215197 1990-08-15
JP21519790 1990-08-15
JP21519690 1990-08-15
JP2-215196 1990-08-15
JP12495391 1991-04-25
JP3-124953 1991-04-25
JP03166391A JP3118023B2 (en) 1990-08-15 1991-06-11 Voice section detection method and voice recognition device

Publications (2)

Publication Number Publication Date
JPH056193A true JPH056193A (en) 1993-01-14
JP3118023B2 JP3118023B2 (en) 2000-12-18

Family

ID=27471074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03166391A Expired - Fee Related JP3118023B2 (en) 1990-08-15 1991-06-11 Voice section detection method and voice recognition device

Country Status (1)

Country Link
JP (1) JP3118023B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005539413A (en) * 2002-05-03 2005-12-22 ハーマン インターナショナル インダストリーズ インコーポレイテッド Sound detection and specific system
JP2008216618A (en) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd Speech discrimination device
JP2009503568A (en) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド Steady separation of speech signals in noisy environments
WO2011070972A1 (en) * 2009-12-10 2011-06-16 日本電気株式会社 Voice recognition system, voice recognition method and voice recognition program
WO2012036305A1 (en) * 2010-09-17 2012-03-22 日本電気株式会社 Voice recognition device, voice recognition method, and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005539413A (en) * 2002-05-03 2005-12-22 ハーマン インターナショナル インダストリーズ インコーポレイテッド Sound detection and specific system
JP2011022602A (en) * 2002-05-03 2011-02-03 Harman Internatl Industries Inc Sound detection and localization system
JP2009503568A (en) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド Steady separation of speech signals in noisy environments
JP2008216618A (en) * 2007-03-05 2008-09-18 Fujitsu Ten Ltd Speech discrimination device
WO2011070972A1 (en) * 2009-12-10 2011-06-16 日本電気株式会社 Voice recognition system, voice recognition method and voice recognition program
JPWO2011070972A1 (en) * 2009-12-10 2013-04-22 日本電気株式会社 Speech recognition system, speech recognition method, and speech recognition program
JP5621783B2 (en) * 2009-12-10 2014-11-12 日本電気株式会社 Speech recognition system, speech recognition method, and speech recognition program
US9002709B2 (en) 2009-12-10 2015-04-07 Nec Corporation Voice recognition system and voice recognition method
WO2012036305A1 (en) * 2010-09-17 2012-03-22 日本電気株式会社 Voice recognition device, voice recognition method, and program

Also Published As

Publication number Publication date
JP3118023B2 (en) 2000-12-18

Similar Documents

Publication Publication Date Title
KR100745977B1 (en) Apparatus and method for voice activity detection
CN112037816B (en) Correction, howling detection and suppression method and device for frequency domain frequency of voice signal
WO2015085946A1 (en) Voice signal processing method, apparatus and server
JP5614767B2 (en) Audio processing device
WO2017045512A1 (en) Voice recognition method and apparatus, terminal, and voice recognition device
EP3428918B1 (en) Pop noise control
JPH056193A (en) Voice section detecting system and voice recognizing device
CN111951818B (en) Dual-microphone voice enhancement method based on improved power difference noise estimation algorithm
EP1575034A1 (en) Input sound processor
JP2000250568A (en) Voice section detecting device
JP3135937B2 (en) Noise removal device
JPH04184400A (en) Noise removing device
US8615075B2 (en) Method and apparatus for removing noise signal from input signal
JP2859634B2 (en) Noise removal device
JPH04238399A (en) Voice recognition device
JPH03122699A (en) Noise removing device and voice recognition device using same device
JP3761497B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
KR102167469B1 (en) Feedback processing apparatus
JP3091244B2 (en) Noise removal device and speech recognition device
JPH0424692A (en) Voice section detection system
JP2966452B2 (en) Noise reduction system for speech recognizer
CN106782587B (en) Sound masking device and sound masking method
JPH09198079A (en) Voice recognition device
JPH0461359B2 (en)
JP3342740B2 (en) Speech recognition device used in noisy environment

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071006

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081006

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081006

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091006

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees