JPH09146586A - Voice recognition device - Google Patents

Voice recognition device

Info

Publication number
JPH09146586A
JPH09146586A JP7301549A JP30154995A JPH09146586A JP H09146586 A JPH09146586 A JP H09146586A JP 7301549 A JP7301549 A JP 7301549A JP 30154995 A JP30154995 A JP 30154995A JP H09146586 A JPH09146586 A JP H09146586A
Authority
JP
Japan
Prior art keywords
voice
voiced
energy
recognition device
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7301549A
Other languages
Japanese (ja)
Other versions
JP3493849B2 (en
Inventor
Katsuki Minamino
活樹 南野
Masao Watari
雅男 渡
Kazuo Ishii
和夫 石井
Hiroshi Tsunoda
弘史 角田
Hiroaki Ogawa
浩明 小川
Masanori Omote
雅則 表
Hitoshi Honda
等 本田
Satoshi Fujimura
聡 藤村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP30154995A priority Critical patent/JP3493849B2/en
Publication of JPH09146586A publication Critical patent/JPH09146586A/en
Application granted granted Critical
Publication of JP3493849B2 publication Critical patent/JP3493849B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To reduce the effect of background noise itself and to prevent the deterioration of recognition function by urging user of a voice recognition device to utter in a loud voice in accordance with the observed loudness of background noise. SOLUTION: After sound analysis of inputted unknown voice signals, each word in a given dictionary is scored concerning the distance, occurrence probability, etc., in response to its recognition technique using the parameters obtained by leaning to select the word having obtained the highest score as the result of recognition. Commands are given so that the result is transmitted to the output section to be displayed on the screen, outputted in the form of sound and furthermore, used to actuate other device. The background noise observing section 26 calculates the mean value and standard deviation of the energy of background noise to judge whether the voice enough to satisfy a threshold is inputted or not. If not, the result is transmitted to the warning section 27, which warns the user to make the energy of the inputted signal satisfy the threshold.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声認識装置にお
いて、背景雑音の大きさに応じて、ユーザーに大きな声
で発声するように促す方式に関するものである。また、
本発明は、音声認識の分野に関するものである。音声認
識の技術は、機器の操作を音声で行なう場合や、キーボ
ードなどにかわる入力手段として音声を用いる場合、さ
らにはロボットやその他のシステムと人間とのインター
フェースの手段として用いられる。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method of urging a user to speak loudly in a voice recognition device according to the magnitude of background noise. Also,
The present invention relates to the field of speech recognition. The technology of voice recognition is used when a device is operated by a voice, when a voice is used as an input means in place of a keyboard or the like, and as a means for an interface between a robot or another system and a human.

【0002】[0002]

【従来の技術】音声認識の技術としては、DPマッチン
グと呼ばれるパターンマッチングの手法や、HMM(Hid
den Markov Model) 方式と呼ばれる確率的な手法がこれ
まで広く用いられてきている。ここで、DPマッチング
とは、認識対象となる候補ワードに対応した標準パター
ンをあらかじめ作成しておき、入力音声信号を分析して
得られる特徴量パターンと全標準パターンとの時間軸の
対応を取りながらマッチングさせる( 距離計算を行な
う) ことで、最も類似したものを選び出すという方式で
ある。
2. Description of the Related Art As a voice recognition technique, a pattern matching technique called DP matching or an HMM (Hid
The stochastic method called den Markov Model) has been widely used so far. Here, in DP matching, a standard pattern corresponding to a candidate word to be recognized is created in advance, and a feature amount pattern obtained by analyzing an input voice signal and all standard patterns are associated with each other on the time axis. While matching (calculating the distance), the most similar one is selected.

【0003】また、HMM方式とは、いくつかの状態と
その状態遷移時におけるシンボル出力確率を有するマル
コフ・モデルを用いて認識対象となる候補ワードに対応
した確率モデルをあらかじめ作成しておき、入力音声信
号を分析して得られる特徴量系列が生起する確率を各モ
デルから求めることで、最も生起確率の高いものを選び
出すという方式である。連続音声認識においては、DPマ
ッチングやHMM 方式に加え、文法や語の意味的なつなが
りなどを用い、入力信号に対応するワードの並びが決定
される。
In the HMM method, a probabilistic model corresponding to a candidate word to be recognized is created in advance by using a Markov model having some states and symbol output probabilities at the time of transition of the states, and the input is input. This is a method in which the probability of occurrence of a feature amount sequence obtained by analyzing a voice signal is obtained from each model and the one with the highest occurrence probability is selected. In continuous speech recognition, the word sequence corresponding to the input signal is determined using grammar and semantic connections of words in addition to the DP matching and HMM methods.

【0004】[0004]

【発明が解決しようとする課題】さて、このような音声
認識は、様々な環境下で使われる可能性があり、その背
景雑音が認識性能の劣化要因になることがしばしばあ
る。特に、背景雑音が入力音声に重畳された場合、入力
信号を音響分析して得られる特徴量が大きく変化してし
まい、標準パターンや確率モデルから大きく離れたもの
となるため認識できないという問題が発生する。
Now, such speech recognition may be used in various environments, and its background noise is often a factor of deteriorating recognition performance. In particular, when background noise is superimposed on the input speech, the feature amount obtained by acoustic analysis of the input signal changes significantly, and it becomes far from the standard pattern or probabilistic model, which causes a problem that it cannot be recognized. To do.

【0005】これを回避するために、スペクトルサブト
ラクションと呼ばれるノイズ除去方式や、複数マイクを
用いた適応処理方式などが、これまでに提案されてい
る。これらは、入力信号中に含まれる雑音を除去するこ
とを目的としたものであるが、雑音によって既に影響を
受けている音声信号から、雑音を除去することは非常に
困難な問題である。
In order to avoid this, a noise removal method called spectrum subtraction and an adaptive processing method using a plurality of microphones have been proposed so far. These are intended to remove the noise contained in the input signal, but it is a very difficult problem to remove the noise from the speech signal already affected by the noise.

【0006】本発明は、背景雑音の大きさを観測し、そ
の大きさに応じて、ユーザーに大きな声で発声するよう
に促すことを目的とする、つまり、ユーザーに大きな声
を出すように促すことで、背景雑音の影響そのものを低
減させ、その結果、認識性能の劣化を防ぐことを目指す
ものである。
An object of the present invention is to observe the magnitude of background noise and urge the user to speak loudly according to the magnitude of the background noise, that is, urge the user to speak loudly. The purpose of this is to reduce the influence of background noise itself, and as a result, prevent deterioration of recognition performance.

【0007】[0007]

【課題を解決するための手段】本発明による音声認識装
置は、音声信号の入力部と、入力信号を分析し特徴量を
抽出する音響分析部と、学習過程においては、あらかじ
め学習用のデータを分析して得られた特徴量をもとにし
て、認識に用いるためのパラメータを求め、このパラメ
ータを記憶しておくパラメータ記憶部と、入力信号を分
析して得られた特徴量と記憶しておいたパラメータとか
ら、距離や生起確率などに基づいたスコア付けを行なう
ことで、入力信号に対応する単語、あるいは単語の並び
を決定する認識部と、入力音声信号のエネルギーを算出
し、入力音声信号のエネルギーが所定のしきい値より小
さいか否かを判定する判定部と、入力音声信号のエネル
ギーがしきい値より小さいと判断された場合に、大きな
声で入力するようにユーザに警告を行なう警告部と、か
らなることを特徴としている。また、判定部は、しきい
値を背景雑音のエネルギーの平均値と標準偏差に応じて
変動させることを特徴としている。さらに、本発明によ
る音声認識装置の判定部は、背景雑音のエネルギーの平
均値と標準偏差を求める際、有音声・無音声の識別結果
をもとに、無音声部分と判定された入力信号を用いて、
逐次的に更新していくことを特徴としている。さらに、
本発明による音声認識装置の判定部は、無音声部分の平
均スペクトルやエネルギーの平均値と標準偏差などを更
新する条件として、有音声・無音声の識別結果をもと
に、一定時間以上、有音声と判定されつづけた場合に、
強制的に更新することを特徴としている。また、本発明
による音声認識装置の判定部は、有音声・無音声を識別
するために入力信号のエネルギーを用い、所定のしきい
値より大きくなれば有音声、それ以外は無音声とするこ
とを特徴としている。
A speech recognition apparatus according to the present invention comprises a speech signal input section, an acoustic analysis section for analyzing the input signal and extracting a feature amount, and learning data in advance in the learning process. Based on the feature amount obtained by the analysis, the parameter to be used for recognition is obtained, and the parameter storage unit for storing this parameter and the feature amount obtained by analyzing the input signal are stored. By scoring based on the distance and the occurrence probability from the set parameters, the recognition unit that determines the word or the sequence of words corresponding to the input signal, the energy of the input voice signal is calculated, and the input voice signal is calculated. A determination unit that determines whether or not the energy of the signal is lower than a predetermined threshold value, and if the energy of the input voice signal is determined to be lower than the threshold value, input a loud voice. A warning unit that performs a warning to the user, and characterized in that it consists of. Further, the determination unit is characterized in that the threshold value is changed according to the average value and the standard deviation of the background noise energy. Furthermore, the determination unit of the voice recognition device according to the present invention, when obtaining the average value and the standard deviation of the energy of the background noise, determines the input signal determined as the non-voiced portion based on the discrimination result of voiced / unvoiced. make use of,
The feature is that it is updated sequentially. further,
The determination unit of the voice recognition device according to the present invention, as a condition for updating the average spectrum of the unvoiced portion, the average value of the energy and the standard deviation, etc. If it continues to be judged as voice,
It is characterized by forcibly updating. Further, the determination unit of the voice recognition device according to the present invention uses the energy of the input signal in order to discriminate between voiced and non-voiced voices, and if there is a predetermined threshold value or more, it is voiced, and otherwise it is voiced Is characterized by.

【0008】[0008]

【発明の実施の形態】以下図面について、本発明の一実
施例を詳述する。まず、音声認識に関して簡単に説明
し、次に、本発明のシステム構成、およびその動作に関
して詳しく説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below in detail with reference to the drawings. First, the speech recognition will be briefly described, and then the system configuration and the operation of the present invention will be described in detail.

【0009】(a)音声認識 音声認識は、図1に示されるような入力部11、音響分
析部12、認識部13、パラメータ記憶部14、出力部
15から構成されることが多い。入力部1−1とは、マ
イクなどの音声信号を入力する装置とその入力信号を増
幅するアンプ、およびデジタル信号に変換するAD変換
器などによって構成される。そして、入力信号を(例え
ば、12 kHz で)サンプリングした後、音響分析部1
2へ送信する。
(A) Speech recognition Speech recognition is often composed of an input unit 11, an acoustic analysis unit 12, a recognition unit 13, a parameter storage unit 14, and an output unit 15 as shown in FIG. The input unit 1-1 is configured by a device such as a microphone that inputs a sound signal, an amplifier that amplifies the input signal, and an AD converter that converts the input signal into a digital signal. Then, after sampling the input signal (for example, at 12 kHz), the acoustic analysis unit 1
Send to 2.

【0010】音響分析部12では、入力された音声信号
から認識に必要な特徴量の抽出を行なう。例えば、単純
な信号のエネルギーや零交差数、ピッチなどの抽出を行
なったり、線形予測分析(LPC)、高速フーリエ変換
(FFT)、バンドパスフィルター(BPF)、さらに
はWavlet変換などによって周波数分析を行なった
りする。そして、例えば帯域分割されたエネルギーなど
を要素とするベクトル時系列として、特徴量の抽出を行
なったりする。また、その特徴量の変化量として、例え
ば差分データも特徴量の一つとして同時に抽出すること
もある。こうして得られた特徴量に対し、KL変換や、
ニューラルネットワークなどの適当な写像を施すこと
で、分離度の大きな特徴量にさらに変換する場合もあ
る。また、ベクトル量子化などにより、特徴量ベクトル
を圧縮し、量子化された特徴量に変換する場合もある。
いずれにしても、音響分析部12では、認識に必要な特
徴量を入力された音声信号から抽出し、これを認識部1
3に送信する。
The acoustic analysis unit 12 extracts a feature amount necessary for recognition from the input voice signal. For example, simple signal energy, number of zero crossings, pitch, etc. are extracted, and frequency analysis is performed by linear predictive analysis (LPC), fast Fourier transform (FFT), bandpass filter (BPF), and wavelet transform. Do it. Then, for example, the feature quantity is extracted as a vector time series having elements such as band-divided energy. Further, as the amount of change in the feature amount, for example, difference data may be simultaneously extracted as one of the feature amounts. KL conversion, or
In some cases, a suitable mapping such as a neural network may be applied to further convert to a feature amount having a high degree of separation. Further, the feature quantity vector may be compressed by vector quantization or the like and converted into a quantized feature quantity.
In any case, the acoustic analysis unit 12 extracts a feature amount necessary for recognition from the input voice signal, and the extracted feature amount is used by the recognition unit 1
Send to 3.

【0011】認識部13では、あらかじめ学習用の音声
データを音響分析して得られる特徴量をもとに作成して
おいたパラメータ14を用いて、未知音声データに対す
る認識処理を行なう。ここで、認識とは、入力された音
声信号に対して、与えられた認識辞書の中から、入力に
対応したワードを選び出すことである。そして、そのた
めの認識手法としては、主なものとして、DPマッチン
グ、ニューラルネットワーク、HMMなどを用いたもの
が使われる。
The recognition unit 13 performs recognition processing for unknown voice data by using the parameter 14 created in advance based on the feature amount obtained by acoustically analyzing the voice data for learning. Here, the recognition is to select a word corresponding to the input from the given recognition dictionary for the input voice signal. As a recognition method for that purpose, a method using DP matching, a neural network, an HMM, etc. is mainly used.

【0012】DPマッチングは、各音声信号を分析して
得られる特徴量からテンプレートと呼ばれる標準パター
ンをあらかじめパラメータとして求めておき、未知音声
の特徴量と比較して最も近いと判定されるものを見つけ
るという方式である。発話速度の変動を吸収するため、
dynamic time warpingと呼ばれる手法により、テンプレ
ートとの歪みを最小化するように時間軸の伸縮を行なう
方法がよく用いられる。
In DP matching, a standard pattern called a template is obtained in advance as a parameter from the feature amount obtained by analyzing each voice signal, and the one that is judged to be the closest to the feature amount of the unknown voice is found. Is the method. In order to absorb the fluctuation of speech rate,
A method called dynamic time warping is often used to expand or contract the time axis so as to minimize distortion with the template.

【0013】ニューラルネットワークは、人間の脳の構
造を模倣するネットワークモデルによって認識を行なお
うとするもので、学習過程によりあらかじめパスの重み
係数をパラメータとして決定しておき、そのネットワー
クに未知音声の特徴量を入力して得られる出力をもと
に、辞書内の各ワードとの距離を求め、認識ワードを決
定しようとするものでる。また、HMMは、確率モデル
により認識を行なおうとするもので、あらかじめ状態遷
移モデルに対して、その遷移確率と出力シンボル確率を
学習データをもとに決定しておき、未知音声の特徴量に
対する各モデルの生起確率から認識ワードの決定を行な
おうとする方式である。
The neural network is intended to be recognized by a network model that mimics the structure of the human brain, and the weighting coefficient of the path is determined in advance as a parameter in the learning process, and the characteristics of unknown speech are added to the network. Based on the output obtained by inputting the quantity, the distance to each word in the dictionary is calculated and the recognition word is decided. In addition, the HMM attempts to perform recognition using a probabilistic model. For the state transition model, the transition probability and the output symbol probability are previously determined based on the learning data, and the feature amount of the unknown speech is calculated. In this method, the recognition word is decided based on the occurrence probability of each model.

【0014】以上述べたように、一般に、認識処理とし
ては、学習過程として、あらかじめ学習用データから決
定されたパラメータ(テンプレートや、ネットワークモ
デルの重み係数、確率モデルの統計的パラメータなど)
を求めておき、これをパラメータ記憶部14に記憶して
おく。そして、認識過程では、入力された未知音声信号
を音響分析12した後、学習で得られたパラメータ14
を用いて、与えられた辞書の中のワードそれぞれに対し
て、その認識手法に応じた距離や生起確率などのスコア
付けを行ない、そのスコアが最も高いもの(あるいは、
上位複数個)を認識結果として選び出すということを行
なう。そして、得られた認識結果を出力部15に送信す
る。出力部15では、送信されてきた認識結果を画面に
表示したり、音として出力したり、さらには、その認識
結果を用いて、他の装置を動作させたりなどの指令を行
なう。
As described above, generally, in the recognition process, the parameters (templates, weighting factors of the network model, statistical parameters of the probabilistic model, etc.) determined in advance from the learning data are used as the learning process.
Is calculated and stored in the parameter storage unit 14. Then, in the recognition process, after the acoustic analysis 12 of the input unknown voice signal, the parameter 14 obtained by learning is analyzed.
Is used to score each word in the given dictionary such as distance and occurrence probability according to its recognition method, and the one with the highest score (or
The top two or more) are selected as recognition results. Then, the obtained recognition result is transmitted to the output unit 15. The output unit 15 issues a command such as displaying the transmitted recognition result on the screen, outputting as a sound, and using the recognition result to operate another device.

【0015】以上は、単語音声認識に関して簡単に説明
したものであるが、連続音声認識の場合は、パラメータ
記憶部14に、言語の文法やワードの意味的な接続関係
なども記憶しておき、それらの制限を用いながら、入力
音声信号に対応する連続したワードの並びが認識部13
において決定され、その認識結果が出力部15に送信さ
れることになる。
The above is a brief description of word speech recognition, but in the case of continuous speech recognition, the parameter storage unit 14 also stores the grammar of the language, the semantic connection of words, and the like. The sequence of consecutive words corresponding to the input voice signal is recognized by the recognition unit 13 while using these restrictions.
The recognition result is transmitted to the output unit 15.

【0016】(b)システムの構成 さて、上述したような音声認識の処理において、音響分
析部12から出力されるのは、入力音声信号を所定の微
小時間間隔ごとに分析を行なって得られる特徴量の系列
である。学習時にも認識時にも、この特徴量系列が用い
られることになる。ここで問題となるのは、音響分析部
12において抽出される特徴量が、背景雑音の影響によ
り大きく変動してしまうということである。そこで、図
2に示されるような構成の音声認識装置を実現する。入
力部21、音響分析部22、認識部23、パラメータ記
憶部24、出力部25は、それぞれ図1のものと同じで
ある。これに、背景雑音観測部26と警告部27を組み
込む。
(B) System Configuration In the speech recognition processing as described above, what is output from the acoustic analysis unit 12 is a characteristic obtained by analyzing the input speech signal at every predetermined minute time interval. It is a series of quantities. This feature series is used both during learning and during recognition. The problem here is that the feature amount extracted by the acoustic analysis unit 12 varies greatly due to the influence of background noise. Therefore, a voice recognition device having a configuration as shown in FIG. 2 is realized. The input unit 21, the acoustic analysis unit 22, the recognition unit 23, the parameter storage unit 24, and the output unit 25 are the same as those in FIG. The background noise observation unit 26 and the warning unit 27 are incorporated in this.

【0017】背景雑音観測部26では、背景雑音のエネ
ルギーの平均値μと標準偏差σを計算する。この計算方
法に関しては後述する。そして、このμとσから、しき
い値rを決定する関数式(1)をあらかじめ定義する。
The background noise observing section 26 calculates the average value μ and the standard deviation σ of the background noise energy. This calculation method will be described later. Then, the functional expression (1) for determining the threshold value r is defined in advance from the μ and σ.

【0018】[0018]

【数1】 そして、入力信号のエネルギーeが式(2)を満たすか
どうかを判定する。
(Equation 1) Then, it is determined whether the energy e of the input signal satisfies the expression (2).

【0019】[0019]

【数2】 この判定結果が警告部27に送られる。例えば、式
(3)のように、背景雑音の平均エネルギーμに標準偏
差σのc倍を加えた値をしきい値rとして設定する。
(Equation 2) The determination result is sent to the warning unit 27. For example, as in the equation (3), a value obtained by adding the standard energy σ to the average energy μ of the background noise times c is set as the threshold r.

【0020】[0020]

【数3】 ただし、式(4)のように、上限値rmax と下限値r
min を設定しておく。
(Equation 3) However, as in equation (4), the upper limit value r max and the lower limit value r
Set min .

【数4】 そして、(2)式を満たすように音声が入力されたかど
うかを判定し、その結果を警告部27に送信する。
(Equation 4) Then, it is determined whether or not the voice is input so as to satisfy the expression (2), and the result is transmitted to the warning unit 27.

【0021】警告部27では、この判定結果をもとに、
入力信号のエネルギーeが(2)式を満たすように、ユ
ーザーに警告を行なう。例えば、ユーザーに分かるよう
にLEDを設置しておき、(2)式を満たす時だけLE
Dを点灯させたり、あるいは、図3のようなディスプレ
イ31を用意しておき、eの大きさに合わせてレベルメ
ータ33が変動するように表示し、さらに、しきい値r
に合わせて警告ライン32を表示する。つまり、ユーザ
ーは、LEDが点灯するように、あるいはレベルメータ
33が警告ライン32を超えるように発声することを要
求されることになる。
In the warning unit 27, based on this judgment result,
The user is warned so that the energy e of the input signal satisfies the expression (2). For example, the LED is installed so that the user can understand, and only when the formula (2) is satisfied, LE is set.
D is turned on, or a display 31 as shown in FIG. 3 is prepared, and the level meter 33 is displayed so as to change according to the size of e.
A warning line 32 is displayed in accordance with. That is, the user is required to speak so that the LED lights up or the level meter 33 crosses the warning line 32.

【0022】あるいはまた、判定式(2)を満たさない
ような発声に対しては、ユーザーに対して警告音を鳴ら
したり、警告メッセージの表示や応答を行なうようにし
てもよい。例えば、『もう少し大きな声で発声して下さ
い。』などのメッセージをユーザーに送るようにするな
どである。
Alternatively, for a utterance that does not satisfy the determination formula (2), a warning sound may be emitted to the user, or a warning message may be displayed or responded. For example, "Please speak a little louder. 』And so on to send a message to the user.

【0023】(c)背景雑音観測部 背景雑音観測部26の動作に関して詳しく説明したのが
図4である。まず、入力音声信号を所定の微小時間間隔
ごとに周波数分析(4−1)し、帯域分割されたエネル
ギーを要素とする特徴量ベクトル(以下、これを入力ス
ペクトルと呼ぶ)を求める。例えば、バンドパスフィル
ターを用いたり、FFTにより振幅特性を計算すること
で、各帯域のエネルギーを要素とする特徴量ベクトルが
一定時間間隔で得られる。これをXt と表す。Xt は式
(5)に示される様に、時刻tに観測されるn次元ベク
トルである。
(C) Background Noise Observing Section FIG. 4 is a detailed description of the operation of the background noise observing section 26. First, the input voice signal is frequency-analyzed (4-1) at every predetermined minute time interval, and a feature quantity vector (hereinafter, referred to as an input spectrum) having band-divided energy as an element is obtained. For example, by using a bandpass filter or calculating the amplitude characteristic by FFT, the feature quantity vector having the energy of each band as an element can be obtained at constant time intervals. This is represented as Xt. Xt is an n-dimensional vector observed at time t, as shown in equation (5).

【0024】[0024]

【数5】 また、Xt の各要素はエネルギーを表すことから、式
(6)を満たす。
(Equation 5) Further, since each element of X t represents energy, Expression (6) is satisfied.

【数6】 ここで、T は転置を表すものとする。なお、この周波数
分析は、音響分析部22の分析結果を用いてもよい。次
に、入力信号のエネルギーを式(7)に従って計算し、
(2)式が満たされるかどうかを判定する(4−2)。
(Equation 6) Here, T represents transposition. The frequency analysis may use the analysis result of the acoustic analysis unit 22. Then calculate the energy of the input signal according to equation (7),
It is determined whether the expression (2) is satisfied (4-2).

【0025】[0025]

【数7】 この結果は警告部27へ送信される。その後、背景雑音
の平均スペクトルV、およびエネルギーの平均値μと標
準偏差σの更新を行なう(4 3)。ここで、Vはn次
元ベクトル式(8)のように表される。
(Equation 7) The result is transmitted to the warning unit 27. Then, the average spectrum V of the background noise, and the average value μ of energy and the standard deviation σ are updated (43). Here, V is represented as an n-dimensional vector expression (8).

【0026】[0026]

【数8】 なお、これらのパラメータの更新方法に関しては、後に
詳細に述べるものとする。そして最後に、μ,σに応じ
て、式(2)によって、しきい値rを計算する(4−
4)。なお、時刻tにおいて、式(2)の判定に用いら
れるしきい値rは、時刻t−1に求められたものが用い
られることになる。
(Equation 8) The method of updating these parameters will be described later in detail. Then, finally, the threshold value r is calculated by the equation (2) according to μ and σ (4-
4). At the time t, the threshold value r used for the determination of the equation (2) is the one obtained at the time t-1.

【0027】(d)背景雑音の更新方法 つづいて、背景雑音の平均スペクトルVと、エネルギー
の平均値μ、標準偏差σの求め方に関して説明する。基
本的には、入力信号に対して有音声・無音声の識別を行
ない、無音声部分と判定された場合にだけ、式(9)に
従って更新を行なう。
(D) Method of Updating Background Noise Next, a method of obtaining the average spectrum V of background noise, the average value μ of energy, and the standard deviation σ will be described. Basically, the input signal is discriminated between voiced and non-voiced, and only when it is determined that there is no voiced portion, the update is performed according to the equation (9).

【0028】[0028]

【数9】 ここで、右辺のVは更新前の値、左辺のV は更新後の
値とする。また、α1,β1 は重み係数であり、式(1
0)の関係にある。
(Equation 9) Here, V on the right side is a value before updating, and V on the left side is a value after updating. Further, α 1 and β 1 are weighting factors, and
0).

【数10】 例えば、α1 =0.95,β1 =0.05などに設定す
る。βを大きくすることによって、より時間的に新しい
t をVに反映させることもできる。更新されたVを用
いて、背景雑音のエネルギー平均値は、式(11)のよ
うに表される。
(Equation 10) For example, α 1 = 0.95, β 1 = 0.05, etc. are set. It is also possible to reflect new X t in V more temporally by increasing β. Using the updated V, the energy average value of the background noise is expressed by equation (11).

【0029】[0029]

【数11】 また、分散を式(12)のように更新すれば、標準偏差
sigma が得られる。
[Equation 11] Also, if the variance is updated as in equation (12), the standard deviation
You get a sigma.

【数12】 ここで、右辺のσ2 は更新前の値、左辺のσ2 は更新後
の値であり、e,μはそれぞれ(7),(11)式によ
って求めたものとする。また、α2 ,β2 は重み係数で
あり、式(13)を満たすように設定される。
(Equation 12) Here, sigma 2 on the right side value before updating, the left side of the sigma 2 is the value after the update, e, mu, respectively (7), and that determined by (11). Further, α 2 and β 2 are weighting factors and are set so as to satisfy the equation (13).

【0030】[0030]

【数13】 以上の更新方法以外にも、更新すべきと判定された時刻
の入力スペクトルXtを、時刻の新しいものからm個だ
け常に保存しておき、その平均値を新たなVとして計算
することもできる。もちろん、エネルギー平均値μや標
準偏差σも容易に求まる。
(Equation 13) In addition to the updating method described above, it is also possible to always store m input spectra X t at the time determined to be updated, starting from the newest time, and calculate the average value as a new V. . Of course, the energy average value μ and the standard deviation σ can also be easily obtained.

【0031】ところで、上で述べたような更新方法だ
と、例えば、音声は入力されていないにもかかわらず、
環境が変動したために、誤って有音声と判定してしまっ
た場合など、背景雑音の平均スペクトルがいつまでも更
新されないままとなってしまう問題が生じる危険性があ
る。
By the way, with the updating method as described above, for example, although no voice is input,
There is a risk that the average spectrum of the background noise may remain unupdated if the voice is mistakenly determined to be voiced because the environment has changed.

【0032】そこで、環境の変動に対応させて、背景雑
音の平均スペクトルVを環境に追従させていく必要があ
るといえる。これを行なう一つの方法としては、入力さ
れる音声の最大の長さを推定しておき、有音声部分と判
定される時間があまり長過ぎる場合には、強制的にベク
トルVを更新するという方法が考えられる。つまり、連
続して有音声と判定される時間dをカウントしておき、
これがあるしきい値dmax を越えた場合であって、式
(14)が成り立つ場合には、たとえ有音声と判定され
ていても、強制的にV,μ,σを更新するようにすれば
よい。
Therefore, it can be said that it is necessary to make the average spectrum V of the background noise follow the environment in response to the environmental changes. One way to do this is to estimate the maximum length of the input voice and forcibly update the vector V if the time to be judged as a voiced part is too long. Can be considered. That is, the time d that is continuously determined to be voice is counted,
If this exceeds a certain threshold value dmax, and if the equation (14) is satisfied, V, μ, σ may be forcibly updated even if it is determined that there is voice. .

【0033】[0033]

【数14】 この時の更新方法は上に述べた通りである。以上述べた
ような背景雑音の更新方法に関してまとめたのが図5で
ある。あらためて説明しておくと、まず有音声・無音声
の判定5 1に基づいて、無音声と判定されればVの更
新を行なう(5−4)。それ以外の場合でも、判定式
(14)によって、連続する有音声部分の長さが長いと
判定された場合5−2には、Vの更新を行なう(5−
4)。このようにVを更新していくことで、環境の変動
にもある程度追従しながら、より新しい背景雑音の平均
スペクトルV、およびエネルギーの平均値μと標準偏差
σが求まることになる。
[Equation 14] The updating method at this time is as described above. FIG. 5 is a summary of the background noise updating method described above. To explain again, first, based on the judgment 51 of voiced / unvoiced, if it is judged that there is no voiced, V is updated (5-4). In other cases, if it is determined by the determination formula (14) that the length of the continuous voiced portion is long 5-2, V is updated (5-
4). By updating V in this way, a newer average spectrum V of background noise, and a new average value μ and standard deviation σ of energy can be obtained while following changes in the environment to some extent.

【0034】(e)有音声部分と無音声部分の識別方法 さて、背景雑音のスペクトルやエネルギーの更新におい
て重要となる、有音声・無音声の識別方法に関して簡単
に説明する。基本的には背景雑音と音声の周波数特性
(スペクトル)の違いに着目し、背景雑音の平均スペク
トルから遠いか近いかで、有音声・無音声の識別を行な
う。まず、入力スペクトルXt と背景雑音の平均スペク
トルVから、差分ベクトルV−Xt を求める。そして、
このベクトルV−Xt の大きさεが大きい場合には有音
声、小さい場合には無音声と判定する。すなわち、ある
しきい値r1 に対し、式(15)を満たせば有音声、満
たさなければ無音声と判定する。
(E) Discrimination Method of Voiced Part and Non-voiced Part Now, a voiced / unvoiced identification method, which is important in updating the spectrum and energy of background noise, will be briefly described. Basically, attention is paid to the difference between the frequency characteristics (spectrum) of background noise and voice, and the presence or absence of voice is discriminated according to whether it is far or near from the average spectrum of background noise. First, the difference vector V−X t is obtained from the input spectrum X t and the average spectrum V of the background noise. And
If the magnitude ε of the vector V−X t is large, it is determined that there is voice, and if it is small, it is determined that there is no voice. That is, with respect to a certain threshold value r 1 , it is determined that the voice is present if the equation (15) is satisfied, and the voice is not provided if the equation (15) is not satisfied.

【0035】[0035]

【数15】 (Equation 15)

【0036】ここで、εとしては、式(16),(1
7)等を用いることができる。
Here, as ε, equations (16), (1
7) etc. can be used.

【数16】 (Equation 16)

【数17】 また、分散を考慮に入れたマハラノビス(Mahalanobis)
距離などを用いてもよい。判定式(15)のしきい値r
1 に関しては、実験などを通して、適当と思われる値に
設定するのが望ましい。あるいは、判定式(2)で用い
られるrのように、背景雑音のエネルギーの平均値μや
標準偏差σに応じて、r1 を変動させてもよい。いずれ
にしても、Xt がVから大きく離れていれば有音声、X
t がVの近傍に存在すれば無音声と判定するようにすれ
ばよい。
[Equation 17] Also, Mahalanobis that takes dispersion into account
Distance or the like may be used. Threshold value r of judgment formula (15)
It is desirable to set 1 to a value that seems to be appropriate through experiments. Alternatively, r 1 may be varied according to the average value μ of the background noise energy and the standard deviation σ like r used in the determination formula (2). In any case, if X t is far away from V, voice, X
If t is in the vicinity of V, it may be determined that there is no voice.

【0037】また、有音声・無音声を識別する別の方法
として、単純に入力信号のエネルギーに応じて有音声部
分と無音声部分を判定する方法も考えられる。具体的に
は、入力信号のエネルギーeとあるしきい値r2 を比較
して、式(18)が成り立てば有音声、成り立たなけれ
ば無音声と判定する。
As another method for distinguishing between voiced and unvoiced voices, a method of simply determining the voiced voice portion and the voiceless voice portion according to the energy of the input signal can be considered. Specifically, the energy e of the input signal is compared with a certain threshold value r 2 , and it is determined that the voice is present if the equation (18) is satisfied, and is not voiced if the equation (18) is not satisfied.

【0038】[0038]

【数18】 が成り立てば有音声、成り立たなければ無音声と判定す
る。この場合も、しきい値r2 は、実験などを通して適
当と思われる値に設定するのが望ましい。あるいは、し
きい値rと同様にして、背景雑音のエネルギーの平均値
μや標準偏差σに応じて、r2 を変動させてもよい。さ
らにまた別の方法として、単位時間あたりに入力信号の
隣接するサンプルが正負の異なる符号の値をとる回数z
(これを零交差速度と呼ぶ)を計算し、あるしきい値r
3 と比較して式(19)が成り立てば有音声、それ以外
は無音声として判定することもできる。
(Equation 18) If is established, it is judged that there is voice, and if not, it is judged that there is no voice. Also in this case, it is desirable to set the threshold value r 2 to a value that is considered appropriate through experiments and the like. Alternatively, similarly to the threshold value r, r 2 may be changed according to the average value μ and the standard deviation σ of the background noise energy. As yet another method, the number of times z that adjacent samples of the input signal take different positive and negative sign values per unit time
(This is called the zero-crossing velocity) and a certain threshold r
If Expression (19) is satisfied as compared with 3 , it is possible to determine that there is voice and the others are silent.

【0039】[0039]

【数19】 なお、上記の判定式(15),(18),(19)を組
み合わせて識別することも可能である。もちろん、上記
以外の有音声・無音声の判定方式を用いることも可能で
ある。
[Equation 19] In addition, it is also possible to identify by combining the above determination expressions (15), (18), and (19). Of course, it is also possible to use a voiced / unvoiced determination method other than the above.

【0040】[0040]

【発明の効果】以上述べたように、背景雑音を観測し、
その大きさに応じて、ユーザーに大きな声で発声するよ
うに警告を行なえば、それに従ってユーザーが大きな声
で発声するようになり、その結果背景雑音の影響が低減
され、認識性能の劣化を防ぐことが可能となる。なお、
本発明はユーザーが大きな声で発声するように促すこと
を目的としており、有音声・無音声の識別結果から有音
声区間を抽出することを目的としているわけではないと
いう点で、従来から行なわれている音声区間検出とは大
きく異なるものである。
As described above, the background noise is observed,
If the user is warned to make a loud voice according to the loudness, the user will make a loud voice accordingly, and as a result, the influence of background noise is reduced and deterioration of recognition performance is prevented. It becomes possible. In addition,
The present invention is aimed at urging the user to utter a loud voice, and is not conventionally intended to extract a voiced section from a voiced / unvoiced discrimination result. This is very different from the voice section detection that is performed.

【図面の簡単な説明】[Brief description of the drawings]

【図1】図1は、音声認識装置の一般的な構成を示すブ
ロック図である。
FIG. 1 is a block diagram showing a general configuration of a voice recognition device.

【図2】図2は、本発明の音声認識装置の構成を示すブ
ロック図である。
FIG. 2 is a block diagram showing a configuration of a voice recognition device of the present invention.

【図3】図3は、警告部における表示例を示す図であ
る。
FIG. 3 is a diagram showing a display example in a warning unit.

【図4】図4は、背景雑音観測部の動作を説明するため
の図である。
FIG. 4 is a diagram for explaining an operation of a background noise observation unit.

【図5】図5は、背景雑音の更新方法を説明するための
図である。
FIG. 5 is a diagram for explaining a background noise updating method.

【符号の説明】[Explanation of symbols]

21 入力部、 22 音響分析部、 23 認識部、
24 パラメータ記憶部、 25 出力部、 26 背
景雑音観測部、27 警告部
21 input unit, 22 acoustic analysis unit, 23 recognition unit,
24 parameter storage unit, 25 output unit, 26 background noise observation unit, 27 warning unit

───────────────────────────────────────────────────── フロントページの続き (72)発明者 角田 弘史 東京都品川区北品川6丁目7番35号ソニー 株式会社内 (72)発明者 小川 浩明 東京都品川区北品川6丁目7番35号ソニー 株式会社内 (72)発明者 表 雅則 東京都品川区北品川6丁目7番35号ソニー 株式会社内 (72)発明者 本田 等 東京都品川区北品川6丁目7番35号ソニー 株式会社内 (72)発明者 藤村 聡 東京都品川区北品川6丁目7番35号ソニー 株式会社内 ─────────────────────────────────────────────────── ─── Continued Front Page (72) Hiroshi Tsunoda, 6-735 Kita-Shinagawa, Shinagawa-ku, Tokyo Sony Corporation (72) Hiroaki Ogawa 6-35, Kita-Shinagawa, Shinagawa-ku, Tokyo Sony Incorporated (72) Inventor table Masanori 6-735 Kita-Shinagawa, Shinagawa-ku, Tokyo Sony Inc. (72) Inventor Honda, etc. 6-7-35 Kitashinagawa, Shinagawa-ku, Tokyo Sony Inc. ( 72) Inventor Satoshi Fujimura 6-7-35 Kitashinagawa, Shinagawa-ku, Tokyo Sony Corporation

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 音声信号の入力部と、入力信号を分析
し特徴量を抽出する音響分析部と、学習過程において
は、あらかじめ学習用のデータを分析して得られた特徴
量をもとにして、認識に用いるためのパラメータを求
め、このパラメータを記憶しておくパラメータ記憶部
と、前記入力信号を分析して得られた特徴量と記憶して
おいた前記パラメータとから、距離や生起確率などに基
づいたスコア付けを行なうことで、入力信号に対応する
単語、あるいは単語の並びを決定する認識部と、からな
る音声認識装置において、 前記入力音声信号のエネルギーを算出し、前記入力音声
信号のエネルギーが所定のしきい値より小さいか否かを
判定する判定部と、 前記入力音声信号のエネルギーが前記しきい値より小さ
いと判断された場合に、大きな声で入力するようにユー
ザに警告を行なう警告部と、からなることを特徴とする
音声認識装置。
1. A voice signal input unit, an acoustic analysis unit that analyzes the input signal to extract a feature amount, and a learning process based on a feature amount obtained by analyzing learning data in advance. Then, the distance and the occurrence probability are obtained from the parameter storage unit that obtains a parameter to be used for recognition and stores this parameter, and the feature amount obtained by analyzing the input signal and the stored parameter. In a voice recognition device comprising a recognition unit that determines a word corresponding to an input signal or a sequence of words by performing scoring based on, for example, the energy of the input voice signal is calculated, and the input voice signal is calculated. Determination unit for determining whether the energy of the input sound signal is smaller than a predetermined threshold value, and when the energy of the input voice signal is determined to be smaller than the threshold value, a loud voice is output. Speech recognition device comprising a warning unit that performs a warning to the user so as to force, in that it consists of.
【請求項2】 前記判定部は、前記しきい値を背景雑
音のエネルギーの平均値と標準偏差に応じて変動させる
ことを特徴とする請求項1に記載の音声認識装置。
2. The voice recognition device according to claim 1, wherein the determination unit changes the threshold value according to an average value and a standard deviation of energy of background noise.
【請求項3】 前記判定部は、前記背景雑音のエネル
ギーの平均値と標準偏差を求める際、有音声・無音声の
識別結果をもとに、無音声部分と判定された入力信号を
用いて、逐次的に更新していくことを特徴とする請求項
2に記載の音声認識装置。
3. The determination unit uses an input signal determined to be a non-voice part based on a discrimination result of voiced / unvoiced when obtaining an average value and a standard deviation of energy of the background noise. The voice recognition device according to claim 2, wherein the voice recognition device is sequentially updated.
【請求項4】 前記判定部は、無音声部分の平均スペ
クトルやエネルギーの平均値と標準偏差などを更新する
条件として、有音声・無音声の識別結果をもとに、一定
時間以上、有音声と判定されつづけた場合に、強制的に
更新することを特徴とする請求項3に記載の音声認識装
置。
4. The determination unit uses, as a condition for updating an average spectrum of a voiceless portion, an average value of energy and a standard deviation, voiced voice for a certain time or more based on a voiced / unvoiced discrimination result. The voice recognition device according to claim 3, wherein the voice recognition device is forcibly updated when the determination is continued.
【請求項5】 前記判定部は、有音声・無音声を識別
するために入力信号のエネルギーを用い、所定のしきい
値より大きくなれば有音声、それ以外は無音声とするこ
とを特徴とする請求項3に記載の音声認識装置。
5. The determination unit uses the energy of an input signal to distinguish between voiced and non-voiced voices, and if the input signal energy is greater than a predetermined threshold value, the voiced voice is detected, and the rest is voiceless. The voice recognition device according to claim 3.
【請求項6】 前記判定部は、有音声・無音声を識別
するために入力信号の零交差速度を用い、所定のしきい
値より大きくなれば有音声、それ以外は無音声とするこ
とを特徴とする請求項3に記載の音声認識装置。
6. The determination unit uses the zero-crossing speed of the input signal to distinguish between voiced and non-voiced voices, and determines that the voiced voice is present if the input signal is greater than a predetermined threshold value, and the voice is not voiced otherwise. The speech recognition apparatus according to claim 3, wherein the speech recognition apparatus is a speech recognition apparatus.
【請求項7】 前記判定部は、有音声・無音声を識別
するために、入力信号を周波数分析して得られるスペク
トルを用い、無音声部分の平均スペクトルとの差が所定
のしきい値より大きくなれば有音声、それ以外は無音声
とすることを特徴とする請求項3の音声認識装置。
7. The determination unit uses a spectrum obtained by frequency-analyzing an input signal in order to discriminate between voiced voice and non-voiced voice, and a difference from an average spectrum of a voiceless voice is larger than a predetermined threshold value. 4. The voice recognition device according to claim 3, wherein the voice recognition device has a voice if the voice becomes louder and a voice is not voiced otherwise.
【請求項8】 前記判定部は、有音声・無音声を識別
するために、入力信号のエネルギー、零交差速度、およ
び入力信号を周波数分析して得られるスペクトルと無音
声部分の平均スペクトルとの差という3つの特徴量を組
み合わせて、有音声と無音声の識別を行なうことを特徴
とする請求項3に記載の音声認識装置。
8. The determination unit distinguishes between the energy of an input signal, a zero-crossing velocity, and a spectrum obtained by frequency-analyzing the input signal and an average spectrum of a non-voiced portion in order to distinguish between voiced and unvoiced speech. 4. The voice recognition device according to claim 3, wherein the voice recognition device distinguishes between voiced voice and non-voiced voice by combining three feature amounts of difference.
【請求項9】 前記判定部は、前記しきい値を背景雑
音のエネルギーの平均値と標準偏差に応じて変動させる
ことを特徴とする請求項5乃至8に記載の音声認識装
置。
9. The speech recognition apparatus according to claim 5, wherein the determination unit varies the threshold value according to an average value of energy of background noise and a standard deviation.
JP30154995A 1995-11-20 1995-11-20 Voice recognition device Expired - Fee Related JP3493849B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30154995A JP3493849B2 (en) 1995-11-20 1995-11-20 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30154995A JP3493849B2 (en) 1995-11-20 1995-11-20 Voice recognition device

Publications (2)

Publication Number Publication Date
JPH09146586A true JPH09146586A (en) 1997-06-06
JP3493849B2 JP3493849B2 (en) 2004-02-03

Family

ID=17898282

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30154995A Expired - Fee Related JP3493849B2 (en) 1995-11-20 1995-11-20 Voice recognition device

Country Status (1)

Country Link
JP (1) JP3493849B2 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069707A (en) * 2007-09-17 2009-04-02 Nippon Seiki Co Ltd Speech recognition device for vehicle
CN106796790A (en) * 2016-11-16 2017-05-31 深圳达闼科技控股有限公司 Method for distinguishing and correlation machine people's device are known in robot voice instruction
WO2017098775A1 (en) * 2015-12-11 2017-06-15 ソニー株式会社 Information processing device, information processing method, and program
CN108803690A (en) * 2017-04-27 2018-11-13 发那科株式会社 Numerical control device
CN111189915A (en) * 2020-01-13 2020-05-22 明君 Real-time judgment method for cavitation occurrence of hydraulic machine
CN114534130A (en) * 2020-11-25 2022-05-27 深圳市安联消防技术有限公司 Method for eliminating airflow noise of breathing mask

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009069707A (en) * 2007-09-17 2009-04-02 Nippon Seiki Co Ltd Speech recognition device for vehicle
WO2017098775A1 (en) * 2015-12-11 2017-06-15 ソニー株式会社 Information processing device, information processing method, and program
JPWO2017098775A1 (en) * 2015-12-11 2018-09-27 ソニー株式会社 Information processing apparatus, information processing method, and program
US11087775B2 (en) 2015-12-11 2021-08-10 Sony Corporation Device and method of noise suppression based on noise source positions
CN106796790A (en) * 2016-11-16 2017-05-31 深圳达闼科技控股有限公司 Method for distinguishing and correlation machine people's device are known in robot voice instruction
CN108803690A (en) * 2017-04-27 2018-11-13 发那科株式会社 Numerical control device
CN111189915A (en) * 2020-01-13 2020-05-22 明君 Real-time judgment method for cavitation occurrence of hydraulic machine
CN111189915B (en) * 2020-01-13 2022-08-19 明君 Real-time judgment method for cavitation generation of hydraulic machinery
CN114534130A (en) * 2020-11-25 2022-05-27 深圳市安联消防技术有限公司 Method for eliminating airflow noise of breathing mask

Also Published As

Publication number Publication date
JP3493849B2 (en) 2004-02-03

Similar Documents

Publication Publication Date Title
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
EP0625774B1 (en) A method and an apparatus for speech detection
KR100826875B1 (en) On-line speaker recognition method and apparatus for thereof
JP4911034B2 (en) Voice discrimination system, voice discrimination method, and voice discrimination program
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
US6553342B1 (en) Tone based speech recognition
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
JPH10133693A (en) Speech recognition device
JP5385876B2 (en) Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
KR100682909B1 (en) Method and apparatus for recognizing speech
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP4353202B2 (en) Prosody identification apparatus and method, and speech recognition apparatus and method
JP2001000007U (en) Voice recognition device
JP3493849B2 (en) Voice recognition device
JP3444108B2 (en) Voice recognition device
JP4839970B2 (en) Prosody identification apparatus and method, and speech recognition apparatus and method
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2000194392A (en) Noise adaptive type voice recognition device and recording medium recording noise adaptive type voice recognition program
JPS60114900A (en) Voice/voiceless discrimination
JPH05173592A (en) Method and device for voice/no-voice discrimination making
JP2006010739A (en) Speech recognition device
Adam et al. Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables
JP3900628B2 (en) Voice recognition device
JPH09160585A (en) System and method for voice recognition
JP3357752B2 (en) Pattern matching device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031021

LAPS Cancellation because of no payment of annual fees