JPH01255000A - Apparatus and method for selectively adding noise to template to be used in voice recognition system - Google Patents

Apparatus and method for selectively adding noise to template to be used in voice recognition system

Info

Publication number
JPH01255000A
JPH01255000A JP1048418A JP4841889A JPH01255000A JP H01255000 A JPH01255000 A JP H01255000A JP 1048418 A JP1048418 A JP 1048418A JP 4841889 A JP4841889 A JP 4841889A JP H01255000 A JPH01255000 A JP H01255000A
Authority
JP
Japan
Prior art keywords
noise
template
speech
signal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1048418A
Other languages
Japanese (ja)
Other versions
JP3046029B2 (en
Inventor
Jack E Porter
ジャック・エリオット・ポーター
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Standard Electric Corp
Original Assignee
International Standard Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Standard Electric Corp filed Critical International Standard Electric Corp
Publication of JPH01255000A publication Critical patent/JPH01255000A/en
Application granted granted Critical
Publication of JP3046029B2 publication Critical patent/JP3046029B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

PURPOSE: To obtain a speech recognition system adapted automatically to a noise environment by providing the device with a first means which applies a signal to indicate a noise signal and a means which is coupled to the first means and forms a template to be modulated according to the predicted noise signal in response with the predicted noise signal. CONSTITUTION: The central position of a switch 13 is a modulation template mode position and the output of a spectrum analyzer 12 enters as estimated value noise statistical module 162. The function of the module 162 is to basically execute a noise analysis or to estimate noise statistics by processing the noise. As a result, the template is formed by selectively adding the noise and the speech recognition is executed. Namely, the recognition is executed by changing over a switch 100 according to whether the template of the state having the noise or the template of the state having the noise of an extremely low level or having no noise. As a result, the use in the state having the noise is possible.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は一般的な音声認識システム、特にテンプレー
トを用いこの各テンプレートが雑音の選択的な付加によ
って生成されスピーチ認識の確率を増加させる音声認識
システムに関する。
[Detailed Description of the Invention] [Field of Industrial Application] This invention relates to speech recognition systems in general, and more particularly to speech recognition systems in which templates are used and each template is generated by selectively adding noise to increase the probability of speech recognition. Regarding the system.

〔従来技術〕[Prior art]

一般的な音声認識の方法は近年非常に発達してきており
、多くの形態で用いられている。音声認識の考え方は、
発話音に得られ几情報が直接にコンピュータあるいは他
の手段を駆動するのに用いられるということである。基
本的には先行技術においては、発話背中の情報の認識の
キー要素は周波数に関するエネルギーの分布である。フ
ォルマント周波数は特にエネルギーピークが重要なもの
である周波数である。フォルマント周波数は口腔キャビ
ティの音響共握であって、舌、顎及び唇によって制御さ
れる。聞き手にとっては最初の2つか3つのフォルマン
ト周波数が決定すれば通常母音を特定するのに十分であ
る。このようにして先行技術のマシーン認識には、入り
てくるスピーチ信号の部幅あるいはパワースペクトルを
決める几めの手段をいくつか含んでいる。音声認識の初
めの過程はスピーチ信号を認識可能な特性、ま九はパラ
メータに変換しデータフローを処理しやすい割合に減少
させる前処理である。この過程を行う九めの1つの手段
は、いくつかの広い周波数帯域における信号のゼロ交差
率を測定してこの帯域におけるフォルマント周波数の推
定値を与えることである。
General speech recognition methods have been greatly developed in recent years and are used in many forms. The idea behind voice recognition is
This means that the information obtained from the speech sounds can be used directly to drive a computer or other means. Basically, in the prior art, the key element for the recognition of speech information is the distribution of energy with respect to frequency. Formant frequencies are those whose energy peaks are particularly important. Formant frequencies are the acoustic components of the oral cavity and are controlled by the tongue, jaw, and lips. For the listener, determining the first two or three formant frequencies is usually sufficient to identify the vowel. Prior art machine recognition thus includes some sophisticated means of determining the width or power spectrum of the incoming speech signal. The first step in speech recognition is preprocessing, which transforms the speech signal into recognizable characteristics, parameters, and reduces the data flow to manageable proportions. A ninth way to accomplish this process is to measure the zero-crossing rate of the signal in several broad frequency bands to provide an estimate of the formant frequencies in this band.

別の手段はスピーチ信号をスペクトルが入力スピーチ信
号のスペクトルに最も良く適合するフィルタのノ母うメ
ータによって表わすことである。この方法は線形予想コ
ーディング(LPC)として知られている。線形予想コ
ーrイング、すなわちLPCはその効率性、正確性及び
簡便性に特徴がある。スピーチから抽出される認識特性
は通常10ないし40ミリ秒に渡って平均化され50−
= 100回/秒でサンプリングされる。
Another means is to represent the speech signal by a meter whose spectrum best matches the spectrum of the input speech signal. This method is known as Linear Predictive Coding (LPC). Linear predictive calling, or LPC, is characterized by its efficiency, accuracy and simplicity. Recognition features extracted from speech are typically averaged over 10 to 40 milliseconds and
= sampled at 100 times/second.

スピーチを表わして認識するために用いられるパラメー
タは直接的あるいは間接的に擾幅ま之はパワースペクト
ルに関連する。フォルマント周波数及び線形予想フィル
タ係数は音声スペクトルに間接的に関連するノ4ラメー
タの例である。他の例ではセプストラルパラメータ及び
ログエリア率パラメータがある。
The parameters used to represent and recognize speech are directly or indirectly related to the amplitude and power spectrum. Formant frequencies and linear prediction filter coefficients are examples of parameters that are indirectly related to the speech spectrum. Other examples are sepstral parameters and log area rate parameters.

〔発明の解決すべき課題〕[Problems to be solved by the invention]

これらのま友他の多くの場合認[K用いられる音声パラ
メータはスペクトル/4’ラメータから導出されること
ができる。本発明は音声認識パラメータを生成するスペ
クトルパラメータに雑音を選択的に付加することに関し
ている。本発明はスペクトルパラメータから導出された
、あるいは導出されることができるスピーチノダラメー
タを用いる音声認識のあらゆる形態に適用される。
In many other cases, the audio parameters used can be derived from the spectral/4' parameters. The present invention relates to selectively adding noise to spectral parameters that produce speech recognition parameters. The invention applies to all forms of speech recognition using speech nodal parameters derived or capable of being derived from spectral parameters.

いずれにしても、過去における音声認識の多くの一般的
な方法はテンプレートを用いて照合を行なっている。こ
の方法では通常言葉は/4’ラメータシーケンスの形で
表わされる。認識は予め定義された同様の方法を用いて
未知のテンプレートトークンを記憶されたテンプレート
と比較することによって行なっている。多くの場合ワー
ドの生成速度の可変性を説明するのに時間配置アルゴリ
ズムが用いられる。従ってテンプレート照合システムは
音声的な別々のワードの小さいセットによって高性能を
発揮することができる。研究者の中には広い範囲の話者
の精密な音声分別t#!P、的に行なうこのようなシス
テムの能力を疑問視している。
In any case, many common speech recognition methods in the past have used templates to perform matching. In this method, words are usually represented in the form of /4' parameter sequences. Recognition is accomplished by comparing unknown template tokens to stored templates using similar predefined methods. Time alignment algorithms are often used to account for the variability in the rate of word production. Thus, template matching systems can achieve high performance with small sets of phonetically distinct words. Some researchers are trying to accurately classify speech from a wide range of speakers! P, questions the ability of such systems to perform.

ジェイ・ニス・ノ母−ケル(J、S、Perkel )
及びfイー・エイチ・クララ)’ (D−H,Klat
t )による論文″精密な音声分別の達成二テンプレー
ト対特性”(″′スピーテ工程における可変性及び不変
性”ヒk /1. fイル編、ニューツヤ−シイ、ロー
レ/スーエルバウム響アソシエイツ刊、1985年、発
行者アール・エイ・コール、アール・エム・スター/及
びエム・ジェイ・ラスリー)を参照されたい。
J, S, Perkel
and fE H Clara)' (D-H, Klat
The paper ``Achieving Precise Speech Segregation: Two Template Pairs of Characteristics''(''Variability and Invariance in the Spite Process'', edited by K/1. F., New Jersey, published by Rolle/Suerbaum Symphony Orchestra Associates, 1985) , Publishers R.A. Cole, R.M. Starr/and M.J. Lasry).

従って別の方法として、多くの人がスピーチ信号内の音
声的に関連のある情報をとらえる背戸特性のセラトラま
ず識別するような音声認識のための特徴に基づいた方法
を提案している。この知識に基づいてスピーチ信号から
の特徴を抽出するようにアルゴリズムを構成することが
できる。次に特徴全結合し認識決定に達するために分類
が行なわれる。特徴に基づい念システムはテンプレート
照合技術よりも精密な音声弁別の実行性能が良く、し念
がって優れているという議論がある。いずれにしても、
テンプレート照合はパターン認識によく用いられる方法
であシ、それによって未知のものがプロトタイゾと比較
されてどれが最も近似しているかが決定される。
Therefore, as an alternative, many have proposed feature-based methods for speech recognition, such as first identifying the backdoor characteristics that capture phonetically relevant information within the speech signal. An algorithm can be configured to extract features from the speech signal based on this knowledge. Classification is then performed to combine all the features and arrive at a recognition decision. There is an argument that feature-based mental systems have better performance in performing precise speech discrimination than template matching techniques, and are therefore superior to template matching techniques. In any case,
Template matching is a commonly used method for pattern recognition, whereby an unknown is compared to a prototype to determine which is the closest match.

この決定によって分類の几めの多重変化がウスモデルを
用いた特徴に基づく音声認識によっても、テンプレート
照合金実行することができる。この場合特徴ベクトルヲ
ノやターンとして用いるのは統計分類者だけである。同
様にスペクトル振幅及びLPC係数全特徴として見ると
、ス(クトルに基づく技術も同様に特徴に基づく方法で
ある。
With this determination, multiple changes in classification refinement can also be performed by template matching by feature-based speech recognition using the US model. In this case, only statistical classifiers use the feature vectors and turns. Similarly, when viewed as a total feature of spectral amplitude and LPC coefficients, the vector-based technique is also a feature-based method.

テンフレート整合及び特徴に基づくシステムを用いるこ
とに関して、実際には連続体に沼って異なる点を表わす
。テンプレート整合法に伴う最も重要な問題の1つは、
精密な音声分別に十分感度を有するが関係のないスペク
トル変化には感受性のない距離計測を限定する困難性が
ある。
The use of template matching and feature-based systems actually represents different points on a continuum. One of the most important problems with template matching methods is that
There is a difficulty in limiting distance measurements that are sensitive enough for precise speech classification but insensitive to unrelated spectral changes.

この問題−つの表われは、長い不変母音のスペクトルに
おけるX要でないフレーム/フレーム変化に与えられる
過剰な重みによるものである。従ってこのような問題の
ある先行技術によって、音声距離に感受性があり関係の
ない音声差異には感受性がないようにされている多数の
距離音律が提供されている。例えばICASSP−82
の機関誌(IEEEカタログACH1746−7、第1
278頁ないし第1281頁、1982年)に掲載され
ている論文1臨界帯域スペクトルからの受容音声距離の
予想’(デイ−・エイテ・クラットによる)を参照され
危い。
One manifestation of this problem is due to the excessive weight given to unnecessary frame/frame changes in the spectrum of long invariant vowels. Accordingly, such problematic prior art provides a number of distance temperaments that are sensitive to phonetic distance and insensitive to irrelevant phonetic differences. For example, ICASSP-82
journal (IEEE Catalog ACH1746-7, No. 1
See Paper 1 'Prediction of Receptive Speech Distance from the Critical Band Spectrum' (by De-Aite Kratt), published on pages 278-1281, 1982).

いずれにし5ても音声通信システムをより良く理解する
几めにグロシーディングズーオプI EEE(1985
年11月号、■、73、屓11、第1537頁ないし1
696頁)を参照する。IEEEのこの文献ではマン/
マシーンスピーチコミユニケージ。
In any case, the gross seeding zooop I EEE (1985
November issue, ■, 73, 11, pages 1537-1
See page 696). In this document of IEEE, Man/
Machine Speech Comic Unicage.

ンシステムに関するいろいろな論文が提供されており、
関連する特定の問題に1畦野′!!−弘イくくりしるも
のである。ここで理解できるように、どのような音声認
識システムにも関係する重要な点は、その分配タスクの
実行、すなわちすべての環境の型に関する音声を認識す
る九めのシステムの能力である。
There are various papers available on the system.
1 Uneno' for specific related issues! ! - It is something that is associated with Hiroi. As can be seen here, an important aspect relevant to any speech recognition system is the performance of its distributional task, the ability of the ninth system to recognize speech for all types of environments.

上記のように多くの音声認識システムでテンプレートが
用いられている。基本的にこのようなシステムでは発話
ヲノンラメータシーケンスに変換すせて、コンピュータ
に記憶させる。音声波は話者の口からマイクロホンを通
ってアナログ/7′ジタルコンバータに搬送され、そこ
でフィルタを通して、例えばそこにあるかもしれない背
景雑音と共にデジタル化される。次にデジタル化された
信号はさらにフィルタを通して認識パラメータに変換さ
れ、この形態で記憶スピーチテンプレートと比較されて
話された言葉の内の最もありそうなものの選択を行なう
。このような方法のさらに別の例としては、IEEEス
(クトル(1977年4月発刊、Vo124.I64 
)がある。この中の論文ティー・ウオルヒによる“スピ
ーチ認識の実行″(第55頁ないし57頁)を参照され
几い。
As mentioned above, templates are used in many speech recognition systems. Basically, in such a system, the utterances are converted into a metric sequence and stored in a computer. The speech waves are conveyed from the speaker's mouth through a microphone to an analog/7' digital converter, where they are filtered and digitized together with, for example, any background noise that may be present. The digitized signal is then further filtered and converted into recognition parameters, in which form it is compared with a stored speech template to select the most likely of the words spoken. Yet another example of such a method is the IEEE Standard (published in April 1977, Vo124.I64).
). Please refer to the article "Performing Speech Recognition" by T. Walch (pp. 55-57).

この論文かられかる通り、音声認識システムの適用は一
定して拡大してきており、論文でも指摘されているよう
にいろいろな適用例ですでにたくさんのモデルが用いる
ことができるようになっている。テンプレートの形成は
又先行技術でも良く知られている。このようなテンプレ
ートは多くの色々な型の音声認識システムで用いられて
いる。
As this paper shows, the application of speech recognition systems is constantly expanding, and as the paper points out, many models are already available for use in various applications. The formation of templates is also well known in the prior art. Such templates are used in many different types of speech recognition systems.

システムの一例は“キーワード認識システム”としてジ
ェイ・ニス・プリドル(J、S、Br1dle )によ
る論文“継続中のスピーチにおける与えられ念単語を決
定するための効率的なエラスチックテンプレート方法’
 (1973年4月、′イギリス音声学会の春季学会”
、第1ないし4頁)に記載されている。この論文で著者
はキーワードの発話例の、4ラメ一タ表示からエラスチ
ックテンプレートを引き出して検索することを論じてい
る。入ってくるスピーチの同じようなパラメータ表示は
これらのテンプレートと連続的に比較されて、スピーチ
とテンプレートが引き出され几キーワードの間の類似性
を推定する。
An example of a system is a "keyword recognition system" in the paper "An Efficient Elastic Template Method for Determining Given Words in Continuous Speech" by Jay Nis Pridle (J.S. Br1dle).
(April 1973, 'Spring Conference of the British Phonetic Society'
, pages 1 to 4). In this paper, the author discusses searching by extracting elastic templates from a 4-panel display of utterance examples of keywords. Similar parameterizations of incoming speech are successively compared with these templates, and the speech and templates are derived to estimate the similarity between keywords.

入ってくるスピーチのセグメントが対応するテンプレー
トに十分に近似している場合は、認識装置によってワー
ドが話されたものと決定される。
If the incoming speech segment closely approximates the corresponding template, the word is determined to have been spoken by the recognizer.

ワードテンプレートは、話す速度の変化及び巣語の発音
速度の変化の念めに時間的に拡大および圧縮されること
ができる九めに“エラスチック”と呼ばれる。
Word templates are termed "elastic" because they can be expanded and compressed in time to account for changes in speaking rate and rate of pronunciation of words.

キーワード認識は従来のスピーチ認識と同様である。前
者はテンプレートが恣意的な言葉、すなわち音の文脈の
範囲内で認識されるべき“キー”ワードについてのみ記
憶されるものであるが、後者では話されると予想される
スピーチのすべてに対してテンプレートが記憶される。
Keyword recognition is similar to traditional speech recognition. In the former, the template is only memorized for arbitrary words, i.e. "key" words that are to be recognized within the context of the sound, whereas in the latter the template is memorized for all expected speech. The template is stored.

このようなシステムの全てはキーワード!!!!識シス
テムであろうがテンプレートを用いる従来のスピーチ認
識システムであろうが、同じ問題、すなわち例えば異な
る個人によって発話された、あるいは同じ個人によって
異なる条件で発話されたワードを認識する能力をシステ
ムが有しないという問題に突き当なる。
This kind of system is all about keywords! ! ! ! Whether it is a recognition system or a traditional speech recognition system using templates, the system is capable of solving the same problem, i.e., recognizing words uttered by different individuals or under different conditions by the same individual. I run into the problem of not doing it.

従って本発明の目的は自動音声認識システムの九めの改
善された装置及び方法を提供することである。
It is therefore an object of the present invention to provide a ninth improved apparatus and method for automatic speech recognition systems.

さらに雑音環境に自動的に適合する音声認識システムを
提供することも本発明の目的である。
It is further an object of the present invention to provide a speech recognition system that automatically adapts to noisy environments.

〔課題解決の九めの手段〕[Ninth means of problem solving]

、添付特許請求の範囲かられかるように、多くの音声認
識システムは雑音のある状態では動作性能が減少する。
As can be seen from the appended claims, many speech recognition systems have reduced performance in noisy conditions.

これは特にテンプレートが、雑音がほとんど或は全くな
いか、あるいは認識が実行される時点で異なる性質の雑
音が存在するようなスピーチから導出された場合に懸著
である。どの困難性を減少させている従来の方法では新
しい雑音の存在する新しいテンプレートを生成すること
が必要である。この生成には新しいスピーチ及び雑音の
収集が必要である。この発明のシステムではテンプレー
トに分析的な雑音が付加され、それによって認識の確率
が改善されてシステムの性能が実質的に増加し、しかも
テンプレートの生成に新しいスピーチを集める必要がな
い。
This is particularly the case when the template is derived from speech with little or no noise, or where noise of a different nature is present at the time the recognition is performed. Conventional methods, which reduce the difficulty, require generating a new noisy new template. This generation requires new speech and noise collection. In the system of the present invention, analytical noise is added to the template, which improves the probability of recognition and substantially increases the performance of the system, without the need to collect new speech to generate the template.

本発明のシステムは、発話のスイクトルの大きさを出力
で与え、記憶されたテンプレートを処理されたスペクト
ル値と比較して前記発話中のスピーチの存在を示す良好
な比較が得られると出力を与えるスペクトル分析器を備
え、前記記憶テンプレート全生成するtめの装置を具備
し、前記スペクトル分析器に結合して入ってくる信号の
予想される雑音信号を示す信号を与えるための第1の手
段と、この第1の手段と結合して前記予想される雑音信
号に応答して前記予想される雑音信号に従って変調され
るテンプレート’を生成する手段とを備えているスピー
チ認識システムである。
The system of the present invention provides as an output the magnitude of the utterance's spectral value and provides an output when a stored template is compared with the processed spectral value and a good comparison is obtained indicating the presence of speech in said utterance. a first means for coupling to the spectrum analyzer and providing a signal indicative of an expected noise signal of the incoming signal, comprising a spectrum analyzer and a third device for generating the stored template; , means for generating, in combination with the first means, a template' in response to the expected noise signal, which is modulated according to the expected noise signal.

〔実施例〕〔Example〕

図面に示されるように、本発明は現実のスペクトル線か
あるいはスペクトル線から導出されるi4ラメータを用
いるすべての認識システムに適用される。後者ではテン
プレートを雑音の分析付加の九めのスペクトル線及び動
作テンプレートの2つの形態で記憶する必要がある。
As shown in the figures, the invention applies to all recognition systems that use real spectral lines or i4 parameters derived from spectral lines. The latter requires storing templates in two forms: noise analysis addition ninth spectral line and motion template.

第1A図を参照すると、本発明に従いスペクトルから導
出された認識ノ中うメータを用い次音声認識システムの
10ツク図が示されている。
Referring to FIG. 1A, a ten-step diagram of a speech recognition system using a spectrum-derived recognition meter according to the present invention is shown.

マイクロホン10が示されており、システムを用いる通
話者がこれを使用してスピーチを入力する。マイクロホ
ン10は音声波を電気信号に変換し、この信号は増幅器
11によって増幅される。
A microphone 10 is shown and is used by a person using the system to input speech. Microphone 10 converts audio waves into electrical signals, which are amplified by amplifier 11 .

増幅器11の出力はスペクトル分析器12に結合されて
いる。スペクトル分析器12は短期分析能力を有する広
帯域ま九は狭帯域のスペクトル分析器である。スペクト
ル分析器の機能及び構成は基本的によく知られており、
多数の方法で構成されることができる。
The output of amplifier 11 is coupled to spectrum analyzer 12. Spectrum analyzer 12 is a wideband or narrowband spectrum analyzer with short-term analysis capabilities. The functions and configuration of spectrum analyzers are basically well known;
It can be configured in a number of ways.

スペクトル分析器12はスピーチ音燭bフレームに分割
し、その出力において各フレームのパラメータ茨示を出
力する。スペクトル分析器12によって実行される特別
な型の音声分析は本発明には重要ではなく、多くの既知
の音声分析器またはスペクトル分析器が使用できる。こ
のような例は米国特許出願第439018号(1982
年11月3日出願、シー・ベンスコ等)及び第4734
22号(1983年3月9日出願、ノー・ベンスコ等)
明細書に記載されている。両出願とも本発明の譲受人で
もあるアイティーティー・コーポレーションに譲り受け
られており、本願の参照文献である。
The spectrum analyzer 12 divides the speech sound into b frames and outputs at its output an indication of the parameter variations of each frame. The particular type of audio analysis performed by spectrum analyzer 12 is not critical to the invention, and many known audio or spectrum analyzers can be used. An example of such is U.S. Patent Application No. 439,018 (1982).
Filed on November 3, 2015, C. Bensko et al.) and No. 4734
No. 22 (filed on March 9, 1983, No. Bensko, etc.)
It is stated in the specification. Both applications are assigned to IT Corporation, the assignee of the present invention, and are incorporated herein by reference.

米国特許出願第655958号(1984年9月28日
出願、発明者ニー・エル・ヒギンズ等、名称1テンプレ
ート一連結モデルを用い友キーワード認識システム及び
方法#)も参照文献である。
Also referenced is US Patent Application No. 655,958 (filed September 28, 1984, inventor N. L. Higgins et al., entitled Friend Keyword Recognition System and Method # using a One-Template Sequence Model).

スペクトル分析器12には14チヤネルバンドi4スフ
イルタアレイが備えられており、用いられているフレー
ムの大きさは20ミリ秒かそれ以上である。これらのス
ペクトルパラメータ鉱第1A図に示されているように処
理される。図示されているように、スペクトル分析器1
2の出力はスイッチ13に結合されており、このスイッ
チ13は認識、7オームテンプレート、あるいは変調テ
ンプレートモードで動作することができる。
The spectrum analyzer 12 is equipped with a 14 channel band i4 filter array and the frame size used is 20 milliseconds or more. These spectral parameters are processed as shown in Figure 1A. As shown, spectrum analyzer 1
The output of 2 is coupled to switch 13, which can operate in recognition, 7 ohm template, or modulation template modes.

スイッチ13が7オームテンプレートモードに置かれる
と、スペクトル分析器12の出力はテンプレートのス(
クトル形式モジ、−ル14に結合される。モジュール1
4の目的はスペクトル分析器12の出力からのテンプレ
ートの形成を助けることである。これらのテンプレート
はモジュール14中で形成され、テンプレートのスペク
トル線の形態であり、このようなテンプレートを形成す
る多くの方法が良く知られて−る。基本的にフオームテ
ンプレートモードではスペクトル分析器12の出力はモ
ノニール14によって処理され、通話者がマイクロホン
10ft通して行なっ念発話に関するテンプレートが与
えられる。通話者は認識されるように言葉を話し、基本
的に話された言葉を示すテンプレートが生成される。こ
れらのテンプレートはモジュール15によって使用され
、スペクトル生成テンプレートから導出されたt!ラメ
ータを認識)ぐラメータを導出し、モジュール16によ
って示されるように最終テンプレートを雑音が低いかあ
るいは雑音のない状態で生成する。
When the switch 13 is placed in the 7 ohm template mode, the output of the spectrum analyzer 12 will be in the 7 ohm template mode.
14. module 1
The purpose of 4 is to assist in the formation of a template from the output of spectrum analyzer 12. These templates are formed in module 14 and are in the form of template spectral lines, and many methods of forming such templates are well known. Basically, in the form template mode, the output of the spectrum analyzer 12 is processed by the monologue 14 to provide a template for the mental utterances made by the caller through the 10ft microphone. The caller speaks the words to be recognized and a template is generated that basically shows the words spoken. These templates are used by module 15 to derive t! from the spectrum generation templates. (recognizing the parameters) and generating the final template with low or no noise as indicated by module 16.

次にモジュール16によって指示されているように雑音
のなh状態のテンプレートは記憶されて、例えば特定の
話者によって発話されたワード、フレーズなどとして特
定の発話を示す。
The clean h-state template is then stored, as directed by module 16, to represent a particular utterance, such as a word, phrase, etc. uttered by a particular speaker.

記憶されたテ/プレートはスイッチ100によってプロ
セッサ160に結合され、認識アルゴリズムが実行され
る。従ってプロセッサ160は認識モードで動作して未
知のスピーチを雑音のない状態で生成されモジュール1
6に記憶されたテンプレートと比較する。その定め第1
A図に示されているようにフオームテンプレートモード
ではスベクトル形式のテンプレートが与えられてテンプ
L/ −トy!ラメータが得られ、このテンプレートパ
ラメータは次【雑音がないかあるいは低雑音の状態でテ
ンプレートを形成するのに用いられる。後に説明するよ
うにプロセッサ160は、低雑音かあるいは雑音のない
状態でモジュール16/C記憶されたテンプレートによ
り動作することができる。
The stored templates are coupled by switch 100 to processor 160 where recognition algorithms are executed. Therefore, the processor 160 operates in recognition mode to generate the unknown speech in a noise-free manner and the module 1
Compare with the template stored in step 6. The first provision
As shown in figure A, in the form template mode, a vector format template is given and the template L/-y! parameter is obtained, and this template parameter is then used to form the template in no-noise or low-noise conditions. As will be explained below, processor 160 can operate with templates stored in module 16/C in a low or no-noise manner.

プロセッサ160の機能もま九良く知られており、基本
的に色々な距離測定その他のアルゴリズムに基づいて照
合するように動作する。このような照合が行なわれると
、これは正しいワードであり、このワードまたは音はシ
ステムの出力となるという指示が与えられる。
The functionality of processor 160 is well known and operates essentially to match based on various distance measurements and other algorithms. Once such a match is made, an indication is given that this is the correct word and that this word or sound will be the output of the system.

スイッチ13は認識モードに置かれるとスペクトル分析
a1zの出力を導出/IPラメータモジュール16ノに
結合させ、このモジ、−ル161f−!&本的にス(ク
トル分析器からパラメータを引き出し、)9ラメータは
例えば上記のようにモジュール16に記憶され几記憶テ
ンプレートと比較される。
Switch 13, when placed in recognition mode, couples the output of spectral analysis a1z to derivation/IP parameter module 16, which module 161f-! 9 parameters are stored in the module 16 and compared to the stored template, for example as described above.

第1A図に示されているよりに、スイッチ13はま念中
央位置にセットすることもできる。中央位置は変調テン
プレートモード位置であり、スペクトル分析器12の出
力が推定値雑音統計モジュール162に入る。モジュー
ル162の機能は基本的に雑音分析を行なうか、あるい
は雑音を処理して雑音統計の推定を行なうことである。
Switch 13 can also be set to the central position, as shown in FIG. 1A. The center position is the modulation template mode position and the output of the spectrum analyzer 12 enters the estimate noise statistics module 162. The function of module 162 is essentially to perform noise analysis or process the noise and estimate noise statistics.

これは本発明の主要な特徴であり、これによって本発明
は雑t1に選択的に付加してテンプレート?形成し、音
声認識を実行し、このような付茄雑晋のある状態でこの
ような認識における改善を行なう。
This is a key feature of the present invention, and allows the present invention to selectively add templates to miscellaneous t1. form, perform speech recognition, and make improvements in such recognition in the presence of such complications.

従って推定値雑音統計モジュール162の機能は後にさ
らに説明するが、モジュール14と結合しこのモジ、−
ルから情報を受けるモジュール164中に形成されたス
ペクトルテンプレートを変調することである。モジュー
ル164の出カバモジュール165で認識パラメータを
導出し、このパラメータはモジュール166によって示
されるように雑音のある状態かあるいは雑音が低レベル
の状態で用いられるテンプレートを形成するのに用いら
れる。そのために第1A図に示されたシステムによって
雑音のある状態のテンプレートか、あるいは非常に低レ
ベルの雑音または雑音のない状態のテンプレートかによ
ってスイッチ100を切換えて認識が行なわれる。
Accordingly, the functionality of the estimate noise statistics module 162, which will be further described below, is combined with the module 14 to -
and modulating the spectral template formed in module 164 that receives information from the module. An output module 165 of module 164 derives recognition parameters that are used to form a template for use in noisy or low noise conditions as indicated by module 166. To this end, recognition is performed by the system shown in FIG. 1A by toggling switch 100 between a noisy template, very low level noise, or a clean template.

簡巣に上記し比ように、認識モードではスペクトル分析
器12のスペクトルパラメータ出力が導出パラメータモ
ジ、−ル161によってプロセッサ160の入力に与え
られる。プロセッサ160は通常アルゴリズムを実行す
るが、これも又本発明には重要ではない。プロセッサ1
60は記憶されたテンプレートのシーケンスを決定し、
入ってくるスピーチが認識できるように最良の照合を行
なう。従ってプロセッサの出力は基本的に一連のテンプ
レートラベルであり、各ラベルは最良の照合テンプレー
トシーケンスにおける1つのテンプレートを表わす。
As briefly described above, in the recognition mode, the spectral parameter output of the spectral analyzer 12 is provided to the input of the processor 160 by a derivation parameter module 161. Processor 160 typically executes algorithms, but this is also not critical to the invention. processor 1
60 determines a sequence of stored templates;
Make the best match so that the incoming speech can be recognized. The output of the processor is therefore essentially a series of template labels, each label representing one template in the best matching template sequence.

例えば各テンプレートには1つの番号及びラベルが割り
当てられる。この番号はマルチピット表示でも良い。こ
の出力はプロセッサJ60に備、tられたテンプレート
サーチシステムに与えられ、プロセッサは例えばマルチ
ビット表示があるとテンプレートラベルのための記憶装
置を備え念比較器となる。従ってプロセッサ1−60は
入ってくるテンプレートラベルの各々を記憶されたテン
プレートと比較するように動作する。次にサブシステム
であるプロセッサ160によって、特定のワードあるい
はフレーズがワードあるいはフレーズそのものと同様に
発話されたという指示が与えられる。
For example, each template is assigned a number and label. This number may be displayed as a multi-pit. This output is provided to a template search system provided in processor J60, which becomes a comparator with storage for template labels, for example, if there is a multi-bit representation. Processor 1-60 is therefore operative to compare each incoming template label to a stored template. Subsystem processor 160 then provides an indication that a particular word or phrase was uttered as well as the word or phrase itself.

7オームテンプレートモードあるいは変調テンプレート
モードのいずれかにおいては、使用者はいろいろな言葉
を話し、スペクトル分析器12のスペクトル出力から認
識ノ母うメータが引き出される。変調テンプレートモー
ドではシステムが、認識モードにおけるシステムと協働
して用いられるために種々のテンプレートを生成し、こ
のテンプレートは上記のように推定値雑音統計モジュー
ル162による雑音の選択的な付加によって変調される
。このモジュール162による雑音の選択的な付加によ
って後にさらに説明するようにより信頼性の高いシステ
ム動作が得られる。
In either the 7 ohm template mode or the modulated template mode, the user speaks and a recognition meter is derived from the spectral output of the spectrum analyzer 12. In the modulated template mode, the system generates various templates for use in conjunction with the system in the recognition mode, which templates are modulated by selective addition of noise by the estimate noise statistics module 162 as described above. Ru. This selective addition of noise by module 162 provides more reliable system operation, as will be discussed further below.

第1B図全参照すると、自然界のスペクトルを認識パラ
メータとして用いた認識システムが示されている。いず
れの場合も第1B図では第1A図と同じ参照番号によっ
て同じ機能の部材が示されている。図かられかるように
、マイクロホンIQは増幅器11の入力釦結合され、増
幅器11の出力はスペクトル分析器12の入力に結合さ
れている。ス(クトル分析器12の出力は再びスイッチ
13に結合され、スイッチ13はフオームテンプレート
、変調テンプレート、あるいは認識モードで動作できる
ようになっている。
Referring to FIG. 1B in its entirety, a recognition system using natural spectra as recognition parameters is shown. In each case, parts of the same function are designated in FIG. 1B by the same reference numerals as in FIG. 1A. As can be seen, microphone IQ is coupled to the input button of amplifier 11, and the output of amplifier 11 is coupled to the input of spectrum analyzer 12. The output of vector analyzer 12 is again coupled to switch 13, which is capable of operating in form template, modulation template, or recognition mode.

第1B図かられかるように、7オームテンプレートモー
ドではモジ、−ル170によって低雑音か雑音のない状
態でテンプレートが形成される。
As seen in FIG. 1B, in the 7 ohm template mode, the module 170 forms the template with low to no noise.

このモジ、−ル170は自然界のスペクトルである認識
)9ラメータを直接に与える。次にこの7オームテンプ
レートが記憶されてモジュール171に結合され、モジ
、−ル171はスペクトルテンプレートを、基本的に雑
音モジュール162として機能する推定雑音統計発生器
122の影響の4とに例えばモジ、−ル120から導出
されるスペクトルテンプレートを変調する。変調スペク
トルテンプレートモジュール171の出力はモジュール
173に結合され、モジュール173はテンプレートを
雑音状態で用いるために記憶する。この図でもプロセッ
サ177が示され、モジュール17θ中に記憶されたテ
ンプレートかあるいはモジュール173中に記憶された
テンプレートのいずれかで動作する。
This modulus 170 directly gives 9 parameters, which are the spectrum of nature. This 7 ohm template is then stored and coupled to a module 171 which converts the spectral template into 4 of the effects of the estimated noise statistics generator 122 which essentially functions as a noise module 162, e.g. - modulate the spectral template derived from the rule 120; The output of modulation spectral template module 171 is coupled to module 173, which stores the template for use in noise conditions. Processor 177 is also shown in this figure and operates on either templates stored in module 17θ or templates stored in module 173.

いずれの場合もさらに処理する前には、先行技術に従っ
てどのようにテンプレートを生成するかが知られている
。テンプレートの生成にはいくつかの方法がある。テン
プレート生皮の作業を実行する方法は自動的であシ、通
常は多段階あるいは二段階工程を用いている。このよう
な方法の1つでは訓練発話からのスピーチデータ(テン
プレートモード)がセグメントに分割される。次にこれ
らのセグメントが統計クラスタ分析の入力として与えら
れ、セグメント間の距離の測定値に基づいて数学的な関
数を最大にするセグメントのサラセットが選択される。
In any case, prior to further processing, it is known how to generate templates according to the prior art. There are several ways to generate templates. The method of performing the template rawhide operation is automatic and usually uses a multi-step or two-step process. In one such method, speech data from training utterances (template mode) is divided into segments. These segments are then provided as input to a statistical cluster analysis, which selects the salset of segments that maximizes a mathematical function based on distance measurements between the segments.

選択されたサラセットに属するセグメントはテンプレー
トとして用いられる。
Segments belonging to the selected Saraset are used as templates.

このような技術は上記の米国特許出願第655958号
明細書に記載されている。いずれにしても距離を測定す
る次めのいろいろな方法が知られており、発明の背景罠
引用されたいくつかの参考文献に記載されている。距離
を計測する方法で広く知られているのはマハラノビス距
離計算というものである。
Such techniques are described in the above-mentioned US patent application Ser. No. 655,958. In any case, various methods of measuring distance are known and described in some of the references cited in the Background of the Invention. A widely known method for measuring distance is Mahalanobis distance calculation.

この方法の例は米国特許出H第003971号明細書(
発明の名称”多重・9ラメ一タ話者認識システム及び方
法”、1987年1月16日、レンチ等に譲渡されてい
る)に記載されている。この明細書には通話者認識シス
テムに用いられた他の色々な技術の例が示されており、
このシステムに用いられているアルゴリズムのいくつか
が詳細に記載されている。いずれにしても第1図を参照
すると本発明の主要な特徴が第1図に示された音声認識
システムと関係しており、入ってくるスピーチとの比較
にテンプレートを用いており、それによってどのワード
が話されたかを決定する。この方法はキーワード認識シ
ステム、音声認識システム、話者認識システム、話者確
認システム、言語N識システム、あるいはテンプレート
または各種テンプレートの組合せを用いて話された音に
関しての決定を行なうようなシステムならどのようなシ
ステムにも用いることができる。
An example of this method is given in U.S. Patent No. H003971 (
The invention is entitled "Multiple Nine-Layer Speaker Recognition System and Method," January 16, 1987, assigned to Wrench et al.). This specification provides examples of various other techniques used in caller recognition systems, including:
Some of the algorithms used in this system are described in detail. In any case, referring to FIG. 1, the main features of the present invention relate to the speech recognition system shown in FIG. Determine if the word was spoken. This method is suitable for keyword recognition systems, speech recognition systems, speaker recognition systems, speaker verification systems, language knowledge systems, or any system that uses templates or a combination of templates to make decisions about spoken sounds. It can also be used in such systems.

本発明の構成及び方法の説明の前に、発明の原理及び考
え方を説明する。
Before explaining the structure and method of the present invention, the principle and idea of the invention will be explained.

発明者は、テンプレートのS/N比が未知のあるいは発
話されたスピーチと同じである時は、それよシも雑音が
大きかつたり小さかっ几りするテンプレートを用いるよ
りも認識性能が良いことを認識し友。従って音声信号の
S/N比が予想できると考えられる場合は、テンプレー
トが入ってくる未知のスピーチと同じS/N比のスピー
チから生成された1かのように”使用される前に、テン
プレート1−変調することによって認識性能を最適化す
ることができる。
The inventors have recognized that when the signal-to-noise ratio of the template is the same as that of unknown or spoken speech, recognition performance is better than using noisy or noisy templates. My friend. Therefore, if the signal-to-noise ratio of the audio signal is considered predictable, the template is 1-modulation can optimize recognition performance.

従って本発明を実用化するには以下のような考慮をしな
ければならない。第1に入ってくるスピーチのS/N比
を予想し、第2にテンプレートを1かのように#なるよ
うに変調することである。
Therefore, in order to put the present invention into practice, the following considerations must be made. The first is to predict the S/N ratio of the incoming speech, and the second is to modulate the template to be # as if it were 1.

予想は理論と経験の両方に基づいて行なう。多くの場合
低レベルかあるいは一定の雑音の場合絶対的であるか、
この雑音よりも大きな比較的一定のレベルでのいずれか
で、比較的一定のレベルで話すことを話者に期待するこ
とができる。次にスピーチ及び雑音レベルを用いて未知
のスピーチのS/N比を予想することができる。以下に
説明するように、これはスピーチ及び雑音レベルトラッ
カーモジュールを用いることによって行なわれる。
Predictions are based on both theory and experience. Often low level or absolute in the case of constant noise;
One can expect the speaker to speak at a relatively constant level, either at a relatively constant level that is greater than this noise. The speech and noise levels can then be used to predict the signal-to-noise ratio of unknown speech. This is done by using a speech and noise level tracker module, as explained below.

ある一定の距離では各々のフィルタチャネルの話すレベ
ルと雑音レベルの両方が、現在値が近い将来の値の有効
な推定値となるように十分にゆっくりと変化する。
At a certain distance, both the speech level and the noise level of each filter channel change slowly enough so that the current value is a valid estimate of the near future value.

雑音がないか雑音が比較的ないテンプレートを変調する
ことによって、テンプレートがより雑音のあるスピーチ
から作られた“かのよう”にすることは、経験と理論的
な考慮の両方に基づいている。
Modulating a noisy or relatively noisy template to make it "as if" it were created from noisier speech is based on both empirical and theoretical considerations.

研究の結果、個々の各フィルタバンクチャネルで雑音及
びスピーチのパワーが付加することとよシ近似であるこ
とが決定され友。より正確な近似値はスピーチ及び冬者
・矩δイ+= a 芋if的なチ平万分布を有し、これ
にはフィルタバンクチャネル帯域に関する多くの自由度
が伴っている。上記のま友別の考慮から、既知の統計特
性の雑音を伴う既知のスピーチパワーの組合せの予想値
の推定値をより正確にとることができる。このようにし
て“雑音の付加”における正確性が増大することによっ
て、生成され几テンプレートの正確性も増大するが、′
パワー付加”規則を用いて得られる以上には認識の正確
性を顕著に増大することはない。
After research, it was determined that the noise and speech power added in each individual filterbank channel was a good approximation. A more accurate approximation has a speech-like Chiheiman distribution with a large number of degrees of freedom regarding the filter bank channel band. From the above considerations, a more accurate estimate of the expected value of a known speech power combination with noise of known statistical properties can be made. This increased accuracy in “adding noise” also increases the accuracy of the generated template, but ′
It does not significantly increase recognition accuracy beyond that obtained using the "power addition" rule.

従ってスピーチ及び雑音パワーの組合せの予想値を推定
する別の方法に代替させることによってプロセスはより
理論上正確にすることはできるが、以下はノクワー付加
規則について述べる。この代替によって本発明の意図あ
るいは実体が変化を受けることはない。
The following describes the Nokwar addition rule, although the process could theoretically be made more accurate by substituting another method of estimating the expected value of the speech and noise power combination. This substitution does not alter the spirit or substance of the invention.

さらに内部電子雑音及び量子雑音の両者が“ノヤワー付
加”規則に関して音響雑音及び信号と結合することが観
察される。これらの雑音は関連する音響雑音よりは小さ
いが適用は可能である。従っているいろなモデルを構成
するKあたりて“ノヤワー付加”の結果を用い、それに
よって研究作業を継続的な努力で明かにし、有効モデル
から導出される数を用いることができる。これは以下に
説明する。
Furthermore, it is observed that both internal electronic noise and quantum noise combine with acoustic noise and signals with respect to the "Noyer addition" rule. Although these noises are smaller than the associated acoustic noises, the application is possible. Accordingly, we can use the results of the "Noyer addition" per K that constitute the various models, thereby clarifying the research work in a continuing effort, and use the numbers derived from the valid model. This will be explained below.

雑音ノヤワーから生じるテンプレートが信頼できる認陳
出力の生成に関して非常に良好に動作するその平均値に
等しいことが示されている。従って雑t”ワーのフレー
ム/フレーム可変性を予想することは必要ではなく、平
均値を用いることで十分である。捜索されているテンブ
レートノ々ラメータは、現在の平均雑音パワーと結合す
るベースフオームテンプレートにおいて効率的な同じス
ピーチ/4’ワーから生成されるパラメータである。
It has been shown that the template resulting from the noisy software is equal to its average value and performs very well with respect to producing reliable validation outputs. It is therefore not necessary to anticipate the frame-to-frame variability of the noise, and it is sufficient to use the average value. are the parameters generated from the same speech/4' word that is efficient in .

システムからのチャネル雑音ノ臂ワー値は雑音ノ臂ワー
の推定値であり、数学的に決められることができる平均
雑音ノ4ワーに関連して取ることができる。従って本過
程及び正当性を完全に理解するために、以下説明する。
The channel noise power value from the system is an estimate of the noise power and can be taken in relation to an average noise power that can be determined mathematically. Therefore, in order to fully understand the process and its validity, it is explained below.

まず指摘されるのは、付加ゼロ平均がウス雑音によって
退化したスピーチ信号の単一の分離されたフーリエ変換
(DFT )の出力の確率分布は容易に計算することが
できることである。バンドパスフィルタバンクの各チャ
ネルに適用可能にする友めにどのようにスピーチ及び雑
音が結合するかというモデルを拡張するために重要な次
に考えるべきファクターは、チャネルの帯域が単一DF
Tチャネルよりもかなり大きいか、大きくすることがで
きるということである。従って雑音ノ母ワーノぐラメー
タ及びチャネルを構成する数は、スピーチがなく雑音が
ある状態でのバンドt4スフイルタの出力を観察するこ
とによって推定することができる。
It is first pointed out that the probability distribution of the output of a single separated Fourier transform (DFT) of a speech signal whose additive zero mean has been degraded by the Woos noise can be easily calculated. The next important factor to consider in extending the model of how speech and noise combine to allow each channel of a bandpass filter bank to be applied is that the bandpass of the channel is
This means that it is or can be much larger than the T channel. Therefore, the noise matrix and the number of channels that make up the channel can be estimated by observing the output of the band t4 filter in the absence of speech and in the presence of noise.

次のステツブは、雑音がない状態で形成されたスピーチ
認識テンプレートが雑音のある状態での予想される値に
等しくなるように変調することによって雑音のある状態
で用いられるように改善することである。従って用いら
れる方法は、雑音のないテンプレートに実現されている
各スピーチサンプル及びバンドパスフィルタチャネルに
、現在の雑音の存在によって変調される雑音のないテン
プレートの予想値を代替させている。
The next step is to improve the speech recognition template formed in the absence of noise for use in noisy conditions by modulating it to be equal to the expected value in noisy conditions. . The method used therefore allows each speech sample and bandpass filter channel implemented in the clean template to substitute an expected value of the clean template that is modulated by the presence of current noise.

その之めパントノやスフイルタチャネルの出力における
平均及び変化を測定することによって、ガウス雑音を通
過する際のチャネルの特性を推定することができる。基
本的には上記から理解できるように(そして上記事項の
大男は数学的にも証明されている)、本発明を実行する
にあたり理論上及び経験上の両方に基づいている。基本
的にはこのように本発明の特性はテンプレートの形成に
雑音を解析的に付2UL、形成されたテンプレート?動
作はせて音声認識システムの信頓性を増大させる。
Therefore, by measuring the average and variation in the output of a pantone or filter channel, the characteristics of the channel as it passes through Gaussian noise can be estimated. Fundamentally, as can be seen from the above (and most of the above points have also been mathematically proven), there is both a theoretical and an empirical basis for carrying out the invention. Basically, the characteristics of the present invention are that the noise is analytically added to the template formation, and the formed template? The operation increases the credibility of the voice recognition system.

雑音のない環境で集められ友テンプレートf−タに雑音
を付Wし、それによって雑音のある環境で用いる新しい
テンシレートド−クンするには2つの方法がある。厳密
な方法では各テンシレートド−クンに雑音を付加し、そ
れから結果を平均する。
There are two ways to add noise to a friend template data collected in a noisy environment, thereby creating a new template data for use in a noisy environment. The exact method adds noise to each tensile node and then averages the results.

近似的な方法では雑音のないトークンを平均してベース
フォームデータを形放し、“ノヤワー付加”あるいは他
の便利なまたはより正確な規則を用いて現在の状態に適
切な雑音を付加することによってr−夕を変調する。厳
密な方法は全てのテンプレート及び周囲のトークンを維
持することが必要であり、ま友過剰な記憶が必要である
。近似的な方法は基本的に同じテンプレート及び認識結
果を与える。実行の際には主要な考え方がある。これは
テンプレートデー夕が用いられる環境に関して雑音がな
いものであるといりことである。
An approximate method is to form the base form data by averaging the clean tokens, and then add the appropriate noise to the current state using "Noyer addition" or some other convenient or more accurate rule. -Modulate the evening. Exact methods require maintaining all templates and surrounding tokens, and require excessive memory. Approximate methods give essentially the same template and recognition results. There are main ideas in the implementation. This means that the template data is noise-free with respect to the environment in which it is used.

第2図を参照すると、ペース7オームテンプレートに雑
音を付加することによって使用されるテンプレート形成
の詳細なブロック図が示されている。ペースフオームテ
ンプレートはそれ自体“トークン”という言葉のセット
にわ九って形成された平均である。各トークンは所定の
ワードの1つの発音から取っ九パラメータから成る。1
つあるいはそれ以上のトークンが配列されてペースフオ
ームテンプレートが形成される。ベース7オームテンプ
レートは静かな状態で形成され、第1A図に示されたモ
ジュールノロか、あるいは第1B図に示されたモジュー
ル170に記憶される。第3図は第2図に示され几各値
を限定する表である。
Referring to FIG. 2, a detailed block diagram of the template formation used by adding noise to a pace 7 ohm template is shown. A paceform template is itself an average formed by a set of words called "tokens." Each token consists of nine parameters taken from one pronunciation of a given word. 1
One or more tokens are arranged to form a paceform template. The base 7 ohm template is silently formed and stored either in the module shown in FIG. 1A or in the module 170 shown in FIG. 1B. FIG. 3 is a table defining the values shown in FIG. 2.

第2図には再びマイクロホン10が示されており、この
マイクロホンに話者が発話する。マイクロホンの出力は
増幅器11の入力に結合され、増幅器11の出力a B
PF 、すなわちバンドパスフィルタとして図示されて
いるスペクトル分析器12に結合される。スイッチ13
は変調テンプレート位置にある。スペクトル分析器12
からの出力はパントノ中スフィルタス4クトルの大きさ
の値のベクトルであってモジュール2oに与えられ、こ
のモジュール20はフレーム対を平均化する。
FIG. 2 again shows the microphone 10 into which the speaker speaks. The output of the microphone is coupled to the input of amplifier 11, the output of amplifier 11 a B
It is coupled to a spectrum analyzer 12, illustrated as a PF, or bandpass filter. switch 13
is at the modulation template position. Spectrum analyzer 12
The output from the pantone filter is a vector of values of magnitude 4, which is applied to module 2o, which averages the frame pairs.

フレーム対の平均化は良く知られた技術であり、基本的
に多くの胱知の回路によって実行される。
Frame pair averaging is a well-known technique and is essentially performed by many intelligent circuits.

モジュール20の出力はスペクトル分析器12からの入
力の連続対を平均化した結果であり、モジュール20は
効果的なフレーム速度を半分にする。
The output of module 20 is the result of averaging successive pairs of inputs from spectrum analyzer 12, and module 20 halves the effective frame rate.

モジ、−ル20の出力はスケールピットモジュール21
及び2乗成分モジュール22に与えられる。
The output of module 20 is scale pit module 21
and the squared component module 22.

2乗成分モジュール22はベクトル出力を与え、この出
力は基本的に平均フレーム対モジュール20の出力のノ
々ワー値である2乗値に等しい。
The squared component module 22 provides a vector output that is essentially equal to the squared value of the average frame versus the output of the module 20.

スケールピットモジュール21の出力は基本的に連続シ
フトによって実行される連続対の平均の2倍を与える作
用をし、ベクトル最大成分を7ビツトスケールに適合さ
せることを可能にする。そのためにモジュール2ノはシ
フトレジスタであ夛、このレジスタは基本的に多数の右
シフトヲ行ない記載された動作を実行する。スケールピ
ットモジ1−ル21からの出力は対数変換器23に向け
られ、この変換器23はその出力にスケール対数スペク
トルパラメータベクトルを生成する。次にこのパラメー
タベクトルはモジュール24によってテンプレートトー
クンの与えられたセラ)Kわ念っで平均化され、出力で
基本的にペースフオームテンプレートの1個のパラメー
タを与えるスケール対数スペクトルパラメータを与える
。2乗成分モジュール22からの出力は相対エネルギー
モジュールであるモジュール25の入力とスピーチ及び
雑音レベルトラッカーλ〆司入オlて勺1プら截る。
The output of the scale pit module 21 essentially serves to double the average of successive pairs performed by successive shifts, making it possible to adapt the vector maximum component to a 7-bit scale. To this end, module 2 includes a shift register, which essentially performs a number of right shifts to perform the operations described. The output from the scale pit module 21 is directed to a logarithmic converter 23 which produces a scaled log spectral parameter vector at its output. This parameter vector is then carefully averaged by module 24 over a given set of template tokens to provide at output a scaled log spectral parameter that essentially provides one parameter of the paceform template. The output from the square component module 22 is combined with the input of the relative energy module 25 and the speech and noise level tracker λ.

相対エネルギーモジュール25の出力は、例えば2乗成
分モジュール22の出力からのエネルギーを平均化する
ことによって決められる相対エネルギーを示するノ4ラ
メータである。これはモジュール36によってテンプレ
ートトーク/にわたりて平均化され、別のペースフオー
ムデータ値を与えるのに必要な相対エネルギーパラメー
タである出力ベクトルの平均指示が与えられる。スピー
チ及び雑音レベルトラッカー26からの出力は後に述べ
るように、モジュール27によって再び平均化すれるエ
ネルギーレベルを指示し、このモジ。
The output of the relative energy module 25 is a square meter indicating the relative energy determined, for example, by averaging the energy from the output of the square component module 22. This is averaged over the template talk/s by module 36 to provide an average indication of the output vector, which is the relative energy parameter needed to provide another paceform data value. The output from the speech and noise level tracker 26 indicates the energy level, which is averaged again by the module 27, as described below.

−ルの出力でさらに別のペースフオーム特性のエネルギ
ーレベルを与える。スピーチ及び雑音レベルトラッカー
からはさらに述べられるように2つの付加出力が与えら
れ、この内の1つはワード時間およびチャネルてわ之っ
て平均化された発話レベルの対数指示であり、チャネル
はワードに添付された計数回路である。他のものは時間
にわ几って平均され几各チャネルにおける雑音レベルの
ベクトルであるが、チャネルには関連していない。
- provides energy levels of yet another paceform characteristic at the output of the module. The speech and noise level tracker provides two additional outputs, as further described, one of which is a logarithmic indication of speech level averaged over word time and channel. This is the counting circuit attached to the. The other is a vector of noise levels in each channel, averaged over time, but not related to the channel.

これは又単語認識ユニットに添付され几ベクトルでもあ
る。従ってモジュール27からの出力は第1の加算器モ
ー)ニール30に与えられ、このモジュール30はスピ
ーチ及び雑音レベルトラッカーからの付加出力を受ける
ことが示されている。加算器30の出力は加算器31の
入力の1つに与えられ、この加算器31はその他方の入
力においてスケールビットモジュール21から引き出さ
れた出力を受ける。スケールビットモジュール21の出
力は係数Kによりモジュール32を介して乗算され、K
は18,172に等しくさらて第3図に示されている。
This is also a vector attached to the word recognition unit. The output from module 27 is therefore provided to a first adder module 30, which is shown receiving additional output from the speech and noise level tracker. The output of adder 30 is applied to one of the inputs of adder 31, which receives at its other input the output derived from scale bit module 21. The output of scale bit module 21 is multiplied by a factor K via module 32, and K
is shown in FIG. 3 as being equal to 18,172.

次にこの値はモジ、−ル33によって平均化され、その
出力において加算器31の他方の入力に与えられる対数
値のペースフオーム値を生成する。加算器31の出力は
加算器32に与えられる。加算器32はもう1つの入力
としてスピーチ及び雑音レベルトラッカー26からの出
力を受け、これは再び各チャネルにおける雑音レベルの
ベクトルである。この出力は機能モジュール4Qの1つ
の入力に与えられ、モジ、−ル40は他の入力において
はモジュール23からの出力を受ける。機能モジ、−ル
40からの出力は雑音付加テンプレートのスケール対数
スペクトルパラメータベクトルである。これは機能モジ
ュール41に与えられ、その出力において特定の発話の
メルーコサイン変換マトリックスである認識ノぐラメー
タベクトルを与える。従ってモジ、−ル41からの出力
及びトラッカーモジュール26からの出力が用いられて
動作テンプレートデータカ4えられる。
This value is then averaged by a module 33 to produce a logarithmic paceform value which is applied at its output to the other input of adder 31. The output of adder 31 is given to adder 32. Summer 32 receives as another input the output from speech and noise level tracker 26, which is again a vector of noise levels in each channel. This output is applied to one input of functional module 4Q, and module 40 receives the output from module 23 at its other input. The output from function module 40 is a scaled log spectral parameter vector of the noisy template. This is fed to a functional module 41 which provides at its output a recognition parameter vector which is the Meru cosine transformation matrix of the particular utterance. Accordingly, the output from the module 41 and the output from the tracker module 26 are used to generate the motion template data file 4.

上記のように第2図のブロック図と関連する出力は第3
図に示されている。第3図かられかるように、第2図か
ら引き出されるペース7オームテンプレートの実効的な
スペクトルの大きさは基本的に次の式によって与えられ
る。
As mentioned above, the outputs related to the block diagram in Figure 2 are
As shown in the figure. As can be seen from FIG. 3, the effective spectral magnitude of the pace 7 ohm template derived from FIG. 2 is essentially given by the following equation.

m  =2  ・XPb(t ) 実効的な/ヤワーは次の式によって与えられる。m = 2 ・XPb(t) The effective/yower is given by the following equation:

P=蓄Lm = 22111@XPb(2211)定義
は第3図を参照され友い。
P = storage Lm = 22111@XPb (2211) Please refer to Figure 3 for the definition.

雑音を付加する前に、各フレームのノクワーは変調され
て、第2図のモジー−ル22の出力において示されたテ
ンプレートの平均発話レベルは、加算器30の入力に与
えられるスピーチ及び雑音レベルトラッカー26の出力
によって示される現在の発話レベルと同じである。その
値は認識ユニツ)(9,331デシベル)中にあるため
、ペースフオームの実効パワーは変化してトラッカー2
6の出力で指示される。これに関して、現在の雑音レベ
ルが付加されるために、雑音付加テンプレートの実効ノ
ヤワーレベルを得て、雑音付加テンプレートの実効的な
大きさがモジュール41の出力に示すことができる。
Before adding noise, the noise of each frame is modulated so that the average speech level of the template shown at the output of module 22 in FIG. This is the same as the current speech level indicated by the output of 26. Since its value is within the recognition unit (9,331 dB), the effective power of the paceform changes and the tracker 2
Indicated by the output of 6. In this regard, the current noise level is added to obtain the effective noise level of the noisy template, and the effective magnitude of the noisy template can be indicated at the output of module 41.

従ってすべての動作認識ノ9ラメータは、相対的なエネ
ルギーの尺度である対数スペクトルノ4ラメータのメル
ーコサイン変換である。第3図の定義と共に第2図全見
れば当業者にとって上述のことは明らかであり、数学的
にも明白である。
All motion recognition parameters are therefore Melukosine transforms of the logarithmic spectral parameters, which are measures of relative energy. The above will be clear and mathematically clear to those skilled in the art when looking at the entirety of FIG. 2 together with the definitions in FIG. 3.

従って同じ正確な技術を用いることによって、テンプレ
ートトークンに雑音全付加し、次に平均化すること釦よ
りてテンプレートを形成することができる。基本的にこ
れを行うプロセスは第2図に示されたものと同じであり
、それによって機能ユニット40の後に平均化が行なわ
れること以外は第2図に示されたものと同じ正確な出力
が与えられる。
Thus, by using the same exact technique, a template can be formed by adding noise to the template tokens and then averaging. Essentially the process for doing this is the same as shown in FIG. 2, thereby producing the same exact output as shown in FIG. 2, except that the averaging is done after functional unit 40. Given.

第4図では、上記のようにテンプレート形成技術を用い
九通常のシステムの詳細なブロック図が示されている。
In FIG. 4, a detailed block diagram of nine conventional systems using template formation techniques as described above is shown.

84図では、同じ機能の部品を示すのに同じ参照番号が
用いられている。第4図でわかるよう和、ニーダ/デコ
ーダ(C0DIC) −v−ジュール及び線形回路47
に加算器の出力が結合された状態で、加算器46の1つ
の入力に結合されたAGO1すなわち自動利得制御モジ
ュール45が配置されている。コーダ/デコーダモジー
ールは基本的にアナログ/デジタル変換器であり、これ
にデジタル/アナログ変換器が続いている。コブツクの
出力は合成器、またはパントノ9スフイルタバンク、す
なわちスペクトル分析器12に与えられる。
In Figure 84, the same reference numbers are used to indicate parts with the same function. Sum, kneader/decoder (C0DIC) -v-Joule and linear circuit 47 as seen in Figure 4
An AGO 1 or automatic gain control module 45 is arranged coupled to one input of the adder 46, with the output of the adder coupled to the adder output. A coder/decoder module is essentially an analog/digital converter, followed by a digital/analog converter. The output of the Kobukku is provided to a synthesizer or pantone filter bank or spectrum analyzer 12.

スペクトル分析器12からの出力は平均フレーム対モジ
ュール20に送られ、このモジュールは再びff1K述
べるスケールモジュール21及びスピーチ及び雑音トラ
ックトラッカー26と関連する。
The output from the spectrum analyzer 12 is sent to an average frame pair module 20, which is associated with a scale module 21 and a speech and noise track tracker 26, again referred to as ff1K.

第4図の右側に示された出力ラインからはいろいろな動
作テンプレートデータ値が与えられ、これは雑音のある
テンプレートを形成するのに用いられる。
The output lines shown on the right side of FIG. 4 provide various motion template data values that are used to form the noisy template.

主要機能モジュールはスピーチ雑音トラッカー26であ
り、これはさらに後述する。また第4図にはマイクロホ
ン10への入力に記号Na及びScが付けられ、これは
重要な信号及び雑t@である。
The main functional module is the speech noise tracker 26, which will be discussed further below. Also, in FIG. 4, the inputs to the microphone 10 are marked with symbols Na and Sc, which are important signals and miscellaneous t@.

下付きのC”によりてこれらの表現がスペクトル分析器
12を形成するフィルタバンクチャネルの各々の通過帯
域にわたって平均のスペクトルの大きさを表わすことを
示している。この下付き@Ic”には14の値があり、
各々の値はフィルタバンクの各々のフィルタを表わす。
The subscript C'' indicates that these expressions represent the average spectral magnitude over the passband of each of the filter bank channels forming the spectrum analyzer 12. has the value of
Each value represents each filter in the filter bank.

従ってScは音声スピーチ信号のチャネルCのスペクト
ルの大きさであり、Naはこのチャネルの音響雑音の2
乗平均平方根ス4クトルの大きさである。加算器50及
び46からの出力は電子雑音の大きさであり、これはA
GC利得制御45の前ま之は後に注入される。C0DE
C47からの出力にはC0DECによって導入される量
子化雑音のス(クトルの大きさが含まれる。いずれにせ
よ、スペクトル分析器12の出力ハバンドパスフィルタ
ス(クトルの大きさの値のベクトルであり、平均フレー
ム対モジュール20の出力はス(クトルの大きさの値の
連続対の平均化の結果である。
Therefore, Sc is the spectral magnitude of channel C of the audio speech signal, and Na is the spectral magnitude of the acoustic noise of this channel.
It has a root mean square magnitude. The output from adders 50 and 46 is the electronic noise magnitude, which is A
The front of the GC gain control 45 is injected after. C0DE
The output from C47 includes the magnitude of the quantization noise introduced by C0DEC. , and the output of the average frame pair module 20 is the result of averaging successive pairs of vector magnitude values.

ス(クトル分析B 12の実効的な出力信号は、フィル
タパンクのパスバンドにわ几るフィルタバンク入力にお
ける信号のスペクトルの大きさの推定値であり、これは
フィルタバンク内の各チャネルに指示されている。これ
らの値の連続対は平均化されて507秒の速度でモジュ
ール20からの出力を生成する。
The effective output signal of vector analysis B 12 is an estimate of the spectral magnitude of the signal at the filter bank input across the passband of the filter puncture, which is directed to each channel in the filter bank. Successive pairs of these values are averaged to produce output from module 20 at a rate of 507 seconds.

基本的に14のチャネルのすべての値のセットは全てモ
ジュール21において同じ数Sだけ右にシフトされ、そ
れによって最大7ビツトあるいはそれ以下を占有し、そ
の結果の値は見出し表によって対数に比例する数に変換
される。表は入力127に戻って結果が入力の自然対数
の26.2倍と、すなわちベースbに対する対数と考え
ることができる(bは1.03888である)。20ミ
リ秒のフレーム値は又トラッカー26によって用いられ
てピークスピーチエネルギーの尺度と各チャネルの平均
雑音エネルギーの推定値が生成される。
Essentially all sets of values for the 14 channels are all shifted to the right by the same number S in module 21, thereby occupying a maximum of 7 bits or less, and the resulting values are logarithmically proportional by the header table. converted to a number. The table can be thought of back to input 127 where the result is 26.2 times the natural logarithm of the input, or the logarithm to base b (b is 1.03888). The 20 millisecond frame values are also used by tracker 26 to generate a measure of peak speech energy and an estimate of the average noise energy for each channel.

発話レベルはマイクロホン10におけるスピーチエネル
ギーの全体に任意の定数ヲ茄え九もののベースbに対す
る対数の推定値である。
The speech level is an estimate of the logarithm of the overall speech energy at the microphone 10 with respect to the base b, which can be any constant.

AGC利得の効果は基本的に除去される念めスペクトル
値ではない。例えばこの利得はフィルタバンク全体の通
過帯域のエネルギーの全体景である。
The effect of AGC gain is not essentially a spectral value that is removed. For example, this gain is a complete view of the passband energy of the entire filter bank.

発話レベルの推定値もま之関連するワードかフレーズで
あり、その時定数は短い発話がなされる時のレベルの大
きさである。従って各テンプレートあるいはテンプレー
ト期間の未知のセグメントに関連するレベル値はただ1
つしかない。トラッカー26からの雑音推定値の時間は
ま念、発話されている時間の長さにわ之って各チャネル
に割り当てられる雑音レベル推定値はただ1つでなけれ
ばならないように拘束されている。そのため第4図の対
数回路54に結合しているスピーチ及び雑音トラッカー
26からの出力値はフィルタバンクの出力の平均エネル
ギー推定値である。従ってこれらの値はAGC利得によ
りて影響され対数変換を行なわずに平均スペクトルエネ
ルギーに直接に比例する。
The utterance level estimate is also the relevant word or phrase, and its time constant is the magnitude of the level at which the short utterance is made. Therefore, there is only one level value associated with each template or unknown segment of the template period.
There is only one. The time of noise estimates from tracker 26 is strictly constrained such that there must be only one noise level estimate assigned to each channel over the length of time that is being spoken. The output value from the speech and noise tracker 26 coupled to the logarithm circuit 54 of FIG. 4 is therefore an average energy estimate of the output of the filter bank. These values are therefore influenced by the AGC gain and are directly proportional to the average spectral energy without logarithmic transformation.

信号及び種々の雑音源は統計上は独立しており、そのエ
ネルギーは平均して腑算される。これは内部ノイズ源を
決定するのに都合がよいだけではなく、音響雑音及び信
号源の両方の優れた近似であることが実証されている。
The signal and the various noise sources are statistically independent and their energies are calculated on average. This is not only convenient for determining internal noise sources, but has also proven to be a good approximation of both acoustic noise and signal sources.

さらにマイクロホンにおける等価雑音/ヤワーとなる可
能性がある雑音値があると考えられる。これらの値は音
響雑音ノ中ワ一及び他のシステム雑音ノ4ワーを含み、
一部はAGC45の利得によって減少される。
Furthermore, there is considered to be a noise value that may be the equivalent noise/yew in the microphone. These values include acoustic noise and other system noise;
A portion is reduced by the gain of AGC45.

従って第4図より導出され第2図及び第3図に示されて
いるスケール係数が雑音関連テンプレートを生成するた
めに与えられている几め、テンプレート平均化工程を使
用することによって、同じ発話レベル及びS/N比にお
ける全てのトークンの対数スペクトルパラメータを平均
化することによって得られるのと同じ、ま念は等価な平
均テンプレート金生成することができる。したがって、
全体的な問題を簡単にするために、全てのテンプレート
ならびに全てのテンプレートトークンのS/N比が同じ
であると考える。これは全てのトークンの発話レベルを
同じに調節することによって実行することができるため
、同一のS/N比は全トークンの雑音値と同じになる。
Therefore, by using the template averaging process, the scale factors derived from FIG. 4 and shown in FIGS. The same idea can be generated by averaging the logarithmic spectral parameters of all tokens in the S/N ratio and S/N ratio. therefore,
To simplify the overall problem, consider that all templates as well as all template tokens have the same signal-to-noise ratio. This can be done by adjusting the speech level of all tokens to be the same, so that the same S/N ratio will be the same as the noise value of all tokens.

この考え方に基づいて雑音の同等値を平均化する全ての
フオームを作ることができる。
Based on this idea, all forms that average the equivalent values of noise can be created.

上記のようにテンプレートのS/N比が未知のスピーチ
と同じ場合は、認識性能は雑音がそれよりも太きかっ念
り小さかつなりするテンプレートの場合よりも良好であ
ることが研究かられかっている。従って上記の技術に基
いて、音声信号のS/Nを予想し、それによりてテンプ
レートが入ってくる未知のスピーチと同じS/N比のス
ピーチから生成される1かのようで”あるようにテンプ
レートを使用される前に、変調して認識性能を最適化す
ることができることが示される。
Research has shown that when the S/N ratio of the template is the same as that of the unknown speech, as shown above, the recognition performance is better than when the noise is thicker or smaller. There is. Therefore, based on the above technique, we can predict the S/N of the audio signal so that the template will appear as if it were generated from speech with the same S/N ratio as the incoming unknown speech. It is shown that the template can be modulated to optimize recognition performance before it is used.

従って2つのステップが用いられる。1つは入ってくる
スピーチのS/N比を予想してテンプレートをこの要求
に合うように変調することである。
Two steps are therefore used. One is to anticipate the signal-to-noise ratio of the incoming speech and modulate the template to suit this requirement.

そのため以下に説明するようにスピーチ及び雑音トラッ
カー26は、各チャネル内のスピーチパワーが各々の音
声内容によりてワードからワードへ変化するので各チャ
ネル中のスピーチパワーの推定値を形成しない。その九
めどのようなワードが話されるか予想することはできな
いので、データには予想力はない。重要なことは通常の
工程の場合各チャネルのS/N比の推定値は有しないと
いうことである。従って上記のようにテンプレート変調
工程ではチャネルごとに特定のS/N比を用いることは
ない。その友め雑音パワーから生じその平均値に等しい
テンプレートは認識システムにおいて非常に良好に動作
する。
Therefore, as explained below, the speech and noise tracker 26 does not form an estimate of the speech power in each channel because the speech power in each channel varies from word to word depending on the speech content of each channel. Since it is impossible to predict what words will be spoken, the data has no predictive power. What is important is that in a normal process, there is no estimate of the S/N ratio for each channel. Therefore, as mentioned above, the template modulation process does not use a specific S/N ratio for each channel. A template resulting from the noise power equal to its average value performs very well in recognition systems.

すなわち、雑晋ノ4ワーが平均値を用いるのに十分であ
るためにそのフレーム/フレーム可変性を考える必要は
ないのである。そしてテンプレートパラメータは、現在
の平均雑音パワーと結合されている6ベースフオーム1
テンプレートに効率的に存在するのと同じスピーチパワ
ーから生成されるものである。基本的には上記のように
、スピーチ及び雑音トラッカー26はデジタル信号処理
(DSP )回路であり、付加音響雑音が存在するスピ
ーチ信号のパワーレベルの尺度と任意の形態のバンドパ
スフィルタバンクチャネルの平均雑音パワーの尺度金与
えるアルゴリズムを実行するように動作する。見出され
た発話レベルの尺度は、背戸認識の几めにS/N比を調
節するのく適切な話者の会話レベルを示す。発話レベル
の他の尺度は速く変化し、および/あるいに話されたス
ピ−チ内の音声及び音声でない音の発生の相対周波数を
伴う。スピーチ及び雑音トラッカーによって見出される
尺度は、母音核中のわずかになめらがなピークツぐワー
を検出することによってこれらの問題を回避している。
That is, there is no need to consider the frame-to-frame variability since it is sufficient to use the mean value of the noise. And the template parameters are 6 base forms 1 combined with the current average noise power
It is generated from the same speech power that is effectively present in the template. Basically, as described above, the speech and noise tracker 26 is a digital signal processing (DSP) circuit that provides a measure of the power level of the speech signal in the presence of additive acoustic noise and the average of any form of bandpass filter bank channel. The algorithm operates to give a measure of noise power. The utterance level measure found indicates the speaker's conversation level that is appropriate for adjusting the S/N ratio for Seido recognition. Other measures of speech level involve rapid changes and/or relative frequencies of vocal and non-speech sound occurrences within spoken speech. Measures found by speech and noise trackers avoid these problems by detecting slightly smooth peaks in vowel nuclei.

さらに詳細に説明すると、それはよりエネルギーの多い
母音核中にあるわずかになめらかなビークツ母ワーを探
り出すのである。ストレスのかからない子音及び母音核
でないスピーチ間隔における・やワーピークを無視する
ことによって、一般的なスピーチレベルを継続して指示
する。トラッカーは、雑音パワーの全体量がスピーチ内
の母音核生成率(通常5ないし157秒)に比較して通
常ゆっくりと変化する場合、存在するスピーチと無関係
な付加雑音が存在する状態で用いられる。トラッカーは
ま念雑音レベルにおけるより高速の変化から回復するよ
うに動作する。スピーチ及び雑音トラッカー26は対数
、または圧縮技術を用いており、それによって関心のあ
る周波数領域のスピーチパワーの全体量の尺度が与えら
れる。この尺度はまずゆっくりと上昇し速やかに下降す
るフィルタ処理を受けるが、この場合の上昇及び下降時
間制限は、初めの数ミ’)秒の母音核の間の瞬間的信号
パワー及びフィルタ値の間に大きな正の差が存在し大き
な負の値の差は生じないように選択される。
More specifically, it detects the slightly smoother Beekz vowel within the more energetic vowel nucleus. Continue to indicate general speech levels by ignoring unstressed consonants and warp peaks in speech intervals that are not vowel nuclei. Trackers are used in the presence of additive noise that is unrelated to the existing speech, where the total amount of noise power typically changes slowly compared to the vowel nucleation rate within the speech (typically 5 to 157 seconds). The tracker operates to recover from faster changes in noise level. Speech and noise tracker 26 uses a logarithmic, or compression technique, which provides a measure of the total amount of speech power in the frequency domain of interest. This measure is initially filtered to rise slowly and then fall quickly; the rise and fall time limits in this case are the instantaneous signal power between the vowel nuclei in the first few milliseconds and the difference between the filter value and are selected such that there are large positive differences in the values and no large negative differences in values.

その之め瞬間的信号ノ4ワー及び迅速に下降してゆっく
りと上昇するフィルタ値の間の差の非線形関数は次に適
切な期間の可動ボックスカー積分工程に向けられ、結果
的に生じる値がスピーチ間隔における通常の、あるいは
ストレスのかかっている母音核中だけの適切なしきい値
よりも上昇し、ストレスのかからない母音核はスキラグ
する。このしきい値との交差はスピーチ核による高い信
号ノヤワーの間隔を識別するのに用いられる。従って識
別される間隔だけがスピーキングレベルトラッキングに
用いられる。そしてスピーチ核しきい値より小さい第2
のしきい値より大きい?ツクスカー積分処理からの値が
スピーチパワー及び雑音ノ4ワーを保持する間隔を識別
するのに用いられる。
Therefore, the nonlinear function of the difference between the instantaneous signal value and the rapidly falling and slowly rising filter value is then directed into a moving boxcar integration step of appropriate duration, and the resulting value is It rises above the appropriate threshold only in normal or stressed vowel nuclei in speech intervals, and unstressed vowel nuclei become skilagged. Crossing this threshold is used to identify intervals of high signal noise due to speech kernels. Therefore, only the intervals that are identified are used for speaking level tracking. and a second smaller than the speech kernel threshold.
greater than the threshold of ? The values from the Tsuksker integration process are used to identify intervals that retain speech power and noise power.

ボックスカー積分値が第2の(低い方の)しきい値より
も小さく又瞬間パワーがその高速下降遅速上昇フィルタ
値よりも大きい第3のしきい値よシも大きくない場合の
間隔だけが、雑音パワートラッキング機能の入力として
用いられる。
Only those intervals where the boxcar integral value is less than the second (lower) threshold and the instantaneous power is not greater than the third threshold, which is greater than the fast-down, slow-up filter value, Used as input for noise power tracking function.

雑晋ノJ?ワードラッキングモジュールは基本的に集積
回路チップによって構成されているデジタル信号プロセ
ッサが含まれている。このようなチップの多くは基本的
にグロダラム可能でありて色々な型式のアルゴリズムを
実行するように構成することができる。雑音及び信号ト
ラッキング機能に関連するアルプリズムは信号エネルギ
ー内容及び雑音エネルギー内容の両方を決定するように
動作し、以下の方法で動作する。
Miscellaneous J? The word tracking module includes a digital signal processor that is basically constructed by an integrated circuit chip. Many such chips are fundamentally programmable and can be configured to perform various types of algorithms. The Alprism associated with the noise and signal tracking function operates to determine both signal and noise energy content and operates in the following manner.

まずチャネルエネルギーを示す数値を得る。これは各フ
レーム全てで行なわれる。次に全体のエネルギーが計算
される。そして自動利得制御変化に適応するようにシス
テムが動作することができる。エネルギーが計算される
と、次にその結果が与えられた期間にわなって平滑にさ
れる。平滑にされたエネルギー値が得られt後、エネル
ギー全体量の対数値を計算する。エネルギー全体の対数
値を計算し次後、パントノ!スフイルタアレイに対する
入力におけるボックスカー積分あるいはスピーチレベル
推定値の平均を実行する。次のステップでは非対称フィ
ルタが用いられ、スピーチ信号の上昇時間を監視するこ
とによってスピーチ検出のログエネルギーをフィルタす
る。スピーチ信号が包括的に解釈され、入ってくる信号
が雑音であるか、あるいは雑音またはスピーチ信号では
ない加工信号である可能性があり、激しい呼気や基本的
には情報ではなく雑音で4もない話者の声の他のいくつ
かの他の特性によるものである。いずれ圧してもこれも
又真のスピーチ信号である。
First, obtain a numerical value indicating the channel energy. This is done every frame. The total energy is then calculated. The system can then operate to adapt to automatic gain control changes. Once the energy has been calculated, the result is then smoothed over a given period. After t the smoothed energy value is obtained, the logarithm of the total amount of energy is calculated. After calculating the logarithm of the entire energy, Pantono! Perform a boxcar integral or average of the speech level estimates on the input to the filter array. In the next step, an asymmetric filter is used to filter the log energy of the speech detection by monitoring the rise time of the speech signal. The speech signal is comprehensively interpreted, and the incoming signal may be noise, or it may be noise or a processed signal that is not a speech signal, such as heavy exhalation or basically noise rather than information. It is due to some other characteristics of the speaker's voice. This is also a true speech signal in any case.

従りてこれを決めるtめに、平滑化されたエネルギーに
おける対数エネルギーの瞬間値を監視する。アルゴリズ
ムは、信号の上昇及び下降時間に関連する時間間隔を与
えられ九間隔に分割するように動作する。上昇が負に比
べて正である時は、入ってくる信号の特性を認識するの
に一定の決定が行なわれる。これらの決定罠よって上記
のようにスピーチであるか、加工であるか、あるいは純
粋の雑音であるかを決める。例えば上昇が負である期間
では、上昇が継続的に負である場合は雑音信号であると
完全に考えられる。雑音信号が受は取られて、システム
は雑音値を滑らかにし、これらの値を平均雑音エネルギ
に寄与させ、計算値を用いてこの値を雑音推定値にあて
ることによって信号を継続的にトラックする。次にこれ
全周いてテンプレートを形成する。正の移行に関する注
意はさらに困難である。
Therefore, to determine this, the instantaneous value of the logarithmic energy in the smoothed energy is monitored. The algorithm operates to divide the time interval associated with the rise and fall times of the signal into nine given intervals. When the rise is positive compared to negative, certain decisions are made to recognize the characteristics of the incoming signal. These decision traps determine whether it is speech, processing, or pure noise as described above. For example, during a period when the rise is negative, if the rise is continuously negative, it is perfectly considered to be a noise signal. As the noise signal is received, the system continuously tracks the signal by smoothing the noise values, contributing these values to the average noise energy, and using the calculated value to apply this value to the noise estimate. . Next, wrap it all around to form a template. Caution regarding positive transitions is even more difficult.

正の移行は雑音か、加工か、あるいはスピーチをiわし
ている。この決定のために非線形関数の積分で実行し動
作する。従りて積分値を一定のしきい値と比較すること
に基づいて、正の上昇がスピーチか、雑音か、あるいは
加工のどれを表わしているかを決定することができる。
Positive transitions are noise, processing, or speech. For this determination, we perform and operate on the integral of a nonlinear function. Based on comparing the integral value with a fixed threshold value, it can therefore be determined whether a positive increase represents speech, noise or processing.

このようにしてスピーチ及び雑音トラッカーモジュール
かう生じ比値は真のスピーチ値を表わす。第5A図乃至
第5C図にはスピーチ及び雑音トラッカーのプログラム
が示されておシ、ここでは完全なプログラムが示されて
いる。
In this way, the resulting ratio values from the speech and noise tracker module represent true speech values. The speech and noise tracker program is shown in FIGS. 5A-5C, where the complete program is shown.

第6図は第5A図乃至第5C図に示されているゾログラ
ミングフォーマットヲ理解する九めに必要な・工学パラ
メータを定義が示す。さらに説明すると、この過程は各
単一フレームで実行されて以下のように動作する。第5
A図に示されている方法の第1のステップでは各チャネ
ルでのエネルギーが全体エネルギーと共に得られる。こ
れはステップ1および2に示される。そしてエネルギー
は各チャネルで濾過され、自動利得制御スケール変化を
第3及び第4ステツプに示されているように行つ。次の
ステップではエネルギー値をなめらかにし、AGCに対
して補正されるエネルギーのなめらかな対数値を得る。
FIG. 6 defines the engineering parameters necessary to understand the Zorogramming format shown in FIGS. 5A-5C. To explain further, this process is performed for each single frame and operates as follows. Fifth
In the first step of the method shown in Figure A, the energy in each channel is obtained together with the total energy. This is shown in steps 1 and 2. The energy is then filtered in each channel with automatic gain control scale changes as shown in the third and fourth steps. The next step is to smooth the energy values to obtain a smooth logarithmic value of the energy that is corrected for AGC.

これはステップ5,6.7に示されている。次のステッ
プではステップ8においてスピーチレベル推定値のMy
クスカー平均を取る。そしてエネルギーの非対称フィル
タ値を得て、ステップ9及び10に示されている濾過さ
れた値における現在のエネルギーの上昇を得る。
This is shown in steps 5, 6.7. In the next step, in step 8, the speech level estimate My
Take the Cusker average. We then obtain the asymmetric filtered value of the energy and obtain the current energy rise in the filtered value shown in steps 9 and 10.

そしてプログラムは第5B図に移る。第5A図のステッ
プ10に示されている変数rは、現在の対数エネルギー
がその非対称的な平滑な値を越えるような量である。母
音核の期間rは正であシ、かなυの間隔の期間にわたり
て正にとどまっている。
The program then moves to Figure 5B. The variable r, shown in step 10 of FIG. 5A, is the amount by which the current logarithmic energy exceeds its asymmetric smooth value. The period r of the vowel nucleus is positive and remains positive over the period of the interval kana υ.

これはその正及び負の期間に特に顕著性をWする念め、
最初に正になったり負になったりする時に特別な処理が
必要となる。これは第5B図に詳細に示されている。r
が最初に正になると、フレーム番号全明確なスピーチ核
の可能な始まシとして記録する。そしてそれがスピーチ
であるかどうかを決めるのに用いられる値Pfリセット
し、雑音トラッキングを中断するよう【動作する。いず
れにしてもrt1正にとどまる間は、値py累算してP
が特定のしきい値を越えるかどうかの加工及びスピーチ
フラグ全セットする。これらは第5B図の左側に示され
ている。rが最初に正になると、雑音トラッカーを最後
の既知の雑音値にリセットするため、スピーチあるいは
加工が検出されたかどうかについて与えられ次遅延の後
に雑音トラッキングを再開し、一方で概算され几スピー
チレベルが雑音レベルから十分に高いことを確認する。
This is to give particular prominence to its positive and negative periods,
Special handling is required when it first becomes positive or negative. This is shown in detail in Figure 5B. r
The first time that becomes positive, we record the frame number as the possible beginning of all distinct speech kernels. It then resets the value Pf used to determine whether it is speech and interrupts noise tracking. In any case, while rt1 remains positive, the value py is accumulated and P
Processing and speech flags are all set to determine if the value exceeds a certain threshold. These are shown on the left side of Figure 5B. When r first becomes positive, it resets the noise tracker to the last known noise value and resumes noise tracking after a given delay as to whether speech or manipulation was detected, while the approximated speech level is sufficiently high above the noise level.

スピーチがこの上昇中に検出されると、フレームが既知
のスピーチ間隔の端部として番号に関して記録される。
If speech is detected during this rise, a frame is recorded in terms of number as the end of a known speech interval.

rが負にとどまる間は所定の遅延の後に継続して雑音を
追跡する。これは全て与えられ比色々な動作を明確に記
載する囲まれ念フローチャート例示されている。
Continue to track the noise after a predetermined delay while r remains negative. This is all given in an illustrated flowchart that clearly describes the various operations.

第5C図は基本的に、例えば第2図及び第4図に示され
ている動作テンプレートを与える之めに用いられる出力
変数の生成を示している。従って上記かられかるように
、本発明のシステムの主要な考え方では、゛テンプレー
トラ与え、それによって雑音を正しい予想された方法で
付茄して関連する予想S/N比を有するテンプレート’
を形成する。
FIG. 5C essentially illustrates the generation of output variables used to provide the motion templates shown in FIGS. 2 and 4, for example. Therefore, as can be seen from the above, the main idea of the system of the present invention is to provide a template template, thereby adding noise in the correct and expected manner to create a template with an associated expected signal-to-noise ratio.
form.

テンプレートに関連する雑音レベルは入ってくる信号に
存在する雑音の推定値を示している。この方法で基本的
に音声認識システムの認識の可能性を増加させる。  
                 −上記のように雑
音を付加することによってこのようなテンプレートを生
成することは、テンプレート全円いて入ってくる信号と
同じ比較をして、その信号が実際にスピーチか、加工か
、あるいは雑音かを決める任意の音声認識システムに用
いることができる。従って雑音のない状態でまず形成さ
れ、雑音のある状態のこれらの予想値に等しくなるよう
に変調することによって、このシステムは雑音のある状
態で使用できるように改善された音声認識テンプレート
を与えるように動作する。
The noise level associated with the template represents an estimate of the noise present in the incoming signal. In this way you basically increase the recognition potential of the speech recognition system.
- Generating such a template by adding noise as described above means that the entire template can be compared with the incoming signal to determine whether the signal is actually speech, processing, or noise. It can be used in any speech recognition system that determines the Therefore, by modulating to be equal to these expected values in noisy conditions, which are first formed in the absence of noise, the system provides improved speech recognition templates for use in noisy conditions. works.

【図面の簡単な説明】[Brief explanation of the drawing]

第1A図は本発明を用いたスペクトルから導出される認
識ノぐラメータを用いた音声認識システムを示すブロッ
ク図である。 第1B図は本発明に従って自然界中のスペクトルである
認識パラメータを用すた別の音声認識システムを示すブ
ロック図である。 第2図は動作テンプレートデータを形成する本発明によ
る技術を示す詳細なブロック図である。 第3図は第2図に示された色々な出力の定義の表を示す
図である。 第4図は本発明の別の実施例の詳細なブロック図である
。 第5A図乃至第5C図は本発明によるスピーチ及び雑音
トラッカーの動作を示す詳細なフローチャートである。 第6図は第5A図乃至第5C図による工学パラメータの
定義の表を示す図である。 10・・・マイクロホン、11・・・増幅器、12・・
・スペクトル分析器、13.100・・・スイッチ、1
4゜15.16.20,21,25,27,40゜16
2.166・・・モジュール、26・・・トラッカー、
160・・・プロセッサ、31.32・・・加算器、5
4・・・対数回路。 出願人代理人  弁理士 鈴 江 武 彦Fig、2゜ tFNT、P81 Fi9  3 n々、5こ ■
FIG. 1A is a block diagram illustrating a speech recognition system using a spectrum-derived recognition parameter according to the present invention. FIG. 1B is a block diagram illustrating another speech recognition system using recognition parameters that are spectral in nature in accordance with the present invention. FIG. 2 is a detailed block diagram illustrating a technique according to the present invention for forming motion template data. FIG. 3 is a table of definitions of the various outputs shown in FIG. 2. FIG. 4 is a detailed block diagram of another embodiment of the invention. Figures 5A-5C are detailed flowcharts illustrating the operation of the speech and noise tracker according to the present invention. FIG. 6 is a diagram showing a table of definitions of engineering parameters according to FIGS. 5A to 5C. 10...Microphone, 11...Amplifier, 12...
・Spectrum analyzer, 13.100...switch, 1
4゜15.16.20,21,25,27,40゜16
2.166...Module, 26...Tracker,
160...Processor, 31.32...Adder, 5
4... Logarithmic circuit. Applicant's agent Patent attorney Suzue TakehikoFig, 2゜tFNT, P81 Fi9 3 n, 5 ■

Claims (21)

【特許請求の範囲】[Claims] (1)発話のスペクトルの大きさを出力で与え、記憶さ
れたテンプレートを処理されたスペクトル値と比較して
前記発話のスピーチの存在を示す良好な比較が得られる
と出力を与えるスペクトル分析器を備え、前記記憶され
たテンプレートを生成するための装置を具備している音
声認識システムにおいて、 前記スペクトル分析器に結合し、入ってくる信号の予想
される雑音信号を示す信号を与えるための第1の手段と
、この第1の手段と結合して前記予想される雑音信号に
応答して前記予想される雑音信号に従って変調されるテ
ンプレートを生成する手段とを備えていることを特徴と
する音声認識システム。
(1) a spectral analyzer which provides as an output the spectral magnitude of an utterance and which compares a stored template with the processed spectral values and provides an output if a good comparison is obtained indicating the presence of speech in said utterance; a speech recognition system, comprising: a device for generating said stored template; and means for generating, in combination with the first means, a template that is modulated in accordance with the expected noise signal in response to the expected noise signal. system.
(2)前記第1の手段は、出力において雑音の存在する
スピーチ信号のパワーレベルを示す第1の信号と平均雑
音パワーを示す第2の信号を与えるように動作するスピ
ーチ及び雑音レベルトラッキング手段を具備している特
許請求の範囲第1項記載の音声認識システム。
(2) the first means includes speech and noise level tracking means operative to provide at an output a first signal indicative of the power level of the noisy speech signal and a second signal indicative of the average noise power; A speech recognition system according to claim 1, comprising: a voice recognition system according to claim 1;
(3)前記スペクトル分析器はフィルタバンクアレイ中
に配置された複数のバンドパスフィルタを備え、各フィ
ルタはこのフィルタの帯域に従って所定のスペクトル成
分を通過させるように構成されている特許請求の範囲第
1項記載の音声認識システム。
(3) The spectrum analyzer comprises a plurality of bandpass filters arranged in a filter bank array, each filter configured to pass a predetermined spectral component according to the band of the filter. The speech recognition system according to item 1.
(4)前記第2の手段は低雑音条件下でテンプレートを
生成し前記テンプレートを前記予想される雑音信号に従
って変調させるための手段を具備している特許請求の範
囲第1項記載の音声認識システム。
(4) The speech recognition system according to claim 1, wherein the second means comprises means for generating a template under low noise conditions and modulating the template in accordance with the expected noise signal. .
(5)前記第1の手段は、入ってくるスピーチ信号のS
/N比を予想するための手段を備えている特許請求の範
囲第1項記載の音声認識システム。
(5) The first means includes an S of the incoming speech signal.
2. The speech recognition system according to claim 1, further comprising means for predicting the /N ratio.
(6)前記第1の手段は、前記バンドパスフィルタの平
均及び変化を測定して各フィルタの雑音通過特性の推定
値を与える手段を具備している特許請求の範囲第3項記
載の音声認識システム。
(6) The speech recognition according to claim 3, wherein the first means comprises means for measuring the average and change of the bandpass filter to provide an estimated value of the noise passing characteristic of each filter. system.
(7)前記雑音の推定がガウス雑音に応答する前記フィ
ルタに基づいて行なわれる特許請求の範囲第6項記載の
音声認識システム。
(7) The speech recognition system according to claim 6, wherein the estimation of the noise is performed based on the filter that responds to Gaussian noise.
(8)雑音の存在しない状態で生成された前記テンプレ
ートが雑音のないトークンテンプレートであって、この
テンプレートに応答して出力においてベースフォームデ
ータを与えるための平均値を与えるための手段と、この
ベースフォームデータを現在予想される雑音信号に従っ
て変調する手段を備えている特許請求の範囲第4項記載
の音声認識システム。
(8) the template generated in the absence of noise is a noise-free token template, means for providing an average value for providing base form data in an output in response to the template; 5. A speech recognition system as claimed in claim 4, comprising means for modulating the form data in accordance with a currently expected noise signal.
(9)発話のスペクトルの大きさを出力で与え、所定の
記憶されたテンプレートを処理されたスペクトル値と比
較して前記発話のスピーチの存在を示す良好な比較が得
られると出力を与えるスペクトル分析器を備え、前記記
憶テンプレートを生成するための装置を具備している音
声認識システムにおいて、 前記分析器に結合して、雑音の存在を示す予想計算値に
従って前記所定のテンプレートを変調することによって
記憶のためのテンプレートを生成するための処理手段と
、 前記生成されたテンプレートと入ってくる信号を比較し
て前記出力を与える手段とを具備することを特徴とする
音声認識システム。
(9) a spectral analysis which provides as an output the spectral magnitude of the utterance and provides an output if a predetermined stored template is compared with the processed spectral values and a good comparison is obtained indicating the presence of speech in said utterance; a speech recognition system comprising a device for generating the stored template, the system comprising: a device for generating the stored template; A speech recognition system comprising: processing means for generating a template for; and means for comparing the generated template with an incoming signal to provide the output.
(10)前記処理手段の前記予想計算値がガウス雑音の
存在を示す特許請求の範囲第9項記載の音声認識システ
ム。
(10) The speech recognition system according to claim 9, wherein the predicted calculated value of the processing means indicates the presence of Gaussian noise.
(11)前記処理手段は、雑音のないテンプレートを平
均化してベースフォームデータ出力を与え、又このデー
タ、すなわち計算された雑音データを加算することによ
ってこのベースフォームデータ出力を変調する手段を具
備している特許請求の範囲第9項記載の音声認識システ
ム。
(11) The processing means comprises means for averaging the noise-free template to provide a base form data output and for modulating this base form data output by adding this data, i.e. the calculated noise data. A speech recognition system according to claim 9.
(12)前記処理手段は、出力において前記分析器によ
って与えられるような前記スペクトルの大きさの値の連
続対の平均値を与える平均化手段を具備し、 前記平均化手段の出力に結合され与えられた長さのフィ
ールド信号を与えるためのスケーリング手段と、前記与
えられた長さのフィールド信号を対数信号に変換して前
記ベースフォームデータ出力を与える手段とを具備して
いる特許請求の範囲第9項記載の音声認識システム。
(12) said processing means comprises averaging means for providing at an output an average value of successive pairs of said spectral magnitude values as provided by said analyzer, coupled to the output of said averaging means; and means for converting said field signal of given length into a logarithmic signal to provide said base form data output. 9. The speech recognition system according to item 9.
(13)前記平均化手段と結合して、出力において前記
平均値の連続対の二乗の大きさを示すベクトル信号を与
えるための二乗化手段と、この二乗化手段の出力に結合
して前記ベースフォームデータ出力の別の出力を与える
手段とをさらに具備する特許請求の範囲第12項記載の
音声認識システム。
(13) squaring means coupled to said averaging means for providing at an output a vector signal indicative of the magnitude of the square of successive pairs of said mean values; 13. The speech recognition system of claim 12, further comprising means for providing another output of the form data output.
(14)前記二乗化手段の出力に結合した前記手段は、
前記ベクトル信号に応答してベースフォームエネルギー
パラメータを与えるための相対エネルギー形成手段と、
出力においてスピーチと雑音の両方のパワーレベルを示
すベースフォームパラメータを与えるためのスピーチ及
び雑音レベルトラッキング手段とを具備している特許請
求の範囲第13項記載の音声認識システム。
(14) The means coupled to the output of the squaring means:
relative energy shaping means for providing a base form energy parameter in response to the vector signal;
14. The speech recognition system of claim 13, further comprising speech and noise level tracking means for providing base form parameters indicative of both speech and noise power levels at the output.
(15)音声認識システムにおいて用いられるテンプレ
ートの形成方法であって、入ってくる信号の予想される
雑音レベルを示す信号を与え、 前記与えられた信号に従って与えられたテンプレートを
変調して前記予想される雑音レベルを有するテンプレー
トを与えるステップを具備する方法。
(15) A method for forming a template used in a speech recognition system, the method comprising: providing a signal indicating an expected noise level of an incoming signal; and modulating a given template according to the given signal to generate the expected noise level. 1. A method comprising: providing a template having a noise level of
(16)前記予想される雑音レベルを示す信号を与える
ステップは、雑音に関して与えられたスピーチ処理チャ
ネルの応答を測定し、この測定に基づいて前記信号を推
定するステップを含む特許請求の範囲第15項記載の方
法。
(16) The step of providing a signal indicative of the expected noise level comprises the step of measuring the response of a given speech processing channel with respect to noise and estimating the signal based on this measurement. The method described in section.
(17)前記変調ステップにおいて、比較的雑音のない
ベースフォームテンプレートをまず形成し、このベース
フォームテンプレートを前記予想される雑音レベルを示
す前記信号に従って変調するステップを有する特許請求
の範囲第15項記載の方法。
17. The step of modulating comprises first forming a relatively noise-free base form template and modulating the base form template in accordance with the signal indicative of the expected noise level. the method of.
(18)前記変調ステップにおいて、比較的雑音のない
ベースフオームテンプレートを形成し、各テンプレート
に雑音を付加し、この付加雑音テンプレートデータを平
均化して前記分析データに従って新しいテンプレートを
形成するステップを有する特許請求の範囲第15項記載
の方法。
(18) A patent comprising, in the modulation step, forming relatively noise-free base form templates, adding noise to each template, and averaging the added noise template data to form a new template according to the analysis data. The method according to claim 15.
(19)信号を与えるためのステップは、入ってくる信
号のS/N比を、全てのテンプレートの対数スペクトル
パラメータを同じ発話レベル及びS/N比において平均
化することによつて、存在する信号のパワーの変調によ
って認識されるように予想するステップと、前記平均パ
ラメータを用いて変調テンプレートを形成するステップ
とを含む特許請求の範囲第15項記載の方法。
(19) The step of providing the signal is to reduce the S/N ratio of the incoming signal to the existing signal by averaging the log spectral parameters of all templates at the same speech level and S/N ratio. 16. The method of claim 15, comprising the steps of: predicting as perceived by a modulation of the power of the power; and forming a modulation template using the average parameter.
(20)音声認識システムにおいて用いられるテンプレ
ートを形成する方法において、 形成されたテンプレートをそれらが比較に用いられる前
に予想値を示す前記テンプレートに雑音信号を付加する
ことによって変調し、前記変調されたテンプレートが入
って来る認識されるべき信号と同じS/N比を保持する
スピーチ信号から生成されるかのように動作させること
を特徴とする方法。
(20) A method of forming templates for use in a speech recognition system, comprising: modulating the formed templates by adding a noise signal to said templates representing expected values before they are used for comparison; A method characterized in that the template operates as if it were generated from a speech signal that maintains the same signal-to-noise ratio as the incoming signal to be recognized.
(21)前記変調するステップは現在の発話レベルに基
づく前記予想値として現在のS/N比を用いることによ
って入ってくるスピーチ信号のS/N比を予想し、現在
の雑音パワー及びスピーチパワーを平均化して前記付加
雑音信号を限定するステップを含む特許請求の範囲第2
0項記載の方法。
(21) The step of modulating predicts the S/N ratio of the incoming speech signal by using the current S/N ratio as the expected value based on the current speech level, and the step of modulating the current noise power and speech power. Claim 2 comprising the step of limiting said additive noise signal by averaging.
The method described in item 0.
JP1048418A 1988-02-29 1989-02-28 Apparatus and method for selectively adding noise to a template used in a speech recognition system Expired - Lifetime JP3046029B2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16150488A 1988-02-29 1988-02-29
US161,504 1988-02-29

Publications (2)

Publication Number Publication Date
JPH01255000A true JPH01255000A (en) 1989-10-11
JP3046029B2 JP3046029B2 (en) 2000-05-29

Family

ID=22581453

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1048418A Expired - Lifetime JP3046029B2 (en) 1988-02-29 1989-02-28 Apparatus and method for selectively adding noise to a template used in a speech recognition system

Country Status (3)

Country Link
JP (1) JP3046029B2 (en)
FR (1) FR2627887B1 (en)
GB (1) GB2216320B (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526006A (en) * 2014-07-28 2017-09-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder and system for transmitting an audio signal

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1199488A (en) * 1995-08-24 1998-11-18 英国电讯公司 Pattern recognition
US5960397A (en) * 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
DE29718636U1 (en) * 1997-10-21 1998-02-12 Rosenbaum Lothar Phonetic control, input and communication device with acoustic feedback, especially for woodworking machines
DE102017200122B4 (en) 2017-01-05 2020-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wafer level package with integrated antennas and means for shielding, system for this and method for its production
DE102017200121A1 (en) 2017-01-05 2018-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wafer Level Package with at least one integrated antenna element

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4720802A (en) * 1983-07-26 1988-01-19 Lear Siegler Noise compensation arrangement
DE3766124D1 (en) * 1986-02-15 1990-12-20 Smiths Industries Plc METHOD AND DEVICE FOR VOICE PROCESSING.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017526006A (en) * 2014-07-28 2017-09-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder and system for transmitting an audio signal
JP2019023742A (en) * 2014-07-28 2019-02-14 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン Method for estimating noise in audio signal, noise estimation device, audio encoding device, audio decoding device, and audio signal transmitting system

Also Published As

Publication number Publication date
FR2627887A1 (en) 1989-09-01
GB2216320A (en) 1989-10-04
GB2216320B (en) 1992-08-19
FR2627887B1 (en) 1994-05-13
GB8902475D0 (en) 1989-03-22
JP3046029B2 (en) 2000-05-29

Similar Documents

Publication Publication Date Title
Sharma et al. Trends in audio signal feature extraction methods
US4933973A (en) Apparatus and methods for the selective addition of noise to templates employed in automatic speech recognition systems
CN108198547B (en) Voice endpoint detection method and device, computer equipment and storage medium
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
WO2021139425A1 (en) Voice activity detection method, apparatus and device, and storage medium
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
US8160877B1 (en) Hierarchical real-time speaker recognition for biometric VoIP verification and targeting
Kinnunen et al. Voice activity detection using MFCC features and support vector machine
EP1083541B1 (en) A method and apparatus for speech detection
Hu et al. Pitch‐based gender identification with two‐stage classification
WO2014153800A1 (en) Voice recognition system
JPH0990974A (en) Signal processor
Bach et al. Robust speech detection in real acoustic backgrounds with perceptually motivated features
CN108091340B (en) Voiceprint recognition method, voiceprint recognition system, and computer-readable storage medium
Archana et al. Gender identification and performance analysis of speech signals
Alonso-Martin et al. Multidomain voice activity detection during human-robot interaction
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
Couvreur et al. Automatic noise recognition in urban environments based on artificial neural networks and hidden markov models
US20060020458A1 (en) Similar speaker recognition method and system using nonlinear analysis
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Raghib et al. Emotion analysis and speech signal processing
JPH01255000A (en) Apparatus and method for selectively adding noise to template to be used in voice recognition system
Aibinu et al. Evaluating the effect of voice activity detection in isolated Yoruba word recognition system

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090317

Year of fee payment: 9

EXPY Cancellation because of completion of term