JPH02298998A - Voice recognition equipment and method thereof - Google Patents

Voice recognition equipment and method thereof

Info

Publication number
JPH02298998A
JPH02298998A JP2092371A JP9237190A JPH02298998A JP H02298998 A JPH02298998 A JP H02298998A JP 2092371 A JP2092371 A JP 2092371A JP 9237190 A JP9237190 A JP 9237190A JP H02298998 A JPH02298998 A JP H02298998A
Authority
JP
Japan
Prior art keywords
analysis
speech
words
word
spoken
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2092371A
Other languages
Japanese (ja)
Inventor
Ian Bickerton
イアン ビッカートン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smiths Group PLC
Original Assignee
Smiths Group PLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smiths Group PLC filed Critical Smiths Group PLC
Publication of JPH02298998A publication Critical patent/JPH02298998A/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

PURPOSE: To effectively recognize a speech by allowing a pattern matching unit to analyze a speech signal through the use of both of the output of a neural network unit and a vocabulary identifying output so as to output a signal expressing a word in the speech. CONSTITUTION: A memory 17 includes speech information concerning the vocabulary of recognizable words and the pattern matching unit 16 identifies a boundary between different words and in order to give the first display of the word in the speech, compares stored vocabulary and the speech signal to execute the first analysis of the speech signal. Then this device includes the neural network unit 20 connected with the pattern matching unit 16. This pattern matching unit 16 executes the second analysis of the speech signal utilizing both of the output of the neural network unit 20 and vocabulary identification from first analysis and gives an output signal expressing the word in the speech at least from second analysis.

Description

【発明の詳細な説明】 (技術分野) この発明はスピーチ信号の第1分析が異なる語(wor
d )の間の境界(boundary )を識別し、か
つ蓄積語常(stored vocabulary )
との比較によって会話された語(words 5pok
en)の第1表示を与えるよう実行される種類の音声認
識方法に関連している。
DETAILED DESCRIPTION OF THE INVENTION (Technical Field) The present invention provides a first analysis of a speech signal for different words.
d) and identify the boundaries between
Words spoken by comparison with words (words 5pok)
en) relates to a speech recognition method of the type which is carried out to give a first representation of the speech recognition method.

(背景技術) 多重機能を有する複雑な装置において、会話された指令
(spoken commands )により装置を制
御できることは有用である。これはまたユーザーの手が
他の仕事に占有されるところ、あるいはユーザーが障害
を持ち、かつ通常の機械的スイッチや制御装置を操作す
るために自分の手が使えないところで有用である。
BACKGROUND OF THE INVENTION In complex equipment having multiple functions, it is useful to be able to control the equipment by spoken commands. It is also useful where the user's hands are occupied with other tasks, or where the user is disabled and cannot use his or her hands to operate normal mechanical switches and controls.

スピーチにより制御された装置による問題は、音声認識
が信頼性が無く、特に会話者の声が振動のような環境フ
ァクターで変更されるところではそうである。これは動
作の失敗あるいはさらに悪い場合には不正確な動作を導
く。
A problem with speech-controlled devices is that voice recognition is unreliable, especially where the interlocutor's voice is modified by environmental factors such as vibrations. This leads to failure or worse, incorrect operation.

音声認識には種々の技術が使用されている。1つの技術
はマルコフモデルの使用を含み、これは連続音声の語の
間の境界を容易に識別できるという理由で有用である。
Various techniques are used for speech recognition. One technique involves the use of Markov models, which are useful because boundaries between words in continuous speech can be easily identified.

雑音の多い環境あるいはスピーチが会話者の緊張により
劣化されるところでは、マルコフモデル技術は会話され
た語の十分信頼性ある識別を与えないであろう。最近、
雑音補償、補間、シンタックス選択および他の方法によ
りそのような技術の性能を改良するかなりの努力が払わ
れてきた。
In noisy environments or where speech is degraded by the nervousness of the interlocutors, Markov model techniques may not provide sufficiently reliable identification of spoken words. recently,
Considerable efforts have been made to improve the performance of such techniques through noise compensation, interpolation, syntax selection and other methods.

音声認識に提案されてきた代案の技術は神経網(neu
ral nets)を利用している。これらの神経網技
術はスピーチがひど(劣化されていても個別の語を高い
精度で識別することができる。しかしそれらは連続音声
の認識には通していない。というのはそれらが語の境界
を正確に識別できないからである。
An alternative technology that has been proposed for speech recognition is neural networks.
ral nets). These neural network techniques are able to identify individual words with high accuracy even when speech is severely degraded. However, they do not pass for recognition of continuous speech, since they do not recognize word boundaries. This is because it cannot be identified accurately.

(発明の開示) 本発明の目的は改良された音声認識装置と音声認識方法
を与えることである。
DISCLOSURE OF THE INVENTION An object of the present invention is to provide an improved speech recognition device and method.

本発明の一態様によると、上に規定された種類の音声認
識の方法が備えられ、それは該方法が会話された語の第
2表示を与えるために神経網技術と第1分析からの語境
界識別を使用してスピーチ信号の第2分析を実行し、か
つ少なくとも第2表示から会話された語を表す出力信号
を与えるステップを含むことを特徴としている。
According to one aspect of the invention, a method of speech recognition of the type defined above is provided, which method uses neural network techniques and word boundaries from a first analysis to give a second representation of spoken words. Performing a second analysis of the speech signal using the identification and providing an output signal representing spoken words from at least the second display.

第1分析はマルコフモデルを使用して実行できる。給電
はダイナミック時間ワーピングテンプレ) (dyna
mic time warping template
 )を含み、かつ第1分析は非対称ダイナミック時間ワ
ーピングアルゴリズムを使用して実行できる。
The first analysis can be performed using a Markov model. Power supply is dynamic time warping template) (dyna
mic time warping template
), and the first analysis can be performed using an asymmetric dynamic time warping algorithm.

第1分析は複数の異なるアルゴリズムを利用して実行さ
れることが好ましく、各アルゴリズムは表示された語が
会話された語であることの信転性(con f 1de
nce )の表示と共にスピーチ信号に最も近い給電メ
モリの語を示す信号を与え、かつ異なるアルゴリズムに
より与え°られた信号間で比較が行われている。会話さ
れた語の第1表示が信顛性の測度を与えるところでは、
信顛性の測度が所定の値より大きい場合に出力信号が第
1表示のみに応答するよう備えられている。
Preferably, the first analysis is performed using a plurality of different algorithms, each algorithm determining the confidence that the displayed word is a spoken word.
A signal indicating the word of the power supply memory closest to the speech signal is provided with an indication of .nce), and a comparison is made between the signals provided by the different algorithms. Where the first representation of a spoken word provides a measure of authenticity,
The output signal is provided to respond only to the first indication if the measure of authenticity is greater than a predetermined value.

第2分析は神経網と共に多層バーセプトロン技術(mu
lti−1ayer perceptron tech
nique)を使用して実行できる。
The second analysis is based on the multilayer berceptron technique (mu) along with the neural network.
lti-1ayer perceptron tech
nique).

出力信号は会話された語の会話者にフィードバックを与
えるよう利用できる。
The output signal can be used to provide feedback to the interlocutor of the words spoken.

本方法はスピーチ信号に雑音マーキングアルゴリズム(
noise marking a1gorithn+ 
)を実行するステップを含み、かつ以前に識別された語
のシンタックスに従って蓄積語彙にシンタックス制限を
実行するステップを含むことができる。
This method uses a noise marking algorithm (
noise marking a1gorithn+
) and performing a syntax restriction on the stored vocabulary according to the syntax of the previously identified words.

本発明は音声認識装置にも関連し、認識できる語の給電
についてのスピーチ情報を含むメモリと、異なる語の間
の境界を識別しかつ会話された語の第1表示を与えるた
めに蓄積語彙とスピーチ信号を比較するスピーチ信号の
第1分析を実行するパターンマツチングユニットを含む
ものにおいて、該装置が、パターンマッチングユニッl
−(16)と接続された神経網ユニッ) (20)を含
み、該パターンマツチングユニット(16)が神経網ユ
ニット(20)の出力と第1分析からの語境界識別の双
方を利用するスピーチ信号の第2分析を実行し、がつパ
ターンマツチングユニット(16)が会話された語を表
す出力信号を少なくとも第2分析から与えることを特徴
としている 本発明による音声認識装置と方法は装置を概略示す添付
図面を参照して実例により説明されよう。
The invention also relates to a speech recognition device, comprising a memory containing speech information about the supply of words to be recognized, and a stored vocabulary for identifying boundaries between different words and providing a first representation of spoken words. a pattern matching unit for performing a first analysis of the speech signal comparing speech signals, the apparatus comprising: a pattern matching unit performing a first analysis of the speech signal;
- a neural network unit (20) connected to (16); the pattern matching unit (16) utilizes both the output of the neural network unit (20) and the word boundary identification from the first analysis; The speech recognition device and method according to the invention comprises performing a second analysis of the signal, characterized in that the pattern matching unit (16) provides an output signal representative of the spoken words from at least the second analysis. It will be explained by way of example with reference to the accompanying drawings, in which: FIG.

(実施例) 音声認識装置は参照記号1により一般的に示され、かつ
航空機パイロン+の酸素マスクに取り付けられているよ
うなマイクロホン2がら入力スピーチ信号を受信する。
Embodiment A speech recognition device receives an input speech signal from a microphone 2, indicated generally by the reference symbol 1, and such as that mounted on an oxygen mask on an aircraft pylon+.

識別された語を表す出力信号は装置lによりフィードバ
ックデバイス3および利用デバイス(utilisat
ion device) 4に印加される。フィードバ
ックデバイス3は装置1により識別されたような語の会
話者に通知するために配列された可視表示あるいは可聴
デバイスであろう。利用デバイス4は装置の出力信号か
ら利用デバイスにより認識された会話された指令に応じ
て航空機装置の機能を制御するよう配列されよう。
An output signal representing the identified word is sent by the device I to the feedback device 3 and the utilization device (utilisat
ion device) 4. The feedback device 3 may be a visual display or an audible device arranged to notify the interlocutor of such words as identified by the device 1. The utilization device 4 may be arranged to control the functions of the aircraft equipment in response to spoken commands recognized by the utilization device from the output signals of the apparatus.

マイクロホン2からの信号は前置増幅器10に供給され
、この前置増幅器10はすべての周波数チャネル出力が
同様なダイナミックレンジを占有することを保証する平
坦長期平均スピーチスペクトル(flat long−
tera+ average 5peech 5pec
tru11)(この場合その特性は公称的に1kHzま
で平坦である)を生成するプリエンファシス段11を含
んでいる。スイッチ12は高い周波数で3 dB/オク
ターブあるいは6 dB/オクターブのいずれかを与え
るよう設定できる。前置増幅器10はまた4kHzに設
定された一3dB遮断周波数を持つ8次バッターワース
低域通過フィルタの形をしているアンチアライアシング
フィルタ21を含んでいる。
The signal from the microphone 2 is fed to a preamplifier 10 which generates a flat long-average speech spectrum that ensures that all frequency channel outputs occupy a similar dynamic range.
tera+ average 5peech 5pec
tru11) (in which case its characteristics are nominally flat up to 1 kHz). Switch 12 can be set to provide either 3 dB/octave or 6 dB/octave at high frequencies. Preamplifier 10 also includes an antialiasing filter 21 in the form of an 8th order Butterworth low pass filter with a -3 dB cutoff frequency set at 4 kHz.

前置増幅器10からの出力はアナログ対ディジタル変換
器13を介してディジタルフィルタバンク14に伝達さ
れる。フィルタバンク14は7MS32010マイクロ
プロセツサのアセンブリソフトウェア−として実現され
た19個のチャネルを有し、かつアイイ−イー議事録(
IEE Proc、) 、第127巻、パートF、第1
号、1980年2月のジェー・エヌ・ホルメス(J、 
N、Ho1a+es)によるrJsR11チャネルボコ
ーダ−(JSRU Channel Vocoder)
 Jに基づいている。フィルタバンク14は周波数範囲
250 4000)1zの聴覚(auditory p
erception )の臨界帯域にほぼ対応する不均
等チャネル間隔を有している。隣接チャネルの応答はそ
れらのピークより約3dB下で交差している。チャネル
の中央において、近傍チャネルの減衰は約11dBであ
る。
The output from preamplifier 10 is transmitted via analog-to-digital converter 13 to digital filter bank 14 . The filter bank 14 has 19 channels, implemented as assembly software on a 7MS32010 microprocessor, and
IEE Proc, Volume 127, Part F, Volume 1
Issue, February 1980, J.N. Holmes (J,
rJsR11 channel vocoder (JSRU Channel Vocoder) by N,Ho1a+es)
Based on J. The filter bank 14 has an auditory frequency range of 250-4000) 1z.
It has unequal channel spacing that approximately corresponds to the critical band of erception ). The responses of adjacent channels intersect approximately 3 dB below their peaks. At the center of the channel, the attenuation of neighboring channels is approximately 11 dB.

フィルタバンク14からの信号はジヱー・ニス・プライ
ドル(J、 S、 Br1dle)等により記述された
種類の雑音マーキングアルゴリズムを組み込んだ積分・
雑音マーキングユニット15に供給される。
The signal from filter bank 14 is processed by an integral filter incorporating a noise marking algorithm of the type described by J. S. Briddle et al.
A noise marking unit 15 is supplied.

自動音声認識に適用された雑音補償スペクトル距離測度
(noise compensating spect
rum distancemeasure )について
は音響国際会議録(Proc、 In5t。
noise compensating spectral distance measure applied to automatic speech recognition
rum distance measurement) in the Proceedings of the International Conference on Acoustics (Proc, In5t).

Acoust、 ) 、ウィンドメアー(Wind*e
re) 、1984年11月を参照されたい。周期性雑
音を低減する適応雑音相殺技術(adaptive n
oise cancellationtechniqu
e )は例えば周期性ヘリコプタ−雑音の低減に使用で
きるユニット15により実現できる。
Acoust, ), Windmare (Wind*e
re), November 1984. Adaptive noise cancellation technology to reduce periodic noise
oise cancellation technology
e) can be realized, for example, by a unit 15 which can be used to reduce periodic helicopter noise.

雑音マーキングユニット15の出力は種々のパターンマ
ツチングアルゴリズムを実行するパターンマツチングユ
ニット16に供給される。パターンマツチングユニット
16は語彙メモリ17に接続され、この語彙メモf月7
はダイナミック時間ワーピング(DTW  : Dyn
amic Time Warping) )テンプレー
トと語彙中の各語のマルコフモデルを含んでいる。
The output of the noise marking unit 15 is provided to a pattern matching unit 16 which performs various pattern matching algorithms. The pattern matching unit 16 is connected to the vocabulary memory 17, and the pattern matching unit 16 is connected to the vocabulary memory 17.
is dynamic time warping (DTW: Dyn
(amic Time Warping) template and a Markov model for each word in the vocabulary.

DTWテンプレートは単一パスの時間整列平均化技術(
single pass、 time−aligned
 averagingtechnique )あるいは
埋め込みトレーニング技術(embedded tra
ining technique )のいずれかを使用
して創成できる。このテンプレートは時間に対する周波
数およびスペクトルエネルギーを表している。
The DTW template uses a single-pass time-aligned averaging technique (
single pass, time-aligned
averaging technique) or embedded training technique (embedded training technique).
can be created using any of the following techniques: This template represents frequency and spectral energy versus time.

マルコフモデルは同じ語の多くの発声からの装置のトレ
ーニングの間に導かれ、スペクトルおよび時間変化は統
計的モデルで獲得される。マルコフモデルは多数のM敗
状態からなり、各状態は一対のスペクトルフレームおよ
び分散フレーム(variance frame)から
構成されている。スペクトルフレームは120Hzから
4MHzの周波数範囲をカバーする19個の値を含み、
分散フレームは状態平均期間(state mean 
duration )の形をした各スペクトルベクトル
/特徴(feature )に関連した分散情報と標準
偏差情報を含んでいる。
A Markov model is derived during training of the device from many utterances of the same word, and spectral and temporal variations are acquired with a statistical model. The Markov model consists of a number of M losing states, each state consisting of a pair of spectral frames and a variance frame. The spectral frame contains 19 values covering the frequency range from 120Hz to 4MHz,
The distributed frame has a state mean period
Contains variance and standard deviation information associated with each spectral vector/feature in the form of duration.

トレーニングの間の個別の発声は定常音声状態(Sむa
tionary phonetfc 5tates)と
それらのスペクトル遷移(spectral tran
sition )を分類するよう分析される。モデルパ
ラメーターはエム・ジェー・ラッセル(M、 J、 R
u5sell )とアール・エッチ・ムアー(R,Ho
Moore )の[自動音声認識のヒドンマルコフモデ
ルの状態占有の明確なモデリング(Explcit s
odelling of 5tate occupan
cyin  hidden  Markov  Mod
els  for  automatic  spee
chrecognition ) J 、アイイーイー
イー音響国際会議録(Proc’IEBE Int、 
Conf、 on Acoustics )、スピーチ
と信号の処理(Speech and SignalP
rocessing) 、タンパ(Tal19a ) 
、1985年、3月26−29日により記述されたとタ
ビ再評価アルゴリズム(Viterbi re−est
imation algorithm )を使用した回
帰プロセスにより評価される。最終語モデル(fina
l word model)は時間および抑揚(inf
lection)の双方の自然会話語変動性(natu
ralspoken word variabilHy
 )を含んでいる。
Individual vocalizations during training are in a steady state of speech (Smua
tionary phonet fc 5tates) and their spectral transitions (spectral tran
location) is analyzed to classify it. Model parameters were determined by M.J. Russell (M, J, R
u5sell) and R, Ho
Moore)'s Explicit Modeling of State Occupancy in Hidden Markov Models for Automatic Speech Recognition.
odelling of 5tate occasion
cyin hidden Markov Mod
els for automatic speed
chrecognition) J, Proceedings of the International Conference on Acoustics (Proc'IEBE Int.
Conf, on Acoustics), Speech and SignalP
rocessing), Tampa (Tal19a)
, March 26-29, 1985.
It is evaluated by a regression process using the ``imation algorithm''. Final word model (fina
l word model) is time and intonation (inf
Natural conversational language variability (natu)
ralspoken word variableHy
).

メモリ17とパターンマツチングユニット16の中間に
シンタックスユニット18があり、シンタックスユニッ
ト18は以前に識別された語のシンタックスに従ってス
ピーチ信号が比較される蓄積語彙に通常のシンタックス
制限を実行する。
Intermediate between the memory 17 and the pattern matching unit 16 is a syntax unit 18 which performs the usual syntax restrictions on the stored vocabulary with which the speech signals are compared according to the syntax of previously identified words. .

パターンマツチングユニット16はまた神経網ユニット
20に接続されている。神経網ユニット20はニス・エ
ム・ピーリング(S、 M、 Peeling )とア
ール・エッチ・ムアー(R,H,Moore )により
記述された「多層バーセプトロンを用いた孤立ディジッ
ト認識の実験(Experiments in 1so
lated digitrecognition us
ing the multi−1ayer perce
ptron)、RSI?Eメモランダム第4073号、
1987年のような多層パーセブトロン(MLP : 
Multi−Layer Perceptron)を組
み込んでいる。
Pattern matching unit 16 is also connected to neural network unit 20. The neural network unit 20 is based on the ``Experiments in 1 solitary digit recognition using a multilayer berceptron'' described by S. M. Peeling and R. H. Moore.
lated digitrecognition us
ing the multi-layer perce
ptron), RSI? E Memorandum No. 4073,
Multilayer persebtron (MLP) like 1987:
Multi-Layer Perceptron).

MLPは高い背景雑音が低エネルギー摩擦音スピーチ(
fricative 5peech)のマスクを生起す
るように不完全パターンを認識できる性質を有している
。MLPはディー・イー・ルメルハー) (D、 E。
MLP is characterized by high background noise and low-energy fricative speech (
It has the property of being able to recognize incomplete patterns so as to generate a mask of fricative 5peach). MLP is D. E. Rumelher) (D, E.

Rumelhart )等により記述された「エラー後
方伝搬による学習内部表現(Learning 1nt
ernalrepresentation by er
ror back propagation)、認識科
学(Cognitive 5cience ) 、UC
5D、 ICS報告第8506号、1985年9月のよ
うな態様で実現される。
``Learning internal representation by error backward propagation'' described by Rumelhart et al.
ernalrepresentation by er
ror back propagation), Cognitive 5science, UC
5D, ICS Report No. 8506, September 1985.

パターンマツチングユニット16は会話された語と語彙
の語との間の最良マツチングを選択する3つの異なるア
ルゴリズムを使用している。
Pattern matching unit 16 uses three different algorithms to select the best match between spoken words and vocabulary words.

その1つはディー・ニス・プライドル(J、 S。One of them is Dee Nis Prydl (J, S.

Br1dle)により記述された「統計モデルとテンプ
レートマツチング:自動会話認識の明らかに異なる2つ
の技術の間のいくつかの重要な関係(Stochast
ic model and template a+a
tching :some  important  
relations  between  two  
apparently different tech
niques for automatic spee
chrecognition ) 、音響会議録(Pr
oc、In5t、 ofAcoustics ) 、ウ
ィンドメアー(Windmere)、1984年11月
およびディー・ニス・プライドル(J、S、 Br1d
le)等による「全語テンプレートを使用する連続接続
語認識(Continuous connectedw
ord recognition using who
le v<ord teaIplates) J、無線
・電子工学(Radio and Electroni
c Engineer)、第3巻、第4号、1983年
4月のような種類の非対称DTWアルゴリ、ズムである
。これは実時間音声認識に特に適している効率のよい単
一パスプロセス(single pass proce
ss )である。このアルゴリズムはユニッ)15によ
り実現された雑音補償技術で効率よく作用する。
``Statistical Models and Template Matching: Some Important Relationships Between Two Distinctly Different Techniques of Automatic Speech Recognition'' (Stochast Br1dle)
ic model and template a+a
tching :some important
relations between two
Apparently different technology
uniques for automatic speed
chrecognition), Acoustic Conference Minutes (Pr.
oc, In5t, ofAcoustics), Windmere, November 1984 and Dee Nis Preidl (J, S, Br1d
``Continuous connected word recognition using whole word templates'' by Le) et al.
ord recognition using who
J, Radio and Electronic Engineering
C Engineer), Volume 3, No. 4, April 1983. It is an efficient single pass process that is particularly suited for real-time speech recognition.
ss). This algorithm works efficiently with the noise compensation technique realized by Unit 15.

第2のアルゴリズムはヒドンセミマルコフモデル技術(
03MM : Hidden 5eat Markov
 Modeltechnique )を使用し、ここで
上述の語霊メモリ17内に含まれたマルコフモデルは会
話された語信号と比較される。会話された語の時間変動
と抑揚変動についてのマルコフモデルの追加情報はパタ
ーンマツチングの間の認識性能を増大する。実際に、D
T−およびHSMMアルゴリズムはお互いに統合されて
いる。統合されたDTW技術と15MM技術は連続スピ
ーチの隣接語間の境界の識別を可能にする。
The second algorithm is the hidden semi-Markov model technique (
03MM: Hidden 5eat Markov
Modeltechnique), where the Markov model contained in the word memory 17 described above is compared with the spoken word signal. The Markov model's additional information about the temporal and intonation variations of spoken words increases recognition performance during pattern matching. In fact, D
T- and HSMM algorithms are integrated with each other. The integrated DTW and 15MM techniques enable identification of boundaries between adjacent words in continuous speech.

第3のアルゴリズムは神経網20と共にNLP技術を使
用している。MLPはDTW /HSMMアルゴリズム
により制御され、NLPはパターンマツチングユニット
16内め(示されていない)スピーチバッファーを見る
可変窓を有し、この窓の大きさと位置はDTW/H5M
Mアルゴリズムによって決定されている。
The third algorithm uses NLP techniques with neural network 20. The MLP is controlled by the DTW/HSMM algorithm, and the NLP has a variable window viewing the speech buffer (not shown) within the pattern matching unit 16, the size and position of which is determined by the DTW/H5M algorithm.
It is determined by the M algorithm.

このようにして、HSMMアルゴリズムは語境界あるい
は端点の識別にMLPにより使用され、かつスペクトル
時間セグメントあるいは語候補はMLPにより処理でき
る。各アルゴリズムは信顛性測度と共にスピーチに最も
近いアルゴリズムによって識別された語彙メモリで語を
表示することによりスピーチ信号のその説明(expl
anation )を示す信号を与える。いくつかの語
のリストはそれらの関連信顧性測度を持つ各アルゴリズ
ムによって生成できる。ユニット16内のより高いレベ
ルのソフトウェア−は各アルゴリズムにより達成された
独立の結果を比較し、かつフィードバックデバイス3お
よび任意の加重の後のこれらの結果に基づく利用デバイ
ス4に出力を生成する。
In this way, the HSMM algorithm can be used by the MLP to identify word boundaries or endpoints, and spectral-temporal segments or word candidates can be processed by the MLP. Each algorithm uses its description of the speech signal (expl.
anation). A list of several words can be generated by each algorithm with their associated credibility measures. Higher level software within unit 16 compares the independent results achieved by each algorithm and generates an output to feedback device 3 and utilization device 4 based on these results after any weighting.

このようにして、本発明の装置は以前には可能でなかっ
た自然連続スピーチの認識に神経網技術を使用すること
を可能にする0本発明の装置と方法の1つの利点はそれ
が短い応答時間を有し、かつ会話者に迅速なフィードバ
ックを与えることである。これは特に航空機への適用に
重要である。
In this way, the device of the invention allows the use of neural network techniques for the recognition of naturally continuous speech, which was not previously possible. One advantage of the device and method of the invention is that it time and give prompt feedback to the interlocutor. This is particularly important for aircraft applications.

代案のアルゴリズムが使用できることが評価され、それ
は神経網技術を使用する第2のアルゴリズムに従って語
境界を識別することのできる1つのアルゴリズムを与え
ることのみが必要である。
It is appreciated that alternative algorithms can be used; it is only necessary to provide one algorithm capable of identifying word boundaries according to a second algorithm using neural network techniques.

神経網アルゴリズムは各語に使用する必要は無い、いく
つかの装置ではその信鎖性の測度があるレベルの上にあ
る限りマルコフアルゴリズムのみが出力を与えるようそ
れが配列されよう、異なる語が会話される場合、あるい
は明瞭に会話されるか、あるいは高い背景雑音を持つ場
合に、信幀性の測度は落ち、かつ装置は独立意見(1n
dependentopinion )の神経網アルゴ
リズムを考慮する。
A neural network algorithm need not be used for each word; in some devices it may be arranged so that the Markov algorithm only gives an output as long as its reliability measure is above a certain level; If the conversation is clear or has high background noise, the credibility measure decreases and the device
We consider the neural network algorithm of ``dependenttopinion''.

記述されたユニットにより遂行された機能が1つあるい
はそれ以上のコンピューターのプログラミングにより遂
行でき、かつ上に規定された離散ユニットにより実行さ
れる必要の無いことが評価されよう。
It will be appreciated that the functions performed by the units described can be performed by programming one or more computers and need not be performed by the discrete units defined above.

本装置は多くの適用に使用できるが、しかし機械と輸送
機関の制御、特に固定翼と回転翼航空機の制御のように
高い雑音環境での使用に特に適している。
The device can be used in many applications, but is particularly suitable for use in high noise environments, such as in the control of machinery and transportation, especially in the control of fixed-wing and rotary-wing aircraft.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の音声認識装置の一実施例を示している
。 1・・・音声認識装置  2・・・マイクロホン3・・
・フィードバックデバイス 4・・・利用デバイス  10・・・前置増幅器11・
・・プリエンファシス段 12・・・スイッチ 13・・・アナログ対ディジタル変換器14・・・ディ
ジ久ルフィルタバンク 15・・・雑音マーキングユニット 16・・・パターンマツチングユニット17・・・語彙
メモリ 18・・・シンタックスユニット 20・・・神経網ユニット
FIG. 1 shows an embodiment of the speech recognition device of the present invention. 1...Speech recognition device 2...Microphone 3...
・Feedback device 4... Utilization device 10... Preamplifier 11・
... Pre-emphasis stage 12 ... Switch 13 ... Analog-to-digital converter 14 ... Digital filter bank 15 ... Noise marking unit 16 ... Pattern matching unit 17 ... Vocabulary memory 18 ...Syntax unit 20...Neural network unit

Claims (1)

【特許請求の範囲】 1、スピーチ信号の第1分析が異なる語の間の境界を識
別し、かつ蓄積語彙との比較によって会話された語の第
1表示を与えるよう実行される種類の音声認識方法にお
いて、 該方法が会話された語の第2表示を与えるために神経網
技術と第1分析からの語境界識別を使用してスピーチ信
号の第2分析を実行し、かつ少なくとも第2表示から会
話された語を表す出力信号を与えるステップを含むこと
を特徴とする方法。 2、第1分析がマルコフモデルを使用して実行されるこ
とを特徴とする請求項1に記載の方法。 3、語彙がダイナミック時間ワーピングテンプレートを
含むことを特徴とする請求項1あるいは2に記載の方法
。 4、第1分析が非対称ダイナミック時間ワーピングアル
ゴリズムを使用して実行されることを特徴とする請求項
3に記載の方法。 5、第1分析が複数の異なるアルゴリズムを利用して実
行され、各アルゴリズムは表示された語が会話された語
であることの信頼性の表示と共にスピーチ信号に最も近
い語彙メモリの語を示す信号を与え、かつ異なるアルゴ
リズムにより与えられた信号間で比較が行われることを
特徴とする請求項1から4のいずれか1つに記載の方法
。 6、会話された語の第1表示が信頼性の測度を与え、か
つ信頼性の測度が所定の値より大きい場合に出力信号が
第1表示のみに応答するよう備えられていることを特徴
とする請求項1から5のいずれか1つに記載の方法。 7、第2分析が神経網と共に多層パーセプトロン技術を
使用して実行されることを特徴とする請求項1から6の
いずれか1つに記載の方法。 8、出力信号が会話された語の会話者にフィードバック
を与えるよう利用されることを特徴とする請求項1から
7のいずれか1つに記載の方法。 9、該方法がスピーチ信号に雑音マーキングアルゴリズ
ムを実行するステップを含むことを特徴とする請求項1
から8のいずれか1つに記載の方法。 10、該方法が以前に識別された語のシンタックスに従
って蓄積語彙にシンタックス制限を実行するステップを
含むことを特徴とする請求項1から9のいずれか1つに
記載の方法。 11、音声認識装置であって、認識できる語の語彙につ
いてのスピーチ情報を含むメモリと、異なる語の間の境
界を識別しかつ会話された語の第1表示を与えるために
蓄積語彙とスピーチ信号を比較するスピーチ信号の第1
分析を実行するパターンマッチングユニットを含むもの
において、 該装置が、 パターンマッチングユニット(16)と接続された神経
網ユニット(20)を含み、該パターンマッチングユニ
ット(16)が神経網ユニット(20)の出力と第1分
析からの語境界識別の双方を利用するスピーチ信号の第
2分析を実行し、かつ パターンマッチングユニット(16)が会話された語を
表す出力信号を少なくとも第2分析から与えること、 を特徴とする音声認識装置。
Claims: 1. Speech recognition of the type in which a first analysis of the speech signal is carried out so as to identify boundaries between different words and, by comparison with a stored vocabulary, give a first indication of the words spoken. In the method, the method performs a second analysis of the speech signal using neural network techniques and word boundary identification from the first analysis to provide a second representation of the spoken words; and A method comprising the step of providing an output signal representative of spoken words. 2. The method of claim 1, wherein the first analysis is performed using a Markov model. 3. A method according to claim 1 or 2, characterized in that the vocabulary includes dynamic time warping templates. 4. The method of claim 3, wherein the first analysis is performed using an asymmetric dynamic time warping algorithm. 5. A first analysis is performed using a number of different algorithms, each of which generates a signal indicating the word in lexical memory that is closest to the speech signal, along with an indication of confidence that the displayed word is a spoken word. 5. Method according to claim 1, characterized in that a comparison is made between signals provided by different algorithms. 6. characterized in that the first representation of the spoken word provides a measure of reliability, and the output signal is arranged to respond only to the first representation if the measure of reliability is greater than a predetermined value. 6. A method according to any one of claims 1 to 5. 7. A method according to any one of claims 1 to 6, characterized in that the second analysis is performed using a multilayer perceptron technique in conjunction with a neural network. 8. A method according to any one of claims 1 to 7, characterized in that the output signal is used to give feedback to the interlocutor of the words spoken. 9. The method includes the step of performing a noise marking algorithm on the speech signal.
8. The method according to any one of 8. 10. A method according to any one of claims 1 to 9, characterized in that the method comprises the step of performing a syntax restriction on the stored vocabulary according to the syntax of previously identified words. 11. A speech recognition device, comprising a memory containing speech information about a vocabulary of words that can be recognized, and a stored vocabulary and a speech signal for identifying boundaries between different words and providing a first representation of the spoken words. The first of the speech signals to compare
In those including a pattern matching unit for performing analysis, the apparatus includes: a neural network unit (20) connected to a pattern matching unit (16), the pattern matching unit (16) performing a second analysis of the speech signal utilizing both the output and the word boundary identification from the first analysis, and the pattern matching unit (16) providing an output signal representative of spoken words from at least the second analysis; A voice recognition device featuring:
JP2092371A 1989-04-12 1990-04-09 Voice recognition equipment and method thereof Pending JPH02298998A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB898908205A GB8908205D0 (en) 1989-04-12 1989-04-12 Speech recognition apparatus and methods
GB8908205 1989-04-12

Publications (1)

Publication Number Publication Date
JPH02298998A true JPH02298998A (en) 1990-12-11

Family

ID=10654850

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2092371A Pending JPH02298998A (en) 1989-04-12 1990-04-09 Voice recognition equipment and method thereof
JP2000004957U Pending JP2001000007U (en) 1989-04-12 2000-07-13 Voice recognition device

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2000004957U Pending JP2001000007U (en) 1989-04-12 2000-07-13 Voice recognition device

Country Status (4)

Country Link
JP (2) JPH02298998A (en)
DE (1) DE4010028C2 (en)
FR (1) FR2645999B1 (en)
GB (2) GB8908205D0 (en)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004023B2 (en) * 1989-11-28 2000-01-31 株式会社東芝 Voice recognition device
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
DE4120308A1 (en) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag DEVICE AND METHOD FOR RECOGNIZING LANGUAGE
DE4131387A1 (en) * 1991-09-20 1993-03-25 Siemens Ag METHOD FOR RECOGNIZING PATTERNS IN TIME VARIANTS OF MEASURING SIGNALS
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
KR100202425B1 (en) * 1992-08-27 1999-06-15 정호선 Voice recognition system for recognizing the remote controller command of electronic equipment
IT1270919B (en) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom SYSTEM FOR THE RECOGNITION OF ISOLATED WORDS INDEPENDENT OF THE SPEAKER THROUGH NEURAL NETWORKS
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
JP3039408B2 (en) 1996-12-27 2000-05-08 日本電気株式会社 Sound classification method
DE19705471C2 (en) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Method and circuit arrangement for speech recognition and for voice control of devices
US6182038B1 (en) 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
ITTO980383A1 (en) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom PROCEDURE AND VOICE RECOGNITION DEVICE WITH DOUBLE STEP OF NEURAL AND MARKOVIAN RECOGNITION.

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5529803A (en) * 1978-07-18 1980-03-03 Nippon Electric Co Continuous voice discriminating device
CH644246B (en) * 1981-05-15 1900-01-01 Asulab Sa SPEECH-COMMANDED WORDS INTRODUCTION DEVICE.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPH06105394B2 (en) * 1986-03-19 1994-12-21 株式会社東芝 Voice recognition system
EP0242743B1 (en) * 1986-04-25 1993-08-04 Texas Instruments Incorporated Speech recognition system
DE3853308T2 (en) * 1987-04-03 1995-08-24 At & T Corp Neural calculation through temporal concentration.

Also Published As

Publication number Publication date
GB8908205D0 (en) 1989-05-24
JP2001000007U (en) 2001-02-09
GB2230370B (en) 1993-05-12
DE4010028C2 (en) 2003-03-20
GB9007067D0 (en) 1990-05-30
FR2645999B1 (en) 1993-05-14
FR2645999A1 (en) 1990-10-19
DE4010028A1 (en) 1990-10-18
GB2230370A (en) 1990-10-17

Similar Documents

Publication Publication Date Title
Fu et al. End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks
US5228087A (en) Speech recognition apparatus and methods
US10504539B2 (en) Voice activity detection systems and methods
US20220215853A1 (en) Audio signal processing method, model training method, and related apparatus
Hansen Morphological constrained feature enhancement with adaptive cepstral compensation (MCE-ACC) for speech recognition in noise and Lombard effect
US7620546B2 (en) Isolating speech signals utilizing neural networks
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
Pisoni et al. Some acoustic-phonetic correlates of speech produced in noise
CN106782504A (en) Audio recognition method and device
JPH02298998A (en) Voice recognition equipment and method thereof
CN110570853A (en) Intention recognition method and device based on voice data
Pallett Performance assessment of automatic speech recognizers
CN110663080A (en) Method and apparatus for dynamically modifying the timbre of speech by frequency shifting of spectral envelope formants
CN114338623B (en) Audio processing method, device, equipment and medium
Do et al. Speech source separation using variational autoencoder and bandpass filter
Dwijayanti et al. Enhancement of speech dynamics for voice activity detection using DNN
Hagen Robust speech recognition based on multi-stream processing
US5278911A (en) Speech recognition using a neural net
Gadasin et al. Using Formants for Human Speech Recognition by Artificial Intelligence
CN112133324A (en) Call state detection method, device, computer system and medium
FR2647249A1 (en) SPEECH RECOGNITION METHOD
Martin Communications: One way to talk to computers: Voice commands to computers may substitute in part for conventional input devices
JPH04273298A (en) Voice recognition device
Binh et al. A high-performance speech-recognition method based on a nonlinear neural network
Hamandouche Speech Detection for noisy audio files