JP2001000007U - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2001000007U
JP2001000007U JP2000004957U JP2000004957U JP2001000007U JP 2001000007 U JP2001000007 U JP 2001000007U JP 2000004957 U JP2000004957 U JP 2000004957U JP 2000004957 U JP2000004957 U JP 2000004957U JP 2001000007 U JP2001000007 U JP 2001000007U
Authority
JP
Japan
Prior art keywords
analysis
word
speech
unit
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000004957U
Other languages
English (en)
Inventor
ビッカートン イアン
Original Assignee
スミスズ インダストリーズ パブリック リミテッド カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by スミスズ インダストリーズ パブリック リミテッド カンパニー filed Critical スミスズ インダストリーズ パブリック リミテッド カンパニー
Publication of JP2001000007U publication Critical patent/JP2001000007U/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/12Speech classification or search using dynamic programming techniques, e.g. dynamic time warping [DTW]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 改良された音声認識装置を提供する。 【解決手段】 音声認識は、ヒドンセミマルコフモデル
を用いる音声信号の第1分析及び神経回路網に関する多
層パーセプトロン技術を用いる音声信号の第2分析によ
って遂行される。第1分析は、第2分析により単語の境
界を識別するために用いられる。第1分析が発音された
単語を或るレベル以上の確度で表示できる場合は、第1
分析のみに対応して発音された単語の表示が出力され、
確度のレベルが低い場合に第2分析が用いられるように
してもよい。その出力が航空機の機能を制御し、単語を
発音した話者にフィードバックされる。

Description

【考案の詳細な説明】
【0001】
【考案の属する技術分野】
本考案は、神経回路網技術以外の技術を用いて音声信号の第1分析を行って異 なる単語の間の境界を識別し、更に神経回路網技術を用いて蓄積された語彙との 比較を行って発声された単語の表示を与える種類の音声認識装置に関する。
【0002】
【従来の技術】
多くの機能を有する複雑な装置においては、そのような装置を音声によるコマ ンドにより制御できることが有用である。これはまた、ユーザーの手が他の作業 のために塞がっている場合、又はユーザーが障害を持ち、手で通常の機械的スイ ッチ及び制御装置を操作できない場合に有用である。
【0003】 音声によって制御される装置における問題点は、音声認識の信頼性が低いこと である。特に、話者の声が例えば振動等の環境のファクタにより変化することで ある。これは、動作の失敗又は更に悪い場合は不正動作の原因になる。
【0004】 音声認識には種々の技術が用いられている。一つの技術は、連続的な音声の中 における単語の間の境界を容易に識別することができることにより有用なマルコ フモデルの使用を含む。しかしながら、ノイズの多い環境又は話者の緊張により 音声の質が劣化した場合、マルコフモデル技術からは発声された単語について充 分に信頼性のある識別が得られない場合がある。最近では、ノイズ補償、補償、 シンタックス選択及び他の方法により、この技術の性能を改良するための真剣な 努力がなされている。
【0005】 音声認識のために提案された他の技術は神経回路網を用いる。この神経回路網 技術は、音声が低品位の場合においても、個々の単語を高精度で識別する能力を 具える。しかしながら、これらは、単語の境界を正確に認識することができない ため連続的な音声の認識には適していない。
【0006】
【考案が解決しようとする課題】
本考案の目的は、改良された音声認識装置を提供することにある。
【0007】
【課題を解決するための手段】
本考案の音声認識装置は、認識可能の単語の語彙に関する音声情報を含むメモ リー、マルコフモデルを用いて異なる単語の間の境界を識別し且つ音声信号と蓄 積された語彙とを比較して発声された単語の第1表示を与えるための音声信号の 第1分析を実行するパターンマッチングユニット、及び、パターンマッチングユ ニットに接続された神経回路網ユニットを具え、パターンマッチングユニットが 、第1分析から得られた単語の境界の識別及び神経回路網ユニットの出力の両者 を用いて音声信号の第2分析を実行し、少なくとも第2分析から発声された単語 を表現する出力信号を与えることを特徴とする。
【0008】 第1分析はマルコフモデルを用いて実行することができる。語彙が時間軸正規 化テンプレートを含む場合は、非対称時間軸正規化アルゴリズムを用いて第1分 析を実行することができる。
【0009】 第1分析は複数の異なるアルゴリズムを用いて実行し、それぞれのアルゴリズ ムにより、語彙メモリーの中でその音声信号に最も近い単語を表示する信号、及 び表示された単語が発声された単語であることの確度の表示を与え、更に、複数 の異なるアルゴリズムによって与えられた信号の間で比較を行うようにしてもよ い。発声された単語の第1表示を確度の尺度と共に与える場合には、確度の尺度 が所定の値より大きい時は第1表示のみに応答して出力信号を与えるようにして もよい。
【0010】 第2分析は、神経回路網に関する多層パーセプトロン技術を用いて実行するこ とができる。また、発声された単語の話者に、出力信号をフィードバックするこ とができる。
【0011】 本考案の装置においては、音声信号に対してノイズマーキングアルゴリズムを 実行するステップを含むことができ、また、前段で識別された単語のシンタック スに従い、蓄積された語彙に対してシンタックス限定を実行するステップを含む ことができる。
【0012】
【考案の実施の形態】
以下に、本考案による音声認識装置について、図面を用いて例示により説明す る。
【0013】 音声認識装置は全体として数字1で表され、例えば、航空機パイロットの酸素 マスクに取付けられたマイクロホン2からの音声入力信号を受信する。識別され た単語を表す出力信号は、装置1によりフィードバック装置3及び応用装置4に 供給される。フィードバック装置3は、装置1によって識別された単語をその単 語の話者に知らせるために具えられる可視ディスプレイ又は可聴装置とすること ができる。応用装置4は、音声認識装置の出力信号から発声コマンドを認識し、 それに応答して航空機の機能を制御するように配置されるものである。
【0014】 マイクロホン2からの信号は、プリエンファシス段11を含む前置増幅器10に供 給される。プリエンファシス段11は、平坦な長期平均音声スペクトルを生成する ものであり、それにより確実に、全ての周波数チャネルの出力が同じダイナミッ クレンジを有し、公称1kHz まで平坦な特性を持つようになる。スイッチ12は、 高い周波数で3又は6dB/オクターブのいずれかのリフトを与えるように設定す ることができる。前置増幅器10は、更に、−3dBのカットオフ周波数が4kHz に 設定された8次バターワース低域通過フィルタの形のアンチアライアシングフィ ルタ21を含む。
【0015】 前置増幅器10からの出力は、アナログディジタル変換器13を介してディジタル フィルタバンク14に送られる。フィルタバンク14は、TMS32010マイクロプロセッ サ中でアセンブリソフトウェアとして実現される19個のチャネルを有するもので あり、J.N.HolmesによりIEE Proc.,第127 巻,パートF,第1号(1980年2月) に記載されたJSRUチャネルボコーダに基づくものである。フィルタバンク14 は、250-4000Hzの範囲のほぼ聴覚の限界帯域に対応する不均等のチャネル間隔を 有する。隣接チャネルの応答は、それらのピークのほぼ3dB下で交差する。チャ ネルの中心においては、隣接チャネルの減衰はほぼ11dBである。
【0016】 フィルタバンク14からの信号は、J.S.Bridle等により「自動音声認識に適用さ れるノイズ補償スペクトル距離測度(A noise compensating spectrum distance measure applied to automatic speech recognition)」(Proc. Inst. Acoust., Windemere, 1984 年11月) に記載されたような種類のノイズマーキングアルゴリ ズムが組込まれたノイズマーキングユニット15に供給される。周期的なノイズを 減らすために適用し得るノイズ消去技術は、ユニット15によって実現される。そ れは、例えば、周期的なヘリコプターのノイズを低減する場合に有用である。
【0017】 ノイズマーキングユニット15の出力は、パターンマッチングユニット16に供給 される。パターンマッチングユニット16は、種々のパターンマッチングアルゴリ ズムを実行する。パターンマッチングユニット16は、語彙メモリー17に接続され る。語彙メモリー17は、語彙の中に、各単語の時間軸正規化(DTW)テンプレ ート及びマルコフモデルを含む。
【0018】 DTWテンプレートは、単一経路の時間整合平均化技術又は埋め込みトレーニ ング技術のいずれかを用いて作ることができる。テンプレートは、周波数と時間 及びスペクトルエネルギーとの関係を表す。
【0019】 マルコフモデルは装置のトレーニングの間に同一の単語の多数回の発声から導 出され、スペクトル及び時間的な変化は確率モデルにより得られる。マルコフモ デルは多数の離散状態からなり、各状態はスペクトルフレームと分散フレームと の対から構成される。スペクトルフレームは、120Hz から4kHz までの周波数範 囲をカバーする19個の値を含む。分散フレームは、各スペクトルベクトル/特徴 に対応する状態平均期間の形の分散情報及び標準偏差情報を含む。
【0020】 トレーニングの間の個々の発声は、定常音声状態及びそれらのスペクトル遷移 を分類するために分析される。モデルパラメータは、M.J.Russel及びR.H.Moore により「自動音声認識のためのヒドンマルコフモデルにおける状態占有の明確な モデル化(Explicit modelling of state occupancy in hidden Marcov Models f or automatic speech recognition) 」(Proc. IEEE Int. Conf. on Acoustics, Speech and Signal Processing, Tampa, 1985 年3月26−29日) に記載されたよ うな、ビタビの再評価アルゴリズムを用いる反復処理によって評価される。最終 的な単語モデルは、自然に発声された単語の時間的及び音声的の両者の変化を含 む。
【0021】 メモリー17とパターンマッチングユニット16との間に、シンタックスユニット 18がある。シンタックスユニット18は、前段で識別された単語のシンタックスに 基づいて、音声信号が比較される蓄積語彙に対して通常のシンタックス限定を実 行する。
【0022】 パターンマッチングユニット16は、更に神経回路網ユニット20に接続される。 神経回路網ユニット20は、例えば、S.M.Peeling 及びR.H.Moore により「多層パ ーセプトロンを用いる孤立数字の認識の実験(Experiments in isolated digit r ecognition using the multi-layer perceptron) 」(RSRE Memorandum, 第4073 号, 1987年) に記載されたような多層パーセプトロン(MLP)を含む。
【0023】 MLPは、高い背景ノイズが低エネルギーの摩擦音をマスクする場合に発生す ることがあるような不完全なパターンを認識することができる性質を有する。M LPは、D.H.Rumelhart 等により「エラー後方伝搬による学習内部表現(Learnin g internal representations by error back propagation)」(Institute for Co gnitive Science, USCD, ICS Report 8506,1985 年9月) に記載された方法によ って実行される。
【0024】 パターンマッチングユニット16は、発声された単語と語彙中の単語との間の最 良の一致を選択するために三つの異なるアルゴリズムを用いる。
【0025】 その一つは、J.S.Bridleにより「確率モデル及びテンプレートマッチング:自 動音声認識のための二つの明らかに異なる技術間におけるいくつかの重要な関係 (Stochastic models and template matching : some important relationships between two apparently different techniques for automatic speech recogni tion) 」(Proc. Inst. of Acoustics, Windemere, 1984年11月)に記載され、及 び、J.S.Bridle等により「全体単語テンプレートを用いる連続的に結合された単 語の認識(Continuous connected word recognition using whole word template s)」(The Radio and Electronic Engineer, 第53巻,第4号,1983年4月)に記 載された種類の非対称DTWアルゴリズムである。これは、特にリアルタイムの 音声認識に適している効率的な単一経路プロセスである。このアルゴリズムは、 ユニット15によって実現されるノイズ補償技術と共に効果的に作用する。
【0026】 第2のアルゴリズムは、ヒドンセミマルコフモデル(HSMM)技術を用い、 上述の語彙メモリー17に含まれるマルコフモデルと発声された単語の信号とを比 較する。発声された単語の時間的及び音声的変化についてのマルコフモデルにお ける追加の情報が、パターンマッチングの際の認識性能を向上させる。実際には 、DTWアルゴリズムとHSMMアルゴリズムとは相互に統合される。統合され たDTW及びHSMM技術は、連続的な音声中の隣接する単語の間の境界を識別 することができる。
【0027】 第3のアルゴリズムは、神経回路網20に関するMLP技術を用いる。MLPは 、DTW/HSMMアルゴリズムによって制御され、パターンマッチングユニッ ト16内の(図示していない)音声バッファを見る可変ウィンドウを有する。この ウィンドウの大きさ及び位置は、DTW/HSMMアルゴリズムによって決定さ れる。この方法においては、HSMMアルゴリズムがMLPにより単語境界又は 端点を識別するために用いられ、次に、MLPによりスペクトル時間セグメント 又は単語候補が処理される。
【0028】 各アルゴリズムは、例えば、そのアルゴリズムにより音声に最も近いと識別さ れた語彙メモリー中の単語を確度の尺度と共に表示することにより、音声信号の 表現を示す信号を与える。各アルゴリズムにより、それぞれ対応する確度の尺度 と共に複数の単語のリストが生成される。ユニット16中のより高いレベルのソフ トウェアが、各アルゴリズムによって達成された独立の結果を比較し、何らかの 重み付けを行った後、それらの結果に基づいてフィードバック装置3及び応用装 置4への出力を生成する。
【0029】 このようにして、本考案の装置により、神経回路網技術を自然の連続的な音声 の認識に利用することができるようになる。これは以前には不可能なことであっ た。本考案の装置の一つの利点は、応答時間を短くすることができ、話者に対し て素早くフィードバックできることである。これは、航空機への応用の場合に特 に重要である。
【0030】 神経回路網アルゴリズムを全ての単語に対して用いなくてもよい。確度の尺度 が所定のレベルを超えている場合は、マルコフアルゴリズムのみが出力を与える ようにしてもよい。難しい単語が発声された場合、又は不明瞭或いは背景ノイズ が高く確度の尺度が低下した場合には、装置が神経回路網アルゴリズムに対して 独立の意見を求める。
【0031】 上述の諸ユニットによって遂行される諸機能は、1又は複数のコンピュータの プログラミングによって遂行することができ、必ずしも上述のような個別のユニ ットによって実行する必要はないことは明らかである。
【0032】
【考案の効果】 本考案の装置は多くの用途に適用できるが、例えば機械及び移動手段の制御、 特に、固定翼及び回転翼の航空機の制御のような高ノイズの環境で用いるのに特 に適している。
【図面の簡単な説明】
【図1】 本考案の音声認識装置の実施例を示す図であ
る。
【符号の説明】
1 音声認識装置 2 マイクロホン 3 フィードバック装置 4 応用装置 10 前置増幅器 11 プリエンファシス段 12 スイッチ 13 アナログディジタル変換器 14 ディジタルフィルタバンク 15 ノイズマーキングユニット 16 パターンマッチングユニット 17 語彙メモリー 18 シンタックスユニット 20 神経回路網ユニット 21 アンチアライアシングフィルタ
───────────────────────────────────────────────────── フロントページの続き (72)考案者 イアン ビッカートン イギリス国 グロウセスターシャー シェ ルテンハム レックハンプトン ブリツェ ン レイン 3

Claims (1)

    【実用新案登録請求の範囲】
  1. 【請求項1】 認識可能の単語の語彙に関する音声情報
    を含むメモリー(17)、マルコフモデルを用いて異なる単
    語の間の境界を識別し且つ音声信号と蓄積された語彙と
    を比較して発声された単語の第1表示を与えるための音
    声信号の第1分析を実行するパターンマッチングユニッ
    ト(16)、及び、パターンマッチングユニット(16)に接続
    された神経回路網ユニット(20)を具え、パターンマッチ
    ングユニット(16)が、第1分析から得られた単語の境界
    の識別及び神経回路網ユニット(20)の出力の両者を用い
    て音声信号の第2分析を実行し、少なくとも第2分析か
    ら発声された単語を表現する出力信号を与えることを特
    徴とする音声認識装置。
JP2000004957U 1989-04-12 2000-07-13 音声認識装置 Pending JP2001000007U (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB898908205A GB8908205D0 (en) 1989-04-12 1989-04-12 Speech recognition apparatus and methods
GB8908205 1989-04-12

Publications (1)

Publication Number Publication Date
JP2001000007U true JP2001000007U (ja) 2001-02-09

Family

ID=10654850

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2092371A Pending JPH02298998A (ja) 1989-04-12 1990-04-09 音声認識装置とその方法
JP2000004957U Pending JP2001000007U (ja) 1989-04-12 2000-07-13 音声認識装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2092371A Pending JPH02298998A (ja) 1989-04-12 1990-04-09 音声認識装置とその方法

Country Status (4)

Country Link
JP (2) JPH02298998A (ja)
DE (1) DE4010028C2 (ja)
FR (1) FR2645999B1 (ja)
GB (2) GB8908205D0 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3004023B2 (ja) * 1989-11-28 2000-01-31 株式会社東芝 音声認識装置
GB2240203A (en) * 1990-01-18 1991-07-24 Apple Computer Automated speech recognition system
DE4120308A1 (de) * 1991-06-20 1992-12-24 Standard Elektrik Lorenz Ag Einrichtung und verfahren zum erkennen von sprache
DE4131387A1 (de) * 1991-09-20 1993-03-25 Siemens Ag Verfahren zur erkennung von mustern in zeitvarianten messsignalen
US5758021A (en) * 1992-06-12 1998-05-26 Alcatel N.V. Speech recognition combining dynamic programming and neural network techniques
KR100202425B1 (ko) * 1992-08-27 1999-06-15 정호선 가전제품의 리모콘 명령어를 인식하기 위한 음성 인식 시스템
IT1270919B (it) * 1993-05-05 1997-05-16 Cselt Centro Studi Lab Telecom Sistema per il riconoscimento di parole isolate indipendente dal parlatore mediante reti neurali
US5857099A (en) * 1996-09-27 1999-01-05 Allvoice Computing Plc Speech-to-text dictation system with audio message capability
US6961700B2 (en) 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
GB2303955B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
JP3039408B2 (ja) 1996-12-27 2000-05-08 日本電気株式会社 音類別方式
DE19705471C2 (de) * 1997-02-13 1998-04-09 Sican F & E Gmbh Sibet Verfahren und Schaltungsanordnung zur Spracherkennung und zur Sprachsteuerung von Vorrichtungen
US6182038B1 (en) * 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5529803A (en) * 1978-07-18 1980-03-03 Nippon Electric Co Continuous voice discriminating device
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US4587670A (en) * 1982-10-15 1986-05-06 At&T Bell Laboratories Hidden Markov model speech recognition arrangement
JPH06105394B2 (ja) * 1986-03-19 1994-12-21 株式会社東芝 音声認識方式
DE3786822T2 (de) * 1986-04-25 1994-01-13 Texas Instruments Inc Spracherkennungssystem.
EP0285352B1 (en) * 1987-04-03 1995-03-15 AT&T Corp. Neural computation by time concentration

Also Published As

Publication number Publication date
FR2645999A1 (fr) 1990-10-19
GB2230370A (en) 1990-10-17
DE4010028A1 (de) 1990-10-18
DE4010028C2 (de) 2003-03-20
GB2230370B (en) 1993-05-12
GB8908205D0 (en) 1989-05-24
JPH02298998A (ja) 1990-12-11
FR2645999B1 (fr) 1993-05-14
GB9007067D0 (en) 1990-05-30

Similar Documents

Publication Publication Date Title
US5228087A (en) Speech recognition apparatus and methods
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
Furui Speaker-independent isolated word recognition based on emphasized spectral dynamics
EP1635327B1 (en) Information transmission device
JP2001000007U (ja) 音声認識装置
CN109979436B (zh) 一种基于频谱自适应法的bp神经网络语音识别系统及方法
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Hagen Robust speech recognition based on multi-stream processing
US5278911A (en) Speech recognition using a neural net
Okuno et al. Listening to two simultaneous speeches
Gaudani et al. Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language
Kumari et al. A new gender detection algorithm considering the non-stationarity of speech signal
Sahoo et al. MFCC feature with optimized frequency range: An essential step for emotion recognition
Kurcan Isolated word recognition from in-ear microphone data using hidden markov models (HMM)
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
CN113707156B (zh) 一种用于车载的语音识别方法及系统
Kumawat et al. SSQA: Speech signal quality assessment method using spectrogram and 2-D convolutional neural networks for improving efficiency of ASR devices
JPS60114900A (ja) 有音・無音判定法
Martin Applications of limited vocabulary recognition systems
JP3493849B2 (ja) 音声認識装置
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
Islam et al. Improvement of text dependent speaker identification system using neuro-genetic hybrid algorithm in office environmental conditions
JPH03208099A (ja) 音声認識装置及び方法
Martin Communications: One way to talk to computers: Voice commands to computers may substitute in part for conventional input devices
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法