JPH07502126A

JPH07502126A - 入力音声の個別単語の認識方法及び装置

Info

Publication number: JPH07502126A
Application number: JP5502468A
Authority: JP
Inventors: チルク，ヴォルフガング
Original assignee: ジーメンス　アクチエンゲゼルシャフト　エスターライヒ
Priority date: 1991-07-25
Filing date: 1992-07-21
Publication date: 1995-03-02
Anticipated expiration: 2017-04-15
Also published as: NO940241L; DE59208973D1; GR3025319T3; WO1993002448A1; EP0595889B1; EP0595889A1; DK0595889T3; JP3274133B2; ES2108127T3; NO306887B1; ATE159374T1; US5721807A

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】入力音声の個別単語の認識方法及び装置本発明は入力音声の別単語の認識方法及び該方法を実施する装置に関する。

、しかも最も困難な領域に属する。音声認識の多数の適用例があり、例えばテキスト処理システム（音声タイプライタ）におけるキーボード入力に代っての音声入力、情報呼出又は電話を介しての発注、並びにタイブライタンステムの音声制御の適用例がある。音声認識システムの広汎な導入は従来、技術的に且つ心理学的な多数の未解決の問題に当たっては失敗している。

音声認識はパターン認識タスク（作業）である。音声入力された表現内容（音声音量−単語−文章等）は当該の意味を認識ないし了解すべき入カバターンを形成する。当該認識プロセスは２種ステップ、即ち、特徴抽出及び分類に分けられる。当該抽出は認識にとって重要な特徴を音声信号から抽出し、重要でない成分を除去するために用いられる。第２ステップ−分類−においては抽出された実際の特徴から実際の音声標本の意味が察知される。

本発明の基礎を成す課題とするところは、限られた数の入力された音声の個別単語を認識し得る方法を提供することにある。

上記課題は請求の範囲１記載の方法の構成要件により解決される。本発明の方法のすぐれている点は特に高い認識レートである。更に本発明の方法は背景雑音（バックグランドノイズ）に対して影響を受けがたい。本発明の方法のさらなる利点とするところは個別単語の分類の基礎を成すコレロダラム（Ｋｏｒｒｅｌｏｇｒａｍｍ）Ｋが簡単に設定され得ることである。このような簡単な計算方法はわずかなハードウェアコストを以ての音声認識システムの実現上の前提である。

本発明の方法のさらなる利点とするところは認識可能な個別単語の数が基本的に限られていないことである。従って、本発明の方法は著しく大きな誘電を有する適用例に特に有利である。

処理さるべきデータの規模ないし量−高いコスト、手間−と高い認識レートとの間の妥協手法は請求の範囲２の方法を使用することにより得られる。

特に高い認識レートは次ぎのようにして得られる。

即ち、コレロダラム（Ｋｏｒｒｅｌｏｇｒａｍｍ）　Ｋのインデックスｊ、　ｈ、　ｋに対して請求の範囲３の特徴事項による条件を選定するのである。

音声入力された個別単語の分類のためのニューラルネットワークの使用によりさらなる利点が得られる。

ニューラルネットワークは人間の頭脳構造の、それの連セ的動作手法を以ての大まかな（大雑把な）シュミレーションである。当該ニューラルネットワークは音声認識の際にも起きるようなパターン認識の問題の場合、従来計算機構造よりもすぐれている。

請求の範囲５記載の特徴的構成要件にょるニューラルネットワークは特にその有利な“学習能力”の点ですぐれており、換言すれば認識さるべき単語に対する“ トレーニングフェーズが最小限に低減される。

請求の範囲６による方法のは発展形態によってはニューラルネットワークの簡単な実現可能性及び計算コストのさらなる低減が得られる。

請求の範囲７による装置によっては本発明の方法を特に有利に実現し得る。

ここにおいて、上記のシステムにて使用するには請求の範囲８による装置全体をＩＣ素子として構成すると有利である。

請求の範囲９における電話装置にて音声認識方法の使用によっては高い操作（容易）性が得られるだけでなく自動車電話にて使用の際安全性の向上が得られる、それというのも運転者及び電話利用者はダイヤリング操作により注意をそらされることがな（なるからで次ぎに４つの図を用いて本発明を説明する。

図１は本発明の方法の経過を示し、図２は３つの異なった音素のスペクトル振幅分布を示し、図３はニューラルネットワークの構造を示し、図４は本発明の方法を実施するための装置を示す。

図１に示す方法はダイヤリング過程のトリガのための電話器にて適用される。当該の方法により１０の異１なる個別単語を認識し得るが、６４の単語の個別単語の認識も可能である。各個別単語には１つの所定の電話番号が対応付けられ、該電話番号は当該単語の認識後自動的に形成される。

このために、個別単語、例えば所望の加入者の名前が受信器中に音声入力され、当該機器は所望の番号を自動的に形成する。電話機にハンドフリーセットを備える場合、受話器を外さずに（オフフックせずに）送話器（マイクロホン）中に音声が入力される。このことは殊に自動車電話において有利であり、即ち該自動車電話では従来のダイヤリングする者は係わる交通安全性が低下されるおそれがあるからである。

本発明の方法ステップの過程の経過は次ぎのように進行する、即ち、第１の方法ステップにおいて予測期間中に音声入力された単語が電話装置のマイクロホンにより電気信号に変化される。上記信号は増幅され、サンプリングされ、デジタル化される、換言すればサンプリング値のシーケンス（列）に変換される。当該サンプリングレートは通常８ＫＨｚである。

当該サンプリングによりいずれの重要な信号特性も検出されるためにはサンプリング定理が充足されねばならない。つまり、信号中に現われる最高の周波数がサンプリング周波数の半分より小でなければならない効果により信号情報の誤りが生ぜしめられるからである。本事例では、音声信号は４ＫＨｚを下回る周波数成分しか有してはいけないということである。このことは１５０Ｈｚ〜３４００Ｈｚの周波数領域を有する電話信号について成立つ。

第２ステツプにおいてフーリエ変換を用いて、音声信号の平均スペクトル振幅分布が、サンプリング値の数により定数３２ｍ５ｅｃの期間内にて計算され、スペクトルベルト基１として表される。（Ｓ　’−，Ｓ　’＋、、、、、、。

５１７）を有し、それらの要素の各々は帯域幅ｂ１＝４０６．２５Ｈｚの周波数帯域の振幅を表わす。従って捕捉される周波数帯域全体は４０６．２５Ｈｚｘ８＝３２５０Ｈｚを含み、電話システムの周波数領域と−５Ｘｉ／３２ｍ５ｅｃ＝　１５．　６２５　Ｈｚになる）もサンプリング定理に従い情報伝送に対する限界を成す。ここにおいて当該限界は個々の音素の周波数ないし持続時間（継続期間）に係わる。

音素は意味を形成する１つの情報を対応させ得る最小の単語要素である。各要素（例えばドイツ語はほぼ４０の音素を有する）は特徴的スペクトル振幅分布により定まり。これについては図２はダイヤフラムにて音素（これは母音“ａ”、“ 、“ｉ”に相応する）に対するスペクトル振幅分布を示す。

試験にて明らかになったところによれば、音素のほぼ９５パーセントが、６２■ ｓｅｃより長く、要するに、１６Ｈｚより小さい周波数を有する。従って、上記音素はスペクトルベクトルＳｔにより精確に表される。

残りの５パーセントの音声成分、例えば破裂音（ｐ。

を等）は了解性にとってはさして重要ではない。従って、本発明の方法において当該音声成分が精確に補足検出されないとしても実際上天したことではない。

第３方法ステツプにて予測期間内にめられたスペクトルベクトルＳｉ（これは上述のように音声入力された個所単語の重要特徴を含む）からスペクトログラムＳが形成される。このことは２次元マントリクスにて当該スペクトルベクトルの配置により行なわれ、その際、各スペクトルベクトルは当該マトリクスの１つの行を形成する。第４方法ステツプではコレログラムにの個々の要素Ｋ　Ｉ＋　ｈ＋　ｋが次式により形成される。

Ｋｌ、ｈ＋ｋ”　Σ　Ｓ　’Ｈ＊　Ｓ　ｌ＋ｈ、４゜ｉ＝Ｑ当該コレログラムの規模、範囲は当該座標の値域により与えられる。この値域は本事例では次ぎのようになるｊ＝　０＋１．．０．７；ｈ　＝、、、、、１５；ｋ　＝　１．２：当該コレログラムペの配置は次ぎのように行なわれる、即ちインデックスの各々により、音声信号の物理的パラメータが設定されるように当該にの配置はなされる。インデックスｊは周波数帯域を表わす。ｊ＝３に対しては例えば領域１３６８．７５Ｈｚ　〜１７７５Ｈｚを表わし、インデックスＨによっては相関されるべき信号成分間の時間的ずれが設定される。例えば、ｈ＝１５によって最大のずれ１５　Ｘ　３２　ｍ５ｅｃ＝　４８１ｍ５ｅｃが設定される。インデックスＫによっては相関さるべき信号成分間の周波数ずれΔｆが設定される。Ｋ＝２によっては８１２．５ＨｚのΔｆがが生せしめられる。

本発明の音声信号の処理によっては例えば、コレログラムペの要素が実質的に時間的に独立であるようになる。音声入力された個別単語の始めと終わり並びにそれの持続時間（継続時間）はそれにより重要性を失う。

上記の時間独立性は音声認識を首尾よく行なうための重要な前提条件である。従来の方法では当該の独立性はコスト高ないし複雑な手法によって達せられる。

例えば＋Ｄｙｎａｍｉｓｃｈｅ　Ｚｅｉｔｎｏｒｍｉｅｒｕｎｇ”　（参照）　５ａｋｏｅ、　Ｍ、　；Ｃｈｉｂａ、Ｓ、：Ｄｙｎａｍｉｃ　ｐｒｏｇｒａｍｍｉｎｇ　ａｌｇｏｒｉｔｈｍｓ　ｏｐｔｉｍｉｚａｔｉｏｎ　ｆｏｒ　５ｐｏｋｅｎ　ｖｏｒｄｒｅｃｏｇｎｉｔｉｏｎ　ＩＥＥＥ　Ｔｒａｎｓ、ｏｎ　ＡＳＳＰ、＾５ＳＰ−２６）のようなコスト高の公知手法によって達せられる。本発明の方法ではそのような計算コスト及び当該方法において生じる誤差が回避される。

インデックスｊ、ｎ、ｋに対する上記の値及び条件ｊ＋に≦ＪＩＩｌａｘのもとてコレログラムには２０８の要素を有し、該要素は音声入力された個別な名論の整理分類のためひきつづいての方法ステップにて用いられる。このために各要素はニューラルネットワークの１つの入力側に加えられる。

従って、上記ネットワークは２０８の入力側を有し、そして認識さるべき各単語に対して１つの出力側を有し、要するに、１０の出力側を有するが、６４の出力側をも有し得る。

上記ニューラルネットワークの構造を図３を用いて詳細説明する。該図は所謂フィードフォワードニューラルネットワーク”Ｆｅｅｄｆｏｒｗａｒｄ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ”を示す。上記ネットワークは入力ニューロンＮ１．Ｎ２、Ｎ３から成る１つの人力層とを有する。当該ネットワークは３つの入力側Ｅ１．Ｅ２．Ｅ３と２つの出力側、Ａ２．を有する。各入力側Ｅ１．Ｅ２．Ｅ３は各入力ニューロンＮ１．Ｎ２．Ｎ３に接続されている。各入力ニューロンの唯一の出力側が、各出力ニューロンＥ４．Ｅ５、に接続されており、該出力ニューロンのＡＩ、Ａ２によってはそれぞれ１つの認識されたパターンが指示される。

ニュートラルネットワークの所要の規模は解くべき課題ないし間七点の複雑性に依存する。既述のように、入力素子の数（１つの入力特徴ベクトルのディメンションないし選定）によってはネットワーク入力側Ｅ１、Ｅ２．Ｅ３の数が定まる。ネットワーク出力側Ａ１、Ａ２の数は認識さるべきパターンの数により選定される。各ニューロンは唯一の出方側を有するので、ネットワーク出力側の数により出力ニューロンＮ４゜Ｎ５の数も設定される。当該の数は本実施例では１゜である（認識さるべき個別単語の数に従って）。

入力ニューロンＮ１．Ｎ２．Ｎ３の所要の数は認識さるべきパターン（個別単語）の数と、入力特徴ベクトルのディメンションないし選定（コレログラムにの要素の数に依存し、また認識されるべきパターン（個別単語）間の相違にも依存する、而して、類似の音響の（響きのある）単語の区別のためには明瞭に区別し得る単語の区別の場合よりも広汎なニュートラルネットワークを必要とする。

従って、入力ニューロンＮ１．Ｎ２．Ｎ３の数はニュートラルネットワークの複数の所謂学習−又はトレーニングフェーズから成る繰返形構成配列過程を用いて設定される、ここにおいて認識さるべきパターン（個所単語）はニュートラルネットワークの入力側に加え−られ、所望の出力結果と比較される。

当該の比較により、いわゆる“バックプロパージョン”　（−ｂａｃｋｐｒｏｐａｇａｔｉｏｎ’　）アルゴリズム（Ｐ、ｆｅｒｂｏｓ、　Ｂｅｙｏｎｄ　Ｒｅｇｒｅｓｓｉｏｎ；Ｎｅｗ　Ｔｏｏｌｓ　ｆｏｒ　Ｐｒｅｄｉｃｔｉｏｎ　ａｎｄ＾ｎａｌｙｓｉｓ　ｉｎ　ｔｈｅ　Ｂｅｈａｖｉｏｒａｌ　５ｃｉｅｎｃｅｓ、Ｐｈ、Ｄ、ｔｈｅｓｉｓ。

Ｈａｒｖａｒｄ　Ｕｎｉｖｅｒｓｉｔｙ、Ｃａｍｂｒｉｄｇｅ、ＭＡ、Ａｕｇ、　１９７４）により、個々のニューロンＮ１．Ｎ２．Ｎ３．Ｎ４゜Ｎ５の”整合 ”について情報が得られる。

各ニューロンは実質的に加算素子（該加算素子には直線性増幅幅器素子から成る。ニューロンの構成についての精しい説明は例えば下記刊行物になされている” Ｌａｙｅｒｄ　Ｎｅｕｒａｌ　Ｎｅｔｓ　ｆｏｒ　Ｐａｔｔｅｒｎ　Ｒｅｃｏｇｎｉｔｉｏｎ”、　Ｂ、　Ｗｉｄｒｏｗ、　Ｒ，Ｇ、　Ｗｉｎｔｅｒ、　Ｒ，＾、Ｂａｘｔｅｒ；ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ａｃｏｕｓｔｉｃ、５ｐｅｅｃｈ　ａｎｄ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｉｎｇ、Ｖｏｌ、　３６．　Ｎｏ、　７．　Ｊｕｌｙ　８８゜ニューロンの“整合”は当該の重み（ウェイト）の設定により行なわれ、上記重みによって入力値が増幅される。従ってニューラルネットワークの学習−及びトレーニングフェーズの目標はネットワークのすべての重み（ウェイト）を次ぎのように設定すること、即ち所望の認識過程が行なわれるように設定することである。従って当該重みはニューラルネットワークの情報の担い手である。

学習−及びトレーニングフェーズ中精確適正な認識過程の目標が達せられない場合は、このことが一般的に意味していることは当該ネットワークにおけるニューラルの数が具体的問題に対してわずか過ぎ、従って、増大させなければならないということである。しかる後、当該学習及びトレーニングフェーズが、拡大されたニューロンネットワークで繰返される。

具体的実施例では大体の主なケース（大多数のケース）で２０の入力ニューロンで十分である。従って、第一のトレーニングフェーズでは当該の数を基礎とする。当該トレーニングフェーズの第一部分セクション（これは設定−実際結果比較の最大１０回の繰返し及　。

びネットワーク所属の“整合”から成る）内では当該ネットワークは１０の異なる個所単語の認識の能力を備えなければならず、その際各個別単語は２０までの異なるサンプル（標本）（これは相違なす人物に由来し得る）において生起する。そのことがらまで行かない場合は入力ニューロンの数が高められ（２１に）、そして、トレーニングフェーズが繰返される。入力ニューロンの数が十分であって認識過程が基本的に或１つのニューラルネットワークにとって実施不能である場合、当該認識過程は５〜６回の繰返しの後適正に（精確に）実施される。しかる後、トレーニングフェーズの第２部分セクション（これは８つの（８回）の繰返操作過程から成る）において当該トレーニング効果は強化される（深められる）。当該の第２部分セクションの終了後ニューラルネットワークは使用可能な状態になる。

図４は本発明の方法実施装置の例を示す。該装置はデジタル信号プロセッサμｐとバスシステムＢとプロダラムメモリリＲＯＭと、ワークメモリＲＡＭと、入出カニニットＩ１０とを有する。

当該装置（構成）は市販の構成部品（素子）で構成されている。デジタル信号プロセッサμｐの核心部はアナログデバイス社（Ｆｉｒｍａ　Ａｎａｌｏｇ　Ｄｅｖｉｃｅｓ）の型式ＡＤＳＰ２１１１の信号プロセッサである。当該装置構成の詳細構成は上記信号プロセッサに対するユーザーマニアルが示されている。上記入カー／出カニニットは信号部分Ｃ（これは市販のＰＣＭ−コーデックから構成されている）と、制御ユニットへの接続用の制御部分ＳＴ、例えばパーソナルコンピュータとから成る。

上記入カー／出カニニットの信号部分Ｃを介しては音声信号の入力、及び場合により音響的な音声出力例えば操作指示が行なわれる。

櫂ＦＩＧ、２補正書の翻訳文提出書（特許法第１８４条の８）ＦＩＧ、４請　求　の　範　囲平成　６年　１月２４日

Claims

【特許請求の範囲】１．入力音声の個別単語の認識方法において、下記の方法過程ステップを備え、すなわち −予測期間内に入力された音声を電気音声信号に変換し、 −音素の時間的継続期間ないし持続時間により定まる時間間隔ｔｓにおいて、音声信号の瞬時のスペクトル振幅分布を求め、スペクトルベクトルＳ１（ｉ＝０．１．．．．．ｍ−１）として表わし、ここにおいてスペクトルベクトルＳ１の各要素（Ｓ１０，Ｓ１１，．．．．Ｓ１ｎ−１）は帯域幅ｂ０を有する周波数帯域の振幅を表わし、 −当該予測期間内にて求められたスペクトルベクトルＳ１からスペクトログラムＳを下記式に従って形成し、 ▲数式、化学式、表等があります▼ −スペクトログラムＳから座標ｊ，ｈ，ｋを有するコレログラムＫを求め、ここにおいて上記コレログラムＫの各要素Ｋｊ，ｈ，ｋを下式に従って形成し▲数式、化学式、表等があります▼ −上記コレログラムｋを、音声入力された個別単語の分類のため単語特有の特徴パターンとして用いることを特徴とする入力音声の個別単語の認識方法。２．２つの順次連続するスペクトルベクトルＳ，Ｓ１＋１間の所定の時間間隔ｔ ■を３２ｍｓｅｃに等しくした請求の範囲１記載の方法。３，上記コレログラムＫのインデックスｊ，ｈ，ｋに対して、下記条件を選定する、すなわちＫ＞０：ｋ×ｂｃ、１ｋＨｚｊ＋ｋ≧ｎ−１ｊ，ｈ≧０ｈ×ｔｓ＜５００ｍｓｅｃという条件を選定する請求の範囲１又は２記載の方法。４．音声入力された個別単語の分類のためにニューラルネットワークを使用する請求の範囲１，２または３記載の方法。５．上記ニューラルネットワークに第１の数のニューロンを有する入力平面、及び、第２の数のニューロンを有する出力平面を備え、単語特有のコレログラムＫの各要素を上記入力平面のニューロンと結合ないし接続し、更に、上記ニューロン各々の出力側を上記の出力平面の各ニューロン結合ないし接続し、更に上記出力平面の１つのニューロンの出力（側）により１つの所定の認識された個別単語を指示するようにした請求の範囲４記載の方法。６．各ニューロンに下記の非連続性伝達関数を備える、即ちｆ（×）＝×／｛｜×｜＋１｝という伝達関数を備える請求の範囲４又は５記載の方法。７．デジタル信号プロセッサを設け該プロセッサはデータ、アドレス、制御線路から成るバスシステムを介して、プログラムメモリ、ワークメモリ、入出力ユニットに接続されている請求の範囲１から６までのうちいずれか１項記載の方法を実施する装置。８．当該装置はＩＣ素子として構成されている請求の範囲７記載の装置。９．認識された個別単語に基づきダイヤリング過程が、個別単語に対応づけられた電話番号を以て電話装置にてトリガされるようにした請求の範囲２から６までのうちいずれか１項記載の方法。