JPS5939760B2

JPS5939760B2 - 音声認識装置

Info

Publication number: JPS5939760B2
Application number: JP51060332A
Authority: JP
Inventors: 博也藤崎; 英一白鳥; 修寺尾; 泰雄佐藤; 幸夫中井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1976-05-24
Filing date: 1976-05-24
Publication date: 1984-09-26
Also published as: JPS52142904A

Description

【発明の詳細な説明】本発明は音声認識装置に係り、特に予め認識すべき単語
の第１群音素（たとえば母音）パラメータ時系列と第２
群音素（たとえば子音）のパラメータ時系列とを登録し
ておき、音声認識に際して未知入力音声の第１群音素パ
ラメータ時系列と第２群音素パラメータ時系列とを抽出
しこの未知入力音声の第１群音素パラメータ時系列と前
記登録されているそれとを照合し、かつ未知入力音声の
第２群音素パラメータ時系列と前記登録されているそれ
とを照合しこれら照合結果に基いて未知入力音声の単語
を認識する音声認識装置に係るものである。

連続音声にみられるすべての変動要因に対処しうるよう
な音声認識の実現は現段階では困難であり最近では特定
の音素の組合せすなわち限定された数の単語の認識を対
象とし、更には特定の話者の音声の認識に先立つてその
音声を予め登録することにより変動要因の大部分を回避
して実用に耐える信頼度を得るようにしている。

この種の特定話者の音声の登録を前提とした従来の限定
語単語の認識方式は登録単語と未知入力単語との照合を
１）連続的パラメータのレベルで行なう方式と、１１）
離散的記号列のレベルで行なうものとに大別される。し
かし、前者１）の方式の場合記憶容量と照合時間の増大
が問題となり、後者１１）の方式では認識率の低下が問
題となりーカそれを補なおうとするその処理が複雑とな
る難点を備なえている。このため、本願出願人はすでに
特願昭５０−６２２１０に於て上記欠点を除去すること
を目的として、単語中の音素を比較的高い信頼度で認識
できる第１群の音素例えば母音とそれ以外の第２群の音
素例えば子音とに分離し、第１群の音素については上記
１１）の力式を採用して先ず未知入力単語の認識を行な
い、なお区別できない複数の単語が存在する場合のみ上
記第２群の音素について上記１）の力式を採用して照合
を行なうようにした音声認識力式を提案している。

ところで上記音声認識方式に於ては母音パラメノータ登
録部には予め定常５母音のパラメータすなわち単母音１
ａ１，１１（，１ｕＩ，１ｅＩ，０のパラメータのみが
登録され、音声認識に際しては未知入力音声から分離さ
れた母音のパラメータを上記登録された単母音のパラメ
ータと比較照合し未知入力音声の母音記号列を得ている
。

しかしながら、単語中の母音のパラメータの値は調音形
合の影響により定常母音のパラメータの値と異なるもの
がある。このため上記音声認識方式に於ては母音識別に
誤りを生じ正しい音声認識ができない場合があつた。本
願発明は上記欠点を除去するために予め母音パラメータ
登録部に定常５母音のパラメータの代りに認識すべき単
語中に含まれる母音のパラメータを登録せしめておくこ
とにより誤認識を生じない音声認識装置を提供する。上
記目的は本発明に於ては予め認識すべき単語の第１群音
素のパラメータ時系列と第２群音素のパラメータ時系列
とを登録せしめておき、音声認識に際して未知入力音声
の第１群音素パラメータ時系列と第２群音素パラメータ
時系列を抽出しこの未知入力音声の第１群音素パラメー
タ時系列と前記登録されている第１群音素パラメータ時
系列とを照合し、かつ未知入力音声の第２群音素パラメ
ータ時系列と前記登録されている第２群音素パラメータ
時系列とを照合しこれら照合結果に基いて未知入力音声
の単語を認識することにより達成される。以下図面に従
つて本発明を詳細に説明する。

第１図は本発明の音声認識装置の一実施例構成図であり
、１は音声を例えば１５チヤンネルの周波数信号に分解
する前処理手段、２は各音素のセグメンテーシヨンおよ
び照合とに用いるべきパラメータ時系列を得るためのパ
ラメータ抽出部、３はパラメータ抽出部２で抽出したパ
ラメータを第１群の音素（以下簡単のため母音と略称す
る）の区間と第２群の音素（以下簡単のため子音と略称
する）の区間とに区切るセグメンテーシヨン部、４は前
記セグメンテーシヨン部３で分離して得られた母音区間
の母音パラメータを時系列に配列した母音パラメータ時
系列として抽出する母音パラメータ時系列抽出部、５は
パラメータ時系列単語登録モードに於て予め認識すべき
各単語に対応してこれら単語の母音パラメータ時系列を
登録する母音パラメータ時系列登録部、６は単語認識モ
ード時未知入力音声の母声パラメータ時系列と上記母音
パラメータ時系列登録部５の各内容との照合を行ない距
離を演算する母音パラメータ時系列照合部、７は前記セ
グメンテーシヨン部で分離して得られた子音区間の子音
パラメータを時系列に配列した子音パラメータ時系列と
して抽出する子音パラメータ時系列抽出部、８は子音パ
ラメータ時系列を認識すべき単語ごとに登録しておく子
音パラメータ登録部、９は単語認識モード時に後述のコ
ントローラ１０の指示に応じて未知入力音声中の子音パ
ラメータ時系列と上述の登録部８の内容との照合を行な
い距離を演算する子音パラメータ時系列照合部、１０は
コントローラ、１１はコントローラの制御のもとに母音
パラメータ時系列照合部６及び子音パラメータ時系列照
合部９の照合結果に基づき未知入力音声を認識する単語
判定部、１２は出力部を夫々表わしている。またＳＷｌ
，ＳＷ２は夫々概念的に機械的スイツチの形で表わした
データカ向切替部で各モードに対応して切替えられる。
なお、図中の実線はデータ線を表わし、点線は制御信号
線を表わす。第２図は第１図に於けるパラメータ抽出部
２、セグメンテーシヨン部３、母音パラメータ時系列抽
出部４、子音パラメータ時系列抽出部７の関係を詳細に
説明するためのものである。

第２図において、１０１は第１ホルマント周波数に相当
する量Ｍ１および第２ホルマント周波数に相当する量鳩
を抽出するＭｌ，Ｍ２抽出部、１０２はパラメータ定常
性検出量ＳＭを抽出するＳＭ抽出部、１０３はパラメー
タ定常性検出部、１０４はスペクトル定常性検出量Ｓｓ
を抽出するＳｓ抽出部、１０５はスペクトル定常性検出
部、６は複数の各フイルタからの出力の和Ｐｗ即ちパワ
ーを抽出するＰｗ抽出部、１０７は高レベル区間を検出
する高レベル区間検出部、１０８は音声区間を検出する
音声区間検出部、１０９は音声終端検出部で音声の終端
を検出するもの、１１０は子音パラメータＸｌ，Ｘ２抽
出部、１１１は母音区間検出部、１２は子音区間検出部
、１４は母音パラメータ抽出部、７は子音パラメータ抽
出部を夫夫表わしている。

今Ｎチヤネルのフイルタからの出力が導びかれるものと
するとき、Ｍｌ，Ｍ２抽出部１１１は、上記出力を利用
して母音の認識に有効な少数のパラメータを得るために
、第１ホルマント周波数および第２ホルマント周波数に
相当する量Ｍｌ，Ｍ２を抽出するようにする。

この抽出には次の式が利用される。

ここでＰｉ（Ｔｎ）は例えば１０ｍ］Ｓｅ悔の時点Ｔｎ
でサンプルされたｉ番目のフイルタ・チヤネルの出力で
あり、Ｗｉｊはその荷重、Ｆｉはその中心周波数を表わ
している。なお荷重Ｗｉｊは、ホルマント周波数既知の
合成音のフイルタ出力から、求めた量Ｍｌ，Ｍ２がホル
マント周波数に一致するように実験的に決定される。Ｓ
Ｍ抽出部２は母音区間の検出の指標となるパラメータ定
常性を検出する量ＳＭを抽出するもので、いわば所定の
サンプリングの間にわたつて量Ｍ１およびＭ２を調べて
ゆく。量ＳＭは次式で定義される。パラメータ定常性検
出部１０３は、上記ＳＭ抽出部１０２によつて抽出され
た量ＳＭを順次検討してゆき、量ＳＭが予め定めた閾値
以下で、かつ予め定めた時間接続するときその区間にス
ペクトル定常性があつたものとして出力を発する。

Ｓｓ抽出部１０４はフイルタ群からの各出力から次式即
ち、で定義された量Ｓｓを抽出するものである。

スペクトル定常性検出部１０５は、上記Ｓｓ抽出部１０
４によつて抽出された量Ｓｓを順次に検討してゆき、量
Ｓｓが予め定めた閾値以下で、かつ予め定めた時間接続
するときその区間にスペクトル定常性があつたものとし
て出力を発する。ＰＷ抽出部１０６は各フイルタ出力の
和を抽出するもので、ｉ番目のフイルタ・チヤネルの出
力をＰｉとするとき、あるサンプリング時点Ｔｎにおけ
るパワーＰｗ（Ｔｎ）は次式で決定される。即ち高レベ
ル区間検出部１０７は、音声のパワーが高レベルである
か否かを検出するもので、上記Ｐｗ抽出部１０６からの
出力Ｐｗが次式即ち、を満足するとき、その区間が高レ
ベル区間であるとみなすようにしている。

なお上記（５）式においてＰｍａｘはある単語区間中に
おけるパワーＰｗの最大値を表わし、パワーＰｗが最大
値Ｐｍａｘのα〔％〕をこえていることを検出している
ものと考えてよい。音声区間検出部８は、音声が存在す
るか否かを検出するもので上記出力Ｐｗが予め定めた閾
値を超えている区間を音声区間とみなすようにしている
。

終端検出部１０９は、単語の終端を検出するもので、該
終端を検出した後にそれにつづく処理が行なわれる。

第３図は各音素がもつ特性をまとめて示している。

図から明らかな如く母音及び母音連続音声はスペクトル
定常性をもち、かつ高レベル音である。そして母音区間
を決定するにはさらに上述のパラメータ定常性を用いる
ことも可能である。このことから、第２図図示の如く母
音区間検出部１１１は次の条件のもとで母音区間を決定
する。即ち、１）音声区間である。２）かつ高レベル区
間である。

３）かつスペクトル定常性がある。

４）かつパラメータ定常性がある。

上記に対して半母音および子音においては、１）音声区
間である。

ことを条件とし、２）スペクトル定常性がないかまたは高レベルでないか
のいずれかである。

このことから、第２図図示の如く子音区間検出部１１２
に対して各検出部１０５，１０７，１０８，１０９の出
力が供給され、これにより該子音区間検出部１１２は子
音区間を決定する。

今第４図図示の如く単語「凧ＮＡＳＵ」が発声され各フ
イルタ群からの出力の和Ｐｗが第４図Ａ図示の如き時間
経過をとつたとする。このとき、第２図図示の各検出部
１０３，１０５，１０７，１０８，１０９によつて第４
図Ｂに示す如く母音区間と子音区間とが夫々検出される
。上述の如く決定された母音区間は、第２図図示母音区
間検出部１１１から、母音パラメータ時系列抽出部４に
指示される。

該母音パラメータ時系列抽出部４は、Ｍｌ，Ｍ２抽出部
１１１からのホルマント周波数に相当する量を上記区間
によつて区分して次段に供給する。また上述の如く決定
された子音区間は、第２図図示の子音区間検出部１１２
から、子音パラメータ時系列抽出部７に指示される。

該子音パラメータ時系列抽出部７は、後述する如くＸ１
およびＸ２抽出部１１０からの出力を上記区間によつて
区分して次段に供給する。次段以降では抽出された子音
パラメータは該パラメータの形のままで登録さへまた
先に登録されたパラメータと照合されるものと考えてよ
い。Ｘ１およびＸ２抽出部１１０は夫々有声子音相互の
分離と無声子音相互の分離とを行ない得るようにするパ
ラメータＸ１およびＸ２を抽出する。

そして該パラメータＸ１（Ｔｎ）はで定義さぺ上記ベク
トルａ１＝（Ａｌｌ，ａｌ２，・・・，ＡｌＮ）はフ
イルタ群の出力によつて得られる多次元空間内に例えば
有声子音の標本群をその上に写像した場合、各子音相互
の分離が最大となるように定められる。

即ちパラメータｘ１（Ｔｎ）は有声子音相互の分離を行
ない得るものとなる。またパラメータＸ２（Ｔｎ）はで
定義され、ベクトルＡ２２（Ａ２ｌ？Ａ２２９ｌＯ９ａ
２Ｎ）は同様に例えば無声子音の標音群に関して相互の
分離を最大にするように定められる。

即ちバラメータＸ２（Ｔｎ）は無声子相互の分離を行な
い得るものとなる。本発明の場合、第２図図示の子音パ
ラメータ時系列抽出部７の後段において、未知入力音声
中の子音パラメータ時系列Ｘ１およびＸ２と、先に登録
されている子音パラメータ時系列Ｘ１およびＸ２とを用
いて直接照合される。

さて本発明による音声認識装置は大別して２つのモード
即ち（４）単語登録モード［Ｆ］）単語認識モードで動
作するよう構成されている。

以下各モードについて順次説明する。（４）単語登録モ
ード（１）母音パラメータ時系列登録第１図に示す如くデータ方向切替手段ＳＷｌをＡ側に切
替えておく。

ついで、図示しない手段によりコンローラに通知されて
いる。「ＡＳＩ」，「Ｍ品Ｍ月などの認識すべき既知の
単語を順次発音したとすると、たとえば「ＡＳＩ」なる
発音に応じてセグメンテーシヨン部３は「Ａ」と「Ｉ」
に対応する母音区間と「Ａ」に先行する区間、子音「Ｓ
」に対応する子音区間及び「Ｉ」に後続する区間を区切
り、その結果パラメータ抽出部２により抽出した母音「
Ａ」及び「Ｉ」に対応する母音パラメータ時系列をコン
トローラ１２の制御により母音パラメータ時系列登録部
５に登録する。

こ＼で、本発明においては母音パラメータとして前述の
如く第１ホルマント周波数、第２ホルマント周波数を採
用している。従つて母音パラメータ時系列登録部５には
単語「ＡＳＩ」に対応して母音「Ａ」，「月の各第１、
第２ホルマント周波数の時系列が記憶されたことになる
。

尚、母音パラメータ時系列登録部５には各単語に対応し
て母音区間「Ａ」の第１ホルマント周波数の平均値、第
２ホルマント周波数の平均値及び母音区間「」の第１ホ
ルマント周波数の平均値、第２ホルマント周波数の平均
値を時系列に登録してもよく、又母音区間の中心に於け
る第１、第２ホルマント周波数を登録してもよい。

以後の説明では１母音に対し１対の第１、第２ホルマン
ト周波数が登録されているものとして説明をする。かく
して、以後同様に認識すべき単語に応じた各第１、第２
ホルマント周波数の時系列が母音パラメータ時系列登録
部５に登録されてゆき最終的に全認識すべき単語のホル
マント周波数が母音パラメータ時系列登録部５に登録さ
れたことになる。

（２）子音パラメータ時系列登録子音パラメータ時系列は第１図のスイツチＳＷ２をＡ側
に切替えておくことにより前記母音パラメータ時系列の
登録と同時に子音パラメータ時系列登録部８に登録する
ことができる。

たとえば「ＡＺＥ」が入力されるとセグメンテーシヨン
部３によつて区切られた「Ａ」に先行する区間、子音「
Ｚ」に対応する区間、「Ｅ」に後続する区間のそれぞれ
に対応するパラメータ抽出部２により抽出した子音パラ
メータＸ１（Ｔｎ），Ｘ２（Ｔｎ）を子音パラメータ時
系列登録部８に登録する。

以後同様な動作に従つて認識すべき全単語とそれぞれの
単語中の複数の子音区間の子音パラメータ時系列との対
応関係が子音パラメータ時系列登録部８に登録されるこ
とになる。（Ｂ）単語認識モード第１図のデータ方向切替手段ＳＷｌ，ＳＷ２をＢ接点側
に切替えておく。

この状態に於て未知入力音声が発声されたとする。母音
パラメータ時系列抽出部４は母音パラメータ時系列を抽
出しこれを母音パラメータ時系列照合部６に送出する。
一力、母音パラメータ時系列登録部５からは未知入力音
声と同音節数を有する登録単語の内容が順次適当なタイ
ミングで照合部６に導かれ各単語毎に照合部６に於てた
とえば次式で示されるＬｋ（以後距離という）の計算が
実行される。

上式中ｎは未知入力音声の音節数、ｍは登録単語数ＭＯ
Ｊｉ，Ｍｋｊｉはそれぞれ未知入力音声及び登録単語の
パラメータ時系列に於けるｉ番目の値すなわちｉ音節の
母音パラメータである。

さて、上述の如く得られた未知入力音声と同音節数の各
登録単語との距離は予め定めた閾値と比較照合さ礼該閾
値以下の登録単語が単語判定部１１に通知される。

この単語判定部１１に通知された登録単語の数が２以上
ある場合には、当該単語はコントローラ１０の制御のも
とに子音パラメ一タ時系列登録部８に通知され、これら
通知された登録単語の子音パラメータ時系列は子音パラ
メータ時系列抽出部７を介して子音パラメータ時系列照
合部９に与えられている未知入力音声の子音パラメータ
時系列と比較され、照合部９において後述の如く登録単
語と未知入力音声との距離が演算される。尚、上記母音
パラメータ照合部６から単語判定部に通知される単語と
しては閾値以下の単語としたが、閾値を考慮せず距離の
小さい順に複数個たとえば３個候補登録単語として単語
判定部に通知してもよい。

さて、子音パラメータ時系列照合部に於ける登録単語と
未知入力音声との照合はそれぞれの単語の対応する子音
区間同志の照合にもとづいて行なわへ各子音区間の子音
パラメータ時系列の照合によつて得られる距離の和が登
録単語と未知入力音声との距離として定義される。

登録単語と未知入力音声との対応する子音区間の子音パ
ラメータ時系列の照合は以下の如く行なわれる。

、第５図はそのための照合の態様を説明する説明図を示
している。

今、先に登録されている子音パラメータ時系列Ｘ１およ
びＸ２とが、第５図Ａ図示の如きタイミングにおいて図
示の如きレベルをそなえていたとし、未知入力音声から
抽出されたパラメータ時系列Ｘ１およびＸ２とが、第５
図Ｂ図示の如きタイミングにおいて図示の如きレベルを
そなえていたとする（Ｘｌ，Ｘ２は不連続であるが説明
上連続的に表わしている）。なお図中Ｔｅ，ｔｓ′は当
該音素に対応する子音区間の始点を示し、Ｔｅ，ｔｅ′
は同区間の終点を示し、Ｔｃ，ｔｃ′はその区間の照合
中心点を示している。第５図Ｃ図示の如く、例えば子音
区間内において、パワーの急変成いは最小時点として指
定する両者のパラメータの照合中心点ＴＣ（５ｔｃ′と
が一致するようにタイミングあわせを行ない、その上で
両者の照合をとるようにする。この照合方式を採用する
ことにより、照合中心点Ｔｃ（又はＴｃ′）から前後所
定範囲内において照合を行なうだけで、両者の一致、不
一致を簡単に決定することが可能になる。上記タイミン
グあわせを行なうための構成は、点Ｔｓ，ｔｓ′，Ｔｃ
，ｔｃ′，Ｔｓ，ｔｓ′が夫々決定されれば第５図Ａ図
示のパラメータ時系列および／または第５図Ｂ図示のパ
ラメータ時系列を時間遅れ手段に導びくことによつて容
易に達成できる。いま、上記中心点Ｔｃ′を第５図Ｃに
示す如くＴｃに合せた際、照合の範囲がＴｅ′＋Ｔｃ−
Ｔｃ′〜Ｔｅ間となつた場合、子音区間の子音パラメー
タ時系列の照合によつて得られる距離は次式のＳｋ，ｉ
として求められる。ここでＳｋ，ｉは未知入力音声とｋ
番目の登録単語の照合においてそれぞれの単語のｉ番目
の子音区間相互の距離を表わす。

なお、ＸＯｌ（ｔ），Ｘ卜（ｔ）はそれぞれ未知入力音
声、登録単語中の対ｊ応する子音区間の子音パラメータ
の値を示す。

上記Ｓｋ，ｉから次式の如く子音パラメータ時系列を用
いた未知入力音声と登録単語との距離Ｓｋを演算しその
結果を単語判定部１１に通知すれば単語判定部は距離Ｓ
ｋの最小の登録単語を未知入力音声の単語として認識し
、コントローラ１０の制御のもとに出力部にこれを出力
する。尚、単語判定部１１に於ては上記（９），０１）
式で与えられる距離Ｌｋ，Ｓｋの荷重和として次式のＤ
ｋを演算し、Ｄｋの最小の登録単語を決定し、これを未
知入力音声の単語と認識せしめる如くしてもよい。こ＼
で、ＷＬ，ＷＳは荷重であり実験的に最適な値として決
められるものである。

以上、本発明によれば予め認識すべき単語の第１群音素
パラメータ時系列と第２群音素パラメータ時系列を登録
しておき、音声認識に際して、未知入力音声の第１群音
素パラメータ時系列と第２群音素パラメータ時系列とを
抽出し、この未知入力音声の第１群音素パラメータ時系
列と前記登録されているそれとを照合し、かつ未知入力
音声の第２群音素パラメータ時系列と前記登録されてい
るそれとを照合し、これら照合結果に基づき未知入力音
声の単語を認識するから高い信頼度の音声認識ができる
。

又、従来の力式の如く調音結合による誤認識を除去でき
る結果増々音声認識の信頼度を高めることができる。

【図面の簡単な説明】

第１図は本発明の一実施構成図、第２図は第１図の１部
詳細図、第３図は各音素の特性説明図、第４図は本発明
により区別される母音区間と子音区間とを説明する説明
図、第５図は本発明によるパラメータレベルでの照合態
様を説明する説明図である。図中、２はパラメータ抽出部、３はセグメンデーシヨン
部、４は母音パラメータ時系列抽出部、５は母音パラメ
ータ時系列登録部、６は母音パラメータ時系列照合部、
７は子音パラメータ時系列抽出部、８は子音パラメータ
時系列登録部、９は子音パラメータ時系列照合部、１０
はコントローラ、１１は単語判定部である。

Claims

【特許請求の範囲】１音声信号の周波数分析結果を利用して各音素に対す
るパラメータを抽出することにより音声認識を行なう音
声認識装置に於て、単語を予め定めた第１群の音素区間
とそれ以外の第２群の音素区間とに分離するセグメンテ
ーシヨン部、第１群の音素パラメータを時系列に配列し
てなるパラメータ時系列を抽出する第１群音素パラメー
タ時系列抽出部、該抽出された第１群音素パラメータ時
系列を認識すべき単語毎に予め登録する第１群音素パラ
メータ時系列登録部、第２群の音素を時系列に配列して
なる第２群音素パラメータ時系列を前記各単語に対応し
て予め登録する第２群音素パラメータ時系列登録部、未
知入力音声に対応した第１群音素パラメータ時系列と前
記第１群音素パラメータ時系列登録部の内容とを照合す
る第１群音素パラメータ時系列照合部、未知入力音声に
対応した第２群音素パラメータ時系列と前記第２群音素
パラメータ時系列登録部の内容とを照合する第２群音素
パラメータ時系列照合部を備え、未知入力音声に対応し
て上記第１群音素パラメータ時系列照合部及び第２群音
素パラメータ時系列照合部の照合結果により該未知入力
音声の認識を行なうことを特徴とする音声認識装置。２音声信号の周波数分析結果を利用して各音素に対す
るピラメータを抽出することにより音声認識を行なう音
声認識装置において、未知入力音声の第１群音素パラメ
ータ時系列と前記登録されている第１群音素パラメータ
時系列との距離を演算し、ついで該距離が予め定めた閾
値以下の各登録単語に対応する前記登録されている第２
群音素パラメータ時系列と前記未知入力音声の第２群音
素パラメータ時系列との距離を演算し、この距離が最小
の登録単語を未知入力音声の単語として認識することを
特徴とする特許請求の範囲第１項記載の音声認識装置。３音声信号の周波数分析結果を利用して各音素に対す
るパラメータを抽出することにより音声認識を行なう音
声認識装置において、未知入力音声の第１群音素パラメ
ータ時系列と前記登録されている第１群音素パラメータ
時系列との第１の距離を演算し、ついで該第１の距離が
予め定めた閾値以下の各登録単語に対応する前記登録さ
れている第２群音素パラメータ時系列と前記未知入力音
声の第２群音素パラメータ時系列との第２の距離を演算
し、前記第１、第２の距離の荷重和が最小の登録単語を
未知入力音声の単語として認識することを特徴とする特
許請求の範囲第１項記載の音声認識装置。