JP2001343983A

JP2001343983A - 音声始端検出方法、音声認識装置における音声区間検出方法および音声認識装置

Info

Publication number: JP2001343983A
Application number: JP2000160237A
Authority: JP
Inventors: Hiroshi Yamamoto; 博史山本; Singer Harald; ハラルド・シンガー
Original assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Current assignee: ATR ONSEI GENGO TSUSHIN KENKYU; ATR Spoken Language Translation Research Laboratories
Priority date: 2000-05-30
Filing date: 2000-05-30
Publication date: 2001-12-14
Anticipated expiration: 2020-05-30
Also published as: JP3721948B2

Abstract

(57)【要約】【課題】この発明は、従来のＨＭＭを用いた音声始端
検出方法に比べて、計算能力の低減化が図れる音声始端
検出方法を提供することを目的とする。【解決手段】環境非依存の有声音のＨＭＭであって、
ＨＭＭの時間方向の接続を無視し、時間方向の全状態に
含まれるガウス分布からなる混合ガウス分布で近似した
ＨＭＭと、環境非依存の無音のＨＭＭとを用いて、入力
音声波形の一定区間内に所定フレーム数以上の有声音区
間が存在するか否かを判定し、一定区間内に所定フレー
ム数以上の有声音区間が存在するときに当該一定区間の
先頭フレームを音声始端として検出する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、音声始端検出方
法、音声認識装置における音声区間検出方法および音声
認識装置に関する。

【０００２】

【従来の技術】音声認識において、音声区間の検出は非
常に重要な問題である。音声区間の検出には音声始端と
音声終端の検出が必要である。音声始端の検出における
要求は音声始端を確実に検出することであり、音声終端
の検出では実際の音声終端に遅れることない検出が要求
される。

【０００３】音声始端の検出において最も重要な要求
は、検出点が実際の発声の始端より遅れないことであ
る。これは、検出点が実際の発声の始端より遅い場合は
即座に認識誤りの原因となるためである。

【０００４】従来のパワーおよびその変動を用いた音声
区間検出法（文献１参照）では、検出点は実際の発声よ
り大きく遅れることはないが、たとえば、「一回」の／
ｉｋｋ／の音声区間のように、発声の始端において十分
にパワーが上がらないような場合には、この部分を取り
こぼす場合がありえる。これは音声区間をモデル化する
にはパワーおよびその変動だけでは単純すぎることを意
味している。

【０００５】文献１： Ben Reaves Bigram Parameter
s for Noise Robust Speech Detection. In 日本音響学
会平成５年春秋研究発表会講演論文集、I,2-Q-25, pp.1
97-198．

【０００６】音声始端の検出において精度が最重要視さ
れたのに対し、音声終端の検出においては実際の発声の
終端に対して遅れが少ないことも重要視される。これは
音声終端の検出の遅れがそのまま認識結果の出力の遅れ
につながるためである。従来のパワーおよびその変動を
用いた音声区間検出法（文献１参照）では、上述したよ
うに、音声区間のモデルとしては単純すぎるため、どう
しても音声終端の検出が実際の発声の終端よりもかなり
遅れる傾向にある。

【０００７】

【発明が解決しようとする課題】

【０００８】この発明は、従来のＨＭＭを用いた音声始
端検出方法に比べて、計算能力の低減化が図れる音声始
端検出方法および音声認識装置における区間判定方法を
提供することを目的とする。

【０００９】この発明は、音声区間の検出が容易となる
音声認識装置を提供することを目的とする。

【００１０】

【課題を解決するための手段】この発明は、ＨＭＭを用
いた音声始端検出方法であって、環境非依存の有声音の
ＨＭＭであって、ＨＭＭの時間方向の接続を無視し、時
間方向の全状態に含まれるガウス分布からなる混合ガウ
ス分布で近似したＨＭＭと、環境非依存の無音のＨＭＭ
とを用いて、入力音声波形の一定区間内に所定フレーム
数以上の有声音区間が存在するか否かを判定し、一定区
間内に所定フレーム数以上の有声音区間が存在するとき
に当該一定区間の先頭フレームを音声始端として検出す
ることを特徴とする。

【００１１】この発明は、音声認識装置における音声区
間検出方法であって、環境非依存の有声音のＨＭＭであ
って、ＨＭＭの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したＨＭＭと、環境非依存の無音のＨＭＭとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定し、一定区間内に所
定フレーム数以上の有声音区間が存在するときに当該一
定区間の先頭フレームを音声始端として検出し、音声認
識に用いられているＨＭＭを用いて無音区間が所定期間
以上継続したか否かを判定し、無音区間が所定期間以上
継続したときに音声終端と判定することを特徴とする。

【００１２】この発明による第１の音声認識装置は、入
力音声波形から特徴量を抽出する特徴量抽出手段、特徴
量抽出手段によって抽出された特徴量に基づいて音声始
端を検出する音声始端検出手段、特徴量抽出手段によっ
て抽出された特徴量に基づいて音声認識処理を行なうと
ともに音声終端検出処理を行なうデコード手段、音声始
端検出部によって音声始端が検出されたときに、特徴量
抽出手段によって抽出された特徴量をデコード手段に送
り、かつデコート手段によって音声終端が検出されたと
きに、特徴量抽出手段によって抽出された特徴量を音声
始端検出部に送るように、特徴量抽出手段によって抽出
された特徴量の送り先を制御する手段を備えており、音
声始端検出手段は、環境非依存の有声音のＨＭＭであっ
て、ＨＭＭの時間方向の接続を無視し、時間方向の全状
態に含まれるガウス分布からなる混合ガウス分布で近似
したＨＭＭと、環境非依存の無音のＨＭＭとを用いて、
入力音声波形の一定区間内に所定フレーム数以上の有声
音区間が存在するか否かを判定する手段、および一定区
間内に所定フレーム数以上の有声音区間が存在するとき
に当該一定区間の先頭フレームを音声始端として検出す
る手段を備えており、デコート手段は、音声認識処理に
用いられているＨＭＭを用いて無音区間が所定期間以上
継続したか否かを判定する手段、および無音区間が所定
期間以上継続したときに音声終端と判定する手段を備え
ていることを特徴とする。

【００１３】この発明による第２の音声認識装置は、ク
ライアント装置とサーバ装置とを備えており、クライア
ント装置は、入力音声波形からケプストラムを抽出する
ケプストラム抽出手段、ケプストラム抽出手段によって
抽出されたケプストラムから特徴量を抽出する第１の特
徴量抽出手段、第１の特徴量抽出手段によって抽出され
た抽出された特徴量に基づいて音声始端を検出する音声
始端検出手段、およびケプストラム抽出手段によって抽
出されたケプストラムをサーバ装置に送るか否かを選択
するスイッチ手段を備えており、サーバ装置は、クライ
アント装置から送られてくるケプストラムから特徴量を
抽出する第２の特徴量抽出手段、および第２の特徴量抽
出手段によって抽出された特徴量に基づいて音声認識処
理を行なうとともに音声終端検出処理を行なうデコード
手段を備えており、音声始端検出手段は、環境非依存の
有声音のＨＭＭであって、ＨＭＭの時間方向の接続を無
視し、時間方向の全状態に含まれるガウス分布からなる
混合ガウス分布で近似したＨＭＭと、環境非依存の無音
のＨＭＭとを用いて、入力音声波形の一定区間内に所定
フレーム数以上の有声音区間が存在するか否かを判定す
る手段、一定区間内に所定フレーム数以上の有声音区間
が存在するときに当該一定区間の先頭フレームを音声始
端として検出する手段、および音声始端を検出したとき
にスイッチ手段をオンさせる手段を備えており、デコー
ド手段は、音声認識処理に用いられているＨＭＭを用い
て無音区間が所定期間以上継続したか否かを判定する手
段、無音区間が所定期間以上継続したときに音声終端と
判定する手段および音声終端が検出されると、サーバ装
置内の音声始端検出部に音声終端の時間を送信するとと
もに音声終端に続いて音声始端が検出されたと仮定して
デコーディングを継続する手段を備えており、音声始端
検出手段は、さらに、デコード手段から音声終端の時間
を受信したときに、その音声終端の時間から現在までに
音声始端を検出したかどうかを判定する手段、および音
声終端の時間から現在までに音声始端を検出していると
きには、スイッチ手段をオンのままとし、音声終端の時
間から現在までに音声始端を検出していないときには、
スイッチ手段をオフとさせる手段を備えていることを特
徴とする。

【００１４】

【発明の実施の形態】以下、この発明の実施の形態につ
いて説明する。

【００１５】〔１〕音声始端の検出方法の説明

【００１６】音声区間をより詳細にモデル化する方法と
してはＨＭＭを用いる方法が知られている（文献２参
照）。

【００１７】文献２：堀泰宣、船田哲男、金寺登実
環境下単語音声区間検出のための雑音ＥＨＭＭ再学習の
効果電子情報通信学会技術報告、SP97-47, 1997.

【００１８】しかしながらＨＭＭを用いた場合、その計
算量はかなりのものとなり、特に計算能力の落ちる計算
機を用いるクライアント・サーバ型の音声認識では実用
面で大きな問題となる。そこで、本発明の実施の形態で
は、ＨＭＭを次に示す方法で簡素化することによって計
算能力の削減を図ることにする。

【００１９】環境非依存のＨＭＭを用いることにより
状態数を削減する。有声音および無音のＨＭＭのみを用いる。有声音モデルの作成にあたっては、ＨＭＭの時間方向
の接続を無視し、時間方向の全状態に含まれるガウス分
布からなる混合ガウス分布で近似する。

【００２０】ここで、有声音とは、（１）母音そのも
の、および（２）母音と子音の一部とからなるものをい
う。上記（２）の子音の一部とは、音を伴う子音をい
い、濁音、ナ行、マ行、ヤ行およびワ行の子音をいう。
カ行、サ行、タ行、ハ行、パ行の子音は無音である。

【００２１】有声音および無音のＨＭＭのみを用いた場
合、子音区間は有声音と判断されるか無音と判断される
か不定である。しかし子音のみが長時間（１００ｍｓｅ
ｃ以上）継続することは考えがたいため、一定区間内に
一定フレーム以上有声音区間が存在すれば音声区間と判
断する。

【００２２】〔２〕音声終端の検出方法の説明

【００２３】デコーディング時には詳細なモデルである
ＨＭＭが認識のために用いられている。従ってこのＨＭ
Ｍの尤度を用いて音声終端の検出を行えば正確な終端検
出が可能と考えられ、言語モデルとして有限状態オート
マトンを用いた場合の例が報告されている（文献３参
照）。

【００２４】文献３：内藤正樹、黒岩眞吾、山本誠一、
武田一哉部分文仮説のゆう度を用いた連続音声認識の
ための音声区間検出法. In 電子情報通信学会論文誌、
J80-DII, pp.2895-2903, 1997.

【００２５】本発明の実施の形態では、言語モデルとし
てＮ−ｇｒａｍを用いた場合を前提とし、音響状態が無
音である仮説が一定時間以上最尤であれば音声区間の終
端と判断する。

【００２６】〔３〕評価実験

【００２７】上記実施の形態による手法（以下、本手法
という）と、パワーおよびその変動を用いた従来法との
比較実験を行った。実験は４１会話５３６発話を対象と
して行った。これらの発声はあらかじめ人手で前後に十
分な無音を付加して切り出してある。

【００２８】〔３−１〕始端検出の評価

【００２９】音声始端検出のためのＨＭＭとしては無音
および男女別の有声音、計１１のモデルを用いた。つま
り、１つの無音のモデルと、５つの男性の有声音のモデ
ルと、５つの女性の有声音のモデルとを用いた。

【００３０】各モデルは環境非依存３状態であり、ガウ
ス分布の混合数はそれぞれ５である。音声始端検出の条
件としては１２フレーム（１２０ｍｓｅｃ）中、４つ以
上有声音が最尤であった場合、１２フレームの先頭フレ
ームを音声始端とした。

【００３１】評価は実際の発声の始端とのずれとした。
この時の計算コストはケプストラム抽出を含む特徴量抽
出の計算のコストとほぼ同等であった。従来法との比較
結果を表１に示す。

【００３２】

【表１】

【００３３】検出した始端の時間が実際の発声の始端に
先んじた発話を検出成功発話としてある。提案法におい
て始端検出に失敗した発話が１４あるものの、これらは
すべて「あ、すみません」の「あ」の部分のように後ろ
に無音を伴う短い間投詞であり、認識結果にはほとんど
影響を及ぼさないものであった。

【００３４】〔３−２〕終端検出の評価

【００３５】終端検出すなわち認識に用いたＨＭＭは１
４００状態５混合の性別依存モデルである。終端検出の
ための無音最尤の継続長は７００ｍｓｅｃとした。従来
法との比較結果を表２に示す。検出した終端の時間が実
際の発声の終端より後ろである発話を検出成功発話とし
てある。

【００３６】

【表２】

【００３７】ここでは、音声区間検出の手法として、始
端検出には無音および有声音のＨＭＭを用い、終端検出
には認識に用いるＨＭＭを用いてデコーダで検出する方
法を提案した。本手法は始端検出においては精度で、終
端検出においては遅延時間において従来法にまさり、音
声区間検出における有効性が実験により認識された。ま
た従来法では対応の難しい非定常雑音下においてもＨＭ
Ｍで雑音モデルとして表現することにより対応できる可
能性があり、適応範囲においても優れていると考えられ
る。

【００３８】〔４〕応用例の説明

【００３９】〔４−１〕スタンドアロン型における音声
認識システムの説明図１は、スタンドアロン型の音声認識システムの構成を
示している。

【００４０】音声認識システムに入力された音声波形は
特徴量抽出部１に送られ、特徴量抽出部１によって特徴
量が抽出される。特徴量抽出部１によって抽出された特
徴量は、スイッチ２を介して音声始端検出部３へと送ら
れる。音声始端検出部３は、特徴量抽出部１によって抽
出された特徴量に基づいて、上記〔１〕で説明した音声
始端検出方法によって音声始端を検出する。

【００４１】音声始端検出部３によって音声始端が検出
されると、スイッチ２がデコーダ側に切り替わり、音声
始端検出部３で検出された音声始端以降の特徴量がデコ
ーダ４に送られる。デコーダ４は、送られてきた特徴量
に基づいて音声認識処理を行なうとともに音声終端検出
処理を行なう。

【００４２】この後、デコーダ４が、上記〔２〕で説明
した方法によって音声終端を検出すると、再びスイッチ
２が音声始端検出部側に切り替えられ、特徴量抽出部１
によって抽出された特徴量が音声始端検出装置３に送ら
れ、次の音声に対応する状態に戻され、同様な動作が繰
り返される。

【００４３】〔４−２〕クライアント・サーバ型におけ
る音声認識システム構成

【００４４】図２は、クライント・サーバ型の音声認識
システムの構成を示している。

【００４５】この音声認識装置は、クライアント装置１
０と、サーバ装置２０とから構成されている。

【００４６】クライアント装置１０は、音声波形からケ
プストラムを抽出するケプストラム抽出部１１、ケプス
トラム抽出部１１によって抽出されたケプストラムから
特徴量を抽出する特徴量抽出部１２、特徴量抽出部１２
によって抽出された抽出された特徴量に基づいて上記
〔１〕で説明した音声始端検出方法によって音声始端を
検出する音声始端検出部１３およびケプストラム抽出部
１１によって抽出されたケプストラムをサーバ装置２０
に送るか否かを制御するスイッチ１４を備えている。

【００４７】サーバ装置２０は、クライアント装置１０
から送られてきたケプストラムから特徴量を抽出する特
徴量抽出部２１および特徴量抽出部２１によって抽出さ
れた特徴量に基づいて音声認識処理を行なうとともに上
記〔２〕で説明した音声終端検出方法によって音声終端
検出処理を行なうデコーダ２２を備えている。

【００４８】クライアント装置１０内の音声始端検出部
１３は、音声始端の検出処理を常時行なっている。クラ
イアント装置１０内の音声始端検出部１３で音声始端が
検出されると、スイッチ１４がオンされ、音声始端検出
部１３で検出された音声始端以降のケプストラムがサー
バ装置２０に送られる。サーバ装置２０内の特徴量抽出
部２１では、クライアント装置１０から送信されてきた
ケプストラムに基づいて特徴量を抽出する。特徴量抽出
部２１によって抽出された特徴量はデコーダ２２に送ら
れる。デコーダ２２は、特徴量抽出部２１から送られて
きた特徴量に基づいて音声認識処理を行なうとともに音
声終端検出処理を行なう。

【００４９】デコーダ２２によって音声終端が検出され
ると、サーバ装置１０内の声始端検出部１３に音声終端
の時間が送信される。この際、デコーダ２２は音声終端
に続いて音声始端が検出されたと仮定してデコーディン
グを継続する。

【００５０】音声始端検出部１３は、デコーダ２２から
音声終端の時間を受信すると、その音声終端の時間から
現在までに音声始端を検出したかどうかを調べる。音声
始端検出部１３は、音声終端の時間から現在までに音声
始端を検出している場合には、スイッチ１４をオンのま
まとする。この場合には、デコーダ２２は、デコーダ２
２が仮定した音声始端を有効とみなしてデコーディング
を継続することになる。

【００５１】音声始端検出部１３は、音声終端の時間か
ら現在までに音声始端を検出している場合には、スイッ
チ１４をオフとするとともに、キャンセル信号をデコー
ダ２２に送る。デコーダ２２は、キャンセル信号を受信
すると、デコーディングを中止する。

【００５２】なお、クライント・サーバ型の音声認識シ
ステムとして、図３に示すようなものを用いてもよい。

【００５３】図３のシステムでは、クライアント装置１
１０は、音声波形から特徴量を抽出する特徴量抽出部１
１１、特徴量抽出部１１１によって抽出された抽出され
た特徴量に基づいて上記〔１〕で説明した音声始端検出
方法によって音声始端を検出する音声始端検出部１１２
および特徴量抽出部１１１によって抽出された特徴量を
サーバ装置１２０に送るか否かを制御するスイッチ１１
３を備えている。

【００５４】サーバ装置１２０は、クライアント装置１
１０から送られてきた特徴量に基づいて音声認識処理を
行なうとともに上記〔２〕で説明した音声終端検出方法
によって音声終端検出処理を行なうデコーダ１２１を備
えている。

【００５５】図３の装置においても、音声始端検出部１
１２の動作およびデコーダ１２１の動作は、それぞれ図
２の音声始端検出部１３の動作およびデコーダ２２の動
作と同じである。

【００５６】

【発明の効果】この発明によれば、従来のＨＭＭを用い
た音声始端検出方法に比べて、計算能力の低減化が図れ
るようになる。また、この発明によれば、音声区間の検
出が容易となる音声認識装置が得られる。

【図面の簡単な説明】

【図１】スタンドアロン型の音声認識システムの構成を
示すブロック図である。

【図２】クライント・サーバ型の音声認識システムの構
成を示すブロック図である。

【図３】クライント・サーバ型の他の音声認識システム
の構成を示すブロック図である。

【符号の説明】

１、１２、２１、１１１特徴量抽出部２、１４、１１３スイッチ３、１３、１１２音声始端検出部４、２２、１２１デコーダ１０、１１０クライアント装置２０、１２０サーバ装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者ハラルド・シンガー京都府相楽郡精華町光台二丁目２番地２株式会社エイ・ティ・アール音声言語通信研究所内Ｆターム(参考） 5D015 DD04 HH05 HH22

Claims

【特許請求の範囲】

【請求項１】ＨＭＭを用いた音声始端検出方法におい
て、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方
向の接続を無視し、時間方向の全状態に含まれるガウス
分布からなる混合ガウス分布で近似したＨＭＭと、環境
非依存の無音のＨＭＭとを用いて、入力音声波形の一定
区間内に所定フレーム数以上の有声音区間が存在するか
否かを判定し、一定区間内に所定フレーム数以上の有声
音区間が存在するときに当該一定区間の先頭フレームを
音声始端として検出することを特徴とする音声始端検出
方法。
【請求項２】音声認識装置における音声区間検出方法
において、環境非依存の有声音のＨＭＭであって、ＨＭＭの時間方
向の接続を無視し、時間方向の全状態に含まれるガウス
分布からなる混合ガウス分布で近似したＨＭＭと、環境
非依存の無音のＨＭＭとを用いて、入力音声波形の一定
区間内に所定フレーム数以上の有声音区間が存在するか
否かを判定し、一定区間内に所定フレーム数以上の有声
音区間が存在するときに当該一定区間の先頭フレームを
音声始端として検出し、音声認識に用いられているＨＭ
Ｍを用いて無音区間が所定期間以上継続したか否かを判
定し、無音区間が所定期間以上継続したときに音声終端
と判定することを特徴とする音声認識装置における音声
区間検出方法。
【請求項３】入力音声波形から特徴量を抽出する特徴
量抽出手段、特徴量抽出手段によって抽出された特徴量に基づいて音
声始端を検出する音声始端検出手段、特徴量抽出手段によって抽出された特徴量に基づいて音
声認識処理を行なうとともに音声終端検出処理を行なう
デコード手段、音声始端検出部によって音声始端が検出されたときに、
特徴量抽出手段によって抽出された特徴量をデコード手
段に送り、かつデコート手段によって音声終端が検出さ
れたときに、特徴量抽出手段によって抽出された特徴量
を音声始端検出部に送るように、特徴量抽出手段によっ
て抽出された特徴量の送り先を制御する手段を備えてお
り、音声始端検出手段は、環境非依存の有声音のＨＭＭであ
って、ＨＭＭの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したＨＭＭと、環境非依存の無音のＨＭＭとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定する手段、および一
定区間内に所定フレーム数以上の有声音区間が存在する
ときに当該一定区間の先頭フレームを音声始端として検
出する手段を備えており、デコート手段は、音声認識処理に用いられているＨＭＭ
を用いて無音区間が所定期間以上継続したか否かを判定
する手段、および無音区間が所定期間以上継続したとき
に音声終端と判定する手段を備えていることを特徴とす
る音声認識装置。
【請求項４】クライアント装置とサーバ装置とを備え
ており、クライアント装置は、入力音声波形からケプストラムを抽出するケプストラム
抽出手段、ケプストラム抽出手段によって抽出されたケプストラム
から特徴量を抽出する第１の特徴量抽出手段、第１の特徴量抽出手段によって抽出された抽出された特
徴量に基づいて音声始端を検出する音声始端検出手段、
およびケプストラム抽出手段によって抽出されたケプス
トラムをサーバ装置に送るか否かを選択するスイッチ手
段を備えており、サーバ装置は、クライアント装置から送られてくるケプストラムから特
徴量を抽出する第２の特徴量抽出手段、および第２の特
徴量抽出手段によって抽出された特徴量に基づいて音声
認識処理を行なうとともに音声終端検出処理を行なうデ
コード手段を備えており、音声始端検出手段は、環境非依存の有声音のＨＭＭであ
って、ＨＭＭの時間方向の接続を無視し、時間方向の全
状態に含まれるガウス分布からなる混合ガウス分布で近
似したＨＭＭと、環境非依存の無音のＨＭＭとを用い
て、入力音声波形の一定区間内に所定フレーム数以上の
有声音区間が存在するか否かを判定する手段、一定区間
内に所定フレーム数以上の有声音区間が存在するときに
当該一定区間の先頭フレームを音声始端として検出する
手段、および音声始端を検出したときにスイッチ手段を
オンさせる手段を備えており、デコード手段は、音声認識処理に用いられているＨＭＭ
を用いて無音区間が所定期間以上継続したか否かを判定
する手段、無音区間が所定期間以上継続したときに音声
終端と判定する手段および音声終端が検出されると、サ
ーバ装置内の音声始端検出部に音声終端の時間を送信す
るとともに音声終端に続いて音声始端が検出されたと仮
定してデコーディングを継続する手段を備えており、音声始端検出手段は、さらに、デコード手段から音声終
端の時間を受信したときに、その音声終端の時間から現
在までに音声始端を検出したかどうかを判定する手段、
および音声終端の時間から現在までに音声始端を検出し
ているときには、スイッチ手段をオンのままとし、音声
終端の時間から現在までに音声始端を検出していないと
きには、スイッチ手段をオフとさせる手段を備えている
ことを特徴とする音声認識装置。