JP2005173215A

JP2005173215A - 音声認識システム

Info

Publication number: JP2005173215A
Application number: JP2003413267A
Authority: JP
Inventors: Takashi Miki; 敬三木
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-12-11
Filing date: 2003-12-11
Publication date: 2005-06-30

Abstract

【課題】伝送誤りが生じたような伝送路を含む場合にも認識性能が低下しない音声認識システム。
【解決手段】かかる課題を解決するために、本発明の音声認識システムは、送信装置により符号化された音声符号化信号を伝送路を介して受信し、音声符号化信号を復号する復号装置と、復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、復号装置は、音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、音声認識装置は、誤り情報出力手段から誤り情報を受信した場合、音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有することを特徴とする。
【選択図】図１

Description

本発明は、音声認識システムに関し、例えば、伝送路を介して音声符号化信号を復号した音声復号信号に基づいて音声を認識する音声認識システムに適用し得る。

下記の非特許文献１には、入力音声を計算機により分析して認識する音声認識についての基本的な技術が種々記載されている。

音声認識における音声のスペクトル分析方法の１つに、例えば、線形予測分析（ＬＰＣ：ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）法があり、この線形予測分析法として、例えばＬＰＣケプストラム法が広く用いられている。

例えば、このＬＰＣケプストラム法による音声のスペクトルを分析する方法は、まず、所定の処理区間毎に離散化した入力音声信号のスペクトルを分析し、音響特徴パラメータを時系列に算出する。

この算出した時系列の音響特徴パラメータのパターンと、予め登録しておいた時系列の音響特徴パラメータのパターン（ここでは、標準パターンという。）との照合を行ない、パターン同士の距離（類似度）を求める。

そして、その求めたパターン同士の距離（類似度）を比較判定して、最短距離（最も類似している）となる標準パターンを、入力音声信号の時系列の音響特徴パラメータのパターンと判定し、再生した音声（言葉）を出力するという技術である。

また、標準パターンと入力音声信号との類似度を効率的に測る技術として、種々のパターンマッチング技術がある。このパターンマッチング技術は、同じ話者が同じ単語を発生した場合であっても、スペクトル系列の長さ（発生時間）が異なる場合があるので、これを保障する技術の１つとして、例えば、時間軸伸縮マッチングが広く用いられている。

この時間軸伸縮マッチングは、標準パターンと入力音声信号の特徴パターンとが、最も良く一致するように、それぞれの時間軸を非線形に伸縮する方法である。

ところで、上述した音声認識技術は、例えばマイクが捕捉した音声を計算機が認識する場合に多く利用されてきたが、近年の伝送技術の発展に伴い、ネットワークの伝送路（無線伝送系及び有線伝送系を含む）を経由し伝送されてきた入力音声を認識する場合にも多く利用されている。

このような伝送路を経由した音声の認識技術では、一般的に、伝送経路の伝送容量を有効に利用する目的で、送信側で音声を符号化することで情報量を圧縮して、その圧縮した音声信号を伝送路に送出して受信側に伝送することが行われている。

このような圧縮伝送の場合、伝送誤りによる音声信号の乱れを防ぐために、送信側で誤り訂正符号が追加され、受信側で誤り訂正符号を用いて伝送誤りが訂正されることが行なわれている。
鹿野清宏、山村哲、伊勢史郎著，「音声・音情報のディジタル信号処理」，昭晃堂，１９９７年１１月

ところで、上述した伝送路を介して伝送させた音声を認識する音声認識システムの場合、従来、送信側（発声者側）のクライアントが備える通信方式により音声信号を送信し、受信側であるサーバがその通信方式に応じて音声認識を行うこととしている。

しかし、クライアント側が備える通信方式は種々あるため、サーバ側がこれら全ての通信方式に対応可能にするには、サーバ側が全ての通信方式に対応可能な機能を備えることが必要となってしまい、サーバの処理負担が増大してしまうと共に、サーバの装置コストが増大してしまう。

従って、かかる課題を解決するために、受信側に音声認識装置を備え、送信側が受信側の通信方式を適用するようにし、受信側の処理負担を分散させるようにするシステムが望まれている。

また、例えば音声信号を有線伝送により伝送させる場合、その音声信号に伝送帯域を保障しないプロトコル（伝送帯域非保障プロトコル）を用いた場合や、音声信号を無線伝送により伝送させる場合、例えばフェージング現象等により、バースト誤りが生じ、受信側で誤りを訂正できない場合があった。

このような場合、例えば人と人との間での通常の音声通信システムの場合には、音声の連続性やリアルタイム性が重視されるので、例えば、誤りを訂正できない音声信号の部分に、誤りのない過去の音声信号の部分を補間する等の連続性やリアルタイム性を補償する技術が適用されている。

しかし、人と人との間の通常の音声通信ではなく、上述したような受信側に音声認識装置を適用する場合には、音声の連続性やリアルタイム性はほとんど問題にならず、入力した音声信号に基づいて、いかに正しく音声（言葉）を再生させるかという音声認識の性能が重視される。

従って、伝送誤りが訂正できず、そのまま音声を再生しようとすると、送信側から伝送されてきた言葉（パターン）とは、異なる言葉（パターン）を判定（非特許文献１参照）してしまい（このような異なった言葉を判定してしまうことを「置換誤り」という）、音声認識の性能を著しく低下させてしまうことになる。

そのため、音声認識の性能を著しく低下させる要因となる、伝送誤りによる音声再生の歪みが生じた場合であっても、正しく音声を認識することができる音声認識システムが求められている。

かかる課題を解決するために、第１の本発明の音声認識システムは、送信装置により符号化された音声符号化信号を伝送路を介して受信し、音声符号化信号を復号する復号装置と、復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、復号装置は、音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、音声認識装置は、誤り情報出力手段から誤り情報を受信した場合、音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有することを特徴とする。

また、第２の本発明に係る音声認識システムは、送信装置により符号化された符号化データを伝送路を介して受信し、符号化データを復号する復号装置と、復号装置により復号された復号データに基づいて音声を認識する音声認識装置とを備える音声認識システムであって、音声認識装置は、該音声認識装置が有する音声認識に係る処理プログラムを、送信装置に転送するプログラム転送手段を備え、送信装置が、プログラム転送手段からの処理プログラムを設定する処理プログラム設定手段と、処理プログラム設定手段の処理プログラムに従って、入力音声信号に対する処理を実行する処理実行手段と、処理実行手段による処理結果を符号化した符号化データを送信する送信手段とを備えることを特徴とする。

本発明の音声認識システムによれば、音声符号化信号が復号装置により訂正できない伝送誤りが生じた場合に、その伝送誤りによる音声再生の歪みを回避し、音声認識の性能の向上させることができる。

以下では、本発明の音声認識システムを実施するための最良の形態について説明する。

（Ａ）第１の実施形態
以下では、本発明に係る音声認識システムの第１の実施形態について図面を参照して説明する。

本実施形態は、ネットワーク（有線伝送系及び無線伝送系を含む）において、受信側に音声認識装置を備えた場合の適用について説明する。

（Ａ−１）第１の実施形態の構成
図１は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。

図１に示すように、本実施形態の音声認識システム１は、送信装置１００と、復号装置２００と、復号装置２００に接続する音声認識装置３００とを備える。また、送信装置１００と、復号装置２００とは、ネットワーク４を介して接続可能である。

このネットワーク４は、例えば、公衆回線網、専用回線網、無線回線網又は、これらの複数の回線網を結合した網等に広く適用することができる。

送信装置１００は、例えば携帯電話やＩＰ電話等の音声伝送装置が該当し、入力した入力音声信号を符号化して、符号化した音声符号をネットワーク４に送出して受信側に与えるものである。この送信装置１００は、従来用いられている入力音声を符号化してネットワーク４に送出する送信装置を適用できる。

図１に示すように、送信装置１００は、符号化部１０２と誤り訂正符号生成部１０３とを少なくとも有する音声通信符号生成部１０１を備える。

符号化部１０２は、入力した入力音声符号を、予め定められた通信伝送手段（以下、通信プロトコル）に従った所定の符号化処理により入力音声信号を符号化するものである。また、符号化部１０２が行なう所定の符号化処理は、特に限定されず、通信プロトコルに応じた種々の符号化処理を適用することができる。

誤り訂正符号生成部１０３は、符号化部１０２により符号化された音声符号に、受信側で伝送誤りを検出させるための誤り訂正符号を生成し、その生成した誤り符号を、符号化部１０２により符号化された音声符号に含ませたものを伝送路に送出するものである。

なお、説明便宜上、送信装置１００における符号化処理により生成した、誤り訂正符号を含ませた音声符号を、「音声通信符号」と表現して、以下では説明する。

復号装置２００は、ネットワーク４を経由して伝送されてきた音声通信符号を受信し、その音声通信符号を復号するものである。

図１に示すように、復号装置２００は、誤り検出部２０１、誤り訂正部２０２、復号部２０３を少なくとも有する。

誤り検出部２０１は、受信した音声通信符号に含まれる誤り符号の情報に基づいて、伝送誤りを検出するものである。

誤り訂正部２０２は、誤り検出部２０１により伝送誤りが検出された場合に、音声通信符号に含まれる誤り符号に基づいて、音声符号を訂正するものである。

また、例えば、無線伝送路でのフェージング現象等が原因でバースト誤りが生じた場合等のように、誤り訂正部２０２は、誤り符号の情報だけでは、音声符号を訂正することはできない場合がある。

このような場合、誤り訂正部２０２は、訂正誤りに関する情報を誤り情報として、音声認識装置３００に与えるものである。

復号部２０３は、入力した音声通信符号を、又は、誤り訂正部２０２により訂正された音声符号を、所定の復号処理により復号し、その復号した音声信号を音声認識装置３００に与えるものである。なお、復号部２０３が行なう所定の復号処理は、符号化部１０２が行なう通信プロトコルに応じた符号化処理に対応する復号処理であり、種々の復号処理を適用することができる。

音声認識装置３００は、復号装置２００から復号された音声信号を受け取り、その音声信号に対して、音声のスペクトルを分析する所定の分析方法を行ない、音声信号に基づく音声を認識して、その認識結果ｗ（言葉）を出力するものである。

また、音声認識装置３００は、受信装置３００から誤り情報を受け取り、訂正が不可能な誤りがあった場合には、エラーが生じた旨を示す認識結果ｗを出力するものである。音声認識装置３００は、この場合、音声のスペクトル分析による音声認識を行なわず、そのままエラーが生じた旨を示す認識結果ｗを出力する。

なお、音声認識装置３００における音声のスペクトル分析方法は、特に限定されないが、本実施形態では、音声スペクトル分析方法として広く適用されているＬＰＣケプストラムを適用するものとして説明する。勿論、他の分析方法を適用しても良い。

図１に示すように、音声認識装置３００は、音声分析部３０１、マッチング部３０２、標準パターン格納部３０３、判定部３０４、認識結果出力部３０５を備える。

ここで、音声認識装置３００の音声認識機能は、例えば、ハードウェア（例えばＣＰＵ）により実行され得る音声認識プログラムとして機能されるが、図１では、説明便宜上、機能動作部のブロック図として記載する。

音声分析部３０１は、復号部２０３から音声信号を受け取り、所定の処理区間であるフレーム毎（フレーム周期ｆとする）に音響特徴分析を行ない、ｉ次元の音響特徴パラメータＸｆｉを算出するものである。

音声分析部３０１は、上述したように本実施形態ではＬＰＣケプストラムを適用して、フレーム毎に時系列の音響特徴パラメータＸｆｉを算出するものとする。なお、音響特徴パラメータの算出方法の詳細な説明は非特許文献１に詳しいので、ここでの詳細な算出方法の説明は省略する。

標準パターン格納部３０３は、予め求められた音声の音響特徴パラメータのパターン（標準パターン）Ａｆｉ（ｗ）を格納するものである。ここで、ｗは、音声の特徴パターンの内容（言葉）を示す番号であり、例えば、ｗ＝１は「東京」、ｗ＝２は「大阪」等のように、音声の特徴パターンの言葉（内容）を決定することができる。

マッチング部３０２は、音声分析部３０１により算出された音響特徴パラメータＸｆｉを受け取り、時系列な音響特徴パラメータＸｆｉの時間変化から、音声が発せられ、かつ、音声の認識候補となり得る、区間情報ｆｓ及びｆｅを求めるものである。

ここで、区間情報ｆｓは、音声の始端時刻を表すフレーム番号を示し、区間情報ｆｅは、認識情報の音声の終了時刻を表すフレーム番号を示す。

また、マッチング部３０２は、区間情報ｆｓ及びｆｅに基づく時系列な音響特徴パラメータＸｆｉと、標準パターン格納部３０３の標準パターンＡｆｉ（ｗ）とを照合するものである。

マッチング部３０２が行なうパターン照合方法は、種々の照合方法を適用することができるが、本実施形態では、例えば時間軸伸縮マッチングを適用する。なお、このパターン照応方法の詳細な説明は非特許文献１に詳しいので、ここでの詳細なパターン照合方法の説明は省略する。

判定部３０４は、マッチング部３０２によるマッチング照合結果に基づいて、区間情報ｆｓ及びｆｅに基づく時系列な音響特徴パラメータＸｆｉに最も類似性の高い標準パターンＡｆｉ（ｗ）を判定するものである。

認識結果出力部３０５は、判定部３０５により判定された標準パターンＡｆｉ（ｗ）に基づく認識結果ｗ（言葉）を出力するものである。

例えば、判定部３０４が、区間情報ｆｓ及びｆｅに基づく時系列な音響特徴パラメータＸｆｉに最も類似性の高い標準パターンが、Ａｆｉ（ｗ１）であると判定した場合、認識結果出力部３０５は、標準パターンＡｆｉ（ｗ１）の番号ｗ１に対応する内容を出力する。

また、認識結果出力部３０５は、復号装置２００の誤り訂正部２０２から誤り情報を受信した場合には、エラーが生じた旨を示す認識結果ｗを出力するものである。

（Ａ−２）第１の実施形態の動作
次に、本実施形態の音声認識システムの動作について説明する。

入力音声が送信装置１００に入力すると、入力音声は、符号化部１０２により所定の符号化処理がなされる。

また、符号化部１０２により符号化された音声符号は、誤り符号生成部１０３により生成された誤り訂正符号が挿入されて、誤り訂正符号を含む音声符号（音声通信符号）がネットワーク４に送出される。

ネットワーク４を経由した音声通信符号は、復号装置２００に与えられる。復号装置２００に到達した音声通信符号は、誤り検出部２０１により、音声通信符号に含まれる誤り訂正符号の情報に基づいて、誤りが生じているか否かが検出される。

誤り検出部２０１により伝送誤りが検出されない場合、音声符号は、復号部２０３に与えられる。

また、誤り検出部２０１により伝送誤りが検出された場合、伝送誤りが生じた音声通信符号は誤り訂正部２０２に与えられ、音声符号は、誤り訂正部２０２により、誤り訂正符号に基づいて誤りが訂正され、誤りが訂正された音声符号が復号部２０３に与えられる。

復号部２０３に音声符号が与えられると、音声符号は、復号部２０３により、所定の復号処理により復号され、復号された音声信号が、音声認識装置３００に与えられる。

ここで、誤り訂正部２０２において、音声通信符号が、例えば無線伝送路のフェージング現象等によりバースト誤りが生じている場合には、そのバースト誤りの訂正を行なうことができず、そのような訂正誤りに関する情報を含む誤り情報が音声認識装置３００に与えられる。

誤り訂正部２０２から音声認識装置３００に誤り情報が与えられると、音声認識装置３００により音声認識は行われず、認識結果出力部３０５により、エラーが生じた旨の認識結果ｗが出力される。

これにより、発生したバースト誤りの訂正を行なえないことから生じ得る、音声認識装置３００による置換誤り（実際に発生された言葉とは異なる言葉と判定する誤り）を回避することができ、音声認識の性能を低下させることを防ぐことができる。

一方、復号部２０３により正しく復号された音声信号は、音声分析部３０１に与えられ、音声分析部３０１により、所定の処理区間であるフレーム毎（フレーム周期ｆとする）に音響特徴分析が行なわれ、ｉ次元の音響特徴パラメータＸｆｉが算出される。

音声分析部３０１により算出された音響特徴パラメータＸｆｉは、マッチング部３０２に与えられ、マッチング部３０２により、時系列な音響特徴パラメータＸｆｉの時間変化から、音声が発せられ、かつ、音声の認識候補となり得る、区間情報ｆｓ及びｆｅが求められる。

マッチング部３０２により区間情報ｆｓ及びｆｅが求められると、その区間情報ｆｓ及びｆｅに基づく時系列な音響特徴パラメータＸｆｉは、マッチング部３０２により、標準パターン格納部３０３の標準パターンＡｆｉ（ｗ）と照合され、そのマッチング照合結果が、判定部３０４に与えられる。

マッチング部３０２からのマッチング照合結果が判定部３０４に与えられると、判定部３０４において、マッチング照合結果に基づいて、区間情報ｆｓ及びｆｅに基づく時系列な音響特徴パラメータＸｆｉに最も類似性の高い標準パターンＡｆｉ（ｗ）が判定される。そして、判定部３０４による判定結果が、認識結果出力部３０５に与えられる。

判定部３０４からの判定結果が認識結果出力部３０５に与えられると、認識結果出力部３０５において、判定部３０５により判定された標準パターンＡｆｉ（ｗ）に基づく認識結果ｗ（言葉）が出力される。

（Ａ−３）第１の実施形態の効果
以上のように、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、音声認識装置が、誤りを含んだ音声信号を無理に認識せずに、認識エラーとして出力することにより、音声認識で最も致命的なエラーである置換誤りを極めて簡単な処理により回避することができる。これにより、総合的な音声認識の応答性能を向上させることができる。

（Ｂ）第２の実施形態
次に、本発明の音声認識システムの第２の実施形態について図面を参照して説明する。

本実施形態も、第１の実施形態と同様に、ネットワーク（有線伝送系及び無線伝送系を含む）において、受信側に音声認識装置を備えた場合の適用について説明する。

（Ｂ−１）第２の実施形態の構成
図２は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。

図２に示すように、本実施形態の音声認識システム２は、送信装置１００、復号装置２００、音声認識装置３１０、音声応答装置３０６、音声符号化装置３０７、受信装置４００を備える。

第２の実施形態に音声認識システム２が、第１の実施形態と異なる点は、音声認識装置３１０の構成と、音声応答装置３０６、音声符号化装置３０６、受信装置４００を備える点である。

従って、図２において、図１に示す構成と対応する構成については対応する符号を付した。また、以下では、既に第１の実施形態で説明した構成の詳細な説明については省略する。

音声認識装置３１０は、第１の実施形態と同様、復号装置２００の誤り訂正部２０２から誤り情報を受け取った場合には、誤りを含む音声信号（復号信号）に基づく音声認識を行なわず、再発声を促す応答音声を生成するように、音声応答装置３０６に応答音声生成指示を与えるものである。

そして、音声認識装置３１０は、再発声を要求することで、再発声された新たな音声通信符号を復号装置２００に入力させ、復号装置２００において、その再発声された音声通信符号を復号させた音声信号に基づいて、音声認識を行ない認識結果ｗを出力するものである。

また、音声認識装置３１０は、復号装置２００の誤り訂正部２０２から誤り情報を受け取らず、正しく復号できた音声信号については、第１の実施形態で説明した音声認識を行ない、認識結果ｗを出力するものである。

音声応答装置３０６は、音声認識装置３１０からの応答音声生成指示に従って再発声を促す応答音声信号を生成し、生成した応答音声信号を音声符号化装置３０７に与えるものである。

音声符号化装置３０７は、音声応答装置３０６から受け取った応答音声信号を、予め定められた通信伝送手段（以下、通信プロトコル）に従った所定の符号化処理により応答音声信号を符号化するものである。また、音声符号化装置３０７が行なう所定の符号化処理は、特に限定されず、通信プロトコルに応じた種々の符号化処理を適用することができる。

また、音声符号化装置３０７は、受信側で伝送誤りを検出させるための誤り訂正符号を生成し、その生成した誤り符号を、符号化された応答音声符号に含ませたものを伝送路に送出して、受信装置４００に与えるものである。

なお、説明便宜上、音声符号化装置３０７における符号化処理により生成した、誤り訂正符号を含ませた応答音声符号を、「応答音声通信符号」と表現して、以下では説明する。

受信装置４００は、ネットワーク４を経由して、音声符号化装置３０７から応答音声通信符号を受信し、応答音声を再生し、再生した応答音声を出力するものである。

受信装置４００が再生した応答音声を出力することにより、誤りを訂正できなかった音声について、発声者に再発声を促すことができる。そして、発声者により再発声された音声が、再度送信装置１００に与えられる。

図２に示すように、受信装置４００は、誤り検出部４０１、誤り訂正部４０２、復号部４０３を少なくとも備えるものである。

誤り検出部４０１は、ネットワーク４を経由して受信した応答音声通信符号に含まれる誤り訂正符号の情報に基づいて、伝送誤りを検出するものである。

誤り訂正部４０２は、誤り検出部４０１により誤りが検出された場合に、誤り訂正符号に基づいて、応答音声符号を訂正するものである。

復号部４０３は、応答音声符号を所定の復号処理により復号し、応答音声を再生して出力するものである。

（Ｂ−２）第２の実施形態の動作
次に、第２の実施形態の音声認識システムの動作について説明する。

なお、復号装置２００が音声通信符号を正しく復号した場合の音声認識の動作については、第１の実施形態で説明したので、この場合の動作については省略する。

以下では、例えばバースト誤り等の復号装置２００の誤り訂正部２０２が訂正できない誤りが生じた場合の動作について説明する。

ネットワーク４を経由した音声通信符号が、復号装置２００に与えられ、誤り訂正部２０２において、例えばバースト誤り等の訂正できない誤りが生じた場合、誤り訂正部２０２から、誤り情報が、音声認識装置３１０の認識結果出力部３０５に与えられる。

認識結果出力部３０５に誤り情報が与えられると、応答音声を生成するよう応答音声指示が、認識結果出力部３０５から音声応答装置３０６に与えられる。

なお、このとき、音声認識装置３１０は、誤りを含んだ音声信号に基づく音声認識を行なわない。これにより、置換誤りを防止し、音声認識の性能の低下を回避することができる。

音声応答装置３０６に応答音声生成指示が与えられると、音声応答装置３０６において、再発声を促す応答音声信号が生成される。そして、音声応答装置３０６により生成された応答音声信号は、音声符号化装置３０７に与えられる。

音声応答装置３０６から音声符号化装置３０７に与えられた応答音声信号は、音声符号化装置３０７により、所定の符号化処理により符号化される。また、符号化された応答音声符号は、受信側で伝送誤りが検出できるようにする誤り訂正符号が挿入され、誤り訂正符号を含む応答音声通信符号が、ネットワーク４を介して受信装置４００に与えられる。

ネットワーク４を経由した受信装置４００に到来した応答音声通信符号は、受信装置４００において、応答音声が再生され、再生された応答音声が出力される。

受信装置４００から応答音声が出力することにより、発声者により再発声された音声が、送信装置１００に与えられる。

このようにして、再発声された入力音声は、再度ネットワーク４を経由して、復号装置２００に与えられ、所定の復号処理により復号される。

また、復号装置２００から再発声により復号された音声信号は、音声認識装置３１０において、第１の実施形態で説明した音声認識が行われて、音声認識装置３１０から認識結果ｗが出力される。

ここで、この再発声された音声通信符号が、再度伝送されることにより、再度訂正不可能な誤りを含むことも考えられるが、２回続けてエラーが発生するケースの確率的に少なくなる。

例えば、１回のエラー発生確率が１％であるとすると、２回続けてエラーが発生する確率は０．０１％となり、事実上無視できるまでのレベルにまで低下させることができる。

（Ｂ−３）第２の実施形態の効果
以上、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、再発声を促す応答音声を返信する音声応答装置３０６及び音声符号化装置３０７を備えることで、音声認識で最も致命的なエラーである置換誤りを回避することができ、また、音声復号エラーに起因する音声認識の誤りを全くのゼロにすることができる。これにより、総合的な音声認識の応答性能を向上させることができる。

（Ｃ）第３の実施形態
次に、本発明の音声認識システムの第３の実施形態について図面を参照して説明する。

（Ｃ−１）第３の実施形態の構成
図３は、第３の実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。

図３に示すように、第３の実施形態の音声認識システム３は、送信装置１１０、復号装置２００、音声認識装置３２０を備える。

第３の実施形態が、第１の実施形態と異なる点は、送信装置１１０の構成と、音声認識装置３２０の構成である。

従って、図３において、図１に示す第１の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第１の実施形態で説明した構成の詳細な説明については省略する。

音声認識装置３２０は、第１の実施形態で説明した構成の他に、再送信指示部３０８を備える。

再送信指示部３０８は、復号装置２００の誤り訂正部２０２から認識結果出力部３０５に誤り情報を与えられると、認識結果出力部３０５からの指示に従って、音声通信符号の再送信を要求する通信制御信号を送信装置１１０に与えるものである。

このとき、音声認識装置３２０は、誤りを含む音声信号（復号信号）に基づく音声認識を行なわない。

そして、音声認識装置３１０は、送信装置１１０から再送信された音声通信符号を復号装置２００に入力させ、復号装置２００において、その再送信された音声通信符号を復号させた音声信号に基づいて、音声認識を行ない認識結果ｗを出力するものである。

送信装置１１０は、第１の実施形態で説明した音声通信符号生成部１０１と、受信部１０４と、再構成制御部１０５を備える。

受信部１０４は、ネットワーク４を経由して音声認識装置３０８から通信制御信号を受信するものである。

再構成制御部１０５は、受信部１０４が通信制御信号を受信すると、音声通信符号を再構成するように、音声通信符号生成部１０１を制御するものである。

音声通信符号生成部１０１は、再構成制御部１０５の制御により、再度音声通信符号を再構成して、再構成した音声通信符号をネットワーク４に出力するものである。

（Ｃ−２）第３の実施形態の動作
次に、第３の実施形態の音声認識システムの動作について説明する。

ネットワーク４を経由した音声通信符号が、復号装置２００に与えられ、誤り訂正部２０２において、例えばバースト誤り等の訂正できない誤りが生じた場合、誤り訂正部２０２から再送信指示部３０８に、当該音声通信符号の再送信の要求を行なうよう指示がなされる。

誤り訂正部２０２からの指示を受けて、再送信指示部３０８から、当該音声通信符号を再送信するように要求する通信制御信号が、ネットワーク４を介して送信装置１１０に与えられる。

再送信指示部３０８から送出された通信制御信号は、ネットワーク４を介して、送信装置１１０の受信部１０４に到達する。

受信部１０４により通信制御信号が受信されると、復号装置２００において誤りが訂正できなかった音声通信符号について、再送信指示が再構成制御部１０５に与えられる。

再送信指示が再構成制御部１０５に与えられると、再構成制御部１０５の制御により、音声通信符号生成部１０１において、当該音声通信符号が再構成されて、再構成された音声通信符号が、ネットワーク４を介して復号装置２００に再度与えられる。

このようにして、送信装置１１０から再送信された音声通信符号は、再度ネットワーク４を経由して、復号装置２００に与えられ、所定の復号処理により復号される。

そして、復号装置２００により復号された音声信号は、音声認識装置３１０において、第１の実施形態で説明した音声認識が行われて、音声認識装置３１０から認識結果ｗが出力される。

ここで、この再送信された音声通信符号が、再度伝送されることにより、再度訂正不可能な誤りを含むことも考えられるが、２回続けてエラーが発生するケースの確率的に少なくなる。

（Ｃ−３）第３の実施形態の効果
以上のように、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、その音声通信符号を再送信させることにより、音声認識で最も致命的なエラーである置換誤りを回避することができ、また、音声復号エラーに起因する音声認識の誤りを全くのゼロにすることができる。これにより、総合的な音声認識の応答性能を向上させることができる。

（Ｄ）第４の実施形態
次に、本発明の音声認識システムの第４の実施形態について図面を参照して説明する。

（Ｄ−１）第４の実施形態の構成
図４は、第４の実施形態の音声認識装置を受信側に備えた音声認識システムを示す全体構成図である。

図４に示すように、本実施形態の音声認識システム４は、送信装置１０００、復号装置２００、フレームマスキング装置５００、音声認識装置３３０を備える。

第４の実施形態が、第１の実施形態と異なる点は、フレームマスキング装置５００を備える点と、音声認識装置３３０の構成である。

従って、図４において、図１に示す第１の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第１の実施形態で説明した構成の詳細な説明については省略する。

フレームマスキング装置５００は、復号装置２００により誤りの訂正が不可能であった場合に、その誤り訂正できない音声符号部分に対してフレームマスキングを行ない、フレームマスキングにより補間した補間音声信号及び補間情報を音声認識装置３２０に与えるものである。

ここで、フレームマスキングとは、誤り訂正しきれない音声符号部分について、過去の正しく復号された音声符号部分と差し替えたり、又は前後正しく復号された音声符号部分を補間する方法をいう。

フレームマスキング装置５０１は、図４に示すように、音声補間部５０１と、補間情報生成部５０２を備える。

音声補間部５０１は、フレームマスキングを実行するものである。音声補間部５０１は、復号装置２００から誤り情報を受け取り、復号装置２００において、訂正しきれない誤りが生じた場合に、その誤り訂正できなかった音声符号部分について、過去の正しく復号された音声符号部分と差し替えたり、又は前後正しく復号された音声符号部分を補間するものである。

補間情報生成部５０２は、音声補間部５０１によりフレームマスキングされた音声補間部分（フレーム）を示す補間情報を生成し、この補間情報を音声認識装置３３０に与えるものである。この補間情報は、音声信号のうち、どの部分（フレーム）が補間音声符号であるかを示す情報である。

音声認識装置３３０は、フレームマスキング装置５００から、復号装置２００により復号された音声信号、又は、フレームマスキング装置５００によりフレームマスキングされた補間音声信号及び補間情報を受け取り、音声認識を行ない、その認識結果ｗを出力するものである。

音声認識装置３３０が、第１の実施形態の音声認識装置３００と異なる点は、判定部３０４が重み付与部３０４ａを有する点である。よって、以下では、重み付与部３０４ａの機能と共に、それに関連するマッチング部３０２及び判定部３０４の機能についても説明する。

マッチング部３０２は、第１の実施形態と同様に、音声分析部３０１により算出された音響特徴パラメータＸｆｉを受け取り、区間情報ｆｓ及びｆｅに基づく時系列な音響特徴パラメータＸｆｉと、標準パターン格納部３０３の標準パターンＡｆｉ（ｗ）とを照合するものである。

なお、音声分析部３０１は、復号装置２００による誤り訂正が不可能であった場合に、フレームマスキング装置５００によりフレームマスキングされた補間音声信号についても、同様の音声分析を行なう。

判定部３０４は、マッチング部３０２からの照合結果に応じて、音響特徴パラメータＸｆｉとの類似性を検証する。また、判定部３０４は、補間情報をも受け取る。

判定部３０４は、補間情報に基づいて、フレームマスキングされた部分の音響特徴パラメータＸｆｉを検知し、そのフレームマスキングされた部分の音響特徴パラメータＸｆｉについて標準パターンＡｆｉ（ｗ）との類似性を検証する。

ここで、一般的な類似性の検証方法は、音響特徴パラメータＸｆｉと音声の音響特徴パラメータＡｆｉ（ｗ）とフレーム毎の局所類似度Ｘｆを計算し、そのフレーム毎に算出した局所類似度Ｘｆを順次累積する。これにより得られた累積類似度が最大となるｗ１を見出すこととしている。

しかし、本実施形態では、重み付与部３０４ａにより、次のような重みを付与する。

重み付与部３０４ａは、補間情報に基づいてフレームマスキングされた部分を検知し、そのフレームマスキングされた部分に対応する局所類似度Ｘｆに所定の重みを付与する。

重み付与部３０４ａによる重みの付与方法として、例えば、フレームマスキング部５００によりフレームマスキングされた部分に対応するフレームｆの局所類似度Ｘｆの値に、例えば、０．３を乗じる。

これにより、フレームマスキングされた部分に対応するフレームｆの局所類似性Ｘｆが、累積類似度に与える影響を軽減させることができる。

重み付与部３０４ａが付与する重みの値は、予め定められた定数であってもよいし、又は、フレームマスキングにより予測され得る歪みの大きさに応じた変数（例えば、歪みの大きさに反比例させる変数）を適用してもよい。

（Ｄ−２）第４の実施形態の動作
次に、本実施形態の音声認識システムの動作について説明する。

復号装置２００が音声通信符号を正しく復号した場合、復号装置２００により復号された音声信号が、フレームマスキング装置５００を介して、音声認識装置３３０に与えられる。

この場合の音声認識の動作は、第１の実施形態で説明した動作を同様であるので、詳細な説明は省略する。

また、例えばバースト誤り等により、復号装置２００の誤り訂正部２０２が訂正できない誤りが生じた場合、復号装置２００から誤り情報がフレームマスキング装置５００に与えられる。この場合、誤り訂正ができなかった部分の音声信号も、復号装置２００からフレームマスキング装置５００に与えられる。

フレームマスキング装置５００に誤り情報が与えられると、誤りが訂正されていない音声符号部分は、音声補間部５０１により、フレームマスキングがなされる。このフレームマスキングは、従来利用されているフレームマスキング技術を適用できる。

また、音声補間部５０１によりフレームマスキングがなされると、補間情報生成部５０２により、音声補間部５０１によりフレームマスキングされた音声符号部分の位置を示す補間情報が生成される。

そして、音声補間部５０１によりフレームマスキングされた補間音声信号と、補間情報生成部５０２により生成された補間情報とが、音声認識装置３３０に与えられる。

補間音声信号及びその補間情報とが音声認識装置３３０に与えられると、音声分析部３０１によりフレーム毎に音響分析が行なわれ、フレーム毎の音響特徴パラメータＸｆｉが算出される。

音声分析部３０１により算出された音響特徴パラメータＸｆｉは、マッチング部３０２に与えられ、区間情報ｆｓ及びｆｅが算出され、その区間情報に基づく音響特徴パラメータＸｆｉと、標準パターン格納部３０３に格納されている音声の音響特徴パラメータＡｆｉ（ｗ）とが照合され、その照合結果が判定部３０４に与えられる。

マッチング部３０２からの照合結果が判定部３０４に与えられると、判定部３０４において、フレーム毎の音響特徴パラメータＸｆｉと音声の音響特徴パラメータＡｆｉ（ｗ）との類似性が検証される。

つまり、判定部３０４では、フレーム毎の音響特徴パラメータＸｆｉの局所類似度Ｘｆが算出される。

ここで、重み付与部３０４ａにおいて、補間情報に基づいてフレームマスキングされた音声符号部分に対応するフレームｆの局所類似度Ｘｆに、所定の重み（例えば０．３）が付与され、フレームマスキングされた音声符号部分に対応するフレームｆの局所類似度Ｘｆが、累積類似度に与える影響度を調整する。

この重み付与部３０４ａによる重み付けにより、フレームマスキングされた音声符号部分に対応するフレームの信頼度を考慮した、信頼性のある累積類似度が認識結果出力部３０５に与えられる。

判定部３０４からの累積類似度が認識結果出力部３０５に与えられると、認識結果出力部３０５において、累積類似度に基づいて最も類似性の高い認識候補が検出されて、認識結果ｗとして出力される。

（Ｄ−３）第４の実施形態の効果
以上、本実施形態によれば、復号装置２００において誤り訂正ができなかった音声符号をフレームマスキングするフレームマスキング装置５００を備え、又、フレームマスキング装置５００からの補間情報に基づいて、フレームマスキングされた部分に対応するフレームの局所類似度に重みを付与する重み付与部３０４ａを備えることにより、信頼性の高い累積類似度を求めることができる。これにより、信頼性の高い認識結果ｗを出力することができるので、音声認識の性能を向上させることができる。

（Ｅ）第５の実施形態
次に、本発明の音声認識システムの第５の実施形態について図５を参照して説明する。

（Ｅ−１）第５の実施形態の構成
図５は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。

図５に示すように、第５の実施形態の音声認識システム５は、送信装置１００、復号装置２００、音声認識装置３４０を備える。

第５の実施形態が、第１の実施形態と異なる点は、音声認識装置３４０の構成である。

従って、図５において、図１に示す第１の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第１の実施形態で説明した構成の詳細な説明については省略する。

音声認識装置３４０は、図１に示す第１の実施形態の構成の他に、通信プロトコル制御部３０９を備える。

通信プロトコル制御部３０９は、復号装置２００において誤り訂正ができず、復号装置２００から誤り情報があった場合、認識結果出力部３０５から誤り情報を受信した旨を受けて、送信装置１００が現在適用している通信プロトコルを、より伝送誤りに強い通信プロトコルに変更するように、送信装置１００とネゴシエーションするものである。

例えば、復号装置２００による復号誤りが生じた場合、通信プロトコル制御部３０９は、送信装置１００が適用する通信プロトコルを、伝送誤りに完全訂正プロトコル（例えば、ＴＣＰ−ＩＰやＦＴＰプロトコル）に変更するよう要求する。

通信プロトコル制御部３０９と送信装置１００とのネゴシエーションが成立した場合、次回以降に、受信側に到達する音声通信符号に対する復号誤りを減少させることができる。

なお、音声認識装置３４０は、復号装置２００から誤り情報が与えられた場合には、第１の実施形態と同様に、音声認識を行なわず、エラーが生じた旨の認識結果を出力する。これにより置換誤りを回避することができる。

（Ｅ−２）第５の実施形態の動作
次に、第５の実施形態の音声認識システムの動作について説明する。

復号装置２００により復号誤りが生じた場合、復号装置２００から誤り情報が音声認識装置３４０に与えられる。

復号装置２００から音声認識装置３４０に誤り情報が与えられると、音声認識装置３４０は、第１の実施形態と同様に、音声認識を行なわず、エラーが生じた旨を示す認識結果ｗを出力する。

また、復号装置２００から音声認識装置３４０に誤り情報が与えられると、認識結果出力部３０５から誤り情報を受信した旨が、通信プロトコル制御部３０９に与えられる。

これにより通信プロトコル制御部３０９は、今後も伝送エラーによる訂正不可能な誤りが生じる可能性があるため、送信装置１００が現在適用してきる通信プロトコルを、より伝送誤りに強い通信プロトコルに変更するように、送信装置１００とネゴシエーションを行なう。

そして、送信装置１００とのネゴシエーションが成立することで、次回以降に、受信側に到達する音声通信符号に対する復号誤りが減少することができる。

（Ｅ−３）第５の実施形態の効果
以上のように、本実施形態によれば、復号装置による復号誤りが生じた場合に、送信装置１００が適用している通信プロトコルを変更するように送信装置１００とネゴシエーションを行なう通信プロトコル制御部３０９を備えることにより、以後到達し得る音声通信符号に対する復号誤りを減少させることができる。これにより、音声認識の誤りを適用的に軽減又はゼロにすることができ、総合的な音声認識応答性能が向上する。

（Ｆ）第６の実施形態
以下、本発明の音声認識システムの第６の実施形態について図面を参照して説明する。

（Ｆ−１）第６の実施形態の構成
図６は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。

図６に示すように、本実施形態の音声認識システム６は、送信装置１００、復号装置２００、音声認識装置３５０を備える。

第６の実施形態が、第１の実施形態と異なる点は、音声認識装置３５０の構成である。

従って、図６において、図１に示す第１の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第１の実施形態で説明した構成の詳細な説明については省略する。

音声認識装置３５０は、図１に示す第１の実施形態の構成の他に、通信プロトコル制御部３５１を備える。

通信プロトコル制御部３５１は、音声認識の動作の開始時に、伝送誤りに強い通信プロトコルに変更するように、送信装置１００とネゴシエーションをするものである。

例えば、通信プロトコル制御部３５１は、音声認識の動作開始時に、送信装置１００とネゴシエーションを行ない、送信装置１００との間の通信品質（例えば、伝送誤り率）を算出し、その算出した通信品質に対応する通信プロトコル（例えば、ＴＣＰ−ＩＰやＦＴＰプロトコル等）に変更するように送信装置１００に要求する。

そして、このネゴシエーションが成立し、送信装置１００が適用する通信プロトコルを、伝送誤りに強い通信プロトコルに変更し、送信装置がこの変更した通信プロトコルを適用した音声通信符号を送信できるようにすることで、これから送信され得る音声通信符号に対する復号誤りを減少させることができる。

これにより、これから送信装置１００から到来する音声通信符号に対する復号誤りを減少させることができるので、音声認識の誤りを減少させることができ、音声認識の性能を向上させることができる。

（Ｆ−２）第６の実施形態の動作
次に、第５の実施形態の音声認識システムの動作について説明する。

まず、音声認識の動作開始時に、通信プロトコル制御部３５１から通信プロトコル制御信号が、送信装置１００に与えられ、通信プロトコル制御部３５１と送信装置１００との間で、伝送誤りに強い通信プロトコルに変更するようにネゴシエーションがなされる。

このネゴシエーションが成立した場合、送信装置１００が適用する通信プロトコルが伝送誤りに強い通信プロトコルに変更され、送信装置１００において、その変更した通信プロトコルを適用した音声通信符号がネットワーク４に送出される。

ネットワーク４を介して到達した音声通信符号は、復号装置２００において、第１の実施形態で説明した復号処理がなされる。

このとき、予め音声認識の動作開始前に、通信プロトコルは伝送誤りに強い通信プロトコルを変更されているため、音声通信符号は、伝送誤りの発生が起こりにくくなっている。

そのため、復号装置２００における復号誤りも発生しにくくなっているので、正しく復号された音声信号が復号装置２００から音声認識装置３５０に与えられる。

復号装置２００により復号された音声信号は音声認識装置３５０に与えられ、音声認識装置３５０において、第１の実施形態で説明した音声認識がなされて、その認識結果ｗが出力される。

また、音声認識装置３５０による音声認識動作が終了すると、通信プロトコル制御部３５１から、送信装置１００が最初に適用していた通信プロトコルに戻すように、送信装置１００とネゴシエーションがなされる。

通信プロトコル制御部３５１と送信装置１００とのネゴシエーション成立すると、送信装置１００において、通信プロトコル制御部３５１に要求された伝送誤りに強い通信プロトコルは、最初に送信装置１００で適用されていた通信プロトコルに変更される。

（Ｆ−３）第６の実施形態の効果
以上のように、本実施形態によれば、音声認識装置３５０による音声認識動作の開始時に、あらかじめ、送信装置１００で適用される通信プロトコルを予め伝送誤りに強い通信プロトコルに変更するようにネゴシエーションする通信プロトコル制御部３５１を備えるにより、音声認識の対象となる音声通信符号が最初から伝送誤りに強いものとなってので、復号誤りを減少させることができる。これにより、音声認識の誤りを適用的に軽減又はゼロにすることができ、総合的な音声認識応答性能が向上する。

（Ｇ）第７の実施形態
以下、本発明の音声認識システムの第７の実施形態について図面を参照して説明する。

本実施形態は、音声認識の動作開始時に、送信側で適用する通信プロトコルを伝送誤りが強い通信プロトコルに変更し、送信側がこれを適用すると共に、受信側が取り扱う音声分析プログラムを送信側に送信し、送信側で入力音声を音声分析した音響パラメータを符号化して、受信側に送信する点が特徴である。

（Ｇ−１）第７の実施形態の構成
図７は、第７の実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。

図７に示すように、第７の実施形態の音声認識システム７は、送信側に、送信装置１２０、音声分析部６００を備え、受信側に、復号装置２１０及び音声認識装置３６０を備える。

まず、音声認識装置３６０について説明する。図７に示すように、音声認識装置３６０は、マッチング部３６１、標準パターン格納部３０３、判定部３０４、認識結果出力部３０５、通信プロトコル制御部３５１、音声分析プログラム転送部３６２を、少なくとも備える。

また、図７の音声認識装置３６０は、第１の実施形態の音声分析部３０１を有していないように示すが、これは説明便宜上ここでは表示しないものであり、本来は、音声認識プログラムの１機能として備える。

なお、第１の実施形態と対応する構成については対応する符号を付し、これら対応する構成の詳細な機能説明は省略する。

通信プロトコル制御部３５１は、第６の実施形態で説明した通信プロトコル制御部３５１に対応し、音声認識動作開始時に、伝送誤りに強い通信プロトコルに変更するように送信装置１２０とネゴシエーションするものである。

音声分析プログラム転送部３６２は、通信プロトコル制御部３５１によるネゴシエーションの成立後、音声認識装置３６０が取り扱う音声分析プログラムを送信装置１２０に与えるものである。

マッチング部３６１は、後述するように復号装置２１０により復号されて得た音響特徴パラメータＸｆｉを受け取り、その音響特徴パラメータＸｆｉに基づいて、区間情報ｆｓ及びｆｅを算出し、区間情報ｆｓ及びｆｅに基づく音響特徴パラメータＸｆｉと、音声の音響特徴パラメータＡｆｉ（ｗ）とを照合するものである。

次に、送信側の送信装置１２０及び音声分析部６００について説明する。

送信装置１２０は、音声認識装置３６０の音声認識の動作開始時に、通信プロトコル制御部３５１とネゴシエーションを行ない、送信装置１２０で適用されている通信プロトコルを伝送誤りに強い通信プロトコルに変更し、この通信プロトコルを用いて音声符号を送信するものである。

また、送信装置１２０は、音声分析プログラム転送部３６２から音声分析プログラムを受け取り、その音声分析プログラムを音声分析部６００に与えて設定させるものである。

音声分析部６００は、送信装置１２０から音声分析プログラムを受け取り、その音声分析プログラムを設定するものである。また、音声分析部６００は、入力音声を取り入れ、その入力音声を、設定した音声分析プログラムに従って音声分析し、音響特徴パラメータＸｆｉを生成するものである。そして、音声分析部６００は、生成した音響特徴パラメータＸｆｉを送信装置１２０に与えるものである。

ここで、送信装置１２０の構成の説明に戻る。送信装置１２０は、符号化部１２２及び誤り訂正符号生成部１２３を少なくとも有する入力音響パラメータ通信符号生成部１２１を備える。

符号化部１２２は、通信プロトコル制御部３５１とのネゴシエーションで変更した伝送誤りに強いプロトコルを適用して、音声分析部６００から受け取った音響特徴パラメータＸｆｉを符号化するものである。また、符号化部１２２は、符号化した音響特徴パラメータ符号を誤り訂正符号生成部１２３に与えるものである。

誤り訂正符号生成部１２３は、受信側で誤りを検出できるようにするために、誤り訂正符号を生成し、その生成した誤り訂正符号を、符号化部１２２により符号化された音響特徴パラメータ符号に挿入し、ネットワーク４に送出するものである。

なお、以下では、誤り訂正符号を含んだ音響特徴パラメータ符号を、「入力音響パラメータ通信符号」と表現して説明する。

復号装置２１０は、ネットワーク４から到来した入力音響パラメータ通信符号を復号して、復号した音響特徴パラメータＸｆｉを音声認識装置３６０に与えるものである。

復号装置２１０は、図７に示すように、誤り検出部２１１、誤り訂正部２１２、復号部２１３を備える。

誤り検出部２１１は、到来した入力音響パラメータ通信符号に含まれる誤り訂正符号の情報に基づいて誤りを検出するものである。

誤り訂正部２１２は、誤り検出部２１１により誤りが検出された場合に、誤り訂正符号に基づいて、入力音響パラメータ通信符号の誤りを訂正するものである。

復号部２１３は、誤りが検出され誤り訂正された入力音響パラメータ通信符号又は誤りのない入力音響パラメータ通信符号を、所定の復号処理により復号して、復号した音響特徴パラメータＸｆｉを音声認識装置３６０に与えるものである。

（Ｇ−２）第７の実施形態の動作
次に、第７の実施形態の音声認識システムの動作について説明する。

まず、音声認識装置３６０において音声認識の動作開始時に、通信プロトコル制御部３５１から、伝送誤りに強い通信プロトコルに変更するように、送信装置１２０とネゴシエーションを行なう。

このネゴシエーションが成立すると、送信装置１２０で適用していた通信プロトコルが、伝送誤りに強い通信プロトコルに変更される。

また、ネゴシエーションの成立後、音声認識装置３６０において取り扱われる音声分析プログラムが、音声分析プログラム転送部３６２から送信装置１２０に与えられる。

音声分析プログラム転送部３６２から音声分析プログラムが送信装置１２０に与えられると、その音声分析プログラムが、音声分析部６００に与えられて、音声分析部６００に設定される。

その後、発生された入力音声は、音声分析部６００に与えられる。入力音声は、音声分析部６００において、設定された音声分析プログラムに従って音声分析され、音響特徴パラメータＸｆｉが算出される。

ここで、音声分析部６００における音声分析方法は、第１の実施形態の音声分析部３０１が行なう音声分析と同様であり、フレーム周期ｆ毎の音響特徴パラメータＸｆｉが算出される。

音声分析部６００により算出された音響特徴パラメータＸｆｉは、送信装置１２０に与えられる。

送信装置１２０に与えられた音響特徴パラメータＸｆｉは、符号化部１２２において、伝送誤りに強い通信プロトコルに応じた所定の符号化処理により符号化され、符号化された音響特徴パラメータ符号は、誤り訂正符号生成部１２３に与えられる。

誤り訂正符号生成部１２３において、受信側で誤りが検出できるようにするために誤り訂正符号が生成され、その生成された誤り訂正符号が、音響特徴パラメータ符号に挿入され、入力音響パラメータ通信符号としてネットワーク４に送出される。

ネットワーク４を介して復号装置２１０に到来した入力音響パラメータ通信符号は、誤り検出部２１１により、誤り訂正符号の情報に基づいて誤りがあるかどうか検出される。

誤り検出部２１１により誤りが検出された場合、誤り訂正部２１２により誤り訂正符号に基づいて入力音響パラメータ通信符号の誤りが訂正される。

復号部２１３は、入力音響パラメータ符号を復号して、復号した音響特徴パラメータ信号Ｘｆｉを音声認識装置３６０に与えるものである。

復号装置２１０からの音響特徴パラメータ信号Ｘｆｉが音声認識装置３６０に与えられると、マッチング部３６１により、音響特徴パラメータ信号Ｘｆｉの時間変化から音声が発せられている区間情報ｆｓ及びｆｅが算出される。

また、マッチング部３６１において、区間情報ｆｓ及びｆｅに基づく音響特徴パラメータＸｆｉと、標準パターン格納部３０３に格納されている音声の音響特徴パラメータＡｆｉ（ｗ）との照合がなされ、その照合結果が判定部３０４に与えられる。

このようにして、マッチング部３６１からの照合結果に基づいて、第１の実施形態と同様に、判定部３０４及び認識結果出力部３０５により認識結果ｗが求められ出力される。

また、音声認識装置３６０による音声認識動作が終了すると、通信プロトコル制御部３５１から、送信装置１２０が最初に適用していた通信プロトコルに戻すように、送信装置１２０とネゴシエーションがなされる。

通信プロトコル制御部３５１と送信装置１２０とのネゴシエーション成立すると、送信装置１２０において、通信プロトコル制御部３５１に要求された伝送誤りに強い通信プロトコルは、最初に送信装置１２０で適用されていた通信プロトコルに変更される。

（Ｇ−３）第７の実施形態の効果
以上のように、本実施形態によれば、第６の実施形態と同様の効果を奏する。また、本実施形態によれば、音声認識の動作開始時に、音声分析プログラムが、受信側から送信側に与えられ、送信側で音声分析プログラムにより入力音声を音声分析して音響特徴パラメータを算出し、その算出した音響特徴パラメータを符号化して伝送するため、伝送に係る情報量を少なくすることができる。これにより、通信パラメータの情報量を削減し、かつ、音声認識に好適な音響特徴パラメータを正確に得ることができるため、総合的な音声認識応答性能を向上させることができる。

（Ｈ）第８の実施形態
次に、本発明の音声認識システムの第８の実施形態について図面を参照して説明する。

本実施形態は、音声認識の動作開始時に、送信側で適用する通信プロトコルを伝送誤りが強い通信プロトコルに変更し、送信側がこれを適用すると共に、受信側が取り扱う音声認識プログラムを送信側に送信し、送信側で入力音声を音声認識した認識結果を符号化して、受信側に送信する点が特徴である。

（Ｈ−１）第８の実施形態の構成
図８は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成である。

図８に示すように、本実施形態の音声認識システム８は、送信側に、送信装置１３０と音声認識部７００とを備え、受信側に、復号装置２２０と音声認識装置３７０とを備える。

本実施形態が、第７の実施形態となる点は、音声認識装置３７０の構成と、送信側の構成である。

音声認識装置３７０は、少なくとも、認識結果出力部３０５、通信プロトコル制御部３５１、音声認識プログラム転送部３７１を備える。

また、図７の音声認識装置３６０は、第１の実施形態の音声分析部３０１、マッチング部３０２、標準パターン格納部３０３、判定部３０４を有していないように示すが、これは説明便宜上ここでは表示しないものであり、本来は、音声認識プログラムの１機能として備える。

音声認識プログラム転送部３７１は、通信プロトコル制御部３５１によるネゴシエーションの成立後、音声認識装置３７０が取り扱う音声分析プログラムを送信装置１３０に与えるものである。

次に、送信側の送信装置１３０及び音声認識部７００について説明する。

送信装置１３０は、通信プロトコル制御部３５１とネゴシエーションが成立後、音声認識プログラム転送部３７１から音声認識プログラムを受け取り、その音声認識プログラムを音声認識部７００に与えて設定させるものである。

音声認識部７００は、送信装置１３０から音声認識プログラムを受け取り、その音声認識プログラムを設定するものである。また、音声認識部７００は、入力音声を取り入れ、その入力音声を、設定した音声認識プログラムに従って音声認識を行ない認識結果ｗを割り出し、その認識結果ｗを送信装置１３０に与えるものである。

なお、音声認識部７００は、音声認識装置３７０が取り扱う音声認識プログラムに従って音声認識行なうので、音声認識部７００が行なう音声認識の動作についての詳細な説明は省略する。

ここで、送信装置１３０の構成の説明に戻る。送信装置１３０は、符号化部１３２及び誤り訂正符号生成部１３３を少なくとも有する入力音声認識結果通信符号生成部１３１を備える。

符号化部１３２は、通信プロトコル制御部３５１とのネゴシエーションで変更した伝送誤りに強いプロトコルを適用して、音声認識部７００から受け取った認識結果ｗを符号化するものである。

誤り訂正符号生成部１３３は、受信側で誤りを検出できるようにするために、誤り訂正符号を生成し、その生成した誤り訂正符号を、符号化部１３２により符号化された認識結果符号に挿入し、ネットワーク４に送出するものである。

なお、以下では、誤り訂正符号を含んだ認識結果符号を、「入力音声認識結果通信符号」と表現して説明する。

これにより、送信装置１３０は、認識結果ｗを符号化して送出するため、非常に情報量が少ない通信データを送出することができる。

復号装置２２０は、ネットワーク４から到来した入力音声認識結果通信符号を復号して、復号した音声認識結果信号を音声認識装置３７０に与えるものである。

これにより、復号装置２２０は、復号処理により認識結果ｗを音声認識装置３７０に与えることができる。なお、復号装置２２０の復号処理についての詳細な説明は省略する。

（Ｈ−２）第８の実施形態の動作
次に、第８の実施形態の音声認識システムの動作について説明する。

まず、音声認識装置３７０において音声認識の動作開始時に、通信プロトコル制御部３５１と送信装置１３０との間で通信プロトコルのネゴシエーションが行なわれる。

このネゴシエーションの成立後、音声認識装置３７０において取り扱われる音声認識プログラムが、音声認識プログラム転送部３７１から送信装置１３０に与えられる。

音声認識プログラム転送部３７１から音声認識プログラムが送信装置１３０に与えられると、その音声認識プログラムが、音声認識部７００に与えられて、音声認識部７００に設定される。

その後、発生された入力音声は、音声認識部７００に与えられる。入力音声は、音声認識部７００において、設定された音声認識プログラムに従って音声認識が行なわれ、認識結果ｗが求められる。

ここで、音声認識部７００における音声認識の動作は、第１の実施形態の音声認識装置３００が行なう音声認識の動作と同様である。

音声認識部７００により求められた認識結果ｗは、送信装置１３０に与えられる。

送信装置１３０に与えられた認識結果ｗは、符号化部１３２により符号化されると共に、誤り訂正符号生成部１３３により生成された誤り訂正符号が付与され、入力音声認識結果通信符号としてネットワーク４に送出される。

ネットワーク４を介して復号装置２２０に到来した入力音声認識結果通信符号は、復号装置２２０において復号処理が行なわれ、復号された認識結果ｗが音声認識結果信号として音声認識装置３７０に与えられる。

そして、音声認識装置３７０に与えられた音声認識結果信号は、認識結果ｗとして出力される。

また、音声認識装置３７０から認識結果ｗが出力され音声認識動作が終了すると、通信プロトコル制御部３５１から、送信装置１３０が最初に適用していた通信プロトコルに戻すように、送信装置１３０とネゴシエーションが行なわれ、送信装置１３０において、最初に送信装置１３０で適用されていた通信プロトコルに変更される。

（Ｈ−３）第８の実施形態の効果
以上、本実施形態によれば、第１及び第７の実施形態と同様の効果を奏する。

また、本実施形態によれば、送信側が、音声認識プログラムに従って入力音声を音声認識した認識結果を符号化して送出するので、通信データの情報量を激減させることができる。

（Ｉ）第９の実施形態
次に、本発明の音声認識システムの第９の実施形態について図面を参照して説明する。

（Ｉ−１）第９の実施形態の構成
図９は、本実施形態の音声認識装置を少なくとも受信側に備えた音声認識システムの全体構成である。

図９に示すように、本実施形態の音声認識システム９は、送信側に、送信装置１４０、音声入力サービス部８００、音声認識部７００を備え、受信側に、復号装置２３０、音声認識装置３８０を備える。

本実施形態が第１及び第８の実施形態のと異なる点は、音声認識装置３８０の構成と送信側の構成である。

なお、図９では、第１及び第８の実施形態と対応する構成については、図１及び図８に対応する符号を付し、これら対応する構成についての詳細な説明は省略する。

音声認識装置３８０は、通信プロトコル制御部３５１、音声入力サービスプログラム転送部３８１を少なくとも備える。

なお、図９の音声認識装置３８０は、第１の実施形態の音声認識の機能については表示しないが、これは説明便宜上のためここでは表示しないものであり、本来、音声認識装置３８０は、音声認識の機能を備える。

音声入力サービスプログラム転送部３８１は、通信プロトコル制御部３５１と送信装置１４０との間の通信プロトコルに関するネゴシエーションの成立後、音声認識装置３８０が取り扱う音声入力サービスプログラムを、ネットワーク４を介して送信装置１４０に与えるものである。

ここで、音声入力サービスの一例として、項目に対する値を、音声認識処理を通じて取得し、文字列として格納するサービスを示す。例えば、住所＝“東京都千代田区あ−１”、氏名＝“山田太郎”、年齢＝“３５”、性別＝“男性”、依頼項目＝“１”のような一連の情報を入力する場合では、先ずは「住所」項目に対して、「ご自分の住所をおっしゃって下さい」などのガイダンスに従って住所を発声し、認識結果として“東京都千代田区あ−１”を得た場合、住所項目に“東京都千代田区あ−１”をセットする。以下同様に、「氏名」項目に対する認識結果“山田太郎”、「年齢」項目に対する認識結果“３５”を順々にセットする。これらの項目に対する値をまとめたものを音声入力サービス情報と呼ぶ。

もちろん、項目指定の順序は適宜入れ替えてもよいし、さらには、“年齢は３５歳”なる発声から、項目の同定（「年齢」）とその値（「３５」）の設定する方法など、さまざまな情報取得方法が考えられるが、ここではそのような入力の個別手順や処理等を含んだ一連の手続を音声入力サービスと呼び、このような動作を実行するプログラムを音声入力サービスプログラムと呼ぶ。

次に、送信側について説明する。送信装置１４０は、通信プロトコル制御部３５１とネゴシエーションが成立後、音声入力サービスプログラム転送部３８１から音声入力サービスプログラムを受け取り、その音声入力サービスプログラムを音声入力サービス部８００及び音声認識部７００に与えて設定させるものである。

音声認識部７００は、送信装置１４０から音声入力サービスプログラムを受け取り、その音声入力サービスプログラムに含まれている音声認識プログラムを設定するものである。

また、音声認識部７００は、入力音声を取り入れ、その入力音声を、設定した音声認識プログラムに従って音声認識を行ない認識結果ｗを割り出し、その認識結果ｗを音声入力サービス部８００に与えるものである。

なお、音声認識部７００は、音声認識装置３７０が取り扱う音声認識プログラムに従って音声認識を行なうので、音声認識部７００が行なう音声認識の動作についての詳細な説明は省略する。

音声入力サービス部８００は、送信装置１４０から音声入力サービスプログラムを設定し、この音声入力サービスプログラムに従って、発声者により、音声認識部７００からの認識結果ｗの確認や複数の所定の音声入力サービスを反映させ、それにより変換した音声入力サービス情報を送信装置１４０に与えるものである。

ここで、送信装置１４０の構成の説明に戻る。送信装置１４０は、符号化部１４２及び誤り訂正符号生成部１４３を少なくとも有する音声入力サービス通信符号生成部１４１を備える。

符号化部１４２は、通信プロトコル制御部３５１とのネゴシエーションで変更した伝送誤りに強いプロトコルを適用して、音声入力サービス部８００から受け取った音声入力サービス情報を符号化するものである。

誤り訂正符号生成部１４３は、受信側で誤りを検出できるようにするために、誤り訂正符号を生成し、その生成した誤り訂正符号を、符号化部１４２により符号化された音声入力サービス情報に挿入し、ネットワーク４に送出するものである。

なお、以下では、誤り訂正符号を含む符号化された音声入力サービス情報を、「音声入力サービス通信符号」と表現して説明する。

これにより、送信装置１４０は、音声入力サービス情報を符号化して送出するため、非常に情報量が少ない通信データを送出することができる。

復号装置２３０は、ネットワーク４から到来した音声入力サービス通信符号を復号して、復号した音声入力サービス信号を音声認識装置３８０に与えるものである。

これにより、復号装置２３０は、復号処理により音声入力サービス情報を音声認識装置３８０に与えることができる。なお、復号装置２３０の復号処理についての詳細な説明は省略する。

（Ｉ−２）第９の実施形態の動作
次に、第９の実施形態の音声認識システムの動作について説明する。

まず、音声認識装置３８０において音声認識の動作開始時に、通信プロトコル制御部３５１と送信装置１４０との間で通信プロトコルのネゴシエーションが行なわれる。

このネゴシエーションの成立後、音声認識装置３８０において取り扱われる音声認識プログラムを含む音声入力サービスプログラムが、音声入力サービスプログラム転送部３８１から送信装置１４０に与えられる。

音声入力サービスプログラム転送部３８１から音声入力サービスプログラムが送信装置１４０に与えられると、その音声入力サービスプログラムが、音声サービス部８００及び音声認識部７００に与えられて、音声入力サービス部８００及び音声認識部７００に設定される。

その後、発生された入力音声は、音声認識部７００に与えられる。入力音声は、音声認識部７００において、設定された音声入力サービスプログラムに含まれる音声認識プログラムに従って音声認識が行なわれ、認識結果ｗが求められる。

音声認識部７００により求められた認識結果ｗは、音声入力サービス部８００に与えられる。

音声入力サービス部８００において、認識結果ｗは、発声者により、認識結果が正しいものであるかどうかの認識や所定の１又は複数の音声入力サービスの入力がなされ、これらの入力項目を反映させた音声入力サービス情報に変換される。

また、音声入力サービス部８００から音声入力サービス情報が、送信装置１４０に与えられる。

送信装置１４０に与えられた音声入力サービス情報は、符号化部１４２により符号化されると共に、誤り訂正符号生成部１４３により生成された誤り訂正符号が付与され、音声入力サービス通信符号としてネットワーク４に送出される。

ネットワーク４を介して復号装置２３０に到来した音声入力サービス通信符号は、復号装置２３０において復号処理が行なわれ、復号された音声入力サービス情報が音声入力サービス信号として音声認識装置３８０に与えられる。

そして、音声認識装置３８０に与えられた音声入力サービス情報が、入力サービス結果として出力される。

また、音声認識装置３８０における音声認識動作が終了すると、通信プロトコル制御部３５１から、送信装置１４０が最初に適用していた通信プロトコルに戻すように、送信装置１４０とネゴシエーションが行なわれ、送信装置１４０において、最初に送信装置１４０で適用されていた通信プロトコルに変更される。

（Ｉ−３）第９の実施形態の効果
以上のように、本実施形態によれば、第１及び第８の実施形態と同様の効果を奏する。

また、本実施形態によれば、送信側が、音声入力サービスプログラムに従って音声認識により得られた認識結果の確認や所定の音声入力サービスが反映されて得た音声入力サービス情報を符号化して送出するので、通信データの情報量を更に減少させることができる。

（Ｊ）第１０の実施形態
次に、本発明の音声認識システムの第１０の実施形態について図面を参照して説明する。

（Ｊ−１）第１０の実施形態の構成
図１０は、本実施形態の音声認識装置を少なくとも受信側に備えた音声認識システムの全体構成である。

図１０に示すように、本実施形態の音声認識システム１０は、送信側に、送信装置１５０、音声入力サービス部８００、音声認識部７００を備え、受信側に、復号装置２３０、音声認識装置３９０を備える。

なお、図１０は、第１及び第９の実施形態と対応する構成については対応する符号を付し、これら対応する構成の詳細な機能説明は省略する。

本実施形態が、上述した第１及び第９の実施形態と異なる点は、送信装置１５０が話者適応情報送信部１５１を備える点と、音声認識装置３９０が話者適応制御部３９１を備える点である。

送信装置１５０は、話者適応情報送信部１５１、音声入力サービス通信符号生成部１４１を少なくとも備えるものである。

話者適応情報送信部１５１は、音声認識装置３９０の音声認識の動作が完了した後、音声認識動作の結果、発生者の声質に適応した認識精度を向上させるための話者適応情報（発声者声質情報）を、ネットワーク４を介して音声認識装置３９０に与えるものである。

これにより、送信装置１５０は、音声認識装置３９０に話者適応情報を記憶させることができ、次回以降の音声認識の動作時に、特定の発声者の声質に適応した認識精度が高い認識結果を出力させることができる。

音声認識装置３７０は、少なくとも、話者適応制御部３９１、通信プロトコル制御部３５１、音声入力サービスプログラム転送部３８１を備える。

また、図１０の音声認識装置３９０は、音声認識の機能について表示していないが、これは説明便宜上のためここでは表示しないものであり、本来、音声認識装置３９０は音声認識の機能を備える。

話者適応制御部３９１は、音声認識装置３９０の音声認識の動作が完了した後、送信装置１５０からネットワーク４を介して話者適応情報を受信し、その話者適応情報を記憶するものである。また、話者適応制御部３９１は、話者適応情報に基づいて、次回以降の音声認識の動作において、特定発声者の声質に適応した認識結果を求めるものである。

例えば、話者適応制御部３９１は、送信装置１５０から話者適応情報（発声者声質情報）を受信し、その話者適応情報と送信装置１５０の特定情報（例えば、電話番号情報や有料サービスの場合の会員番号（会員ＩＤ等））と対応付けて記憶する。

そして、次回の音声伝送がなされた場合、送信装置１５０の特定情報に基づいて話者適応情報を取り出し、音声認識装置３９０に入力した音声に、話者適応情報に基づく特定発声者の声質に適応させることで、発声者の声質に適応した認識精度の高い認識結果を入力サービス結果として出力することができる。

（Ｊ−２）第１０の実施形態の動作
次に、本実施形態の音声認識システム１０の動作について説明する。

なお、以下では、音声認識装置３９０による音声認識の動作開始から、復号装置２３０により復号された音声入力サービス信号が音声認識装置３９０に与えられるまでの動作については、第９の実施形態の動作と同様であるので、ここまでの動作の詳細な説明は省略する。

音声認識装置３９０において、音声入力サービス動作が完了すると、送信装置２００の話者適応情報送信部１５１から発声者の声質を表す話者適応情報が、ネットワーク４を介して音声認識装置３９０に与えられる。

話者適応情報が、音声認識装置３９０に与えられると、話者適応制御部３９１に記憶される。

これにより、次回以降同じ発声者による音声が入力した場合に、音声認識装置３９０の音声入力サービスプログラム中に埋め込まれた音声の音響パラメータＡｆｉ（ｗ）を発声者の声質に適応させたものを併せたものを使用することができる。

また、音声認識装置３９０における音声認識動作が終了すると、通信プロトコル制御部３５１から、送信装置１５０が最初に適用していた通信プロトコルに戻すように、送信装置１５０とネゴシエーションが行なわれ、送信装置１５０において、最初に送信装置１５０で適用されていた通信プロトコルに変更される。

（Ｊ−３）第１０の実施形態の効果
以上、本実施形態によれば、第１及び第９の実施形態の効果と同様の効果を素する。

また、本実施形態によれば、話者の声質情報を音声認識装置３９０に与えることで、次回以降の音声入力サービスで、音声入力サービス開始以前に発声者を確認できた場合、予め音声の音響特徴パラメータＡｆｉ（ｗ）を発声者の声質に適応されたものを合わせたものを使用することができる。これにより、音声精度を向上させることができる。

さらに、通信パラメータの情報量を無視できるレベルまで激減させることができるため、１個の音声認識装置３９０で同時に複数の通信回線からの音声入力サービスに対応できるようになる。

（Ｋ）他の実施形態
（Ｋ−１）上述した第１〜第１０の実施形態では音声認識システムに適用した場合について説明したが、その他の音声認識システムや音声を使った本人確認システムにも適用することができる。

（Ｋ−２）また、上述した第１〜第１０の実施形態は、音声符号化信号に伝送誤りが生じた場合について説明したが、音声符号化信号の欠落に対しても適用することができる。

（Ｋ−３）上述した第１〜第１０の実施形態では、音声認識システムの送信側及び受信側の特徴的な構成要件の機能が明確になるように分説したが、音声認識システムの送信側及び受信側の構成は、第１〜第１０の実施形態で説明した各構成要件の機能をそれぞれ組み合せて備えるようにしてもよい。

第１の実施形態の音声認識システムの全体構成図である。第２の実施形態の音声認識システムの全体構成図である。第３の実施形態の音声認識システムの全体構成図である。第４の実施形態の音声認識システムの全体構成図である。第５の実施形態の音声認識システムの全体構成図である。第６の実施形態の音声認識システムの全体構成図である。第７の実施形態の音声認識システムの全体構成図である。第８の実施形態の音声認識システムの全体構成図である。第９の実施形態の音声認識システムの全体構成図である。第１０の実施形態の音声認識システムの全体構成図である。

符号の説明

１〜１０…音声認識システム、
１００、１１０、１２０、１３０、１４０及び１５０…送信装置、
２００、２１０、２２０及び２３０…復号装置、
３００、３１０、３３０、３４０、３５０、３６０、３７０、３８０及び３９０…音声認識装置、
４…ネットワーク、３０６…音声応答装置、３０７…音声符号化装置、
５００…フレームマスキング装置、６００…音声分析部、７００…音声認識部、
８００…音声入力サービス部。

Claims

送信装置により符号化された音声符号化信号を伝送路を介して受信し、上記音声符号化信号を復号する復号装置と、上記復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、
上記復号装置は、上記音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、
上記音声認識装置は、上記誤り情報出力手段から上記誤り情報を受信した場合、上記音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有する
ことを特徴とする音声認識システム。
上記音声認識装置は、上記送信装置との間の伝送品質に対応し得る通信プロトコルに変更することを上記送信装置に要求する通信プロトコル変更要求手段を備えることを特徴とする請求項１に記載の音声認識システム。
上記通信プロトコル変更要求手段は、上記誤り情報出力手段からの上記誤り情報を受信した後に、上記伝送品質に対応し得る通信プロトコルへの変更要求を行なうことを特徴とする請求項２に記載の音声認識システム。
上記通信プロトコル変更要求手段は、上記音声符号化信号の音声認識の動作開示時に、上記伝送品質に対応し得る通信プロトコルへの変更要求を行なうことを特徴とする請求項２に記載の音声認識システム。
上記音声認識装置は、上記誤り情報出力手段から上記誤り情報を受信した場合、当該伝送誤りが生じた音声符号化信号を再送することを要求する再送要求手段を備えることを特徴とする請求項１〜４のいずれかに記載の音声認識システム。
上記再送要求手段は、
再発声を要求する応答音声を有する応答音声部と、
上記応答音声部の上記応答音声を符号化して上記送信装置に通信する通信部と
を有することを特徴とする請求項５に記載の音声認識システム。
上記誤り情報出力手段から上記誤り情報を受信し場合、当該伝送誤りが生じた上記音声符号化信号のフレームに対して、フレームマスキング処理を行なうフレームマスキング処理手段を備え、
上記音声認識装置が、上記フレームマスキング処理手段により処理されたフレームの局所類似度に重みを付与する重み付与手段を備える
ことを特徴とする請求項１〜６のいずれかに記載の音声認識システム。
送信装置により符号化された符号化データを伝送路を介して受信し、上記符号化データを復号する復号装置と、上記復号装置により復号された復号データに基づいて音声を認識する音声認識装置とを備える音声認識システムであって、
上記音声認識装置は、該音声認識装置が有する音声認識に係る処理プログラムを、上記送信装置に転送するプログラム転送手段を備え、
上記送信装置が、
上記プログラム転送手段からの上記処理プログラムを設定する処理プログラム設定手段と、
上記処理プログラム設定手段の上記処理プログラムに従って、入力音声信号に対する処理を実行する処理実行手段と、
上記処理実行手段による処理結果を符号化した符号化データを送信する送信手段と
を備える
ことを特徴とする音声認識システム。
上記送信装置は、発声者の話者適応情報を送信する話者適応情報送信手段を備え、
上記音声認識装置は、
今回の音声認識の動作後に、上記話者適応情報送信手段からの上記話者適応情報を上記送信装置の識別情報と対応付けて格納する話者適応情報格納手段と、
上記送信装置から次回以降に伝送されてきた符号化データに、上記送信装置の識別情報に対応する上記話者適応情報を適応する話者適応手段と
を備える
ことを特徴とする請求項８に記載の音声認識システム。
上記処理プログラムが、入力音声信号に基づいて音響特徴パラメータを分析する音声分析プログラムであることを特徴とする請求項８又は９に記載の音声認識システム
上記処理プログラムが、入力音声信号に基づいて音声認識した認識結果を求める音声認識プログラムであることを特徴とする請求項８又は９に記載の音声認識システム。
上記処理プログラムが、予め定められた入力識別番号に対する内容の認識結果を求める音声入力サービスプログラムであることを特徴とする請求項８又は９に記載の音声認識システム。