JP2005173215A - 音声認識システム - Google Patents
音声認識システム Download PDFInfo
- Publication number
- JP2005173215A JP2005173215A JP2003413267A JP2003413267A JP2005173215A JP 2005173215 A JP2005173215 A JP 2005173215A JP 2003413267 A JP2003413267 A JP 2003413267A JP 2003413267 A JP2003413267 A JP 2003413267A JP 2005173215 A JP2005173215 A JP 2005173215A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- transmission
- unit
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 claims abstract description 242
- 238000004891 communication Methods 0.000 claims description 202
- 238000000034 method Methods 0.000 claims description 62
- 230000006978 adaptation Effects 0.000 claims description 29
- 230000000873 masking effect Effects 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 16
- 230000005236 sound signal Effects 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 238000012508 change request Methods 0.000 claims 1
- 238000012937 correction Methods 0.000 description 76
- 238000004458 analytical method Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 17
- 238000001514 detection method Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 15
- 238000006467 substitution reaction Methods 0.000 description 7
- 230000001186 cumulative effect Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000010183 spectrum analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000008602 contraction Effects 0.000 description 3
- 238000005562 fading Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Detection And Prevention Of Errors In Transmission (AREA)
- Communication Control (AREA)
Abstract
【課題】伝送誤りが生じたような伝送路を含む場合にも認識性能が低下しない音声認識システム。
【解決手段】かかる課題を解決するために、本発明の音声認識システムは、送信装置により符号化された音声符号化信号を伝送路を介して受信し、音声符号化信号を復号する復号装置と、復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、復号装置は、音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、音声認識装置は、誤り情報出力手段から誤り情報を受信した場合、音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有することを特徴とする。
【選択図】 図1
【解決手段】かかる課題を解決するために、本発明の音声認識システムは、送信装置により符号化された音声符号化信号を伝送路を介して受信し、音声符号化信号を復号する復号装置と、復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、復号装置は、音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、音声認識装置は、誤り情報出力手段から誤り情報を受信した場合、音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有することを特徴とする。
【選択図】 図1
Description
本発明は、音声認識システムに関し、例えば、伝送路を介して音声符号化信号を復号した音声復号信号に基づいて音声を認識する音声認識システムに適用し得る。
下記の非特許文献1には、入力音声を計算機により分析して認識する音声認識についての基本的な技術が種々記載されている。
音声認識における音声のスペクトル分析方法の1つに、例えば、線形予測分析(LPC:Linear Predictive Coding)法があり、この線形予測分析法として、例えばLPCケプストラム法が広く用いられている。
例えば、このLPCケプストラム法による音声のスペクトルを分析する方法は、まず、所定の処理区間毎に離散化した入力音声信号のスペクトルを分析し、音響特徴パラメータを時系列に算出する。
この算出した時系列の音響特徴パラメータのパターンと、予め登録しておいた時系列の音響特徴パラメータのパターン(ここでは、標準パターンという。)との照合を行ない、パターン同士の距離(類似度)を求める。
そして、その求めたパターン同士の距離(類似度)を比較判定して、最短距離(最も類似している)となる標準パターンを、入力音声信号の時系列の音響特徴パラメータのパターンと判定し、再生した音声(言葉)を出力するという技術である。
また、標準パターンと入力音声信号との類似度を効率的に測る技術として、種々のパターンマッチング技術がある。このパターンマッチング技術は、同じ話者が同じ単語を発生した場合であっても、スペクトル系列の長さ(発生時間)が異なる場合があるので、これを保障する技術の1つとして、例えば、時間軸伸縮マッチングが広く用いられている。
この時間軸伸縮マッチングは、標準パターンと入力音声信号の特徴パターンとが、最も良く一致するように、それぞれの時間軸を非線形に伸縮する方法である。
ところで、上述した音声認識技術は、例えばマイクが捕捉した音声を計算機が認識する場合に多く利用されてきたが、近年の伝送技術の発展に伴い、ネットワークの伝送路(無線伝送系及び有線伝送系を含む)を経由し伝送されてきた入力音声を認識する場合にも多く利用されている。
このような伝送路を経由した音声の認識技術では、一般的に、伝送経路の伝送容量を有効に利用する目的で、送信側で音声を符号化することで情報量を圧縮して、その圧縮した音声信号を伝送路に送出して受信側に伝送することが行われている。
このような圧縮伝送の場合、伝送誤りによる音声信号の乱れを防ぐために、送信側で誤り訂正符号が追加され、受信側で誤り訂正符号を用いて伝送誤りが訂正されることが行なわれている。
鹿野清宏、山村哲、伊勢史郎著,「音声・音情報のディジタル信号処理」,昭晃堂,1997年11月
鹿野清宏、山村哲、伊勢史郎著,「音声・音情報のディジタル信号処理」,昭晃堂,1997年11月
ところで、上述した伝送路を介して伝送させた音声を認識する音声認識システムの場合、従来、送信側(発声者側)のクライアントが備える通信方式により音声信号を送信し、受信側であるサーバがその通信方式に応じて音声認識を行うこととしている。
しかし、クライアント側が備える通信方式は種々あるため、サーバ側がこれら全ての通信方式に対応可能にするには、サーバ側が全ての通信方式に対応可能な機能を備えることが必要となってしまい、サーバの処理負担が増大してしまうと共に、サーバの装置コストが増大してしまう。
従って、かかる課題を解決するために、受信側に音声認識装置を備え、送信側が受信側の通信方式を適用するようにし、受信側の処理負担を分散させるようにするシステムが望まれている。
また、例えば音声信号を有線伝送により伝送させる場合、その音声信号に伝送帯域を保障しないプロトコル(伝送帯域非保障プロトコル)を用いた場合や、音声信号を無線伝送により伝送させる場合、例えばフェージング現象等により、バースト誤りが生じ、受信側で誤りを訂正できない場合があった。
このような場合、例えば人と人との間での通常の音声通信システムの場合には、音声の連続性やリアルタイム性が重視されるので、例えば、誤りを訂正できない音声信号の部分に、誤りのない過去の音声信号の部分を補間する等の連続性やリアルタイム性を補償する技術が適用されている。
しかし、人と人との間の通常の音声通信ではなく、上述したような受信側に音声認識装置を適用する場合には、音声の連続性やリアルタイム性はほとんど問題にならず、入力した音声信号に基づいて、いかに正しく音声(言葉)を再生させるかという音声認識の性能が重視される。
従って、伝送誤りが訂正できず、そのまま音声を再生しようとすると、送信側から伝送されてきた言葉(パターン)とは、異なる言葉(パターン)を判定(非特許文献1参照)してしまい(このような異なった言葉を判定してしまうことを「置換誤り」という)、音声認識の性能を著しく低下させてしまうことになる。
そのため、音声認識の性能を著しく低下させる要因となる、伝送誤りによる音声再生の歪みが生じた場合であっても、正しく音声を認識することができる音声認識システムが求められている。
かかる課題を解決するために、第1の本発明の音声認識システムは、送信装置により符号化された音声符号化信号を伝送路を介して受信し、音声符号化信号を復号する復号装置と、復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、復号装置は、音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、音声認識装置は、誤り情報出力手段から誤り情報を受信した場合、音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有することを特徴とする。
また、第2の本発明に係る音声認識システムは、送信装置により符号化された符号化データを伝送路を介して受信し、符号化データを復号する復号装置と、復号装置により復号された復号データに基づいて音声を認識する音声認識装置とを備える音声認識システムであって、音声認識装置は、該音声認識装置が有する音声認識に係る処理プログラムを、送信装置に転送するプログラム転送手段を備え、送信装置が、プログラム転送手段からの処理プログラムを設定する処理プログラム設定手段と、処理プログラム設定手段の処理プログラムに従って、入力音声信号に対する処理を実行する処理実行手段と、処理実行手段による処理結果を符号化した符号化データを送信する送信手段とを備えることを特徴とする。
本発明の音声認識システムによれば、音声符号化信号が復号装置により訂正できない伝送誤りが生じた場合に、その伝送誤りによる音声再生の歪みを回避し、音声認識の性能の向上させることができる。
以下では、本発明の音声認識システムを実施するための最良の形態について説明する。
(A)第1の実施形態
以下では、本発明に係る音声認識システムの第1の実施形態について図面を参照して説明する。
以下では、本発明に係る音声認識システムの第1の実施形態について図面を参照して説明する。
本実施形態は、ネットワーク(有線伝送系及び無線伝送系を含む)において、受信側に音声認識装置を備えた場合の適用について説明する。
(A−1)第1の実施形態の構成
図1は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図1は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図1に示すように、本実施形態の音声認識システム1は、送信装置100と、復号装置200と、復号装置200に接続する音声認識装置300とを備える。また、送信装置100と、復号装置200とは、ネットワーク4を介して接続可能である。
このネットワーク4は、例えば、公衆回線網、専用回線網、無線回線網又は、これらの複数の回線網を結合した網等に広く適用することができる。
送信装置100は、例えば携帯電話やIP電話等の音声伝送装置が該当し、入力した入力音声信号を符号化して、符号化した音声符号をネットワーク4に送出して受信側に与えるものである。この送信装置100は、従来用いられている入力音声を符号化してネットワーク4に送出する送信装置を適用できる。
図1に示すように、送信装置100は、符号化部102と誤り訂正符号生成部103とを少なくとも有する音声通信符号生成部101を備える。
符号化部102は、入力した入力音声符号を、予め定められた通信伝送手段(以下、通信プロトコル)に従った所定の符号化処理により入力音声信号を符号化するものである。また、符号化部102が行なう所定の符号化処理は、特に限定されず、通信プロトコルに応じた種々の符号化処理を適用することができる。
誤り訂正符号生成部103は、符号化部102により符号化された音声符号に、受信側で伝送誤りを検出させるための誤り訂正符号を生成し、その生成した誤り符号を、符号化部102により符号化された音声符号に含ませたものを伝送路に送出するものである。
なお、説明便宜上、送信装置100における符号化処理により生成した、誤り訂正符号を含ませた音声符号を、「音声通信符号」と表現して、以下では説明する。
復号装置200は、ネットワーク4を経由して伝送されてきた音声通信符号を受信し、その音声通信符号を復号するものである。
図1に示すように、復号装置200は、誤り検出部201、誤り訂正部202、復号部203を少なくとも有する。
誤り検出部201は、受信した音声通信符号に含まれる誤り符号の情報に基づいて、伝送誤りを検出するものである。
誤り訂正部202は、誤り検出部201により伝送誤りが検出された場合に、音声通信符号に含まれる誤り符号に基づいて、音声符号を訂正するものである。
また、例えば、無線伝送路でのフェージング現象等が原因でバースト誤りが生じた場合等のように、誤り訂正部202は、誤り符号の情報だけでは、音声符号を訂正することはできない場合がある。
このような場合、誤り訂正部202は、訂正誤りに関する情報を誤り情報として、音声認識装置300に与えるものである。
復号部203は、入力した音声通信符号を、又は、誤り訂正部202により訂正された音声符号を、所定の復号処理により復号し、その復号した音声信号を音声認識装置300に与えるものである。なお、復号部203が行なう所定の復号処理は、符号化部102が行なう通信プロトコルに応じた符号化処理に対応する復号処理であり、種々の復号処理を適用することができる。
音声認識装置300は、復号装置200から復号された音声信号を受け取り、その音声信号に対して、音声のスペクトルを分析する所定の分析方法を行ない、音声信号に基づく音声を認識して、その認識結果w(言葉)を出力するものである。
また、音声認識装置300は、受信装置300から誤り情報を受け取り、訂正が不可能な誤りがあった場合には、エラーが生じた旨を示す認識結果wを出力するものである。音声認識装置300は、この場合、音声のスペクトル分析による音声認識を行なわず、そのままエラーが生じた旨を示す認識結果wを出力する。
なお、音声認識装置300における音声のスペクトル分析方法は、特に限定されないが、本実施形態では、音声スペクトル分析方法として広く適用されているLPCケプストラムを適用するものとして説明する。勿論、他の分析方法を適用しても良い。
図1に示すように、音声認識装置300は、音声分析部301、マッチング部302、標準パターン格納部303、判定部304、認識結果出力部305を備える。
ここで、音声認識装置300の音声認識機能は、例えば、ハードウェア(例えばCPU)により実行され得る音声認識プログラムとして機能されるが、図1では、説明便宜上、機能動作部のブロック図として記載する。
音声分析部301は、復号部203から音声信号を受け取り、所定の処理区間であるフレーム毎(フレーム周期fとする)に音響特徴分析を行ない、i次元の音響特徴パラメータXfiを算出するものである。
音声分析部301は、上述したように本実施形態ではLPCケプストラムを適用して、フレーム毎に時系列の音響特徴パラメータXfiを算出するものとする。なお、音響特徴パラメータの算出方法の詳細な説明は非特許文献1に詳しいので、ここでの詳細な算出方法の説明は省略する。
標準パターン格納部303は、予め求められた音声の音響特徴パラメータのパターン(標準パターン)Afi(w)を格納するものである。ここで、wは、音声の特徴パターンの内容(言葉)を示す番号であり、例えば、w=1は「東京」、w=2は「大阪」等のように、音声の特徴パターンの言葉(内容)を決定することができる。
マッチング部302は、音声分析部301により算出された音響特徴パラメータXfiを受け取り、時系列な音響特徴パラメータXfiの時間変化から、音声が発せられ、かつ、音声の認識候補となり得る、区間情報fs及びfeを求めるものである。
ここで、区間情報fsは、音声の始端時刻を表すフレーム番号を示し、区間情報feは、認識情報の音声の終了時刻を表すフレーム番号を示す。
また、マッチング部302は、区間情報fs及びfeに基づく時系列な音響特徴パラメータXfiと、標準パターン格納部303の標準パターンAfi(w)とを照合するものである。
マッチング部302が行なうパターン照合方法は、種々の照合方法を適用することができるが、本実施形態では、例えば時間軸伸縮マッチングを適用する。なお、このパターン照応方法の詳細な説明は非特許文献1に詳しいので、ここでの詳細なパターン照合方法の説明は省略する。
判定部304は、マッチング部302によるマッチング照合結果に基づいて、区間情報fs及びfeに基づく時系列な音響特徴パラメータXfiに最も類似性の高い標準パターンAfi(w)を判定するものである。
認識結果出力部305は、判定部305により判定された標準パターンAfi(w)に基づく認識結果w(言葉)を出力するものである。
例えば、判定部304が、区間情報fs及びfeに基づく時系列な音響特徴パラメータXfiに最も類似性の高い標準パターンが、Afi(w1)であると判定した場合、認識結果出力部305は、標準パターンAfi(w1)の番号w1に対応する内容を出力する。
また、認識結果出力部305は、復号装置200の誤り訂正部202から誤り情報を受信した場合には、エラーが生じた旨を示す認識結果wを出力するものである。
(A−2)第1の実施形態の動作
次に、本実施形態の音声認識システムの動作について説明する。
次に、本実施形態の音声認識システムの動作について説明する。
入力音声が送信装置100に入力すると、入力音声は、符号化部102により所定の符号化処理がなされる。
また、符号化部102により符号化された音声符号は、誤り符号生成部103により生成された誤り訂正符号が挿入されて、誤り訂正符号を含む音声符号(音声通信符号)がネットワーク4に送出される。
ネットワーク4を経由した音声通信符号は、復号装置200に与えられる。復号装置200に到達した音声通信符号は、誤り検出部201により、音声通信符号に含まれる誤り訂正符号の情報に基づいて、誤りが生じているか否かが検出される。
誤り検出部201により伝送誤りが検出されない場合、音声符号は、復号部203に与えられる。
また、誤り検出部201により伝送誤りが検出された場合、伝送誤りが生じた音声通信符号は誤り訂正部202に与えられ、音声符号は、誤り訂正部202により、誤り訂正符号に基づいて誤りが訂正され、誤りが訂正された音声符号が復号部203に与えられる。
復号部203に音声符号が与えられると、音声符号は、復号部203により、所定の復号処理により復号され、復号された音声信号が、音声認識装置300に与えられる。
ここで、誤り訂正部202において、音声通信符号が、例えば無線伝送路のフェージング現象等によりバースト誤りが生じている場合には、そのバースト誤りの訂正を行なうことができず、そのような訂正誤りに関する情報を含む誤り情報が音声認識装置300に与えられる。
誤り訂正部202から音声認識装置300に誤り情報が与えられると、音声認識装置300により音声認識は行われず、認識結果出力部305により、エラーが生じた旨の認識結果wが出力される。
これにより、発生したバースト誤りの訂正を行なえないことから生じ得る、音声認識装置300による置換誤り(実際に発生された言葉とは異なる言葉と判定する誤り)を回避することができ、音声認識の性能を低下させることを防ぐことができる。
一方、復号部203により正しく復号された音声信号は、音声分析部301に与えられ、音声分析部301により、所定の処理区間であるフレーム毎(フレーム周期fとする)に音響特徴分析が行なわれ、i次元の音響特徴パラメータXfiが算出される。
音声分析部301により算出された音響特徴パラメータXfiは、マッチング部302に与えられ、マッチング部302により、時系列な音響特徴パラメータXfiの時間変化から、音声が発せられ、かつ、音声の認識候補となり得る、区間情報fs及びfeが求められる。
マッチング部302により区間情報fs及びfeが求められると、その区間情報fs及びfeに基づく時系列な音響特徴パラメータXfiは、マッチング部302により、標準パターン格納部303の標準パターンAfi(w)と照合され、そのマッチング照合結果が、判定部304に与えられる。
マッチング部302からのマッチング照合結果が判定部304に与えられると、判定部304において、マッチング照合結果に基づいて、区間情報fs及びfeに基づく時系列な音響特徴パラメータXfiに最も類似性の高い標準パターンAfi(w)が判定される。そして、判定部304による判定結果が、認識結果出力部305に与えられる。
判定部304からの判定結果が認識結果出力部305に与えられると、認識結果出力部305において、判定部305により判定された標準パターンAfi(w)に基づく認識結果w(言葉)が出力される。
(A−3)第1の実施形態の効果
以上のように、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、音声認識装置が、誤りを含んだ音声信号を無理に認識せずに、認識エラーとして出力することにより、音声認識で最も致命的なエラーである置換誤りを極めて簡単な処理により回避することができる。これにより、総合的な音声認識の応答性能を向上させることができる。
以上のように、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、音声認識装置が、誤りを含んだ音声信号を無理に認識せずに、認識エラーとして出力することにより、音声認識で最も致命的なエラーである置換誤りを極めて簡単な処理により回避することができる。これにより、総合的な音声認識の応答性能を向上させることができる。
(B)第2の実施形態
次に、本発明の音声認識システムの第2の実施形態について図面を参照して説明する。
次に、本発明の音声認識システムの第2の実施形態について図面を参照して説明する。
本実施形態も、第1の実施形態と同様に、ネットワーク(有線伝送系及び無線伝送系を含む)において、受信側に音声認識装置を備えた場合の適用について説明する。
(B−1)第2の実施形態の構成
図2は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図2は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図2に示すように、本実施形態の音声認識システム2は、送信装置100、復号装置200、音声認識装置310、音声応答装置306、音声符号化装置307、受信装置400を備える。
第2の実施形態に音声認識システム2が、第1の実施形態と異なる点は、音声認識装置310の構成と、音声応答装置306、音声符号化装置306、受信装置400を備える点である。
従って、図2において、図1に示す構成と対応する構成については対応する符号を付した。また、以下では、既に第1の実施形態で説明した構成の詳細な説明については省略する。
音声認識装置310は、第1の実施形態と同様、復号装置200の誤り訂正部202から誤り情報を受け取った場合には、誤りを含む音声信号(復号信号)に基づく音声認識を行なわず、再発声を促す応答音声を生成するように、音声応答装置306に応答音声生成指示を与えるものである。
そして、音声認識装置310は、再発声を要求することで、再発声された新たな音声通信符号を復号装置200に入力させ、復号装置200において、その再発声された音声通信符号を復号させた音声信号に基づいて、音声認識を行ない認識結果wを出力するものである。
また、音声認識装置310は、復号装置200の誤り訂正部202から誤り情報を受け取らず、正しく復号できた音声信号については、第1の実施形態で説明した音声認識を行ない、認識結果wを出力するものである。
音声応答装置306は、音声認識装置310からの応答音声生成指示に従って再発声を促す応答音声信号を生成し、生成した応答音声信号を音声符号化装置307に与えるものである。
音声符号化装置307は、音声応答装置306から受け取った応答音声信号を、予め定められた通信伝送手段(以下、通信プロトコル)に従った所定の符号化処理により応答音声信号を符号化するものである。また、音声符号化装置307が行なう所定の符号化処理は、特に限定されず、通信プロトコルに応じた種々の符号化処理を適用することができる。
また、音声符号化装置307は、受信側で伝送誤りを検出させるための誤り訂正符号を生成し、その生成した誤り符号を、符号化された応答音声符号に含ませたものを伝送路に送出して、受信装置400に与えるものである。
なお、説明便宜上、音声符号化装置307における符号化処理により生成した、誤り訂正符号を含ませた応答音声符号を、「応答音声通信符号」と表現して、以下では説明する。
受信装置400は、ネットワーク4を経由して、音声符号化装置307から応答音声通信符号を受信し、応答音声を再生し、再生した応答音声を出力するものである。
受信装置400が再生した応答音声を出力することにより、誤りを訂正できなかった音声について、発声者に再発声を促すことができる。そして、発声者により再発声された音声が、再度送信装置100に与えられる。
図2に示すように、受信装置400は、誤り検出部401、誤り訂正部402、復号部403を少なくとも備えるものである。
誤り検出部401は、ネットワーク4を経由して受信した応答音声通信符号に含まれる誤り訂正符号の情報に基づいて、伝送誤りを検出するものである。
誤り訂正部402は、誤り検出部401により誤りが検出された場合に、誤り訂正符号に基づいて、応答音声符号を訂正するものである。
復号部403は、応答音声符号を所定の復号処理により復号し、応答音声を再生して出力するものである。
(B−2)第2の実施形態の動作
次に、第2の実施形態の音声認識システムの動作について説明する。
次に、第2の実施形態の音声認識システムの動作について説明する。
なお、復号装置200が音声通信符号を正しく復号した場合の音声認識の動作については、第1の実施形態で説明したので、この場合の動作については省略する。
以下では、例えばバースト誤り等の復号装置200の誤り訂正部202が訂正できない誤りが生じた場合の動作について説明する。
ネットワーク4を経由した音声通信符号が、復号装置200に与えられ、誤り訂正部202において、例えばバースト誤り等の訂正できない誤りが生じた場合、誤り訂正部202から、誤り情報が、音声認識装置310の認識結果出力部305に与えられる。
認識結果出力部305に誤り情報が与えられると、応答音声を生成するよう応答音声指示が、認識結果出力部305から音声応答装置306に与えられる。
なお、このとき、音声認識装置310は、誤りを含んだ音声信号に基づく音声認識を行なわない。これにより、置換誤りを防止し、音声認識の性能の低下を回避することができる。
音声応答装置306に応答音声生成指示が与えられると、音声応答装置306において、再発声を促す応答音声信号が生成される。そして、音声応答装置306により生成された応答音声信号は、音声符号化装置307に与えられる。
音声応答装置306から音声符号化装置307に与えられた応答音声信号は、音声符号化装置307により、所定の符号化処理により符号化される。また、符号化された応答音声符号は、受信側で伝送誤りが検出できるようにする誤り訂正符号が挿入され、誤り訂正符号を含む応答音声通信符号が、ネットワーク4を介して受信装置400に与えられる。
ネットワーク4を経由した受信装置400に到来した応答音声通信符号は、受信装置400において、応答音声が再生され、再生された応答音声が出力される。
受信装置400から応答音声が出力することにより、発声者により再発声された音声が、送信装置100に与えられる。
このようにして、再発声された入力音声は、再度ネットワーク4を経由して、復号装置200に与えられ、所定の復号処理により復号される。
また、復号装置200から再発声により復号された音声信号は、音声認識装置310において、第1の実施形態で説明した音声認識が行われて、音声認識装置310から認識結果wが出力される。
ここで、この再発声された音声通信符号が、再度伝送されることにより、再度訂正不可能な誤りを含むことも考えられるが、2回続けてエラーが発生するケースの確率的に少なくなる。
例えば、1回のエラー発生確率が1%であるとすると、2回続けてエラーが発生する確率は0.01%となり、事実上無視できるまでのレベルにまで低下させることができる。
(B−3)第2の実施形態の効果
以上、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、再発声を促す応答音声を返信する音声応答装置306及び音声符号化装置307を備えることで、音声認識で最も致命的なエラーである置換誤りを回避することができ、また、音声復号エラーに起因する音声認識の誤りを全くのゼロにすることができる。これにより、総合的な音声認識の応答性能を向上させることができる。
以上、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、再発声を促す応答音声を返信する音声応答装置306及び音声符号化装置307を備えることで、音声認識で最も致命的なエラーである置換誤りを回避することができ、また、音声復号エラーに起因する音声認識の誤りを全くのゼロにすることができる。これにより、総合的な音声認識の応答性能を向上させることができる。
(C)第3の実施形態
次に、本発明の音声認識システムの第3の実施形態について図面を参照して説明する。
次に、本発明の音声認識システムの第3の実施形態について図面を参照して説明する。
(C−1)第3の実施形態の構成
図3は、第3の実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図3は、第3の実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図3に示すように、第3の実施形態の音声認識システム3は、送信装置110、復号装置200、音声認識装置320を備える。
第3の実施形態が、第1の実施形態と異なる点は、送信装置110の構成と、音声認識装置320の構成である。
従って、図3において、図1に示す第1の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第1の実施形態で説明した構成の詳細な説明については省略する。
音声認識装置320は、第1の実施形態で説明した構成の他に、再送信指示部308を備える。
再送信指示部308は、復号装置200の誤り訂正部202から認識結果出力部305に誤り情報を与えられると、認識結果出力部305からの指示に従って、音声通信符号の再送信を要求する通信制御信号を送信装置110に与えるものである。
このとき、音声認識装置320は、誤りを含む音声信号(復号信号)に基づく音声認識を行なわない。
そして、音声認識装置310は、送信装置110から再送信された音声通信符号を復号装置200に入力させ、復号装置200において、その再送信された音声通信符号を復号させた音声信号に基づいて、音声認識を行ない認識結果wを出力するものである。
また、音声認識装置310は、復号装置200の誤り訂正部202から誤り情報を受け取らず、正しく復号できた音声信号については、第1の実施形態で説明した音声認識を行ない、認識結果wを出力するものである。
送信装置110は、第1の実施形態で説明した音声通信符号生成部101と、受信部104と、再構成制御部105を備える。
受信部104は、ネットワーク4を経由して音声認識装置308から通信制御信号を受信するものである。
再構成制御部105は、受信部104が通信制御信号を受信すると、音声通信符号を再構成するように、音声通信符号生成部101を制御するものである。
音声通信符号生成部101は、再構成制御部105の制御により、再度音声通信符号を再構成して、再構成した音声通信符号をネットワーク4に出力するものである。
(C−2)第3の実施形態の動作
次に、第3の実施形態の音声認識システムの動作について説明する。
次に、第3の実施形態の音声認識システムの動作について説明する。
なお、復号装置200が音声通信符号を正しく復号した場合の音声認識の動作については、第1の実施形態で説明したので、この場合の動作については省略する。
以下では、例えばバースト誤り等の復号装置200の誤り訂正部202が訂正できない誤りが生じた場合の動作について説明する。
ネットワーク4を経由した音声通信符号が、復号装置200に与えられ、誤り訂正部202において、例えばバースト誤り等の訂正できない誤りが生じた場合、誤り訂正部202から再送信指示部308に、当該音声通信符号の再送信の要求を行なうよう指示がなされる。
誤り訂正部202からの指示を受けて、再送信指示部308から、当該音声通信符号を再送信するように要求する通信制御信号が、ネットワーク4を介して送信装置110に与えられる。
再送信指示部308から送出された通信制御信号は、ネットワーク4を介して、送信装置110の受信部104に到達する。
受信部104により通信制御信号が受信されると、復号装置200において誤りが訂正できなかった音声通信符号について、再送信指示が再構成制御部105に与えられる。
再送信指示が再構成制御部105に与えられると、再構成制御部105の制御により、音声通信符号生成部101において、当該音声通信符号が再構成されて、再構成された音声通信符号が、ネットワーク4を介して復号装置200に再度与えられる。
このようにして、送信装置110から再送信された音声通信符号は、再度ネットワーク4を経由して、復号装置200に与えられ、所定の復号処理により復号される。
そして、復号装置200により復号された音声信号は、音声認識装置310において、第1の実施形態で説明した音声認識が行われて、音声認識装置310から認識結果wが出力される。
ここで、この再送信された音声通信符号が、再度伝送されることにより、再度訂正不可能な誤りを含むことも考えられるが、2回続けてエラーが発生するケースの確率的に少なくなる。
例えば、1回のエラー発生確率が1%であるとすると、2回続けてエラーが発生する確率は0.01%となり、事実上無視できるまでのレベルにまで低下させることができる。
(C−3)第3の実施形態の効果
以上のように、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、その音声通信符号を再送信させることにより、音声認識で最も致命的なエラーである置換誤りを回避することができ、また、音声復号エラーに起因する音声認識の誤りを全くのゼロにすることができる。これにより、総合的な音声認識の応答性能を向上させることができる。
以上のように、本実施形態によれば、例えばバースト誤り等のように誤り訂正が不可能な誤りが発生した場合に、その音声通信符号を再送信させることにより、音声認識で最も致命的なエラーである置換誤りを回避することができ、また、音声復号エラーに起因する音声認識の誤りを全くのゼロにすることができる。これにより、総合的な音声認識の応答性能を向上させることができる。
(D)第4の実施形態
次に、本発明の音声認識システムの第4の実施形態について図面を参照して説明する。
次に、本発明の音声認識システムの第4の実施形態について図面を参照して説明する。
(D−1)第4の実施形態の構成
図4は、第4の実施形態の音声認識装置を受信側に備えた音声認識システムを示す全体構成図である。
図4は、第4の実施形態の音声認識装置を受信側に備えた音声認識システムを示す全体構成図である。
図4に示すように、本実施形態の音声認識システム4は、送信装置1000、復号装置200、フレームマスキング装置500、音声認識装置330を備える。
第4の実施形態が、第1の実施形態と異なる点は、フレームマスキング装置500を備える点と、音声認識装置330の構成である。
従って、図4において、図1に示す第1の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第1の実施形態で説明した構成の詳細な説明については省略する。
フレームマスキング装置500は、復号装置200により誤りの訂正が不可能であった場合に、その誤り訂正できない音声符号部分に対してフレームマスキングを行ない、フレームマスキングにより補間した補間音声信号及び補間情報を音声認識装置320に与えるものである。
ここで、フレームマスキングとは、誤り訂正しきれない音声符号部分について、過去の正しく復号された音声符号部分と差し替えたり、又は前後正しく復号された音声符号部分を補間する方法をいう。
フレームマスキング装置501は、図4に示すように、音声補間部501と、補間情報生成部502を備える。
音声補間部501は、フレームマスキングを実行するものである。音声補間部501は、復号装置200から誤り情報を受け取り、復号装置200において、訂正しきれない誤りが生じた場合に、その誤り訂正できなかった音声符号部分について、過去の正しく復号された音声符号部分と差し替えたり、又は前後正しく復号された音声符号部分を補間するものである。
補間情報生成部502は、音声補間部501によりフレームマスキングされた音声補間部分(フレーム)を示す補間情報を生成し、この補間情報を音声認識装置330に与えるものである。この補間情報は、音声信号のうち、どの部分(フレーム)が補間音声符号であるかを示す情報である。
音声認識装置330は、フレームマスキング装置500から、復号装置200により復号された音声信号、又は、フレームマスキング装置500によりフレームマスキングされた補間音声信号及び補間情報を受け取り、音声認識を行ない、その認識結果wを出力するものである。
音声認識装置330が、第1の実施形態の音声認識装置300と異なる点は、判定部304が重み付与部304aを有する点である。よって、以下では、重み付与部304aの機能と共に、それに関連するマッチング部302及び判定部304の機能についても説明する。
マッチング部302は、第1の実施形態と同様に、音声分析部301により算出された音響特徴パラメータXfiを受け取り、区間情報fs及びfeに基づく時系列な音響特徴パラメータXfiと、標準パターン格納部303の標準パターンAfi(w)とを照合するものである。
なお、音声分析部301は、復号装置200による誤り訂正が不可能であった場合に、フレームマスキング装置500によりフレームマスキングされた補間音声信号についても、同様の音声分析を行なう。
判定部304は、マッチング部302からの照合結果に応じて、音響特徴パラメータXfiとの類似性を検証する。また、判定部304は、補間情報をも受け取る。
判定部304は、補間情報に基づいて、フレームマスキングされた部分の音響特徴パラメータXfiを検知し、そのフレームマスキングされた部分の音響特徴パラメータXfiについて標準パターンAfi(w)との類似性を検証する。
ここで、一般的な類似性の検証方法は、音響特徴パラメータXfiと音声の音響特徴パラメータAfi(w)とフレーム毎の局所類似度Xfを計算し、そのフレーム毎に算出した局所類似度Xfを順次累積する。これにより得られた累積類似度が最大となるw1を見出すこととしている。
しかし、本実施形態では、重み付与部304aにより、次のような重みを付与する。
重み付与部304aは、補間情報に基づいてフレームマスキングされた部分を検知し、そのフレームマスキングされた部分に対応する局所類似度Xfに所定の重みを付与する。
重み付与部304aによる重みの付与方法として、例えば、フレームマスキング部500によりフレームマスキングされた部分に対応するフレームfの局所類似度Xfの値に、例えば、0.3を乗じる。
これにより、フレームマスキングされた部分に対応するフレームfの局所類似性Xfが、累積類似度に与える影響を軽減させることができる。
重み付与部304aが付与する重みの値は、予め定められた定数であってもよいし、又は、フレームマスキングにより予測され得る歪みの大きさに応じた変数(例えば、歪みの大きさに反比例させる変数)を適用してもよい。
(D−2)第4の実施形態の動作
次に、本実施形態の音声認識システムの動作について説明する。
次に、本実施形態の音声認識システムの動作について説明する。
復号装置200が音声通信符号を正しく復号した場合、復号装置200により復号された音声信号が、フレームマスキング装置500を介して、音声認識装置330に与えられる。
この場合の音声認識の動作は、第1の実施形態で説明した動作を同様であるので、詳細な説明は省略する。
また、例えばバースト誤り等により、復号装置200の誤り訂正部202が訂正できない誤りが生じた場合、復号装置200から誤り情報がフレームマスキング装置500に与えられる。この場合、誤り訂正ができなかった部分の音声信号も、復号装置200からフレームマスキング装置500に与えられる。
フレームマスキング装置500に誤り情報が与えられると、誤りが訂正されていない音声符号部分は、音声補間部501により、フレームマスキングがなされる。このフレームマスキングは、従来利用されているフレームマスキング技術を適用できる。
また、音声補間部501によりフレームマスキングがなされると、補間情報生成部502により、音声補間部501によりフレームマスキングされた音声符号部分の位置を示す補間情報が生成される。
そして、音声補間部501によりフレームマスキングされた補間音声信号と、補間情報生成部502により生成された補間情報とが、音声認識装置330に与えられる。
補間音声信号及びその補間情報とが音声認識装置330に与えられると、音声分析部301によりフレーム毎に音響分析が行なわれ、フレーム毎の音響特徴パラメータXfiが算出される。
音声分析部301により算出された音響特徴パラメータXfiは、マッチング部302に与えられ、区間情報fs及びfeが算出され、その区間情報に基づく音響特徴パラメータXfiと、標準パターン格納部303に格納されている音声の音響特徴パラメータAfi(w)とが照合され、その照合結果が判定部304に与えられる。
マッチング部302からの照合結果が判定部304に与えられると、判定部304において、フレーム毎の音響特徴パラメータXfiと音声の音響特徴パラメータAfi(w)との類似性が検証される。
つまり、判定部304では、フレーム毎の音響特徴パラメータXfiの局所類似度Xfが算出される。
ここで、重み付与部304aにおいて、補間情報に基づいてフレームマスキングされた音声符号部分に対応するフレームfの局所類似度Xfに、所定の重み(例えば0.3)が付与され、フレームマスキングされた音声符号部分に対応するフレームfの局所類似度Xfが、累積類似度に与える影響度を調整する。
この重み付与部304aによる重み付けにより、フレームマスキングされた音声符号部分に対応するフレームの信頼度を考慮した、信頼性のある累積類似度が認識結果出力部305に与えられる。
判定部304からの累積類似度が認識結果出力部305に与えられると、認識結果出力部305において、累積類似度に基づいて最も類似性の高い認識候補が検出されて、認識結果wとして出力される。
(D−3)第4の実施形態の効果
以上、本実施形態によれば、復号装置200において誤り訂正ができなかった音声符号をフレームマスキングするフレームマスキング装置500を備え、又、フレームマスキング装置500からの補間情報に基づいて、フレームマスキングされた部分に対応するフレームの局所類似度に重みを付与する重み付与部304aを備えることにより、信頼性の高い累積類似度を求めることができる。これにより、信頼性の高い認識結果wを出力することができるので、音声認識の性能を向上させることができる。
以上、本実施形態によれば、復号装置200において誤り訂正ができなかった音声符号をフレームマスキングするフレームマスキング装置500を備え、又、フレームマスキング装置500からの補間情報に基づいて、フレームマスキングされた部分に対応するフレームの局所類似度に重みを付与する重み付与部304aを備えることにより、信頼性の高い累積類似度を求めることができる。これにより、信頼性の高い認識結果wを出力することができるので、音声認識の性能を向上させることができる。
(E)第5の実施形態
次に、本発明の音声認識システムの第5の実施形態について図5を参照して説明する。
次に、本発明の音声認識システムの第5の実施形態について図5を参照して説明する。
(E−1)第5の実施形態の構成
図5は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図5は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図5に示すように、第5の実施形態の音声認識システム5は、送信装置100、復号装置200、音声認識装置340を備える。
第5の実施形態が、第1の実施形態と異なる点は、音声認識装置340の構成である。
従って、図5において、図1に示す第1の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第1の実施形態で説明した構成の詳細な説明については省略する。
音声認識装置340は、図1に示す第1の実施形態の構成の他に、通信プロトコル制御部309を備える。
通信プロトコル制御部309は、復号装置200において誤り訂正ができず、復号装置200から誤り情報があった場合、認識結果出力部305から誤り情報を受信した旨を受けて、送信装置100が現在適用している通信プロトコルを、より伝送誤りに強い通信プロトコルに変更するように、送信装置100とネゴシエーションするものである。
例えば、復号装置200による復号誤りが生じた場合、通信プロトコル制御部309は、送信装置100が適用する通信プロトコルを、伝送誤りに完全訂正プロトコル(例えば、TCP−IPやFTPプロトコル)に変更するよう要求する。
通信プロトコル制御部309と送信装置100とのネゴシエーションが成立した場合、次回以降に、受信側に到達する音声通信符号に対する復号誤りを減少させることができる。
なお、音声認識装置340は、復号装置200から誤り情報が与えられた場合には、第1の実施形態と同様に、音声認識を行なわず、エラーが生じた旨の認識結果を出力する。これにより置換誤りを回避することができる。
(E−2)第5の実施形態の動作
次に、第5の実施形態の音声認識システムの動作について説明する。
次に、第5の実施形態の音声認識システムの動作について説明する。
なお、復号装置200が音声通信符号を正しく復号した場合の音声認識の動作については、第1の実施形態で説明したので、この場合の動作については省略する。
以下では、例えばバースト誤り等の復号装置200の誤り訂正部202が訂正できない誤りが生じた場合の動作について説明する。
復号装置200により復号誤りが生じた場合、復号装置200から誤り情報が音声認識装置340に与えられる。
復号装置200から音声認識装置340に誤り情報が与えられると、音声認識装置340は、第1の実施形態と同様に、音声認識を行なわず、エラーが生じた旨を示す認識結果wを出力する。
また、復号装置200から音声認識装置340に誤り情報が与えられると、認識結果出力部305から誤り情報を受信した旨が、通信プロトコル制御部309に与えられる。
これにより通信プロトコル制御部309は、今後も伝送エラーによる訂正不可能な誤りが生じる可能性があるため、送信装置100が現在適用してきる通信プロトコルを、より伝送誤りに強い通信プロトコルに変更するように、送信装置100とネゴシエーションを行なう。
そして、送信装置100とのネゴシエーションが成立することで、次回以降に、受信側に到達する音声通信符号に対する復号誤りが減少することができる。
(E−3)第5の実施形態の効果
以上のように、本実施形態によれば、復号装置による復号誤りが生じた場合に、送信装置100が適用している通信プロトコルを変更するように送信装置100とネゴシエーションを行なう通信プロトコル制御部309を備えることにより、以後到達し得る音声通信符号に対する復号誤りを減少させることができる。これにより、音声認識の誤りを適用的に軽減又はゼロにすることができ、総合的な音声認識応答性能が向上する。
以上のように、本実施形態によれば、復号装置による復号誤りが生じた場合に、送信装置100が適用している通信プロトコルを変更するように送信装置100とネゴシエーションを行なう通信プロトコル制御部309を備えることにより、以後到達し得る音声通信符号に対する復号誤りを減少させることができる。これにより、音声認識の誤りを適用的に軽減又はゼロにすることができ、総合的な音声認識応答性能が向上する。
(F)第6の実施形態
以下、本発明の音声認識システムの第6の実施形態について図面を参照して説明する。
以下、本発明の音声認識システムの第6の実施形態について図面を参照して説明する。
(F−1)第6の実施形態の構成
図6は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図6は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図6に示すように、本実施形態の音声認識システム6は、送信装置100、復号装置200、音声認識装置350を備える。
第6の実施形態が、第1の実施形態と異なる点は、音声認識装置350の構成である。
従って、図6において、図1に示す第1の実施形態の構成と対応する構成については対応する符号を付した。また、以下では、既に第1の実施形態で説明した構成の詳細な説明については省略する。
音声認識装置350は、図1に示す第1の実施形態の構成の他に、通信プロトコル制御部351を備える。
通信プロトコル制御部351は、音声認識の動作の開始時に、伝送誤りに強い通信プロトコルに変更するように、送信装置100とネゴシエーションをするものである。
例えば、通信プロトコル制御部351は、音声認識の動作開始時に、送信装置100とネゴシエーションを行ない、送信装置100との間の通信品質(例えば、伝送誤り率)を算出し、その算出した通信品質に対応する通信プロトコル(例えば、TCP−IPやFTPプロトコル等)に変更するように送信装置100に要求する。
そして、このネゴシエーションが成立し、送信装置100が適用する通信プロトコルを、伝送誤りに強い通信プロトコルに変更し、送信装置がこの変更した通信プロトコルを適用した音声通信符号を送信できるようにすることで、これから送信され得る音声通信符号に対する復号誤りを減少させることができる。
これにより、これから送信装置100から到来する音声通信符号に対する復号誤りを減少させることができるので、音声認識の誤りを減少させることができ、音声認識の性能を向上させることができる。
(F−2)第6の実施形態の動作
次に、第5の実施形態の音声認識システムの動作について説明する。
次に、第5の実施形態の音声認識システムの動作について説明する。
まず、音声認識の動作開始時に、通信プロトコル制御部351から通信プロトコル制御信号が、送信装置100に与えられ、通信プロトコル制御部351と送信装置100との間で、伝送誤りに強い通信プロトコルに変更するようにネゴシエーションがなされる。
このネゴシエーションが成立した場合、送信装置100が適用する通信プロトコルが伝送誤りに強い通信プロトコルに変更され、送信装置100において、その変更した通信プロトコルを適用した音声通信符号がネットワーク4に送出される。
ネットワーク4を介して到達した音声通信符号は、復号装置200において、第1の実施形態で説明した復号処理がなされる。
このとき、予め音声認識の動作開始前に、通信プロトコルは伝送誤りに強い通信プロトコルを変更されているため、音声通信符号は、伝送誤りの発生が起こりにくくなっている。
そのため、復号装置200における復号誤りも発生しにくくなっているので、正しく復号された音声信号が復号装置200から音声認識装置350に与えられる。
復号装置200により復号された音声信号は音声認識装置350に与えられ、音声認識装置350において、第1の実施形態で説明した音声認識がなされて、その認識結果wが出力される。
また、音声認識装置350による音声認識動作が終了すると、通信プロトコル制御部351から、送信装置100が最初に適用していた通信プロトコルに戻すように、送信装置100とネゴシエーションがなされる。
通信プロトコル制御部351と送信装置100とのネゴシエーション成立すると、送信装置100において、通信プロトコル制御部351に要求された伝送誤りに強い通信プロトコルは、最初に送信装置100で適用されていた通信プロトコルに変更される。
(F−3)第6の実施形態の効果
以上のように、本実施形態によれば、音声認識装置350による音声認識動作の開始時に、あらかじめ、送信装置100で適用される通信プロトコルを予め伝送誤りに強い通信プロトコルに変更するようにネゴシエーションする通信プロトコル制御部351を備えるにより、音声認識の対象となる音声通信符号が最初から伝送誤りに強いものとなってので、復号誤りを減少させることができる。これにより、音声認識の誤りを適用的に軽減又はゼロにすることができ、総合的な音声認識応答性能が向上する。
以上のように、本実施形態によれば、音声認識装置350による音声認識動作の開始時に、あらかじめ、送信装置100で適用される通信プロトコルを予め伝送誤りに強い通信プロトコルに変更するようにネゴシエーションする通信プロトコル制御部351を備えるにより、音声認識の対象となる音声通信符号が最初から伝送誤りに強いものとなってので、復号誤りを減少させることができる。これにより、音声認識の誤りを適用的に軽減又はゼロにすることができ、総合的な音声認識応答性能が向上する。
(G)第7の実施形態
以下、本発明の音声認識システムの第7の実施形態について図面を参照して説明する。
以下、本発明の音声認識システムの第7の実施形態について図面を参照して説明する。
本実施形態は、音声認識の動作開始時に、送信側で適用する通信プロトコルを伝送誤りが強い通信プロトコルに変更し、送信側がこれを適用すると共に、受信側が取り扱う音声分析プログラムを送信側に送信し、送信側で入力音声を音声分析した音響パラメータを符号化して、受信側に送信する点が特徴である。
(G−1)第7の実施形態の構成
図7は、第7の実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図7は、第7の実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成図である。
図7に示すように、第7の実施形態の音声認識システム7は、送信側に、送信装置120、音声分析部600を備え、受信側に、復号装置210及び音声認識装置360を備える。
まず、音声認識装置360について説明する。図7に示すように、音声認識装置360は、マッチング部361、標準パターン格納部303、判定部304、認識結果出力部305、通信プロトコル制御部351、音声分析プログラム転送部362を、少なくとも備える。
また、図7の音声認識装置360は、第1の実施形態の音声分析部301を有していないように示すが、これは説明便宜上ここでは表示しないものであり、本来は、音声認識プログラムの1機能として備える。
なお、第1の実施形態と対応する構成については対応する符号を付し、これら対応する構成の詳細な機能説明は省略する。
通信プロトコル制御部351は、第6の実施形態で説明した通信プロトコル制御部351に対応し、音声認識動作開始時に、伝送誤りに強い通信プロトコルに変更するように送信装置120とネゴシエーションするものである。
音声分析プログラム転送部362は、通信プロトコル制御部351によるネゴシエーションの成立後、音声認識装置360が取り扱う音声分析プログラムを送信装置120に与えるものである。
マッチング部361は、後述するように復号装置210により復号されて得た音響特徴パラメータXfiを受け取り、その音響特徴パラメータXfiに基づいて、区間情報fs及びfeを算出し、区間情報fs及びfeに基づく音響特徴パラメータXfiと、音声の音響特徴パラメータAfi(w)とを照合するものである。
次に、送信側の送信装置120及び音声分析部600について説明する。
送信装置120は、音声認識装置360の音声認識の動作開始時に、通信プロトコル制御部351とネゴシエーションを行ない、送信装置120で適用されている通信プロトコルを伝送誤りに強い通信プロトコルに変更し、この通信プロトコルを用いて音声符号を送信するものである。
また、送信装置120は、音声分析プログラム転送部362から音声分析プログラムを受け取り、その音声分析プログラムを音声分析部600に与えて設定させるものである。
音声分析部600は、送信装置120から音声分析プログラムを受け取り、その音声分析プログラムを設定するものである。また、音声分析部600は、入力音声を取り入れ、その入力音声を、設定した音声分析プログラムに従って音声分析し、音響特徴パラメータXfiを生成するものである。そして、音声分析部600は、生成した音響特徴パラメータXfiを送信装置120に与えるものである。
ここで、送信装置120の構成の説明に戻る。送信装置120は、符号化部122及び誤り訂正符号生成部123を少なくとも有する入力音響パラメータ通信符号生成部121を備える。
符号化部122は、通信プロトコル制御部351とのネゴシエーションで変更した伝送誤りに強いプロトコルを適用して、音声分析部600から受け取った音響特徴パラメータXfiを符号化するものである。また、符号化部122は、符号化した音響特徴パラメータ符号を誤り訂正符号生成部123に与えるものである。
誤り訂正符号生成部123は、受信側で誤りを検出できるようにするために、誤り訂正符号を生成し、その生成した誤り訂正符号を、符号化部122により符号化された音響特徴パラメータ符号に挿入し、ネットワーク4に送出するものである。
なお、以下では、誤り訂正符号を含んだ音響特徴パラメータ符号を、「入力音響パラメータ通信符号」と表現して説明する。
復号装置210は、ネットワーク4から到来した入力音響パラメータ通信符号を復号して、復号した音響特徴パラメータXfiを音声認識装置360に与えるものである。
復号装置210は、図7に示すように、誤り検出部211、誤り訂正部212、復号部213を備える。
誤り検出部211は、到来した入力音響パラメータ通信符号に含まれる誤り訂正符号の情報に基づいて誤りを検出するものである。
誤り訂正部212は、誤り検出部211により誤りが検出された場合に、誤り訂正符号に基づいて、入力音響パラメータ通信符号の誤りを訂正するものである。
復号部213は、誤りが検出され誤り訂正された入力音響パラメータ通信符号又は誤りのない入力音響パラメータ通信符号を、所定の復号処理により復号して、復号した音響特徴パラメータXfiを音声認識装置360に与えるものである。
(G−2)第7の実施形態の動作
次に、第7の実施形態の音声認識システムの動作について説明する。
次に、第7の実施形態の音声認識システムの動作について説明する。
まず、音声認識装置360において音声認識の動作開始時に、通信プロトコル制御部351から、伝送誤りに強い通信プロトコルに変更するように、送信装置120とネゴシエーションを行なう。
このネゴシエーションが成立すると、送信装置120で適用していた通信プロトコルが、伝送誤りに強い通信プロトコルに変更される。
また、ネゴシエーションの成立後、音声認識装置360において取り扱われる音声分析プログラムが、音声分析プログラム転送部362から送信装置120に与えられる。
音声分析プログラム転送部362から音声分析プログラムが送信装置120に与えられると、その音声分析プログラムが、音声分析部600に与えられて、音声分析部600に設定される。
その後、発生された入力音声は、音声分析部600に与えられる。入力音声は、音声分析部600において、設定された音声分析プログラムに従って音声分析され、音響特徴パラメータXfiが算出される。
ここで、音声分析部600における音声分析方法は、第1の実施形態の音声分析部301が行なう音声分析と同様であり、フレーム周期f毎の音響特徴パラメータXfiが算出される。
音声分析部600により算出された音響特徴パラメータXfiは、送信装置120に与えられる。
送信装置120に与えられた音響特徴パラメータXfiは、符号化部122において、伝送誤りに強い通信プロトコルに応じた所定の符号化処理により符号化され、符号化された音響特徴パラメータ符号は、誤り訂正符号生成部123に与えられる。
誤り訂正符号生成部123において、受信側で誤りが検出できるようにするために誤り訂正符号が生成され、その生成された誤り訂正符号が、音響特徴パラメータ符号に挿入され、入力音響パラメータ通信符号としてネットワーク4に送出される。
ネットワーク4を介して復号装置210に到来した入力音響パラメータ通信符号は、誤り検出部211により、誤り訂正符号の情報に基づいて誤りがあるかどうか検出される。
誤り検出部211により誤りが検出された場合、誤り訂正部212により誤り訂正符号に基づいて入力音響パラメータ通信符号の誤りが訂正される。
復号部213は、入力音響パラメータ符号を復号して、復号した音響特徴パラメータ信号Xfiを音声認識装置360に与えるものである。
復号装置210からの音響特徴パラメータ信号Xfiが音声認識装置360に与えられると、マッチング部361により、音響特徴パラメータ信号Xfiの時間変化から音声が発せられている区間情報fs及びfeが算出される。
また、マッチング部361において、区間情報fs及びfeに基づく音響特徴パラメータXfiと、標準パターン格納部303に格納されている音声の音響特徴パラメータAfi(w)との照合がなされ、その照合結果が判定部304に与えられる。
このようにして、マッチング部361からの照合結果に基づいて、第1の実施形態と同様に、判定部304及び認識結果出力部305により認識結果wが求められ出力される。
また、音声認識装置360による音声認識動作が終了すると、通信プロトコル制御部351から、送信装置120が最初に適用していた通信プロトコルに戻すように、送信装置120とネゴシエーションがなされる。
通信プロトコル制御部351と送信装置120とのネゴシエーション成立すると、送信装置120において、通信プロトコル制御部351に要求された伝送誤りに強い通信プロトコルは、最初に送信装置120で適用されていた通信プロトコルに変更される。
(G−3)第7の実施形態の効果
以上のように、本実施形態によれば、第6の実施形態と同様の効果を奏する。また、本実施形態によれば、音声認識の動作開始時に、音声分析プログラムが、受信側から送信側に与えられ、送信側で音声分析プログラムにより入力音声を音声分析して音響特徴パラメータを算出し、その算出した音響特徴パラメータを符号化して伝送するため、伝送に係る情報量を少なくすることができる。これにより、通信パラメータの情報量を削減し、かつ、音声認識に好適な音響特徴パラメータを正確に得ることができるため、総合的な音声認識応答性能を向上させることができる。
以上のように、本実施形態によれば、第6の実施形態と同様の効果を奏する。また、本実施形態によれば、音声認識の動作開始時に、音声分析プログラムが、受信側から送信側に与えられ、送信側で音声分析プログラムにより入力音声を音声分析して音響特徴パラメータを算出し、その算出した音響特徴パラメータを符号化して伝送するため、伝送に係る情報量を少なくすることができる。これにより、通信パラメータの情報量を削減し、かつ、音声認識に好適な音響特徴パラメータを正確に得ることができるため、総合的な音声認識応答性能を向上させることができる。
(H)第8の実施形態
次に、本発明の音声認識システムの第8の実施形態について図面を参照して説明する。
次に、本発明の音声認識システムの第8の実施形態について図面を参照して説明する。
本実施形態は、音声認識の動作開始時に、送信側で適用する通信プロトコルを伝送誤りが強い通信プロトコルに変更し、送信側がこれを適用すると共に、受信側が取り扱う音声認識プログラムを送信側に送信し、送信側で入力音声を音声認識した認識結果を符号化して、受信側に送信する点が特徴である。
(H−1)第8の実施形態の構成
図8は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成である。
図8は、本実施形態の音声認識装置を受信側に備えた音声認識システムの全体構成である。
図8に示すように、本実施形態の音声認識システム8は、送信側に、送信装置130と音声認識部700とを備え、受信側に、復号装置220と音声認識装置370とを備える。
本実施形態が、第7の実施形態となる点は、音声認識装置370の構成と、送信側の構成である。
音声認識装置370は、少なくとも、認識結果出力部305、通信プロトコル制御部351、音声認識プログラム転送部371を備える。
また、図7の音声認識装置360は、第1の実施形態の音声分析部301、マッチング部302、標準パターン格納部303、判定部304を有していないように示すが、これは説明便宜上ここでは表示しないものであり、本来は、音声認識プログラムの1機能として備える。
なお、第1の実施形態と対応する構成については対応する符号を付し、これら対応する構成の詳細な機能説明は省略する。
音声認識プログラム転送部371は、通信プロトコル制御部351によるネゴシエーションの成立後、音声認識装置370が取り扱う音声分析プログラムを送信装置130に与えるものである。
次に、送信側の送信装置130及び音声認識部700について説明する。
送信装置130は、通信プロトコル制御部351とネゴシエーションが成立後、音声認識プログラム転送部371から音声認識プログラムを受け取り、その音声認識プログラムを音声認識部700に与えて設定させるものである。
音声認識部700は、送信装置130から音声認識プログラムを受け取り、その音声認識プログラムを設定するものである。また、音声認識部700は、入力音声を取り入れ、その入力音声を、設定した音声認識プログラムに従って音声認識を行ない認識結果wを割り出し、その認識結果wを送信装置130に与えるものである。
なお、音声認識部700は、音声認識装置370が取り扱う音声認識プログラムに従って音声認識行なうので、音声認識部700が行なう音声認識の動作についての詳細な説明は省略する。
ここで、送信装置130の構成の説明に戻る。送信装置130は、符号化部132及び誤り訂正符号生成部133を少なくとも有する入力音声認識結果通信符号生成部131を備える。
符号化部132は、通信プロトコル制御部351とのネゴシエーションで変更した伝送誤りに強いプロトコルを適用して、音声認識部700から受け取った認識結果wを符号化するものである。
誤り訂正符号生成部133は、受信側で誤りを検出できるようにするために、誤り訂正符号を生成し、その生成した誤り訂正符号を、符号化部132により符号化された認識結果符号に挿入し、ネットワーク4に送出するものである。
なお、以下では、誤り訂正符号を含んだ認識結果符号を、「入力音声認識結果通信符号」と表現して説明する。
これにより、送信装置130は、認識結果wを符号化して送出するため、非常に情報量が少ない通信データを送出することができる。
復号装置220は、ネットワーク4から到来した入力音声認識結果通信符号を復号して、復号した音声認識結果信号を音声認識装置370に与えるものである。
これにより、復号装置220は、復号処理により認識結果wを音声認識装置370に与えることができる。なお、復号装置220の復号処理についての詳細な説明は省略する。
(H−2)第8の実施形態の動作
次に、第8の実施形態の音声認識システムの動作について説明する。
次に、第8の実施形態の音声認識システムの動作について説明する。
まず、音声認識装置370において音声認識の動作開始時に、通信プロトコル制御部351と送信装置130との間で通信プロトコルのネゴシエーションが行なわれる。
このネゴシエーションの成立後、音声認識装置370において取り扱われる音声認識プログラムが、音声認識プログラム転送部371から送信装置130に与えられる。
音声認識プログラム転送部371から音声認識プログラムが送信装置130に与えられると、その音声認識プログラムが、音声認識部700に与えられて、音声認識部700に設定される。
その後、発生された入力音声は、音声認識部700に与えられる。入力音声は、音声認識部700において、設定された音声認識プログラムに従って音声認識が行なわれ、認識結果wが求められる。
ここで、音声認識部700における音声認識の動作は、第1の実施形態の音声認識装置300が行なう音声認識の動作と同様である。
音声認識部700により求められた認識結果wは、送信装置130に与えられる。
送信装置130に与えられた認識結果wは、符号化部132により符号化されると共に、誤り訂正符号生成部133により生成された誤り訂正符号が付与され、入力音声認識結果通信符号としてネットワーク4に送出される。
ネットワーク4を介して復号装置220に到来した入力音声認識結果通信符号は、復号装置220において復号処理が行なわれ、復号された認識結果wが音声認識結果信号として音声認識装置370に与えられる。
そして、音声認識装置370に与えられた音声認識結果信号は、認識結果wとして出力される。
また、音声認識装置370から認識結果wが出力され音声認識動作が終了すると、通信プロトコル制御部351から、送信装置130が最初に適用していた通信プロトコルに戻すように、送信装置130とネゴシエーションが行なわれ、送信装置130において、最初に送信装置130で適用されていた通信プロトコルに変更される。
(H−3)第8の実施形態の効果
以上、本実施形態によれば、第1及び第7の実施形態と同様の効果を奏する。
以上、本実施形態によれば、第1及び第7の実施形態と同様の効果を奏する。
また、本実施形態によれば、送信側が、音声認識プログラムに従って入力音声を音声認識した認識結果を符号化して送出するので、通信データの情報量を激減させることができる。
(I)第9の実施形態
次に、本発明の音声認識システムの第9の実施形態について図面を参照して説明する。
次に、本発明の音声認識システムの第9の実施形態について図面を参照して説明する。
(I−1)第9の実施形態の構成
図9は、本実施形態の音声認識装置を少なくとも受信側に備えた音声認識システムの全体構成である。
図9は、本実施形態の音声認識装置を少なくとも受信側に備えた音声認識システムの全体構成である。
図9に示すように、本実施形態の音声認識システム9は、送信側に、送信装置140、音声入力サービス部800、音声認識部700を備え、受信側に、復号装置230、音声認識装置380を備える。
本実施形態が第1及び第8の実施形態のと異なる点は、音声認識装置380の構成と送信側の構成である。
なお、図9では、第1及び第8の実施形態と対応する構成については、図1及び図8に対応する符号を付し、これら対応する構成についての詳細な説明は省略する。
音声認識装置380は、通信プロトコル制御部351、音声入力サービスプログラム転送部381を少なくとも備える。
なお、図9の音声認識装置380は、第1の実施形態の音声認識の機能については表示しないが、これは説明便宜上のためここでは表示しないものであり、本来、音声認識装置380は、音声認識の機能を備える。
音声入力サービスプログラム転送部381は、通信プロトコル制御部351と送信装置140との間の通信プロトコルに関するネゴシエーションの成立後、音声認識装置380が取り扱う音声入力サービスプログラムを、ネットワーク4を介して送信装置140に与えるものである。
ここで、音声入力サービスの一例として、項目に対する値を、音声認識処理を通じて取得し、文字列として格納するサービスを示す。例えば、住所=“東京都千代田区あ−1”、氏名=“山田太郎”、年齢=“35”、性別=“男性”、依頼項目=“1”のような一連の情報を入力する場合では、先ずは「住所」項目に対して、「ご自分の住所をおっしゃって下さい」などのガイダンスに従って住所を発声し、認識結果として“東京都千代田区あ−1”を得た場合、住所項目に“東京都千代田区あ−1”をセットする。以下同様に、「氏名」項目に対する認識結果“山田太郎”、「年齢」項目に対する認識結果“35”を順々にセットする。これらの項目に対する値をまとめたものを音声入力サービス情報と呼ぶ。
もちろん、項目指定の順序は適宜入れ替えてもよいし、さらには、“年齢は35歳”なる発声から、項目の同定(「年齢」)とその値(「35」)の設定する方法など、さまざまな情報取得方法が考えられるが、ここではそのような入力の個別手順や処理等を含んだ一連の手続を音声入力サービスと呼び、このような動作を実行するプログラムを音声入力サービスプログラムと呼ぶ。
次に、送信側について説明する。送信装置140は、通信プロトコル制御部351とネゴシエーションが成立後、音声入力サービスプログラム転送部381から音声入力サービスプログラムを受け取り、その音声入力サービスプログラムを音声入力サービス部800及び音声認識部700に与えて設定させるものである。
音声認識部700は、送信装置140から音声入力サービスプログラムを受け取り、その音声入力サービスプログラムに含まれている音声認識プログラムを設定するものである。
また、音声認識部700は、入力音声を取り入れ、その入力音声を、設定した音声認識プログラムに従って音声認識を行ない認識結果wを割り出し、その認識結果wを音声入力サービス部800に与えるものである。
なお、音声認識部700は、音声認識装置370が取り扱う音声認識プログラムに従って音声認識を行なうので、音声認識部700が行なう音声認識の動作についての詳細な説明は省略する。
音声入力サービス部800は、送信装置140から音声入力サービスプログラムを設定し、この音声入力サービスプログラムに従って、発声者により、音声認識部700からの認識結果wの確認や複数の所定の音声入力サービスを反映させ、それにより変換した音声入力サービス情報を送信装置140に与えるものである。
ここで、送信装置140の構成の説明に戻る。送信装置140は、符号化部142及び誤り訂正符号生成部143を少なくとも有する音声入力サービス通信符号生成部141を備える。
符号化部142は、通信プロトコル制御部351とのネゴシエーションで変更した伝送誤りに強いプロトコルを適用して、音声入力サービス部800から受け取った音声入力サービス情報を符号化するものである。
誤り訂正符号生成部143は、受信側で誤りを検出できるようにするために、誤り訂正符号を生成し、その生成した誤り訂正符号を、符号化部142により符号化された音声入力サービス情報に挿入し、ネットワーク4に送出するものである。
なお、以下では、誤り訂正符号を含む符号化された音声入力サービス情報を、「音声入力サービス通信符号」と表現して説明する。
これにより、送信装置140は、音声入力サービス情報を符号化して送出するため、非常に情報量が少ない通信データを送出することができる。
復号装置230は、ネットワーク4から到来した音声入力サービス通信符号を復号して、復号した音声入力サービス信号を音声認識装置380に与えるものである。
これにより、復号装置230は、復号処理により音声入力サービス情報を音声認識装置380に与えることができる。なお、復号装置230の復号処理についての詳細な説明は省略する。
(I−2)第9の実施形態の動作
次に、第9の実施形態の音声認識システムの動作について説明する。
次に、第9の実施形態の音声認識システムの動作について説明する。
まず、音声認識装置380において音声認識の動作開始時に、通信プロトコル制御部351と送信装置140との間で通信プロトコルのネゴシエーションが行なわれる。
このネゴシエーションの成立後、音声認識装置380において取り扱われる音声認識プログラムを含む音声入力サービスプログラムが、音声入力サービスプログラム転送部381から送信装置140に与えられる。
音声入力サービスプログラム転送部381から音声入力サービスプログラムが送信装置140に与えられると、その音声入力サービスプログラムが、音声サービス部800及び音声認識部700に与えられて、音声入力サービス部800及び音声認識部700に設定される。
その後、発生された入力音声は、音声認識部700に与えられる。入力音声は、音声認識部700において、設定された音声入力サービスプログラムに含まれる音声認識プログラムに従って音声認識が行なわれ、認識結果wが求められる。
ここで、音声認識部700における音声認識の動作は、第1の実施形態の音声認識装置300が行なう音声認識の動作と同様である。
音声認識部700により求められた認識結果wは、音声入力サービス部800に与えられる。
音声入力サービス部800において、認識結果wは、発声者により、認識結果が正しいものであるかどうかの認識や所定の1又は複数の音声入力サービスの入力がなされ、これらの入力項目を反映させた音声入力サービス情報に変換される。
また、音声入力サービス部800から音声入力サービス情報が、送信装置140に与えられる。
送信装置140に与えられた音声入力サービス情報は、符号化部142により符号化されると共に、誤り訂正符号生成部143により生成された誤り訂正符号が付与され、音声入力サービス通信符号としてネットワーク4に送出される。
ネットワーク4を介して復号装置230に到来した音声入力サービス通信符号は、復号装置230において復号処理が行なわれ、復号された音声入力サービス情報が音声入力サービス信号として音声認識装置380に与えられる。
そして、音声認識装置380に与えられた音声入力サービス情報が、入力サービス結果として出力される。
また、音声認識装置380における音声認識動作が終了すると、通信プロトコル制御部351から、送信装置140が最初に適用していた通信プロトコルに戻すように、送信装置140とネゴシエーションが行なわれ、送信装置140において、最初に送信装置140で適用されていた通信プロトコルに変更される。
(I−3)第9の実施形態の効果
以上のように、本実施形態によれば、第1及び第8の実施形態と同様の効果を奏する。
以上のように、本実施形態によれば、第1及び第8の実施形態と同様の効果を奏する。
また、本実施形態によれば、送信側が、音声入力サービスプログラムに従って音声認識により得られた認識結果の確認や所定の音声入力サービスが反映されて得た音声入力サービス情報を符号化して送出するので、通信データの情報量を更に減少させることができる。
(J)第10の実施形態
次に、本発明の音声認識システムの第10の実施形態について図面を参照して説明する。
次に、本発明の音声認識システムの第10の実施形態について図面を参照して説明する。
(J−1)第10の実施形態の構成
図10は、本実施形態の音声認識装置を少なくとも受信側に備えた音声認識システムの全体構成である。
図10は、本実施形態の音声認識装置を少なくとも受信側に備えた音声認識システムの全体構成である。
図10に示すように、本実施形態の音声認識システム10は、送信側に、送信装置150、音声入力サービス部800、音声認識部700を備え、受信側に、復号装置230、音声認識装置390を備える。
なお、図10は、第1及び第9の実施形態と対応する構成については対応する符号を付し、これら対応する構成の詳細な機能説明は省略する。
本実施形態が、上述した第1及び第9の実施形態と異なる点は、送信装置150が話者適応情報送信部151を備える点と、音声認識装置390が話者適応制御部391を備える点である。
送信装置150は、話者適応情報送信部151、音声入力サービス通信符号生成部141を少なくとも備えるものである。
話者適応情報送信部151は、音声認識装置390の音声認識の動作が完了した後、音声認識動作の結果、発生者の声質に適応した認識精度を向上させるための話者適応情報(発声者声質情報)を、ネットワーク4を介して音声認識装置390に与えるものである。
これにより、送信装置150は、音声認識装置390に話者適応情報を記憶させることができ、次回以降の音声認識の動作時に、特定の発声者の声質に適応した認識精度が高い認識結果を出力させることができる。
音声認識装置370は、少なくとも、話者適応制御部391、通信プロトコル制御部351、音声入力サービスプログラム転送部381を備える。
また、図10の音声認識装置390は、音声認識の機能について表示していないが、これは説明便宜上のためここでは表示しないものであり、本来、音声認識装置390は音声認識の機能を備える。
話者適応制御部391は、音声認識装置390の音声認識の動作が完了した後、送信装置150からネットワーク4を介して話者適応情報を受信し、その話者適応情報を記憶するものである。また、話者適応制御部391は、話者適応情報に基づいて、次回以降の音声認識の動作において、特定発声者の声質に適応した認識結果を求めるものである。
例えば、話者適応制御部391は、送信装置150から話者適応情報(発声者声質情報)を受信し、その話者適応情報と送信装置150の特定情報(例えば、電話番号情報や有料サービスの場合の会員番号(会員ID等))と対応付けて記憶する。
そして、次回の音声伝送がなされた場合、送信装置150の特定情報に基づいて話者適応情報を取り出し、音声認識装置390に入力した音声に、話者適応情報に基づく特定発声者の声質に適応させることで、発声者の声質に適応した認識精度の高い認識結果を入力サービス結果として出力することができる。
(J−2)第10の実施形態の動作
次に、本実施形態の音声認識システム10の動作について説明する。
次に、本実施形態の音声認識システム10の動作について説明する。
なお、以下では、音声認識装置390による音声認識の動作開始から、復号装置230により復号された音声入力サービス信号が音声認識装置390に与えられるまでの動作については、第9の実施形態の動作と同様であるので、ここまでの動作の詳細な説明は省略する。
音声認識装置390において、音声入力サービス動作が完了すると、送信装置200の話者適応情報送信部151から発声者の声質を表す話者適応情報が、ネットワーク4を介して音声認識装置390に与えられる。
話者適応情報が、音声認識装置390に与えられると、話者適応制御部391に記憶される。
これにより、次回以降同じ発声者による音声が入力した場合に、音声認識装置390の音声入力サービスプログラム中に埋め込まれた音声の音響パラメータAfi(w)を発声者の声質に適応させたものを併せたものを使用することができる。
また、音声認識装置390における音声認識動作が終了すると、通信プロトコル制御部351から、送信装置150が最初に適用していた通信プロトコルに戻すように、送信装置150とネゴシエーションが行なわれ、送信装置150において、最初に送信装置150で適用されていた通信プロトコルに変更される。
(J−3)第10の実施形態の効果
以上、本実施形態によれば、第1及び第9の実施形態の効果と同様の効果を素する。
以上、本実施形態によれば、第1及び第9の実施形態の効果と同様の効果を素する。
また、本実施形態によれば、話者の声質情報を音声認識装置390に与えることで、次回以降の音声入力サービスで、音声入力サービス開始以前に発声者を確認できた場合、予め音声の音響特徴パラメータAfi(w)を発声者の声質に適応されたものを合わせたものを使用することができる。これにより、音声精度を向上させることができる。
さらに、通信パラメータの情報量を無視できるレベルまで激減させることができるため、1個の音声認識装置390で同時に複数の通信回線からの音声入力サービスに対応できるようになる。
(K)他の実施形態
(K−1)上述した第1〜第10の実施形態では音声認識システムに適用した場合について説明したが、その他の音声認識システムや音声を使った本人確認システムにも適用することができる。
(K−1)上述した第1〜第10の実施形態では音声認識システムに適用した場合について説明したが、その他の音声認識システムや音声を使った本人確認システムにも適用することができる。
(K−2)また、上述した第1〜第10の実施形態は、音声符号化信号に伝送誤りが生じた場合について説明したが、音声符号化信号の欠落に対しても適用することができる。
(K−3)上述した第1〜第10の実施形態では、音声認識システムの送信側及び受信側の特徴的な構成要件の機能が明確になるように分説したが、音声認識システムの送信側及び受信側の構成は、第1〜第10の実施形態で説明した各構成要件の機能をそれぞれ組み合せて備えるようにしてもよい。
1〜10…音声認識システム、
100、110、120、130、140及び150…送信装置、
200、210、220及び230…復号装置、
300、310、330、340、350、360、370、380及び390…音声認識装置、
4…ネットワーク、306…音声応答装置、307…音声符号化装置、
500…フレームマスキング装置、600…音声分析部、700…音声認識部、
800…音声入力サービス部。
100、110、120、130、140及び150…送信装置、
200、210、220及び230…復号装置、
300、310、330、340、350、360、370、380及び390…音声認識装置、
4…ネットワーク、306…音声応答装置、307…音声符号化装置、
500…フレームマスキング装置、600…音声分析部、700…音声認識部、
800…音声入力サービス部。
Claims (12)
- 送信装置により符号化された音声符号化信号を伝送路を介して受信し、上記音声符号化信号を復号する復号装置と、上記復号装置により復号された音声復号信号に基づいて音声を認識する音声認識装置とを備える音声認識システムであって、
上記復号装置は、上記音声符号化信号に生じた伝送誤りを訂正できない場合に、誤り情報を出力する誤り情報出力手段を有し、
上記音声認識装置は、上記誤り情報出力手段から上記誤り情報を受信した場合、上記音声符号化信号に基づく音声認識を行なわないように制限する音声認識制限手段を有する
ことを特徴とする音声認識システム。 - 上記音声認識装置は、上記送信装置との間の伝送品質に対応し得る通信プロトコルに変更することを上記送信装置に要求する通信プロトコル変更要求手段を備えることを特徴とする請求項1に記載の音声認識システム。
- 上記通信プロトコル変更要求手段は、上記誤り情報出力手段からの上記誤り情報を受信した後に、上記伝送品質に対応し得る通信プロトコルへの変更要求を行なうことを特徴とする請求項2に記載の音声認識システム。
- 上記通信プロトコル変更要求手段は、上記音声符号化信号の音声認識の動作開示時に、上記伝送品質に対応し得る通信プロトコルへの変更要求を行なうことを特徴とする請求項2に記載の音声認識システム。
- 上記音声認識装置は、上記誤り情報出力手段から上記誤り情報を受信した場合、当該伝送誤りが生じた音声符号化信号を再送することを要求する再送要求手段を備えることを特徴とする請求項1〜4のいずれかに記載の音声認識システム。
- 上記再送要求手段は、
再発声を要求する応答音声を有する応答音声部と、
上記応答音声部の上記応答音声を符号化して上記送信装置に通信する通信部と
を有することを特徴とする請求項5に記載の音声認識システム。 - 上記誤り情報出力手段から上記誤り情報を受信し場合、当該伝送誤りが生じた上記音声符号化信号のフレームに対して、フレームマスキング処理を行なうフレームマスキング処理手段を備え、
上記音声認識装置が、上記フレームマスキング処理手段により処理されたフレームの局所類似度に重みを付与する重み付与手段を備える
ことを特徴とする請求項1〜6のいずれかに記載の音声認識システム。 - 送信装置により符号化された符号化データを伝送路を介して受信し、上記符号化データを復号する復号装置と、上記復号装置により復号された復号データに基づいて音声を認識する音声認識装置とを備える音声認識システムであって、
上記音声認識装置は、該音声認識装置が有する音声認識に係る処理プログラムを、上記送信装置に転送するプログラム転送手段を備え、
上記送信装置が、
上記プログラム転送手段からの上記処理プログラムを設定する処理プログラム設定手段と、
上記処理プログラム設定手段の上記処理プログラムに従って、入力音声信号に対する処理を実行する処理実行手段と、
上記処理実行手段による処理結果を符号化した符号化データを送信する送信手段と
を備える
ことを特徴とする音声認識システム。 - 上記送信装置は、発声者の話者適応情報を送信する話者適応情報送信手段を備え、
上記音声認識装置は、
今回の音声認識の動作後に、上記話者適応情報送信手段からの上記話者適応情報を上記送信装置の識別情報と対応付けて格納する話者適応情報格納手段と、
上記送信装置から次回以降に伝送されてきた符号化データに、上記送信装置の識別情報に対応する上記話者適応情報を適応する話者適応手段と
を備える
ことを特徴とする請求項8に記載の音声認識システム。 - 上記処理プログラムが、入力音声信号に基づいて音響特徴パラメータを分析する音声分析プログラムであることを特徴とする請求項8又は9に記載の音声認識システム
- 上記処理プログラムが、入力音声信号に基づいて音声認識した認識結果を求める音声認識プログラムであることを特徴とする請求項8又は9に記載の音声認識システム。
- 上記処理プログラムが、予め定められた入力識別番号に対する内容の認識結果を求める音声入力サービスプログラムであることを特徴とする請求項8又は9に記載の音声認識システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003413267A JP2005173215A (ja) | 2003-12-11 | 2003-12-11 | 音声認識システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003413267A JP2005173215A (ja) | 2003-12-11 | 2003-12-11 | 音声認識システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005173215A true JP2005173215A (ja) | 2005-06-30 |
Family
ID=34733448
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003413267A Pending JP2005173215A (ja) | 2003-12-11 | 2003-12-11 | 音声認識システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005173215A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5376072B1 (ja) * | 2013-01-09 | 2013-12-25 | 日本電気株式会社 | 車載情報システムおよび音声認識適応方法 |
-
2003
- 2003-12-11 JP JP2003413267A patent/JP2005173215A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5376072B1 (ja) * | 2013-01-09 | 2013-12-25 | 日本電気株式会社 | 車載情報システムおよび音声認識適応方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8320391B2 (en) | Acoustic signal packet communication method, transmission method, reception method, and device and program thereof | |
US8509931B2 (en) | Progressive encoding of audio | |
JP5613335B2 (ja) | 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置 | |
JP4567290B2 (ja) | 音響特性ベクトル変形を使用する分散型音声認識システム | |
US7752036B2 (en) | Timing of speech recognition over lossy transmission systems | |
JP4922455B2 (ja) | パケット・ネットワークでエコーを検出し、抑制する方法および装置 | |
JPWO2006025313A1 (ja) | 音声符号化装置、音声復号化装置、通信装置及び音声符号化方法 | |
JP2000187496A (ja) | デジタル無線チャネル上の自動音声/話者認識 | |
US10733996B2 (en) | User authentication | |
JP5852140B2 (ja) | ウォーターマーク入り信号を符号化し復号するためのデバイス | |
Tan et al. | Automatic speech recognition over error-prone wireless networks | |
JP5012897B2 (ja) | 音声パケット受信装置、音声パケット受信方法、およびプログラム | |
US7478046B2 (en) | Server-client type speech recognition apparatus and method | |
JP2005173215A (ja) | 音声認識システム | |
JP2002530931A (ja) | 分散音声認識プロセスにおける受信データの処理方法および装置 | |
JP2005091749A (ja) | 音源信号符号化装置、及び音源信号符号化方法 | |
JP2004069963A (ja) | 音声符号変換装置及び音声符号化装置 | |
JP6556473B2 (ja) | 送信装置、音声認識システム、送信方法、およびプログラム | |
JP2001142488A (ja) | 音声認識通信システム | |
JP4769121B2 (ja) | サーバ・クライアント型音声認識方法、装置およびサーバ・クライアント型音声認識プログラム、記録媒体 | |
US20030220794A1 (en) | Speech processing system | |
WO2010103855A1 (ja) | 音声復号装置及び音声復号方法 | |
JP5135001B2 (ja) | 無線通信装置、無線通信方法および無線通信システム | |
JP2007072264A (ja) | 音声量子化方法、音声量子化装置、プログラム | |
JP2002252644A (ja) | 音声パケット通信装置及び音声パケット通信方法 |