JP2003005949A

JP2003005949A - サーバ・クライアント型音声認識装置及び方法

Info

Publication number: JP2003005949A
Application number: JP2001186926A
Authority: JP
Inventors: Eiko Yamada; 栄子山田; Hiroshi Hagane; 広羽金; Kazunaga Yoshida; 和永吉田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-06-20
Filing date: 2001-06-20
Publication date: 2003-01-10
Anticipated expiration: 2021-06-20
Also published as: EP1411499B1; US7478046B2; US20040243414A1; EP1926088A2; JP3885523B2; EP1411499A4; DE60229392D1; EP1411499A1; EP1926088A3; WO2003001511A1

Abstract

(57)【要約】【課題】送信時間の短縮、コストの低減を図る音声認識
装置の提供。【解決手段】端末側の装置が、入力されたデータの音声
区間を検出する音声検出部１０と、音声検出部１０で検
出された音声区間の波形データを圧縮する波形圧縮部２
０と、波形圧縮部２０で圧縮された波形データを出力す
る波形送信部３０と、を備え、前記サーバ側の装置が、
端末側の装置から出力された波形データを受信する波形
受信部１１０と、波形受信部１１０で受信された波形デ
ータを伸張する波形伸張部１２０と、波形伸張部１２０
で伸張された波形データを分析する分析部１３０と、認
識処理を行い、認識した結果を出力する認識部１４０
と、を備えている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識技術に関
し、特に、携帯電話等の端末（クライアント）側で音声
検出を行い、サーバ側で音声分析、認識を行うサーバ・
クライアント型の音声認識装置と方法に関する。

【０００２】

【従来の技術】従来より、端末側（クライアント側）で
音声検出を行い、検出後の波形データをサーバ側へ送信
し、サーバ側にて分析、認識処理を行うサーバ・クライ
アント型音声認識装置として、Dialogic CSP(Continuou
s Speech Processing)を用いた音声認識装置が知られて
いる。

【０００３】また、端末側で音声検出を行い、検出後の
波形データを圧縮し、圧縮した波形データをサーバ側へ
送信する方式としてVoIP(Voiceover Internet Protoco
l)が知られており、文献１（Nikkei Internet Technolo
gy, pp.75〜93, May 1998）に詳しく述べられている。
またVoIPで送信された波形データを伸張し、再度認識用
の音声検出を行い、検出後の波形データを分析、認識処
理を行うサーバ・クライアント型音声認識装置も知られ
ている。

【０００４】また、近年、３ＧＰＰ（Third Generation
Partnership Project）のワークグループの１つである
ETSI(the European Telecommunications Standards Ins
titute)-STQ Aurora DSR(Distributed Speech Recognit
ion) Working Groupが進めている標準化プロジェクトに
おいて、端末側で音声検出、分析を行い、分析後のパラ
メータ（特徴ベクトル）をサーバ側に送信し、サーバ側
で音声認識を行うサーバ・クライアント型音声認識装置
が提案されている。

【０００５】従来のサーバ・クライアント型音声認識装
置に用いられているDialogic CSPでは、端末側で検出さ
れた波形データを圧縮せずそのままサーバへ送信してい
るため、送信時の時間、コストを多く必要とする、とい
う問題点を有している。

【０００６】また、VoIPを応用した方式では、端末側で
伸張し音声検出を行ったデータに対し、サーバ側で認識
用の音声検出を再度行っているため、重複した音声検出
処理が無駄な処理となっている。更に、音声認識用の音
声検出をサーバ側で行っていることから、サーバ側で短
い音声について音声の始端検出がキャンセルされた場合
に、端末側で音声検出キャンセル情報を受信するのが遅
れ、それによってアプリの動作に遅延が生じるという、
という問題点を有している。

【０００７】また、ETSI-STQ Aurora DSR Working Grou
pが進めているサーバ・クライアント型音声認識装置の
枠組みについては、分析後のパラメータが予め決められ
ているため、独自仕様のパラメータを使用できないとい
う欠点や、分析部が端末側に設定されているため、新規
の分析手法を端末側に搭載するためのコスト、時間を多
く必要とするという、という問題点を有している。

【０００８】

【発明が解決しようとする課題】端末側（クライアント
側）で音声検出を行い、検出後の波形データをサーバ側
へ送信し、サーバ側にて分析、認識処理を行う構成の従
来のサーバ・クライアント型音声認識装置は、端末側で
検出された波形データを圧縮することなく、そのままサ
ーバへ送信しているため、送信時の時間、コストを多く
必要とするという、問題点を有している。

【０００９】また、端末側で音声検出を行い、検出後の
波形データを圧縮し、圧縮した波形データをサーバ側へ
送信し、サーバ側にて波形データを伸張し、再度、認識
用の音声検出を行い、検出後の波形データを分析、認識
処理を行う構成の従来のサーバ・クライアント型音声認
識装置は、端末側で伸張し音声検出を行ったデータに対
し、サーバ側で認識用の音声検出を再度行っているた
め、重複した音声検出処理が無駄な処理となっている、
という問題点を有している。

【００１０】また、端末側で入力された音声データの音
声検出、分析を行い、分析後のパラメータをサーバへ送
信し、サーバ側では送信された分析後のパラメータを用
い音声認識を行う構成の従来のサーバ・クライアント型
音声認識装置は、認識時に用いるパラメータが決められ
ているため独自仕様のパラメータを用いることができな
いという問題点や、新規の分析手法を端末に搭載するた
めのコスト、時間を多く必要とする、という問題点を有
している。

【００１１】したがって、本発明が解決しようとする主
たる課題は、送信時間の短縮、コストの低減を図る音声
認識装置及び方法を提供することにある。

【００１２】

【課題を解決するための手段】上記課題を解決するため
の手段を提供する本発明は、その第１のアスペクトにお
いて、入力されたデータの音声区間を検出する音声検出
部と、前記音声検出部で検出された音声区間の波形デー
タを圧縮する波形圧縮部と、前記波形圧縮部で圧縮され
た波形データを出力する波形送信部とを有して構成され
る端末側（クライアント側）の装置と、前記端末側の装
置から出力された波形データを受信する波形受信部と、
前記波形受信部で受信された波形データを伸張する波形
伸張部と、前記波形伸張部で伸張された波形データを用
いて認識処理を行い、認識した結果を出力する認識部と
を有して構成されるサーバ側の装置とを備えている。

【００１３】本発明は、第２のアスペクトにおいて、前
記波形圧縮部で圧縮された波形データを一時記憶しなが
らその波形データを波形送信部へ送信すると共に、入力
された波形データとサーバ側から送信された波形データ
再送要求信号を受信する波形・信号受信部においてサー
バ側からの波形データ再送要求信号が受信された場合
に、記憶された波形データを波形送信部へ送信する波形
記憶部を有する構成としてもよい。

【００１４】本発明は、第３のアスペクトにおいて、サ
ーバ側装置において、端末側装置から出力された波形デ
ータと始端キャンセル信号を受信する波形・信号受信部
を備え、認識部では、前記波形・信号受信部で始端キャ
ンセル信号を受信した場合に認識処理を中止する構成と
してもよい。

【００１５】本発明は、第４のアスペクトにおいて、合
成音を合成する音声合成部と、前記音声合成部で合成さ
れた合成音の情報を作成し、合成音を出力する合成音情
報作成部と、前記音声検出部で検出された音声区間の波
形データを圧縮し、前記合成音情報作成部で作成された
合成音情報を前記波形データの一部に組み込む波形圧縮
部とを有する端末側の装置と、前記波形伸張部で伸張さ
れたデータから合成音情報を取得する合成音情報取得部
と、認識が終了した場合に前記合成音情報取得部で取得
された合成音情報より合成音と認識結果との対応付けを
行い、対応付けされた認識結果、又は認識結果と合成音
情報を出力する認識部とを有するサーバ側の装置とを備
えている。

【００１６】本発明は、第５のアスペクトにおいて、入
力された波形データと、サーバ側から送信された波形デ
ータ再送要求信号とサーバ側から送信されたサーバ側で
利用可能な圧縮方式情報を受信する波形・信号・圧縮方
式受信部と、前記波形・信号・圧縮方式受信部において
サーバ側で利用可能な圧縮方式情報を受信した場合に、
前記波形・信号・圧縮方式受信部から送られた圧縮方式
情報より最適な圧縮方式を選択する圧縮方式選択部と、
前記圧縮方式選択部で選択された圧縮方式のインデック
スを作成する圧縮方式インデックス作成部と、前記音声
検出部で検出された音声区間の波形データを圧縮し、前
記合成音情報作成部で作成された合成音情報と、前記圧
縮方式インデックス作成部で作成された圧縮方式インデ
ックスを波形データの一部に組み込む波形圧縮部とを有
する端末側装置と、前記端末側の装置から送信された波
形データと、圧縮方式要求信号を受信する波形・信号受
信部と、サーバ側で利用可能な圧縮方式を記憶する圧縮
方式記憶部と、前記波形・信号受信部から圧縮方式要求
信号が送られた場合に前記圧縮方式記憶部に記憶されて
いる圧縮方式を取得し、端末側装置に圧縮方式情報を出
力する圧縮方式取得部と、前記波形伸張部で伸張された
データから圧縮方式のインデックスを取得する圧縮方式
インデックス取得部と、前記圧縮方式インデックス取得
部で取得された圧縮方式のインデックスから認識エンジ
ンを選択する認識エンジン選択部と、前記認識エンジン
選択部で選択されたエンジンを記憶されているエンジン
の中から設定する認識エンジン設定部とを有するサーバ
側の装置とを備えている。

【００１７】本発明は、第６のアスペクトにおいて、サ
ーバ側装置において、端末側の装置から送信された波形
データと始端キャンセル信号と圧縮方式要求信号とコン
テンツ側から送信されたタスク情報とを受信する波形・
信号・タスク情報受信部と、前記波形・信号・タスク情
報受信部で受信されたタスク情報を記憶するタスク情報
記憶部と、タスク情報とそのタスク使用時に利用可能な
１個以上の圧縮方式を記憶する圧縮方式・タスク情報対
応テーブル記憶部と、前記波形・信号・タスク情報受信
部において圧縮方式要求信号を受信した場合に、前記タ
スク情報記憶部から送られたタスク情報と前記圧縮方式
・タスク情報対応テーブル記憶部から送られたタスク情
報と圧縮方式との対応テーブルより利用可能な圧縮方式
情報を取得し端末側装置に出力する圧縮方式取得部とを
備えている。

【００１８】本発明は、第７のアスペクトにおいて、端
末側装置において、入力された波形データと、コンテン
ツ側から送信されたタスク情報とサーバ側から送信され
た波形データ再送要求信号とサーバ側から送信されたサ
ーバ側で利用可能な圧縮方式情報とを受信する波形・信
号・圧縮方式・タスク情報受信部と、前記波形・信号・
圧縮方式・タスク情報受信部で受信されたタスク情報を
記憶するタスク情報記憶部と、タスク情報とそのタスク
使用時に利用可能な１個以上の圧縮方式の対応テーブル
を記憶する圧縮方式・タスク情報対応テーブル記憶部
と、前記波形・信号・圧縮方式・タスク情報受信部にお
いてサーバ側で利用可能な圧縮方式情報を受信した場合
に、前記タスク情報記憶部から送られたタスク情報と、
前記圧縮方式・タスク対応テーブル記憶部から送られた
タスク情報と圧縮方式との対応テーブルと、前記波形・
信号・圧縮方式・タスク情報受信部から送られたサーバ
側で利用可能な圧縮方式情報をもとに最適な圧縮方式を
選択する圧縮方式選択部とを備えている。

【００１９】

【発明の実施の形態】発明の実施の形態について説明す
る。前述した従来の技術の問題点を解決し、上記した課
題を解決する本発明は、サーバと端末よりなるサーバ・
クライアント型音声認識装置よりなり、端末側で認識用
の音声検出を行い、検出後の波形データを圧縮し、圧縮
後の波形データをサーバ側に送信し、サーバ側で音声伸
張、分析、認識を行うものである。

【００２０】［第１の実施の形態］本発明の第１の実施
の形態に係る音声認識装置は、図１を参照すると、端末
（クライアント端末）は、入力されたデータの音声区間
を検出する音声検出部（１０）と、音声検出部（１０）
で検出された音声区間の波形データを圧縮する波形圧縮
部（２０）と、波形圧縮部（２０）で圧縮された波形デ
ータを出力する波形送信部（３０）と、を備え、サーバ
側が、端末から出力された波形データを受信する波形受
信部（１１０）と、波形受信部（１１０）で受信された
波形データを伸張する波形伸張部（１２０）と、波形伸
張部（１２０）で伸張された波形データを用いて音声の
分析を行う分析部（１３０）と、分析部（１３０）での
分析結果（特徴量）と標準パターン記憶部（１５０）に
基づき認識処理を行い、認識した結果を出力する認識部
（１４０）と、を備えている。この実施の形態では、音
声検出後の圧縮された波形データをサーバに送信し、サ
ーバ側で音声分析、認識を行うため、分析後のパラメー
タ（特徴ベクトル）の仕様を自由に設定することが可能
である。

【００２１】また、分析部（１３０）、認識部（１４
０）をサーバ側に備えているため、新規の分析手法、認
識手法を搭載するためのコストと時間が少なくて済むと
いう利点を持つ。

【００２２】また、送信する波形データは圧縮後のデー
タであるため、送信時に必要とする時間、コストが少な
くて済むという利点も併せ持つ。

【００２３】上記第１の実施の形態に対応した、音声認
識方法は、端末側装置において、入力されたデータの音
声区間を検出するステップと、前記検出された音声区間
の波形データを圧縮するステップと、前記圧縮された波
形データをサーバに送信するステップと、を有し、前記
サーバ側装置において、前記端末から出力された波形デ
ータを受信するステップと、前記受信された波形データ
を伸張するステップと、前記伸張された波形データを用
いて認識処理を行い、認識した結果を出力するステップ
と、を有する。

【００２４】［第２の実施の形態］本発明の第２の実施
の形態に係るサーバ・クライアント型音声認識装置は、
前記第１の実施の形態の構成に加え、サーバ側装置にお
いて圧縮波形データの受信に失敗した場合に、サーバ側
から端末側へ波形データ再送要求信号を送信すること
で、端末側からサーバ側へ圧縮波形データが再送される
枠組み、機構を備えたものである。かかる構成によっ
て、電波状態が良くない環境においても端末側からサー
バ側へ波形データを送信できる割合が高くなる。

【００２５】より詳細には、本発明の第２の実施の形態
において、端末側の装置は、図２を参照すると、入力さ
れた音声の波形データと、前記サーバ側の装置から送信
された波形データ再送要求信号を受信する波形・信号受
信部（２１０）を備えている。端末側の装置は、さら
に、波形・信号受信部（２１０）で受信された波形デー
タの音声区間を検出する音声検出部（２２０）と、音声
検出部（２２０）で検出された音声区間の波形データを
圧縮する波形圧縮部（２３０）と、波形データを出力す
る波形送信部（２４０）と、波形圧縮部（２３０）で圧
縮された波形データを一時記憶しながら前記波形データ
を、前記波形送信部へ送信すると共に、前記波形・信号
受信部（２１０）において、前記サーバ側の装置からの
波形データ再送要求信号が受信された場合に、記憶され
た波形データを、波形送信部（２４０）へ送信する波形
記憶部（２５０）と、を備えている。

【００２６】本発明の第２の実施の形態において、サー
バ側の装置は、端末側の装置から出力された波形データ
を受信する波形受信部（３１０）と、波形受信部（３１
０）で受信された波形データを伸張する波形伸張部（３
２０）と、波形伸張部（３２０）で伸張された波形デー
タを用いて音声の分析を行う分析部（３４０）と、分析
部での分析結果に基づき、音声の認識処理を行い、認識
した結果を出力する認識部（３５０）と、波形受信部
（３１０）で圧縮波形データの受信に失敗した場合に
は、波形データの再送要求信号を前記波形受信部から受
け取り波形データ再送要求信号を、端末に出力する波形
データ再送要求信号送信部（３３０）と、を備えてい
る。

【００２７】上記第２の実施の形態に対応した、音声認
識方法は、端末側装置において前記サーバ側装置から送
信される波形データ再送要求信号を受信した場合に、波
形記憶部に記憶された波形データを、前記サーバ側装置
に送信するステップを有し、前記サーバ装置において、
前記端末側装置から送信される圧縮波形データの受信に
失敗した場合には、波形データ再送要求信号を前記端末
に出力するステップを有する。

【００２８】［第３の実施の形態］本発明の第３の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第２の実施の形態の構成に加え、端末側では音声区間を
検出しサーバ側へ圧縮した波形データを送信した後音声
の始端がキャンセルされた場合に、サーバ側へ始端キャ
ンセル信号を送信する枠組みと、サーバ側では始端キャ
ンセル信号を受信した場合に認識処理を停止することが
できる枠組みを備えている。かかる構成によって、始端
キャンセル時に即座に認識処理を停止することができる
ため、無駄なメモリ量、計算量を省くことが可能とな
る。

【００２９】より詳細には、本発明の第３の実施の形態
に係るサーバ・クライアント型音声認識装置は、図３を
参照すると、端末側の装置が、入力された音声の波形デ
ータと、前記サーバ側の装置から送信された波形データ
再送要求信号を受信する波形・信号受信部（４１０）
と、波形・信号受信部（４１０）で受信された音声の波
形データの音声区間を検出する音声検出部（４２０）
と、音声検出部（４２０）で検出された音声区間の波形
データを圧縮する波形圧縮部（４３０）と、波形データ
を出力する波形送信部（４４０）と、波形圧縮部（４３
０）で圧縮された波形データを一時記憶しながら前記波
形データを、波形送信部（４４０）へ送信すると共に、
波形・信号受信部（４１０）において、前記サーバ側の
装置からの波形データ再送要求信号が受信された場合
に、記憶された波形データを、前記波形送信部へ送信す
る波形記憶部（４５０）と、音声検出部（４２０）で音
声の検出後に該検出がキャンセルされた場合、音声検出
部（４２０）から送信された始端キャンセル時の信号を
受け取り始端キャンセル信号を出力する始端キャンセル
信号送信部（４６０）と、を備えている。

【００３０】本発明の第３の実施の形態において、サー
バ側の装置は、端末側の装置から出力された波形データ
と前記始端キャンセル信号を受信する波形・信号受信部
（５１０）と、波形・信号受信部（５１０）で受信され
た音声の波形データを伸張する波形伸張部（５２０）
と、前記波形伸張部で伸張された波形データを用いて音
声の分析を行う分析部（５４０）と、分析部での分析結
果に基づき認識処理を行い、認識した結果を出力する認
識部（５５０）と、波形・信号受信部（５１０）で圧縮
波形データの受信に失敗した場合には、波形データの再
送要求信号を前記波形受信部から受け取り波形データ再
送要求信号を出力する波形データ再送要求信号送信部
（５３０）と、を備え、認識部（５５０）は、前記波形
・信号受信部（５１０）において始端キャンセル信号を
受信した場合に、認識処理を中止する。

【００３１】上記第２の実施の形態に対応した、音声認
識方法は、端末側装置において、音声の検出後に該検出
がキャンセルされた場合、始端キャンセル信号を前記サ
ーバ側装置に送信するステップを有し、サーバ側装置に
おいて、前記端末からの前記始端キャンセル信号を受信
した場合に、認識処理を中止するステップを有する。

【００３２】［第４の実施の形態］本発明の第４の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第３の実施の形態の構成に加え、端末側では合成音を作
成、出力し、合成音情報を波形データの一部として組み
込み、作成したデータをサーバ側へ送信する枠組みと、
サーバ側では端末側から送信されたデータを波形データ
とその他の情報に分離し、その他の情報から合成音情報
を取得し、波形データから得られた認識結果と合成音と
の対応付けを行う枠組みを備えている。

【００３３】より詳細には、本発明の第４の実施の形態
において、端末側の装置は、図４を参照すると、合成音
を合成する音声合成部（６７０）と、音声合成部（６７
０）で合成された合成音の情報を作成し、合成音を出力
する合成音情報作成部（６８０）と、を備え、波形圧縮
部（６３０）は、音声検出部（６２０）で検出された音
声区間の波形データを圧縮し、合成音情報作成部（６８
０）で作成された合成音情報を前記波形データの一部に
組み込む。

【００３４】本発明の第４の実施の形態において、サー
バ側の装置は、波形伸張部（７２０）で伸張されたデー
タから合成音情報を取得する合成音情報取得部（７７
０）を備え、前記認識部（７５０）が、認識が終了した
場合に前記合成音情報取得部（７７０）で取得された合
成音情報より合成音と認識結果との対応付けを行い、対
応付けされた認識結果、又は認識結果と合成音情報を出
力する。

【００３５】本発明の第４の実施の形態において、合成
音情報については、合成音の内容、合成音出力時のタイ
ムスタンプ情報、合成音出力時の対話の状態番号等、様
々な情報を用いることができる。

【００３６】合成音情報を波形データの一部として組み
込む手法については、・合成音情報を波形データのヘッダーに含めて圧縮する
手法や、・圧縮済みの波形データに合成音情報を付加する手法等を用いることができる。

【００３７】合成音情報がサーバ側に送られない場合、
端末側からサーバ側へ波形データ送信に失敗した場合
に、次に送信に成功した波形データがどの合成音に対し
て発声された音声であるか判断がつかない、という問題
点がある。

【００３８】この問題は、この第４の実施の形態によっ
て解決され、合成音情報と波形データが１対１対応とな
ることにより、常に認識結果と合成音の対応付けをとる
ことが可能となり、状態遷移に誤りのない対話システム
の構築が可能となる。

【００３９】上記第４の実施の形態に対応した、音声認
識方法は、端末において、合成音を合成するステップ
と、前記合成された合成音の情報を作成し、合成音を出
力するステップと、検出された音声区間の波形データを
圧縮し、前記合成音情報作成部で作成された合成音情報
を前記波形データの一部に組み込んで、前記サーバ装置
に送信するステップと、を含み、前記サーバ装置におい
て、前記伸張されたデータから合成音情報を取得するス
テップを有し、認識が終了した場合に、前記取得された
合成音情報より合成音と認識結果との対応付けを行い、
対応付けされた認識結果、又は認識結果と合成音情報を
出力する。

【００４０】［第５の実施の形態］本発明の第５の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第４の実施の形態の構成に加え、端末側からサーバ側へ
圧縮方式を要求する信号を送信し、サーバ側で圧縮方式
要求信号を受信した場合、サーバ側で利用可能な圧縮方
式情報を端末側へ送信し、端末側ではサーバ側から送信
された圧縮情報と、端末側で利用可能な圧縮方式をもと
に最適な圧縮方式を選択する枠組みと、端末側で選択さ
れた圧縮情報のインデックスを合成音情報とともに波形
データの一部に組み込み、作成したデータをサーバ側へ
送信し、サーバ側ではデータを波形データとその他のデ
ータとに分離し、分離後のその他のデータを合成音情報
と圧縮方式のインデックスに分離し、圧縮方式のインデ
ックス情報よりその圧縮方式に最適な認識エンジンを選
択し、選択された認識エンジンの分析手法、認識手法、
標準パターンを用いて認識結果を出力する枠組みを備え
ている。

【００４１】より詳細には、本発明の第５の実施の形態
に係るサーバ・クライアント型音声認識装置において、
図５を参照すると、端末側の装置は、入力された波形デ
ータと、サーバ側の装置から送信された波形データ再送
要求信号と、前記サーバ側の装置から送信された前記サ
ーバ側で利用可能な圧縮方式情報を受信する波形・信号
・圧縮方式受信部（１０１０）と、波形・信号・圧縮方
式受信部（１０１０）で受信された波形データの音声区
間を検出する音声検出部（１０２０）と、前記音声検出
部で検出された音声区間の波形データを圧縮する波形圧
縮部（１０３０）と、波形データを出力する波形送信部
（１０４０）と、波形圧縮部（１０３０）で圧縮された
波形データを一時記憶しながら前記波形データを、波形
送信部（１０４０）へ送信すると共に、波形・信号・圧
縮方式受信部（１０１０）においてサーバ側の装置から
の波形データ再送要求信号が受信された場合に、記憶さ
れた波形データを、波形送信部（１０４０）へ送信する
波形記憶部（１０５０）と、を備えている。

【００４２】波形・信号・圧縮方式受信部（１０１０）
において、前記サーバ側で利用可能な圧縮方式情報を受
信した場合に、前記波形・信号・圧縮方式受信部（１０
１０）から送られた圧縮方式情報より最適な圧縮方式を
選択する圧縮方式選択部（１１００）と、圧縮方式選択
部（１１００）で選択された圧縮方式のインデックスを
作成する圧縮方式インデックス作成部（１０９０）と、
を備え、波形圧縮部（１０３０）は、音声検出部（１０
２０）で検出された音声区間の波形データを圧縮し、合
成音情報作成部（１０８０）で作成された合成音情報
と、圧縮方式インデックス作成部（１０９０）で作成さ
れた圧縮方式インデックスを波形データの一部に組み込
む。

【００４３】本発明の第５の実施の形態において、前記
サーバ側の装置は、前記端末側の装置から送信された波
形データと、圧縮方式要求信号を受信する波形・信号受
信部（１２１０）と、波形・信号受信部（１２１０）で
受信された音声の波形データを伸張する波形伸張部（１
２２０）と、波形伸張部（１２２０）で伸張された波形
データを用いて音声の分析を行う分析部（１２４０）
と、分析結果に基づき認識処理を行い、認識した結果を
出力する認識部（１２５０）と、前記波形・信号受信部
（１２１０）で圧縮波形データの受信に失敗した場合に
は、波形データの再送要求信号を前記波形受信部から受
け取り波形データ再送要求信号を出力する波形データ再
送要求信号送信部（１２３０）と、前記サーバ側の装置
で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部
（１３２０）と、波形・信号受信部（１２１０）から圧
縮方式要求信号が送られた場合に前記圧縮方式記憶部に
記憶されている圧縮方式情報を取得し、前記端末側の装
置に圧縮方式情報を出力する圧縮方式取得部（１３１
０）と、波形伸張部（１２２０）で伸張されたデータか
ら圧縮方式のインデックスを取得する圧縮方式インデッ
クス取得部（１２８０）と、圧縮方式インデックス取得
部（１２８０）で取得された圧縮方式のインデックスか
ら認識エンジンを選択する認識エンジン選択部（１２９
０）と、認識エンジン選択部（１２９０）で選択された
エンジンを記憶されているエンジンの中から設定する認
識エンジン設定部（１３００）と、を備える。

【００４４】サーバ側、端末側の圧縮方式記憶部（１３
２０）に記憶された圧縮方式については、帯域情報(8kH
z、4kHz等)や圧縮方法（フルレート、ハーフレート等）
等の情報を含む。また、波形データの一部として合成音
情報と圧縮方式のインデックスを含める手法について
は、合成音情報、圧縮方式のインデックスを波形データ
のヘッダーに含めて圧縮する手法や、圧縮済みの波形デ
ータに合成音情報、圧縮方式のインデックスを付加する
手法等を用いることができる。また、端末側において、
サーバ側で利用可能な圧縮方式と端末側で利用可能な圧
縮方式より最適な圧縮方式を選択する手段については、
情報量（データ量）の多い圧縮方式を選択する。例え
ば、端末側、サーバ側ともにフルレート、ハーフレート
の圧縮方式が利用可能な場合、データの情報量の多いフ
ルレートが自動的に選択される。本発明では、選択され
た圧縮方式によってサーバ側で認識エンジンを選択する
ことが可能であるため、サーバ側で圧縮方式に適した認
識エンジンを用意することで、様々な圧縮方式の音声デ
ータに対して高い認識率を得ることが可能となる。

【００４５】上記第５の実施の形態に対応した、音声認
識方法は、端末側装置において、サーバ側装置から送信
された前記サーバ側で利用可能な圧縮方式情報を受信す
るステップと、前記受信した圧縮方式情報により最適な
圧縮方式を選択するステップと、前記選択された圧縮方
式のインデックスを作成するステップと、音声区間の波
形データを圧縮し、作成された圧縮方式インデックスを
波形データの一部に組み込んで、前記サーバ装置に送信
するステップとを有し、前記サーバ側装置において、前
記端末側装置から送信される圧縮方式要求信号を受信し
た場合に、前記サーバ側で利用可能な圧縮方式の情報を
記憶する圧縮方式記憶部に記憶されている圧縮方式情報
を取得し、前記端末側装置に圧縮方式情報を出力するス
テップと、伸張されたデータから圧縮方式のインデック
スを取得するステップと、前記取得された圧縮方式のイ
ンデックスから認識エンジンを選択するステップと、前
記選択されたエンジンを記憶されているエンジンの中か
ら設定するステップと、を有する。

【００４６】［第６の実施の形態］本発明の第６の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第５の実施の形態の構成に加え、サーバ側で端末側から
送信された圧縮方式要求信号を受信した場合、コンテン
ツ側より入力されたタスク情報と予めサーバ側で持つタ
スク情報とそのタスクで使用可能な圧縮方式との対応テ
ーブルより、サーバ側で利用可能な圧縮方式を取得し端
末側に送信する枠組みを備える。

【００４７】より詳細には、本発明の第６の実施の形態
において、サーバ側装置は、図６を参照すると、前記し
た第５の実施の形態の波形・信号受信部（図５の１２１
０）に代わって、端末側の装置から送信された波形デー
タと、始端キャンセル信号と、圧縮方式要求信号と、コ
ンテンツ側から送信されたタスク情報と、を受信する波
形・信号・タスク情報受信部（１６１０）を備え、波形
・信号・タスク情報受信部（１６１０）で受信されたタ
スク情報を記憶するタスク情報記憶部（１７３０）と、
タスク情報と該タスク使用時に利用可能な１個以上の圧
縮方式を記憶する圧縮方式・タスク情報対応テーブル記
憶部（１７２０）と、前記波形・信号・タスク情報受信
部（１６１０）において圧縮方式要求信号を受信した場
合に、前記タスク情報記憶部（１７３０）から送られた
タスク情報と前記圧縮方式・タスク情報対応テーブル記
憶部（１７２０）から送られたタスク情報と圧縮方式と
の対応テーブルより利用可能な圧縮方式情報を取得し、
前記端末側の装置に出力する圧縮方式取得部（１７１
０）を備えている。

【００４８】サーバ側で持つタスク情報とそのタスクで
使用可能な圧縮方式との対応テーブル（１７２０）に記
述された圧縮方式については、帯域情報(8kHz、4kHz等)
や圧縮方法（フルレート、ハーフレート等）等の情報を
含む。

【００４９】この第６の実施の形態では、圧縮方式を選
択する時にサーバ側と端末側とで共通に利用可能である
圧縮方式情報の他に、タスクの情報を加えることによっ
て、サーバ側と端末側とで共通に利用可能な圧縮方式で
あり、且つ、入力されたタスクに適した圧縮方式を選択
することが可能となる。例えば、端末側とサーバ側とで
対話を行うタスクでは、レスポンス時間が短いことが望
ましいためデータの転送時間の短い圧縮方式をタスク情
報と圧縮方式との対応テーブルに記述し、又、端末側で
音声入力したキーワードをサーバ側でキーワード検索す
るようなレスポンス時間を比較的問われないタスクでは
データの情報量の多い圧縮方式を、前記テーブルに記述
することで、タスクに適した圧縮方式の選択が可能とな
る。

【００５０】上記第６の実施の形態に対応した、音声認
識方法は、サーバ側装置において、コンテンツ側から送
信されたタスク情報を受信してタスク情報記憶部に記憶
するステップと、圧縮方式要求信号を受信した場合に、
タスク情報と、圧縮方式との対応テーブルより、利用可
能な圧縮方式情報を取得し、前記端末側装置に送信する
ステップを有する。

【００５１】［第７の実施の形態］本発明の第７の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第５の実施の形態の構成に加え、端末側において、サー
バ側からサーバ側で利用可能な圧縮方式情報が送信され
た場合に、サーバ側で利用可能な圧縮方式情報と、コン
テンツ側から入力されたタスク情報と、端末側で予め持
つタスク情報とそのタスクで使用可能な圧縮方式との対
応テーブルより、最適な圧縮方式を選択する枠組みを備
える。

【００５２】より詳細には、本発明の第７の実施の形態
に係るサーバ・クライアント型音声認識装置は、図７を
参照すると、端末側の装置において、前記第５の実施の
形態の波形・信号・圧縮方式受信部（図５の１０１０）
に代わって、入力された波形データと、コンテンツ側か
ら送信されたタスク情報と、前記サーバ側の装置から送
信された波形データ再送要求信号と、前記サーバ側の装
置から送信された前記サーバ側の装置で利用可能な圧縮
方式情報とを受信する波形・信号・圧縮方式・タスク情
報受信部（１８１０）を備え、波形・信号・圧縮方式・
タスク情報受信部で受信されたタスク情報を記憶するタ
スク情報記憶部（１９３０）と、タスク情報とそのタス
ク使用時に利用可能な１個以上の圧縮方式の対応テーブ
ルを記憶する圧縮方式・タスク情報対応テーブル記憶部
（１９１０）と、前記波形・信号・圧縮方式・タスク情
報受信部（１８１０）においてサーバ側で利用可能な圧
縮方式情報を受信した場合に、前記タスク情報記憶部
（１９３０）から送られたタスク情報と、前記圧縮方式
・タスク対応テーブル記憶部（１９１０）から送られた
タスク情報と圧縮方式との対応テーブルと、前記波形・
信号・圧縮方式・タスク情報受信部（１８１０）から送
られた前記サーバ側の装置で利用可能な圧縮方式情報を
もとに最適な圧縮方式を選択する圧縮方式選択部（１９
００）と、を備える。

【００５３】タスク情報とそのタスクで使用可能な圧縮
方式との対応テーブルに記述された圧縮方式について
は、帯域情報(8kHz、4kHz等)や圧縮方法（フルレート、
ハーフレート等）等の情報を含む。

【００５４】この第７の実施の形態では、前記第６の実
施の形態と同様、圧縮方式を選択する時にサーバ側と端
末側とで共通に利用可能である圧縮方式情報の他にタス
クの情報を加味することによって、サーバ側と端末側と
で共通に利用可能な圧縮方式であり、且つ、入力された
タスクに適した圧縮方式を選択することが可能となる。

【００５５】上記第７の実施の形態に対応した、音声認
識方法は、端末側装置において、コンテンツ側から送信
されたタスク情報と、前記サーバ側装置から送信された
前記サーバ側で利用可能な圧縮方式情報とを受信するス
テップと、前記サーバ側で利用可能な圧縮方式情報を受
信した場合に、前記タスク情報と、圧縮方式・タスク対
応テーブル記憶部から送られたタスク情報と圧縮方式と
の対応テーブルと、サーバ側の装置で利用可能な圧縮方
式情報をもとに最適な圧縮方式を選択するステップと、
を有する。

【００５６】

【実施例】本発明の実施例について図面を参照して以下
に説明する。

【００５７】［実施例１］図１は、本発明の第１の実施
例をなすサーバ・クライアント型音声認識装置の構成を
示す図であり、図１（ａ）には、端末、図１（ｂ）には
サーバ側の装置構成が示されている。図１（ａ）を参照
すると、端末は、音声検出部１０と、波形圧縮部２０
と、波形送信部３０を備えている。端末に入力されたデ
ータは、音声検出部１０に送られ音声の検出が行われ
る。音声の検出方法としては、ワードスポッティング手
法等が用いられる。ワードスポッティング手法について
は、文献２（中川,”確率モデルによる音声認識,”電子
情報通信学会,1988）の記載が参照される。検出された
音声データは、波形圧縮部２０に送られる。波形圧縮部
２０では、音声検出部１０から送られた波形データを圧
縮する。圧縮方式としては、VSELP(Vector Sum Excited
Linear Prediction)方式、PSI-CELP(Pitch Synchronou
s Innovation CELP)方式等が用いられる。圧縮された波
形データは波形送信部３０に送られる。波形送信部３０
では、波形圧縮部から送られた圧縮波形データを出力す
る。

【００５８】図１（ｂ）を参照すると、サーバ側装置
は、波形受信部１１０と、波形伸張部１２０と、分析部
１３０と、認識部１４０と、標準パターン記憶部１５０
とを備えている。端末側の波形送信部３０から出力され
た圧縮波形データを波形受信部１１０で受信する。波形
受信部１１０では、受信した圧縮波形データを波形伸張
部１２０に送信する。波形伸張部１２０では、波形受信
部１１０から送られた圧縮波形データを伸張する。伸張
された波形データは分析部１３０に送られる。分析部１
３０では、波形伸張部１２０で伸張された波形データを
特徴ベクトルに変換する。特徴ベクトルとしてはケプス
トラム、Δケプストラム等が用いられる。Δケプストラ
ムは、文献３（古井,”ディジタル音声処理,”東海大学
出版会,pp44-47,1985）等の記載が参照される。分析さ
れた特徴ベクトルは認識部１４０に送られる。認識部１
４０では、分析部１３０から送られた特徴ベクトルと、
標準パターン記憶部１５０から送られた標準パターンと
の間の尤度を計算し、認識結果を求める。尤度の計算方
法は、Viterbiアルゴリズム、ＤＰマッチング等が用い
られる。求められた認識結果は出力される。Viterbiア
ルゴリズムについては、文献２（中川,”確率モデルに
よる音声認識,”電子情報通信学会,1988)、ＤＰマッチ
ングについては、文献４（迫江,”傾斜制限ＤＰマッチ
ングによる音声認識,”音声講論,pp67-68,1974）の記載
が参照される。

【００５９】［実施例２］次に、本発明の第２の実施例
について説明する。図２は、本発明の第２の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図２（ａ）には端末、図２（ｂ）にはサーバ側
の装置構成が示されている。図２（ａ）を参照すると、
端末は、波形・信号受信部２１０と、音声検出部２２０
と、波形圧縮部２３０と、波形送信部２４０、波形記憶
部２５０を備えている。端末の波形・信号受信部２１０
には、音声データ、又はサーバから送信された波形デー
タ再送要求信号が入力される。音声データが入力された
場合、該音声データは、音声検出部２２０に送られる。
音声検出部２２０では、波形・信号受信部２１０から送
られた波形データの音声検出を行う。検出方法としては
ワードスポッティング手法等が用いられる。検出された
音声データは波形圧縮部２３０に送られる。波形圧縮部
２３０では、音声検出部２２０から送られた波形データ
を圧縮する。圧縮方式としては、VSELP方式、PSI-CELP
方式等が用いられる。圧縮された波形データは波形記憶
部２５０に送られる。波形記憶部２５０では、波形圧縮
部２３０から送られた圧縮波形データを波形送信部２４
０に送信し、同一データを記憶する。波形送信部２４０
では、波形記憶部２５０から送られた圧縮波形データを
出力する。

【００６０】波形・信号受信部２１０に、サーバから送
信された波形データ再送要求信号が入力された場合、受
信された信号は、波形記憶部２５０に送られる。波形記
憶部２５０では記憶されている圧縮波形データを波形送
信部２４０に送信する。波形送信部２４０では、波形記
憶部２５０から送られた圧縮波形データを出力する。

【００６１】図２（ｂ）を参照すると、サーバ側は、波
形受信部３１０と、波形伸張部３２０と、波形データ再
送要求信号送信部３３０と、分析部３４０と、認識部３
５０と、標準パターン記憶部３６０とを備えている。サ
ーバ側は、端末側の波形送信部２４０から出力された圧
縮波形データを波形受信部３１０で受信する。

【００６２】波形受信部３１０では、受信した圧縮波形
データを波形伸張部３２０に送信する。圧縮波形データ
の受信に失敗した場合は、波形データ再送要求信号送信
部３３０に波形データの再送要求信号を送信する。波形
データ再送要求信号送信部３３０では、波形受信部３１
０から送られた信号を出力する。波形伸張部３２０で
は、波形受信部３１０から送られた圧縮波形データを伸
張する。伸張された波形データは分析部３４０に送られ
る。分析部３４０では、波形伸張部３２０で伸張された
波形データを特徴ベクトルに変換する。特徴ベクトルと
してはケプストラム、Δケプストラム等が用いられる。
分析された特徴ベクトルは認識部３５０に送られる。認
識部３５０では、分析部３４０から送られた特徴ベクト
ルと、標準パターン記憶部３６０から送られた標準パタ
ーンとの間の尤度を計算し、認識結果を求める。尤度の
計算方法はViterbiアルゴリズム、ＤＰマッチング等が
用いられる。求められた認識結果は出力される。

【００６３】［実施例３］次に、本発明の第３の実施例
について説明する。図３は、本発明の第３の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図３（ａ）には端末、図３（ｂ）にはサーバ側
の装置構成が示されている。図３（ａ）を参照すると、
端末は、波形・信号受信部４１０、音声検出部４２０
と、波形圧縮部４３０と、波形送信部４４０、波形記憶
部４５０、始端キャンセル信号送信部４６０を備えてい
る。端末の波形・信号受信部４１０には音声データ、又
はサーバから送信された波形データ再送要求信号が入力
される。音声データが入力された場合、データは音声検
出部４２０に送られる。音声検出部４２０では、波形・
信号受信部４１０から送られた波形データの音声検出を
行う。検出方法としてはワードスポッティング手法等が
用いられる。検出された音声データは波形圧縮部４３０
に送られる。

【００６４】音声の検出後に検出がキャンセルされた場
合、始端キャンセル時の信号が始端キャンセル信号送信
部４６０に送信される。始端キャンセル信号送信部４６
０では、送られた始端キャンセル時の信号を出力する。

【００６５】波形圧縮部４３０では、音声検出部４２０
から送られた波形データを圧縮する。圧縮方式として
は、VSELP方式、PSI-CELP方式等が用いられる。圧縮さ
れた波形データは波形記憶部４５０に送られる。波形記
憶部４５０では、波形圧縮部４３０から送られた圧縮波
形データを波形送信部４４０に送信し、同一データを記
憶する。波形送信部４４０では、波形圧縮部４３０から
送られた圧縮波形データを出力する。波形・信号受信部
４１０にサーバから送信された波形データ再送要求信号
が入力された場合、受信された信号は波形記憶部４５０
に送られる。波形記憶部４５０では記憶されている圧縮
波形データを波形送信部４４０に送信する。波形送信部
４４０では波形記憶部４５０から送られた圧縮波形デー
タを出力する。

【００６６】図３（ｂ）を参照すると、サーバ側は、波
形・信号受信部５１０と、波形伸張部５２０と、波形デ
ータ再送要求信号送信部５３０と、分析部５４０と、認
識部５５０と、標準パターン記憶部５６０とを備えてい
る。

【００６７】サーバ側では、端末側の波形送信部４４０
から出力された圧縮波形データ、又は、始端キャンセル
信号送信部４６０から出力された始端キャンセル時の信
号を波形・信号受信部５１０で受信する。

【００６８】波形・信号受信部５１０では、受信した圧
縮波形データを波形伸張部５２０に送信する。圧縮波形
データの受信に失敗した場合は、波形データ再送要求信
号送信部５３０に波形データ再送要求信号を送信する。
波形データ再送要求信号送信部５３０では、波形・信号
受信部５１０から送られた信号を出力する。波形伸張部
５２０では、波形・信号受信部５１０から送られた圧縮
波形データを伸張する。伸張された波形データは分析部
５４０に送られる。分析部５４０では、波形伸張部５２
０で伸張された波形データを特徴ベクトルに変換する。
特徴ベクトルとしてはケプストラム、Δケプストラム等
が用いられる。分析された特徴ベクトルは認識部５５０
に送られる。認識部５５０では、分析部５４０から送ら
れた特徴ベクトルと、標準パターン記憶部５６０から送
られた標準パターンとの間の尤度を計算し、認識結果を
求める。尤度の計算方法はViterbiアルゴリズム、ＤＰ
マッチング等が用いられる。求められた認識結果は出力
される。波形・信号受信部５１０に始端キャンセル信号
送信部４６０から送信された始端キャンセル時の信号が
入力された場合、信号は認識部５５０に送られる。

【００６９】認識部５５０では、波形・信号受信部５１
０から始端キャンセル時の信号が送られてきた場合、認
識を途中で中断する。

【００７０】［実施例４］次に、本発明の第４の実施例
について説明する。図４は、本発明の第４の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図４（ａ）には端末、図４（ｂ）にはサーバ側
の装置構成が示されている。図４（ａ）を参照すると、
端末は、波形・信号受信部６１０と、音声検出部６２０
と、波形圧縮部６３０と、波形送信部６４０と、波形記
憶部６５０と、始端キャンセル信号送信部６６０と、音
声合成部６７０と、合成音情報作成部６８０と、を備え
ている。端末の波形・信号受信部６１０には音声デー
タ、又はサーバから送信された波形データ再送要求信号
が入力される。音声データが入力された場合、データは
音声検出部６２０に送られる。音声検出部６２０では、
波形・信号受信部６１０から送られた波形データの音声
検出を行う。検出方法としてはワードスポッティング手
法等が用いられる。検出された音声データは波形圧縮部
６３０に送られる。

【００７１】音声の検出後に検出がキャンセルされた場
合、始端キャンセル時の信号が始端キャンセル信号送信
部６６０に送信される。始端キャンセル信号送信部６６
０では、送られた始端キャンセル時の信号を出力する。

【００７２】本実施例では、更に、合成音を作成する音
声合成部６７０を持つ。音声合成部６７０で作成された
合成音は、合成音情報作成部６８０に送られる。合成音
情報作成部６８０では、合成音情報を作成し、作成した
合成音情報を波形圧縮部６３０に送信し、音声合成部６
７０から送られた合成音を出力する。

【００７３】合成音情報については、合成音の内容や合
成音出力時のタイムスタンプ情報等が用いられる。

【００７４】波形圧縮部６３０では、音声検出部６２０
から送られた波形データを圧縮し、合成音情報作成部６
８０で取得された合成音情報を波形データの一部に含め
る。

【００７５】波形データの一部に合成音情報を含める手
法としては、合成音情報を波形データのヘッダーに含め
て圧縮する方法や、圧縮した波形データに合成音情報を
付加する方法等が用いられる。

【００７６】圧縮方式としては、VSELP方式、PSI-CELP
方式等が用いられる。圧縮された波形データは波形記憶
部６５０に送られる。波形記憶部６５０では、波形圧縮
部６３０から送られた圧縮波形データを波形送信部６４
０に送信し、同一データを記憶する。波形送信部６４０
では、波形圧縮部６３０から送られた波形データを出力
する。波形・信号受信部６１０にサーバから送信された
波形データ再送要求信号が入力された場合、受信された
信号は波形記憶部６５０に送られる。波形記憶部６５０
では記憶されている圧縮波形データを波形送信部６４０
に送信する。波形送信部６４０では波形記憶部６５０か
ら送られた圧縮波形データを出力する。

【００７７】図４（ｂ）を参照すると、サーバ側では、
波形・信号受信部７１０と、波形伸張部７２０と、波形
データ再送要求信号送信部７３０と、分析部７４０と、
認識部７５０と、標準パターン記憶部７６０と、合成音
情報取得部７７０を備えている。サーバ側では、端末側
の波形送信部６４０から出力された圧縮波形データ、又
は始端キャンセル信号送信部６６０から出力された始端
キャンセル時の信号を波形・信号受信部７１０で受信す
る。波形・信号受信部７１０では、受信した圧縮波形デ
ータを波形伸張部７２０に送信する。圧縮波形データの
受信に失敗した場合は、波形データ再送要求信号送信部
７３０に波形データ再送要求信号を送信する。波形デー
タ再送要求信号送信部７３０では、波形・信号受信部７
１０から送られた信号を出力する。

【００７８】波形伸張部７２０では、波形・信号受信部
７１０から送られたデータを波形データ合成音情報等の
その他の情報とに分離し、波形データを伸張する。その
他の情報は合成音情報取得部７７０に送られ、伸張され
た波形データは分析部７４０に送られる。

【００７９】合成音情報取得部７７０では、波形伸張部
７２０から送られた情報から合成音情報を取得する。取
得された合成音情報は認識部７５０に送られる。

【００８０】分析部７４０では、波形伸張部７２０で伸
張された波形データを特徴ベクトルに変換する。特徴ベ
クトルとしてはケプストラム、Δケプストラム等が用い
られる。分析された特徴ベクトルは認識部７５０に送ら
れる。認識部７５０では、分析部７４０から送られた特
徴ベクトルと、標準パターン記憶部７６０から送られた
標準パターンとの間の尤度を計算し、認識結果を求め
る。尤度の計算方法はViterbiアルゴリズム、ＤＰマッ
チング等が用いられる。

【００８１】求められた認識結果と合成音情報取得部７
７０で取得された合成音情報は共に端末側に出力される
か、又は、両者が関連付けられることでどの合成音に対
する認識結果であるかが対応付けされ、対応付けされた
後の認識結果が端末側に出力される。

【００８２】波形・信号受信部７１０に始端キャンセル
信号送信部６６０から送信された始端キャンセル時の信
号が入力された場合、信号は認識部７５０に送られる。
認識部７５０では、波形・信号受信部７１０から始端キ
ャンセル時の信号が送られてきた場合、認識を途中で中
断する。

【００８３】［実施例５］次に、本発明の第５の実施例
について説明する。図５は、本発明の第５の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図５（ａ）には端末、図５（ｂ）にはサーバ側
の装置構成が示されている。図５（ａ）を参照すると、
端末は、波形・信号・圧縮方式受信部１０１０と、音声
検出部１０２０と、波形圧縮部１０３０と、波形送信部
１０４０と、波形記憶部１０５０と、始端キャンセル信
号送信部１０６０と、音声合成部１０７０と、合成音情
報作成部１０８０と、圧縮方式インデックス作成部１０
９０と、圧縮方式選択部１１００と、圧縮方式記憶部１
１１０と、圧縮方式要求信号送信部１１２０とを備えて
いる。端末の波形・信号・圧縮方式受信部１０１０に
は、音声データ、又は圧縮方式要求信号、又は、サーバ
から送信された波形データ再送要求信号、又はサーバか
ら送信された圧縮方式情報が入力される。

【００８４】波形・信号・圧縮方式受信部１０１０に圧
縮方式要求信号が入力された場合、圧縮方式要求信号は
波形・信号・圧縮方式受信部１０１０から圧縮方式要求
信号送信部１１２０に送られる。

【００８５】圧縮方式要求信号送信部１１２０では、波
形・信号・圧縮方式受信部１０１０から送られた圧縮方
式要求信号をサーバ側装置へ出力する。

【００８６】波形・信号・圧縮方式受信部１０１０に、
サーバ側から送信された圧縮方式情報が入力された場
合、圧縮方式情報は、圧縮方式選択部１１００へ送られ
る。

【００８７】本実施例では、端末側で利用可能な圧縮方
式を記憶する圧縮方式記憶部１１１０、波形を圧縮する
方式を選択する圧縮方式選択部１１００を備えている。

【００８８】圧縮方式記憶部１１１０に記憶された圧縮
方式については、波形圧縮方法（フルレート、ハーフレ
ート等）や帯域（4kHz、8kHz等）の情報を含む。

【００８９】圧縮方式選択部１１００では、圧縮方式記
憶部１１１０に記憶されている圧縮方式情報と、波形・
信号・圧縮方式受信部１０１０から送られたサーバ側で
利用可能な圧縮方式をもとに、データの情報量の多い圧
縮方式を選択する。例えば、端末側でもサーバ側でも、
ともに、フルレートとハーフレートの圧縮方式を持つ場
合、データの情報量の多いフルレートが選択される。

【００９０】圧縮方式選択部１１００で選択された方式
名は、圧縮方式インデックス作成部１０９０に送られ
る。

【００９１】圧縮方式インデックス作成部１０９０で
は、圧縮方式選択部で選択された方式名のインデックス
を作成する。圧縮方式インデックス作成部１０９０で作
成されたインデックスは波形圧縮部１０３０に送られ
る。

【００９２】波形・信号・圧縮方式受信部１０１０に音
声データが入力された場合、データは音声検出部１０２
０に送られる。音声検出部１０２０では、波形・信号・
圧縮方式受信部１０１０から送られた波形データの音声
検出を行う。検出方法としてはワードスポッティング手
法等が用いられる。検出された音声データは波形圧縮部
１０３０に送られる。

【００９３】音声の検出後に検出がキャンセルされた場
合、始端キャンセル時の信号が始端キャンセル信号送信
部１０６０に送信される。始端キャンセル信号送信部１
０６０では、送られた始端キャンセル時の信号を出力す
る。

【００９４】本実施例では、第４の実施例と同様に合成
音を作成する音声合成部１０７０を持つ。音声合成部１
０７０で作成された合成音は合成音情報作成部１０８０
に送られる。

【００９５】合成音情報作成部１０８０では、合成音情
報を作成し、作成した合成音情報を波形圧縮部１０３０
に送信し、音声合成部１０７０から送られた合成音を出
力する。合成音情報については、合成音の内容や合成音
出力時のタイムスタンプ情報等が用いられる。波形圧縮
部１０３０では、音声検出部１０２０から送られた波形
データを圧縮し、合成音情報作成部１０８０で作成され
た合成音情報と、圧縮方式インデックス作成部１０９０
で作成された圧縮方式のインデックスとを前記波形デー
タの一部に含める。

【００９６】波形データの一部に合成音情報、圧縮方式
のインデックスを含める手法としては、合成音情報、圧
縮方式のインデックスを波形データのヘッダーに含めて
圧縮する方法や、圧縮した波形データに合成音情報、圧
縮方式のインデックスを付加する方法等が用いられる。
圧縮方式としては、VSELP方式、PSI-CELP方式等が用い
られる。圧縮された波形データは波形記憶部１０５０に
送られる。

【００９７】波形記憶部１０５０では、波形圧縮部１０
３０から送られた圧縮波形データを波形送信部１０４０
に送信し、同一データを記憶する。

【００９８】波形送信部１０４０では、波形圧縮部１０
３０から送られた圧縮波形データをサーバ側装置へ出力
する。波形・信号・圧縮方式受信部１０１０にサーバか
ら送信された波形データ再送要求信号が入力された場
合、受信された信号は波形記憶部１０５０に送られる。
波形記憶部１０５０では記憶されている圧縮波形データ
を波形送信部１０４０に送信する。波形送信部１０４０
では波形記憶部１０５０から送られた圧縮波形データを
出力する。

【００９９】図５（ｂ）を参照すると、サーバ側では、
波形・信号受信部１２１０と、波形伸張部１２２０と、
波形データ再送要求信号送信部１２３０と、分析部１２
４０と、認識部１２５０と、標準パターン記憶部１２６
０と、合成音情報取得部１２７０と、圧縮方式インデッ
クス取得部１２８０と、認識エンジン選択部１２９０
と、認識エンジン設定部１３００と、圧縮方式取得部１
３１０と、圧縮方式記憶部１３２０と、を備えている。

【０１００】サーバ側では、端末側の波形送信部１０４
０から出力された圧縮波形データ、又は始端キャンセル
信号送信部１０６０から出力された始端キャンセル時の
信号、又は圧縮方式要求信号送信部１１２０から出力さ
れた波形圧縮方式要求信号を波形・信号受信部１２１０
で受信する。波形・信号受信部１２１０では、波形圧縮
方式要求信号が受信された場合、受信信号を圧縮方式取
得部１３１０へ送る。

【０１０１】圧縮方式取得部１３１０では、波形・信号
受信部１２１０から波形圧縮方式要求信号が送られた場
合、圧縮方式記憶部１３２０に記憶されている圧縮方式
の中からサーバ側で利用可能な圧縮方式を取得し、取得
した圧縮方式情報を端末側に出力する。波形・信号受信
部１２１０において波形データが受信された場合、波形
伸張部１２２０に送信する。

【０１０２】波形データの受信に失敗した場合は、波形
データ再送要求信号送信部１２３０に波形データ再送要
求信号を送信する。波形データ再送要求信号送信部１２
３０では、波形・信号受信部１２１０から送られた信号
を出力する。波形伸張部１２２０では、波形・信号受信
部１２１０から送られたデータを波形データとその他の
データとに分離し、波形データを伸張する。

【０１０３】その他の情報は合成音情報取得部１２７０
と圧縮方式インデックス取得部１２８０に送られ、伸張
された波形データは分析部１２４０に送られる。合成音
情報取得部１２７０では、波形伸張部１２２０から送ら
れた情報から合成音情報を取得する。取得された合成音
情報は認識部１２５０に送られる。

【０１０４】圧縮方式インデックス取得部１２８０で
は、波形伸張部１２２０から送られた情報から圧縮方式
のインデックスを取得する。

【０１０５】取得されたインデックスは認識エンジン選
択部１２９０に送られる。

【０１０６】認識エンジン選択部１２９０では、圧縮方
式インデックス取得部１２８０で取得されたインデック
スをもとに認識に用いる認識エンジンを選択する。選択
されたエンジンの情報は認識エンジン設定部１３００と
標準パターン記憶部１２６０に送られる。

【０１０７】認識エンジン設定部１３００では、認識エ
ンジン選択部１２９０から送られたエンジン情報を基
に、使用するエンジンの分析手法を分析部１２４０へ送
り、認識手法を認識部１２５０へ送る。

【０１０８】標準パターン記憶部１２６０では、認識エ
ンジン選択部１２９０から送られたエンジン情報より使
用する標準パターンを設定する。

【０１０９】分析部１２４０では、波形伸張部１２２０
で伸張された波形データを特徴ベクトルに変換する。特
徴ベクトルとしてはケプストラム、Δケプストラム等が
用いられる。分析された特徴ベクトルは認識部１２５０
に送られる。認識部１２５０では、分析部１２４０から
送られた特徴ベクトルと、標準パターン記憶部１２６０
から送られた標準パターンとの間の尤度を計算し、認識
結果を求める。尤度の計算方法はViterbiアルゴリズ
ム、ＤＰマッチング等が用いられる。求められた認識結
果と合成音情報取得部１２７０で取得された合成音情報
は共に端末側に出力されるか、又は、両者が関連付けら
れることでどの合成音に対する認識結果であるかが対応
付けされ、対応付けされた後の認識結果が端末側に出力
される。波形・信号受信部１２１０に始端キャンセル信
号送信部１０６０から送信された始端キャンセル時の信
号が入力された場合、信号は認識部１２５０に送られ
る。認識部１２５０では、波形・信号受信部１２１０か
ら始端キャンセル時の信号が送られてきた場合、認識を
途中で中断する。

【０１１０】［実施例６］次に、本発明の第６の実施例
について説明する。図６は、本発明の第６の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図６（ａ）には端末、図６（ｂ）にはサーバ側
の装置構成が示されている。図６（ａ）を参照すると、
端末は、波形・信号・圧縮方式受信部１４１０と、音声
検出部１４２０と、波形圧縮部１４３０と、波形送信部
１４４０と、波形記憶部１４５０と、始端キャンセル信
号送信部１４６０と、音声合成部１４７０と、合成音情
報作成部１４８０と、圧縮方式インデックス作成部１４
９０と、圧縮方式選択部１５００と、圧縮方式記憶部１
５１０と、圧縮方式要求信号送信部１５２０と、を備え
ている。端末の波形・信号・圧縮方式受信部１４１０に
は、音声データ、又は圧縮方式要求信号、又はサーバか
ら送信された波形データ再送要求信号、又はサーバから
送信された圧縮方式情報が入力される。圧縮方式要求信
号が入力された場合、圧縮方式要求信号は圧縮方式要求
信号送信部１５２０に送られる。圧縮方式要求信号送信
部１５２０では、波形・信号・圧縮方式受信部１４１０
から送られた圧縮方式要求信号をサーバ側装置へ出力す
る。

【０１１１】波形・信号・圧縮方式受信部１４１０にサ
ーバ側から送信されたサーバ側で利用可能な圧縮方式情
報が入力された場合、圧縮方式情報は圧縮方式選択部１
５００へ送られる。

【０１１２】本実施例では、第４の実施例と同様に、端
末側で利用可能な圧縮方式を記憶する圧縮方式記憶部１
５１０、波形を圧縮する方式を選択する圧縮方式選択部
１５００を持つ。

【０１１３】圧縮方式記憶部１５１０に記憶された圧縮
方式については、波形圧縮方法（フルレート、ハーフレ
ート等）や帯域（4kHz、8kHz等）の情報を含む。圧縮方
式選択部１５００では、圧縮方式記憶部１５１０に記憶
されている端末側で利用可能な圧縮方式情報と、波形・
信号・圧縮方式受信部１４１０から送られたサーバ側で
利用可能な圧縮方式をもとにデータの情報量の多い圧縮
方式を選択する。例えば、端末側でもサーバ側でもとも
にフルレートとハーフレートの圧縮方式を持つ場合、デ
ータの情報量の多いフルレートが選択される。圧縮方式
選択部１５００で選択された方式名は圧縮方式インデッ
クス作成部１４９０に送られる。圧縮方式インデックス
作成部１４９０では、圧縮方式選択部で選択された方式
名のインデックスを作成する。圧縮方式インデックス作
成部１４９０で作成されたインデックスは波形圧縮部１
４３０に送られる。

【０１１４】波形・信号・圧縮方式受信部１４１０に音
声データが入力された場合、データは音声検出部１４２
０に送られる。音声検出部１４２０では、波形・信号・
圧縮方式受信部１４１０から送られた波形データの音声
検出を行う。検出方法としてはワードスポッティング手
法等が用いられる。検出された音声データは波形圧縮部
１４３０に送られる。音声の検出後に検出がキャンセル
された場合、始端キャンセル時の信号が始端キャンセル
信号送信部１４６０に送信される。始端キャンセル信号
送信部１４６０では、送られた始端キャンセル時の信号
をサーバ側装置へ出力する。

【０１１５】本実施例では第４、第５の実施例と同様
に、合成音を作成する音声合成部１４７０を持つ。音声
合成部１４７０で作成された合成音は合成音情報作成部
１４８０に送られる。

【０１１６】合成音情報作成部１４８０では、合成音情
報を作成し、作成した合成音情報を波形圧縮部１４３０
に送信し、音声合成部１４７０から送られた合成音を出
力する。合成音情報については、合成音の内容や合成音
出力時のタイムスタンプ情報等が用いられる。

【０１１７】波形圧縮部１４３０では、音声検出部１４
２０から送られた波形データを圧縮し、合成音情報作成
部１４８０で作成された合成音情報と、圧縮方式インデ
ックス作成部１４９０で作成された圧縮方式のインデッ
クスとを前記波形データの一部に含める。波形データの
一部に合成音情報、圧縮方式のインデックスを含める手
法としては、・合成音情報、圧縮方式のインデックスを波形データの
ヘッダーに含めて圧縮する方法や、・圧縮した波形データに合成音情報、圧縮方式のインデ
ックスを付加する方法等が用いられる。

【０１１８】圧縮方式としては、VSELP方式、PSI-CELP
方式等が用いられる。圧縮された波形データは波形記憶
部１４５０に送られる。波形記憶部１４５０では、波形
圧縮部１４３０から送られた圧縮波形データを波形送信
部１４４０に送信し、同一データを記憶する。波形送信
部１４４０では、波形圧縮部１４３０から送られた圧縮
波形データをサーバ側装置へ出力する。波形・信号・圧
縮方式受信部１４１０にサーバから送信された波形デー
タ再送要求信号が入力された場合、受信された信号は波
形記憶部１４５０に送られる。波形記憶部１４５０では
記憶されている圧縮波形データを波形送信部１４４０に
送信する。波形送信部１４４０では波形記憶部１４５０
から送られた圧縮波形データを出力する。

【０１１９】図６（ｂ）を参照すると、サーバ側では、
波形・信号・タスク情報受信部１６１０と、波形伸張部
１６２０と、波形データ再送要求信号送信部１６３０
と、分析部１６４０と、認識部１６５０と、標準パター
ン記憶部１６６０と、合成音情報取得部１６７０と、圧
縮方式インデックス取得部１６８０と、認識エンジン選
択部１６９０と、認識エンジン設定部１７００と、圧縮
方式取得部１７１０と、圧縮方式・タスク情報対応テー
ブル記憶部１７２０と、タスク情報記憶部１７３０とを
備えている。

【０１２０】サーバ側では、端末側の波形送信部１４４
０から出力された波形データ、又は始端キャンセル信号
送信部１４６０から出力された始端キャンセル時の信
号、又は圧縮方式要求信号送信部１５２０から出力され
た波形圧縮方式要求信号、又はコンテンツ側より入力さ
れたタスク情報を波形・信号・タスク情報受信部１６１
０で受信する。

【０１２１】波形・信号・タスク情報受信部１６１０に
コンテンツ側よりタスク情報が入力された場合、タスク
情報記憶部１７３０に送信する。タスク情報記憶部１７
３０では、波形・信号・タスク情報受信部１６１０より
送られたタスク情報を記憶し、同一情報を圧縮方式取得
部１７１０に送る。

【０１２２】波形・信号・タスク情報受信部１６１０に
おいて波形圧縮方式要求信号が受信された場合、受信信
号を圧縮方式取得部１７１０へ送る。圧縮方式取得部１
７１０では、波形・信号・タスク情報受信部１６１０か
ら波形圧縮方式要求信号が送られた場合、圧縮方式・タ
スク情報対応テーブル記憶部１７２０に記憶されている
タスク情報とそのタスクで利用可能な圧縮方式との対応
テーブルと、タスク情報記憶部１７３０から送られたタ
スク情報とから利用可能な圧縮方式を取得し、取得した
圧縮方式情報を端末側に出力する。

【０１２３】波形・信号・タスク情報受信部１６１０に
おいて波形データが受信された場合、波形伸張部１６２
０に送信する。波形データの受信に失敗した場合は、波
形データ再送要求信号送信部１６３０に波形データ再送
要求信号を送信する。波形データ再送要求信号送信部１
６３０では、波形・信号・タスク情報受信部１６１０か
ら送られた信号を出力する。波形伸張部１６２０では、
波形・信号・タスク情報受信部１６１０から送られたデ
ータを波形データとその他のデータとに分離し、波形デ
ータを伸張する。

【０１２４】その他の情報は合成音情報取得部１６７０
と圧縮方式インデックス取得部１６８０に送られ、伸張
された波形データは分析部１６４０に送られる。合成音
情報取得部１６７０では、波形伸張部１６２０から送ら
れた情報から合成音情報を取得する。取得された合成音
情報は認識部１６５０に送られる。

【０１２５】圧縮方式インデックス取得部１６８０で
は、波形伸張部１６２０から送られた情報から圧縮方式
のインデックスを取得する。取得されたインデックスは
認識エンジン選択部１６９０に送られる。

【０１２６】認識エンジン選択部１６９０では、圧縮方
式インデックス取得部１６８０で取得されたインデック
スをもとに認識に用いる認識エンジンを選択する。選択
されたエンジンの情報は認識エンジン設定部１７００と
標準パターン記憶部１６６０に送られる。

【０１２７】認識エンジン設定部１７００では、認識エ
ンジン選択部１６９０から送られたエンジン情報を元に
使用するエンジンの分析手法を分析部１６４０へ送り、
認識手法を認識部１６５０へ送る。標準パターン記憶部
１６６０では、認識エンジン選択部１６９０から送られ
たエンジン情報より使用する標準パターンを設定する。
分析部１６４０では、波形伸張部１６２０で伸張された
波形データを特徴ベクトルに変換する。特徴ベクトルと
してはケプストラム、Δケプストラム等が用いられる。

【０１２８】分析された特徴ベクトルは認識部１６５０
に送られる。認識部１６５０では、分析部１６４０から
送られた特徴ベクトルと、標準パターン記憶部１６６０
から送られた標準パターンとの間の尤度を計算し、認識
結果を求める。尤度の計算方法はViterbiアルゴリズ
ム、ＤＰマッチング等が用いられる。求められた認識結
果と合成音情報取得部１６７０で取得された合成音情報
は共に端末側に出力されるか、又は、両者が関連付けら
れることでどの合成音に対する認識結果であるかが対応
付けされ、対応付けされた後の認識結果が端末側に出力
される。波形・信号・タスク情報受信部１６１０に始端
キャンセル信号送信部１４６０から送信された始端キャ
ンセル時の信号が入力された場合、信号は認識部１６５
０に送られる。認識部１６５０では、波形・信号・タス
ク情報受信部１６１０から始端キャンセル時の信号が送
られてきた場合、認識を途中で中断する。

【０１２９】［実施例７］次に、本発明の第７の実施例
について説明する。図７は、本発明の第７の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図７（ａ）には端末、図７（ｂ）にはサーバ側
の装置構成が示されている。図７（ａ）を参照すると、
端末は、波形・信号・圧縮方式・タスク情報受信部１８
１０と、音声検出部１８２０と、波形圧縮部１８３０
と、波形送信部１８４０と、波形記憶部１８５０と、始
端キャンセル信号送信部１８６０と、音声合成部１８７
０と、合成音情報作成部１８８０と、圧縮方式インデッ
クス作成部１８９０と、圧縮方式選択部１９００と、圧
縮方式・タスク情報対応テーブル記憶部１９１０と、圧
縮方式要求信号送信部１９２０と、タスク情報記憶部１
９３０と、を備えている。

【０１３０】図７を参照すると、この実施例において、
端末側の波形・信号・圧縮方式・タスク情報受信部１８
１０には、音声データ、又は圧縮方式要求信号、又はサ
ーバから送信された波形データ再送要求信号、又はサー
バから送信された圧縮方式情報、又はコンテンツ側から
送信されたタスク情報が入力される。

【０１３１】波形・信号・圧縮方式・タスク情報受信部
１８１０に、タスク情報が入力された場合、入力された
タスク情報はタスク情報記憶部１９３０に送られる。タ
スク情報記憶部１９３０では、波形・信号・圧縮方式・
タスク情報受信部１８１０から送られたタスク情報を圧
縮方式選択部１９００に送り、記憶する。

【０１３２】波形・信号・圧縮方式・タスク情報受信部
１８１０に、圧縮方式要求信号が入力された場合、圧縮
方式要求信号は圧縮方式要求信号送信部１９２０に送ら
れる。圧縮方式要求信号送信部１９２０では、波形・信
号・圧縮方式・タスク情報受信部１８１０から送られた
圧縮方式要求信号をサーバ側装置へ出力する。

【０１３３】波形・信号・圧縮方式・タスク情報受信部
１８１０に、サーバ側から送信されたサーバ側で利用可
能な圧縮方式情報が入力された場合、圧縮方式情報は圧
縮方式選択部１９００へ送られる。

【０１３４】本実施例では、タスク情報とそのタスクで
利用可能な圧縮方式との対応テーブル記憶する圧縮方式
・タスク情報対応テーブル記憶部１９１０を持つ。圧縮
方式・タスク情報対応テーブル記憶部に記憶された圧縮
方式については、波形圧縮方法（フルレート、ハーフレ
ート等）や帯域（4kHz、8kHz等）の情報を含む。

【０１３５】圧縮方式選択部１９００では、タスク情報
記憶部１９３０から送られたタスク情報と、波形・信号
・圧縮方式・タスク情報受信部１８１０から送られたサ
ーバ側で利用可能な圧縮方式情報と、圧縮方式・タスク
情報対応テーブル記憶部１９１０に記憶されている対応
テーブル情報とをもとにタスク情報が加味されたデータ
の情報量の多い圧縮方式を選択する。圧縮方式選択部１
９００で選択された方式名は圧縮方式インデックス作成
部１８９０に送られる。

【０１３６】圧縮方式インデックス作成部１８９０で
は、圧縮方式選択部で選択された方式名のインデックス
を作成する。圧縮方式インデックス作成部１８９０で作
成されたインデックスは波形圧縮部１８３０に送られ
る。

【０１３７】波形・信号・圧縮方式・タスク情報受信部
１８１０に音声データが入力された場合、データは音声
検出部１８２０に送られる。音声検出部１８２０では、
波形・信号・圧縮方式・タスク情報受信部１８１０から
送られた波形データの音声検出を行う。検出方法として
はワードスポッティング手法等が用いられる。検出され
た音声データは波形圧縮部１８３０に送られる。音声の
検出後に検出がキャンセルされた場合、始端キャンセル
時の信号が始端キャンセル信号送信部１８６０に送信さ
れる。始端キャンセル信号送信部１８６０では、送られ
た始端キャンセル時の信号を出力する。

【０１３８】本実施例では、第４、第５、第６の実施例
と同様に、合成音を作成する音声合成部１８７０を持
つ。音声合成部１８７０で作成された合成音は合成音情
報作成部１８８０に送られる。合成音情報作成部１８８
０では、合成音情報を作成し、作成した合成音情報を波
形圧縮部１８３０に送信し、音声合成部１８７０から送
られた合成音を出力する。合成音情報については、合成
音の内容や合成音出力時のタイムスタンプ情報等が用い
られる。

【０１３９】波形圧縮部１８３０では、音声検出部１８
２０から送られた波形データを圧縮し、合成音情報作成
部１８８０で作成された合成音情報と、圧縮方式インデ
ックス作成部１８９０で作成された圧縮方式のインデッ
クスとを前記波形データの一部に含める。波形データの
一部に合成音情報、圧縮方式のインデックスを含める手
法としては、・合成音情報、圧縮方式のインデックスを
波形データのヘッダーに含めて圧縮する方法や、・圧縮
した波形データに合成音情報、圧縮方式のインデックス
を付加する方法等が用いられる。圧縮方式としては、VS
ELP方式、PSI-CELP方式等が用いられる。圧縮された波
形データは波形記憶部１８５０に送られる。波形記憶部
１８５０では、波形圧縮部１８３０から送られた圧縮波
形データを波形送信部１８４０に送信し、同一データを
記憶する。波形送信部１８４０では、波形圧縮部１８３
０から送られた圧縮波形データをサーバ側装置へ出力す
る。

【０１４０】波形・信号・圧縮方式・タスク情報受信部
１８１０に、サーバから送信された波形データ再送要求
信号が入力された場合、受信された信号は波形記憶部１
８５０に送られる。波形記憶部１８５０では記憶されて
いる圧縮波形データを波形送信部１８４０に送信する。
波形送信部１８４０では波形記憶部１８５０から送られ
た圧縮波形データを出力する。

【０１４１】図７（ｂ）を参照すると、サーバ側では、
波形・信号受信部２０１０と、波形伸張部２０２０と、
波形データ再送要求信号送信部２０３０と、分析部２０
４０と、認識部２０５０と、標準パターン記憶部２０６
０と、合成音情報取得部２０７０と、圧縮方式インデッ
クス取得部２０８０と、認識エンジン選択部２０９０
と、認識エンジン設定部２１００と、圧縮方式取得部２
１１０と、圧縮方式記憶部２１２０とを備えている。

【０１４２】サーバ側では、端末側の波形送信部１８４
０から出力された圧縮波形データ、又は始端キャンセル
信号送信部１８６０から出力された始端キャンセル時の
信号、又は圧縮方式要求信号送信部１９２０から出力さ
れた波形圧縮方式要求信号を波形・信号受信部２０１０
で受信する。波形・信号受信部２０１０では、波形圧縮
方式要求信号が受信された場合、受信信号を圧縮方式取
得部２１１０へ送る。

【０１４３】圧縮方式取得部２１１０では、波形・信号
受信部２０１０から波形圧縮方式要求信号が送られた場
合、圧縮方式記憶部２１２０に記憶されている圧縮方式
の中からサーバ側で利用可能な圧縮方式を取得し、取得
した圧縮方式情報を端末側に出力する。波形・信号受信
部２０１０において波形データが受信された場合、波形
伸張部２０２０に送信する。波形データの受信に失敗し
た場合は、波形データ再送要求信号送信部２０３０に波
形データ再送要求信号を送信する。波形データ再送要求
信号送信部２０３０では、波形・信号受信部２０１０か
ら送られた信号を出力する。

【０１４４】波形伸張部２０２０では、波形・信号受信
部２０１０から送られたデータを波形データとその他の
データとに分離し、波形データを伸張する。その他の情
報は合成音情報取得部２０７０と圧縮方式インデックス
取得部２０８０に送られ、伸張された波形データは分析
部２０４０に送られる。

【０１４５】合成音情報取得部２０７０では、波形伸張
部２０２０から送られた情報から合成音情報を取得す
る。取得された合成音情報は認識部２０５０に送られ
る。

【０１４６】圧縮方式インデックス取得部２０８０で
は、波形伸張部２０２０から送られた情報から圧縮方式
のインデックスを取得する。

【０１４７】取得されたインデックスは認識エンジン選
択部２０９０に送られる。認識エンジン選択部２０９０
では、圧縮方式インデックス取得部２０８０で取得され
たインデックスをもとに認識に用いる認識エンジンを選
択する。選択されたエンジンの情報は認識エンジン設定
部２１００と標準パターン記憶部２０６０に送られる。

【０１４８】認識エンジン設定部２１００では、認識エ
ンジン選択部２０９０から送られたエンジン情報を元に
使用するエンジンの分析手法を分析部２０４０へ送り、
認識手法を認識部２０５０へ送る。標準パターン記憶部
２０６０では、認識エンジン選択部２０９０から送られ
たエンジン情報より使用する標準パターンを設定する。
分析部２０４０では、波形伸張部２０２０で伸張された
波形データを特徴ベクトルに変換する。特徴ベクトルと
してはケプストラム、Δケプストラム等が用いられる。
分析された特徴ベクトルは認識部２０５０に送られる。
認識部２０５０では、分析部２０４０から送られた特徴
ベクトルと、標準パターン記憶部２０６０から送られた
標準パターンとの間の尤度を計算し、認識結果を求め
る。尤度の計算方法はViterbiアルゴリズム、ＤＰマッ
チング等が用いられる。求められた認識結果と合成音情
報取得部２０７０で取得された合成音情報は共に端末側
に出力されるか、又は、両者が関連付けられることでど
の合成音に対する認識結果であるかが対応付けされ、対
応付けされた後の認識結果が端末側に出力される。

【０１４９】波形・信号受信部２０１０に始端キャンセ
ル信号送信部１８６０から送信された始端キャンセル時
の信号が入力された場合、信号は認識部２０５０に送ら
れる。認識部２０５０では、波形・信号受信部２０１０
から始端キャンセル時の信号が送られてきた場合、認識
を途中で中断する。

【０１５０】上記実施例において、上記端末側の装置と
しては、例えば携帯電話端末が好適とされるが、端末
は、携帯電話端末に限定されるものではなく、サーバ・
クライアント型音声認識装置のサーバに接続可能とされ
る音声入力可能な任意の情報端末を含む。以上本発明を
上記各実施例に即して説明したが、本発明は、上記実施
例の構成にのみ限定されるものではなく、各実施例の組
合せを含むものであり、本発明は、特許請求の範囲の請
求項の範囲内で当業者であればなし得るであろう各種変
形、修正を含むことは勿論である。

【０１５１】

【発明の効果】以上説明したように、本発明によれば、
認識対象となるタスクの規模や難易度に適応し、クライ
アントとサーバ間で相互の音声処理仕様、能力を確認し
て音声圧縮伸張等の音声処理仕様を最適に設定すること
ができる、という効果を奏する。

【０１５２】本発明によれば、更に、サーバで認識処理
を行うため大規模なタスクの認識処理が可能となり、認
識エンジン等のアップデートに迅速に対応することがで
きるという効果を奏する。

【図面の簡単な説明】

【図１】（ａ）は、本発明の第１の実施例における端末
側の装置構成、（ｂ）は、本発明の第１の実施例におけ
るサーバ側の装置構成を示す図である。

【図２】（ａ）は、本発明の第２の実施例における端末
側の装置構成、（ｂ）は、本発明の第２の実施例におけ
るサーバ側の装置構成を示す図である。

【図３】（ａ）は、本発明の第３の実施例における端末
側の装置構成、（ｂ）は、本発明の第３の実施例におけ
るサーバ側の装置構成を示す図である。

【図４】（ａ）は、本発明の第４の実施例における端末
側の装置構成、（ｂ）は、本発明の第４の実施例におけ
るサーバ側の装置構成を示す図である。

【図５】（ａ）は、本発明の第５の実施例における端末
側の装置構成、（ｂ）は、本発明の第５の実施例におけ
るサーバ側の装置構成を示す図である。

【図６】（ａ）は、本発明の第６の実施例における端末
側の装置構成、（ｂ）は、本発明の第６の実施例におけ
るサーバ側の装置構成を示す図である。

【図７】（ａ）は、本発明の第７の実施例における端末
側の装置構成、（ｂ）は、本発明の第７の実施例におけ
るサーバ側の装置構成を示す図である。

【符号の説明】

１０音声検出部２０波形圧縮部３０波形送信部１１０波形受信部１２０波形伸張部１３０分析部１４０認識部１５０標準パターン記憶部２１０波形・信号受信部２２０音声検出部２３０波形圧縮部２４０波形送信部２５０波形記憶部３１０波形受信部３２０波形伸張部３３０波形データ再送要求信号送信部３４０分析部３５０認識部３６０標準パターン記憶部４１０波形・信号受信部４２０音声検出部４３０波形圧縮部４４０波形送信部４５０波形記憶部４６０始端キャンセル信号送信部５１０波形・信号受信部５２０波形伸張部５３０波形データ再送要求信号送信部５４０分析部５５０認識部５６０標準パターン記憶部６１０波形・信号受信部６２０音声検出部６３０波形圧縮部６４０波形送信部６５０波形記憶部６６０始端キャンセル信号送信部６７０音声合成部６８０合成音情報作成部７１０波形・信号受信部７２０波形伸張部７３０波形データ再送要求信号送信部７４０分析部７５０認識部７６０標準パターン記憶部７７０合成音情報取得部１０１０波形・信号・圧縮方式受信部１０２０音声検出部１０３０波形圧縮部１０４０波形送信部１０５０波形記憶部１０６０始端キャンセル信号送信部１０７０音声合成部１０８０合成音情報作成部１０９０圧縮方式インデックス作成部１１００圧縮方式選択部１１１０圧縮方式記憶部１１２０圧縮方式要求信号送信部１２１０波形・信号受信部１２２０波形伸張部１２３０波形データ再送要求信号送信部１２４０分析部１２５０認識部１２６０標準パターン記憶部１２７０合成音情報取得部１２８０圧縮方式インデックス取得部１２９０認識エンジン選択部１３００認識エンジン設定部１３１０圧縮方式取得部１３２０圧縮方式記憶部１４１０波形・信号・圧縮方式受信部１４２０音声検出部１４３０波形圧縮部１４４０波形送信部１４５０波形記憶部１４６０始端キャンセル信号送信部１４７０音声合成部１４８０合成音情報作成部１４９０圧縮方式インデックス作成部１５００圧縮方式選択部１５１０圧縮方式記憶部１５２０圧縮方式要求信号送信部１６１０波形・信号・タスク情報受信部１６２０波形伸張部１６３０波形データ再送要求信号送信部１６４０分析部１６５０認識部１６６０標準パターン記憶部１６７０合成音情報取得部１６８０圧縮方式インデックス取得部１６９０認識エンジン選択部１７００認識エンジン設定部１７１０圧縮方式取得部１７２０圧縮方式・タスク情報対応テーブル記憶部１７３０タスク情報記憶部１８１０波形・信号・圧縮方式・タスク情報受信部１８２０音声検出部１８３０波形圧縮部１８４０波形送信部１８５０波形記憶部１８６０始端キャンセル信号送信部１８７０音声合成部１８８０合成音情報作成部１８９０圧縮方式インデックス作成部１９００圧縮方式選択部１９１０圧縮方式・タスク情報対応テーブル記憶部１９２０圧縮方式要求信号送信部１９３０タスク情報記憶部２０１０波形・信号受信部２０２０波形伸張部２０３０波形データ再送要求信号送信部２０４０分析部２０５０認識部２０６０標準パターン記憶部２０７０合成音情報取得部２０８０圧縮方式インデックス取得部２０９０認識エンジン選択部２１００認識エンジン設定部２１１０圧縮方式取得部２１２０圧縮方式記憶部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/04 (72)発明者吉田和永東京都港区芝五丁目７番１号日本電気株式会社内Ｆターム(参考） 5D015 DD03 FF01 KK01

Claims

【特許請求の範囲】

【請求項１】端末側の装置と、サーバ側の装置と、を備
えた音声認識装置であって、前記端末側の装置が、入力されたデータの音声区間を検出する音声検出部と、前記音声検出部で検出された音声区間の波形データを圧
縮する波形圧縮部と、前記波形圧縮部で圧縮された波形データを出力する波形
送信部と、を備え、前記サーバ側の装置が、前記端末側の装置から出力された波形データを受信する
波形受信部と、前記波形受信部で受信された波形データを伸張する波形
伸張部と、前記波形伸張部で伸張された波形データを用いて認識処
理を行い、認識した結果を出力する認識部と、を備えている、ことを特徴とする音声認識装置。
【請求項２】端末側の装置と、サーバ側の装置と、を備
えた音声認識装置であって、前記端末側の装置が、入力された音声の波形データと、前記サーバ側の装置か
ら送信される波形データ再送要求信号とを受信する波形
・信号受信部と、前記波形・信号受信部で受信された波形データの音声区
間を検出する音声検出部と、前記音声検出部で検出された音声区間の波形データを圧
縮する波形圧縮部と、波形データを出力する波形送信部と、前記波形圧縮部で圧縮された波形データを一時記憶しな
がら前記波形データを、前記波形送信部へ送信すると共
に、前記波形・信号受信部において前記サーバ側の装置
からの波形データ再送要求信号が受信された場合に、記
憶された波形データを、前記波形送信部へ送信する波形
記憶部と、を備え、前記サーバ側の装置が、前記端末側の装置から出力された波形データを受信する
波形受信部と、前記波形受信部で受信された波形データを伸張する波形
伸張部と、前記波形伸張部で伸張された波形データを用いて認識処
理を行い、認識した結果を出力する認識部と、前記波形受信部で圧縮波形データの受信に失敗した場合
には、波形データの再送要求信号を前記波形受信部から
受け取り波形データ再送要求信号を出力する波形データ
再送要求信号送信部と、を備えている、ことを特徴とす
る音声認識装置。
【請求項３】端末側の装置と、サーバ側の装置と、を備
えた音声認識装置であって、前記端末側の装置が、入力された音声の波形データと、前記サーバ側の装置か
ら送信される波形データ再送要求信号とを受信する波形
・信号受信部と、前記波形・信号受信部で受信された波形データの音声区
間を検出する音声検出部と、前記音声検出部で検出された音声区間の波形データを圧
縮する波形圧縮部と、波形データを出力する波形送信部
と、前記波形圧縮部で圧縮された波形データを一時記憶しな
がら前記波形データを、前記波形送信部へ送信すると共
に、前記波形・信号受信部において、前記サーバ側の装
置からの波形データ再送要求信号が受信された場合に、
記憶された波形データを、前記波形送信部へ送信する波
形記憶部と、前記音声検出部で音声の検出後に該検出がキャンセルさ
れた場合、前記音声検出部から送信された始端キャンセ
ル時の信号を受け取り始端キャンセル信号を出力する始
端キャンセル信号送信部と、を備え、前記サーバ側の装置が、前記端末側の装置から出力された波形データと、前記始
端キャンセル信号とを受信する波形・信号受信部と、前記波形・信号受信部で受信された音声の波形データを
伸張する波形伸張部と、前記波形伸張部で伸張された波形データを用いて認識処
理を行い、認識した結果を出力する認識部と、前記波形受信部で圧縮波形データの受信に失敗した場合
には、波形データの再送要求信号を前記波形受信部から
受け取り波形データ再送要求信号を出力する波形データ
再送要求信号送信部と、を備え、前記認識部は、前記波形・信号受信部において
始端キャンセル信号を受信した場合に、認識処理を中止
する、ことを特徴とする音声認識装置。
【請求項４】端末側の装置と、サーバ側の装置と、を備
えた音声認識装置であって、前記端末側の装置が、入力された波形データと、前記サーバ側の装置から送信
される波形データ再送要求信号と、前記サーバ側の装置
から送信される前記サーバ側の装置で利用可能な圧縮方
式情報とを少なくとも受信する波形・信号・圧縮方式受
信部と、前記波形・信号・圧縮方式受信部で受信された波形デー
タの音声区間を検出する音声検出部と、前記音声検出部で検出された音声区間の波形データを圧
縮する波形圧縮部と、波形データを出力する波形送信部
と、前記波形圧縮部で圧縮された波形データを一時記憶しな
がら前記波形データを、前記波形送信部へ送信すると共
に、前記波形・信号・圧縮方式受信部において、前記サ
ーバ側の装置からの波形データ再送要求信号が受信され
た場合に、記憶された波形データを、前記波形送信部へ
送信する波形記憶部と、前記波形・信号・圧縮方式受信部において前記サーバ側
で利用可能な圧縮方式情報を受信した場合に、前記波形
・信号・圧縮方式受信部から送られた圧縮方式情報より
最適な圧縮方式を選択する圧縮方式選択部と、前記圧縮方式選択部で選択された圧縮方式のインデック
スを作成する圧縮方式インデックス作成部と、を備え、前記波形圧縮部は、前記音声検出部で検出された音声区
間の波形データを圧縮し、前記圧縮方式インデックス作
成部で作成された圧縮方式インデックスを波形データの
一部に組み込み、前記サーバ側の装置が、前記端末側の装置から送信された波形データと、圧縮方
式要求信号とを受信する波形・信号受信部と、前記波形・信号受信部で受信された音声の波形データを
伸張する波形伸張部と、前記波形伸張部で伸張された波形データを用いて認識処
理を行い、認識した結果を出力する認識部と、前記波形・信号受信部で圧縮波形データの受信に失敗し
た場合には、波形データの再送要求信号を前記波形受信
部から受け取り波形データ再送要求信号を出力する波形
データ再送要求信号送信部と、前記サーバ側の装置で利用可能な圧縮方式の情報を記憶
する圧縮方式記憶部と、前記波形・信号・圧縮方式受信部から圧縮方式要求信号
が送られた場合に前記圧縮方式記憶部に記憶されている
圧縮方式情報を取得し、前記端末側の装置に圧縮方式情
報を出力する圧縮方式取得部と、前記波形伸張部で伸張されたデータから圧縮方式のイン
デックスを取得する圧縮方式インデックス取得部と、前記圧縮方式インデックス取得部で取得された圧縮方式
のインデックスから認識エンジンを選択する認識エンジ
ン選択部と、前記認識エンジン選択部で選択されたエンジンを記憶さ
れているエンジンの中から設定する認識エンジン設定部
と、を備えている、ことを特徴とする音声認識装置。
【請求項５】前記端末側の装置が、合成音を合成する音声合成部と、前記音声合成部で合成された合成音の情報を作成し、合
成音を出力する合成音情報作成部と、を備え、前記波形圧縮部は、前記音声検出部で検出された音声区
間の波形データを圧縮し、前記合成音情報作成部で作成
された合成音情報を前記波形データの一部に組み込み、前記サーバ側の装置が、前記波形伸張部で伸張されたデータから合成音情報を取
得する合成音情報取得部を備え、前記認識部が、認識が
終了した場合に前記合成音情報取得部で取得された合成
音情報より合成音と認識結果との対応付けを行い、対応
付けされた認識結果、又は認識結果と合成音情報を出力
する、ことを特徴とする請求項３又は４に記載の音声認
識装置。
【請求項６】前記サーバ側の装置において、前記波形圧
縮部は、前記音声検出部で検出された音声区間の波形デ
ータを圧縮し、前記合成音情報作成部で作成された合成
音情報と、前記圧縮方式インデックス作成部で作成され
た圧縮方式インデックスを波形データの一部に組み込
む、ことを特徴とする請求項５に記載の音声認識装置。
【請求項７】前記サーバ側装置において、前記波形・信号受信部に代わって、前記端末側の装置か
ら送信された波形データと、始端キャンセル信号と、圧
縮方式要求信号と、コンテンツ側から送信されたタスク
情報と、を受信する波形・信号・タスク情報受信部を備
え、前記波形・信号・タスク情報受信部で受信されたタスク
情報を記憶するタスク情報記憶部と、タスク情報と該タスク使用時に利用可能な１個以上の圧
縮方式を記憶する圧縮方式・タスク情報対応テーブル記
憶部と、前記波形・信号・タスク情報受信部において圧縮方式要
求信号を受信した場合に、前記タスク情報記憶部から送
られたタスク情報と前記圧縮方式・タスク情報対応テー
ブル記憶部から送られたタスク情報と圧縮方式との対応
テーブルより利用可能な圧縮方式情報を取得し、前記端
末側の装置に出力する圧縮方式取得部とを備えている、
ことを特徴とする請求項４又は５に記載の音声認識装
置。
【請求項８】前記端末側の装置において、前記波形・信号・圧縮方式受信部に代わって、入力され
た波形データと、コンテンツ側から送信されたタスク情
報と、前記サーバ側の装置から送信された波形データ再
送要求信号と、前記サーバ側の装置から送信された前記
サーバ側の装置で利用可能な圧縮方式情報とを受信する
波形・信号・圧縮方式・タスク情報受信部を備え、前記波形・信号・圧縮方式・タスク情報受信部で受信さ
れたタスク情報を記憶するタスク情報記憶部と、タスク情報とそのタスク使用時に利用可能な１個以上の
圧縮方式の対応テーブルを記憶する圧縮方式・タスク情
報対応テーブル記憶部と、前記波形・信号・圧縮方式・タスク情報受信部において
サーバ側で利用可能な圧縮方式情報を受信した場合に、
前記タスク情報記憶部から送られたタスク情報と、前記
圧縮方式・タスク対応テーブル記憶部から送られたタス
ク情報と圧縮方式との対応テーブルと、前記波形・信号
・圧縮方式・タスク情報受信部から送られた前記サーバ
側の装置で利用可能な圧縮方式情報とをもとに、最適な
圧縮方式を選択する圧縮方式選択部と、を備えたことを特徴とする請求項５に記載の音声認識装
置。
【請求項９】端末から出力された圧縮波形データを受信
して伸張し、該伸張された波形データを用いて認識処理
を行い、認識した結果を出力するサーバ装置に接続さ
れ、サーバ・クライアント音声認識装置を構成する端末
であって、入力されたデータの音声区間を検出する音声検出部と、前記音声検出部で検出された音声区間の波形データを圧
縮する波形圧縮部と、前記波形圧縮部で圧縮された波形データを出力する波形
送信部と、を備えている、ことを特徴とする端末。
【請求項１０】入力されたデータの音声区間を検出し、
該検出された音声区間の波形データを圧縮する波形圧縮
部と、前記波形圧縮部で圧縮された波形データを出力す
る端末に接続され、前記端末とともに、サーバ・クライ
アント音声認識装置を構成するサーバ装置であって、前記端末から出力された波形データを少なくとも受信す
る受信部と、前記波形受信部で受信された波形データを伸張する波形
伸張部と、前記波形伸張部で伸張された波形データを用いて認識処
理を行い、認識した結果を出力する認識部と、を備えている、ことを特徴とするサーバ装置。
【請求項１１】入力された音声の波形データと、前記サ
ーバ装置から送信された波形データ再送要求信号を受信
する波形・信号受信部と、前記波形・信号受信部で受信された波形データの音声区
間を検出する音声検出部と、前記音声検出部で検出された音声区間の波形データを圧
縮する波形圧縮部と、波形データをサーバ装置に送信する波形送信部と、前記波形圧縮部で圧縮された波形データを、一時記憶し
ながら、前記波形データを、前記波形送信部へ送信する
と共に、前記波形・信号受信部において前記サーバ装置
からの波形データ再送要求信号が受信された場合に、記
憶された波形データを、前記波形送信部へ送信する波形
記憶部と、をさらに備えている、ことを特徴とする請求項９に記載
の端末。
【請求項１２】前記受信部で、圧縮波形データの受信に
失敗した場合に、波形データ再送要求信号を前記端末に
送信する波形データ再送要求信号送信部を備えている、
ことを特徴とする請求項１０に記載のサーバ装置。
【請求項１３】前記音声検出部で音声の検出後に該検出
がキャンセルされた場合、前記音声検出部から送信され
た始端キャンセル時の信号を受け取り、始端キャンセル
信号を前記サーバ装置に送信する始端キャンセル信号送
信部をさらに備えている、ことを特徴とする請求項１１
に記載の端末。
【請求項１４】前記端末において音声の検出後に該検出
がキャンセルされた場合に出力される始端キャンセル信
号を、前記受信部が受信した場合に、前記受信部からの
通知に基づき、前記認識部は、認識処理を中止する、こ
とを特徴とする請求項１０に記載のサーバ装置。
【請求項１５】前記端末の波形・信号受信部が、前記サ
ーバ側の装置から送信された前記サーバ側の装置で利用
可能な圧縮方式情報を受信した場合に、前記圧縮方式情
報より最適な圧縮方式を選択する圧縮方式選択部と、前記圧縮方式選択部で選択された圧縮方式のインデック
スを作成する圧縮方式インデックス作成部と、を備え、前記波形圧縮部は、前記音声検出部で検出された音声区
間の波形データを圧縮し、前記圧縮方式インデックス作
成部で作成された圧縮方式インデックスを波形データの
一部に組み込む、ことを特徴とする請求項１１又は１３
に記載の端末。
【請求項１６】前記受信部は、前記端末から送信される
圧縮方式要求信号を受信し、前記サーバ側で利用可能な圧縮方式の情報を記憶する圧
縮方式記憶部と、前記受信部で圧縮方式要求信号を受信した場合に、前記
圧縮方式記憶部に記憶されている圧縮方式情報を取得
し、前記端末側に圧縮方式情報を出力する圧縮方式取得
部と、前記波形伸張部で伸張されたデータから圧縮方式のイン
デックスを取得する圧縮方式インデックス取得部と、前記圧縮方式インデックス取得部で取得された圧縮方式
のインデックスから認識エンジンを選択する認識エンジ
ン選択部と、前記認識エンジン選択部で選択されたエンジンを記憶さ
れているエンジンの中から設定する認識エンジン設定部
と、を備えている、ことを特徴とする請求項１０、１２、１
４のいずれか一に記載のサーバ装置。
【請求項１７】合成音を合成する音声合成部と、前記音声合成部で合成された合成音の情報を作成し、合
成音を出力する合成音情報作成部と、を備え、前記波形圧縮部は、前記音声検出部で検出され
た音声区間の波形データを圧縮し、前記合成音情報作成
部で作成された合成音情報を前記波形データの一部に組
み込む、ことを特徴とする請求項１１、１３、１５のい
ずれか一に記載の端末。
【請求項１８】前記波形伸張部で伸張されたデータから
合成音情報を取得する合成音情報取得部を備え、前記認
識部が、認識が終了した場合に前記合成音情報取得部で
取得された合成音情報より合成音と認識結果との対応付
けを行い、対応付けされた認識結果、又は認識結果と合
成音情報を出力する、ことを特徴とする請求項１０、１
２、１４、１６のいずれか一に記載のサーバ装置。
【請求項１９】前記受信部が、前記端末側の装置から送
信される波形データと、始端キャンセル信号と、圧縮方
式要求信号と、コンテンツ側から送信されたタスク情報
と、を受信し、前記波形・信号・タスク情報受信部で受信されたタスク
情報を記憶するタスク情報記憶部と、タスク情報と該タスク使用時に利用可能な１個以上の圧
縮方式を記憶する圧縮方式・タスク情報対応テーブル記
憶部と、前記波形・信号・タスク情報受信部において圧縮方式要
求信号を受信した場合に、前記タスク情報記憶部から送
られたタスク情報と前記圧縮方式・タスク情報対応テー
ブル記憶部から送られたタスク情報と圧縮方式との対応
テーブルより利用可能な圧縮方式情報を取得し、前記端
末側の装置に出力する圧縮方式取得部とを備えている、
ことを特徴とする請求項１０、１２、１４、１６、１８
のいずれか一に記載のサーバ装置。
【請求項２０】前記波形・信号受信部では、入力された
波形データと、コンテンツ側から送信されたタスク情報
と、前記サーバ側の装置から送信される波形データ再送
要求信号と、前記サーバ側の装置から送信された前記サ
ーバ側の装置で利用可能な圧縮方式情報とを受信し、前記受信されたタスク情報を記憶するタスク情報記憶部
と、前記タスク情報とそのタスク使用時に利用可能な１個以
上の圧縮方式の対応テーブルを記憶する圧縮方式・タス
ク情報対応テーブル記憶部と、前記波形・信号受信部で前記サーバ側で利用可能な圧縮
方式情報を受信した場合に、前記タスク情報記憶部から
送られたタスク情報と、前記圧縮方式・タスク対応テー
ブル記憶部から送られたタスク情報と圧縮方式との対応
テーブルと、前記波形・信号・圧縮方式・タスク情報受
信部から送られた前記サーバ側の装置で利用可能な圧縮
方式情報をもとに最適な圧縮方式を選択する圧縮方式選
択部と、を備えている、ことを特徴とする請求項１１、１３、１
５、１７のいずれか一に記載の端末。
【請求項２１】サーバ装置と端末を有するサーバ・クラ
イアントシステムの音声認識方法であって、前記端末において、入力されたデータの音声区間を検出するステップと、前記検出された音声区間の波形データを圧縮するステッ
プと、前記圧縮された波形データをサーバに送信するステップ
と、を有し、前記サーバ装置において、前記端末から出力された波形データを受信するステップ
と、前記受信された波形データを伸張するステップと、前記伸張された波形データを用いて認識処理を行い、認
識した結果を出力するステップと、を有する、ことを特徴とする音声認識方法。
【請求項２２】サーバ装置と端末を有するサーバ・クラ
イアントシステムの音声認識方法であって、前記端末において、入力された音声の波形データを受信するステップと、前記受信された波形データの音声区間を検出するステッ
プと、前記検出された音声区間の波形データを圧縮するステッ
プと、前記圧縮された波形データを波形記憶部に一時記憶しな
がら前記サーバ装置に送信するステップと、前記サーバ装置から送信される波形データ再送要求信号
を受信した場合に、波形記憶部に記憶された波形データ
を、前記サーバ装置に送信するステップと、を有し、前記サーバ装置において、前記端末から出力される波形データを受信するステップ
と、前記受信された波形データを伸張するステップと、前記伸張された波形データを用いて認識処理を行い、認
識した結果を出力するステップと、前記端末から送信される圧縮波形データの受信に失敗し
た場合には、波形データ再送要求信号を前記端末に出力
するステップと、を有する、ことを特徴とする音声認識方法。
【請求項２３】前記端末において、音声の検出後に該検出がキャンセルされた場合、始端キ
ャンセル信号を前記サーバ装置に送信するステップをさ
らに有し、前記サーバ装置において、前記端末からの前記始端キャンセル信号を受信した場合
に、認識処理を中止するステップを有する、ことを特徴
とする請求項２１又は２２記載の音声認識方法。
【請求項２４】前記端末において、前記サーバ装置から送信された前記サーバ側で利用可能
な圧縮方式情報を受信するステップと、前記受信した圧縮方式情報により最適な圧縮方式を選択
するステップと、前記選択された圧縮方式のインデックスを作成するステ
ップと、音声区間の波形データを圧縮し、作成された圧縮方式イ
ンデックスを波形データの一部に組み込んで、前記サー
バ装置に送信するステップと、を有し、前記サーバ装置において、前記端末から送信される圧縮方式要求信号を受信した場
合に、前記サーバ側で利用可能な圧縮方式の情報を記憶
する圧縮方式記憶部に記憶されている圧縮方式情報を取
得し、前記端末に圧縮方式情報を出力するステップと、伸張されたデータから圧縮方式のインデックスを取得す
るステップと、前記取得された圧縮方式のインデックスから認識エンジ
ンを選択するステップと、前記選択されたエンジンを記憶されているエンジンの中
から設定するステップと、を有する、ことを特徴とする請求項２２又は２３記載の
音声認識方法。
【請求項２５】前記端末において、合成音を合成するステップと、前記合成された合成音の情報を作成し、合成音を出力す
るステップと、検出された音声区間の波形データを圧縮し、前記合成音
情報作成部で作成された合成音情報を前記波形データの
一部に組み込んで、前記サーバ装置に送信するステップ
と、を含み、前記サーバ装置において、前記伸張されたデータから合成音情報を取得するステッ
プを有し、認識が終了した場合に、前記取得された合成音情報より
合成音と認識結果との対応付けを行い、対応付けされた
認識結果、又は認識結果と合成音情報を出力する、こと
を特徴とする請求項２２乃至２４のいずれか一に記載の
音声認識方法。
【請求項２６】前記サーバ装置において、コンテンツ側から送信されたタスク情報を受信してタス
ク情報記憶部に記憶するステップと、圧縮方式要求信号を受信した場合に、タスク情報と、圧
縮方式との対応テーブルより、利用可能な圧縮方式情報
を取得し、前記端末に送信するステップを有することを
特徴とする請求項２２乃至２５のいずれか一に記載の音
声認識方法。
【請求項２７】前記端末において、コンテンツ側から送信されたタスク情報と、前記サーバ
装置から送信された前記サーバ側で利用可能な圧縮方式
情報とを受信するステップと、前記サーバ側で利用可能な圧縮方式情報を受信した場合
に、前記タスク情報と、圧縮方式・タスク対応テーブル
記憶部から送られたタスク情報と圧縮方式との対応テー
ブルと、サーバ側の装置で利用可能な圧縮方式情報をも
とに最適な圧縮方式を選択するステップと、を有する、ことを特徴とする請求項２６記載の音声認識
方法。