JP2003005949A - サーバ・クライアント型音声認識装置及び方法 - Google Patents

サーバ・クライアント型音声認識装置及び方法

Info

Publication number
JP2003005949A
JP2003005949A JP2001186926A JP2001186926A JP2003005949A JP 2003005949 A JP2003005949 A JP 2003005949A JP 2001186926 A JP2001186926 A JP 2001186926A JP 2001186926 A JP2001186926 A JP 2001186926A JP 2003005949 A JP2003005949 A JP 2003005949A
Authority
JP
Japan
Prior art keywords
waveform
unit
compression method
waveform data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001186926A
Other languages
English (en)
Other versions
JP3885523B2 (ja
Inventor
Eiko Yamada
栄子 山田
Hiroshi Hagane
広 羽金
Kazunaga Yoshida
和永 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001186926A priority Critical patent/JP3885523B2/ja
Priority to EP08101940A priority patent/EP1926088A3/en
Priority to EP02743659A priority patent/EP1411499B1/en
Priority to PCT/JP2002/006156 priority patent/WO2003001511A1/ja
Priority to US10/481,324 priority patent/US7478046B2/en
Priority to DE60229392T priority patent/DE60229392D1/de
Publication of JP2003005949A publication Critical patent/JP2003005949A/ja
Application granted granted Critical
Publication of JP3885523B2 publication Critical patent/JP3885523B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Abstract

(57)【要約】 【課題】送信時間の短縮、コストの低減を図る音声認識
装置の提供。 【解決手段】端末側の装置が、入力されたデータの音声
区間を検出する音声検出部10と、音声検出部10で検
出された音声区間の波形データを圧縮する波形圧縮部2
0と、波形圧縮部20で圧縮された波形データを出力す
る波形送信部30と、を備え、前記サーバ側の装置が、
端末側の装置から出力された波形データを受信する波形
受信部110と、波形受信部110で受信された波形デ
ータを伸張する波形伸張部120と、波形伸張部120
で伸張された波形データを分析する分析部130と、認
識処理を行い、認識した結果を出力する認識部140
と、を備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識技術に関
し、特に、携帯電話等の端末(クライアント)側で音声
検出を行い、サーバ側で音声分析、認識を行うサーバ・
クライアント型の音声認識装置と方法に関する。
【0002】
【従来の技術】従来より、端末側(クライアント側)で
音声検出を行い、検出後の波形データをサーバ側へ送信
し、サーバ側にて分析、認識処理を行うサーバ・クライ
アント型音声認識装置として、Dialogic CSP(Continuou
s Speech Processing)を用いた音声認識装置が知られて
いる。
【0003】また、端末側で音声検出を行い、検出後の
波形データを圧縮し、圧縮した波形データをサーバ側へ
送信する方式としてVoIP(Voiceover Internet Protoco
l)が知られており、文献1(Nikkei Internet Technolo
gy, pp.75〜93, May 1998)に詳しく述べられている。
またVoIPで送信された波形データを伸張し、再度認識用
の音声検出を行い、検出後の波形データを分析、認識処
理を行うサーバ・クライアント型音声認識装置も知られ
ている。
【0004】また、近年、3GPP(Third Generation
Partnership Project)のワークグループの1つである
ETSI(the European Telecommunications Standards Ins
titute)-STQ Aurora DSR(Distributed Speech Recognit
ion) Working Groupが進めている標準化プロジェクトに
おいて、端末側で音声検出、分析を行い、分析後のパラ
メータ(特徴ベクトル)をサーバ側に送信し、サーバ側
で音声認識を行うサーバ・クライアント型音声認識装置
が提案されている。
【0005】従来のサーバ・クライアント型音声認識装
置に用いられているDialogic CSPでは、端末側で検出さ
れた波形データを圧縮せずそのままサーバへ送信してい
るため、送信時の時間、コストを多く必要とする、とい
う問題点を有している。
【0006】また、VoIPを応用した方式では、端末側で
伸張し音声検出を行ったデータに対し、サーバ側で認識
用の音声検出を再度行っているため、重複した音声検出
処理が無駄な処理となっている。更に、音声認識用の音
声検出をサーバ側で行っていることから、サーバ側で短
い音声について音声の始端検出がキャンセルされた場合
に、端末側で音声検出キャンセル情報を受信するのが遅
れ、それによってアプリの動作に遅延が生じるという、
という問題点を有している。
【0007】また、ETSI-STQ Aurora DSR Working Grou
pが進めているサーバ・クライアント型音声認識装置の
枠組みについては、分析後のパラメータが予め決められ
ているため、独自仕様のパラメータを使用できないとい
う欠点や、分析部が端末側に設定されているため、新規
の分析手法を端末側に搭載するためのコスト、時間を多
く必要とするという、という問題点を有している。
【0008】
【発明が解決しようとする課題】端末側(クライアント
側)で音声検出を行い、検出後の波形データをサーバ側
へ送信し、サーバ側にて分析、認識処理を行う構成の従
来のサーバ・クライアント型音声認識装置は、端末側で
検出された波形データを圧縮することなく、そのままサ
ーバへ送信しているため、送信時の時間、コストを多く
必要とするという、問題点を有している。
【0009】また、端末側で音声検出を行い、検出後の
波形データを圧縮し、圧縮した波形データをサーバ側へ
送信し、サーバ側にて波形データを伸張し、再度、認識
用の音声検出を行い、検出後の波形データを分析、認識
処理を行う構成の従来のサーバ・クライアント型音声認
識装置は、端末側で伸張し音声検出を行ったデータに対
し、サーバ側で認識用の音声検出を再度行っているた
め、重複した音声検出処理が無駄な処理となっている、
という問題点を有している。
【0010】また、端末側で入力された音声データの音
声検出、分析を行い、分析後のパラメータをサーバへ送
信し、サーバ側では送信された分析後のパラメータを用
い音声認識を行う構成の従来のサーバ・クライアント型
音声認識装置は、認識時に用いるパラメータが決められ
ているため独自仕様のパラメータを用いることができな
いという問題点や、新規の分析手法を端末に搭載するた
めのコスト、時間を多く必要とする、という問題点を有
している。
【0011】したがって、本発明が解決しようとする主
たる課題は、送信時間の短縮、コストの低減を図る音声
認識装置及び方法を提供することにある。
【0012】
【課題を解決するための手段】上記課題を解決するため
の手段を提供する本発明は、その第1のアスペクトにお
いて、入力されたデータの音声区間を検出する音声検出
部と、前記音声検出部で検出された音声区間の波形デー
タを圧縮する波形圧縮部と、前記波形圧縮部で圧縮され
た波形データを出力する波形送信部とを有して構成され
る端末側(クライアント側)の装置と、前記端末側の装
置から出力された波形データを受信する波形受信部と、
前記波形受信部で受信された波形データを伸張する波形
伸張部と、前記波形伸張部で伸張された波形データを用
いて認識処理を行い、認識した結果を出力する認識部と
を有して構成されるサーバ側の装置とを備えている。
【0013】本発明は、第2のアスペクトにおいて、前
記波形圧縮部で圧縮された波形データを一時記憶しなが
らその波形データを波形送信部へ送信すると共に、入力
された波形データとサーバ側から送信された波形データ
再送要求信号を受信する波形・信号受信部においてサー
バ側からの波形データ再送要求信号が受信された場合
に、記憶された波形データを波形送信部へ送信する波形
記憶部を有する構成としてもよい。
【0014】本発明は、第3のアスペクトにおいて、サ
ーバ側装置において、端末側装置から出力された波形デ
ータと始端キャンセル信号を受信する波形・信号受信部
を備え、認識部では、前記波形・信号受信部で始端キャ
ンセル信号を受信した場合に認識処理を中止する構成と
してもよい。
【0015】本発明は、第4のアスペクトにおいて、合
成音を合成する音声合成部と、前記音声合成部で合成さ
れた合成音の情報を作成し、合成音を出力する合成音情
報作成部と、前記音声検出部で検出された音声区間の波
形データを圧縮し、前記合成音情報作成部で作成された
合成音情報を前記波形データの一部に組み込む波形圧縮
部とを有する端末側の装置と、前記波形伸張部で伸張さ
れたデータから合成音情報を取得する合成音情報取得部
と、認識が終了した場合に前記合成音情報取得部で取得
された合成音情報より合成音と認識結果との対応付けを
行い、対応付けされた認識結果、又は認識結果と合成音
情報を出力する認識部とを有するサーバ側の装置とを備
えている。
【0016】本発明は、第5のアスペクトにおいて、入
力された波形データと、サーバ側から送信された波形デ
ータ再送要求信号とサーバ側から送信されたサーバ側で
利用可能な圧縮方式情報を受信する波形・信号・圧縮方
式受信部と、前記波形・信号・圧縮方式受信部において
サーバ側で利用可能な圧縮方式情報を受信した場合に、
前記波形・信号・圧縮方式受信部から送られた圧縮方式
情報より最適な圧縮方式を選択する圧縮方式選択部と、
前記圧縮方式選択部で選択された圧縮方式のインデック
スを作成する圧縮方式インデックス作成部と、前記音声
検出部で検出された音声区間の波形データを圧縮し、前
記合成音情報作成部で作成された合成音情報と、前記圧
縮方式インデックス作成部で作成された圧縮方式インデ
ックスを波形データの一部に組み込む波形圧縮部とを有
する端末側装置と、前記端末側の装置から送信された波
形データと、圧縮方式要求信号を受信する波形・信号受
信部と、サーバ側で利用可能な圧縮方式を記憶する圧縮
方式記憶部と、前記波形・信号受信部から圧縮方式要求
信号が送られた場合に前記圧縮方式記憶部に記憶されて
いる圧縮方式を取得し、端末側装置に圧縮方式情報を出
力する圧縮方式取得部と、前記波形伸張部で伸張された
データから圧縮方式のインデックスを取得する圧縮方式
インデックス取得部と、前記圧縮方式インデックス取得
部で取得された圧縮方式のインデックスから認識エンジ
ンを選択する認識エンジン選択部と、前記認識エンジン
選択部で選択されたエンジンを記憶されているエンジン
の中から設定する認識エンジン設定部とを有するサーバ
側の装置とを備えている。
【0017】本発明は、第6のアスペクトにおいて、サ
ーバ側装置において、端末側の装置から送信された波形
データと始端キャンセル信号と圧縮方式要求信号とコン
テンツ側から送信されたタスク情報とを受信する波形・
信号・タスク情報受信部と、前記波形・信号・タスク情
報受信部で受信されたタスク情報を記憶するタスク情報
記憶部と、タスク情報とそのタスク使用時に利用可能な
1個以上の圧縮方式を記憶する圧縮方式・タスク情報対
応テーブル記憶部と、前記波形・信号・タスク情報受信
部において圧縮方式要求信号を受信した場合に、前記タ
スク情報記憶部から送られたタスク情報と前記圧縮方式
・タスク情報対応テーブル記憶部から送られたタスク情
報と圧縮方式との対応テーブルより利用可能な圧縮方式
情報を取得し端末側装置に出力する圧縮方式取得部とを
備えている。
【0018】本発明は、第7のアスペクトにおいて、端
末側装置において、入力された波形データと、コンテン
ツ側から送信されたタスク情報とサーバ側から送信され
た波形データ再送要求信号とサーバ側から送信されたサ
ーバ側で利用可能な圧縮方式情報とを受信する波形・信
号・圧縮方式・タスク情報受信部と、前記波形・信号・
圧縮方式・タスク情報受信部で受信されたタスク情報を
記憶するタスク情報記憶部と、タスク情報とそのタスク
使用時に利用可能な1個以上の圧縮方式の対応テーブル
を記憶する圧縮方式・タスク情報対応テーブル記憶部
と、前記波形・信号・圧縮方式・タスク情報受信部にお
いてサーバ側で利用可能な圧縮方式情報を受信した場合
に、前記タスク情報記憶部から送られたタスク情報と、
前記圧縮方式・タスク対応テーブル記憶部から送られた
タスク情報と圧縮方式との対応テーブルと、前記波形・
信号・圧縮方式・タスク情報受信部から送られたサーバ
側で利用可能な圧縮方式情報をもとに最適な圧縮方式を
選択する圧縮方式選択部とを備えている。
【0019】
【発明の実施の形態】発明の実施の形態について説明す
る。前述した従来の技術の問題点を解決し、上記した課
題を解決する本発明は、サーバと端末よりなるサーバ・
クライアント型音声認識装置よりなり、端末側で認識用
の音声検出を行い、検出後の波形データを圧縮し、圧縮
後の波形データをサーバ側に送信し、サーバ側で音声伸
張、分析、認識を行うものである。
【0020】[第1の実施の形態]本発明の第1の実施
の形態に係る音声認識装置は、図1を参照すると、端末
(クライアント端末)は、入力されたデータの音声区間
を検出する音声検出部(10)と、音声検出部(10)
で検出された音声区間の波形データを圧縮する波形圧縮
部(20)と、波形圧縮部(20)で圧縮された波形デ
ータを出力する波形送信部(30)と、を備え、サーバ
側が、端末から出力された波形データを受信する波形受
信部(110)と、波形受信部(110)で受信された
波形データを伸張する波形伸張部(120)と、波形伸
張部(120)で伸張された波形データを用いて音声の
分析を行う分析部(130)と、分析部(130)での
分析結果(特徴量)と標準パターン記憶部(150)に
基づき認識処理を行い、認識した結果を出力する認識部
(140)と、を備えている。この実施の形態では、音
声検出後の圧縮された波形データをサーバに送信し、サ
ーバ側で音声分析、認識を行うため、分析後のパラメー
タ(特徴ベクトル)の仕様を自由に設定することが可能
である。
【0021】また、分析部(130)、認識部(14
0)をサーバ側に備えているため、新規の分析手法、認
識手法を搭載するためのコストと時間が少なくて済むと
いう利点を持つ。
【0022】また、送信する波形データは圧縮後のデー
タであるため、送信時に必要とする時間、コストが少な
くて済むという利点も併せ持つ。
【0023】上記第1の実施の形態に対応した、音声認
識方法は、端末側装置において、入力されたデータの音
声区間を検出するステップと、前記検出された音声区間
の波形データを圧縮するステップと、前記圧縮された波
形データをサーバに送信するステップと、を有し、前記
サーバ側装置において、前記端末から出力された波形デ
ータを受信するステップと、前記受信された波形データ
を伸張するステップと、前記伸張された波形データを用
いて認識処理を行い、認識した結果を出力するステップ
と、を有する。
【0024】[第2の実施の形態]本発明の第2の実施
の形態に係るサーバ・クライアント型音声認識装置は、
前記第1の実施の形態の構成に加え、サーバ側装置にお
いて圧縮波形データの受信に失敗した場合に、サーバ側
から端末側へ波形データ再送要求信号を送信すること
で、端末側からサーバ側へ圧縮波形データが再送される
枠組み、機構を備えたものである。かかる構成によっ
て、電波状態が良くない環境においても端末側からサー
バ側へ波形データを送信できる割合が高くなる。
【0025】より詳細には、本発明の第2の実施の形態
において、端末側の装置は、図2を参照すると、入力さ
れた音声の波形データと、前記サーバ側の装置から送信
された波形データ再送要求信号を受信する波形・信号受
信部(210)を備えている。端末側の装置は、さら
に、波形・信号受信部(210)で受信された波形デー
タの音声区間を検出する音声検出部(220)と、音声
検出部(220)で検出された音声区間の波形データを
圧縮する波形圧縮部(230)と、波形データを出力す
る波形送信部(240)と、波形圧縮部(230)で圧
縮された波形データを一時記憶しながら前記波形データ
を、前記波形送信部へ送信すると共に、前記波形・信号
受信部(210)において、前記サーバ側の装置からの
波形データ再送要求信号が受信された場合に、記憶され
た波形データを、波形送信部(240)へ送信する波形
記憶部(250)と、を備えている。
【0026】本発明の第2の実施の形態において、サー
バ側の装置は、端末側の装置から出力された波形データ
を受信する波形受信部(310)と、波形受信部(31
0)で受信された波形データを伸張する波形伸張部(3
20)と、波形伸張部(320)で伸張された波形デー
タを用いて音声の分析を行う分析部(340)と、分析
部での分析結果に基づき、音声の認識処理を行い、認識
した結果を出力する認識部(350)と、波形受信部
(310)で圧縮波形データの受信に失敗した場合に
は、波形データの再送要求信号を前記波形受信部から受
け取り波形データ再送要求信号を、端末に出力する波形
データ再送要求信号送信部(330)と、を備えてい
る。
【0027】上記第2の実施の形態に対応した、音声認
識方法は、端末側装置において前記サーバ側装置から送
信される波形データ再送要求信号を受信した場合に、波
形記憶部に記憶された波形データを、前記サーバ側装置
に送信するステップを有し、前記サーバ装置において、
前記端末側装置から送信される圧縮波形データの受信に
失敗した場合には、波形データ再送要求信号を前記端末
に出力するステップを有する。
【0028】[第3の実施の形態]本発明の第3の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第2の実施の形態の構成に加え、端末側では音声区間を
検出しサーバ側へ圧縮した波形データを送信した後音声
の始端がキャンセルされた場合に、サーバ側へ始端キャ
ンセル信号を送信する枠組みと、サーバ側では始端キャ
ンセル信号を受信した場合に認識処理を停止することが
できる枠組みを備えている。かかる構成によって、始端
キャンセル時に即座に認識処理を停止することができる
ため、無駄なメモリ量、計算量を省くことが可能とな
る。
【0029】より詳細には、本発明の第3の実施の形態
に係るサーバ・クライアント型音声認識装置は、図3を
参照すると、端末側の装置が、入力された音声の波形デ
ータと、前記サーバ側の装置から送信された波形データ
再送要求信号を受信する波形・信号受信部(410)
と、波形・信号受信部(410)で受信された音声の波
形データの音声区間を検出する音声検出部(420)
と、音声検出部(420)で検出された音声区間の波形
データを圧縮する波形圧縮部(430)と、波形データ
を出力する波形送信部(440)と、波形圧縮部(43
0)で圧縮された波形データを一時記憶しながら前記波
形データを、波形送信部(440)へ送信すると共に、
波形・信号受信部(410)において、前記サーバ側の
装置からの波形データ再送要求信号が受信された場合
に、記憶された波形データを、前記波形送信部へ送信す
る波形記憶部(450)と、音声検出部(420)で音
声の検出後に該検出がキャンセルされた場合、音声検出
部(420)から送信された始端キャンセル時の信号を
受け取り始端キャンセル信号を出力する始端キャンセル
信号送信部(460)と、を備えている。
【0030】本発明の第3の実施の形態において、サー
バ側の装置は、端末側の装置から出力された波形データ
と前記始端キャンセル信号を受信する波形・信号受信部
(510)と、波形・信号受信部(510)で受信され
た音声の波形データを伸張する波形伸張部(520)
と、前記波形伸張部で伸張された波形データを用いて音
声の分析を行う分析部(540)と、分析部での分析結
果に基づき認識処理を行い、認識した結果を出力する認
識部(550)と、波形・信号受信部(510)で圧縮
波形データの受信に失敗した場合には、波形データの再
送要求信号を前記波形受信部から受け取り波形データ再
送要求信号を出力する波形データ再送要求信号送信部
(530)と、を備え、認識部(550)は、前記波形
・信号受信部(510)において始端キャンセル信号を
受信した場合に、認識処理を中止する。
【0031】上記第2の実施の形態に対応した、音声認
識方法は、端末側装置において、音声の検出後に該検出
がキャンセルされた場合、始端キャンセル信号を前記サ
ーバ側装置に送信するステップを有し、サーバ側装置に
おいて、前記端末からの前記始端キャンセル信号を受信
した場合に、認識処理を中止するステップを有する。
【0032】[第4の実施の形態]本発明の第4の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第3の実施の形態の構成に加え、端末側では合成音を作
成、出力し、合成音情報を波形データの一部として組み
込み、作成したデータをサーバ側へ送信する枠組みと、
サーバ側では端末側から送信されたデータを波形データ
とその他の情報に分離し、その他の情報から合成音情報
を取得し、波形データから得られた認識結果と合成音と
の対応付けを行う枠組みを備えている。
【0033】より詳細には、本発明の第4の実施の形態
において、端末側の装置は、図4を参照すると、合成音
を合成する音声合成部(670)と、音声合成部(67
0)で合成された合成音の情報を作成し、合成音を出力
する合成音情報作成部(680)と、を備え、波形圧縮
部(630)は、音声検出部(620)で検出された音
声区間の波形データを圧縮し、合成音情報作成部(68
0)で作成された合成音情報を前記波形データの一部に
組み込む。
【0034】本発明の第4の実施の形態において、サー
バ側の装置は、波形伸張部(720)で伸張されたデー
タから合成音情報を取得する合成音情報取得部(77
0)を備え、前記認識部(750)が、認識が終了した
場合に前記合成音情報取得部(770)で取得された合
成音情報より合成音と認識結果との対応付けを行い、対
応付けされた認識結果、又は認識結果と合成音情報を出
力する。
【0035】本発明の第4の実施の形態において、合成
音情報については、合成音の内容、合成音出力時のタイ
ムスタンプ情報、合成音出力時の対話の状態番号等、様
々な情報を用いることができる。
【0036】合成音情報を波形データの一部として組み
込む手法については、 ・合成音情報を波形データのヘッダーに含めて圧縮する
手法や、 ・圧縮済みの波形データに合成音情報を付加する手法 等を用いることができる。
【0037】合成音情報がサーバ側に送られない場合、
端末側からサーバ側へ波形データ送信に失敗した場合
に、次に送信に成功した波形データがどの合成音に対し
て発声された音声であるか判断がつかない、という問題
点がある。
【0038】この問題は、この第4の実施の形態によっ
て解決され、合成音情報と波形データが1対1対応とな
ることにより、常に認識結果と合成音の対応付けをとる
ことが可能となり、状態遷移に誤りのない対話システム
の構築が可能となる。
【0039】上記第4の実施の形態に対応した、音声認
識方法は、端末において、合成音を合成するステップ
と、前記合成された合成音の情報を作成し、合成音を出
力するステップと、検出された音声区間の波形データを
圧縮し、前記合成音情報作成部で作成された合成音情報
を前記波形データの一部に組み込んで、前記サーバ装置
に送信するステップと、を含み、前記サーバ装置におい
て、前記伸張されたデータから合成音情報を取得するス
テップを有し、認識が終了した場合に、前記取得された
合成音情報より合成音と認識結果との対応付けを行い、
対応付けされた認識結果、又は認識結果と合成音情報を
出力する。
【0040】[第5の実施の形態]本発明の第5の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第4の実施の形態の構成に加え、端末側からサーバ側へ
圧縮方式を要求する信号を送信し、サーバ側で圧縮方式
要求信号を受信した場合、サーバ側で利用可能な圧縮方
式情報を端末側へ送信し、端末側ではサーバ側から送信
された圧縮情報と、端末側で利用可能な圧縮方式をもと
に最適な圧縮方式を選択する枠組みと、端末側で選択さ
れた圧縮情報のインデックスを合成音情報とともに波形
データの一部に組み込み、作成したデータをサーバ側へ
送信し、サーバ側ではデータを波形データとその他のデ
ータとに分離し、分離後のその他のデータを合成音情報
と圧縮方式のインデックスに分離し、圧縮方式のインデ
ックス情報よりその圧縮方式に最適な認識エンジンを選
択し、選択された認識エンジンの分析手法、認識手法、
標準パターンを用いて認識結果を出力する枠組みを備え
ている。
【0041】より詳細には、本発明の第5の実施の形態
に係るサーバ・クライアント型音声認識装置において、
図5を参照すると、端末側の装置は、入力された波形デ
ータと、サーバ側の装置から送信された波形データ再送
要求信号と、前記サーバ側の装置から送信された前記サ
ーバ側で利用可能な圧縮方式情報を受信する波形・信号
・圧縮方式受信部(1010)と、波形・信号・圧縮方
式受信部(1010)で受信された波形データの音声区
間を検出する音声検出部(1020)と、前記音声検出
部で検出された音声区間の波形データを圧縮する波形圧
縮部(1030)と、波形データを出力する波形送信部
(1040)と、波形圧縮部(1030)で圧縮された
波形データを一時記憶しながら前記波形データを、波形
送信部(1040)へ送信すると共に、波形・信号・圧
縮方式受信部(1010)においてサーバ側の装置から
の波形データ再送要求信号が受信された場合に、記憶さ
れた波形データを、波形送信部(1040)へ送信する
波形記憶部(1050)と、を備えている。
【0042】波形・信号・圧縮方式受信部(1010)
において、前記サーバ側で利用可能な圧縮方式情報を受
信した場合に、前記波形・信号・圧縮方式受信部(10
10)から送られた圧縮方式情報より最適な圧縮方式を
選択する圧縮方式選択部(1100)と、圧縮方式選択
部(1100)で選択された圧縮方式のインデックスを
作成する圧縮方式インデックス作成部(1090)と、
を備え、波形圧縮部(1030)は、音声検出部(10
20)で検出された音声区間の波形データを圧縮し、合
成音情報作成部(1080)で作成された合成音情報
と、圧縮方式インデックス作成部(1090)で作成さ
れた圧縮方式インデックスを波形データの一部に組み込
む。
【0043】本発明の第5の実施の形態において、前記
サーバ側の装置は、前記端末側の装置から送信された波
形データと、圧縮方式要求信号を受信する波形・信号受
信部(1210)と、波形・信号受信部(1210)で
受信された音声の波形データを伸張する波形伸張部(1
220)と、波形伸張部(1220)で伸張された波形
データを用いて音声の分析を行う分析部(1240)
と、分析結果に基づき認識処理を行い、認識した結果を
出力する認識部(1250)と、前記波形・信号受信部
(1210)で圧縮波形データの受信に失敗した場合に
は、波形データの再送要求信号を前記波形受信部から受
け取り波形データ再送要求信号を出力する波形データ再
送要求信号送信部(1230)と、前記サーバ側の装置
で利用可能な圧縮方式の情報を記憶する圧縮方式記憶部
(1320)と、波形・信号受信部(1210)から圧
縮方式要求信号が送られた場合に前記圧縮方式記憶部に
記憶されている圧縮方式情報を取得し、前記端末側の装
置に圧縮方式情報を出力する圧縮方式取得部(131
0)と、波形伸張部(1220)で伸張されたデータか
ら圧縮方式のインデックスを取得する圧縮方式インデッ
クス取得部(1280)と、圧縮方式インデックス取得
部(1280)で取得された圧縮方式のインデックスか
ら認識エンジンを選択する認識エンジン選択部(129
0)と、認識エンジン選択部(1290)で選択された
エンジンを記憶されているエンジンの中から設定する認
識エンジン設定部(1300)と、を備える。
【0044】サーバ側、端末側の圧縮方式記憶部(13
20)に記憶された圧縮方式については、帯域情報(8kH
z、4kHz等)や圧縮方法(フルレート、ハーフレート等)
等の情報を含む。また、波形データの一部として合成音
情報と圧縮方式のインデックスを含める手法について
は、合成音情報、圧縮方式のインデックスを波形データ
のヘッダーに含めて圧縮する手法や、圧縮済みの波形デ
ータに合成音情報、圧縮方式のインデックスを付加する
手法等を用いることができる。また、端末側において、
サーバ側で利用可能な圧縮方式と端末側で利用可能な圧
縮方式より最適な圧縮方式を選択する手段については、
情報量(データ量)の多い圧縮方式を選択する。例え
ば、端末側、サーバ側ともにフルレート、ハーフレート
の圧縮方式が利用可能な場合、データの情報量の多いフ
ルレートが自動的に選択される。本発明では、選択され
た圧縮方式によってサーバ側で認識エンジンを選択する
ことが可能であるため、サーバ側で圧縮方式に適した認
識エンジンを用意することで、様々な圧縮方式の音声デ
ータに対して高い認識率を得ることが可能となる。
【0045】上記第5の実施の形態に対応した、音声認
識方法は、端末側装置において、サーバ側装置から送信
された前記サーバ側で利用可能な圧縮方式情報を受信す
るステップと、前記受信した圧縮方式情報により最適な
圧縮方式を選択するステップと、前記選択された圧縮方
式のインデックスを作成するステップと、音声区間の波
形データを圧縮し、作成された圧縮方式インデックスを
波形データの一部に組み込んで、前記サーバ装置に送信
するステップとを有し、前記サーバ側装置において、前
記端末側装置から送信される圧縮方式要求信号を受信し
た場合に、前記サーバ側で利用可能な圧縮方式の情報を
記憶する圧縮方式記憶部に記憶されている圧縮方式情報
を取得し、前記端末側装置に圧縮方式情報を出力するス
テップと、伸張されたデータから圧縮方式のインデック
スを取得するステップと、前記取得された圧縮方式のイ
ンデックスから認識エンジンを選択するステップと、前
記選択されたエンジンを記憶されているエンジンの中か
ら設定するステップと、を有する。
【0046】[第6の実施の形態]本発明の第6の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第5の実施の形態の構成に加え、サーバ側で端末側から
送信された圧縮方式要求信号を受信した場合、コンテン
ツ側より入力されたタスク情報と予めサーバ側で持つタ
スク情報とそのタスクで使用可能な圧縮方式との対応テ
ーブルより、サーバ側で利用可能な圧縮方式を取得し端
末側に送信する枠組みを備える。
【0047】より詳細には、本発明の第6の実施の形態
において、サーバ側装置は、図6を参照すると、前記し
た第5の実施の形態の波形・信号受信部(図5の121
0)に代わって、端末側の装置から送信された波形デー
タと、始端キャンセル信号と、圧縮方式要求信号と、コ
ンテンツ側から送信されたタスク情報と、を受信する波
形・信号・タスク情報受信部(1610)を備え、波形
・信号・タスク情報受信部(1610)で受信されたタ
スク情報を記憶するタスク情報記憶部(1730)と、
タスク情報と該タスク使用時に利用可能な1個以上の圧
縮方式を記憶する圧縮方式・タスク情報対応テーブル記
憶部(1720)と、前記波形・信号・タスク情報受信
部(1610)において圧縮方式要求信号を受信した場
合に、前記タスク情報記憶部(1730)から送られた
タスク情報と前記圧縮方式・タスク情報対応テーブル記
憶部(1720)から送られたタスク情報と圧縮方式と
の対応テーブルより利用可能な圧縮方式情報を取得し、
前記端末側の装置に出力する圧縮方式取得部(171
0)を備えている。
【0048】サーバ側で持つタスク情報とそのタスクで
使用可能な圧縮方式との対応テーブル(1720)に記
述された圧縮方式については、帯域情報(8kHz、4kHz等)
や圧縮方法(フルレート、ハーフレート等)等の情報を
含む。
【0049】この第6の実施の形態では、圧縮方式を選
択する時にサーバ側と端末側とで共通に利用可能である
圧縮方式情報の他に、タスクの情報を加えることによっ
て、サーバ側と端末側とで共通に利用可能な圧縮方式で
あり、且つ、入力されたタスクに適した圧縮方式を選択
することが可能となる。例えば、端末側とサーバ側とで
対話を行うタスクでは、レスポンス時間が短いことが望
ましいためデータの転送時間の短い圧縮方式をタスク情
報と圧縮方式との対応テーブルに記述し、又、端末側で
音声入力したキーワードをサーバ側でキーワード検索す
るようなレスポンス時間を比較的問われないタスクでは
データの情報量の多い圧縮方式を、前記テーブルに記述
することで、タスクに適した圧縮方式の選択が可能とな
る。
【0050】上記第6の実施の形態に対応した、音声認
識方法は、サーバ側装置において、コンテンツ側から送
信されたタスク情報を受信してタスク情報記憶部に記憶
するステップと、圧縮方式要求信号を受信した場合に、
タスク情報と、圧縮方式との対応テーブルより、利用可
能な圧縮方式情報を取得し、前記端末側装置に送信する
ステップを有する。
【0051】[第7の実施の形態]本発明の第7の実施
の形態に係るサーバ・クライアント型音声認識装置は、
第5の実施の形態の構成に加え、端末側において、サー
バ側からサーバ側で利用可能な圧縮方式情報が送信され
た場合に、サーバ側で利用可能な圧縮方式情報と、コン
テンツ側から入力されたタスク情報と、端末側で予め持
つタスク情報とそのタスクで使用可能な圧縮方式との対
応テーブルより、最適な圧縮方式を選択する枠組みを備
える。
【0052】より詳細には、本発明の第7の実施の形態
に係るサーバ・クライアント型音声認識装置は、図7を
参照すると、端末側の装置において、前記第5の実施の
形態の波形・信号・圧縮方式受信部(図5の1010)
に代わって、入力された波形データと、コンテンツ側か
ら送信されたタスク情報と、前記サーバ側の装置から送
信された波形データ再送要求信号と、前記サーバ側の装
置から送信された前記サーバ側の装置で利用可能な圧縮
方式情報とを受信する波形・信号・圧縮方式・タスク情
報受信部(1810)を備え、波形・信号・圧縮方式・
タスク情報受信部で受信されたタスク情報を記憶するタ
スク情報記憶部(1930)と、タスク情報とそのタス
ク使用時に利用可能な1個以上の圧縮方式の対応テーブ
ルを記憶する圧縮方式・タスク情報対応テーブル記憶部
(1910)と、前記波形・信号・圧縮方式・タスク情
報受信部(1810)においてサーバ側で利用可能な圧
縮方式情報を受信した場合に、前記タスク情報記憶部
(1930)から送られたタスク情報と、前記圧縮方式
・タスク対応テーブル記憶部(1910)から送られた
タスク情報と圧縮方式との対応テーブルと、前記波形・
信号・圧縮方式・タスク情報受信部(1810)から送
られた前記サーバ側の装置で利用可能な圧縮方式情報を
もとに最適な圧縮方式を選択する圧縮方式選択部(19
00)と、を備える。
【0053】タスク情報とそのタスクで使用可能な圧縮
方式との対応テーブルに記述された圧縮方式について
は、帯域情報(8kHz、4kHz等)や圧縮方法(フルレート、
ハーフレート等)等の情報を含む。
【0054】この第7の実施の形態では、前記第6の実
施の形態と同様、圧縮方式を選択する時にサーバ側と端
末側とで共通に利用可能である圧縮方式情報の他にタス
クの情報を加味することによって、サーバ側と端末側と
で共通に利用可能な圧縮方式であり、且つ、入力された
タスクに適した圧縮方式を選択することが可能となる。
【0055】上記第7の実施の形態に対応した、音声認
識方法は、端末側装置において、コンテンツ側から送信
されたタスク情報と、前記サーバ側装置から送信された
前記サーバ側で利用可能な圧縮方式情報とを受信するス
テップと、前記サーバ側で利用可能な圧縮方式情報を受
信した場合に、前記タスク情報と、圧縮方式・タスク対
応テーブル記憶部から送られたタスク情報と圧縮方式と
の対応テーブルと、サーバ側の装置で利用可能な圧縮方
式情報をもとに最適な圧縮方式を選択するステップと、
を有する。
【0056】
【実施例】本発明の実施例について図面を参照して以下
に説明する。
【0057】[実施例1]図1は、本発明の第1の実施
例をなすサーバ・クライアント型音声認識装置の構成を
示す図であり、図1(a)には、端末、図1(b)には
サーバ側の装置構成が示されている。図1(a)を参照
すると、端末は、音声検出部10と、波形圧縮部20
と、波形送信部30を備えている。端末に入力されたデ
ータは、音声検出部10に送られ音声の検出が行われ
る。音声の検出方法としては、ワードスポッティング手
法等が用いられる。ワードスポッティング手法について
は、文献2(中川,”確率モデルによる音声認識,”電子
情報通信学会,1988)の記載が参照される。検出された
音声データは、波形圧縮部20に送られる。波形圧縮部
20では、音声検出部10から送られた波形データを圧
縮する。圧縮方式としては、VSELP(Vector Sum Excited
Linear Prediction)方式、PSI-CELP(Pitch Synchronou
s Innovation CELP)方式等が用いられる。圧縮された波
形データは波形送信部30に送られる。波形送信部30
では、波形圧縮部から送られた圧縮波形データを出力す
る。
【0058】図1(b)を参照すると、サーバ側装置
は、波形受信部110と、波形伸張部120と、分析部
130と、認識部140と、標準パターン記憶部150
とを備えている。端末側の波形送信部30から出力され
た圧縮波形データを波形受信部110で受信する。波形
受信部110では、受信した圧縮波形データを波形伸張
部120に送信する。波形伸張部120では、波形受信
部110から送られた圧縮波形データを伸張する。伸張
された波形データは分析部130に送られる。分析部1
30では、波形伸張部120で伸張された波形データを
特徴ベクトルに変換する。特徴ベクトルとしてはケプス
トラム、Δケプストラム等が用いられる。Δケプストラ
ムは、文献3(古井,”ディジタル音声処理,”東海大学
出版会,pp44-47,1985)等の記載が参照される。分析さ
れた特徴ベクトルは認識部140に送られる。認識部1
40では、分析部130から送られた特徴ベクトルと、
標準パターン記憶部150から送られた標準パターンと
の間の尤度を計算し、認識結果を求める。尤度の計算方
法は、Viterbiアルゴリズム、DPマッチング等が用い
られる。求められた認識結果は出力される。Viterbiア
ルゴリズムについては、文献2(中川,”確率モデルに
よる音声認識,”電子情報通信学会,1988)、DPマッチ
ングについては、文献4(迫江,”傾斜制限DPマッチ
ングによる音声認識,”音声講論,pp67-68,1974)の記載
が参照される。
【0059】[実施例2]次に、本発明の第2の実施例
について説明する。図2は、本発明の第2の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図2(a)には端末、図2(b)にはサーバ側
の装置構成が示されている。図2(a)を参照すると、
端末は、波形・信号受信部210と、音声検出部220
と、波形圧縮部230と、波形送信部240、波形記憶
部250を備えている。端末の波形・信号受信部210
には、音声データ、又はサーバから送信された波形デー
タ再送要求信号が入力される。音声データが入力された
場合、該音声データは、音声検出部220に送られる。
音声検出部220では、波形・信号受信部210から送
られた波形データの音声検出を行う。検出方法としては
ワードスポッティング手法等が用いられる。検出された
音声データは波形圧縮部230に送られる。波形圧縮部
230では、音声検出部220から送られた波形データ
を圧縮する。圧縮方式としては、VSELP方式、PSI-CELP
方式等が用いられる。圧縮された波形データは波形記憶
部250に送られる。波形記憶部250では、波形圧縮
部230から送られた圧縮波形データを波形送信部24
0に送信し、同一データを記憶する。波形送信部240
では、波形記憶部250から送られた圧縮波形データを
出力する。
【0060】波形・信号受信部210に、サーバから送
信された波形データ再送要求信号が入力された場合、受
信された信号は、波形記憶部250に送られる。波形記
憶部250では記憶されている圧縮波形データを波形送
信部240に送信する。波形送信部240では、波形記
憶部250から送られた圧縮波形データを出力する。
【0061】図2(b)を参照すると、サーバ側は、波
形受信部310と、波形伸張部320と、波形データ再
送要求信号送信部330と、分析部340と、認識部3
50と、標準パターン記憶部360とを備えている。サ
ーバ側は、端末側の波形送信部240から出力された圧
縮波形データを波形受信部310で受信する。
【0062】波形受信部310では、受信した圧縮波形
データを波形伸張部320に送信する。圧縮波形データ
の受信に失敗した場合は、波形データ再送要求信号送信
部330に波形データの再送要求信号を送信する。波形
データ再送要求信号送信部330では、波形受信部31
0から送られた信号を出力する。波形伸張部320で
は、波形受信部310から送られた圧縮波形データを伸
張する。伸張された波形データは分析部340に送られ
る。分析部340では、波形伸張部320で伸張された
波形データを特徴ベクトルに変換する。特徴ベクトルと
してはケプストラム、Δケプストラム等が用いられる。
分析された特徴ベクトルは認識部350に送られる。認
識部350では、分析部340から送られた特徴ベクト
ルと、標準パターン記憶部360から送られた標準パタ
ーンとの間の尤度を計算し、認識結果を求める。尤度の
計算方法はViterbiアルゴリズム、DPマッチング等が
用いられる。求められた認識結果は出力される。
【0063】[実施例3]次に、本発明の第3の実施例
について説明する。図3は、本発明の第3の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図3(a)には端末、図3(b)にはサーバ側
の装置構成が示されている。図3(a)を参照すると、
端末は、波形・信号受信部410、音声検出部420
と、波形圧縮部430と、波形送信部440、波形記憶
部450、始端キャンセル信号送信部460を備えてい
る。端末の波形・信号受信部410には音声データ、又
はサーバから送信された波形データ再送要求信号が入力
される。音声データが入力された場合、データは音声検
出部420に送られる。音声検出部420では、波形・
信号受信部410から送られた波形データの音声検出を
行う。検出方法としてはワードスポッティング手法等が
用いられる。検出された音声データは波形圧縮部430
に送られる。
【0064】音声の検出後に検出がキャンセルされた場
合、始端キャンセル時の信号が始端キャンセル信号送信
部460に送信される。始端キャンセル信号送信部46
0では、送られた始端キャンセル時の信号を出力する。
【0065】波形圧縮部430では、音声検出部420
から送られた波形データを圧縮する。圧縮方式として
は、VSELP方式、PSI-CELP方式等が用いられる。圧縮さ
れた波形データは波形記憶部450に送られる。波形記
憶部450では、波形圧縮部430から送られた圧縮波
形データを波形送信部440に送信し、同一データを記
憶する。波形送信部440では、波形圧縮部430から
送られた圧縮波形データを出力する。波形・信号受信部
410にサーバから送信された波形データ再送要求信号
が入力された場合、受信された信号は波形記憶部450
に送られる。波形記憶部450では記憶されている圧縮
波形データを波形送信部440に送信する。波形送信部
440では波形記憶部450から送られた圧縮波形デー
タを出力する。
【0066】図3(b)を参照すると、サーバ側は、波
形・信号受信部510と、波形伸張部520と、波形デ
ータ再送要求信号送信部530と、分析部540と、認
識部550と、標準パターン記憶部560とを備えてい
る。
【0067】サーバ側では、端末側の波形送信部440
から出力された圧縮波形データ、又は、始端キャンセル
信号送信部460から出力された始端キャンセル時の信
号を波形・信号受信部510で受信する。
【0068】波形・信号受信部510では、受信した圧
縮波形データを波形伸張部520に送信する。圧縮波形
データの受信に失敗した場合は、波形データ再送要求信
号送信部530に波形データ再送要求信号を送信する。
波形データ再送要求信号送信部530では、波形・信号
受信部510から送られた信号を出力する。波形伸張部
520では、波形・信号受信部510から送られた圧縮
波形データを伸張する。伸張された波形データは分析部
540に送られる。分析部540では、波形伸張部52
0で伸張された波形データを特徴ベクトルに変換する。
特徴ベクトルとしてはケプストラム、Δケプストラム等
が用いられる。分析された特徴ベクトルは認識部550
に送られる。認識部550では、分析部540から送ら
れた特徴ベクトルと、標準パターン記憶部560から送
られた標準パターンとの間の尤度を計算し、認識結果を
求める。尤度の計算方法はViterbiアルゴリズム、DP
マッチング等が用いられる。求められた認識結果は出力
される。波形・信号受信部510に始端キャンセル信号
送信部460から送信された始端キャンセル時の信号が
入力された場合、信号は認識部550に送られる。
【0069】認識部550では、波形・信号受信部51
0から始端キャンセル時の信号が送られてきた場合、認
識を途中で中断する。
【0070】[実施例4]次に、本発明の第4の実施例
について説明する。図4は、本発明の第4の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図4(a)には端末、図4(b)にはサーバ側
の装置構成が示されている。図4(a)を参照すると、
端末は、波形・信号受信部610と、音声検出部620
と、波形圧縮部630と、波形送信部640と、波形記
憶部650と、始端キャンセル信号送信部660と、音
声合成部670と、合成音情報作成部680と、を備え
ている。端末の波形・信号受信部610には音声デー
タ、又はサーバから送信された波形データ再送要求信号
が入力される。音声データが入力された場合、データは
音声検出部620に送られる。音声検出部620では、
波形・信号受信部610から送られた波形データの音声
検出を行う。検出方法としてはワードスポッティング手
法等が用いられる。検出された音声データは波形圧縮部
630に送られる。
【0071】音声の検出後に検出がキャンセルされた場
合、始端キャンセル時の信号が始端キャンセル信号送信
部660に送信される。始端キャンセル信号送信部66
0では、送られた始端キャンセル時の信号を出力する。
【0072】本実施例では、更に、合成音を作成する音
声合成部670を持つ。音声合成部670で作成された
合成音は、合成音情報作成部680に送られる。合成音
情報作成部680では、合成音情報を作成し、作成した
合成音情報を波形圧縮部630に送信し、音声合成部6
70から送られた合成音を出力する。
【0073】合成音情報については、合成音の内容や合
成音出力時のタイムスタンプ情報等が用いられる。
【0074】波形圧縮部630では、音声検出部620
から送られた波形データを圧縮し、合成音情報作成部6
80で取得された合成音情報を波形データの一部に含め
る。
【0075】波形データの一部に合成音情報を含める手
法としては、合成音情報を波形データのヘッダーに含め
て圧縮する方法や、圧縮した波形データに合成音情報を
付加する方法等が用いられる。
【0076】圧縮方式としては、VSELP方式、PSI-CELP
方式等が用いられる。圧縮された波形データは波形記憶
部650に送られる。波形記憶部650では、波形圧縮
部630から送られた圧縮波形データを波形送信部64
0に送信し、同一データを記憶する。波形送信部640
では、波形圧縮部630から送られた波形データを出力
する。波形・信号受信部610にサーバから送信された
波形データ再送要求信号が入力された場合、受信された
信号は波形記憶部650に送られる。波形記憶部650
では記憶されている圧縮波形データを波形送信部640
に送信する。波形送信部640では波形記憶部650か
ら送られた圧縮波形データを出力する。
【0077】図4(b)を参照すると、サーバ側では、
波形・信号受信部710と、波形伸張部720と、波形
データ再送要求信号送信部730と、分析部740と、
認識部750と、標準パターン記憶部760と、合成音
情報取得部770を備えている。サーバ側では、端末側
の波形送信部640から出力された圧縮波形データ、又
は始端キャンセル信号送信部660から出力された始端
キャンセル時の信号を波形・信号受信部710で受信す
る。波形・信号受信部710では、受信した圧縮波形デ
ータを波形伸張部720に送信する。圧縮波形データの
受信に失敗した場合は、波形データ再送要求信号送信部
730に波形データ再送要求信号を送信する。波形デー
タ再送要求信号送信部730では、波形・信号受信部7
10から送られた信号を出力する。
【0078】波形伸張部720では、波形・信号受信部
710から送られたデータを波形データ合成音情報等の
その他の情報とに分離し、波形データを伸張する。その
他の情報は合成音情報取得部770に送られ、伸張され
た波形データは分析部740に送られる。
【0079】合成音情報取得部770では、波形伸張部
720から送られた情報から合成音情報を取得する。取
得された合成音情報は認識部750に送られる。
【0080】分析部740では、波形伸張部720で伸
張された波形データを特徴ベクトルに変換する。特徴ベ
クトルとしてはケプストラム、Δケプストラム等が用い
られる。分析された特徴ベクトルは認識部750に送ら
れる。認識部750では、分析部740から送られた特
徴ベクトルと、標準パターン記憶部760から送られた
標準パターンとの間の尤度を計算し、認識結果を求め
る。尤度の計算方法はViterbiアルゴリズム、DPマッ
チング等が用いられる。
【0081】求められた認識結果と合成音情報取得部7
70で取得された合成音情報は共に端末側に出力される
か、又は、両者が関連付けられることでどの合成音に対
する認識結果であるかが対応付けされ、対応付けされた
後の認識結果が端末側に出力される。
【0082】波形・信号受信部710に始端キャンセル
信号送信部660から送信された始端キャンセル時の信
号が入力された場合、信号は認識部750に送られる。
認識部750では、波形・信号受信部710から始端キ
ャンセル時の信号が送られてきた場合、認識を途中で中
断する。
【0083】[実施例5]次に、本発明の第5の実施例
について説明する。図5は、本発明の第5の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図5(a)には端末、図5(b)にはサーバ側
の装置構成が示されている。図5(a)を参照すると、
端末は、波形・信号・圧縮方式受信部1010と、音声
検出部1020と、波形圧縮部1030と、波形送信部
1040と、波形記憶部1050と、始端キャンセル信
号送信部1060と、音声合成部1070と、合成音情
報作成部1080と、圧縮方式インデックス作成部10
90と、圧縮方式選択部1100と、圧縮方式記憶部1
110と、圧縮方式要求信号送信部1120とを備えて
いる。端末の波形・信号・圧縮方式受信部1010に
は、音声データ、又は圧縮方式要求信号、又は、サーバ
から送信された波形データ再送要求信号、又はサーバか
ら送信された圧縮方式情報が入力される。
【0084】波形・信号・圧縮方式受信部1010に圧
縮方式要求信号が入力された場合、圧縮方式要求信号は
波形・信号・圧縮方式受信部1010から圧縮方式要求
信号送信部1120に送られる。
【0085】圧縮方式要求信号送信部1120では、波
形・信号・圧縮方式受信部1010から送られた圧縮方
式要求信号をサーバ側装置へ出力する。
【0086】波形・信号・圧縮方式受信部1010に、
サーバ側から送信された圧縮方式情報が入力された場
合、圧縮方式情報は、圧縮方式選択部1100へ送られ
る。
【0087】本実施例では、端末側で利用可能な圧縮方
式を記憶する圧縮方式記憶部1110、波形を圧縮する
方式を選択する圧縮方式選択部1100を備えている。
【0088】圧縮方式記憶部1110に記憶された圧縮
方式については、波形圧縮方法(フルレート、ハーフレ
ート等)や帯域(4kHz、8kHz等)の情報を含む。
【0089】圧縮方式選択部1100では、圧縮方式記
憶部1110に記憶されている圧縮方式情報と、波形・
信号・圧縮方式受信部1010から送られたサーバ側で
利用可能な圧縮方式をもとに、データの情報量の多い圧
縮方式を選択する。例えば、端末側でもサーバ側でも、
ともに、フルレートとハーフレートの圧縮方式を持つ場
合、データの情報量の多いフルレートが選択される。
【0090】圧縮方式選択部1100で選択された方式
名は、圧縮方式インデックス作成部1090に送られ
る。
【0091】圧縮方式インデックス作成部1090で
は、圧縮方式選択部で選択された方式名のインデックス
を作成する。圧縮方式インデックス作成部1090で作
成されたインデックスは波形圧縮部1030に送られ
る。
【0092】波形・信号・圧縮方式受信部1010に音
声データが入力された場合、データは音声検出部102
0に送られる。音声検出部1020では、波形・信号・
圧縮方式受信部1010から送られた波形データの音声
検出を行う。検出方法としてはワードスポッティング手
法等が用いられる。検出された音声データは波形圧縮部
1030に送られる。
【0093】音声の検出後に検出がキャンセルされた場
合、始端キャンセル時の信号が始端キャンセル信号送信
部1060に送信される。始端キャンセル信号送信部1
060では、送られた始端キャンセル時の信号を出力す
る。
【0094】本実施例では、第4の実施例と同様に合成
音を作成する音声合成部1070を持つ。音声合成部1
070で作成された合成音は合成音情報作成部1080
に送られる。
【0095】合成音情報作成部1080では、合成音情
報を作成し、作成した合成音情報を波形圧縮部1030
に送信し、音声合成部1070から送られた合成音を出
力する。合成音情報については、合成音の内容や合成音
出力時のタイムスタンプ情報等が用いられる。波形圧縮
部1030では、音声検出部1020から送られた波形
データを圧縮し、合成音情報作成部1080で作成され
た合成音情報と、圧縮方式インデックス作成部1090
で作成された圧縮方式のインデックスとを前記波形デー
タの一部に含める。
【0096】波形データの一部に合成音情報、圧縮方式
のインデックスを含める手法としては、合成音情報、圧
縮方式のインデックスを波形データのヘッダーに含めて
圧縮する方法や、圧縮した波形データに合成音情報、圧
縮方式のインデックスを付加する方法等が用いられる。
圧縮方式としては、VSELP方式、PSI-CELP方式等が用い
られる。圧縮された波形データは波形記憶部1050に
送られる。
【0097】波形記憶部1050では、波形圧縮部10
30から送られた圧縮波形データを波形送信部1040
に送信し、同一データを記憶する。
【0098】波形送信部1040では、波形圧縮部10
30から送られた圧縮波形データをサーバ側装置へ出力
する。波形・信号・圧縮方式受信部1010にサーバか
ら送信された波形データ再送要求信号が入力された場
合、受信された信号は波形記憶部1050に送られる。
波形記憶部1050では記憶されている圧縮波形データ
を波形送信部1040に送信する。波形送信部1040
では波形記憶部1050から送られた圧縮波形データを
出力する。
【0099】図5(b)を参照すると、サーバ側では、
波形・信号受信部1210と、波形伸張部1220と、
波形データ再送要求信号送信部1230と、分析部12
40と、認識部1250と、標準パターン記憶部126
0と、合成音情報取得部1270と、圧縮方式インデッ
クス取得部1280と、認識エンジン選択部1290
と、認識エンジン設定部1300と、圧縮方式取得部1
310と、圧縮方式記憶部1320と、を備えている。
【0100】サーバ側では、端末側の波形送信部104
0から出力された圧縮波形データ、又は始端キャンセル
信号送信部1060から出力された始端キャンセル時の
信号、又は圧縮方式要求信号送信部1120から出力さ
れた波形圧縮方式要求信号を波形・信号受信部1210
で受信する。波形・信号受信部1210では、波形圧縮
方式要求信号が受信された場合、受信信号を圧縮方式取
得部1310へ送る。
【0101】圧縮方式取得部1310では、波形・信号
受信部1210から波形圧縮方式要求信号が送られた場
合、圧縮方式記憶部1320に記憶されている圧縮方式
の中からサーバ側で利用可能な圧縮方式を取得し、取得
した圧縮方式情報を端末側に出力する。波形・信号受信
部1210において波形データが受信された場合、波形
伸張部1220に送信する。
【0102】波形データの受信に失敗した場合は、波形
データ再送要求信号送信部1230に波形データ再送要
求信号を送信する。波形データ再送要求信号送信部12
30では、波形・信号受信部1210から送られた信号
を出力する。波形伸張部1220では、波形・信号受信
部1210から送られたデータを波形データとその他の
データとに分離し、波形データを伸張する。
【0103】その他の情報は合成音情報取得部1270
と圧縮方式インデックス取得部1280に送られ、伸張
された波形データは分析部1240に送られる。合成音
情報取得部1270では、波形伸張部1220から送ら
れた情報から合成音情報を取得する。取得された合成音
情報は認識部1250に送られる。
【0104】圧縮方式インデックス取得部1280で
は、波形伸張部1220から送られた情報から圧縮方式
のインデックスを取得する。
【0105】取得されたインデックスは認識エンジン選
択部1290に送られる。
【0106】認識エンジン選択部1290では、圧縮方
式インデックス取得部1280で取得されたインデック
スをもとに認識に用いる認識エンジンを選択する。選択
されたエンジンの情報は認識エンジン設定部1300と
標準パターン記憶部1260に送られる。
【0107】認識エンジン設定部1300では、認識エ
ンジン選択部1290から送られたエンジン情報を基
に、使用するエンジンの分析手法を分析部1240へ送
り、認識手法を認識部1250へ送る。
【0108】標準パターン記憶部1260では、認識エ
ンジン選択部1290から送られたエンジン情報より使
用する標準パターンを設定する。
【0109】分析部1240では、波形伸張部1220
で伸張された波形データを特徴ベクトルに変換する。特
徴ベクトルとしてはケプストラム、Δケプストラム等が
用いられる。分析された特徴ベクトルは認識部1250
に送られる。認識部1250では、分析部1240から
送られた特徴ベクトルと、標準パターン記憶部1260
から送られた標準パターンとの間の尤度を計算し、認識
結果を求める。尤度の計算方法はViterbiアルゴリズ
ム、DPマッチング等が用いられる。求められた認識結
果と合成音情報取得部1270で取得された合成音情報
は共に端末側に出力されるか、又は、両者が関連付けら
れることでどの合成音に対する認識結果であるかが対応
付けされ、対応付けされた後の認識結果が端末側に出力
される。波形・信号受信部1210に始端キャンセル信
号送信部1060から送信された始端キャンセル時の信
号が入力された場合、信号は認識部1250に送られ
る。認識部1250では、波形・信号受信部1210か
ら始端キャンセル時の信号が送られてきた場合、認識を
途中で中断する。
【0110】[実施例6]次に、本発明の第6の実施例
について説明する。図6は、本発明の第6の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図6(a)には端末、図6(b)にはサーバ側
の装置構成が示されている。図6(a)を参照すると、
端末は、波形・信号・圧縮方式受信部1410と、音声
検出部1420と、波形圧縮部1430と、波形送信部
1440と、波形記憶部1450と、始端キャンセル信
号送信部1460と、音声合成部1470と、合成音情
報作成部1480と、圧縮方式インデックス作成部14
90と、圧縮方式選択部1500と、圧縮方式記憶部1
510と、圧縮方式要求信号送信部1520と、を備え
ている。端末の波形・信号・圧縮方式受信部1410に
は、音声データ、又は圧縮方式要求信号、又はサーバか
ら送信された波形データ再送要求信号、又はサーバから
送信された圧縮方式情報が入力される。圧縮方式要求信
号が入力された場合、圧縮方式要求信号は圧縮方式要求
信号送信部1520に送られる。圧縮方式要求信号送信
部1520では、波形・信号・圧縮方式受信部1410
から送られた圧縮方式要求信号をサーバ側装置へ出力す
る。
【0111】波形・信号・圧縮方式受信部1410にサ
ーバ側から送信されたサーバ側で利用可能な圧縮方式情
報が入力された場合、圧縮方式情報は圧縮方式選択部1
500へ送られる。
【0112】本実施例では、第4の実施例と同様に、端
末側で利用可能な圧縮方式を記憶する圧縮方式記憶部1
510、波形を圧縮する方式を選択する圧縮方式選択部
1500を持つ。
【0113】圧縮方式記憶部1510に記憶された圧縮
方式については、波形圧縮方法(フルレート、ハーフレ
ート等)や帯域(4kHz、8kHz等)の情報を含む。圧縮方
式選択部1500では、圧縮方式記憶部1510に記憶
されている端末側で利用可能な圧縮方式情報と、波形・
信号・圧縮方式受信部1410から送られたサーバ側で
利用可能な圧縮方式をもとにデータの情報量の多い圧縮
方式を選択する。例えば、端末側でもサーバ側でもとも
にフルレートとハーフレートの圧縮方式を持つ場合、デ
ータの情報量の多いフルレートが選択される。圧縮方式
選択部1500で選択された方式名は圧縮方式インデッ
クス作成部1490に送られる。圧縮方式インデックス
作成部1490では、圧縮方式選択部で選択された方式
名のインデックスを作成する。圧縮方式インデックス作
成部1490で作成されたインデックスは波形圧縮部1
430に送られる。
【0114】波形・信号・圧縮方式受信部1410に音
声データが入力された場合、データは音声検出部142
0に送られる。音声検出部1420では、波形・信号・
圧縮方式受信部1410から送られた波形データの音声
検出を行う。検出方法としてはワードスポッティング手
法等が用いられる。検出された音声データは波形圧縮部
1430に送られる。音声の検出後に検出がキャンセル
された場合、始端キャンセル時の信号が始端キャンセル
信号送信部1460に送信される。始端キャンセル信号
送信部1460では、送られた始端キャンセル時の信号
をサーバ側装置へ出力する。
【0115】本実施例では第4、第5の実施例と同様
に、合成音を作成する音声合成部1470を持つ。音声
合成部1470で作成された合成音は合成音情報作成部
1480に送られる。
【0116】合成音情報作成部1480では、合成音情
報を作成し、作成した合成音情報を波形圧縮部1430
に送信し、音声合成部1470から送られた合成音を出
力する。合成音情報については、合成音の内容や合成音
出力時のタイムスタンプ情報等が用いられる。
【0117】波形圧縮部1430では、音声検出部14
20から送られた波形データを圧縮し、合成音情報作成
部1480で作成された合成音情報と、圧縮方式インデ
ックス作成部1490で作成された圧縮方式のインデッ
クスとを前記波形データの一部に含める。波形データの
一部に合成音情報、圧縮方式のインデックスを含める手
法としては、 ・合成音情報、圧縮方式のインデックスを波形データの
ヘッダーに含めて圧縮する方法や、 ・圧縮した波形データに合成音情報、圧縮方式のインデ
ックスを付加する方法 等が用いられる。
【0118】圧縮方式としては、VSELP方式、PSI-CELP
方式等が用いられる。圧縮された波形データは波形記憶
部1450に送られる。波形記憶部1450では、波形
圧縮部1430から送られた圧縮波形データを波形送信
部1440に送信し、同一データを記憶する。波形送信
部1440では、波形圧縮部1430から送られた圧縮
波形データをサーバ側装置へ出力する。波形・信号・圧
縮方式受信部1410にサーバから送信された波形デー
タ再送要求信号が入力された場合、受信された信号は波
形記憶部1450に送られる。波形記憶部1450では
記憶されている圧縮波形データを波形送信部1440に
送信する。波形送信部1440では波形記憶部1450
から送られた圧縮波形データを出力する。
【0119】図6(b)を参照すると、サーバ側では、
波形・信号・タスク情報受信部1610と、波形伸張部
1620と、波形データ再送要求信号送信部1630
と、分析部1640と、認識部1650と、標準パター
ン記憶部1660と、合成音情報取得部1670と、圧
縮方式インデックス取得部1680と、認識エンジン選
択部1690と、認識エンジン設定部1700と、圧縮
方式取得部1710と、圧縮方式・タスク情報対応テー
ブル記憶部1720と、タスク情報記憶部1730とを
備えている。
【0120】サーバ側では、端末側の波形送信部144
0から出力された波形データ、又は始端キャンセル信号
送信部1460から出力された始端キャンセル時の信
号、又は圧縮方式要求信号送信部1520から出力され
た波形圧縮方式要求信号、又はコンテンツ側より入力さ
れたタスク情報を波形・信号・タスク情報受信部161
0で受信する。
【0121】波形・信号・タスク情報受信部1610に
コンテンツ側よりタスク情報が入力された場合、タスク
情報記憶部1730に送信する。タスク情報記憶部17
30では、波形・信号・タスク情報受信部1610より
送られたタスク情報を記憶し、同一情報を圧縮方式取得
部1710に送る。
【0122】波形・信号・タスク情報受信部1610に
おいて波形圧縮方式要求信号が受信された場合、受信信
号を圧縮方式取得部1710へ送る。圧縮方式取得部1
710では、波形・信号・タスク情報受信部1610か
ら波形圧縮方式要求信号が送られた場合、圧縮方式・タ
スク情報対応テーブル記憶部1720に記憶されている
タスク情報とそのタスクで利用可能な圧縮方式との対応
テーブルと、タスク情報記憶部1730から送られたタ
スク情報とから利用可能な圧縮方式を取得し、取得した
圧縮方式情報を端末側に出力する。
【0123】波形・信号・タスク情報受信部1610に
おいて波形データが受信された場合、波形伸張部162
0に送信する。波形データの受信に失敗した場合は、波
形データ再送要求信号送信部1630に波形データ再送
要求信号を送信する。波形データ再送要求信号送信部1
630では、波形・信号・タスク情報受信部1610か
ら送られた信号を出力する。波形伸張部1620では、
波形・信号・タスク情報受信部1610から送られたデ
ータを波形データとその他のデータとに分離し、波形デ
ータを伸張する。
【0124】その他の情報は合成音情報取得部1670
と圧縮方式インデックス取得部1680に送られ、伸張
された波形データは分析部1640に送られる。合成音
情報取得部1670では、波形伸張部1620から送ら
れた情報から合成音情報を取得する。取得された合成音
情報は認識部1650に送られる。
【0125】圧縮方式インデックス取得部1680で
は、波形伸張部1620から送られた情報から圧縮方式
のインデックスを取得する。取得されたインデックスは
認識エンジン選択部1690に送られる。
【0126】認識エンジン選択部1690では、圧縮方
式インデックス取得部1680で取得されたインデック
スをもとに認識に用いる認識エンジンを選択する。選択
されたエンジンの情報は認識エンジン設定部1700と
標準パターン記憶部1660に送られる。
【0127】認識エンジン設定部1700では、認識エ
ンジン選択部1690から送られたエンジン情報を元に
使用するエンジンの分析手法を分析部1640へ送り、
認識手法を認識部1650へ送る。標準パターン記憶部
1660では、認識エンジン選択部1690から送られ
たエンジン情報より使用する標準パターンを設定する。
分析部1640では、波形伸張部1620で伸張された
波形データを特徴ベクトルに変換する。特徴ベクトルと
してはケプストラム、Δケプストラム等が用いられる。
【0128】分析された特徴ベクトルは認識部1650
に送られる。認識部1650では、分析部1640から
送られた特徴ベクトルと、標準パターン記憶部1660
から送られた標準パターンとの間の尤度を計算し、認識
結果を求める。尤度の計算方法はViterbiアルゴリズ
ム、DPマッチング等が用いられる。求められた認識結
果と合成音情報取得部1670で取得された合成音情報
は共に端末側に出力されるか、又は、両者が関連付けら
れることでどの合成音に対する認識結果であるかが対応
付けされ、対応付けされた後の認識結果が端末側に出力
される。波形・信号・タスク情報受信部1610に始端
キャンセル信号送信部1460から送信された始端キャ
ンセル時の信号が入力された場合、信号は認識部165
0に送られる。認識部1650では、波形・信号・タス
ク情報受信部1610から始端キャンセル時の信号が送
られてきた場合、認識を途中で中断する。
【0129】[実施例7]次に、本発明の第7の実施例
について説明する。図7は、本発明の第7の実施例をな
すサーバ・クライアント型音声認識装置の構成を示す図
であり、図7(a)には端末、図7(b)にはサーバ側
の装置構成が示されている。図7(a)を参照すると、
端末は、波形・信号・圧縮方式・タスク情報受信部18
10と、音声検出部1820と、波形圧縮部1830
と、波形送信部1840と、波形記憶部1850と、始
端キャンセル信号送信部1860と、音声合成部187
0と、合成音情報作成部1880と、圧縮方式インデッ
クス作成部1890と、圧縮方式選択部1900と、圧
縮方式・タスク情報対応テーブル記憶部1910と、圧
縮方式要求信号送信部1920と、タスク情報記憶部1
930と、を備えている。
【0130】図7を参照すると、この実施例において、
端末側の波形・信号・圧縮方式・タスク情報受信部18
10には、音声データ、又は圧縮方式要求信号、又はサ
ーバから送信された波形データ再送要求信号、又はサー
バから送信された圧縮方式情報、又はコンテンツ側から
送信されたタスク情報が入力される。
【0131】波形・信号・圧縮方式・タスク情報受信部
1810に、タスク情報が入力された場合、入力された
タスク情報はタスク情報記憶部1930に送られる。タ
スク情報記憶部1930では、波形・信号・圧縮方式・
タスク情報受信部1810から送られたタスク情報を圧
縮方式選択部1900に送り、記憶する。
【0132】波形・信号・圧縮方式・タスク情報受信部
1810に、圧縮方式要求信号が入力された場合、圧縮
方式要求信号は圧縮方式要求信号送信部1920に送ら
れる。圧縮方式要求信号送信部1920では、波形・信
号・圧縮方式・タスク情報受信部1810から送られた
圧縮方式要求信号をサーバ側装置へ出力する。
【0133】波形・信号・圧縮方式・タスク情報受信部
1810に、サーバ側から送信されたサーバ側で利用可
能な圧縮方式情報が入力された場合、圧縮方式情報は圧
縮方式選択部1900へ送られる。
【0134】本実施例では、タスク情報とそのタスクで
利用可能な圧縮方式との対応テーブル記憶する圧縮方式
・タスク情報対応テーブル記憶部1910を持つ。圧縮
方式・タスク情報対応テーブル記憶部に記憶された圧縮
方式については、波形圧縮方法(フルレート、ハーフレ
ート等)や帯域(4kHz、8kHz等)の情報を含む。
【0135】圧縮方式選択部1900では、タスク情報
記憶部1930から送られたタスク情報と、波形・信号
・圧縮方式・タスク情報受信部1810から送られたサ
ーバ側で利用可能な圧縮方式情報と、圧縮方式・タスク
情報対応テーブル記憶部1910に記憶されている対応
テーブル情報とをもとにタスク情報が加味されたデータ
の情報量の多い圧縮方式を選択する。圧縮方式選択部1
900で選択された方式名は圧縮方式インデックス作成
部1890に送られる。
【0136】圧縮方式インデックス作成部1890で
は、圧縮方式選択部で選択された方式名のインデックス
を作成する。圧縮方式インデックス作成部1890で作
成されたインデックスは波形圧縮部1830に送られ
る。
【0137】波形・信号・圧縮方式・タスク情報受信部
1810に音声データが入力された場合、データは音声
検出部1820に送られる。音声検出部1820では、
波形・信号・圧縮方式・タスク情報受信部1810から
送られた波形データの音声検出を行う。検出方法として
はワードスポッティング手法等が用いられる。検出され
た音声データは波形圧縮部1830に送られる。音声の
検出後に検出がキャンセルされた場合、始端キャンセル
時の信号が始端キャンセル信号送信部1860に送信さ
れる。始端キャンセル信号送信部1860では、送られ
た始端キャンセル時の信号を出力する。
【0138】本実施例では、第4、第5、第6の実施例
と同様に、合成音を作成する音声合成部1870を持
つ。音声合成部1870で作成された合成音は合成音情
報作成部1880に送られる。合成音情報作成部188
0では、合成音情報を作成し、作成した合成音情報を波
形圧縮部1830に送信し、音声合成部1870から送
られた合成音を出力する。合成音情報については、合成
音の内容や合成音出力時のタイムスタンプ情報等が用い
られる。
【0139】波形圧縮部1830では、音声検出部18
20から送られた波形データを圧縮し、合成音情報作成
部1880で作成された合成音情報と、圧縮方式インデ
ックス作成部1890で作成された圧縮方式のインデッ
クスとを前記波形データの一部に含める。波形データの
一部に合成音情報、圧縮方式のインデックスを含める手
法としては、・合成音情報、圧縮方式のインデックスを
波形データのヘッダーに含めて圧縮する方法や、・圧縮
した波形データに合成音情報、圧縮方式のインデックス
を付加する方法等が用いられる。圧縮方式としては、VS
ELP方式、PSI-CELP方式等が用いられる。圧縮された波
形データは波形記憶部1850に送られる。波形記憶部
1850では、波形圧縮部1830から送られた圧縮波
形データを波形送信部1840に送信し、同一データを
記憶する。波形送信部1840では、波形圧縮部183
0から送られた圧縮波形データをサーバ側装置へ出力す
る。
【0140】波形・信号・圧縮方式・タスク情報受信部
1810に、サーバから送信された波形データ再送要求
信号が入力された場合、受信された信号は波形記憶部1
850に送られる。波形記憶部1850では記憶されて
いる圧縮波形データを波形送信部1840に送信する。
波形送信部1840では波形記憶部1850から送られ
た圧縮波形データを出力する。
【0141】図7(b)を参照すると、サーバ側では、
波形・信号受信部2010と、波形伸張部2020と、
波形データ再送要求信号送信部2030と、分析部20
40と、認識部2050と、標準パターン記憶部206
0と、合成音情報取得部2070と、圧縮方式インデッ
クス取得部2080と、認識エンジン選択部2090
と、認識エンジン設定部2100と、圧縮方式取得部2
110と、圧縮方式記憶部2120とを備えている。
【0142】サーバ側では、端末側の波形送信部184
0から出力された圧縮波形データ、又は始端キャンセル
信号送信部1860から出力された始端キャンセル時の
信号、又は圧縮方式要求信号送信部1920から出力さ
れた波形圧縮方式要求信号を波形・信号受信部2010
で受信する。波形・信号受信部2010では、波形圧縮
方式要求信号が受信された場合、受信信号を圧縮方式取
得部2110へ送る。
【0143】圧縮方式取得部2110では、波形・信号
受信部2010から波形圧縮方式要求信号が送られた場
合、圧縮方式記憶部2120に記憶されている圧縮方式
の中からサーバ側で利用可能な圧縮方式を取得し、取得
した圧縮方式情報を端末側に出力する。波形・信号受信
部2010において波形データが受信された場合、波形
伸張部2020に送信する。波形データの受信に失敗し
た場合は、波形データ再送要求信号送信部2030に波
形データ再送要求信号を送信する。波形データ再送要求
信号送信部2030では、波形・信号受信部2010か
ら送られた信号を出力する。
【0144】波形伸張部2020では、波形・信号受信
部2010から送られたデータを波形データとその他の
データとに分離し、波形データを伸張する。その他の情
報は合成音情報取得部2070と圧縮方式インデックス
取得部2080に送られ、伸張された波形データは分析
部2040に送られる。
【0145】合成音情報取得部2070では、波形伸張
部2020から送られた情報から合成音情報を取得す
る。取得された合成音情報は認識部2050に送られ
る。
【0146】圧縮方式インデックス取得部2080で
は、波形伸張部2020から送られた情報から圧縮方式
のインデックスを取得する。
【0147】取得されたインデックスは認識エンジン選
択部2090に送られる。認識エンジン選択部2090
では、圧縮方式インデックス取得部2080で取得され
たインデックスをもとに認識に用いる認識エンジンを選
択する。選択されたエンジンの情報は認識エンジン設定
部2100と標準パターン記憶部2060に送られる。
【0148】認識エンジン設定部2100では、認識エ
ンジン選択部2090から送られたエンジン情報を元に
使用するエンジンの分析手法を分析部2040へ送り、
認識手法を認識部2050へ送る。標準パターン記憶部
2060では、認識エンジン選択部2090から送られ
たエンジン情報より使用する標準パターンを設定する。
分析部2040では、波形伸張部2020で伸張された
波形データを特徴ベクトルに変換する。特徴ベクトルと
してはケプストラム、Δケプストラム等が用いられる。
分析された特徴ベクトルは認識部2050に送られる。
認識部2050では、分析部2040から送られた特徴
ベクトルと、標準パターン記憶部2060から送られた
標準パターンとの間の尤度を計算し、認識結果を求め
る。尤度の計算方法はViterbiアルゴリズム、DPマッ
チング等が用いられる。求められた認識結果と合成音情
報取得部2070で取得された合成音情報は共に端末側
に出力されるか、又は、両者が関連付けられることでど
の合成音に対する認識結果であるかが対応付けされ、対
応付けされた後の認識結果が端末側に出力される。
【0149】波形・信号受信部2010に始端キャンセ
ル信号送信部1860から送信された始端キャンセル時
の信号が入力された場合、信号は認識部2050に送ら
れる。認識部2050では、波形・信号受信部2010
から始端キャンセル時の信号が送られてきた場合、認識
を途中で中断する。
【0150】上記実施例において、上記端末側の装置と
しては、例えば携帯電話端末が好適とされるが、端末
は、携帯電話端末に限定されるものではなく、サーバ・
クライアント型音声認識装置のサーバに接続可能とされ
る音声入力可能な任意の情報端末を含む。以上本発明を
上記各実施例に即して説明したが、本発明は、上記実施
例の構成にのみ限定されるものではなく、各実施例の組
合せを含むものであり、本発明は、特許請求の範囲の請
求項の範囲内で当業者であればなし得るであろう各種変
形、修正を含むことは勿論である。
【0151】
【発明の効果】以上説明したように、本発明によれば、
認識対象となるタスクの規模や難易度に適応し、クライ
アントとサーバ間で相互の音声処理仕様、能力を確認し
て音声圧縮伸張等の音声処理仕様を最適に設定すること
ができる、という効果を奏する。
【0152】本発明によれば、更に、サーバで認識処理
を行うため大規模なタスクの認識処理が可能となり、認
識エンジン等のアップデートに迅速に対応することがで
きるという効果を奏する。
【図面の簡単な説明】
【図1】(a)は、本発明の第1の実施例における端末
側の装置構成、(b)は、本発明の第1の実施例におけ
るサーバ側の装置構成を示す図である。
【図2】(a)は、本発明の第2の実施例における端末
側の装置構成、(b)は、本発明の第2の実施例におけ
るサーバ側の装置構成を示す図である。
【図3】(a)は、本発明の第3の実施例における端末
側の装置構成、(b)は、本発明の第3の実施例におけ
るサーバ側の装置構成を示す図である。
【図4】(a)は、本発明の第4の実施例における端末
側の装置構成、(b)は、本発明の第4の実施例におけ
るサーバ側の装置構成を示す図である。
【図5】(a)は、本発明の第5の実施例における端末
側の装置構成、(b)は、本発明の第5の実施例におけ
るサーバ側の装置構成を示す図である。
【図6】(a)は、本発明の第6の実施例における端末
側の装置構成、(b)は、本発明の第6の実施例におけ
るサーバ側の装置構成を示す図である。
【図7】(a)は、本発明の第7の実施例における端末
側の装置構成、(b)は、本発明の第7の実施例におけ
るサーバ側の装置構成を示す図である。
【符号の説明】
10 音声検出部 20 波形圧縮部 30 波形送信部 110 波形受信部 120 波形伸張部 130 分析部 140 認識部 150 標準パターン記憶部 210 波形・信号受信部 220 音声検出部 230 波形圧縮部 240 波形送信部 250 波形記憶部 310 波形受信部 320 波形伸張部 330 波形データ再送要求信号送信部 340 分析部 350 認識部 360 標準パターン記憶部 410 波形・信号受信部 420 音声検出部 430 波形圧縮部 440 波形送信部 450 波形記憶部 460 始端キャンセル信号送信部 510 波形・信号受信部 520 波形伸張部 530 波形データ再送要求信号送信部 540 分析部 550 認識部 560 標準パターン記憶部 610 波形・信号受信部 620 音声検出部 630 波形圧縮部 640 波形送信部 650 波形記憶部 660 始端キャンセル信号送信部 670 音声合成部 680 合成音情報作成部 710 波形・信号受信部 720 波形伸張部 730 波形データ再送要求信号送信部 740 分析部 750 認識部 760 標準パターン記憶部 770 合成音情報取得部 1010 波形・信号・圧縮方式受信部 1020 音声検出部 1030 波形圧縮部 1040 波形送信部 1050 波形記憶部 1060 始端キャンセル信号送信部 1070 音声合成部 1080 合成音情報作成部 1090 圧縮方式インデックス作成部 1100 圧縮方式選択部 1110 圧縮方式記憶部 1120 圧縮方式要求信号送信部 1210 波形・信号受信部 1220 波形伸張部 1230 波形データ再送要求信号送信部 1240 分析部 1250 認識部 1260 標準パターン記憶部 1270 合成音情報取得部 1280 圧縮方式インデックス取得部 1290 認識エンジン選択部 1300 認識エンジン設定部 1310 圧縮方式取得部 1320 圧縮方式記憶部 1410 波形・信号・圧縮方式受信部 1420 音声検出部 1430 波形圧縮部 1440 波形送信部 1450 波形記憶部 1460 始端キャンセル信号送信部 1470 音声合成部 1480 合成音情報作成部 1490 圧縮方式インデックス作成部 1500 圧縮方式選択部 1510 圧縮方式記憶部 1520 圧縮方式要求信号送信部 1610 波形・信号・タスク情報受信部 1620 波形伸張部 1630 波形データ再送要求信号送信部 1640 分析部 1650 認識部 1660 標準パターン記憶部 1670 合成音情報取得部 1680 圧縮方式インデックス取得部 1690 認識エンジン選択部 1700 認識エンジン設定部 1710 圧縮方式取得部 1720 圧縮方式・タスク情報対応テーブル記憶部 1730 タスク情報記憶部 1810 波形・信号・圧縮方式・タスク情報受信部 1820 音声検出部 1830 波形圧縮部 1840 波形送信部 1850 波形記憶部 1860 始端キャンセル信号送信部 1870 音声合成部 1880 合成音情報作成部 1890 圧縮方式インデックス作成部 1900 圧縮方式選択部 1910 圧縮方式・タスク情報対応テーブル記憶部 1920 圧縮方式要求信号送信部 1930 タスク情報記憶部 2010 波形・信号受信部 2020 波形伸張部 2030 波形データ再送要求信号送信部 2040 分析部 2050 認識部 2060 標準パターン記憶部 2070 合成音情報取得部 2080 圧縮方式インデックス取得部 2090 認識エンジン選択部 2100 認識エンジン設定部 2110 圧縮方式取得部 2120 圧縮方式記憶部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/04 (72)発明者 吉田 和永 東京都港区芝五丁目7番1号 日本電気株 式会社内 Fターム(参考) 5D015 DD03 FF01 KK01

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】端末側の装置と、サーバ側の装置と、を備
    えた音声認識装置であって、 前記端末側の装置が、 入力されたデータの音声区間を検出する音声検出部と、 前記音声検出部で検出された音声区間の波形データを圧
    縮する波形圧縮部と、 前記波形圧縮部で圧縮された波形データを出力する波形
    送信部と、 を備え、 前記サーバ側の装置が、 前記端末側の装置から出力された波形データを受信する
    波形受信部と、 前記波形受信部で受信された波形データを伸張する波形
    伸張部と、 前記波形伸張部で伸張された波形データを用いて認識処
    理を行い、認識した結果を出力する認識部と、 を備えている、ことを特徴とする音声認識装置。
  2. 【請求項2】端末側の装置と、サーバ側の装置と、を備
    えた音声認識装置であって、 前記端末側の装置が、 入力された音声の波形データと、前記サーバ側の装置か
    ら送信される波形データ再送要求信号とを受信する波形
    ・信号受信部と、 前記波形・信号受信部で受信された波形データの音声区
    間を検出する音声検出部と、 前記音声検出部で検出された音声区間の波形データを圧
    縮する波形圧縮部と、 波形データを出力する波形送信部と、 前記波形圧縮部で圧縮された波形データを一時記憶しな
    がら前記波形データを、前記波形送信部へ送信すると共
    に、前記波形・信号受信部において前記サーバ側の装置
    からの波形データ再送要求信号が受信された場合に、記
    憶された波形データを、前記波形送信部へ送信する波形
    記憶部と、 を備え、 前記サーバ側の装置が、 前記端末側の装置から出力された波形データを受信する
    波形受信部と、 前記波形受信部で受信された波形データを伸張する波形
    伸張部と、 前記波形伸張部で伸張された波形データを用いて認識処
    理を行い、認識した結果を出力する認識部と、 前記波形受信部で圧縮波形データの受信に失敗した場合
    には、波形データの再送要求信号を前記波形受信部から
    受け取り波形データ再送要求信号を出力する波形データ
    再送要求信号送信部と、を備えている、ことを特徴とす
    る音声認識装置。
  3. 【請求項3】端末側の装置と、サーバ側の装置と、を備
    えた音声認識装置であって、 前記端末側の装置が、 入力された音声の波形データと、前記サーバ側の装置か
    ら送信される波形データ再送要求信号とを受信する波形
    ・信号受信部と、 前記波形・信号受信部で受信された波形データの音声区
    間を検出する音声検出部と、 前記音声検出部で検出された音声区間の波形データを圧
    縮する波形圧縮部と、波形データを出力する波形送信部
    と、 前記波形圧縮部で圧縮された波形データを一時記憶しな
    がら前記波形データを、前記波形送信部へ送信すると共
    に、前記波形・信号受信部において、前記サーバ側の装
    置からの波形データ再送要求信号が受信された場合に、
    記憶された波形データを、前記波形送信部へ送信する波
    形記憶部と、 前記音声検出部で音声の検出後に該検出がキャンセルさ
    れた場合、前記音声検出部から送信された始端キャンセ
    ル時の信号を受け取り始端キャンセル信号を出力する始
    端キャンセル信号送信部と、 を備え、 前記サーバ側の装置が、 前記端末側の装置から出力された波形データと、前記始
    端キャンセル信号とを受信する波形・信号受信部と、 前記波形・信号受信部で受信された音声の波形データを
    伸張する波形伸張部と、 前記波形伸張部で伸張された波形データを用いて認識処
    理を行い、認識した結果を出力する認識部と、 前記波形受信部で圧縮波形データの受信に失敗した場合
    には、波形データの再送要求信号を前記波形受信部から
    受け取り波形データ再送要求信号を出力する波形データ
    再送要求信号送信部と、 を備え、前記認識部は、前記波形・信号受信部において
    始端キャンセル信号を受信した場合に、認識処理を中止
    する、ことを特徴とする音声認識装置。
  4. 【請求項4】端末側の装置と、サーバ側の装置と、を備
    えた音声認識装置であって、 前記端末側の装置が、 入力された波形データと、前記サーバ側の装置から送信
    される波形データ再送要求信号と、前記サーバ側の装置
    から送信される前記サーバ側の装置で利用可能な圧縮方
    式情報とを少なくとも受信する波形・信号・圧縮方式受
    信部と、 前記波形・信号・圧縮方式受信部で受信された波形デー
    タの音声区間を検出する音声検出部と、 前記音声検出部で検出された音声区間の波形データを圧
    縮する波形圧縮部と、波形データを出力する波形送信部
    と、 前記波形圧縮部で圧縮された波形データを一時記憶しな
    がら前記波形データを、前記波形送信部へ送信すると共
    に、前記波形・信号・圧縮方式受信部において、前記サ
    ーバ側の装置からの波形データ再送要求信号が受信され
    た場合に、記憶された波形データを、前記波形送信部へ
    送信する波形記憶部と、 前記波形・信号・圧縮方式受信部において前記サーバ側
    で利用可能な圧縮方式情報を受信した場合に、前記波形
    ・信号・圧縮方式受信部から送られた圧縮方式情報より
    最適な圧縮方式を選択する圧縮方式選択部と、 前記圧縮方式選択部で選択された圧縮方式のインデック
    スを作成する圧縮方式インデックス作成部と、 を備え、 前記波形圧縮部は、前記音声検出部で検出された音声区
    間の波形データを圧縮し、前記圧縮方式インデックス作
    成部で作成された圧縮方式インデックスを波形データの
    一部に組み込み、 前記サーバ側の装置が、 前記端末側の装置から送信された波形データと、圧縮方
    式要求信号とを受信する波形・信号受信部と、 前記波形・信号受信部で受信された音声の波形データを
    伸張する波形伸張部と、 前記波形伸張部で伸張された波形データを用いて認識処
    理を行い、認識した結果を出力する認識部と、 前記波形・信号受信部で圧縮波形データの受信に失敗し
    た場合には、波形データの再送要求信号を前記波形受信
    部から受け取り波形データ再送要求信号を出力する波形
    データ再送要求信号送信部と、 前記サーバ側の装置で利用可能な圧縮方式の情報を記憶
    する圧縮方式記憶部と、 前記波形・信号・圧縮方式受信部から圧縮方式要求信号
    が送られた場合に前記圧縮方式記憶部に記憶されている
    圧縮方式情報を取得し、前記端末側の装置に圧縮方式情
    報を出力する圧縮方式取得部と、 前記波形伸張部で伸張されたデータから圧縮方式のイン
    デックスを取得する圧縮方式インデックス取得部と、 前記圧縮方式インデックス取得部で取得された圧縮方式
    のインデックスから認識エンジンを選択する認識エンジ
    ン選択部と、 前記認識エンジン選択部で選択されたエンジンを記憶さ
    れているエンジンの中から設定する認識エンジン設定部
    と、 を備えている、ことを特徴とする音声認識装置。
  5. 【請求項5】前記端末側の装置が、 合成音を合成する音声合成部と、 前記音声合成部で合成された合成音の情報を作成し、合
    成音を出力する合成音情報作成部と、 を備え、 前記波形圧縮部は、前記音声検出部で検出された音声区
    間の波形データを圧縮し、前記合成音情報作成部で作成
    された合成音情報を前記波形データの一部に組み込み、 前記サーバ側の装置が、 前記波形伸張部で伸張されたデータから合成音情報を取
    得する合成音情報取得部を備え、前記認識部が、認識が
    終了した場合に前記合成音情報取得部で取得された合成
    音情報より合成音と認識結果との対応付けを行い、対応
    付けされた認識結果、又は認識結果と合成音情報を出力
    する、ことを特徴とする請求項3又は4に記載の音声認
    識装置。
  6. 【請求項6】前記サーバ側の装置において、前記波形圧
    縮部は、前記音声検出部で検出された音声区間の波形デ
    ータを圧縮し、前記合成音情報作成部で作成された合成
    音情報と、前記圧縮方式インデックス作成部で作成され
    た圧縮方式インデックスを波形データの一部に組み込
    む、ことを特徴とする請求項5に記載の音声認識装置。
  7. 【請求項7】前記サーバ側装置において、 前記波形・信号受信部に代わって、前記端末側の装置か
    ら送信された波形データと、始端キャンセル信号と、圧
    縮方式要求信号と、コンテンツ側から送信されたタスク
    情報と、を受信する波形・信号・タスク情報受信部を備
    え、 前記波形・信号・タスク情報受信部で受信されたタスク
    情報を記憶するタスク情報記憶部と、 タスク情報と該タスク使用時に利用可能な1個以上の圧
    縮方式を記憶する圧縮方式・タスク情報対応テーブル記
    憶部と、 前記波形・信号・タスク情報受信部において圧縮方式要
    求信号を受信した場合に、前記タスク情報記憶部から送
    られたタスク情報と前記圧縮方式・タスク情報対応テー
    ブル記憶部から送られたタスク情報と圧縮方式との対応
    テーブルより利用可能な圧縮方式情報を取得し、前記端
    末側の装置に出力する圧縮方式取得部とを備えている、
    ことを特徴とする請求項4又は5に記載の音声認識装
    置。
  8. 【請求項8】前記端末側の装置において、 前記波形・信号・圧縮方式受信部に代わって、入力され
    た波形データと、コンテンツ側から送信されたタスク情
    報と、前記サーバ側の装置から送信された波形データ再
    送要求信号と、前記サーバ側の装置から送信された前記
    サーバ側の装置で利用可能な圧縮方式情報とを受信する
    波形・信号・圧縮方式・タスク情報受信部を備え、 前記波形・信号・圧縮方式・タスク情報受信部で受信さ
    れたタスク情報を記憶するタスク情報記憶部と、 タスク情報とそのタスク使用時に利用可能な1個以上の
    圧縮方式の対応テーブルを記憶する圧縮方式・タスク情
    報対応テーブル記憶部と、 前記波形・信号・圧縮方式・タスク情報受信部において
    サーバ側で利用可能な圧縮方式情報を受信した場合に、
    前記タスク情報記憶部から送られたタスク情報と、前記
    圧縮方式・タスク対応テーブル記憶部から送られたタス
    ク情報と圧縮方式との対応テーブルと、前記波形・信号
    ・圧縮方式・タスク情報受信部から送られた前記サーバ
    側の装置で利用可能な圧縮方式情報とをもとに、最適な
    圧縮方式を選択する圧縮方式選択部と、 を備えたことを特徴とする請求項5に記載の音声認識装
    置。
  9. 【請求項9】端末から出力された圧縮波形データを受信
    して伸張し、該伸張された波形データを用いて認識処理
    を行い、認識した結果を出力するサーバ装置に接続さ
    れ、サーバ・クライアント音声認識装置を構成する端末
    であって、 入力されたデータの音声区間を検出する音声検出部と、 前記音声検出部で検出された音声区間の波形データを圧
    縮する波形圧縮部と、 前記波形圧縮部で圧縮された波形データを出力する波形
    送信部と、 を備えている、ことを特徴とする端末。
  10. 【請求項10】入力されたデータの音声区間を検出し、
    該検出された音声区間の波形データを圧縮する波形圧縮
    部と、前記波形圧縮部で圧縮された波形データを出力す
    る端末に接続され、前記端末とともに、サーバ・クライ
    アント音声認識装置を構成するサーバ装置であって、 前記端末から出力された波形データを少なくとも受信す
    る受信部と、 前記波形受信部で受信された波形データを伸張する波形
    伸張部と、 前記波形伸張部で伸張された波形データを用いて認識処
    理を行い、認識した結果を出力する認識部と、 を備えている、ことを特徴とするサーバ装置。
  11. 【請求項11】入力された音声の波形データと、前記サ
    ーバ装置から送信された波形データ再送要求信号を受信
    する波形・信号受信部と、 前記波形・信号受信部で受信された波形データの音声区
    間を検出する音声検出部と、 前記音声検出部で検出された音声区間の波形データを圧
    縮する波形圧縮部と、 波形データをサーバ装置に送信する波形送信部と、 前記波形圧縮部で圧縮された波形データを、一時記憶し
    ながら、前記波形データを、前記波形送信部へ送信する
    と共に、前記波形・信号受信部において前記サーバ装置
    からの波形データ再送要求信号が受信された場合に、記
    憶された波形データを、前記波形送信部へ送信する波形
    記憶部と、 をさらに備えている、ことを特徴とする請求項9に記載
    の端末。
  12. 【請求項12】前記受信部で、圧縮波形データの受信に
    失敗した場合に、波形データ再送要求信号を前記端末に
    送信する波形データ再送要求信号送信部を備えている、
    ことを特徴とする請求項10に記載のサーバ装置。
  13. 【請求項13】前記音声検出部で音声の検出後に該検出
    がキャンセルされた場合、前記音声検出部から送信され
    た始端キャンセル時の信号を受け取り、始端キャンセル
    信号を前記サーバ装置に送信する始端キャンセル信号送
    信部をさらに備えている、ことを特徴とする請求項11
    に記載の端末。
  14. 【請求項14】前記端末において音声の検出後に該検出
    がキャンセルされた場合に出力される始端キャンセル信
    号を、前記受信部が受信した場合に、前記受信部からの
    通知に基づき、前記認識部は、認識処理を中止する、こ
    とを特徴とする請求項10に記載のサーバ装置。
  15. 【請求項15】前記端末の波形・信号受信部が、前記サ
    ーバ側の装置から送信された前記サーバ側の装置で利用
    可能な圧縮方式情報を受信した場合に、前記圧縮方式情
    報より最適な圧縮方式を選択する圧縮方式選択部と、 前記圧縮方式選択部で選択された圧縮方式のインデック
    スを作成する圧縮方式インデックス作成部と、を備え、 前記波形圧縮部は、前記音声検出部で検出された音声区
    間の波形データを圧縮し、前記圧縮方式インデックス作
    成部で作成された圧縮方式インデックスを波形データの
    一部に組み込む、ことを特徴とする請求項11又は13
    に記載の端末。
  16. 【請求項16】前記受信部は、前記端末から送信される
    圧縮方式要求信号を受信し、 前記サーバ側で利用可能な圧縮方式の情報を記憶する圧
    縮方式記憶部と、 前記受信部で圧縮方式要求信号を受信した場合に、前記
    圧縮方式記憶部に記憶されている圧縮方式情報を取得
    し、前記端末側に圧縮方式情報を出力する圧縮方式取得
    部と、 前記波形伸張部で伸張されたデータから圧縮方式のイン
    デックスを取得する圧縮方式インデックス取得部と、 前記圧縮方式インデックス取得部で取得された圧縮方式
    のインデックスから認識エンジンを選択する認識エンジ
    ン選択部と、 前記認識エンジン選択部で選択されたエンジンを記憶さ
    れているエンジンの中から設定する認識エンジン設定部
    と、 を備えている、ことを特徴とする請求項10、12、1
    4のいずれか一に記載のサーバ装置。
  17. 【請求項17】合成音を合成する音声合成部と、 前記音声合成部で合成された合成音の情報を作成し、合
    成音を出力する合成音情報作成部と、 を備え、前記波形圧縮部は、前記音声検出部で検出され
    た音声区間の波形データを圧縮し、前記合成音情報作成
    部で作成された合成音情報を前記波形データの一部に組
    み込む、ことを特徴とする請求項11、13、15のい
    ずれか一に記載の端末。
  18. 【請求項18】前記波形伸張部で伸張されたデータから
    合成音情報を取得する合成音情報取得部を備え、前記認
    識部が、認識が終了した場合に前記合成音情報取得部で
    取得された合成音情報より合成音と認識結果との対応付
    けを行い、対応付けされた認識結果、又は認識結果と合
    成音情報を出力する、ことを特徴とする請求項10、1
    2、14、16のいずれか一に記載のサーバ装置。
  19. 【請求項19】前記受信部が、前記端末側の装置から送
    信される波形データと、始端キャンセル信号と、圧縮方
    式要求信号と、コンテンツ側から送信されたタスク情報
    と、を受信し、 前記波形・信号・タスク情報受信部で受信されたタスク
    情報を記憶するタスク情報記憶部と、 タスク情報と該タスク使用時に利用可能な1個以上の圧
    縮方式を記憶する圧縮方式・タスク情報対応テーブル記
    憶部と、 前記波形・信号・タスク情報受信部において圧縮方式要
    求信号を受信した場合に、前記タスク情報記憶部から送
    られたタスク情報と前記圧縮方式・タスク情報対応テー
    ブル記憶部から送られたタスク情報と圧縮方式との対応
    テーブルより利用可能な圧縮方式情報を取得し、前記端
    末側の装置に出力する圧縮方式取得部とを備えている、
    ことを特徴とする請求項10、12、14、16、18
    のいずれか一に記載のサーバ装置。
  20. 【請求項20】前記波形・信号受信部では、入力された
    波形データと、コンテンツ側から送信されたタスク情報
    と、前記サーバ側の装置から送信される波形データ再送
    要求信号と、前記サーバ側の装置から送信された前記サ
    ーバ側の装置で利用可能な圧縮方式情報とを受信し、 前記受信されたタスク情報を記憶するタスク情報記憶部
    と、 前記タスク情報とそのタスク使用時に利用可能な1個以
    上の圧縮方式の対応テーブルを記憶する圧縮方式・タス
    ク情報対応テーブル記憶部と、 前記波形・信号受信部で前記サーバ側で利用可能な圧縮
    方式情報を受信した場合に、前記タスク情報記憶部から
    送られたタスク情報と、前記圧縮方式・タスク対応テー
    ブル記憶部から送られたタスク情報と圧縮方式との対応
    テーブルと、前記波形・信号・圧縮方式・タスク情報受
    信部から送られた前記サーバ側の装置で利用可能な圧縮
    方式情報をもとに最適な圧縮方式を選択する圧縮方式選
    択部と、 を備えている、ことを特徴とする請求項11、13、1
    5、17のいずれか一に記載の端末。
  21. 【請求項21】サーバ装置と端末を有するサーバ・クラ
    イアントシステムの音声認識方法であって、 前記端末において、 入力されたデータの音声区間を検出するステップと、 前記検出された音声区間の波形データを圧縮するステッ
    プと、 前記圧縮された波形データをサーバに送信するステップ
    と、 を有し、 前記サーバ装置において、 前記端末から出力された波形データを受信するステップ
    と、 前記受信された波形データを伸張するステップと、 前記伸張された波形データを用いて認識処理を行い、認
    識した結果を出力するステップと、 を有する、ことを特徴とする音声認識方法。
  22. 【請求項22】サーバ装置と端末を有するサーバ・クラ
    イアントシステムの音声認識方法であって、 前記端末において、 入力された音声の波形データを受信するステップと、 前記受信された波形データの音声区間を検出するステッ
    プと、 前記検出された音声区間の波形データを圧縮するステッ
    プと、 前記圧縮された波形データを波形記憶部に一時記憶しな
    がら前記サーバ装置に送信するステップと、 前記サーバ装置から送信される波形データ再送要求信号
    を受信した場合に、波形記憶部に記憶された波形データ
    を、前記サーバ装置に送信するステップと、 を有し、 前記サーバ装置において、 前記端末から出力される波形データを受信するステップ
    と、 前記受信された波形データを伸張するステップと、 前記伸張された波形データを用いて認識処理を行い、認
    識した結果を出力するステップと、 前記端末から送信される圧縮波形データの受信に失敗し
    た場合には、波形データ再送要求信号を前記端末に出力
    するステップと、 を有する、ことを特徴とする音声認識方法。
  23. 【請求項23】前記端末において、 音声の検出後に該検出がキャンセルされた場合、始端キ
    ャンセル信号を前記サーバ装置に送信するステップをさ
    らに有し、 前記サーバ装置において、 前記端末からの前記始端キャンセル信号を受信した場合
    に、認識処理を中止するステップを有する、ことを特徴
    とする請求項21又は22記載の音声認識方法。
  24. 【請求項24】前記端末において、 前記サーバ装置から送信された前記サーバ側で利用可能
    な圧縮方式情報を受信するステップと、 前記受信した圧縮方式情報により最適な圧縮方式を選択
    するステップと、 前記選択された圧縮方式のインデックスを作成するステ
    ップと、 音声区間の波形データを圧縮し、作成された圧縮方式イ
    ンデックスを波形データの一部に組み込んで、前記サー
    バ装置に送信するステップと、 を有し、 前記サーバ装置において、 前記端末から送信される圧縮方式要求信号を受信した場
    合に、前記サーバ側で利用可能な圧縮方式の情報を記憶
    する圧縮方式記憶部に記憶されている圧縮方式情報を取
    得し、前記端末に圧縮方式情報を出力するステップと、 伸張されたデータから圧縮方式のインデックスを取得す
    るステップと、 前記取得された圧縮方式のインデックスから認識エンジ
    ンを選択するステップと、 前記選択されたエンジンを記憶されているエンジンの中
    から設定するステップと、 を有する、ことを特徴とする請求項22又は23記載の
    音声認識方法。
  25. 【請求項25】前記端末において、 合成音を合成するステップと、 前記合成された合成音の情報を作成し、合成音を出力す
    るステップと、 検出された音声区間の波形データを圧縮し、前記合成音
    情報作成部で作成された合成音情報を前記波形データの
    一部に組み込んで、前記サーバ装置に送信するステップ
    と、 を含み、 前記サーバ装置において、 前記伸張されたデータから合成音情報を取得するステッ
    プを有し、 認識が終了した場合に、前記取得された合成音情報より
    合成音と認識結果との対応付けを行い、対応付けされた
    認識結果、又は認識結果と合成音情報を出力する、こと
    を特徴とする請求項22乃至24のいずれか一に記載の
    音声認識方法。
  26. 【請求項26】前記サーバ装置において、 コンテンツ側から送信されたタスク情報を受信してタス
    ク情報記憶部に記憶するステップと、 圧縮方式要求信号を受信した場合に、タスク情報と、圧
    縮方式との対応テーブルより、利用可能な圧縮方式情報
    を取得し、前記端末に送信するステップを有することを
    特徴とする請求項22乃至25のいずれか一に記載の音
    声認識方法。
  27. 【請求項27】前記端末において、 コンテンツ側から送信されたタスク情報と、前記サーバ
    装置から送信された前記サーバ側で利用可能な圧縮方式
    情報とを受信するステップと、 前記サーバ側で利用可能な圧縮方式情報を受信した場合
    に、前記タスク情報と、圧縮方式・タスク対応テーブル
    記憶部から送られたタスク情報と圧縮方式との対応テー
    ブルと、サーバ側の装置で利用可能な圧縮方式情報をも
    とに最適な圧縮方式を選択するステップと、 を有する、ことを特徴とする請求項26記載の音声認識
    方法。
JP2001186926A 2001-06-20 2001-06-20 サーバ・クライアント型音声認識装置及び方法 Expired - Fee Related JP3885523B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2001186926A JP3885523B2 (ja) 2001-06-20 2001-06-20 サーバ・クライアント型音声認識装置及び方法
EP08101940A EP1926088A3 (en) 2001-06-20 2002-06-20 Server-client type speech recognition apparatus and method
EP02743659A EP1411499B1 (en) 2001-06-20 2002-06-20 Server; client type speech recognition apparatus and method
PCT/JP2002/006156 WO2003001511A1 (en) 2001-06-20 2002-06-20 Server-client type speech recognition apparatus and method
US10/481,324 US7478046B2 (en) 2001-06-20 2002-06-20 Server-client type speech recognition apparatus and method
DE60229392T DE60229392D1 (de) 2001-06-20 2002-06-20 Spracherkennungsvorrichtung und verfahren des server-client-typs

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001186926A JP3885523B2 (ja) 2001-06-20 2001-06-20 サーバ・クライアント型音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2003005949A true JP2003005949A (ja) 2003-01-10
JP3885523B2 JP3885523B2 (ja) 2007-02-21

Family

ID=19026294

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001186926A Expired - Fee Related JP3885523B2 (ja) 2001-06-20 2001-06-20 サーバ・クライアント型音声認識装置及び方法

Country Status (5)

Country Link
US (1) US7478046B2 (ja)
EP (2) EP1411499B1 (ja)
JP (1) JP3885523B2 (ja)
DE (1) DE60229392D1 (ja)
WO (1) WO2003001511A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004333674A (ja) * 2003-05-02 2004-11-25 Sony Corp ネットワークシステム、電子機器端末およびサーバ装置並びにコンテンツの配信再生方法
US7835728B2 (en) 2004-03-18 2010-11-16 Nec Corporation Voice processing unit and system, and voice processing method
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP2012247679A (ja) * 2011-05-30 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> テキスト及び音声特徴量収集方法、そのシステム、プログラム
US10210886B2 (en) 2014-09-17 2019-02-19 Kabushiki Kaisha Toshiba Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533023B2 (en) * 2003-02-12 2009-05-12 Panasonic Corporation Intermediary speech processor in network environments transforming customized speech parameters
US9224394B2 (en) * 2009-03-24 2015-12-29 Sirius Xm Connected Vehicle Services Inc Service oriented speech recognition for in-vehicle automated interaction and in-vehicle user interfaces requiring minimal cognitive driver processing for same
US8626152B2 (en) 2008-01-31 2014-01-07 Agero Connected Sevices, Inc. Flexible telematics system and method for providing telematics to a vehicle
CN102754078B (zh) * 2009-09-30 2015-05-20 阿尔特拉公司 使用压缩和解压缩的增强型多处理器波形数据交换
US9384736B2 (en) * 2012-08-21 2016-07-05 Nuance Communications, Inc. Method to provide incremental UI response based on multiple asynchronous evidence about user input

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2545914B2 (ja) * 1988-02-09 1996-10-23 日本電気株式会社 音声認識方法
JP2733955B2 (ja) * 1988-05-18 1998-03-30 日本電気株式会社 適応型音声認識装置
JPH0296800A (ja) * 1988-10-03 1990-04-09 Nec Corp 連続音声認識装置
JP2841404B2 (ja) * 1989-01-12 1998-12-24 日本電気株式会社 連続音声認識装置
JPH0566793A (ja) 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd 音声入力装置
JPH05181493A (ja) 1991-12-27 1993-07-23 Toshiba Corp 音声認識装置
JP2797949B2 (ja) * 1994-01-31 1998-09-17 日本電気株式会社 音声認識装置
US5884269A (en) * 1995-04-17 1999-03-16 Merging Technologies Lossless compression/decompression of digital audio data
JP3513285B2 (ja) 1995-10-13 2004-03-31 富士通株式会社 音声の符号・復号方式
JPH09275391A (ja) 1996-04-04 1997-10-21 Oki Electric Ind Co Ltd 情報符号化装置及び情報復号装置
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
JP2991287B2 (ja) * 1997-01-28 1999-12-20 日本電気株式会社 抑制標準パターン選択式話者認識装置
JPH10243048A (ja) 1997-02-27 1998-09-11 Nippon Telegr & Teleph Corp <Ntt> 情報伝送方法及びシステム
JP4203140B2 (ja) * 1997-03-25 2008-12-24 パナソニック株式会社 ストリームデータ転送方法およびシステム
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
JPH11110913A (ja) 1997-10-01 1999-04-23 Sony Corp 音声情報伝送装置及び方法、並びに音声情報受信装置及び方法、並びに記録媒体
JP3090119B2 (ja) * 1998-05-15 2000-09-18 日本電気株式会社 話者照合装置、方法及び記憶媒体
US6775652B1 (en) * 1998-06-30 2004-08-10 At&T Corp. Speech recognition over lossy transmission systems
JP2000040051A (ja) 1998-07-23 2000-02-08 Toyo Commun Equip Co Ltd クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置
JP3014366B2 (ja) 1998-08-12 2000-02-28 日本電信電話株式会社 インターネット電話通信方法及び装置、及びそのプログラムを記録した記録媒体
US6336090B1 (en) 1998-11-30 2002-01-01 Lucent Technologies Inc. Automatic speech/speaker recognition over digital wireless channels
JP2000194700A (ja) 1998-12-25 2000-07-14 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000224226A (ja) * 1999-01-27 2000-08-11 Denso Corp 誤り制御方式及び装置、送信及び受信制御装置
JP2000268047A (ja) 1999-03-17 2000-09-29 Sony Corp 情報提供システム、クライアント、情報提供サーバ及び情報提供方法
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
JP4110690B2 (ja) 1999-10-18 2008-07-02 ヤマハ株式会社 データ生成方法、記録装置、記録媒体、および再生装置
JP4045057B2 (ja) 1999-11-16 2008-02-13 株式会社ケンウッド 部分再送データを用いた時間ダイバーシチ回路
JP2001142488A (ja) 1999-11-17 2001-05-25 Oki Electric Ind Co Ltd 音声認識通信システム
JP2001195087A (ja) 2000-01-06 2001-07-19 Mitsubishi Electric Corp 音声認識システム
JP3322262B2 (ja) * 2000-12-22 2002-09-09 日本電気株式会社 無線携帯端末通信システム
US6760705B2 (en) * 2001-05-31 2004-07-06 Motorola, Inc. Virtual speech interface system and method of using same
JP2003295890A (ja) * 2002-04-04 2003-10-15 Nec Corp 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
JP4725512B2 (ja) * 2004-03-18 2011-07-13 日本電気株式会社 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004333674A (ja) * 2003-05-02 2004-11-25 Sony Corp ネットワークシステム、電子機器端末およびサーバ装置並びにコンテンツの配信再生方法
US8065382B2 (en) 2003-05-02 2011-11-22 Sony Corporation Network system, electronic equipment terminal, server apparatus and method for distributing and reproducing the contents
US7835728B2 (en) 2004-03-18 2010-11-16 Nec Corporation Voice processing unit and system, and voice processing method
WO2011052412A1 (ja) * 2009-10-28 2011-05-05 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体
JP5621993B2 (ja) * 2009-10-28 2014-11-12 日本電気株式会社 音声認識システム、音声認識要求装置、音声認識方法、及び音声認識用プログラム
US9520129B2 (en) 2009-10-28 2016-12-13 Nec Corporation Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
US9905227B2 (en) 2009-10-28 2018-02-27 Nec Corporation Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
JP2012247679A (ja) * 2011-05-30 2012-12-13 Nippon Telegr & Teleph Corp <Ntt> テキスト及び音声特徴量収集方法、そのシステム、プログラム
US10210886B2 (en) 2014-09-17 2019-02-19 Kabushiki Kaisha Toshiba Voice segment detection system, voice starting end detection apparatus, and voice terminal end detection apparatus

Also Published As

Publication number Publication date
JP3885523B2 (ja) 2007-02-21
EP1926088A2 (en) 2008-05-28
US20040243414A1 (en) 2004-12-02
EP1926088A3 (en) 2008-06-11
EP1411499A4 (en) 2005-12-21
DE60229392D1 (de) 2008-11-27
EP1411499B1 (en) 2008-10-15
WO2003001511A1 (en) 2003-01-03
EP1411499A1 (en) 2004-04-21
US7478046B2 (en) 2009-01-13

Similar Documents

Publication Publication Date Title
KR100391287B1 (ko) 압축된 음성 데이터를 이용하는 음성인식방법 및 시스템과 그 시스템을 이용한 디지탈 셀룰러 전화
US7219057B2 (en) Speech recognition method
US20110044324A1 (en) Method and Apparatus for Voice Communication Based on Instant Messaging System
JP2003295890A (ja) 音声認識対話選択装置、音声認識対話システム、音声認識対話選択方法、プログラム
JP3885523B2 (ja) サーバ・クライアント型音声認識装置及び方法
US7050974B1 (en) Environment adaptation for speech recognition in a speech communication system
US6789066B2 (en) Phoneme-delta based speech compression
US7328159B2 (en) Interactive speech recognition apparatus and method with conditioned voice prompts
TWI282547B (en) A method and apparatus to perform speech recognition over a voice channel
JP2002530931A (ja) 分散音声認識プロセスにおける受信データの処理方法および装置
JP2003241788A (ja) 音声認識装置及び音声認識システム
JP2000285063A (ja) 情報処理装置および情報処理方法、並びに媒体
US6327303B1 (en) Method and system for data transmission using a lossy compression service
US20030065512A1 (en) Communication device and a method for transmitting and receiving of natural speech
JP4039620B2 (ja) 音声合成装置および音声合成プログラム
US11763101B2 (en) Portable radio having stand-alone, speech recognition and text-to-speech (TTS) function and associated methods
JP2002300259A (ja) 音声通話装置の評価試験方法及びシステム
KR102441066B1 (ko) 차량의 음성생성 시스템 및 방법
JP6972576B2 (ja) 通信装置、通信システム、通信方法及びプログラム
JP6680125B2 (ja) ロボットおよび音声対話方法
JP2004029299A (ja) 音声認識システム
TW541516B (en) Distributed speech recognition using dynamically determined feature vector codebook size
JP2001007924A (ja) デジタル移動通信方式
JP2005173215A (ja) 音声認識システム
JP2003259013A (ja) 問い合わせ方法および問い合わせシステム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061010

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061031

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061113

R150 Certificate of patent or registration of utility model

Ref document number: 3885523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091201

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101201

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111201

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121201

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131201

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees