JP2001142488A - 音声認識通信システム - Google Patents

音声認識通信システム

Info

Publication number
JP2001142488A
JP2001142488A JP32665999A JP32665999A JP2001142488A JP 2001142488 A JP2001142488 A JP 2001142488A JP 32665999 A JP32665999 A JP 32665999A JP 32665999 A JP32665999 A JP 32665999A JP 2001142488 A JP2001142488 A JP 2001142488A
Authority
JP
Japan
Prior art keywords
voice
unit
speech
recognition
packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP32665999A
Other languages
English (en)
Inventor
Satoshi Watanabe
聡 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP32665999A priority Critical patent/JP2001142488A/ja
Publication of JP2001142488A publication Critical patent/JP2001142488A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Communication Control (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

(57)【要約】 【課題】 通信ネットワーク上の装置間における音声デ
ータ音声認識性能を向上させることができる音声認識通
信システムを提供する。 【解決手段】 音声信号を入力しその音声信号を示す音
声情報をパケットとしてネットワーク回線に出力する音
声入力装置と、ネットワーク回線を介して伝送されたパ
ケットを受信して音声認識を行う音声認識装置とを備え
た音声認識通信システムであって、音声入力装置は、互
いに信頼性の程度が異なる少なくとも2種類の通信プロ
トコルのうちのいずれか1のプロトコルにてパケットを
送信する送信手段を有し、音声認識装置は、伝送されて
きたパケットを1の通信プロトコルに従って受信する受
信手段を有する。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は、音声入力装置にお
いて入力された音声について音声入力装置とネットワー
ク回線を介して接続された音声認識装置において音声認
識する音声認識通信システムに関する。
【0002】
【従来の技術】ネットワークを介して双方向の通話を行
うシステムとしては、電話回線網及びその電話端末から
なる音声通信システムが従来からよく知られている。こ
のような音声通信システムにおいて音声が入力された電
話端末から送られてくる音声信号に対して音声認識を行
うことがある。かかる音声認識においては、多様な電話
端末及び回線から送られてくる多様な品質の音声信号に
対して音声認識を行う必要があるので、一般には、回線
毎に音声認識のパターンマッチングのために標準パター
ンや汎用的なパターンが音声認識側に用意されている。
受信した音声信号を分析して音声パターンを作成し、そ
れを用意されたパターンと比較することにより、電話端
末で入力された音声の内容が判定される。
【0003】また、近年、インターネットを用いて通話
を行ういわゆるインターネット電話に代表される音声I
P(インターネットプロトコル)通信システムがある。こ
の音声IP通信システムにおいては、音声認識を適用し
た場合には端末装置で入力された音声を音声認識サーバ
で音声認識することが行われる。ネットワーク回線では
通常、音声データはパケット化して伝送されるので、サ
ーバでは受信したパケットから音声データを取り出して
音声認識を行う必要がある。
【0004】
【発明が解決しようとする課題】しかしながら、音声I
P通信システムにおいては、ネットワーク上の通信が混
雑した状態である場合にはパケットが正常に送り先の音
声認識サーバや端末装置に到達しないパケットロス(パ
ケット落ち)が発生することがある。パケットロスが発
生した場合に、失われたパケットに相当する部分の情報
を得ることができないので、受信側では音声データを全
てに亘って復号できないことになる。よって、前後のフ
レームから予測した音声データで代用することが行われ
るので、その結果として音声認識性能は低下することに
なるという問題点があった。
【0005】また、通常、音声IP通信では、ネットワ
ーク帯域の有効利用と遅延防止等の理由から4〜8kb
ps程度の高圧縮率音声符号化を行うために復号しても
元の音声情報が変形或いは欠落してしまうので、高精度
の音声認識が難しいという問題点もあった。そこで、本
発明の目的は、通信ネットワーク上の装置間における音
声データ音声認識性能を向上させることができる音声認
識通信システムを提供することである。
【0006】
【課題を解決するための手段】本発明の音声認識通信シ
ステムは、音声信号を入力しその音声信号を示す音声情
報をパケットとしてネットワーク回線に出力する音声入
力装置と、ネットワーク回線を介して伝送されたパケッ
トを受信して音声認識を行う音声認識装置とを備えた音
声認識通信システムであって、音声入力装置は、互いに
信頼性の程度が異なる少なくとも2種類の通信プロトコ
ルのうちのいずれか1のプロトコルにてパケットを送信
する送信手段を有し、音声認識装置は、伝送されてきた
パケットを1の通信プロトコルに従って受信する受信手
段を有することを特徴としている。この構成によれば、
通信プロトコルとして少なくとも2種類の通信プロトコ
ルを使用し、パケットロスの発生等の通信状態の悪化に
応じて信頼性の高い通信プロトコルを選択的に使用する
ことができる。
【0007】
【発明の実施の形態】以下、本発明の実施例を図面を参
照しつつ詳細に説明する。図1は本発明によるシステム
の概略構成を示している。このシステムおいては、端末
装置1とサーバ2とがインターネット回線網3を介して
接続された構成となっている。
【0008】端末装置1は、図2に示すように、サーバ
2との接続処理を行う接続制御部11と、サーバ2から
インターネット回線網3を介して供給された音声データ
をアナログの音声信号としてスピーカ15に出力する音
声出力部12と、マイクロホン16で集音された音声及
び音声情報をデータとしてサーバ2に供給するためにイ
ンターネット回線網3に送り出す音声入力部13と、端
末装置1全体の動作を制御する端末制御部14とを備え
ている。
【0009】音声出力部12は、インターネット回線網
3を介して送られてきた音声データを受信する音声受信
部31と、音声受信部31で受信された音声データを復
号する音声復号化部32と、復号された音声データをア
ナログの音声信号に変換してスピーカ15に供給する外
部出力部33とからなる。音声入力部13は、マイクロ
ホン16から出力された音声信号をディジタル音声デー
タであるPCM(Pulse Code Moodulation)データに変換
する外部入力部35と、外部入力部35から供給された
音声データを高圧縮率で符号化する音声符号化部36
と、インターネット回線網3に接続され、符号化された
音声データをUDP(User Datagram Protocol)パケット
にてサーバ2に対して送信するUDP音声送信部37
と、マイクロホン16への入力音声の特徴を示す認識パ
ラメータを計算して音声パターンを出力する認識パラメ
ータ計算部38と、音声パターンをサーバ2に対して送
信する音声パターン送信部39とからなる。
【0010】サーバ2は、図3に示すように、端末装置
1との接続処理を行う接続制御部41と、端末装置1か
らUDPパケットにて送られてきた音声データを受信す
るUDP音声受信部42と、受信した音声データを復号
する音声復号化部43と、復号された音声データの内容
を認識して認識結果に対応した音声データを作成する音
声対話部44と、音声対話部44から出力された音声デ
ータを符号化する音声符号化部45と、インターネット
回線網3に接続され、音声復号部45で符号化された音
声データを端末装置1に対して送信する音声送信部46
と、端末装置1から送られてきた音声パターンデータを
受信する音声パターン受信部47と、サーバ2全体を制
御するサーバ制御部48とを備えている。
【0011】音声対話部44は、音声対話部44から出
力された音声データを分析することにより認識パラメー
タを計算し、その計算結果として音声パターンを出力す
る認識パラメータ計算部51と、音声パターンと標準パ
ターンとのマッチング(類似度)を計算して音声データ
の内容を特定するパターンマッチング部52と、パター
ンマッチング部52の出力に応じて応答音声データの作
成を指示する音声対話制御部53と、音声データを作成
する音声作成部54とからなる。
【0012】かかる構成のシステムにおいては、端末装
置1は図4に示すように、サーバ2に対して音声通信の
ための接続要求を行ってサーバ2とのインターネット回
線網3を介した接続を確立する(ステップS1)。この
接続のためにIP音声通信で規定されている方法、例え
ば、ITU-T H.323に定められたゲートキーパを介する方
法が用いられる。端末装置1とサーバ2と間の音声通信
が確立すると、端末装置1は後述するシーケンス(手
順)でサーバ2との音声対話処理を行う(ステップS
2)。音声対話処理が終了すると、端末装置1はサーバ
2に対して切断要求を行ってサーバ2との接続を切断す
る(ステップS3)。この切断のためにはIP音声通信
で規定されている方法、例えば、ITU-T H.323に定めら
れたゲートキーパを介する方法が用いられる。
【0013】次に、上記のステップS2の音声対話処理
のシーケンスについて図5を用いて説明する。サーバ2
は、音声認識の設定情報を端末装置1に送信し(ステッ
プS11)、端末装置1のユーザの発声を促すガイダン
ス音声データを作成する(ステップS12)。このガイ
ダンス音声データは例えば、「発声してください。」の
如き発声音を示すデータである。サーバ2は作成したガ
イダンス音声データを端末装置1に送信する(ステップ
S13)。すなわち、サーバ制御部48はステップS1
1では接続制御部41に音声認識の設定情報を端末装置
1に送信させる。音声認識の設定情報とは音声認識のた
めの音声データ形式であり、例えば、分析フレーム長:
16msec、分析フレーム周期:8msec、LPG
分析次数:12次、認識パラメータ:PARCOR係数
である。ステップS12ではサーバ制御部48は音声対
話制御部53を介して音声作成部54にガイダンス音声
データの作成を指示し、音声作成部54において作成さ
れたガイダンス音声データは音声符号化部45で符号化
された後、音声送信部46から端末装置1宛のUDP(U
serDatagram Protocol)パケットにてインターネット回
線網3に出力される。
【0014】端末装置1は、音声認識の設定情報を受信
してその設定情報を保存し(ステップS14)、またガ
イダンス音声データを受信してその音声データによる音
声再生を行う(ステップS15)。ステップS14では
受信された設定情報は接続制御部11を介して端末制御
部14に供給されて内部メモリ(図示せず)に保持さ
れ、送受信の音声データの形式に反映される。すなわ
ち、その情報に基づいて音声出力部12及び音声入力部
13が制御される。ステップS15ではガイダンス音声
データは音声受信部31にて受信され、音声復号化部3
2で復号された後、外部出力部33でアナログ音声信号
とされる。その音声信号はスピーカ15を駆動し、それ
により発声を促す音声再生音がスピーカ15から出力さ
れる。
【0015】外部出力部33から音声信号がスピーカ1
5に出力されると、マイクロホン16によってユーザの
発声音が集音され、それが音声信号としてマイクロホン
16から音声入力部13に供給される。端末装置1の端
末制御部14は音声入力部13を制御することにより、
その供給された音声信号が受け入れられてディジタル音
声データに変換され(ステップS16)、サーバ2に対
して音声情報がパケット化されて送信される(ステップ
S17)。すなわち、マイクロホン16からの音声信号
は外部入力部35にて8kHz/16ビットにディジタ
ル化され、30msec(240サンプル)毎に音声デ
ータは音声符号化部36に供給される。音声符号化部3
6は30msec毎に音声符号化を行い、ビットストリ
ームである符号化音声データを音声送信部37に供給す
る。この音声符号化としては、例えば、ITU-TG.723.1に
規定された方法が用いられる。符号化音声データが供給
された音声送信部37は音声データをサーバ2宛のUD
P(User Datagram Protocol)パケットにてインターネッ
ト回線網3に出力する。UDPは、IETF RFC768で規定
されるインターネット上のコネクションレス型トランス
ポートプロトコルであり、送達確認や順序制御等の機能
を備えることなく高速転送を可能にしている。音声送信
部37はUDPパケットを作成する際にタイムスタンプ
やパケット番号を例えば、RTP(Real-time Transfer
Protocol)等の手続きに従って組み込む。RTPは、IET
F RFC1889,1890で規定されているリアルタイム通信用プ
ロトコルである。
【0016】サーバ2は、インターネット回線網3を介
して伝送されて来た音声情報を含むパケットを受信する
と(ステップS18)、音声認識を行い(ステップS1
9)、その音声認識結果に応じて応答音声データを作成
し(ステップS20)、作成した応答音声データを端末
装置1に対して送信する(ステップS21)。具体的に
説明すると、インターネット回線網3からUDPパケッ
トを音声受信部42は、受信パケットのタイムスタンプ
やパケット番号のチェックを例えば、RTP等をプロト
コルを使用して行い、異常がなければ、その後、UDP
パケットからビットストリームの音声データを抽出して
音声復号化部43に供給する。また音声受信部42は、
チェックの段階でパケットが完全には受信されていない
と判別した場合には全てのビットを0とした仮のビット
ストリームを音声復号化部43に供給する。音声復号化
部43はビットストリームを復号化して8kHz/16
ビットの音声データを得て、それをD/A変換すること
なく認識パラメータ計算部51に供給する。認識パラメ
ータ計算部51は、順次供給される音声データを保持
し、16msec分の音声データを8msec周期で分
析し、分析結果として音声データの特徴を示す音声パタ
ーンを得る。分析方法としては、例えば、12次のLP
C分析等の方法が用いられる。得られた音声パターンは
パターンマッチング部52に供給される。パターンマッ
チング部52は、音声対話制御部53が指定した標準パ
ターンに対して、音声パターン計算部51から供給され
た音声パターンを照合してマッチング計算を行ってその
計算結果を認識結果として音声対話制御部53に供給す
る。
【0017】音声対話制御部53は認識結果に対応する
応答音声(例えば、「東京のお天気は?」)の作成を音
声作成部54に指令する。音声作成部54は指令された
応答音声に対応する応答音声データを作成して音声符号
化部45に供給する。応答音声データは音声符号化部4
5で符号化された後、音声送信部46から音声送信部4
6から端末装置1宛のUDPパケットにてインターネッ
ト回線網3に出力される。
【0018】端末装置1は応答音声データを受信してそ
の音声データによる音声再生を行う(ステップS2
2)。このステップS22では応答音声データは音声受
信部31にて受信され、音声復号化部32で復号された
後、外部出力部33でアナログ音声信号とされる。その
音声信号はスピーカ15を駆動し、それによりサーバ2
からの応答音声がスピーカ15から出力される。
【0019】その後、端末装置1はステップS15に戻
って上記の動作を繰り返し、またサーバ2はステップS
22の実行後、ステップS12に戻って上記の動作を繰
り返す。上記のステップS16〜S22の動作について
は、次のように行うこともできる。なお、ステップS1
6〜S22の2つの動作のうちからいずれか一方の動作
がサーバ制御部48の指示(ステップS11の音声認識
の設定情報)に応じて選択されて実行される。
【0020】端末装置1においては、マイクロホン16
からのユーザの発声音を示す音声信号が音声入力部13
に供給されると、そこで8kHz/16ビットにディジ
タル化され、30msec(240サンプル)毎に音声
データは認識パラメータ計算部38に供給される。認識
パラメータ計算部38は順次供給される音声データを保
持し、16msec分の音声データを8msec周期で
分析し、分析結果として音声パターンを得る。分析方法
としては、例えば、12次のLPC分析等の方法が用い
られる。得られた音声パターンは音声パターン送信部3
9に供給される。音声パターン送信部39は音声パター
ンをサーバ2宛のTCP(TransmissionControl Protco
l)パケットにてインターネット回線網3に出力する。T
CPは、IETF RFC793で規定されるインターネット上の
コネクションオリエンティドなトランスポートプロトコ
ルであり、エラー検出及び回復機能等の機能を備え、U
DPよりも信頼性の高いデータ通信を行うことができる
プロトコルである。
【0021】サーバ2においては、インターネット回線
網3からTCPパケットを認識パラメータ受信部47が
受信し、受信したTCPパケットから音声パターンを抽
出してパターンマッチング部52に供給する。パターン
マッチング部52は、音声対話制御部53が指定した標
準パターンに対して、認識パラメータ受信部47から供
給された音声パターンを照合してマッチング計算を行っ
てその計算結果を認識結果として音声対話制御部53に
供給する。
【0022】音声IP通信においては、通常使用される
圧縮方式のビットレートは、5.3/6.3kbps(I
TU-T G.723.1)や8kbps(ITU-T G.729)である。一
方、この実施例の音声パターンのビットレートは分析フ
レーム周期8msec、LPG分析次数12次の場合に
は、48kbpsの如く高い。しかしながら、単語発声
では1語当たり1秒程度と短時間であり、再送機能を備
えたTCPを用いた場合の遅延は一般に許容範囲内であ
る。
【0023】かかる実施例においては、UDPパケット
と比べて信頼性が高いTCPパケットを用いて音声パタ
ーンを伝送するので、パケットロスが発生した区間の音
声パターンが欠落する可能性が低くなり、音声認識の精
度を向上させることができる。また、かかる実施例にお
いては、符号化/復号化を行うことなく、マイクロホン
に入力された音声から音声パターンを直接抽出している
ので、符号化の際の圧縮によって音声パターンが変形す
るという影響を受けることがなく、また各圧縮方法の違
いに依存することなく、音声パターンを得ることができ
る。よって、音声認識の精度を向上させることができ
る。
【0024】更に、かかる実施例においては、認識パラ
メータの計算を端末装置で行うので、サーバの構成を簡
略化することができると共に、サーバにおける認識パラ
メータ計算に要する処理量を削減することができる。サ
ーバの処理量を減らすことはサーバが多数の端末装置に
対して同時に応答するような場合に特に有効である。な
お、かかる実施例においては、プロトコルとしてTCP
を用いて音声パターンの送受信が行われるが、ユーザ発
声時間分の遅延を考慮して音声パターンをファイル化す
れば、FTP(File Transfer Protocol)等のアプリケー
ションプロトコルを用いても良い。
【0025】更に、かかる実施例においては、サーバ制
御部48が音声情報の伝送のための通信プロトコルをコ
ネクションレス型プロトコルのUDP及びコネクション
型プロトコルのTCPのうちのいずれか一方を端末装置
1に指示するが、その指示ではUDPが優先され、サー
バ2で受信したUDPパケットのパケットロスの単位時
間当たりの発生率が所定値より大となるとTCPへの通
信プロトコルの切替を端末装置1に指示しても良い。
【0026】また、かかる実施例においては、認識パラ
メータ計算部38を端末装置1内にいわゆるハード的に
備えているが、ネットワークを介してダウンロードされ
たソフトウエアの実行によって認識パラメータ計算部を
形成しても良い。図6及び図7は本発明の他の実施例と
して図1の端末装置1及びサーバ2の内部構成を示して
いる。図6に示した端末装置1においては、PCMデー
タ送信部40が備えられている。PCMデータ送信部4
0の入力は外部入力部35に接続され、出力はインター
ネット回線網3に接続されている。このPCMデータ送
信部40は図2に示した端末装置1内の認識パラメータ
計算部38及び音声パターン送信部39に代わって備え
られている。その他の構成は図2に示した端末装置1と
同様である。
【0027】図7に示したサーバ2においては、PCM
データ受信部50が備えられている。PCMデータ受信
部50の入力はインターネット回線網3に接続され、出
力は認識パラメータ計算部51に接続されている。この
PCMデータ受信部50は図3に示したサーバ2内の音
声パターン受信部47に代わって備えられている。その
他の構成は図3に示したサーバ2と同様である。
【0028】かかる図6及び図7に示した端末装置1及
びサーバ2を備えた構成のシステムにおいても、上記の
図4に示したように、音声通信の接続確立(ステップS
1)、音声対話処理(ステップS2)及び音声通信の接
続切断(ステップS3)の如き動作が行われる。上記の
ステップS2の音声対話処理のシーケンスについては図
5に示した如き動作が行われる。
【0029】図6及び図7に示した端末装置1及びサー
バ2を備えた場合には、図5のステップS16〜S22
の動作については、次のように行うこともできる。端末
装置1においては、マイクロホン16からのユーザの発
声音を示す音声信号が音声入力部13に供給されると、
そこで8kHz/16ビットにディジタル化され、30
msec(240サンプル)毎に音声データはPCMデ
ータ送信部40に供給される。PCMデータ送信部40
は順次供給されるPCMデータを保持し、その音声デー
タをサーバ2宛のTCPパケットにてインターネット回
線網3に出力する。TCPは、上記したように、IETF R
FC793で規定されるインターネット上のコネクションオ
リエンティドなトランスポートプロトコルであり、エラ
ー検出及び回復機能等の機能を備えた信頼性の高いデー
タ通信を行うことができるプロトコルである。
【0030】サーバ2においては、インターネット回線
網3からTCPパケットをPCMデータ受信部50が受
信し、受信したTCPパケットからPCM音声データを
抽出して認識パラメータ計算部51供給する。認識パラ
メータ計算部51は、順次供給される音声データを保持
し、16msec分の音声データを8msec周期で分
析し、分析結果として音声データの特徴を示す音声パタ
ーンを得る。分析方法としては、例えば、12次のLP
C分析等の方法が用いられる。得られた音声パターンは
パターンマッチング部52に供給される。パターンマッ
チング部52は、音声対話制御部53が指定した標準パ
ターンに対して、認識パラメータ受信部47から供給さ
れた音声パターンを照合してマッチング計算を行ってそ
の計算結果を認識結果として音声対話制御部53に供給
する。
【0031】なお、音声IP通信において、通常使用さ
れる圧縮方式のビットレートは、5.3/6.3kbp
s(ITU-T G.723.1)や8kbps(ITU-T G.729)である。
一方、この実施例のPCMデータのビットレートは12
8kbpsの如く高い。しかしながら、単語発声では1
語当たり1秒程度と短時間であり、再送機能を備えたT
CPを用いた場合の遅延は一般に許容範囲内である。
【0032】かかる実施例においては、UDPパケット
と比べて信頼性が高いTCPパケットを用いてPCM音
声データを伝送するので、パケットロスが発生した区間
の音声データが欠落する可能性が低くなり、音声認識の
精度を向上させることができる。また、かかる実施例に
おいては、符号化/復号化を行うことなく、マイクロホ
ンに入力された音声から音声パターンを直接抽出してい
るので、符号化の際の圧縮によって音声パターンが変形
するという影響を受けることがなく、また各圧縮方法の
違いに依存することなく、音声パターンを得ることがで
きる。よって、音声認識の精度を向上させることができ
る。
【0033】更に、かかる実施例においては、認識対象
となるPCMデータをサーバ2では符号化歪みが全く無
い状態で得ることができるので、異なる分析条件で再認
識を行うことができ、サーバでの認識条件の自由度が増
加する。また、かかる実施例においては、端末装置1に
PCMデータ送信部40を加えただけの構成で音声認識
性能の向上を図ることができる。これはLAN用電話機
等の処理能力の低い端末装置でも容易に実現が可能な構
成であり、音声認識性能の向上を図ることができる。
【0034】なお、かかる実施例においては、プロトコ
ルとしてTCPを用いてPCMデータの送受信が行われ
るが、ユーザ発声時間分の遅延を考慮してPCMデータ
をファイル化すれば、FTP等のアプリケーションプロ
トコルを用いても良い。図8及び図9は、本発明の他の
実施例として図1の端末装置1及びサーバ2の内部構成
を示している。図8に示した端末装置1においては、符
号化された音声データをTCPパケットにてサーバ2に
対して送信するTCP音声送信部55が備えられてい
る。TCP音声送信部55の入力は音声符号化部36に
接続され、出力はインターネット回線網3に接続されて
いる。その他の構成は、図2に示した端末装置1内の認
識パラメータ計算部38及び音声パターン送信部39が
備えられていないことを除いて図2に示した端末装置1
と同様である。
【0035】図9に示したサーバ2においては、端末装
置1からTCPパケットにて送られてきた音声データを
受信するTCP音声受信部56が備えられている。TC
P音声受信部56の入力はインターネット回線網3に接
続され、出力は音声復号化部43の入力に接続されてい
る。その他の構成は図3に示したサーバ2内の音声パタ
ーン受信部47が備えられていないことを除いて図3に
示したサーバ2と同様である。
【0036】かかる図8及び図9に示した端末装置1及
びサーバ2を備えた構成のシステムにおいても、上記の
図4に示したように、音声通信の接続確立(ステップS
1)、音声対話処理(ステップS2)及び音声通信の接
続切断(ステップS3)の如き動作が行われる。上記の
ステップS2の音声対話処理のシーケンスについては図
5に示した如き動作が行われる。
【0037】図8及び図9に示した端末装置1及びサー
バ2を備えた場合には、図5のステップS16〜S22
の動作については、次のように行うこともできる。端末
装置1においては、マイクロホン16からのユーザの発
声音を示す音声信号が音声入力部13に供給されると、
そこで8kHz/16ビットにディジタル化され、30
msec(240サンプル)毎に音声データは音声符号
化部43に供給される。音声符号化部36は30mse
c毎に音声符号化を行い、ビットストリームである符号
化音声データをTCP音声送信部55に供給する。音声
送信部55は順次供給される符号化音声データを保持
し、その音声データをサーバ2宛のTCPパケットにて
インターネット回線網3に出力する。
【0038】サーバ2においては、インターネット回線
網3からTCPパケットを音声受信部56は、受信パケ
ットのタイムスタンプやパケット番号のチェックを例え
ば、RTP等をプロトコルを使用して行い、異常がなけ
れば、その後、TCPパケットからビットストリームの
音声データを抽出して音声復号化部43に供給する。音
声復号化部43はビットストリームを復号化して8kH
z/16ビットの音声データを得て、それをD/A変換
することなく認識パラメータ計算部51に供給する。認
識パラメータ計算部51は、順次供給される音声データ
を保持し、16msec分の音声データを8msec周
期で分析し、分析結果として音声データの特徴を示す音
声パターンを得る。分析方法としては、例えば、12次
のLPC分析等の方法が用いられる。得られた音声パタ
ーンはパターンマッチング部52に供給される。パター
ンマッチング部52は、音声対話制御部53が指定した
標準パターンに対して、認識パラメータ計算部51から
供給された音声パターンを照合してマッチング計算を行
ってその計算結果を認識結果として音声対話制御部53
に供給する。
【0039】かかる実施例においては、UDPパケット
と比べて信頼性が高いTCPパケットを用いて符号化音
声データを伝送するので、パケットロスが発生した区間
の音声データが欠落する可能性が低くなり、音声認識の
精度を向上させることができる。また、かかる実施例に
おいては、端末装置1にTCP音声送信部40を加えた
だけの構成で音声認識性能の向上を図ることができる。
これはLAN用電話機等の処理能力の低い端末装置でも
容易に実現が可能な構成であり、音声認識性能の向上を
図ることができる。
【0040】更に、かかる実施例においては、TCPパ
ケットを用いた場合にはUDPパケットを用いた場合と
比べて同一の音声情報を送信することになり、通信量の
違いはプロトコルの違いに依存するだけの最小限で済む
ので、最小限の通信量の増加でパケットロスに対処する
ことができる。なお、かかる実施例においては、プロト
コルとしてTCPを用いて符号化音声データの送受信が
行われるが、ユーザ発声時間分の遅延を考慮して符号化
音声データをファイル化すれば、FTP等のアプリケー
ションプロトコルを用いても良い。また、3種類以上の
通信プロトコルから1の通信プロトコルを選択的に用い
ても良い。
【0041】上記した各実施例においては、認識パラメ
ータをPARCOR係数に限定したが、認識パラメータ
としてはLSP係数やLPCケプストラム係数を用いて
も良い。また、分析フレーム長や分析フレーム周期、分
析次数等の分析パラメータやサンプリング周波数、量子
化ビット数、バッファサイズ等の各種パラメータは適宜
設定することができる。
【0042】また、上記した各実施例においては、端末
装置1及びサーバ2を各々1台備えているが、複数の端
末装置及び複数のサーバがネットワークにて互いに接続
されたシステムにも本発明を適用することができる。更
に、上記した各実施例においては、ステップS16〜S
22の2つの動作、すなわちUDPパケット伝送を用い
た音声認識動作とTCPパケット伝送を用いた音声認識
動作とのうちからいずれか一方の動作がサーバ制御部4
8の指示に応じて選択されて実行されるが、端末装置1
の端末制御部14の指示に応じて選択されて実行されて
も良い。
【0043】また、上記した各実施例においては、端末
装置1とサーバ2とがインターネット回線網3を介して
接続されるが、端末装置1とサーバ2との間を接続する
ネットワーク回線としては公衆電話回線や他の専用回線
であっても良い。更に、上記した各実施例においては、
音声入力装置である端末装置1にて音声が入力され、音
声認識装置であるサーバ2にてその入力音声の音声識別
が行われるが、サーバ2に音声入力装置としての機能を
備え、端末装置1に音声認識装置としての機能を備える
ようにしても良い。
【0044】
【発明の効果】以上の如く、本発明の音声認識通信シス
テムにおいては、通信プロトコルとして少なくとも2種
類の通信プロトコルを使用し、パケットロスの発生等の
通信状態の悪化に応じて信頼性の高い通信プロトコルを
選択的に使用することができるので、通信ネットワーク
上の装置間における音声データ音声認識性能を向上させ
ることができる。
【図面の簡単な説明】
【図1】本発明による音声認識通信システムの概略構成
を示すブロック図である。
【図2】端末装置の内部構成を示すブロック図である。
【図3】サーバの内部構成を示すブロック図である。
【図4】端末装置とサーバとの間の概略的動作を示すフ
ローチャートである。
【図5】音声対話処理を具体的に示すフローチャートで
ある。
【図6】本発明の他の実施例として端末装置の内部構成
を示すブロック図である。
【図7】図6の端末装置に対応したサーバの内部構成を
示すブロック図である。
【図8】本発明の他の実施例として端末装置の内部構成
を示すブロック図である。
【図9】図8の端末装置に対応したサーバの内部構成を
示すブロック図である。
【符号の説明】
1 端末装置 2 サーバ 3 インターネット回線網 12 音声出力部 13 音声入力部 15 スピーカ 16 マイクロホン 44 音声対話部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04M 11/00 302 H04L 13/00 305C Fターム(参考) 5D015 KK02 5K030 GA11 GA12 HA08 HB01 HB18 KA20 LA08 LB18 LB19 MA04 MB04 MB09 5K034 AA05 AA06 CC05 DD01 EE11 FF07 FF17 HH01 HH02 HH63 JJ24 LL01 LL02 TT01 TT02 5K101 NN08 SS06 SS08 TT06

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 音声信号を入力しその音声信号を示す音
    声情報をパケットとしてネットワーク回線に出力する音
    声入力装置と、前記ネットワーク回線を介して伝送され
    たパケットを受信して音声認識を行う音声認識装置とを
    備えた音声認識通信システムであって、 前記音声入力装置は、互いに信頼性の程度が異なる少な
    くとも2種類の通信プロトコルのうちのいずれか1の通
    信プロトコルにてパケットを送信する送信手段を有し、 前記音声認識装置は、伝送されてきたパケットを前記1
    の通信プロトコルに従って受信する受信手段を有するこ
    とを特徴とする音声認識通信システム。
  2. 【請求項2】 前記音声情報は、音声信号を高圧縮率符
    号化したデータであることを特徴とする請求項1記載の
    音声認識通信システム。
  3. 【請求項3】 前記音声情報は、音声信号のPCMデー
    タであることを特徴とする請求項1記載の音声認識通信
    システム。
  4. 【請求項4】 前記音声情報は、音声信号の特徴を示す
    パターンデータであることを特徴とする請求項1記載の
    音声認識通信システム。
  5. 【請求項5】 前記ネットワーク回線におけるパケット
    伝送はインターネットプロトコルを用いて行うことを特
    徴とする請求項1記載の音声認識通信システム。
  6. 【請求項6】 前記少なくとも2種類の通信プロトコル
    のうちの一方の通信プロトコルはコネクションレス型の
    通信プロトコルであり、他方の通信プロトコルは前記コ
    ネクションレス型の通信プロトコルより信頼性が高いコ
    ネクション型の通信プロトコルであることを特徴とする
    請求項1記載の音声認識通信システム。
  7. 【請求項7】 前記一方の通信プロトコルはUDPであ
    り、前記他方の通信プロトコルはTCPであることを特
    徴とする請求項6記載の音声認識通信システム。
  8. 【請求項8】 前記一方の通信プロトコルはUDPであ
    り、前記他方の通信プロトコルはFTPであることを特
    徴とする請求項6記載の音声認識通信システム。
JP32665999A 1999-11-17 1999-11-17 音声認識通信システム Pending JP2001142488A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP32665999A JP2001142488A (ja) 1999-11-17 1999-11-17 音声認識通信システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP32665999A JP2001142488A (ja) 1999-11-17 1999-11-17 音声認識通信システム

Publications (1)

Publication Number Publication Date
JP2001142488A true JP2001142488A (ja) 2001-05-25

Family

ID=18190245

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32665999A Pending JP2001142488A (ja) 1999-11-17 1999-11-17 音声認識通信システム

Country Status (1)

Country Link
JP (1) JP2001142488A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003085640A1 (fr) * 2002-04-04 2003-10-16 Nec Corporation Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
JP2006106761A (ja) * 2004-10-08 2006-04-20 Samsung Electronics Co Ltd 多段階音声認識装置及び多段階音声認識方法
US7478046B2 (en) 2001-06-20 2009-01-13 Nec Corporation Server-client type speech recognition apparatus and method
US7593853B2 (en) 2004-09-07 2009-09-22 Lg Electronics Inc. Baseband modem for speech recognition and mobile communication terminal using the same
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム
US7839893B2 (en) 2002-12-02 2010-11-23 Nec Infrontia Corporation Voice data transmitting and receiving system
US9293137B2 (en) 2012-09-24 2016-03-22 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478046B2 (en) 2001-06-20 2009-01-13 Nec Corporation Server-client type speech recognition apparatus and method
WO2003085640A1 (fr) * 2002-04-04 2003-10-16 Nec Corporation Dispositif, systeme, procede et programme de selection de conversation a reconnaissance vocale
US7839893B2 (en) 2002-12-02 2010-11-23 Nec Infrontia Corporation Voice data transmitting and receiving system
US7593853B2 (en) 2004-09-07 2009-09-22 Lg Electronics Inc. Baseband modem for speech recognition and mobile communication terminal using the same
JP2006106761A (ja) * 2004-10-08 2006-04-20 Samsung Electronics Co Ltd 多段階音声認識装置及び多段階音声認識方法
US8370159B2 (en) 2004-10-08 2013-02-05 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US8380517B2 (en) 2004-10-08 2013-02-19 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
US8892425B2 (en) 2004-10-08 2014-11-18 Samsung Electronics Co., Ltd. Multi-layered speech recognition apparatus and method
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム
US9293137B2 (en) 2012-09-24 2016-03-22 Kabushiki Kaisha Toshiba Apparatus and method for speech recognition

Similar Documents

Publication Publication Date Title
JP3237566B2 (ja) 通話方法、音声送信装置及び音声受信装置
KR100594670B1 (ko) 자동 음성 인식 시스템 및 방법과, 자동 화자 인식 시스템
TW546633B (en) Distributed voice recognition system using acoustic feature vector modification
US6934756B2 (en) Conversational networking via transport, coding and control conversational protocols
US8320391B2 (en) Acoustic signal packet communication method, transmission method, reception method, and device and program thereof
US7848314B2 (en) VOIP barge-in support for half-duplex DSR client on a full-duplex network
EP2130203B1 (en) Method of transmitting data in a communication system
KR20070060935A (ko) 다중 프레임을 갖는 브이오아이피 패킷 처리 장치 및 그방법
US6775652B1 (en) Speech recognition over lossy transmission systems
JP2010217628A (ja) 音声によってテキストを入力する音声認識処理方法及びシステム
JP2001142488A (ja) 音声認識通信システム
JP2005513542A (ja) 無線ユニット間におけるハイファイ音響信号の送信
US6728672B1 (en) Speech packetizing based linguistic processing to improve voice quality
US6947887B2 (en) Low speed speech encoding method based on Internet protocol
US20010012993A1 (en) Coding method facilitating the reproduction as sound of digitized speech signals transmitted to a user terminal during a telephone call set up by transmitting packets, and equipment implementing the method
US20030220794A1 (en) Speech processing system
JP2003195880A (ja) サーバ・クライアント型音声認識装置
CN113450809B (zh) 语音数据处理方法、系统及介质
JP2002252644A (ja) 音声パケット通信装置及び音声パケット通信方法
JP5135001B2 (ja) 無線通信装置、無線通信方法および無線通信システム
CN107210968A (zh) 用于在无线通信系统中发射和接收语音数据的装置和方法
JP2004007277A (ja) 通信端末装置、音声認識システム、および情報アクセスシステム
US20080208573A1 (en) Speech Signal Coding
JP2002372985A (ja) 音声認識装置
JP2005173215A (ja) 音声認識システム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041201

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041206

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050404