JP2001142488A

JP2001142488A - 音声認識通信システム

Info

Publication number: JP2001142488A
Application number: JP32665999A
Authority: JP
Inventors: Satoshi Watanabe; 聡渡辺
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1999-11-17
Filing date: 1999-11-17
Publication date: 2001-05-25

Abstract

(57)【要約】【課題】通信ネットワーク上の装置間における音声デ
ータ音声認識性能を向上させることができる音声認識通
信システムを提供する。【解決手段】音声信号を入力しその音声信号を示す音
声情報をパケットとしてネットワーク回線に出力する音
声入力装置と、ネットワーク回線を介して伝送されたパ
ケットを受信して音声認識を行う音声認識装置とを備え
た音声認識通信システムであって、音声入力装置は、互
いに信頼性の程度が異なる少なくとも２種類の通信プロ
トコルのうちのいずれか１のプロトコルにてパケットを
送信する送信手段を有し、音声認識装置は、伝送されて
きたパケットを１の通信プロトコルに従って受信する受
信手段を有する。

Description

【発明の詳細な説明】

【０００１】

【発明が属する技術分野】本発明は、音声入力装置にお
いて入力された音声について音声入力装置とネットワー
ク回線を介して接続された音声認識装置において音声認
識する音声認識通信システムに関する。

【０００２】

【従来の技術】ネットワークを介して双方向の通話を行
うシステムとしては、電話回線網及びその電話端末から
なる音声通信システムが従来からよく知られている。こ
のような音声通信システムにおいて音声が入力された電
話端末から送られてくる音声信号に対して音声認識を行
うことがある。かかる音声認識においては、多様な電話
端末及び回線から送られてくる多様な品質の音声信号に
対して音声認識を行う必要があるので、一般には、回線
毎に音声認識のパターンマッチングのために標準パター
ンや汎用的なパターンが音声認識側に用意されている。
受信した音声信号を分析して音声パターンを作成し、そ
れを用意されたパターンと比較することにより、電話端
末で入力された音声の内容が判定される。

【０００３】また、近年、インターネットを用いて通話
を行ういわゆるインターネット電話に代表される音声Ｉ
Ｐ(インターネットプロトコル)通信システムがある。こ
の音声ＩＰ通信システムにおいては、音声認識を適用し
た場合には端末装置で入力された音声を音声認識サーバ
で音声認識することが行われる。ネットワーク回線では
通常、音声データはパケット化して伝送されるので、サ
ーバでは受信したパケットから音声データを取り出して
音声認識を行う必要がある。

【０００４】

【発明が解決しようとする課題】しかしながら、音声Ｉ
Ｐ通信システムにおいては、ネットワーク上の通信が混
雑した状態である場合にはパケットが正常に送り先の音
声認識サーバや端末装置に到達しないパケットロス（パ
ケット落ち）が発生することがある。パケットロスが発
生した場合に、失われたパケットに相当する部分の情報
を得ることができないので、受信側では音声データを全
てに亘って復号できないことになる。よって、前後のフ
レームから予測した音声データで代用することが行われ
るので、その結果として音声認識性能は低下することに
なるという問題点があった。

【０００５】また、通常、音声ＩＰ通信では、ネットワ
ーク帯域の有効利用と遅延防止等の理由から４〜８ｋｂ
ｐｓ程度の高圧縮率音声符号化を行うために復号しても
元の音声情報が変形或いは欠落してしまうので、高精度
の音声認識が難しいという問題点もあった。そこで、本
発明の目的は、通信ネットワーク上の装置間における音
声データ音声認識性能を向上させることができる音声認
識通信システムを提供することである。

【０００６】

【課題を解決するための手段】本発明の音声認識通信シ
ステムは、音声信号を入力しその音声信号を示す音声情
報をパケットとしてネットワーク回線に出力する音声入
力装置と、ネットワーク回線を介して伝送されたパケッ
トを受信して音声認識を行う音声認識装置とを備えた音
声認識通信システムであって、音声入力装置は、互いに
信頼性の程度が異なる少なくとも２種類の通信プロトコ
ルのうちのいずれか１のプロトコルにてパケットを送信
する送信手段を有し、音声認識装置は、伝送されてきた
パケットを１の通信プロトコルに従って受信する受信手
段を有することを特徴としている。この構成によれば、
通信プロトコルとして少なくとも２種類の通信プロトコ
ルを使用し、パケットロスの発生等の通信状態の悪化に
応じて信頼性の高い通信プロトコルを選択的に使用する
ことができる。

【０００７】

【発明の実施の形態】以下、本発明の実施例を図面を参
照しつつ詳細に説明する。図１は本発明によるシステム
の概略構成を示している。このシステムおいては、端末
装置１とサーバ２とがインターネット回線網３を介して
接続された構成となっている。

【０００８】端末装置１は、図２に示すように、サーバ
２との接続処理を行う接続制御部１１と、サーバ２から
インターネット回線網３を介して供給された音声データ
をアナログの音声信号としてスピーカ１５に出力する音
声出力部１２と、マイクロホン１６で集音された音声及
び音声情報をデータとしてサーバ２に供給するためにイ
ンターネット回線網３に送り出す音声入力部１３と、端
末装置１全体の動作を制御する端末制御部１４とを備え
ている。

【０００９】音声出力部１２は、インターネット回線網
３を介して送られてきた音声データを受信する音声受信
部３１と、音声受信部３１で受信された音声データを復
号する音声復号化部３２と、復号された音声データをア
ナログの音声信号に変換してスピーカ１５に供給する外
部出力部３３とからなる。音声入力部１３は、マイクロ
ホン１６から出力された音声信号をディジタル音声デー
タであるＰＣＭ(Pulse Code Moodulation)データに変換
する外部入力部３５と、外部入力部３５から供給された
音声データを高圧縮率で符号化する音声符号化部３６
と、インターネット回線網３に接続され、符号化された
音声データをＵＤＰ(User Datagram Protocol)パケット
にてサーバ２に対して送信するＵＤＰ音声送信部３７
と、マイクロホン１６への入力音声の特徴を示す認識パ
ラメータを計算して音声パターンを出力する認識パラメ
ータ計算部３８と、音声パターンをサーバ２に対して送
信する音声パターン送信部３９とからなる。

【００１０】サーバ２は、図３に示すように、端末装置
１との接続処理を行う接続制御部４１と、端末装置１か
らＵＤＰパケットにて送られてきた音声データを受信す
るＵＤＰ音声受信部４２と、受信した音声データを復号
する音声復号化部４３と、復号された音声データの内容
を認識して認識結果に対応した音声データを作成する音
声対話部４４と、音声対話部４４から出力された音声デ
ータを符号化する音声符号化部４５と、インターネット
回線網３に接続され、音声復号部４５で符号化された音
声データを端末装置１に対して送信する音声送信部４６
と、端末装置１から送られてきた音声パターンデータを
受信する音声パターン受信部４７と、サーバ２全体を制
御するサーバ制御部４８とを備えている。

【００１１】音声対話部４４は、音声対話部４４から出
力された音声データを分析することにより認識パラメー
タを計算し、その計算結果として音声パターンを出力す
る認識パラメータ計算部５１と、音声パターンと標準パ
ターンとのマッチング（類似度）を計算して音声データ
の内容を特定するパターンマッチング部５２と、パター
ンマッチング部５２の出力に応じて応答音声データの作
成を指示する音声対話制御部５３と、音声データを作成
する音声作成部５４とからなる。

【００１２】かかる構成のシステムにおいては、端末装
置１は図４に示すように、サーバ２に対して音声通信の
ための接続要求を行ってサーバ２とのインターネット回
線網３を介した接続を確立する（ステップＳ１）。この
接続のためにＩＰ音声通信で規定されている方法、例え
ば、ITU-T H.323に定められたゲートキーパを介する方
法が用いられる。端末装置１とサーバ２と間の音声通信
が確立すると、端末装置１は後述するシーケンス（手
順）でサーバ２との音声対話処理を行う（ステップＳ
２）。音声対話処理が終了すると、端末装置１はサーバ
２に対して切断要求を行ってサーバ２との接続を切断す
る（ステップＳ３）。この切断のためにはＩＰ音声通信
で規定されている方法、例えば、ITU-T H.323に定めら
れたゲートキーパを介する方法が用いられる。

【００１３】次に、上記のステップＳ２の音声対話処理
のシーケンスについて図５を用いて説明する。サーバ２
は、音声認識の設定情報を端末装置１に送信し（ステッ
プＳ１１）、端末装置１のユーザの発声を促すガイダン
ス音声データを作成する（ステップＳ１２）。このガイ
ダンス音声データは例えば、「発声してください。」の
如き発声音を示すデータである。サーバ２は作成したガ
イダンス音声データを端末装置１に送信する（ステップ
Ｓ１３）。すなわち、サーバ制御部４８はステップＳ１
１では接続制御部４１に音声認識の設定情報を端末装置
１に送信させる。音声認識の設定情報とは音声認識のた
めの音声データ形式であり、例えば、分析フレーム長：
１６ｍｓｅｃ、分析フレーム周期：８ｍｓｅｃ、ＬＰＧ
分析次数：１２次、認識パラメータ：ＰＡＲＣＯＲ係数
である。ステップＳ１２ではサーバ制御部４８は音声対
話制御部５３を介して音声作成部５４にガイダンス音声
データの作成を指示し、音声作成部５４において作成さ
れたガイダンス音声データは音声符号化部４５で符号化
された後、音声送信部４６から端末装置１宛のＵＤＰ(U
serDatagram Protocol)パケットにてインターネット回
線網３に出力される。

【００１４】端末装置１は、音声認識の設定情報を受信
してその設定情報を保存し（ステップＳ１４）、またガ
イダンス音声データを受信してその音声データによる音
声再生を行う（ステップＳ１５）。ステップＳ１４では
受信された設定情報は接続制御部１１を介して端末制御
部１４に供給されて内部メモリ（図示せず）に保持さ
れ、送受信の音声データの形式に反映される。すなわ
ち、その情報に基づいて音声出力部１２及び音声入力部
１３が制御される。ステップＳ１５ではガイダンス音声
データは音声受信部３１にて受信され、音声復号化部３
２で復号された後、外部出力部３３でアナログ音声信号
とされる。その音声信号はスピーカ１５を駆動し、それ
により発声を促す音声再生音がスピーカ１５から出力さ
れる。

【００１５】外部出力部３３から音声信号がスピーカ１
５に出力されると、マイクロホン１６によってユーザの
発声音が集音され、それが音声信号としてマイクロホン
１６から音声入力部１３に供給される。端末装置１の端
末制御部１４は音声入力部１３を制御することにより、
その供給された音声信号が受け入れられてディジタル音
声データに変換され（ステップＳ１６）、サーバ２に対
して音声情報がパケット化されて送信される（ステップ
Ｓ１７）。すなわち、マイクロホン１６からの音声信号
は外部入力部３５にて８ｋＨｚ／１６ビットにディジタ
ル化され、３０ｍｓｅｃ（２４０サンプル）毎に音声デ
ータは音声符号化部３６に供給される。音声符号化部３
６は３０ｍｓｅｃ毎に音声符号化を行い、ビットストリ
ームである符号化音声データを音声送信部３７に供給す
る。この音声符号化としては、例えば、ITU-TG.723.1に
規定された方法が用いられる。符号化音声データが供給
された音声送信部３７は音声データをサーバ２宛のＵＤ
Ｐ(User Datagram Protocol)パケットにてインターネッ
ト回線網３に出力する。ＵＤＰは、IETF RFC768で規定
されるインターネット上のコネクションレス型トランス
ポートプロトコルであり、送達確認や順序制御等の機能
を備えることなく高速転送を可能にしている。音声送信
部３７はＵＤＰパケットを作成する際にタイムスタンプ
やパケット番号を例えば、ＲＴＰ(Real-time Transfer
Protocol)等の手続きに従って組み込む。ＲＴＰは、IET
F RFC1889,1890で規定されているリアルタイム通信用プ
ロトコルである。

【００１６】サーバ２は、インターネット回線網３を介
して伝送されて来た音声情報を含むパケットを受信する
と（ステップＳ１８）、音声認識を行い（ステップＳ１
９）、その音声認識結果に応じて応答音声データを作成
し（ステップＳ２０）、作成した応答音声データを端末
装置１に対して送信する（ステップＳ２１）。具体的に
説明すると、インターネット回線網３からＵＤＰパケッ
トを音声受信部４２は、受信パケットのタイムスタンプ
やパケット番号のチェックを例えば、ＲＴＰ等をプロト
コルを使用して行い、異常がなければ、その後、ＵＤＰ
パケットからビットストリームの音声データを抽出して
音声復号化部４３に供給する。また音声受信部４２は、
チェックの段階でパケットが完全には受信されていない
と判別した場合には全てのビットを０とした仮のビット
ストリームを音声復号化部４３に供給する。音声復号化
部４３はビットストリームを復号化して８ｋＨｚ／１６
ビットの音声データを得て、それをＤ／Ａ変換すること
なく認識パラメータ計算部５１に供給する。認識パラメ
ータ計算部５１は、順次供給される音声データを保持
し、１６ｍｓｅｃ分の音声データを８ｍｓｅｃ周期で分
析し、分析結果として音声データの特徴を示す音声パタ
ーンを得る。分析方法としては、例えば、１２次のＬＰ
Ｃ分析等の方法が用いられる。得られた音声パターンは
パターンマッチング部５２に供給される。パターンマッ
チング部５２は、音声対話制御部５３が指定した標準パ
ターンに対して、音声パターン計算部５１から供給され
た音声パターンを照合してマッチング計算を行ってその
計算結果を認識結果として音声対話制御部５３に供給す
る。

【００１７】音声対話制御部５３は認識結果に対応する
応答音声（例えば、「東京のお天気は？」）の作成を音
声作成部５４に指令する。音声作成部５４は指令された
応答音声に対応する応答音声データを作成して音声符号
化部４５に供給する。応答音声データは音声符号化部４
５で符号化された後、音声送信部４６から音声送信部４
６から端末装置１宛のＵＤＰパケットにてインターネッ
ト回線網３に出力される。

【００１８】端末装置１は応答音声データを受信してそ
の音声データによる音声再生を行う（ステップＳ２
２）。このステップＳ２２では応答音声データは音声受
信部３１にて受信され、音声復号化部３２で復号された
後、外部出力部３３でアナログ音声信号とされる。その
音声信号はスピーカ１５を駆動し、それによりサーバ２
からの応答音声がスピーカ１５から出力される。

【００１９】その後、端末装置１はステップＳ１５に戻
って上記の動作を繰り返し、またサーバ２はステップＳ
２２の実行後、ステップＳ１２に戻って上記の動作を繰
り返す。上記のステップＳ１６〜Ｓ２２の動作について
は、次のように行うこともできる。なお、ステップＳ１
６〜Ｓ２２の２つの動作のうちからいずれか一方の動作
がサーバ制御部４８の指示（ステップＳ１１の音声認識
の設定情報）に応じて選択されて実行される。

【００２０】端末装置１においては、マイクロホン１６
からのユーザの発声音を示す音声信号が音声入力部１３
に供給されると、そこで８ｋＨｚ／１６ビットにディジ
タル化され、３０ｍｓｅｃ（２４０サンプル）毎に音声
データは認識パラメータ計算部３８に供給される。認識
パラメータ計算部３８は順次供給される音声データを保
持し、１６ｍｓｅｃ分の音声データを８ｍｓｅｃ周期で
分析し、分析結果として音声パターンを得る。分析方法
としては、例えば、１２次のＬＰＣ分析等の方法が用い
られる。得られた音声パターンは音声パターン送信部３
９に供給される。音声パターン送信部３９は音声パター
ンをサーバ２宛のＴＣＰ(TransmissionControl Protco
l)パケットにてインターネット回線網３に出力する。Ｔ
ＣＰは、IETF RFC793で規定されるインターネット上の
コネクションオリエンティドなトランスポートプロトコ
ルであり、エラー検出及び回復機能等の機能を備え、Ｕ
ＤＰよりも信頼性の高いデータ通信を行うことができる
プロトコルである。

【００２１】サーバ２においては、インターネット回線
網３からＴＣＰパケットを認識パラメータ受信部４７が
受信し、受信したＴＣＰパケットから音声パターンを抽
出してパターンマッチング部５２に供給する。パターン
マッチング部５２は、音声対話制御部５３が指定した標
準パターンに対して、認識パラメータ受信部４７から供
給された音声パターンを照合してマッチング計算を行っ
てその計算結果を認識結果として音声対話制御部５３に
供給する。

【００２２】音声ＩＰ通信においては、通常使用される
圧縮方式のビットレートは、５．３／６．３ｋｂｐｓ(I
TU-T G.723.1)や８ｋｂｐｓ(ITU-T G.729)である。一
方、この実施例の音声パターンのビットレートは分析フ
レーム周期８ｍｓｅｃ、ＬＰＧ分析次数１２次の場合に
は、４８ｋｂｐｓの如く高い。しかしながら、単語発声
では１語当たり１秒程度と短時間であり、再送機能を備
えたＴＣＰを用いた場合の遅延は一般に許容範囲内であ
る。

【００２３】かかる実施例においては、ＵＤＰパケット
と比べて信頼性が高いＴＣＰパケットを用いて音声パタ
ーンを伝送するので、パケットロスが発生した区間の音
声パターンが欠落する可能性が低くなり、音声認識の精
度を向上させることができる。また、かかる実施例にお
いては、符号化／復号化を行うことなく、マイクロホン
に入力された音声から音声パターンを直接抽出している
ので、符号化の際の圧縮によって音声パターンが変形す
るという影響を受けることがなく、また各圧縮方法の違
いに依存することなく、音声パターンを得ることができ
る。よって、音声認識の精度を向上させることができ
る。

【００２４】更に、かかる実施例においては、認識パラ
メータの計算を端末装置で行うので、サーバの構成を簡
略化することができると共に、サーバにおける認識パラ
メータ計算に要する処理量を削減することができる。サ
ーバの処理量を減らすことはサーバが多数の端末装置に
対して同時に応答するような場合に特に有効である。な
お、かかる実施例においては、プロトコルとしてＴＣＰ
を用いて音声パターンの送受信が行われるが、ユーザ発
声時間分の遅延を考慮して音声パターンをファイル化す
れば、ＦＴＰ(File Transfer Protocol)等のアプリケー
ションプロトコルを用いても良い。

【００２５】更に、かかる実施例においては、サーバ制
御部４８が音声情報の伝送のための通信プロトコルをコ
ネクションレス型プロトコルのＵＤＰ及びコネクション
型プロトコルのＴＣＰのうちのいずれか一方を端末装置
１に指示するが、その指示ではＵＤＰが優先され、サー
バ２で受信したＵＤＰパケットのパケットロスの単位時
間当たりの発生率が所定値より大となるとＴＣＰへの通
信プロトコルの切替を端末装置１に指示しても良い。

【００２６】また、かかる実施例においては、認識パラ
メータ計算部３８を端末装置１内にいわゆるハード的に
備えているが、ネットワークを介してダウンロードされ
たソフトウエアの実行によって認識パラメータ計算部を
形成しても良い。図６及び図７は本発明の他の実施例と
して図１の端末装置１及びサーバ２の内部構成を示して
いる。図６に示した端末装置１においては、ＰＣＭデー
タ送信部４０が備えられている。ＰＣＭデータ送信部４
０の入力は外部入力部３５に接続され、出力はインター
ネット回線網３に接続されている。このＰＣＭデータ送
信部４０は図２に示した端末装置１内の認識パラメータ
計算部３８及び音声パターン送信部３９に代わって備え
られている。その他の構成は図２に示した端末装置１と
同様である。

【００２７】図７に示したサーバ２においては、ＰＣＭ
データ受信部５０が備えられている。ＰＣＭデータ受信
部５０の入力はインターネット回線網３に接続され、出
力は認識パラメータ計算部５１に接続されている。この
ＰＣＭデータ受信部５０は図３に示したサーバ２内の音
声パターン受信部４７に代わって備えられている。その
他の構成は図３に示したサーバ２と同様である。

【００２８】かかる図６及び図７に示した端末装置１及
びサーバ２を備えた構成のシステムにおいても、上記の
図４に示したように、音声通信の接続確立（ステップＳ
１）、音声対話処理（ステップＳ２）及び音声通信の接
続切断（ステップＳ３）の如き動作が行われる。上記の
ステップＳ２の音声対話処理のシーケンスについては図
５に示した如き動作が行われる。

【００２９】図６及び図７に示した端末装置１及びサー
バ２を備えた場合には、図５のステップＳ１６〜Ｓ２２
の動作については、次のように行うこともできる。端末
装置１においては、マイクロホン１６からのユーザの発
声音を示す音声信号が音声入力部１３に供給されると、
そこで８ｋＨｚ／１６ビットにディジタル化され、３０
ｍｓｅｃ（２４０サンプル）毎に音声データはＰＣＭデ
ータ送信部４０に供給される。ＰＣＭデータ送信部４０
は順次供給されるＰＣＭデータを保持し、その音声デー
タをサーバ２宛のＴＣＰパケットにてインターネット回
線網３に出力する。ＴＣＰは、上記したように、IETF R
FC793で規定されるインターネット上のコネクションオ
リエンティドなトランスポートプロトコルであり、エラ
ー検出及び回復機能等の機能を備えた信頼性の高いデー
タ通信を行うことができるプロトコルである。

【００３０】サーバ２においては、インターネット回線
網３からＴＣＰパケットをＰＣＭデータ受信部５０が受
信し、受信したＴＣＰパケットからＰＣＭ音声データを
抽出して認識パラメータ計算部５１供給する。認識パラ
メータ計算部５１は、順次供給される音声データを保持
し、１６ｍｓｅｃ分の音声データを８ｍｓｅｃ周期で分
析し、分析結果として音声データの特徴を示す音声パタ
ーンを得る。分析方法としては、例えば、１２次のＬＰ
Ｃ分析等の方法が用いられる。得られた音声パターンは
パターンマッチング部５２に供給される。パターンマッ
チング部５２は、音声対話制御部５３が指定した標準パ
ターンに対して、認識パラメータ受信部４７から供給さ
れた音声パターンを照合してマッチング計算を行ってそ
の計算結果を認識結果として音声対話制御部５３に供給
する。

【００３１】なお、音声ＩＰ通信において、通常使用さ
れる圧縮方式のビットレートは、５．３／６．３ｋｂｐ
ｓ(ITU-T G.723.1)や８ｋｂｐｓ(ITU-T G.729)である。
一方、この実施例のＰＣＭデータのビットレートは１２
８ｋｂｐｓの如く高い。しかしながら、単語発声では１
語当たり１秒程度と短時間であり、再送機能を備えたＴ
ＣＰを用いた場合の遅延は一般に許容範囲内である。

【００３２】かかる実施例においては、ＵＤＰパケット
と比べて信頼性が高いＴＣＰパケットを用いてＰＣＭ音
声データを伝送するので、パケットロスが発生した区間
の音声データが欠落する可能性が低くなり、音声認識の
精度を向上させることができる。また、かかる実施例に
おいては、符号化／復号化を行うことなく、マイクロホ
ンに入力された音声から音声パターンを直接抽出してい
るので、符号化の際の圧縮によって音声パターンが変形
するという影響を受けることがなく、また各圧縮方法の
違いに依存することなく、音声パターンを得ることがで
きる。よって、音声認識の精度を向上させることができ
る。

【００３３】更に、かかる実施例においては、認識対象
となるＰＣＭデータをサーバ２では符号化歪みが全く無
い状態で得ることができるので、異なる分析条件で再認
識を行うことができ、サーバでの認識条件の自由度が増
加する。また、かかる実施例においては、端末装置１に
ＰＣＭデータ送信部４０を加えただけの構成で音声認識
性能の向上を図ることができる。これはＬＡＮ用電話機
等の処理能力の低い端末装置でも容易に実現が可能な構
成であり、音声認識性能の向上を図ることができる。

【００３４】なお、かかる実施例においては、プロトコ
ルとしてＴＣＰを用いてＰＣＭデータの送受信が行われ
るが、ユーザ発声時間分の遅延を考慮してＰＣＭデータ
をファイル化すれば、ＦＴＰ等のアプリケーションプロ
トコルを用いても良い。図８及び図９は、本発明の他の
実施例として図１の端末装置１及びサーバ２の内部構成
を示している。図８に示した端末装置１においては、符
号化された音声データをＴＣＰパケットにてサーバ２に
対して送信するＴＣＰ音声送信部５５が備えられてい
る。ＴＣＰ音声送信部５５の入力は音声符号化部３６に
接続され、出力はインターネット回線網３に接続されて
いる。その他の構成は、図２に示した端末装置１内の認
識パラメータ計算部３８及び音声パターン送信部３９が
備えられていないことを除いて図２に示した端末装置１
と同様である。

【００３５】図９に示したサーバ２においては、端末装
置１からＴＣＰパケットにて送られてきた音声データを
受信するＴＣＰ音声受信部５６が備えられている。ＴＣ
Ｐ音声受信部５６の入力はインターネット回線網３に接
続され、出力は音声復号化部４３の入力に接続されてい
る。その他の構成は図３に示したサーバ２内の音声パタ
ーン受信部４７が備えられていないことを除いて図３に
示したサーバ２と同様である。

【００３６】かかる図８及び図９に示した端末装置１及
びサーバ２を備えた構成のシステムにおいても、上記の
図４に示したように、音声通信の接続確立（ステップＳ
１）、音声対話処理（ステップＳ２）及び音声通信の接
続切断（ステップＳ３）の如き動作が行われる。上記の
ステップＳ２の音声対話処理のシーケンスについては図
５に示した如き動作が行われる。

【００３７】図８及び図９に示した端末装置１及びサー
バ２を備えた場合には、図５のステップＳ１６〜Ｓ２２
の動作については、次のように行うこともできる。端末
装置１においては、マイクロホン１６からのユーザの発
声音を示す音声信号が音声入力部１３に供給されると、
そこで８ｋＨｚ／１６ビットにディジタル化され、３０
ｍｓｅｃ（２４０サンプル）毎に音声データは音声符号
化部４３に供給される。音声符号化部３６は３０ｍｓｅ
ｃ毎に音声符号化を行い、ビットストリームである符号
化音声データをＴＣＰ音声送信部５５に供給する。音声
送信部５５は順次供給される符号化音声データを保持
し、その音声データをサーバ２宛のＴＣＰパケットにて
インターネット回線網３に出力する。

【００３８】サーバ２においては、インターネット回線
網３からＴＣＰパケットを音声受信部５６は、受信パケ
ットのタイムスタンプやパケット番号のチェックを例え
ば、ＲＴＰ等をプロトコルを使用して行い、異常がなけ
れば、その後、ＴＣＰパケットからビットストリームの
音声データを抽出して音声復号化部４３に供給する。音
声復号化部４３はビットストリームを復号化して８ｋＨ
ｚ／１６ビットの音声データを得て、それをＤ／Ａ変換
することなく認識パラメータ計算部５１に供給する。認
識パラメータ計算部５１は、順次供給される音声データ
を保持し、１６ｍｓｅｃ分の音声データを８ｍｓｅｃ周
期で分析し、分析結果として音声データの特徴を示す音
声パターンを得る。分析方法としては、例えば、１２次
のＬＰＣ分析等の方法が用いられる。得られた音声パタ
ーンはパターンマッチング部５２に供給される。パター
ンマッチング部５２は、音声対話制御部５３が指定した
標準パターンに対して、認識パラメータ計算部５１から
供給された音声パターンを照合してマッチング計算を行
ってその計算結果を認識結果として音声対話制御部５３
に供給する。

【００３９】かかる実施例においては、ＵＤＰパケット
と比べて信頼性が高いＴＣＰパケットを用いて符号化音
声データを伝送するので、パケットロスが発生した区間
の音声データが欠落する可能性が低くなり、音声認識の
精度を向上させることができる。また、かかる実施例に
おいては、端末装置１にＴＣＰ音声送信部４０を加えた
だけの構成で音声認識性能の向上を図ることができる。
これはＬＡＮ用電話機等の処理能力の低い端末装置でも
容易に実現が可能な構成であり、音声認識性能の向上を
図ることができる。

【００４０】更に、かかる実施例においては、ＴＣＰパ
ケットを用いた場合にはＵＤＰパケットを用いた場合と
比べて同一の音声情報を送信することになり、通信量の
違いはプロトコルの違いに依存するだけの最小限で済む
ので、最小限の通信量の増加でパケットロスに対処する
ことができる。なお、かかる実施例においては、プロト
コルとしてＴＣＰを用いて符号化音声データの送受信が
行われるが、ユーザ発声時間分の遅延を考慮して符号化
音声データをファイル化すれば、ＦＴＰ等のアプリケー
ションプロトコルを用いても良い。また、３種類以上の
通信プロトコルから１の通信プロトコルを選択的に用い
ても良い。

【００４１】上記した各実施例においては、認識パラメ
ータをＰＡＲＣＯＲ係数に限定したが、認識パラメータ
としてはＬＳＰ係数やＬＰＣケプストラム係数を用いて
も良い。また、分析フレーム長や分析フレーム周期、分
析次数等の分析パラメータやサンプリング周波数、量子
化ビット数、バッファサイズ等の各種パラメータは適宜
設定することができる。

【００４２】また、上記した各実施例においては、端末
装置１及びサーバ２を各々１台備えているが、複数の端
末装置及び複数のサーバがネットワークにて互いに接続
されたシステムにも本発明を適用することができる。更
に、上記した各実施例においては、ステップＳ１６〜Ｓ
２２の２つの動作、すなわちＵＤＰパケット伝送を用い
た音声認識動作とＴＣＰパケット伝送を用いた音声認識
動作とのうちからいずれか一方の動作がサーバ制御部４
８の指示に応じて選択されて実行されるが、端末装置１
の端末制御部１４の指示に応じて選択されて実行されて
も良い。

【００４３】また、上記した各実施例においては、端末
装置１とサーバ２とがインターネット回線網３を介して
接続されるが、端末装置１とサーバ２との間を接続する
ネットワーク回線としては公衆電話回線や他の専用回線
であっても良い。更に、上記した各実施例においては、
音声入力装置である端末装置１にて音声が入力され、音
声認識装置であるサーバ２にてその入力音声の音声識別
が行われるが、サーバ２に音声入力装置としての機能を
備え、端末装置１に音声認識装置としての機能を備える
ようにしても良い。

【００４４】

【発明の効果】以上の如く、本発明の音声認識通信シス
テムにおいては、通信プロトコルとして少なくとも２種
類の通信プロトコルを使用し、パケットロスの発生等の
通信状態の悪化に応じて信頼性の高い通信プロトコルを
選択的に使用することができるので、通信ネットワーク
上の装置間における音声データ音声認識性能を向上させ
ることができる。

【図面の簡単な説明】

【図１】本発明による音声認識通信システムの概略構成
を示すブロック図である。

【図２】端末装置の内部構成を示すブロック図である。

【図３】サーバの内部構成を示すブロック図である。

【図４】端末装置とサーバとの間の概略的動作を示すフ
ローチャートである。

【図５】音声対話処理を具体的に示すフローチャートで
ある。

【図６】本発明の他の実施例として端末装置の内部構成
を示すブロック図である。

【図７】図６の端末装置に対応したサーバの内部構成を
示すブロック図である。

【図８】本発明の他の実施例として端末装置の内部構成
を示すブロック図である。

【図９】図８の端末装置に対応したサーバの内部構成を
示すブロック図である。

【符号の説明】

１端末装置２サーバ３インターネット回線網１２音声出力部１３音声入力部１５スピーカ１６マイクロホン４４音声対話部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｍ 11/00 ３０２Ｈ０４Ｌ 13/00 ３０５ＣＦターム(参考） 5D015 KK02 5K030 GA11 GA12 HA08 HB01 HB18 KA20 LA08 LB18 LB19 MA04 MB04 MB09 5K034 AA05 AA06 CC05 DD01 EE11 FF07 FF17 HH01 HH02 HH63 JJ24 LL01 LL02 TT01 TT02 5K101 NN08 SS06 SS08 TT06

Claims

【特許請求の範囲】

【請求項１】音声信号を入力しその音声信号を示す音
声情報をパケットとしてネットワーク回線に出力する音
声入力装置と、前記ネットワーク回線を介して伝送され
たパケットを受信して音声認識を行う音声認識装置とを
備えた音声認識通信システムであって、前記音声入力装置は、互いに信頼性の程度が異なる少な
くとも２種類の通信プロトコルのうちのいずれか１の通
信プロトコルにてパケットを送信する送信手段を有し、前記音声認識装置は、伝送されてきたパケットを前記１
の通信プロトコルに従って受信する受信手段を有するこ
とを特徴とする音声認識通信システム。
【請求項２】前記音声情報は、音声信号を高圧縮率符
号化したデータであることを特徴とする請求項１記載の
音声認識通信システム。
【請求項３】前記音声情報は、音声信号のＰＣＭデー
タであることを特徴とする請求項１記載の音声認識通信
システム。
【請求項４】前記音声情報は、音声信号の特徴を示す
パターンデータであることを特徴とする請求項１記載の
音声認識通信システム。
【請求項５】前記ネットワーク回線におけるパケット
伝送はインターネットプロトコルを用いて行うことを特
徴とする請求項１記載の音声認識通信システム。
【請求項６】前記少なくとも２種類の通信プロトコル
のうちの一方の通信プロトコルはコネクションレス型の
通信プロトコルであり、他方の通信プロトコルは前記コ
ネクションレス型の通信プロトコルより信頼性が高いコ
ネクション型の通信プロトコルであることを特徴とする
請求項１記載の音声認識通信システム。
【請求項７】前記一方の通信プロトコルはＵＤＰであ
り、前記他方の通信プロトコルはＴＣＰであることを特
徴とする請求項６記載の音声認識通信システム。
【請求項８】前記一方の通信プロトコルはＵＤＰであ
り、前記他方の通信プロトコルはＦＴＰであることを特
徴とする請求項６記載の音声認識通信システム。