JP3672800B2

JP3672800B2 - 音声入力通信システム

Info

Publication number: JP3672800B2
Application number: JP2000184475A
Authority: JP
Inventors: 伸神谷
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2000-06-20
Filing date: 2000-06-20
Publication date: 2005-07-20
Anticipated expiration: 2020-06-20
Also published as: JP2002006882A; US7225134B2; US20040078202A1; WO2001099096A1

Description

【０００１】
【発明の属する技術分野】
この発明は、通信回線を介した情報サービスやホームネットを介した情報サービスやホームネットを介した機器制御を音声によって行う音声入力通信システムに関する。
【０００２】
【従来の技術】
従来より、ユーザが、センターシステムと通信回線を介して音声によって情報交換を行うことができる情報処理システムがある。図１１は、従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートを示す。図１１において、ステップＳ1で、ユーザ端末側に音声波形が入力される。ステップＳ2で、上記入力された音声波形データが通信回線を介してセンターシステム側へ送信される。そうすると、ステップＳ3で、上記センターシステム側で波形分析が行われる。そして、ステップＳ4で音素認識が行われ、ステップＳ5で単語認識が行われ、ステップＳ6で文認識が行われる。こうして、言語処理の結果得られた音声入力文に従って、ステップＳ7でアプリケーションプログラムが実行されるのである。
【０００３】
このように、従来の音声入力情報処理システムにおいては、音声波形データをセンターシステム側へ通信回線を介して送信するため、ユーザの音声に歪みが生じ、上記センターシステム側での音声認識が困難である。さらに、多数のユーザに対応するために不特定話者音声認識を使用する場合には、認識性能の低い話者がある確率で存在することになる。
【０００４】
上述のような問題点を解決するために、特定話者音声認識機能または話者適応済み音声認識機能をユーザ端末側に用意し、認識に必要な語彙文法情報をセンターシステム側から通信回線を介してユーザ端末側へ送って音声認識を行う音声入力情報処理システム(例えば、特開平８‐６５８９号公報)がある。図１２は、このような音声入力情報処理システムによる音声認識/情報処理動作のフローチャートを示す。
【０００５】
ステップＳ11で、ユーザ端末側とセンターシステム側とで語彙文法情報通信が行われ、センターシステム側からユーザ端末側に、認識に必要な語彙文法情報が送信される。ステップＳ12で、ユーザ端末側に音声波形が入力される。ステップＳ13で、波形分析が行われる。ステップＳ14で、話者適用化音素認識が行われ、ステップＳ15で単語認識が行われ、ステップＳ16で文認識が行われて認識結果がセンターシステム側に送信される。ステップＳ17で、センターシステム側で、上記ユーザ端末側で得られた音声入力文に従ってアプリケーションプログラムが実行されるのである。
【０００６】
【発明が解決しようとする課題】
しかしながら、上記従来の音声認識機能をユーザ端末側に用意する音声入力情報処理システムには、以下のような問題がある。すなわち、この音声入力情報処理システムにおいては、高い音声認識性能を実現することは可能である。しかしながら、アプリケーションが変わる度に、アプリケーションに応じた語彙と文法に関する情報をセンターシステム側から通信回線を介してユーザ端末側へ送る必要があり、語彙文法情報の情報量に比して通信回線の通信速度が遅い場合には、上記アプリケーションの切替時に発生する情報転送のための待ち時間が煩わしいという問題がある。
【０００７】
さらに、語彙数が数千語以上になると実時間処理に要するプロセッサの処理速度を上げる必要が生ずるために、ユーザ端末が携帯電話やＰＤＡ(パーソナル・ディジタル・アシスタント)等のモバイル機器である場合には、消費電力の面で問題がある。
【０００８】
そこで、この発明の目的は、消費電力が低いユーザ端末からの音声入力であっても高い認識性能を得ることができる音声入力通信システムを提供することにある。
【０００９】
【課題を解決するための手段】
上記目的を達成するため、第１の発明は、ユーザ端末を有するユーザシステムとセンターシステムとが第１の通信回線を介して接続され,上記ユーザ端末から上記センターシステムに対して音声によって指示を行なう音声入力通信システムにおいて、入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を機能単位に分割し、分割された個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持すると共に、上記ユーザシステム側に保持された部分音声指示認識処理手段は話者適応化済みの音素認識あるいは音節認識を行う一方,上記センターシステム側に保存された部分音声指示認識処理手段は上記音素認識あるいは音節認識の認識結果に対して言語処理を行って最終的な音声指示内容を得るようになっており、上記センターシステムは複数存在し、各センターシステムには、語彙文法情報が格納された語彙文法メモリと、上記言語処理を行う言語処理手段と、互いに異なるアプリケーションプログラムの実行処理部とが搭載されていることを特徴としている。
【００１０】
上記構成によれば、センターシステムに音声指示認識処理手段の音声認識機能,単語認識および文認識機能等の全機能を置いた場合のように、ユーザシステムから上記センターシステムに第１の通信回線を介して入力音声波形を送信する必要がない。したがって、上記入力音声波形の送信歪みに起因する音声指示の認識率の低下が防止される。また、上記ユーザシステムに上記音声指示認識処理手段の全機能を置いた場合のように、上記センターシステムからユーザシステムに語彙文法情報を送信する必要がない。したがって、音声指示の切替り時に上記語彙文法情報を送信する間の待ち時間がなく、迅速な音声指示の認識が行われる。さらに、上記ユーザシステムの認識処理負荷が低減される。
【００１１】
さらに、複数のセンターシステムの夫々は、上記音素認識あるいは音節認識の認識結果を受信すると指示文の認識を一斉に開始し、認識した指示文の内容から自分当ての指示ではないと判断した場合には以後の処理を停止し、自分当ての指示であると判断したセンターシステムによってアプリケーションプログラムが実行される。
【００１２】
また、上記第１の発明の音声入力通信システムは、上記ユーザシステムに上記ユーザ端末に第２の通信回線を介して接続されたユーザ側システムを設け、このユーザ側システムを上記第１の通信回線を介して上記センターシステムに接続することが望ましい。
【００１３】
上記構成によれば、上記ユーザシステムで保持する部分音声指示認識処理手段を、更に上記ユーザ端末とユーザ側システムとで分散して保持することが可能になる。したがって、上記ユーザ端末の認識処理負荷がさらに低減され、処理速度を上げることができる。その結果、上記ユーザ端末が携帯電話やＰＤＡ等の消費電力が低いモバイル機器であっても、語彙数が多い音声指示文にも十分対処することが可能になる。
【００１４】
また、上記第１の発明の音声入力通信システムは、上記ユーザシステムに、入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音声認識手段と、上記中間認識結果を上記第１の通信回線を介して上記センターシステムに送信する送信制御手段を備えることが望ましい。
【００１５】
上記構成によれば、上記ユーザシステムにおいて、音声認識手段によって入力音声が認識されて中間認識結果が得られ、この中間認識結果が送信制御手段によって第１の通信回線を介して上記センターシステムに送信される。こうして、音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果が通信回線を介して送信されて、認識率の低下が防止される。
【００１６】
また、上記第１の発明の音声入力通信システムは、上記音声認識手段を音素認識手段あるいは音節認識手段とし、上記中間認識結果を音素ラティスあるいは音節ラティスとすることが望ましい。
【００１７】
上記構成によれば、音声波形を送信する場合に比して送信歪みの少ない中間認識結果が、音素ラティスあるいは音節ラティスとして容易に得られる。
【００１８】
また、上記第１の発明の音声入力通信システムは、上記中間認識結果として、上記音素ラティスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることが望ましい。
【００１９】
上記構成によれば、上記中間認識結果として分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることによって、上記音素認識手段の処理負荷が小さくなる。したがって、上記音素認識手段を、処理能力の低いユーザ端末に搭載することが可能になる。
【００２０】
また、上記第１の発明の音声入力通信システムは、上記第１の通信回線と第２の通信回線とを、異なる種類の通信回線にすることが望ましい。
【００２１】
上記構成によれば、例えば、上記ユーザシステムと上記センターシステムとを接続する第１の通信回線をＷＡＮ(ワイド・エリア・ネットワーク)とし、上記ユーザシステムにおいて上記ユーザ端末とユーザ側システムとを接続する第２の通信回線をＬＡＮ(ローカル・エリア・ネットワーク)とすることによって、支社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して、音声によって指示を行うことが可能になる。
【００２２】
また、上記第１の発明の音声入力通信システムは、少なくとも一つのセンターシステムに設けられて,ユーザが発声すべき発声内容の音声合成制御パラメータを生成し,上記第１の通信回線を介してユーザシステムに送信する発声指示手段と、上記ユーザシステムにおける上記ユーザ端末に設けられて,上記第１の通信回線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段と、上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて,入力された音声の波形を分析して入力音声の特徴を抽出し,上記第１の通信回線を介してセンターシステムに送信する波形分析手段と、上記発声指示手段が設けられたセンターシステムに設けられて,上記第１の通信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えることが望ましい。
【００２３】
上記構成によれば、センターシステムの発声指示手段から送信された発声内容の音声合成制御パラメータに基づいて、上記ユーザシステムの音声合成手段によって、上記発声内容の合成音声が出力される。そして、この合成音声による発声内容に従ってユーザが発声した音声の特徴が、上記ユーザシステムの波形分析手段によって抽出されて上記センターシステムに送信される。そして、上記センターシステムの話者認識手段によって、上記入力音声の特徴に基づいて話者が認識される。
【００２４】
こうして、ユーザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに先立って、上記第１の通信回線を介してユーザシステムとセンターシステムとでテキスト指定型の話者認識が行われる。したがって、特定ユーザによる音声指示である場合にのみ当該音声指示応じた処理を実行することが可能になる。
【００２５】
【発明の実施の形態】
以下、この発明を図示の実施の形態によって詳細に説明する。
＜第１実施の形態＞
図１は、本実施の形態の音声入力通信システムにおける基本構成を示すブロック図である。図１において、１はユーザシステムであり、２はセンターシステムである。ユーザシステム１とセンターシステム２とは通信回線３によって接続されている。
【００２６】
上記ユーザシステム１とセンターシステム２とには音声指示認識処理手段４,５が搭載されており、音声指示認識処理手段４は入力された音声データを処理する一方、音声指示認識処理手段５は前段の音声指示認識処理手段４の処理結果をさらに処理する。また、上記ユーザシステム１には、上記音声指示認識処理手段４による処理結果を後段のセンターシステム２に通信回線３を介して送信する送信制御手段６が搭載されている。また、上記センターシステム２には、通信回線３を介して前段の音声指示認識処理手段４による処理結果を受信する受信制御手段７と、自段の音声指示認識処理手段５による処理結果を音声指示内容として出力する出力制御手段８が搭載されている。
【００２７】
ここで、上記ユーザシステム１およびセンターシステム２に搭載されている音声指示認識処理手段４・５,送信制御手段６,受信制御手段７,出力制御手段８は、個別のＬＳＩ(大規模集積回路)で構築してもよい。あるいは、ユーザシステム１及びセンターシステム２の夫々を、ＣＰＵ(中央演算処理装置)と通信機能とを有する周辺端末で構成しても差し支えない。また、通信回線３は、ＬＡＮおよびＷＡＮの何れであっても、有線および無線の何れであっても差し支えない。以下、通信回線３はＷＡＮである場合を例に説明する。
【００２８】
上記ユーザシステム１およびセンターシステム２に搭載されている音声指示認識処理手段４,５は、全体で、ユーザシステム１に入力された音声による指示を認識して音声指示内容を得るようになっている。その場合、ユーザシステム１の音声指示認識処理手段４では、例えば、入力された音声波形を分析し、音素認識あるいは音節認識を行う。そして、中間認識結果として音素ラティスあるいは音節ラティスを出力する。
【００２９】
一方、上記ユーザシステム１にＷＡＮである通信回線３で接続されたセンターシステム２の音声指示認識処理手段５では、例えば、受信した音素ラティスあるいは音節ラティス等の中間認識結果に対して言語処理を行う。そして、最終的な音声指示内容を得るようになっているのである。
【００３０】
ところで、上記ユーザシステム１およびセンターシステム２は、搭載している音声指示認識処理手段４,５の各機能を単位として複数に分割し、通信回線で接続しても差し支えない。また、他の処理システムを追加してもよい。例えば、ユーザシステム１の場合について言えば、音声指示認識処理手段４は入力音声波形の分析機能と音素認識(あるいは音節認識)機能とを有している。そこで、入力音声の波形分析処理を行う音声指示認識処理手段を搭載した第１装置と、音素認識(または音節認識)処理を行う音声指示認識処理手段を搭載した第２装置とに分割し、通信回線で接続する。そして、第１装置側には波形分析結果を送信する送信制御手段を搭載し、第２装置側には上記波形分析結果を受信する受信制御手段を搭載するのである。
【００３１】
但し、その場合における上記第１装置の音声指示認識処理手段と第２装置の音声指示認識処理手段とによる処理の分担は、上述に限定するものではない。例えば、上記第１装置側の音声指示認識処理手段は、単に入力された音声波形をディジタル化して処理結果として出力する。そして、上記第２装置側の音声指示認識処理手段で、波形分析処理と音素認識処理(または音節認識処理)との両方を行って、処理結果として音素ラティス(または音節ラティス)の中間認識結果を出力してもよい。この場合、上記第１,第２装置間の通信回線はＬＡＮ等とすることによって音声波形の通信歪みを極小さくできる。あるいは、上記第１装置側の音声指示認識処理手段で、波形分析処理と音素認識処理(または音節認識処理)との両方を行って、処理結果として音素ラティス(または音節ラティス)の中間認識結果を上記第２装置に送信してもよい。
【００３２】
また、上記センターシステム２の場合について言えば、音声指示認識処理手段５は単語認識機能と文認識機能とを有している。そこで、単語認識処理を行う音声指示認識処理手段を搭載した第３装置と、文認識処理を行う音声指示認識処理手段を搭載した第４装置とに分割し、通信回線で接続する。そして、第３装置側には単語認識結果(単語ラティス)を送信する送信制御手段を搭載し、第４装置側には上記単語認識結果を受信する受信制御手段を搭載するのである。
【００３３】
但し、その場合における上記第３装置の音声指示認識処理手段と第４装置の音声指示認識処理手段とによる処理の分担は、上述に限定するものではない。例えば、上記第３装置側の音声指示認識処理手段は、単語認識処理と文認識処理との両方を行い、処理結果として音声指示内容を出力する。そして、上記第４装置側の音声指示認識処理手段は、受信した音声指示内容をそのままアプリケーションを実行する制御部へ渡す。あるいは、上記第３装置側の音声指示認識処理手段では、受信したユーザシステム１からの音素ラティス(または音節ラティス)をそのまま第４装置へ送信する。そして、上記第４装置側の音声指示認識処理手段で、単語認識処理と文認識処理との両方を行い、処理結果として音声指示内容を出力する。あるいは、上記第３装置及び第４装置の音声指示認識処理手段の夫々で、単語認識処理と文認識処理との両方を行って処理結果として音声指示内容を出力するようにしてもよい。
【００３４】
このように、本実施の形態においては、入力された音声による指示を認識して音声指示内容を得る音声入力通信システムを構築するに際して、音声指示認識処理手段４と送信制御手段６とを搭載したユーザシステム１と、受信制御手段７と音声指示認識処理手段５と出力制御手段８とを搭載したセンターシステム２とを通信回線(ＷＡＮ)３で接続する。
【００３５】
そして、上記ユーザシステム１の音声指示認識処理手段４とセンターシステム２の音声指示認識処理手段５とで、入力された音声による指示を波形分析し認識して音声指示内容を得る処理を分担している。したがって、従来のセンターシステム側のみに音声分析認識処理装置を置いた場合のごとく音声波形データの送信歪みに起因する認識率の低下が生ずることがなく、高い認識結果を得ることができる。また、ユーザシステム側のみに音声分析認識処理装置を置いた場合のごとく語彙文法情報の送信に起因する待ち時間がなく、迅速な音声指示の認識処理を行うことができる。さらに、ユーザシステム１の処理負荷を小さくでき、ユーザシステム１を構成するユーザ端末が携帯電話やＰＤＡ等の消費電力が低いモバイル機器であっても大語彙の音声指示が取り扱い可能になる。
【００３６】
さらに、その際に、上記ユーザシステム１の音声指示認識処理手段４で音声分析認識処理を行って、音素ラティスまたは音節ラティス等の中間認識結果を出力する。そして、この中間認識結果を通信回線(ＷＡＮ)３でセンター側へ送信し、センター側で言語処理するようにしている。したがって、音声波形データを直接送信する場合に比して送信歪みを少なくでき、認識率の低下を防止することができるのである。また、ユーザシステム１およびセンターシステム２は、搭載している音声指示認識処理手段４,５の各機能を単位として複数に分割し、通信回線で接続することも可能である。また、他の処理システムを追加することも可能である。その場合には、より機動性に富み、ニーズの多様性に適用可能な音声入力通信システムを構築できる。
【００３７】
尚、上記ユーザシステム１とセンターシステム２との分割位置、ユーザシステム１内での分割位置、および、センターシステム２内での分割位置は、特に限定されるものではない。要は、接続する通信回線の通信速度,通信歪みの有無,通信料金や、各分割単位における音声指示認識処理手段の処理能力,処理データ量,重量等を考慮して、構築しようとしている音声入力通信システムが最も効率よく目的とする機能を発揮できるように決定すればよい。
【００３８】
＜第２実施の形態＞
以下、上記構成を有する音声入力通信システムについて具体的に説明する。図２は、本実施の形態における音声入力通信システムのブロック図である。本音声入力通信システムは、第１実施の形態における音声入力通信システムをそのまま具体化したものであり、ユーザ端末１１とセンターシステム１２とから構成されている。
【００３９】
上記ユーザ端末１１は、上記第１実施の形態におけるユーザシステム１に相当し、音声による指示が入力されて中間認識結果を出力する。センターシステム１２は、上記ユーザ端末１１と通信回線(ＷＡＮ)１３を介して接続されており、上記第１実施の形態におけるセンターシステム２に相当し、音声指示内容を認識して出力する。
【００４０】
上記ユーザ端末１１は、音素認識部１５と通信制御部１６を有している。上記音素認識部１５は、入力された音声から音響パラメータ時系列を求めて音素を認識する。また、通信制御部１６は、音素認識部１５と通信回線１３との接続を制御する。すなわち、音素認識部１５で上記第１実施の形態における上記音声指示認識処理手段４を構成し、通信制御部１６で上記送信制御手段６を構成しているのである。
【００４１】
上記センターシステム１２は、制御部１７と言語処理部１８と語彙文法メモリ１９を有している。上記制御部１７は、通信回線１３とセンターシステム１２との接続を制御する。上記言語処理部１８は、通信回線１３を介してユーザ端末１１から送信されて来る音素認識部１５による認識結果としての音素ラティスに対して、語彙文法メモリ１９に格納された語彙文法情報を用いて言語処理を行い、音素認識部１５に音声入力された指示文を認識する。そして、認識結果を制御部１７に返す。すなわち、制御部１７で上記第１実施の形態における上記受信制御手段７を構成し、言語処理部１８で上記音声指示認識処理手段５および出力制御手段８を構成しているのである。
【００４２】
図３は、上記構成を有する音声入力通信システムにおけるユーザ端末１１およびセンターシステム１２によって行われる音声認識/情報処理動作のフローチャートを示す。以下、図３に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップＳ21〜ステップＳ24はユーザ端末１１側の処理動作であり、ステップＳ25〜ステップＳ27はセンターシステム１２側の処理動作である。
【００４３】
ステップＳ21で、上記ユーザ端末１１の音素認識部１５に対してユーザの発声による音声波形が入力される。ステップＳ22で、音素認識部１５によって、入力された音声波形が波形分析されて、ケプストラム,パワー等の音響パラメータ時系列が求められる。ステップＳ23で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として、図４に示すような音素ラティス(認識候補の音素名とその尤度と始端時間および終端時間等)が得られる。ステップＳ24で、通信制御部１６によって、上記音素ラティスが、通信回線１３を介してセンターシステム１２に送信される。
【００４４】
尚、本実施の形態においては、上記音素ラティスを送信するようにしている。しかしながら、通信回線１３における通信速度の増加に伴って、上記音素ラテイスの代りに、図５に示すような分析フレーム毎の音素類似度の時系列を生成して送信してもよい。あるいは、図６に示すような連続する複数分析フレーム毎の平均音素類似度の時系列を生成して送信しても差し支えない。その場合には、音素ラティスを送信する場合よりもデータ量は多くなるが、音素認識部１５の処理負荷を小さくできる。したがって、処理能力の低いユーザ端末１１の場合に用いることが望ましい。
【００４５】
ステップＳ25で、上記センターシステム１２の制御部１７によって、通信回線１３経由で送信されてくる上記音素ラティスが受信され、言語処理部１８に送出される。そして、言語処理部１８によって、語彙文法メモリ１９に格納された語彙文法情報が参照されて上記音素ラティスが解析され、ユーザが発声した単語が認識される。ステップＳ26で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部１７に返される。ステップＳ27で、制御部１７によって、受け取った指示文の内容に応じてアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。
【００４６】
ここで、上記語彙文法メモリ１９に格納された語彙文法情報としては、語彙情報としての音素記号表記と、文法情報としての単語名をアークとする単語ネットワーク(例えば、特開平８‐６５８９号公報)または単語ｎ‐グラム(gram)(ｎ単語組み)で与えられる。
【００４７】
このように、本実施の形態においては、ユーザによるユーザ端末１１に対する音声による指示を、通信回線１３を介してセンターシステム１２に送信するに際して、音声波形分析,音素認識,単語認識および文認識のうち音声波形分析および音素認識をユーザ端末１１側で行い、単語認識および文認識(言語処理)をセンターシステム１２側で行うようにしている。したがって、ユーザ端末１１の認識処理負荷を小さくすることができ、携帯電話やＰＤＡ等の消費電力が低いユーザ端末１１であっても大語彙による音声指示の音素を正しく且つ迅速に認識することができる。
【００４８】
その際に、上記ユーザ端末１１の音素認識部１５によって得られた音素ラテイスあるいは分析フレーム毎の音素類似度の時系列あるいは連続する複数分析フレーム毎の平均音素類似度の時系列等の中間認識結果を、通信回線１３を介してセンターシステム１２に送信する。そして、センターシステム１２の言語処理部１８によって、上記受信した中間認識結果に基づいて、単語認識および文認識を行うようにしている。したがって、通信回線１３を介して送信されるデータに歪みが生ずることがなく、高い認識性能を得ることができるのである。
【００４９】
＜第３実施の形態＞
図７は、上記第１実施の形態に示す音声入力通信システムの他の具体例を示すブロック図である。本実施の形態における音声入力通信システムは、上記第１実施の形態におけるユーザシステム１の機能をユーザ端末２１,２２,２３とユーザ側システム２４とに分割しており、センターシステム２６は上記第１実施の形態におけるセンターシステム２に相当する。
【００５０】
上記各ユーザ端末２１,２２,２３の夫々には、音声による指示が入力される。また、ユーザ側システム２４は、各ユーザ端末２１,２２,２３の夫々と通信回線(有線または無線のＬＡＮ)２５を介して接続されており、音声認識を行って中間認識結果を出力する。また、センターシステム２６は、ユーザ側システム２４と通信回線(ＷＡＮ)２７を介して接続されており、音声指示内容を認識して出力する。
【００５１】
上記各ユーザ端末２１,２２,２３は、制御部３１,３２,３３を有している。この制御部３１,３２,３３は、入力された音声波形データをディジタル化し、通信回線２５を介してユーザ側システム２４に送信する。すなわち、制御部３１,３２,３３で上記第１実施の形態における上記第１装置の音声指示認識処理手段および送信制御手段を構成しているのである。
【００５２】
上記ユーザ側システム２４は、通信制御部３４と音素認識部３５とを有している。上記通信制御部３４は、音素認識部３５と通信回線２５,２７との接続を制御する。また、音素認識部３５は、通信制御部３４によって受信された音声波形データから音響パラメータ時系列を求めて音素を認識する。すなわち、音素認識部３５で上記第１実施の形態における上記第２装置の音声指示認識処理手段を構成し、通信制御部３４で上記第２装置の受信制御手段および送信制御手段６を構成しているのである。
【００５３】
上記センターシステム２６は、制御部３６と言語処理部３７と語彙文法メモリ３８を有している。上記制御部３６は、通信回線２７とセンターシステム２６との接続を制御する。また、言語処理部３７は、通信回線２７を介してユーザ側システム２４から送信されてくる音素認識部３５の認識結果としての音素ラティスに対して、語彙文法メモリ３８に格納された語彙文法情報を用いて言語処理を行い、ユーザ端末２１,２２,２３に音声入力された指示文を認識する。そして、認識結果を制御部３６に返す。すなわち、制御部３６で上記第１実施の形態における上記受信制御手段７を構成し、言語処理部３７で上記音声指示認識処理手段５および出力制御手段８を構成しているのである。
【００５４】
図８は、上記構成を有する音声入力通信システムにおけるユーザ端末２１〜２３,ユーザ側システム２４及びセンターシステム２６によって行われる音声認識/情報処理動作のフローチャートを示す。以下、図８に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップＳ31,ステップＳ32はユーザ端末２１〜２３の何れか(以下においてはユーザ端末２１とする)の処理動作であり、ステップＳ33〜ステップＳ35はユーザ側システム２４の処理動作であり、ステップＳ36〜ステップＳ38はセンターシステム２６の処理動作である。
【００５５】
ステップＳ31で、上記ユーザ端末２１の制御部３１に対してユーザの発声による音声波形が入力される。ステップＳ32で、制御部３１によって、入力された音声波形が通信回線２５を介してユーザ側システム２４に送信される。
【００５６】
ステップＳ33で、上記ユーザ側システム２４の通信制御部３４によって、通信回線２５経由で送信されてくる上記音声波形データが受信され、上記音素認識部３５に送出される。そして、音素認識部３５によって、音声波形が波形分析されてケプストラム,パワー等の音響パラメータ時系列が求められる。ステップＳ34で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として上記音素ラティスが得られる。ステップＳ35で、通信制御部３４によって、上記音素ラティスが通信回線２７を介してセンターシステム２６に送信される。
【００５７】
ステップＳ36で、上記センターシステム２６の制御部３６によって、通信回線２７経由で送信されてくる上記音素ラティスが受信され、言語処理部３７に送出される。そして、言語処理部３７によって、語彙文法メモリ３８に格納された語彙文法情報が参照されて上記音素ラティスが解析され、ユーザが発声した単語が認識される。ステップＳ37で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部３６に返される。ステップＳ38で、制御部３６によって、受け取った指示文の内容に応じてアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。
【００５８】
このように、本実施の形態においては、ユーザによるユーザ端末２１,２２,２３に対する音声による指示を、通信回線２５,３７を介してセンターシステム２６に送信するに際して、音声波形分析,音素認識,単語認識および文認識のうち音声波形分析および音素認識をユーザ側システム２４で行い、単語認識および文認識をセンターシステム２６側で行うようにしている。したがって、ユーザ端末２１,２２,２３の夫々は、単に、入力された音声波形を通信回線(ＬＡＮ)３５を介してユーザ側システム２４に送信するだけでよく、音声認識処理におけるユーザ端末２１,２２,２３の処理負荷を、上記第２実施の形態におけるユーザ端末１１よりも更に小さくできる。
【００５９】
すなわち、本実施の形態によれば、ユーザ端末２１,２２,２３の更なる小型軽量化を図ることができ、消費電力が低いモバイル機器に更に適した音声入力通信システムを構築できるのである。
【００６０】
＜第４実施の形態＞
本実施の形態は、上記第２実施の形態の変形例である。第２実施の形態においては、ユーザ端末１１に入力されたユーザの音声指示が音素認識部１５によって音素単位で認識され、センターシステム１２の言語処理部１８によってユーザの音声指示が文単位で認識される。そして、認識した指示文の内容に応じたアプリケーションプログラムが実行される。
【００６１】
ところが、その場合に、上記アプリケーションプログラムが社内文書の読み出し送信の実行に関するものである場合、機密文書が外部に漏れる場合が当然予測される。また、バンキングサービス(送金,振替,残高照会,振り込み通知)に関するものである場合には、個人情報が他人に漏れることが予想される。そこで、本実施の形態においては、センターシステム側で話者認識を行い、ユーザ端末に音声指示を入力したユーザの特定を行うのである。
【００６２】
ところで、上記話者認識には、話者認識に用いる言葉を予め決めておく発声内容依存型と、どんな言葉を発声してもよい独立型とがある。一般に、前者は、対象キーワードが定まっているために、発声者の負担は少なく認識率も高い。ところが、登録話者の特徴パターンが録音された場合には全く無力となる。一方、後者は、上記のような問題に対しては強いが、話者は多くの単語を発声する必要があるため話者に多大な負担を強いることになる。そこで、本実施の形態においては、話者認識装置側からその都度異なる発声単語を指定するテキスト指定型の話者認識方法を用いるのである。
【００６３】
図９は、本実施の形態における音声入力通信システムのブロック図である。本実施の形態における音声入力通信システムは、上記第２実施の形態の場合と同様に、互いに通信回線４３で接続されたユーザ端末４１とセンターシステム４２とから構成されている。
【００６４】
上記ユーザ端末４１は、音声による指示が入力されて上記中間認識結果を出力する。一方、センターシステム４２は、音声指示内容を認識して出力する。それに加えて、センターシステム４２は、テキスト指定型の話者認識を行うために発声用のテキスト情報を生成してユーザ端末４１に送出する。一方、ユーザ端末４１は、センターシステム４２からのテキスト情報に基づいて音声を合成して出力するのである。
【００６５】
上記ユーザ端末４１は、音素認識部４５と制御部４６と音声合成部４７を有している。上記音素認識部４５は、入力された音声から音響パラメータ時系列を求めて音素を認識する。さらに、話者の音声特徴(ピッチ周波数や長時間スペクトラム等)を抽出する。音声合成部４７は、音声合成制御パラメータに基づいて音声を合成して出力する。また、制御部４６は、音素認識部４５からの音素の認識結果および話者の音声特徴を、通信回線４３を介してセンターシステム４２側へ送信する。一方、通信回線４３を介して送信されてくる音声合成制御パラメータの時系列を受信し、音声合成部に４７に送出する。
【００６６】
上記センターシステム４２は、制御部４８と話者認識部４９と言語処理部５０と語彙文法メモリ５１とを有している。上記制御部４８は、通信回線４３とセンターシステム４２との接続を制御すると共に、ユーザ端末４１から入力された音声指示に応じたアプリケーションプログラムを実行する。
【００６７】
上記話者認識部４９は、ユーザが発声すべきテキストを決定し、当該テキストの音声合成制御パラメータを生成して制御部４８に送出する。さらに、音素認識部４５で抽出された当該テキストに対応する話者の音声特徴に基づいて話者認識を行い、音声指示の入力者を特定する。言語処理部５０は、通信回線４３を介してユーザ端末４１から送信されて来る音素認識結果としての音素ラティスに対して、語彙文法メモリ５１に格納された語彙文法情報を用いて言語処理を行い、音素認識部４５に音声入力された指示文を認識する。そして、認識結果を制御部４８に返す。
【００６８】
そうすると、上記制御部４８は、認識された話者が登録された話者か、あるいは、認識された話者が認識された指示文で指定された口座の名義人と一致するか等の認識話者の評価を行い、正しい話者であると判定するとアプリケーションプログラムを実行するのである。
【００６９】
図１０は、上記構成を有する音声入力通信システムにおけるユーザ端末４１およびセンターシステム４２によって行われる音声認識/情報処理動作のフローチャートを示す。以下、図１０に従って、音声認識/情報処理動作について詳細に説明する。尚、ステップＳ41はセンターシステム４２側の処理動作であり、ステップＳ42〜ステップＳ47はユーザ端末４１側の処理動作であり、ステップＳ48〜ステップＳ51はセンターシステム４２側の処理動作である。
【００７０】
ステップＳ41で、上記センターシステム４２の話者認識部４９で、ユーザに対する発声内容が決定され、当該発声内容の音声合成制御パラメータ(母音‐子音‐母音(ＶＣＶ)単位連鎖,ピッチ,基本イントネーション,アクセント等)が生成されて制御部４８に送出される。そして、制御部４８によって、上記音声合成制御パラメータが通信回線４３を介してユーザ端末４１に送信される。尚、その場合における話者認識部４９による発声内容の決定は、例えば、各話者各単語列毎に登録されている特徴パターンの中からランダムに一つの単語列を選出することによって行われる。
【００７１】
ステップＳ42で、上記ユーザ端末４１の制御部４６によって、通信回線４３経由で送信されてくる上記音声合成制御パラメータが受信され、音声合成部４７に送出される。そして、音声合成部４７によって、上記音声合成制御パラメータに基づいて音声合成が行われる。ステップＳ43で、音声合成部４７によって、得られた発声内容の音声波形が出力される。つまり、発声内容(テキスト)の合成音声が出力されるのである。
【００７２】
ステップＳ44で、ユーザによって、上記ステップＳ43において音声出力された発声内容(テキスト)が発声され、引き続いて音声指示が発声される。こうして、音素認識部４５に対してユーザの発声による音声波形が入力される。ステップＳ45で、音素認識部４５によって、入力された音声波形が波形分析されて、ケプストラム,パワー,ピッチ周波数等の音響パラメータ時系列が求められる。ステップＳ46で、さらに、上記得られた音響パラメータ時系列に基づいて、話者適応化済みの高認識性能の音素認識方式によって音素が認識される。そして、音素認識結果として音素ラティスが得られる。ステップＳ47で、制御部４６によって、上記音素ラティスおよび音声特徴(ピッチ周波数や長時間スペクトラム等)が、通信回線４３を介してセンターシステム４２に送信される。
【００７３】
尚、本実施の形態においても、上記音素ラテイスの代りに、上記分析フレーム毎の音素類似度の時系列や連続する複数分析フレーム毎の平均音素類似度の時系列を生成して送信しても差し支えない。
【００７４】
ステップＳ48で、上記センターシステム４２の制御部４８によって、通信回線４３経由で送信されてくる上記音素ラティスおよび音声特徴が受信され、上記音素ラティスが言語処理部５０に送出される。そして、言語処理部５０によって、語彙文法メモリ５１に格納された語彙文法情報が参照されて上記音素ラティスが解析され、ユーザが発声した単語が認識される。ステップＳ49で、さらに、上記認識された単語に基づいてユーザが発声した文が認識される。そして、上記認識された文が上記音声指示内容として制御部４８に返される。
【００７５】
ステップＳ50で、上記制御部４８によって、受け取った指示文の文頭部分から上記発声内容(テキスト)の単語列が検索され、上記発声内容(テキスト)の単語列があれば、その発声内容(テキスト)部分の音声特徴が話者認識部４９に送出される。そして、話者認識部４９によって、当該音声特徴に基づいて話者認識が行われる。ステップＳ51で、制御部４８によって、上記認識話者の評価が行われる。そして、正しい話者である場合には、受け取った指示文の内容に応じて、社内文書の読出し送信やバンキングサービスや電子商取引等のアプリケーションプログラムの実行が行われる。そうした後、音声認識/情報処理動作を終了する。
【００７６】
このように、本実施の形態においては、ユーザによるユーザ端末４１に対する音声による指示の中間認識結果をセンターシステム４２に送信し、センターシステム４２側でユーザによる指示文を認識するに先立って、センターシステム４２の話者認識部４９で、ユーザに対する発声内容を決定して音声合成制御パラメータを生成してユーザ端末４１に送信する。そして、ユーザ端末４１の音声合成部４７で、受信した上記音声合成制御パラメータに基づいて発声内容の合成音声を出力する。さらに、合成音声による発声内容に従ってユーザが発声した音声の特徴をセンターシステム４２に送信し、センターシステム４２の話者認識部４９で受信した音声特徴に基づいて話者認識を行うようにしている。
【００７７】
したがって、本実施の形態によれば、通信回線４３を介してユーザ端末４１とセンターシステム４２とでテキスト指定型の話者認識を行うことができ、バンキングサービスや電子商取引等にも適用可能なセキュリティ性の高い音声入力通信システムを構築することができる。
【００７８】
その際に、構文解析を含むテキスト解析,ＶＣＶ単位の結合,音声合成制御パラメータ生成等の負荷の大きい処理をセンターシステム４２側で行うようにしている。したがって、ユーザ端末４１の音声合成処理負荷を小さくすることができ、携帯電話やＰＤＡ等の消費電力が低いユーザ端末４１によってセキュリティ性の高い音声入力通信を行うことができるのである。
【００７９】
尚、上記第４実施の形態においては、上記音声合成部４７および話者認識部４９を、上記第２実施の形態におけるユーザ端末１１およびセンターシステム１２に設けた構成を有しているが、上記第３実施の形態におけるユーザ端末２１〜ユーザ端末２３およびセンターシステム２６に設けた構成に成しても構わない。
【００８０】
また、上記第３,第４実施の形態においては、上記第１実施の形態におけるユーザシステム１を、搭載している音声指示認識処理手段４の機能を単位として複数に分割する場合について説明している。しかしながら、上述したように、センターシステム２を、搭載している音声指示認識処理手段５の機能を単位として複数に分割しても差し支えない。また、他の処理システムを追加しても差し支えない。
【００８１】
その場合の例として、上記第１実施の形態におけるセンターシステム２を、言語処理部および語彙文法メモリを搭載した第１センターシステムと、日英機械翻訳処理装置を搭載した第２センターシステムとで構成することが考えられる。この場合は、第１センターシステムで認識したユーザの発声による日本文を、第２センターシステムで英文に翻訳することができる。こうすれば、相手国の言語を話すことができなくとも、携帯電話でＷＡＮ等の通信回線を介して外国のセンターシステムに直接メッセージを送信することが可能になる。
【００８２】
あるいは、上記第１実施の形態におけるセンターシステム２を、言語処理部および語彙文法メモリを搭載した第１センターシステムと、異なるアプリケーションプログラム実行部を搭載した第２センターシステム〜第ｎセンターシステムとで構成する。そして、第１センターシステムは、認識した指示文の内容から当該指示を実行するアプリケーションプログラム実行部を搭載したセンターシステムを特定し、そのセンターシステムに指示文を渡して実行させることもできる。
【００８３】
あるいは、上記第１実施の形態におけるセンターシステム２を、言語処理部と語彙文法メモリと異なるアプリケーションプログラムの実行処理部とを搭載した複数のセンターシステムで構成する。そして、各センターシステムは、中間認識結果を受信すると指示文の認識を一斉に開始し、認識した指示文の内容から自分当ての指示ではないと判断した場合には以後の処理を停止し、自分当ての指示であると判断したセンターシステムがアプリケーションプログラムを実行するようにもできる。
【００８４】
尚、上記各実施の形態においては、上記音声認識単位として音素を用いているが、音節であっても一向に差し支えない。
【００８５】
【発明の効果】
以上より明らかなように、第１の発明の音声入力通信システムは、ユーザシステムのユーザ端末からセンターシステムに対して第１の通信回線を介して音声によって指示を行うに際して、入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を音声認識,単語認識および文認識等の機能単位で分割し、個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持するので、上記センターシステム側に上記音声指示認識処理手段の全機能を置く場合のように、ユーザシステムからセンターシステムに入力音声波形を送信する必要がない。したがって、上記音声波形の送信歪みに起因する認識率低下を防止できる。また、上記ユーザシステムに上記音声指示認識処理手段の全機能を置く場合のように、上記センターシステムからユーザシステムに語彙文法情報を送信する必要がない。したがって、上記音声指示が変わる毎の上記語彙文法情報の送信に起因する待ち時間を無くすことができ、迅速な音声指示内容の認識を行うことができる。さらに、上記ユーザシステムの処理負荷を低減できる。
【００８６】
さらに、上記センターシステムは複数存在し、夫々のセンターシステムには、語彙文法メモリと言語処理手段と互いに異なるアプリケーションプログラムの実行処理部とを搭載しているので、各センターシステムは、音素あるいは音節の認識結果を受信すると指示文の認識を一斉に開始し、自分当ての指示であると判断したセンターシステムによってアプリケーションプログラムを実行することができる。
【００８７】
また、上記第１の発明の音声入力通信システムは、上記ユーザシステムに、ユーザ端末に第２の通信回線を介して接続されたユーザ側システムを設ければ、上記ユーザシステムで保持する部分音声指示認識処理手段を、さらに上記ユーザ端末とユーザ側システムとで分散して保持できる。したがって、上記ユーザ端末の処理負荷を更に低減することができ、上記ユーザ端末が携帯電話やＰＤＡ等の消費電力が低いモバイル機器であっても、語彙数の多い音声指示文に十分対処することが可能になる。
【００８８】
また、上記第１の発明の音声入力通信システムは、上記ユーザシステムに、上記部分音声指示認識処理手段としての音声認識手段と送信制御手段を備えれば、上記ユーザシステムから入力音声の中間認識結果を上記センターシステムに送信できる。したがって、直接音声波形を送信する場合に比して送信歪みの少ない上記中間認識結果を送信することができ、認識率の低下を防止できる。
【００８９】
また、上記第１の発明の音声入力通信システムは、上記音声認識手段を音素認識手段あるいは音節認識手段とし、上記中間認識結果を音素ラティスあるいは音節ラティスとすれば、音声波形を送信する場合に比して送信歪みの少ない中間認識結果を、音素ラティスまたは音節ラティスとして容易に得ることができる。
【００９０】
また、上記第１の発明の音声入力通信システムは、音素ラティスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を上記中間認識結果として用いれば、上記音素認識手段の処理負荷を小さくできる。したがって、上記音素認識手段を、処理能力の低いユーザ端末に搭載することができる。
【００９１】
また、上記第１の発明の音声入力通信システムは、上記第１の通信回線と第２の通信回線とを異なる種類の通信回線にすれば、例えば、上記第１の通信回線をＷＡＮとし、上記第２の通信回線をＬＡＮとすることによって、支社内の異なるユーザ端末から東京の本社内の異なるセンターシステムに対して音声によって指示を行うことができる。
【００９２】
また、上記第１の発明の音声入力通信システムは、少なくとも一つのセンターシステムに、ユーザが発声すべき発声内容の音声合成制御パラメータを送信する発声指示手段と、上記ユーザシステムで抽出された入力音声の特徴に基づいて話者を認識する話者認識手段を備える一方、上記ユーザシステムにおける上記ユーザ端末には、上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段を備え、上記ユーザ端末およびユーザ側システムの何れか一方には、入力音声の特徴を抽出して送信する波形分析手段を備えれば、ユーザによる上記ユーザ端末に対する音声指示を上記センターシステムで認識するに先立って、上記第１の通信回線を介してユーザシステムとセンターシステムとでテキスト指定型の話者認識を行うことができる。
【００９３】
したがって、特定ユーザによる音声指示である場合にのみ当該音声指示応じた処理を実行することができ、バンキングサービスや電子商取引等にも適用可能なセキュリティ性の高い音声入力通信システムを構築することができる。
【図面の簡単な説明】
【図１】この発明の音声入力通信システムのブロック図である。
【図２】図１に示す音声入力通信システムの具体的なブロック図である。
【図３】図２に示す音声入力通信システムよる音声認識/情報処理動作のフローチャートである。
【図４】図２における音素認識手段によって生成される音素ラティスを一例を示す図である。
【図５】分析フレーム毎の音素類似度の時系列の一例を示す図である。
【図６】連続する複数分析フレーム毎の平均音素類似度の時系列の一例を示す図である。
【図７】図１に示す音声入力通信システムの図２とは異なる具体的なブロック図である。
【図８】図７に示す音声入力通信システムによる音声認識/情報処理動作のフローチャートである。
【図９】図１に示す音声入力通信システムの図２および図７とは異なる具体的なブロック図である。
【図１０】図９に示す音声入力通信システムによる音声認識/情報処理動作のフローチャートである。
【図１１】従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートである。
【図１２】図１１とは異なる従来の音声入力情報処理システムによる音声認識/情報処理動作のフローチャートである。
【符号の説明】
１…ユーザシステム、
２,１２,２６,４２…センターシステム、
３,１３,２７,４３…通信回線(ＷＡＮ)、
４,５…音声指示認識処理手段、
６…送信制御手段、
７…受信制御手段、
８…出力制御手段、
１１,２１,２２,２３,４１…ユーザ端末、
１５,３５,４５…音素認識部、
１６,３４…通信制御部、
１７,３１,３２,３３,３６,４６,４８…制御部、
１８,３７,５０…言語処理部、
１９,３８,５１…語彙文法メモリ、
２４…ユーザ側システム、
２５…通信回線(ＬＡＮ)、
４７…音声合成部、
４９…話者認識部。

Claims

ユーザ端末を有するユーザシステムとセンターシステムとが第１の通信回線を介して接続され、上記ユーザ端末から上記センターシステムに対して音声によって指示を行なう音声入力通信システムにおいて、
入力された音声指示の波形分析結果から指示内容を認識する音声指示認識処理手段を機能単位に分割し、分割された個々の部分音声指示認識処理手段を上記ユーザシステムと上記センターシステムとに分散して保持すると共に、
上記ユーザシステム側に保持された部分音声指示認識処理手段は、話者適応化済みの音素認識あるいは音節認識を行う一方、上記センターシステム側に保存された部分音声指示認識処理手段は、上記音素認識あるいは音節認識の認識結果に対して言語処理を行って最終的な音声指示内容を得るようになっており、
上記センターシステムは複数存在し、各センターシステムには、語彙文法情報が格納された語彙文法メモリと、上記言語処理を行う言語処理手段と、互いに異なるアプリケーションプログラムの実行処理部とが搭載されている
ことを特徴とする音声入力通信システム。
請求項１に記載の音声入力通信システムにおいて、
上記ユーザシステムには、上記ユーザ端末に第２の通信回線を介して接続されたユーザ側システムが設けられており、
上記ユーザ側システムは、上記第１の通信回線を介して上記センターシステムに接続されていることを特徴とする音声入力通信システム。
請求項１に記載の音声入力通信システムにおいて、
上記ユーザシステムには、入力音声を認識して中間認識結果を出力する上記部分音声指示認識処理手段としての音声認識手段と、上記中間認識結果を上記第１の通信回線を介して上記センターシステムに送信する送信制御手段を備えたことを特徴とする音声入力通信システム。
請求項３に記載の音声入力通信システムにおいて、
上記音声認識手段は音素認識手段であり、
上記中間認識結果は音素ラティスであることを特徴とする音声入力通信システム。
請求項４に記載の音声入力通信システムにおいて、
上記中間認識結果として、上記音素ラティスに代えて、分析フレーム毎の音素類似度系列あるいは連続する複数分析フレーム毎の平均音素類似度系列を用いることを特徴とする音声入力通信システム。
請求項３に記載の音声入力通信システムにおいて、
上記音声認識手段は音節認識手段であり、
上記中間認識結果は音節ラティスであることを特徴とする音声入力通信システム。
請求項２に記載の音声入力通信システムにおいて、
上記第１の通信回線と第２の通信回線とは、異なる種類の通信回線であることを特徴とする音声入力通信システム。
請求項１に記載の音声入力通信システムにおいて、
少なくとも一つのセンターシステムに設けられて、ユーザが発声すべき発声内容の音声合成制御パラメータを生成し、上記第１の通信回線を介してユーザシステムに送信する発声指示手段と、
上記ユーザシステムにおける上記ユーザ端末に設けられて、上記第１の通信回線を介して送信されてくる上記音声合成制御パラメータに基づいて上記発声内容の合成音声を生成する音声合成手段と、
上記ユーザシステムにおける上記ユーザ端末およびユーザ側システムの何れか一方に設けられて、入力された音声の波形を分析して入力音声の特徴を抽出し、上記第１の通信回線を介してセンターシステムに送信する波形分析手段と、
上記発声指示手段が設けられたセンターシステムに設けられて、上記第１の通信回線を介して送信されてくる上記入力音声の特徴に基づいて話者を認識する話者認識手段を備えたことを特徴とする音声入力通信システム。