JP4725512B2

JP4725512B2 - 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム

Info

Publication number: JP4725512B2
Application number: JP2006511243A
Authority: JP
Inventors: 栄子山田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2004-03-18
Filing date: 2005-03-18
Publication date: 2011-07-13
Anticipated expiration: 2025-03-18
Also published as: US20070143102A1; US7835728B2; JPWO2005091128A1; WO2005091128A1

Description

本発明は、音声処理技術に関し、特に、端末（クライアント）側で入力された音声情報をネットワークを通して音声処理装置に送信して処理を行うシステム、装置及び方法に関する。

この種の従来のシステムとして、携帯電話端末（クライアント）から、Phone-to機能等を用いて音声処理サーバに電話接続し、ユーザの発声を音声処理（音声認識、話者照合等の処理）し、結果を音声処理サーバからＷｅｂサーバに送信し、Ｗｅｂサーバにて処理結果を反映させた画面を作成し、携帯電話端末にて画面をダウンロードして表示する枠組みにおいて、音声処理と画面とを連動させた技術が知られている（例えば、特許第３４５２２５０号公報（文献１）を参照）。この従来のシステムでは、図１に示すように、携帯電話端末１１と音声処理サーバ１３とは回線交換網１５を通してデータの送受信を行い、携帯電話端末１１とＷｅｂサーバ１２とはパケット網１４を通してデータの送受信を行う。

Ｗｅｂサーバ１２と音声処理サーバ１３に、複数台の携帯電話端末１１からアクセスがある場合、音声処理した結果を、画面に反映させて携帯電話端末１１に表示させるために、Ｗｅｂサーバ１２から携帯電話端末１１にダウンロードされる画面と、携帯電話端末１１から音声処理サーバ１３へ送信される音声データとの関係を把握する技術が必要となる。

図１に示した従来のシステムでは、携帯電話端末１１の端末ＩＤと、携帯電話端末番号とを紐付けしておくことで、画面情報をダウンロードする端末と、音声データを送信する端末とを、Ｗｅｂサーバ１２側と音声処理サーバ１３とで一意に把握する機構とされている。

一方、近年、携帯情報端末（ＰＤＡ）や車載端末等のクライアントから特徴ベクトルや圧縮された音声データ等の音声情報を、パケット網を通して音声処理サーバに送信し、音声処理（音声認識、話者照合等の処理）を行う技術が知られている（例えば、特開２００３−５９４９号公報（文献２）を参照）。

文献２に記載されたシステムでは、処理結果を表に示したり、処理結果をもとに検索した結果を、画面に示したりするようなコンテンツを動作させることが可能となる。

上記文献２に記載されたシステムでは、パケット網を通してデータの送受信を行うような音声処理の枠組みにおいても、クライアントにダウンロードされた画面とクライアントから送信された音声データとの関係をサーバ側で把握する技術が必要である。

また、上記文献１の従来技術は、電話番号と携帯電話端末端末ＩＤを紐付けする方法であるため、電話番号を必要としないパケット網を用いた前述の音声処理の枠組みにおいては、使用することができない技術である。そのため、パケット網を通してクライアント、音声処理サーバ、Ｗｅｂサーバ間でデータの送受信を行う音声処理の枠組みにおいて、クライアントにダウンロードされた画面とクライアントから送信された音声データとの関係をサーバ側で把握する技術が新たに必要となる。

したがって、本発明の目的は、Ｗｅｂサーバ等の情報提供サーバ（情報提供装置）からクライアント（端末）にダウンロードされる情報と、クライアントから音声処理サーバ（音声処理装置）へ送信される音声情報との関係をサーバ側で掌握可能とすることにある。

また、本発明の他の目的は、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた場合であっても、音声処理結果を反映させた適正な情報をダウンロードできるようにすることにある。

このような目的を達成するために、本発明に係る音声処理システムは、入力された音声情報を送信するとともに、受信した情報を出力する端末と、端末からの音声情報に基づき音声処理を行う音声処理装置と、音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を端末に送信する情報提供装置とを備え、端末は、音声処理要求信号を音声処理装置に送信する第１の送信手段と、音声処理要求信号の応答として音声処理装置から送信される、音声情報に基づいて行われる一連の処理に対応する処理識別情報を受信する第１の受信手段と、受信された処理識別情報を情報提供装置に送信する第２の送信手段と、入力された音声情報を処理識別情報とともに音声処理装置に送信する第３の送信手段と、情報提供装置から送信される情報を受信して出力する第２の受信手段とを備え、音声処理装置は、端末からの音声処理要求信号を受信する第１の受信手段と、音声処理要求信号が受信されたときに処理識別情報を生成する識別情報生成手段と、生成された処理識別情報を端末に送信する第１の送信手段と、端末からの音声情報及び処理識別情報を受信する第２の受信手段と、端末からの音声情報の音声処理を行う音声処理実行手段と、音声処理実行手段による音声処理結果及び端末からの処理識別情報を情報提供装置に送信する第２の送信手段とを備え、情報提供装置は、端末からの処理識別情報と、音声処理装置からの音声処理結果及び処理識別情報とを受信する受信手段と、音声処理装置からの処理識別情報に対応させて音声処理結果を反映した情報を生成する情報管理手段と、情報管理手段で生成された情報を端末に送信する送信手段とを備えることを特徴とする。

また、本発明に係る音声処理方法は、入力された音声情報を送信するとともに、受信した情報を出力する端末と、端末からの音声情報に基づき音声処理を行う音声処理装置と、音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を端末に送信する情報提供装置とを備える音声処理システムで用いられる音声処理方法であって、端末が、音声処理要求信号を音声処理装置に送信するステップと、音声処理装置が、端末からの音声処理要求信号の受信に応じて、音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成し、端末に送信するステップと、端末が、音声処理要求信号の応答として音声処理装置から送信される処理識別情報を受信し、処理識別情報を情報提供装置に送信するステップと、情報提供装置が、端末からの処理識別情報を受信するステップと、端末が、入力された音声情報を処理識別情報とともに音声処理装置に送信するステップと、音声処理装置が、端末からの音声情報及び処理識別情報を受信し、音声情報の音声処理を行い、得られた音声処理結果及び端末からの処理識別情報を情報提供装置に送信するステップと、情報提供装置が、音声処理装置からの音声処理結果及び処理識別情報とを受信し、処理識別情報に対応させて音声処理結果を反映した情報を生成して端末に送信するステップとを備えることを特徴とする。

また、本発明に係る音声処理サーバ装置は、クライアントからの音声処理要求信号を受信する第１の受信手段と、音声処理要求信号が受信されたときに、クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、処理識別情報をクライアントに送信する第１の送信手段と、クライアントからの音声情報及び処理識別情報を受信する第２の受信手段と、クライアントからの音声情報の音声処理を行う音声処理実行手段と、音声処理実行手段による音声処理結果及びクライアントからの処理識別情報を、処理識別情報に対応させて音声処理結果を反映した情報を生成しクライアントに送信する情報提供サーバに送信する第２の送信手段とを備えることを特徴とする。

また、本発明に係るプログラムは、上記音声処理サーバ装置を構成する各部として機能させるためのプログラムである。

本発明では、クライアント（端末）、音声処理サーバ（音声処理装置）及び情報提供サーバ（情報提供装置）が、音声情報に基づいて音声処理サーバ及び情報提供サーバで行われる一連の処理に対応する処理識別情報を共用することにより、情報提供サーバからクライアントにダウンロードされる情報と、クライアントから音声処理サーバへ送信される音声情報との関係をサーバ側で掌握することが可能となる。その結果、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた場合であっても、ユーザは、音声処理結果を反映させた適正な情報をダウンロードすることができる。

これによって、例えば、ユーザが発声した音声情報をもとに検索等の処理を行った結果を画面に表示する、又は、ユーザが発声した音声情報をもとに適切な情報をダウンロードするといった、音声処理と画面とを連動させたコンテンツの提供が可能となる。

図１は、従来のシステムの構成を示す図である。図２は、本発明の一実施例の構成を示す図である。図３は、本発明の第１の実施例の構成を示す図である。図４は、本発明の第２の実施例の構成を示す図である。図５は、本発明の第３の実施例の構成を示す図である。図６は、本発明の第１の具体例におけるクライアントの構成を示す図である。図７は、本発明の第１の具体例におけるＷｅｂサーバの構成を示す図である。図８は、本発明の第１の具体例における音声処理サーバの構成を示す図である。図９は、本発明の第２の具体例におけるクライアントの構成を示す図である。図１０は、本発明の第２の具体例におけるＷｅｂサーバの構成を示す図である。図１１は、本発明の第３の具体例における音声処理サーバの構成を示す図である。図１２は、本発明の第１の具体例の動作を説明するための図である。図１４は、本発明の第２の具体例の動作を説明するための図である。図１４は、本発明の第３の具体例の動作を説明するための図である。図１５は、本発明の第１の具体例におけるクライアントに表示される画面（ページ）の推移の一例を説明するための図である。図１６は、本発明の第１の具体例におけるクライアントに表示される画面（ページ）の推移の他の例を説明するための図である。

以下、本発明の実施例について、図面を参照しながら詳細に説明する。

図２を参照すると、本発明の実施例では、クライアント（端末）１０と、Ｗｅｂサーバ（情報提供サーバ、情報提供装置）２０と、音声処理サーバ（音声処理装置）３０とがネットワーク接続されている。クライアント１０は、音声データ入力部、及び、ブラウザ機能を具備し、ネットワークとしてＩＰ網等のパケット網４０に接続する通信機能を具備する。クライアント１０とＷｅｂサーバ２０と音声処理サーバ３０は、音声データに基づいてＷｅｂサーバ２０と音声処理サーバ３０で行われる一連の処理に対応する処理識別情報を共用する。処理識別情報としては、例えば発話処理のセッションに対応して付与されるＩＤ（「セッションＩＤ」という）、又は、クライアント１０が保持する固有ＩＤを用いることができる。このような処理識別情報を共用することで、Ｗｅｂサーバ２０からクライアント１０にダウンロードされる画面と、クライアント１０から音声処理サーバ３０に送信される音声データとの対応関係を把握可能としている。

［第１の実施例］
図３は、本発明の第１の実施例の構成を示す図であり、セッション毎に生成されるセッションＩＤを生成するセッションＩＤ生成部を、Ｗｅｂサーバ２０が具備している。

図３を参照して、本実施例の処理の手順を説明する。クライアント１０からＷｅｂサーバ２０に音声処理を使用するサービスの要求があった時点で、Ｗｅｂサーバ２０にてセッションＩＤが生成される。

生成されたセッションＩＤは、Ｗｅｂサーバ２０から画面情報を、クライアント１０がダウンロードする時点で、Ｗｅｂサーバ２０からクライアント１０に送信される。セッションＩＤの送信の仕方として、例えば、画面情報に含めて送信してもよい。

クライアント１０は、入力音声の音声情報を音声処理サーバ３０に送信する際に、Ｗｅｂサーバ２０から受信したセッションＩＤを、音声処理サーバ３０へ送信する。ＩＤの送信の仕方としては、音声情報に含めるようにしてもよいし、別途送信してもよい。

音声処理サーバ３０では、受信した音声情報をもとに、音声処理（音声認識、話者照合等）を行う。音声処理サーバ３０は、音声処理結果をＷｅｂサーバ２０に送信する時点でセッションＩＤも送信する。セッションＩＤの送信の仕方については、音声処理結果に含めるようにしてもよい。

Ｗｅｂサーバ２０ではセッションＩＤ情報により、音声処理サーバ３０での音声処理結果とサービス要求のあったクライアント１０とを関連付けることが可能となり、処理結果を反映させた画面を、クライアント１０にダウンロードさせることが可能となる。その際、Ｗｅｂサーバ２０は、発話の音声認識結果等の音声処理結果情報を含む画面（ページ）をクライアント１０に送信し、クライアント１０からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもよい。

［第２の実施例］
図４は、本発明の第２の実施例の構成を示す図であり、クライアント１０が保持するＩＤを、固有ＩＤとして用いる構成を具備している。予めクライアント１０が保持するＩＤをクライアント固有のＩＤ（固有ＩＤ）として用いる場合、又は、予めクライアント１０が保持するＩＤを用いて、クライアント固有のＩＤ（固有ＩＤ）を生成する場合の処理手順について説明する。

クライアント１０からＷｅｂサーバ２０に音声処理を使用するサービスを要求する時に、クライアント１０は予め保持するＩＤを固有ＩＤとして、Ｗｅｂサーバ２０へ通知する。あるいは、クライアント１０側でクライアント１０が予め保持するＩＤを用いて、クライアント固有のＩＤを新たに生成し、生成した固有ＩＤを、Ｗｅｂサーバ２０へ通知する。固有ＩＤの生成の仕方として、例えば、予め保持するＩＤにタイムスタンプ情報を付与するようにしてもよい。

次に、Ｗｅｂサーバ２０からクライアント１０に対して、要求のあったサービスの画面情報がダウンロードされる。

次に、Ｗｅｂサーバ２０からダウンロードされた画面がクライアント１０の画面表示部１４０に表示され、クライアント１０では、ユーザが入力し音声信号を受けて音声情報に変換し、音声処理サーバ３０へ音声情報を送信する時点で、固有ＩＤも送信する。

音声処理サーバ３０では、受信した音声情報をもとに、音声処理を行う。音声処理サーバ３０は、音声処理結果を、Ｗｅｂサーバ２０に送信する時点で、固有ＩＤもＷｅｂサーバ２０に送信する。

Ｗｅｂサーバ２０は、音声処理サーバ３０から音声処理結果と固有ＩＤを受け取る。Ｗｅｂサーバ２０では、音声処理サーバ３０からの固有ＩＤにより、音声処理結果と、サービス要求のあったクライアント１０とを関連付けることが可能となり、音声処理結果を反映させた画面情報を、クライアント１０にダウンロードさせることが可能となる。その際、Ｗｅｂサーバ２０は、発話の音声認識結果等の音声処理結果情報を含む画面（ページ）をクライアント１０に送信し、クライアント１０からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもよい。

［第３の実施例］
図５は、本発明の第３の実施例の構成を示す図であり、セッション毎に生成されるセッションＩＤを生成するセッションＩＤ生成部を、音声処理サーバ３０が具備している。図５を参照して、本実施例の処理手順について説明する。クライアント１０から音声処理サーバ３０に音声情報送信のためのアクセスが行われた時点で、音声処理サーバ３０のセッションＩＤ生成部３１にてセッションＩＤが生成され、クライアント１０に通知される。

次に、クライアント１０は、受信したセッションＩＤをＷｅｂサーバ２０に通知する。

音声処理サーバ３０では、クライアント１０から受信した音声情報をもとに、音声処理を行う。音声処理サーバ３０は、音声処理した結果を、Ｗｅｂサーバ２０に送信する時点でセッションＩＤも、Ｗｅｂサーバ２０に送信する。

Ｗｅｂサーバ２０では、セッションＩＤ情報により、音声処理結果とサービス要求のあったクライアントとを関連付けることが可能となり、処理結果を反映させた画面をクライアント１０にダウンロードさせることが可能となる。その際、Ｗｅｂサーバ２０は、発話の音声認識結果等の音声処理結果情報を含む画面（ページ）をクライアント１０に送信し、クライアント１０からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもよい。

図３に示す実施例において、Ｗｅｂサーバ２０からクライアント１０にセッションＩＤを送信する仕方として、
・画面（ＨＴＭＬ、ＸＭＬ等）内のタグ情報として埋め込むか、あるいは、
・パケットのヘッダ情報として埋め込む、
ようにしてもよい。

図３乃至図５を参照して説明した前記各実施例において、クライアント１０から音声処理サーバ３０にセッションＩＤを送信する送信方法として、
・音声情報のパケットのヘッダ情報として埋め込むか、あるいは、
・音声情報の一部として埋め込む、
ようにしてもよい。

図３乃至図５を参照して説明した前記各実施例において、音声処理サーバ３０からＷｅｂサーバ２０にセッションＩＤを送信する方法として、
・音声処理結果情報のパケットのヘッダ情報として送信するか、あるいは
・音声処理結果の一部として含める、
ようにしてもよい。
以下、具体例に即してさらに詳細に説明する。

［第１の具体例］
図２を参照して、本発明の音声処理システムの第１の具体例について説明する。クライアント１０は、ネットワーク（パケット網）４０を介して、Ｗｅｂサーバ２０と音声処理サーバ３０に接続される。クライアントとして、携帯端末、ＰＤＡ（Personal Digital Assistant）、車載端末、ＰＣ（パソコン）、ホーム端末等を挙げることができる。また、Ｗｅｂサーバ２０、音声処理サーバ３０としては、ＯＳ（オペレーティングシステム）として、ＷｉｎｄｏｗｓＸＰ（登録商標）、Ｗｉｎｄｏｗｓ２０００（登録商標）等を搭載したコンピュータや、ＯＳとしてＳｏｌａｒｉｓ（登録商標）を搭載したコンピュータを一例として挙げることができる。ネットワーク（パケット網）４０として、インターネット（有線／無線）、イントラネット等のＩＰ網が用いられる。

本具体例では、Ｗｅｂサーバ２０が、セッションＩＤを生成するセッションＩＤ生成部を有する。

図６は、本発明の第１の具体例のクライアント１０の構成を示す図である。図６を参照すると、クライアント１０は、音声入力部として機能し音声データを入力するデータ入力部１１０と、画面表示部１４０と、データ通信部１３０と、制御部１２０を備えている。

図７は、Ｗｅｂサーバ２０の構成を示す図である。図７を参照すると、Ｗｅｂサーバ２０は、データ通信部２１０と、コンテンツ管理部（情報管理手段）２２０と、セッションＩＤ生成部２３０を備えている。

図８は、音声処理サーバ３０の構成を示す図である。図８を参照すると、音声処理サーバ３０は、データ通信部３１０と、制御部３２０と、音声処理実行部３３０を備えている。

図１２は、本具体例のシーケンス動作を説明するための図である。図６乃至図８、図１２を参照して、本具体例について説明する。

クライアント１０よりＷｅｂサーバ２０へ音声処理が含まれるサービスの要求が行われる（ステップＳ１０１）。具体的には、クライアント１０に表示された画面上のボタンのクリック操作により、サービス要求信号が、Ｗｅｂサーバ２０に送信され、Ｗｅｂサーバ２０にて、サービスを実行するＣＧＩ（Common Gateway Interface）等のプログラムが起動される。

Ｗｅｂサーバ２０では、クライアント１０からのサービス要求信号を、データ通信部２１０にて受信し（ステップＳ２０１）、コンテンツ管理部２２０に送信する。

コンテンツ管理部２２０では、サービスのチェック後、サービス要求信号をセッションＩＤ生成部２３０に送信する。セッションＩＤ生成部２３０は、サービス要求信号を受信し、セッションＩＤを生成する（ステップＳ２０２）。セッションＩＤ生成の仕方として、例えば、所定の初期値からアクセス数分、カウントアップすることで、ＩＤを生成するようにしてもよい。

生成されたセッションＩＤは、コンテンツ管理部２２０に送信される。コンテンツ管理部２２０では、受信したセッションＩＤをもとに、クライアント１０にダウンロードする画面の生成を行う（ステップＳ２０３）。画面の生成の仕方としては、結果取得用のボタンのリンク先ＵＲＬ（Uniform Resource Locator）情報にセッションＩＤを含ませるようにしてもよい。

次に、Ｗｅｂサーバ２０のコンテンツ管理部２２０にて、生成された画面が、Ｗｅｂサーバ２０のデータ通信部２１０を通ってクライアントにダウンロードされる（ステップＳ２０４）。この時点で、Ｗｅｂサーバ２０から、セッションＩＤもクライアント１０に送信される。セッションＩＤの送信方法として、
・Ｗｅｂサーバ２０にて生成された画面中のタグ情報として記述するか、あるいは、
・パケットのヘッダとして記述する
ようにしてもよい。

クライアント１０においては、Ｗｅｂサーバ２０から受信した画面情報とセッションＩＤをデータ通信部１３０にて受信し（ステップＳ１０２）、クライアント１０の制御部１２０に送信する。画面情報については、制御部１２０から画面表示部１４０に送信され、表示される。クライアント１０上の画面情報には、例えばユーザによる音声入力等の選択／督促が表示される。

次に、ユーザの発声した音声は、クライアント１０のデータ入力部１１０に入力され（ステップＳ１０４）、クライアント１０内の制御部１２０に送信される。クライアント１０の制御部１２０にて、必要なデータ処理が行われる（ステップＳ１０５）。データ処理として、例えば、入力音声のデジタル化処理、音声検出処理、音声分析処理、音声圧縮処理等が行われる。音声データについては、例えば、デジタル化された音声データ、圧縮された音声データ、特徴ベクトル等が用いられる（詳細は「確率モデルによる音声認識」、中川聖一著、p.10-12、社団法人電子情報通信学会（文献３）を参照）。

このデータ処理の際に、セッションＩＤを音声データに含める処理が行われる。具体的には、
・音声データパケットのヘッダ情報として含めるか、あるいは、
・音声データの一部として含める
ようにしてもよい。

クライアント１０の制御部１２０で処理されたデータは、逐次的に、データ通信部１３０より、音声処理サーバ３０に送信される。

音声処理サーバ３０では、クライアントより逐次的に送信されたデータを、データ通信部３１０にて受信し（ステップＳ３０１）、制御部３２０にて、音声データであると判断した場合、音声処理実行部３３０に送信する。

音声処理実行部３３０では、音声処理に必要とする、いずれも図示されない、認識エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうちの少なくも１つを具備しており、逐次的に、音声処理を行う（ステップＳ３０２）。

なお、音声処理については、クライアント１０から送信されるデータの種類によって処理内容が変わる。例えば、送信されるデータが圧縮音声データである場合には、圧縮データの伸張、音声分析、マッチング処理を行う。一方、クライアント１０から特徴ベクトルが送信される場合には、マッチング処理のみを行う。

音声処理サーバ３０の音声処理実行部３３０において、音声処理を終了すると、音声処理結果は、音声処理実行部３３０から、制御部３２０を通り、データ通信部３１０に送信され、データ通信部３１０から、Ｗｅｂサーバ２０へ送信される（ステップＳ３０３）。

音声処理サーバ３０からＷｅｂサーバ２０へ送信される音声処理結果については、認識結果情報や、話者照合情報、音声（合成音声、入力音声を変換した音声等）等の少なくともいずれか１つを含む。その際、セッションＩＤも、音声処理サーバ３０から、Ｗｅｂサーバ２０へ送信される。セッションＩＤの送信方法として、
・音声処理結果送信のパケットのヘッダ情報として含めるか、あるいは、
・音声処理結果の一部として送信する
ようにしてもよい。

Ｗｅｂサーバ２０は、音声処理結果と、セッションＩＤとを、データ通信部２１０にて受信し（ステップＳ２０５）、コンテンツ管理部２２０に送信する。

コンテンツ管理部２２０では、音声処理結果に基づく結果情報（例えば音声認識結果情報、後述する図１５、図１６の画面１００３等参照）、あるいは、音声処理結果を反映させたコンテンツ情報（画面、音声、動画等）を、セッションＩＤごとに作成する（ステップＳ２０６）。

そして、Ｗｅｂサーバ２０から、サービス要求が行われたクライアント１０に、セッションＩＤごとに作成された、結果情報とコンテンツ、あるいは、コンテンツのみがダウンロードされ（ステップＳ２０７）、クライアント１０でダウンロードされた結果情報／コンテンツが受信される（ステップＳ１０６）。

具体的には、音声処理開始時に、Ｗｅｂサーバ２０からクライアント１０にダウンロードされている画面の結果取得用ボタンのリンク先ＵＲＬを、セッションＩＤが含まれたＵＲＬする。そして、コンテンツ管理部２２０によって、Ｗｅｂサーバ２０で音声処理結果を反映させたコンテンツ情報を、セッションＩＤが含まれたＵＲＬによって表される場所に配置する。これにより、ユーザが、クライアント１０の結果取得用ボタン（例えば図１５の画面１００３の「地図を表示」ボタン）を押下することにより、セッションＩＤが含まれたＵＲＬが指定され、このＵＲＬに対応するコンテンツ情報（例えば図１５の画面１００４の地図画面）が、ダウンロードされる。

本具体例は、
・クライアント１０、音声処理サーバ３０間で対話を行う場合、
・音声処理サーバ３０が、音声処理結果を利用して、検索等の処理を行う場合、
・Ｗｅｂサーバ２０が、音声処理結果を利用して、検索等の処理を行う場合
等、様々な処理に利用可能である。

なお、図１２に一例を示したクライアント１０、Ｗｅｂサーバ２０、音声処理サーバ３０の各処理は、クライアント１０、Ｗｅｂサーバ２０、音声処理サーバ３０を構成する計算機（コンピュータ）上で実行されるプログラムによりその機能を実現するようにしてもよい。また、本発明は、Ｗｅｂサーバ２０、音声処理サーバ３０を１つの計算機上に実現してもよいし、リモートのコンピュータで実現してもよい。この場合、Ｗｅｂサーバ２０、音声処理サーバ３０間のＩＤの受け渡しは、サブルーチンコールの引数としてもよい。あるいは、Ｗｅｂサーバ２０、音声処理サーバ３０間でプロセス間通信により変数の引渡しを行う場合、共通に参照される変数としてもよい。さらに、本具体例は、サーバに処理要求を行うクライアントがサーバと同一計算機上に実装されたシステムに対しても本発明を適用することができる。すなわち、複数のサーバが協調連携してクライアントの要求を遂行するための任意の管理システムに適用することができる。

［第２の具体例］
次に、本発明の第２の具体例について説明する。本具体例では、図４に示すように、予めクライアント１０が保持するＩＤを、クライアント固有のＩＤ（固有ＩＤ）として用いる場合、又は、予めクライアントが保持するＩＤを用いて、クライアント固有のＩＤ（固有ＩＤ）を生成する構成とされる。

図９は、本発明の第２の具体例のクライアント１０の構成を示す図である。図９を参照すると、クライアント１０は、音声入力部として機能し音声データを入力するデータ入力部１１０と、画面表示部１４０と、データ通信部１３０と、制御部１２０と、固有ＩＤ保持生成部（固有識別情報出力手段）１５０を備えている。

図１０は、Ｗｅｂサーバ２０の構成を示す図である。図１０を参照すると、Ｗｅｂサーバ２０は、データ通信部２１０と、コンテンツ管理部２２０とを備えている。

音声処理サーバ３０は、図８に示す構成とされ、データ通信部３１０と、制御部３２０と、音声処理実行部３３０を備えている。

図１３は、本具体例のシーケンス動作を説明するための図である。図９、図１０及び図８、図１３を参照して、本具体例について説明する。

クライアント１０からＷｅｂサーバ２０に音声処理を使用するサービスを要求する時点で、クライアント１０は、固有ＩＤ保持生成部１５０にて、クライアント１０が予め保持するＩＤを（端末識別情報）、固有ＩＤ（固有識別情報）として制御部１２０に送信する（ステップＳ１１１）。あるいは、ステップＳ１１１では、固有ＩＤ保持生成部１５０が予め保持するＩＤを用いてクライアント固有のＩＤを生成し、生成した固有ＩＤを制御部１２０へ通知する。固有ＩＤの生成の仕方として、予め保持するＩＤに、タイムスタンプ情報を付与するようにしてもよい。制御部１２０は、サービス要求とＩＤを受信し、受信した固有ＩＤを、データ通信部１３０を通じて、Ｗｅｂサーバ２０へ送信する（ステップＳ１１２）。

Ｗｅｂサーバ２０は、受信した音声処理が含まれるサービス要求信号と、固有ＩＤをデータ通信部２１０にて受信する（ステップＳ２１１）。データ通信部２１０は、コンテンツ管理部２２０に、サービス要求信号と固有ＩＤを送信する。

コンテンツ管理部２２０では、サービスのチェック後、受信した固有ＩＤをもとに、クライアント１０にダウンロードする画面（第１の情報）の生成を行う（ステップＳ２１２）。画面の生成の仕方（方法）としては、前記具体例と同様、結果取得用のボタンのリンク先ＵＲＬ（Uniform Resource Locator）情報にセッションＩＤを含ませるようにしてもよい。

次に、コンテンツ管理部２２０にて生成された画面が、データ通信部２１０を通ってクライアント１０にダウンロードされる（ステップＳ２１３）。

クライアント１０では、Ｗｅｂサーバ２０から受信した画面情報を、データ通信部１３０で受信して（ステップＳ１１３）、制御部１２０に送信する。画面情報については、制御部１２０から、画面表示部１４０に送信され、表示される（ステップＳ１１４）。

次に、ユーザの発声した音声は、クライアント１０のデータ入力部１１０に入力され（ステップＳ１１５）、制御部１２０に送信される。制御部１２０にて、前記具体例で説明したデータ処理が行われる。このデータ処理の際に、固有ＩＤを、音声データに含める処理が行われる。

処理されたデータは、逐次的に、データ通信部１３０より音声処理サーバ３０に送信される（ステップＳ１１６）。固有ＩＤを音声データに含める処理については、前記具体例と同様とされる。

音声処理サーバ３０では、クライアント１０より、逐次的に送信されたデータを、データ通信部３１０で受信し（ステップＳ３１１）、制御部３２０にて、音声データであると判断し、音声処理実行部３３０に送信する。

音声処理サーバ３０において、音声処理実行部３３０は、前記具体例と同様、音声処理（音声認識、話者照合等）に必要とする、いずれも図示されない、認識エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうち少なくとも１つを具備しており、逐次的に音声処理を行う（ステップＳ３１２）。音声処理終了後、音声処理結果は、音声処理実行部３３０から制御部３２０を通り、データ通信部３１０に送信され、データ通信部３１０から、Ｗｅｂサーバ２０へ送信される（ステップＳ３１３）。この時点で、固有ＩＤも、音声処理サーバ３０から、Ｗｅｂサーバ２０へ送信される。送信方法については、前記具体例と同様とされる。

Ｗｅｂサーバ２０は、音声処理サーバ３０から送信された音声処理結果と固有ＩＤを、データ通信部２１０にて受信し（ステップＳ２１４）、コンテンツ管理部２２０に送信する。

Ｗｅｂサーバ２０のコンテンツ管理部２２０では、固有ＩＤに対応させて、音声処理結果を反映させた情報（第２の情報：音声処理結果情報と該音声処理結果に対応するコンテンツ情報、又は該音声処理結果に対応するコンテンツ情報）を、用意する（ステップＳ２１５）。なお、Ｗｅｂサーバ２０のコンテンツ管理部２２０では、クライアントの固有ＩＤから、音声処理結果を反映させた情報の送信先のクライアント１０を判別できる。

そして、Ｗｅｂサーバ２０は、サービス要求が行われたクライアント１０に、固有ＩＤごとに作成された、結果情報（例えば図１５の画面１００３の音声認識結果画面）とコンテンツ（例えば図１５の画面１００４の地図画面）がダウンロードされるか、あるいは、コンテンツ（例えば図１５の画面１００４の地図画面）のみがダウンロードされ（ステップＳ２１６）、クライアント１０がダウンロードされた情報を受信し（ステップＳ１１７）、クライアント１０の画面に表示される。作成されたコンテンツ情報のダウンロード方法については、前記具体例と同様とされる。

本具体例は、
・クライアント１０、音声処理サーバ３０間で対話を行う場合、
・音声処理サーバ３０が処理結果を利用して検索等の処理を行う場合、
・Ｗｅｂサーバ２０が、音声処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。

なお、図１３に一例を示したクライアント１０、Ｗｅｂサーバ２０、音声処理サーバ３０の各処理は、クライアント１０、Ｗｅｂサーバ２０、音声処理サーバ３０を構成する計算機（コンピュータ）上で実行されるプログラムによりその機能を実現するようにしてもよい。

［第３の具体例］
次に、本発明の第３の具体例について説明する。本具体例は、セッションＩＤを生成する処理部を音声処理サーバ３０が具備している。図１１は、音声処理サーバ３０の構成を示す図である。図１１を参照すると、本具体例の音声処理サーバ３０は、図８に示した音声処理サーバ３０にセッションＩＤ生成部３４０が追加されている。なお、本具体例のクライアント１０は、図６に示す構成とされ、Ｗｅｂサーバ２０は図１０に示す構成とされる。以下、本具体例の動作について説明する。

図１４は、本具体例のシーケンス動作を説明するための図である。図６、図１０、図１１、図１４を参照して、本具体例について説明する。

クライアント１０よりＷｅｂサーバ２０へ音声処理が含まれるサービスの要求が行われる（ステップＳ１２１）。

Ｗｅｂサーバ２０側は、サービス要求信号をデータ通信部２１０にて受信し（ステップＳ２２１）、コンテンツ管理部２２０に送信する。コンテンツ管理部２２０では、サービス要求信号を受信し、サービスのチェック後、要求されたサービスの画面を生成し（ステップＳ２２２）、データ通信部２１０を通じてクライアント１０へ送信（ダウンロード）する（ステップＳ２２３）。

次に、クライアント１０は、Ｗｅｂサーバ２０からの画面情報を受信し（ステップＳ１２２）、さらに音声情報を音声処理サーバ３０へ送信するために音声処理サーバ３０に音声処理要求信号を送信する（ステップＳ１２３）。

音声処理サーバ３０では、データ通信部３１０にて、音声処理要求信号を受信し（ステップＳ３２１）、制御部３２０に送信する。制御部３２０は、音声処理要求信号をセッションＩＤ生成部３４０に送信する。

音声処理サーバ３０のセッションＩＤ生成部３４０は、セッションＩＤ要求信号を受信し、セッションＩＤを生成する。セッションＩＤ生成の仕方は、前記具体例で説明したものと同様とされる。

音声処理サーバ３０のセッションＩＤ生成部３４０によって生成されたセッションＩＤは、音声処理サーバ３０のセッションＩＤ生成部３４０から制御部３２０を通り、データ通信部３１０に送信される。

音声処理サーバ３０のデータ通信部３１０は、クライアント１０へセッションＩＤを送信する（ステップＳ３２２）。

クライアント１０は、音声処理サーバ３０からセッションＩＤを受信し（ステップＳ１２４）、セッションＩＤをデータ通信部１３０を通じて、制御部１２０に送信する。

次に、クライアント１０のデータ通信部１３０を通じて、セッションＩＤを、Ｗｅｂサーバ２０へ送信する（ステップＳ１２５）。

Ｗｅｂサーバ２０では、データ通信部２１０にてセッションＩＤを受信し（ステップＳ２２４）、コンテンツ管理部２２０に送信して管理する。

クライアント１０では、クライアント１０からＷｅｂサーバ２０にセッションＩＤを通知した後、ユーザの発声した音声がデータ入力部１１０に入力され（ステップＳ１２６）、制御部１２０に送信される。制御部１２０にて、前記した具体例と同様のデータ処理が行われる。このデータ処理の際に、セッションＩＤを、音声データに含めるようにしてもよい。

処理されたデータは、逐次的に、クライアント１０のデータ通信部１３０より、音声処理サーバ３０に送信される（ステップＳ１２７）。

音声処理サーバ３０では、クライアント１０より、逐次的に送信されたデータを、データ通信部３１０にて受信し（ステップＳ３２３）、制御部３２０にて、音声データであると判断し、音声処理実行部３３０に送信する。

音声処理実行部３３０は、前記具体例と同様、音声処理（音声認識、話者照合等）に必要な認識エンジン、いずれも図示されない、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等の機能の少なくとも１つを具備しており、逐次的に、音声処理を行う（ステップＳ３２４）。音声処理終了後、音声処理結果は、音声処理実行部３３０から制御部３２０を通り、データ通信部３１０に送信され、データ通信部３１０からＷｅｂサーバ２０へ送信される（ステップＳ３２５）。音声処理結果については、前記具体例と同様とされる。この時点で、セッションＩＤも音声処理サーバ３０からＷｅｂサーバ２０へ送信される。セッションＩＤの送信も、前記具体例と同様とされる。

Ｗｅｂサーバ２０は、音声処理結果とセッションＩＤをデータ通信部２１０にて受信し（ステップＳ２２５）、コンテンツ管理部２２０に送信する。音声処理結果については、前記具体例と同様の内容とされる。この時点で、セッションＩＤも音声処理サーバ３０から、前記具体例と同様、Ｗｅｂサーバ２０へ送信される。Ｗｅｂサーバ２０は、音声処理結果とセッションＩＤをデータ通信部２１０にて受信し、コンテンツ管理部２２０に送信する。

Ｗｅｂサーバ２０のコンテンツ管理部２２０は、セッションＩＤに対応した音声処理結果を反映させた情報（音声処理結果情報と該音声処理結果に対応するコンテンツ情報、又は該音声処理結果に対応するコンテンツ情報）をセッションＩＤごとに作成する（ステップＳ２２６）。

そして、Ｗｅｂサーバ２０は、サービス要求が行われたクライアントにセッションＩＤごとに作成された結果情報（例えば図１５の画面１００３の音声認識結果画面）とコンテンツ（例えば図１５の画面１００４の地図画面）がダウンロードされるか、あるいは、コンテンツ（例えば図１５の画面１００４の地図画面）のみがダウンロードされ（ステップＳ２２６）、クライアント１０はＷｅｂサーバ２０からのダウンロードされた情報を受信する。

作成されたコンテンツ情報のダウンロードの方法として、音声処理開始時にクライアント１０にダウンロードされている画面の結果取得用ボタンのリンク先ＵＲＬを、クライアント１０が音声処理サーバ３０から通知されたセッションＩＤが含まれたＵＲＬとするような処理を、クライアント１０側で実行し、Ｗｅｂサーバ２０で、音声処理結果を反映させたコンテンツ情報を、セッションＩＤが含まれたＵＲＬに配置することで、ユーザが、クライアント画面の結果取得用ボタン（例えば図１５の画面１００３の「地図を表示」ボタン）を押下した際に、音声処理結果を反映させたコンテンツ情報をクライアント１０にダウンロードするようにしてもよい。

本具体例においても、前記各具体例と同様に、
・クライアント１０、音声処理サーバ３０間で対話を行う場合、
・音声処理サーバ３０が処理結果を利用して検索等の処理を行う場合、
・Ｗｅｂサーバ２０が処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。

なお、図１４に一例を示したクライアント１０、Ｗｅｂサーバ２０、音声処理サーバ３０の各処理は、クライアント１０、Ｗｅｂサーバ２０、音声処理サーバ３０を構成する計算機（コンピュータ）上で実行されるプログラムにより、その機能を実現するようにしてもよい。

［操作画面］
次に、本発明を適用した具体例としてクライアント１０での操作画面の一例について説明する。図１５は、図１２を参照してシーケンス動作を説明した本発明の第１の具体例におけるクライアント１０の画面表示部１４０に表示される画面（ページ）の推移の一例を例示した図である。以下、図１５及び図１２を参照して、本発明の第１の具体例におけるクライアント１０の画面表示について説明する。

＜画面１００１＞
画面１００１は、Ｗｅｂサーバ２０からダウンロードした画面（「地図検索」のトップページ）であり、「音声入力」ボタン１０１１には、ＣＧＩ（例えば、http://….jp/a.cgi）がリンクされいる。ユーザが、画面上に表示される「音声入力」ボタン１０１１をクリックしてサービス要求を行う（図１２のステップＳ１０１に対応する）。すると、Ｗｅｂサーバ２０では、”a.cgi”というプロセス（ＣＧＩプログラム）が起動され、入力された情報が引き渡される。ＣＧＩプログラムの処理結果を基に、Ｗｅｂサーバ２０でＨＴＭＬを作成し、クライアント１０に応答として返す。

＜画面１００２＞
「音声入力」画面１００２が表示され、『検索したい地図の住所を「東京都港区三田」のように発声してください。』と表示される（図１２のステップＳ１０２〜Ｓ１０４に対応する）。ＩＤは、画面中タグとして埋め込まれる。この画面１００２の状態で、ユーザは、音声入力（発話）を行う。画面上で「結果を表示」ボタン１０１２には、ＩＤごとに生成されたページ(http://…/b.ID.html）がリンクされている。画面上でユーザが「結果を表示」ボタン１０１２をクリックすると、次の画面１００３のように、音声処理サーバ３０で音声認識された認識結果が表示される。なお、画面１００３の認識結果画面は、Ｗｅｂサーバ２０からクライアント１０にダウンロードされたものを表示したものである。

＜画面１００３＞
クライアント１０に「認識結果」画面１００３が表示され、『結果は、「東京都港区三田」ですね？』と表示され、画面上には「地図を表示」ボタン１０１３が表示される。

＜画面１００４＞
ユーザが画面上で「地図を表示」ボタン１０１３をクリックすることで、Ｗｅｂサーバ２０からコンテンツ情報がダウンロードされ（図１２のステップ１０６に対応する）、地図画面（ページ）１００４が表示される。

なお、本具体例では、画面１００３の認識結果画面を表示せずに、画面１００２の結果、画面１００４を直接表示するようにしてもよい。すなわち、音声処理サーバ３０による音声認識結果の画面１００３をＩＤごとに作成しているが、画面１００２の「結果を表示」ボタン１０１２のクリックにより、音声認識結果を反映した画面１００４を直接表示する構成としてもよい（この場合、図１５の画面１００３は省略される）。

なお、図１５及び以下に説明する図１６には、音声入力による地図案内システムの画面の一例が示されているが、本発明は、かかるシステムに限定されるものでないことは勿論であり、任意の発話管理に適用できる。

図１６は、図１５の変形例を示す図である。図１６に示す画面１００２ａでは、図１５の画面１００２の「結果を表示」ボタン１０１２が表示されない。図１６に示す例では、画面１００２ａにおける音声入力の結果、図１５の画面１００２のように、画面上で「結果を表示」ボタン１００２ａをクリックすることなく、認識結果画面１００３が表示され、ユーザが「地図を表示」ボタン１０１３をクリックすると、画面１００４の地図が表示される。あるいは、画面１００３を表示せず、画面１００２ａにおける音声入力の結果、直接、画面１００４の地図が表示される。

Ｗｅｂサーバ２０は、ＩＤごとに画面が準備できた際に（図１２のステップＳ２０６）、画面のＵＲＬ情報をクライアント１０に送信し、クライアント１０においては、受信したＵＲＬ情報を自動的にアクセスすることで、図１５、図１６に示した画面１００３、１００４が表示される。

次に、本発明の具体例において、ユーザがクライアント１０上で連続して発声する場合について処理の流れを説明する。連続して発声する場合の一例として、図１５あるいは図１６の画面１００４に、「音声再入力」というボタンを作成しておくようにしてもよい。画面１００４の「音声再入力」ボタンに、ＷｅｂサーバのＣＧＩのＵＲＬをリンクさせておくことで、画面１００４上でユーザが「音声再入力」ボタンをクリックした時に、あらたにＩＤが作成され、図１５の画面１００２又は図１６の画面１００２ａが表示され、再度音声入力が可能となる。
あるいは別の例としては、図１５又は図１６の画面１００４に、「ＴＯＰページ」へというボタンを作成しておく。ユーザが、画面１００４上で「ＴＯＰページ」をクリックすることで、図１５又は図１６の画面１００１のページに戻るため、再度「音声入力」のプロセスが可能となる。

なお、クライアント１０とＷｅｂサーバ２０、音声処理サーバ３０間で転送されるセキュリティＩＤ、固有ＩＤの機密保持等のセキュリティ対策として、必要に応じて、パスワード、暗号化（公開鍵暗号化方式）等の対策を行ってもよいことは勿論である。

以上、本発明を上記具体例に即して説明したが、本発明は、上記具体例の構成にのみ限定されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

本発明によれば、クライアントに画面を表示させ、音声にて要求を行い、結果を画面に表示させるようなサービス提供システムに適用可能である。具体的には、
・音声で住所を発声して地図を表示させるサービス、
・音声で検索したい文章を発声してマニュアルを表示するようなサービス、
・音声で曲名を発声して曲をダウンロードするサービス
等に適用して好適とされる。

さらに、本発明は、パケット網を通してデータを送受信することが可能であるため、クライアントとしては、携帯電話端末だけでなく、携帯情報端末（ＰＤＡ）、ＰＣ、車載端末、ホーム端末等を用いることができる。

Claims

入力された音声情報を送信するとともに、受信した情報を出力する端末と、
前記端末からの音声情報に基づき音声処理を行う音声処理装置と、
前記音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を前記端末に送信する情報提供装置とを備え、
前記端末は、
音声処理要求信号を前記音声処理装置に送信する第１の送信手段と、
前記音声処理要求信号の応答として前記音声処理装置から送信される、前記音声情報に基づいて行われる一連の処理に対応する処理識別情報を受信する第１の受信手段と、
受信された前記処理識別情報を前記情報提供装置に送信する第２の送信手段と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理装置に送信する第３の送信手段と、
前記情報提供装置から送信される前記情報を受信して出力する第２の受信手段とを備え、
前記音声処理装置は、
前記端末からの前記音声処理要求信号を受信する第１の受信手段と、
前記音声処理要求信号が受信されたときに前記処理識別情報を生成する識別情報生成手段と、
生成された前記処理識別情報を前記端末に送信する第１の送信手段と、
前記端末からの前記音声情報及び前記処理識別情報を受信する第２の受信手段と、
前記端末からの前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果及び前記端末からの前記処理識別情報を前記情報提供装置に送信する第２の送信手段とを備え、
前記情報提供装置は、
前記端末からの前記処理識別情報と、前記音声処理装置からの前記音声処理結果及び前記処理識別情報とを受信する受信手段と、
前記音声処理装置からの前記処理識別情報に対応させて前記音声処理結果を反映した前記情報を生成する情報管理手段と、
前記情報管理手段で生成された前記情報を前記端末に送信する送信手段とを備える
ことを特徴とする音声処理システム。
請求項１に記載の音声処理システムにおいて、
前記端末は、
サービス要求時、サービス要求信号を前記情報提供装置に送信する第４の送信手段と、
前記情報提供装置からの提示情報を受信して出力する第３の受信手段とをさらに備え、
前記情報提供装置の前記受信手段は、前記端末からの前記サービス要求信号を受信し、
前記情報提供装置の前記情報管理手段は、前記端末からの前記サービス要求信号に基づき前記端末に提示する前記提示情報を生成し、
前記情報提供装置の前記送信手段は、前記サービス要求信号に基づき生成された前記提示情報を前記端末に送信する
ことを特徴とする音声処理システム。
入力された音声情報を送信するとともに、受信した情報を出力する端末と、前記端末からの音声情報に基づき音声処理を行う音声処理装置と、前記音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を前記端末に送信する情報提供装置とを備える音声処理システムで用いられる音声処理方法であって、
前記端末が、音声処理要求信号を前記音声処理装置に送信するステップと、
前記音声処理装置が、前記端末からの前記音声処理要求信号の受信に応じて、前記音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成し、前記端末に送信するステップと、
前記端末が、前記音声処理要求信号の応答として前記音声処理装置から送信される前記処理識別情報を受信し、前記処理識別情報を前記情報提供装置に送信するステップと、
前記情報提供装置が、前記端末からの前記処理識別情報を受信するステップと、
前記端末が、入力された前記音声情報を前記処理識別情報とともに前記音声処理装置に送信するステップと、
前記音声処理装置が、前記端末からの前記音声情報及び前記処理識別情報を受信し、前記音声情報の音声処理を行い、得られた前記音声処理結果及び前記端末からの前記処理識別情報を前記情報提供装置に送信するステップと、
前記情報提供装置が、前記音声処理装置からの前記音声処理結果及び前記処理識別情報とを受信し、前記処理識別情報に対応させて前記音声処理結果を反映した前記情報を生成して前記端末に送信するステップと
を備えることを特徴とする音声処理方法。
請求項３に記載の音声処理方法において、
前記端末が、サービス要求時、サービス要求信号を前記情報提供装置に送信するステップと、
前記情報提供装置が、前記端末からの前記サービス要求信号の受信に応じて、前記サービス要求信号に基づき前記端末に提示する提示情報を生成して前記端末に送信するステップと、
前記端末が、前記情報提供装置からの前記提示情報を受信して出力するステップと
をさらに備えることを特徴とする音声処理方法。
クライアントからの音声処理要求信号を受信する第１の受信手段と、
前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、
前記処理識別情報を前記クライアントに送信する第１の送信手段と、
前記クライアントからの前記音声情報及び前記処理識別情報を受信する第２の受信手段と、
前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成し前記クライアントに送信する情報提供サーバに送信する第２の送信手段と
を備えることを特徴とする音声処理サーバ装置。
コンピュータを、請求項５に記載の音声処理サーバ装置を構成する各部として機能させるためのプログラム。