JP3862470B2

JP3862470B2 - データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体

Info

Publication number: JP3862470B2
Application number: JP2000099418A
Authority: JP
Inventors: 史朗伊藤; 憲一藤井; 隆也上田; 裕治池田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2000-03-31
Filing date: 2000-03-31
Publication date: 2006-12-27
Anticipated expiration: 2020-03-31
Also published as: DE60123153D1; US7251602B2; EP1139335B1; DE60123153T2; JP2001282503A; US20010049604A1; EP1139335A2; EP1139335A3

Description

【０００１】
【発明の属する技術分野】
本発明は、ネットワークを介してサーバとクライアントとの間で行われる情報の入出力を、クライアント側において音声により実現するブラウザシステム等に関する。
【０００２】
【従来の技術】
音声入出力機能を有する従来のボイスブラウザシステムとしては、例えば特開平１０−１２４２９３で提案されている音声司令可能なコンピュータのように、クライアント側で音声合成と音声認識を行なうものがある。しかし、この構成のボイスブラウザシステムでは、クライアントが携帯端末のような計算資源の少ないハードウェアで実現される場合に、クライアントでの処理負荷が資源に対して過大すぎるという問題があった。
【０００３】
そこで、例えば、特開平１１−１１０１８６で提案されているブラウザシステム又は音声プロキシサーバのように、クライアントを実現するハードウェアとは異なるハードウェアで音声合成や認識を行なうボイスブラウザシステムが考案されている。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記従来例のボイスブラウザシステムでは、ＨＴＭＬ言語等のマークアップ言語により記述されたデータを表示するブラウザプロセスと、音声合成や音声認識による音声の出力や入力を行なうプロセスとが別個であるため、音声合成や音声認識を行なうハードウェアとクライアントを実現するハードウェアとの間で、ＨＴＴＰ等により実現されるＨＴＭＬ言語等のデータ送受の通信とは別に、音声出力および音声入力データの送受の通信を行なわなければならない。
【０００５】
そのため、複雑な通信制御や各プロセス間の同期を取る制御などが必要となり、ボイスブラウザシステムの構築が難しくなるという問題があった。さらに、クライアントとサーバとの間で、ＨＴＴＰ以外の通信を許さないファイアーウォールが設けられることも多く、こうした場合に他の通信ができずボイスブラウザシステムの構築が困難になるという問題点もあった。
【０００６】
従って、本発明の目的は、ネットワーク上で提供されるデータの表示と、該データに対する音声の出力又は入力と、を共通の通信処理の中で処理し得るデータ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体を提供することにある。
【０００７】
【課題を解決するための手段】
本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置であって、前記データを受信する手段と、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備えたことを特徴とするデータ処理装置が提供される。
【０００８】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置であって、前記データを受信する手段と、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備えたことを特徴とするデータ処理装置が提供される。
【０００９】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備え、
前記ブラウザ装置は、前記識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段を備えたことを特徴とするブラウザシステムが提供される。
【００１０】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置が、前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置が、音声を入力する手段と、入力された音声に基づいて音声データを作成する手段と、作成した音声データを前記識別子が示す受付先へ供給する手段と、を備えたことを特徴とするブラウザシステムが提供される。
【００１１】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供すると共に、前記サーバにより提供されるデータに対して、前記ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す第１の識別子を付加したデータを作成する手段と、前記第１の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す第２の識別子を付加したデータを作成する手段と、前記第２の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置は、前記第１の識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段と、音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、作成した音声データを前記第２の識別子が示す受付先へ供給する手段と、を備えたことを特徴とするブラウザシステムが提供される。
【００１２】
また、本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理方法であって、前記データを受信する工程と、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する工程と、作成した音声データを格納する工程と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する工程と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、を含むことを特徴とするデータ処理方法が提供される。
【００１３】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理方法であって、前記データを受信する工程と、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する工程と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する工程と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、を含むことを特徴とするデータ処理方法が提供される。
【００１４】
また、本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するために、コンピュータを、前記データを受信する手段、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段、作成した音声データを格納する手段、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、として機能させるプログラムを記録した記録媒体が提供される。
【００１５】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するために、コンピュータを、前記データを受信する手段、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、として機能させるプログラムを記録した記録媒体が提供される。
【００１７】
また、本発明によれば、サーバ及びブラウザ装置とネットワークを介して通信可能なデータ処理装置であって、前記サーバより提供されるデータに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記提供されるデータに、前記音声データを格納した場所を示す第１の識別子を付加する手段と、前記提供されるデータの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記返答を要求する内容がある場合に、前記第１の識別子を付加したデータに返答の受付先を示す第２の識別子を更に付加する手段と、前記第１の識別子、或いは、前記第１及び第２の識別子、を付加したデータを前記ブラウザ装置に対して提供する手段と、前記ブラウザ装置から前記受付先へ前記返答に係る音声データが供給された場合に、当該音声データに対して音声認識を行う認識手段と、前記認識手段の認識結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とするデータ処理装置が提供される。
【００１８】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施の形態について説明する。
【００１９】
図１は、本発明の一実施形態に係るボイスブラウザシステムの構成図である。
【００２０】
ボイスブラウザシステムは、ネットワーク１０４により相互に接続された、ブラウザ装置としてのクライアントコンピュータ１０１と、クライアントコンピュータ１０１に対して情報を提供するサーバコンピュータ１０３と、サーバコンピュータ１０３により提供される情報を音声データとしてクライアントコンピュータ１０１に提供し、また、クライアントコンピュータ１０１からサーバコンピュータ１０３に対して行われる要求又は返答を音声データにより実現するボイスゲートウェイコンピュータ１０２と、により構成される。
【００２１】
クライアントコンピュータ１０１、ボイスゲートウェイコンピュータ１０２、サーバコンピューター１０３は、いずれも通信デバイスを備えており、ネットワーク１０４を介してＴＣＰ／ＩＰプロトコルにより実現されるＨＴＴＰを互いに送受信できる。
【００２２】
ここで、サーバコンピュータ１０３としては、従来のＷｅｂサーバと呼ばれるコンピュータ、すなわちＨＴＴＰリクエストに対して、そのＵＲＬに合致するデータをＨＴＴＰレスポンスとして返すＷｅｂサーバプログラムを実行するコンピュータを採用することができる。
【００２３】
また、ネットワーク１０４としては、例えば、インターネットあるいはイントラネットを挙げることができる。
【００２４】
このボイスブラウザシステムにおいて、クライアントコンピュータ１０１とサーバコンピュータ１０３との間における通信は、ボイスゲートウェイコンピュータ１０２を介して行うことができる。
【００２５】
この場合、クライアントコンピュータ１０１からサーバコンピュータ１０３への要求、返答等をＨＴＴＰリクエストといい、特に、クライアントコンピュータ１０１からボイスゲートウエイコンピュータ１０２への要求、返信等をクライアント側ＨＴＴＰリクエストとも称し、これに対応するボイスゲートウェイコンピュータ１０２からサーバコンピュータ１０３への要求、返答等をサーバ側ＨＴＴＰリクエストとも称す。
【００２６】
また、ＨＴＴＰリクエストに対するサーバコンピュータ１０３からクライアントコンピュータ１０３への情報の提供等をＨＴＴＰレスポンスといい、特に、ボイスゲートウェイコンピュータ１０２に対する返答をサーバ側ＨＴＴＰレスポンスとも称し、これに対応するボイスゲートウェイコンピュータ１０２からクライアントコンピュータ１０１に対する返答をクライアント側ＨＴＴＰレスポンスとも称す。
【００２７】
次に、クライアントコンピュータ１０１とボイスゲートウェイコンピュータ１０２について詳細に説明する。
【００２８】
クライアントコンピュータ１０１は、ディスプレイ、キーボードやマウスなどの入力デバイス、及び、スピーカやマイクロホン等の音声入出力デバイス、を備えており、サーバコンピュータ１０３により提供されるＨＴＭＬ言語で記述されたデータの表示、及び、該データの内容を示すボイスゲートウエイコンピュータ１０２からの音声データの音声出力、並びに、音声データを含むクライアント側ＨＴＴＰリクエストの作成、若しくは、文字入力を可能とするコンピュータである。
【００２９】
図２は、ブラウザ装置として機能するクライアントコンピュータ１０１の基本構成を示すブロック図である。
【００３０】
図２において、２０１は、ＨＴＴＰレスポンスを受信するレスポンス受信部である。２０２は、レスポンス受信部で受信されたＨＴＴＰレスポンスに含まれるＨＴＭＬデータを解析するＨＴＭＬデータ解析部である。２０３は、ＨＴＭＬデータ解析部２０２で解析された結果に従ってデータを表示するＨＴＭＬ表示部である。
【００３１】
２０４は、ＨＴＭＬデータ解析部２０２で解析された結果に従って音声データが含まれる場合はその音声出力を行なう音声出力部である。２０５は、ユーザからのキーボード等の入力デバイスからの入力を受け付ける直接入力部である。２０７は、音声入力を受け付ける音声入力部である。
【００３２】
２０６は、サーバコンピュータ１０３から提供され、ＨＴＭＬ表示部２０３で表示される情報に対する指示操作を受け付ける指示要求入力部である。２０８は、直接入力部２０５への入力、指示要求入力部２０６への入力、音声入力部２０７への入力のいずれかあるいはその組み合わせからＨＴＴＰリクエストを作成するリクエスト作成部である。２０９は、リクエスト作成部で作成されたＨＴＴＰリクエストを送信するリクエスト送信部である。
【００３３】
一方、ボイスゲートウエイコンピュータ１０２は、クライアントコンピュータ１０１から送信されたクライアント側ＨＴＴＰリクエストに音声データが含まれる場合はそれを音声認識し、認識結果に基づいてサーバ側ＨＴＴＰリクエストを作成して送信し、また、ＨＴＴＰリクエストに対するサーバコンピュータ１０３によるサーバ側ＨＴＴＰレスポンスに含まれるＨＴＭＬデータから、クライアントコンピュータ１０１で音声出力すべき音声データを作成し、ＨＴＭＬデータと共にその音声データをクライアントコンピュータ１０１へ提供するデータ処理装置として機能する。
【００３４】
図５は、ボイスゲートウェイコンピュータ１０２の基本構成を示すブロック図である。
【００３５】
図５において、５０１はクライアントコンピュータ１０１から送信されるクライアント側ＨＴＴＰリクエストを受信するリクエスト受信部である。５０２は、リクエスト受信部５０１で受信されたクライアント側ＨＴＴＰリクエストに音声データが含まれる場合に、それを音声認識する音声認識部である。
【００３６】
５０３は、音声認識部５０２の認識結果に基づいて、音声データを含むクライアント側ＨＴＴＰリクエストを、サーバコンピュータ１０３に適応した形式のサーバ側ＨＴＴＰリクエストにデータ変換するリクエスト変換部である。
【００３７】
５０４は、サーバ側ＨＴＴＰリクエストをサーバコンピュータ１０３に送信するリクエスト送信部であり、対応するクライアント側ＨＴＴＰリクエストが音声データを含む場合は、リクエスト変換部５０３で変換されたものを、音声データを含まない場合は、リクエスト受信部５０１で受信されたものを、それぞれサーバコンピュータ１０３に送信する。
【００３８】
５０５は、リクエスト送信部５０４が送信したサーバ側ＨＴＴＰリクエストに対するサーバ側ＨＴＴＰレスポンスを受信するレスポンス受信部である。５０６は、レスポンス受信部５０５で受信されたサーバ側ＨＴＴＰレスポンスに含まれるＨＴＭＬデータを解析するＨＴＭＬデータ解析部である。
【００３９】
５０７は、ＨＴＭＬデータ解析部５０６で解析された結果を用いて音声出力すべき音声データを作成する音声合成部である。５０８は、ＨＴＭＬデータ解析部５０６で解析された結果を用いて、次に受け付ける音声入力候補とその入力があった場合に作成すべきリクエストを作成する入力候補作成部である。すなわち、入力候補作成部５０８は、サーバコンピュータ１０３がクライアントコンピュータ１０１に提供した情報の中に、クライアントコンピュータ１０１からの返答を要求する内容があるか否かを判定し、該内容があればその候補を作成する。
【００４０】
５０９は、入力候補作成部５０８で作成された入力候補から音声認識部５０２が使用する音声認識文法を作成する認識文法作成部である。５１０は、認識文法作成部５０９で作成された認識文法を保持する認識文法保持部である。
【００４１】
５１１は、入力侯補作成部５０８で作成された入力候補とその入力候補に対応する音声入力があったときに作成すべきＨＴＴＰリクエストの対を保持する次リクエスト保持部である。
【００４２】
５１２は、音声合成部５０７で作成された音声データを保持する音声データ保持部である。５１３は、音声データ保持部５１２に保持されている音声データを取得するＵＲＬと、次の音声認識処理を起動するＵＲＬとを、レスポンス受信部５０５で受信されたレスポンスデータに含まれるＨＴＭＬデータに埋め込むＨＴＭＬデータ変換部である。
【００４３】
５１４は、ＨＴＭＬデータ変換部で作成されたＨＴＭＬデータをクライアントコンピュータ１０１へのクライアント側ＨＴＴＰレスポンスとして返すレスポンス送信部である。５１５は、リクエスト受信部５０１で受信したクライアント側ＨＴＴＰリクエストが、音声データ保持部５１２に保持されている音声データの要求であった場合に、その音声データをクライアントコンピュータ１０１へのクライアント側ＨＴＴＰレスポンスとして返す音声データ返信部である。
【００４４】
次に、図３は、クライアント側ＨＴＴＰレスポンスに含まれるＨＴＭＬデータの例である。本実施形態では、マークアップ言語としてＨＴＭＬ４．０として定義されているＨＴＭＬ言語仕様に加えて、VOICEOUT，VOICEINの二つの拡張タグを使用している。
【００４５】
ここで、VOICEOUTは、音声合成部５０７で作成された音声データの格納場所、すなわち、音声データ保持部５１２を示す識別子としてのタグである。
【００４６】
また、VOICEINは、クライアントコンピュータ１０１からのＨＴＴＰリクエストが音声データを含む場合に、その受付先、リクエスト受信部５０１を示す識別子としてのタグである。
【００４７】
VOICEOUTが出現した場合、クライアントコンピュータ１０１は、その属性で指定されるＵＲＬにある音声データを、別のＨＴＴＰリクエストを発行して取得し、取得した音声データをスピーカー等の音声出力デバイスから出力する。
【００４８】
また、VOICEINタグは、クライアントコンピュータ１０１のマイクロホン等の音声入力デバイスに音声入力があった場合に作成するＨＴＴＰリクエストのベースとなるベースＵＲＬを指定する。
【００４９】
この例を用いて、クライアントコンピュータ１０１における処理を説明する。
【００５０】
レスポンス受信部２０１は、何らかのＨＴＴＰリクエストに対するＨＴＴＰレスポンスとして、図３に示したＨＴＭＬデータを含むＨＴＴＰレスポンスを受信する。受信の手順は、従来のブラウザ装置と同様である。
【００５１】
ＨＴＭＬデータ解析部２０２は、一般的なＨＴＭＬデータの解析を行うが、特に、VOICEOUT，VOICEINタグについても動作に必要なデータを抽出する点だけが異なる。ＨＴＭＬ表示部２０３は、従来のブラウザ装置と同様にＨＴＭＬデータに基づき情報を表示する。
【００５２】
音声出力部２０４は、VOICEOUTタグが解析された場合に、その属性で示されるＵＲＬで示す音声データを要求するＨＴＴＰリクエストを送信し、ボイスゲートコンピュータ１０３からの対応するＨＴＴＰレスポンスのボディに含まれる音声データを取得する。
【００５３】
そして、取得した音声データをスピーカー等の音声出力デバイスにより出力する。
【００５４】
一方、音声入力部２０７は、マイクロホン等の音声入力デバイスに入力があると、それをＡ／Ｄ変換して例えばＰＣＭデータ等の音声データを作成する。この場合、ＰＣＭデータの始点と終点を定めるタイミングは、音声入力のパワーが閾値を越えている間を取るとか、何らかのキーが押下されている間を取るといった方法で定められる。
【００５５】
リクエスト作成部２０８は、音声入力部２０７に入力があった場合は、ＨＴＭＬデータ解析部２０２が解析した結果のうちで、VOICEINタグの属性として示されるＵＲＬへのＰＯＳＴリクエストを作成する。そして、そのボディに音声入力部２０７が作成したＰＣＭデータを入れる。図３の例で示すＨＴＭＬデータを出力している状態のクライアントコンピュータ１０１に、音声入力があった場合のＨＴＴＰリクエストは図４のように作成される。リクエスト送信部２０９は、リクエスト作成部２０８で作成されたＨＴＴＰリクエストを、そのＵＲＬが示すコンピュータ、すなわちボイスゲートウェイコンピュータ１０２へ送信する。
【００５６】
次に、図６に示すフローチャートを用いてボイスゲートウェイコンピュータ１０２における処理の概要を説明する。
【００５７】
処理のメインルーチンでは、ＨＴＴＰを受けるポート（通常８０番ポートが使用されるがこの限りではない）への接続要求を待ち受けている。クライアントコンピュータ１０１から接続要求があると接続を確立する。そして、ここで説明する処理に移る。本実施形態では、説明を簡単にするため、待ち受け処理と同一の単一スレッドで処理を実現する場合で説明するが、マルチスレッドで実現してもよい。なお、本処理が終了すると、再びポートの接続要求待ち処理に戻る。
【００５８】
まず、ステップＳ６０１では、クライアントコンピュータ１０１からのＨＴＴＰリクエストを受信する。そして、ステップＳ６０２に移る。
【００５９】
ステップＳ６０２では、ＨＴＴＰリクエストデータ中のＵＲＬを取り出し、それがボイスゲートウェイコンピュータ１０２の“/out.wav”を指すものであればステップＳ６１３に移る。指すものでなければステップＳ６０３に移る。
【００６０】
ステップＳ６０３では、前記ＵＲＬがボイスゲートウェイコンピュータ１０２の“/voicein”を指すものであればステップＳ６０４に移る。指すものでなければステップＳ６０６に移る。
【００６１】
ステップＳ６０４では、ＨＴＴＰリクエストのボディを取り出し、それを音声データとして音声認識を行なう。この時に認識文法保持部５１０に保持されている認識文法が使用される。そしてステップＳ６０５に移る。
【００６２】
ステップＳ６０５では、ステップＳ６０４で認識された結果に対する次ＨＴＴＰリクエストを次リクエスト保持部５１１から取り出す。そしてステップＳ６０７に移る。
【００６３】
ステップＳ６０６では、クライアントコンピュータ１０１から送られてきたＨＴＴＰリクエストのＵＲＬをそのまま次ＨＴＴＰリクエストとする。そしてステップＳ６０７に移る。
【００６４】
ステップＳ６０７では、次ＨＴＴＰリクエストのＵＲＬ中のホスト部が示すサーバ（サーバコンピュータ１０３）に次ＨＴＴＰリクエストを送信し、ＨＴＴＰレスポンスを得る。この動作は、従来のプロキシ装置と同じである。そして、ステップＳ６０８に移る。なお、図７は、ＨＴＴＰレスポンスのデータの例を示す図である。
【００６５】
ステップＳ６０８では、ステップＳ６０７で受領したＨＴＴＰレスポンス（サーバ側ＨＴＴＰレスポンス）のボディにあるＨＴＭＬデータを解析する。解析することで、ＨＴＭＬデータ中の各タグの木構造とタグの要素を取り出すことができるようになる。そして、ステップＳ６０９に移る。
【００６６】
ステップＳ６０９では、ステップＳ６０８の解析結果を用いて、クライアントコンピュータ１０１で音声出力すべき音声データを作成する。ＨＴＭＬデータ中の一部あるいは全部のテキストを音声合成して音声データを作成する。どのテキストを音声合成するかは任意に定めることができ、ここでは簡単に最初のＰタグ要素を音声合成するとして説明を続ける。図７のデータ例では、「製品の種類を選択して下さい。」という合成音声データが作成される。合成音声データは、ＷＡＶＥフォーマットのファイルとして、“/out.wav”で参照される場所に格納する。そして、ステップＳ６１０に移る。
【００６７】
ステップＳ６１０では、当該ＨＴＭＬデータと音声データとをクライアントコンピュータ１０１へ出力した後、その内容によりクライアントコンピュータ１０１から受け付ける返答の音声入力候補を作成する。どのような音声入力を受理するかは、任意に定めることができるが、ここでは簡単にSELECTタグ中の各OPTIONタグの要素を入力候補とする。図７の例では、「コピー」，「プリンタ」，「Ｆａｘ」が入力候補となる。
【００６８】
そして、入力候補の各単語を認識する認識文法を作成する。さらに、各要素が音声入力された時の次ＨＴＴＰリクエストとして、対応するSELECTタグが選択されてフォームがサブミットされた時に生成されるリクエストＵＲＬを作成し、それを次リクエスト保持部５１１に保持する。
【００６９】
図８は、図７のデータを処理した場合の、次リクエスト保持部５１１のデータ構成例を示した図である。同図において、各行が一つの入力候補に対応する。列８０１には、入力候補の文字列が保持される。列８０２には、次ＨＴＴＰリクエストのＵＲＬが保持される。そして、ステップＳ６１１に移る。
【００７０】
ステップＳ６１１では、当該ＨＴＭＬデータ中に、VOICEOUTタグとVOICEINタグとを埋め込む。本実施形態では、それぞれのＵＲＬは固定であるので、常に同じタグパターンが埋め込まれることとなる。そして、タグを埋め込んだＨＴＭＬデータをクライアント側レスポンスとして、ステップＳ６１３に移る。
【００７１】
ステップＳ６１２では、一つ前の処理のステップＳ６０９で格納した音声データに係るクライアント側レスポンスを作成し、ステップＳ６１３に移る。
【００７２】
ステップＳ６１３では、作成したクライアント側ＨＴＴＰレスポンスをクライアントコンピュータ１０１に提供する。そして、クライアントコンピュータ１０１との接続を切断し処理を終了する。
【００７３】
最後に、図９を用いて本実施形態における各コンピュータ間での通信例を示す。
【００７４】
始めに、クライアントコンピュータ１０１（ブラウザ）にＵＲＬが直接入力され、ボイスゲートウェイコンピュータ１０２にhttp://server/index.htmlを要求するクライアント側ＨＴＴＰリクエストが送られる（９０１）。なお、ＵＲＬの直接入力ではなく、同ＵＲＬをアンカーに持つオブジェクトをブラウザ表示画面上で指示することで、そのＵＲＬを要求するＨＴＴＰリクエストが送られる場合もある。この送信については、従来のブラウザ装置と同様である。
【００７５】
次に、ボイスゲートウェイコンピュータ１０２は、サーバ１０３のＵＲＬに対するＨＴＴＰリクエストなので、従来のプロキシ装置と同様に、サーバ１０３に対し/index.htmlを要求する新たなサーバ側ＨＴＴＰリクエストを送る（９０２）。
【００７６】
サーバ１０３は、/index.htmlで指示されるデータをボディに含むサーバ側ＨＴＴＰレスポンスをボイスゲートウェイコンピュータ１０２に返す（９０３）。例えば、図７がこのＨＴＴＰレスポンスの例である。
【００７７】
ボイスゲートウェイコンピュータ１０２は、受信したサーバ側ＨＴＴＰレスポンスをもとに音声データや入力候補などを作成し、新たなタグを埋め込んだＨＴＭＬデータ（例えば図４）をボディに合むクライアント側ＨＴＴＰレスポンスをクライアントコンピュータ１０１に返す（９０４）。
【００７８】
クライアントコンピュータ１０１では、受信したクライアント側ＨＴＴＰレスポンスのボディに入っているＨＴＭＬデータを表示すると共に、VOICEOUTタグで指示される音声データ（図４の例ではhttp://gateway/out.wav）を要求するクライアント側ＨＴＴＰリクエストをボイスゲートウェイコンピュータ１０２に送る（９０５）。
【００７９】
ボイスゲートウェイコンピュータ１０２は、out.wavで指示される音声データをクライアントコンピュータ１０１に返信する（９０６）。この音声データは、クライアント側ＨＴＴＰレスポンス（９０４）を提供する前に作成、格納されたデータである。
【００８０】
ここで、クライアントコンピュータ１０１に音声入力があると、その音声データをボディに合むクライアント側ＨＴＴＰリクエスト（ＰＯＳＴリクエスト）がクライアントコンピュータ１０１からボイスゲートウェイコンピュータ１０２に送られる（９０７）。例えば、図３に示したデータが送られる。
【００８１】
ボイスゲートウェイコンピュータ１０２は、受信したＰＯＳＴリクエストのボディに含まれる音声データに対して音声認識を行なう。ここで、例えば「コピー」と認識されると、次リクエスト保持部５１１の内容に従い、この例では、サーバ１０３に対して、/cgi1?category=copyを要求するサーバ側ＨＴＴＰリクエストを送る（９０８）。この時に使用される認識文法や次リクエスト保持部５１１の内容は、先のレスポンス（９０４）を提供する前に作成されたものである。
【００８２】
サーバ１０３は、受信したサーバ側ＨＴＴＰリクエストに従い、ＣＧＩプログラムを起動して、ボイスゲートウェイコンピュータ１０２にサーバ側ＨＴＴＰレスポンスを返す（９０９）。
【００８３】
ボイスゲートウェイコンピュータ１０２は、レスポンス９０３を受信したときと同様に、新たに音声データや認識文法を作成して、クライアント側ＨＴＴＰレスポンスをクライアントコンピュータ１０１に返す（９１０）。
【００８４】
このように、本実施形態のボイスブラウザシステムでは、ブラウザ（クライアントコンピュータ１０１）、ボイスゲートウェイ（ボイスゲートウェイコンピュータ１０２）、サーバ（サーバ１０３）しか存在せず、これらの間の通信だけでよいので、サーバから提供されるデータの表示と、該データに対応した音声入出力とを共通の通信処理の中で行うことができ、通信管理が簡単になる。また、全ての通信はＨＴＴＰで行うことができるので、一般的にＨＴＴＰだけを通すファイアーウォールが間にある場合でも、問題なく通信が行なえる。
【００８５】
なお、上記実施形態においては、クライアントコンピュータ、ボイスゲートウェイコンピュータ、サーバコンピュータの三つのコンピューターで、それぞれブラウザ、ボイスゲートウェイ、サーバを実現する場合について説明したが、これに限定されるものではなく、例えば一つのコンピューターでボイスゲートウェイとサーバの両方を実現してもよい。
【００８６】
また、上記実施形態においては、ネットワークに接続されているブラウザ装置、ボイスゲートウェイ装置、サーバ装置が各々１台である場合について説明したが、これに限定されるものではなく、各々複数台あり、要求するデータに応じて任意の装置を利用してもよい。
【００８７】
また、上記実施形態においては、ボイスゲートウェイコンピュータ１０２において、識別子としてVOICEOUTタグとVOICEINタグとをそれぞれ一つずつ付け加える場合について説明したが、これに限定されるものではなく、複数付けてもよい。また、どちらか一方あるいは双方を付けなくてもよい。VOICEOUTを複数にする場合は、音声データを指示するＵＲＬをそれぞれ別のものにすることとなる。また、VOICEINを複数にする場合は、認識文法や次ＨＴＴＰリクエストデータを複数用意し、VOICEINの属性で指示するＵＲＬをそれぞれ別のものにすることとなる。そして、ブラウザからボイスゲートウェイに、それらのＵＲＬで音声データを含むリクエストが送られてきた場合は、用意した複数の認識文法や次ＨＴＴＰリクエストデータをＵＲＬで判別して使用する。
【００８８】
また、上記実施形態においては、合成音声データをＷＡＶＥフォーマットで、入力音声データを生のＰＣＭデータで受け渡す場合について説明したが、これに限定されるものではなく、任意の音声フォーマットを使用してもよい。複数の音声フォーマットを許す場合には、音声フォーマットを示すデータを、タグの属性やＨＴＴＰヘッダに記すこととなる。
【００８９】
また、上記実施形態において使用したタグ名や属性名は、これらに限定されるものではなく、別の名称を用いてもよい。また、属性で表現したものを別のタグにする、あるいはタグで表現したものをＨＴＴＰヘッダで表現するというように、ＨＴＴＰとＨＴＭＬの任意の拡張で実現してもよい。
【００９０】
また、データ及びプログラムは、ＨＴＭＬとＨＴＴＰに限定されるものではなく、別のマークアップ言語で記述されるデータや別のプロトコルでもよい。例えば、ＷＡＰプロトコルでＷＭＬで記述されたデータに同様の音声の埋め込み、認識を行ってもよい。
【００９１】
また、上記実施形態は、前述した機能を実現するソウトウェアプログラムを動作させる他、その機能の全部または一部を実現する論理回路により達成されることは言うまでもない。
【００９２】
以上、本発明の好適な実施の形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体（または記録媒体）を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはCPUやMPU）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９３】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【００９４】
【発明の効果】
以上説明したように、ネットワーク上で提供されるデータの表示と、該データに対する音声の出力又は入力と、を共通の通信処理の中で処理することができる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係るボイスブラウザシステムの構成図である。
【図２】クライアントコンピュータ１０１の基本構成を示すブロック図である。
【図３】クライアント側ＨＴＴＰレスポンスデータの例を示す図である。
【図４】クライアント側ＨＴＴＰリクエストデータの例を示す図である。
【図５】ボイスゲートウェイコンピュータ１０２の基本構成を示すブロック図である。
【図６】ボイスゲートウェイコンピュータ１０２における処理を示すフローチャートである。
【図７】ＨＴＴＰレスポンスのデータの例を示す図である。
【図８】図７のデータを処理した場合の、次リクエスト保持部５１１のデータ構成例を示した図である。
【図９】本発明の実施形態における各コンピュータ間の例を示す図である。

Claims

ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置であって、
前記データを受信する手段と、
受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
を備えたことを特徴とするデータ処理装置。
ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置であって、
前記データを受信する手段と、
受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
を備えたことを特徴とするデータ処理装置。
前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段を備えたことを特徴とする請求項２に記載のデータ処理装置。
前記認識手段の結果に基づいて、前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とする請求項３に記載のデータ処理装置。
前記返答が、予め定められた複数の項目から選択すべきものである場合に、
各々の前記項目に係る音声データを認識するための認識文法を作成する手段と、
前記認識文法に基づいて、前記ブラウザ装置からの前記返答に係る音声データが、いずれの前記項目に相当するかを判定する手段と、
各々の前記項目に対応して前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とする請求項２に記載のデータ処理装置。
前記返答データは、前記識別子を付加したデータを前記ブラウザ装置に対して提供する前に作成されることを特徴とする請求項５に記載のデータ処理装置。
ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、
前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備え、
前記ブラウザ装置は、前記識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段を備えたことを特徴とするブラウザシステム。
ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置が、
前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、
前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置が、
音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、
作成した音声データを前記識別子が示す受付先へ供給する手段と、
を備えたことを特徴とするブラウザシステム。
ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供すると共に、前記サーバにより提供されるデータに対して、前記ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、
前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記データに、前記音声データを格納した場所を示す第１の識別子を付加したデータを作成する手段と、
前記第１の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す第２の識別子を付加したデータを作成する手段と、
前記第２の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、
前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置は、
前記第１の識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段と、
音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、
作成した音声データを前記第２の識別子が示す受付先へ供給する手段と、
を備えたことを特徴とするブラウザシステム。
ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理方法であって、
前記データを受信する工程と、
受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する工程と、
作成した音声データを格納する工程と、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する工程と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、
を含むことを特徴とするデータ処理方法。
ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理方法であって、
前記データを受信する工程と、
受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する工程と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する工程と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、
を含むことを特徴とするデータ処理方法。
前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識工程を含むことを特徴とする請求項１１に記載のデータ処理方法。
前記認識工程の結果に基づいて、前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する工程と、
前記返答データを前記サーバに提供する工程と、
を含むことを特徴とする請求項１２に記載のデータ処理方法。
前記返答が、予め定められた複数の項目から選択すべきものである場合に、
各々の前記項目に係る音声データを認識するための認識文法を作成する工程と、
前記認識文法に基づいて、前記ブラウザ装置からの前記返答に係る音声データが、いずれの前記項目に相当するかを判定する工程と、
各々の前記項目に対応して前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する工程と、
前記返答データを前記サーバに提供する工程と、
を含むことを特徴とする請求項１１に記載のデータ処理方法。
前記返答データは、前記識別子を付加したデータを前記ブラウザ装置に対して提供する前に作成されることを特徴とする請求項１４に記載のデータ処理方法。
ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するために、コンピュータを、
前記データを受信する手段、
受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段、
作成した音声データを格納する手段、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、
として機能させるプログラムを記録した記録媒体。
ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するために、コンピュータを、
前記データを受信する手段、
受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、
として機能させるプログラムを記録した記録媒体。
前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項１乃至６のいずれかに記載のデータ処理装置。
前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項７乃至９のいずれかに記載のブラウザシステム。
前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項１０乃至１５のいずれかに記載のデータ処理方法。
前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項１６又は１７に記載の記録媒体。
サーバ及びブラウザ装置とネットワークを介して通信可能なデータ処理装置であって、
前記サーバより提供されるデータに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記提供されるデータに、前記音声データを格納した場所を示す第１の識別子を付加する手段と、
前記提供されるデータの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記返答を要求する内容がある場合に、前記第１の識別子を付加したデータに返答の受付先を示す第２の識別子を更に付加する手段と、
前記第１の識別子、或いは、前記第１及び第２の識別子、を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記ブラウザ装置から前記受付先へ前記返答に係る音声データが供給された場合に、当該音声データに対して音声認識を行う認識手段と、
前記認識手段の認識結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とするデータ処理装置。