JP3862470B2 - データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 - Google Patents

データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 Download PDF

Info

Publication number
JP3862470B2
JP3862470B2 JP2000099418A JP2000099418A JP3862470B2 JP 3862470 B2 JP3862470 B2 JP 3862470B2 JP 2000099418 A JP2000099418 A JP 2000099418A JP 2000099418 A JP2000099418 A JP 2000099418A JP 3862470 B2 JP3862470 B2 JP 3862470B2
Authority
JP
Japan
Prior art keywords
data
voice
browser device
response
browser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2000099418A
Other languages
English (en)
Other versions
JP2001282503A (ja
Inventor
史朗 伊藤
憲一 藤井
隆也 上田
裕治 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2000099418A priority Critical patent/JP3862470B2/ja
Priority to US09/817,345 priority patent/US7251602B2/en
Priority to EP01302942A priority patent/EP1139335B1/en
Priority to DE60123153T priority patent/DE60123153T2/de
Publication of JP2001282503A publication Critical patent/JP2001282503A/ja
Application granted granted Critical
Publication of JP3862470B2 publication Critical patent/JP3862470B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/561Adding application-functional data or data for application control, e.g. adding metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/289Intermediate processing functionally located close to the data consumer application, e.g. in same machine, in same home or in same sub-network

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、ネットワークを介してサーバとクライアントとの間で行われる情報の入出力を、クライアント側において音声により実現するブラウザシステム等に関する。
【0002】
【従来の技術】
音声入出力機能を有する従来のボイスブラウザシステムとしては、例えば特開平10−124293で提案されている音声司令可能なコンピュータのように、クライアント側で音声合成と音声認識を行なうものがある。しかし、この構成のボイスブラウザシステムでは、クライアントが携帯端末のような計算資源の少ないハードウェアで実現される場合に、クライアントでの処理負荷が資源に対して過大すぎるという問題があった。
【0003】
そこで、例えば、特開平11−110186で提案されているブラウザシステム又は音声プロキシサーバのように、クライアントを実現するハードウェアとは異なるハードウェアで音声合成や認識を行なうボイスブラウザシステムが考案されている。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来例のボイスブラウザシステムでは、HTML言語等のマークアップ言語により記述されたデータを表示するブラウザプロセスと、音声合成や音声認識による音声の出力や入力を行なうプロセスとが別個であるため、音声合成や音声認識を行なうハードウェアとクライアントを実現するハードウェアとの間で、HTTP等により実現されるHTML言語等のデータ送受の通信とは別に、音声出力および音声入力データの送受の通信を行なわなければならない。
【0005】
そのため、複雑な通信制御や各プロセス間の同期を取る制御などが必要となり、ボイスブラウザシステムの構築が難しくなるという問題があった。さらに、クライアントとサーバとの間で、HTTP以外の通信を許さないファイアーウォールが設けられることも多く、こうした場合に他の通信ができずボイスブラウザシステムの構築が困難になるという問題点もあった。
【0006】
従って、本発明の目的は、ネットワーク上で提供されるデータの表示と、該データに対する音声の出力又は入力と、を共通の通信処理の中で処理し得るデータ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置であって、前記データを受信する手段と、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備えたことを特徴とするデータ処理装置が提供される。
【0008】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置であって、前記データを受信する手段と、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備えたことを特徴とするデータ処理装置が提供される。
【0009】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備え、
前記ブラウザ装置は、前記識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段を備えたことを特徴とするブラウザシステムが提供される。
【0010】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置が、前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置が、音声を入力する手段と、入力された音声に基づいて音声データを作成する手段と、作成した音声データを前記識別子が示す受付先へ供給する手段と、を備えたことを特徴とするブラウザシステムが提供される。
【0011】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供すると共に、前記サーバにより提供されるデータに対して、前記ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す第1の識別子を付加したデータを作成する手段と、前記第1の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す第2の識別子を付加したデータを作成する手段と、前記第2の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置は、前記第1の識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段と、音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、作成した音声データを前記第2の識別子が示す受付先へ供給する手段と、を備えたことを特徴とするブラウザシステムが提供される。
【0012】
また、本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理方法であって、前記データを受信する工程と、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する工程と、作成した音声データを格納する工程と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する工程と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、を含むことを特徴とするデータ処理方法が提供される。
【0013】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理方法であって、前記データを受信する工程と、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する工程と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する工程と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、を含むことを特徴とするデータ処理方法が提供される。
【0014】
また、本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するために、コンピュータを、前記データを受信する手段、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段、作成した音声データを格納する手段、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、として機能させるプログラムを記録した記録媒体が提供される。
【0015】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するために、コンピュータを、前記データを受信する手段、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、として機能させるプログラムを記録した記録媒体が提供される。
【0017】
また、本発明によれば、サーバ及びブラウザ装置とネットワークを介して通信可能なデータ処理装置であって、前記サーバより提供されるデータに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記提供されるデータに、前記音声データを格納した場所を示す第1の識別子を付加する手段と、前記提供されるデータの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記返答を要求する内容がある場合に、前記第1の識別子を付加したデータに返答の受付先を示す第2の識別子を更に付加する手段と、前記第1の識別子、或いは、前記第1及び第2の識別子、を付加したデータを前記ブラウザ装置に対して提供する手段と、前記ブラウザ装置から前記受付先へ前記返答に係る音声データが供給された場合に、当該音声データに対して音声認識を行う認識手段と、前記認識手段の認識結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とするデータ処理装置が提供される。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施の形態について説明する。
【0019】
図1は、本発明の一実施形態に係るボイスブラウザシステムの構成図である。
【0020】
ボイスブラウザシステムは、ネットワーク104により相互に接続された、ブラウザ装置としてのクライアントコンピュータ101と、クライアントコンピュータ101に対して情報を提供するサーバコンピュータ103と、サーバコンピュータ103により提供される情報を音声データとしてクライアントコンピュータ101に提供し、また、クライアントコンピュータ101からサーバコンピュータ103に対して行われる要求又は返答を音声データにより実現するボイスゲートウェイコンピュータ102と、により構成される。
【0021】
クライアントコンピュータ101、ボイスゲートウェイコンピュータ102、サーバコンピューター103は、いずれも通信デバイスを備えており、ネットワーク104を介してTCP/IPプロトコルにより実現されるHTTPを互いに送受信できる。
【0022】
ここで、サーバコンピュータ103としては、従来のWebサーバと呼ばれるコンピュータ、すなわちHTTPリクエストに対して、そのURLに合致するデータをHTTPレスポンスとして返すWebサーバプログラムを実行するコンピュータを採用することができる。
【0023】
また、ネットワーク104としては、例えば、インターネットあるいはイントラネットを挙げることができる。
【0024】
このボイスブラウザシステムにおいて、クライアントコンピュータ101とサーバコンピュータ103との間における通信は、ボイスゲートウェイコンピュータ102を介して行うことができる。
【0025】
この場合、クライアントコンピュータ101からサーバコンピュータ103への要求、返答等をHTTPリクエストといい、特に、クライアントコンピュータ101からボイスゲートウエイコンピュータ102への要求、返信等をクライアント側HTTPリクエストとも称し、これに対応するボイスゲートウェイコンピュータ102からサーバコンピュータ103への要求、返答等をサーバ側HTTPリクエストとも称す。
【0026】
また、HTTPリクエストに対するサーバコンピュータ103からクライアントコンピュータ103への情報の提供等をHTTPレスポンスといい、特に、ボイスゲートウェイコンピュータ102に対する返答をサーバ側HTTPレスポンスとも称し、これに対応するボイスゲートウェイコンピュータ102からクライアントコンピュータ101に対する返答をクライアント側HTTPレスポンスとも称す。
【0027】
次に、クライアントコンピュータ101とボイスゲートウェイコンピュータ102について詳細に説明する。
【0028】
クライアントコンピュータ101は、ディスプレイ、キーボードやマウスなどの入力デバイス、及び、スピーカやマイクロホン等の音声入出力デバイス、を備えており、サーバコンピュータ103により提供されるHTML言語で記述されたデータの表示、及び、該データの内容を示すボイスゲートウエイコンピュータ102からの音声データの音声出力、並びに、音声データを含むクライアント側HTTPリクエストの作成、若しくは、文字入力を可能とするコンピュータである。
【0029】
図2は、ブラウザ装置として機能するクライアントコンピュータ101の基本構成を示すブロック図である。
【0030】
図2において、201は、HTTPレスポンスを受信するレスポンス受信部である。202は、レスポンス受信部で受信されたHTTPレスポンスに含まれるHTMLデータを解析するHTMLデータ解析部である。203は、HTMLデータ解析部202で解析された結果に従ってデータを表示するHTML表示部である。
【0031】
204は、HTMLデータ解析部202で解析された結果に従って音声データが含まれる場合はその音声出力を行なう音声出力部である。205は、ユーザからのキーボード等の入力デバイスからの入力を受け付ける直接入力部である。207は、音声入力を受け付ける音声入力部である。
【0032】
206は、サーバコンピュータ103から提供され、HTML表示部203で表示される情報に対する指示操作を受け付ける指示要求入力部である。208は、直接入力部205への入力、指示要求入力部206への入力、音声入力部207への入力のいずれかあるいはその組み合わせからHTTPリクエストを作成するリクエスト作成部である。209は、リクエスト作成部で作成されたHTTPリクエストを送信するリクエスト送信部である。
【0033】
一方、ボイスゲートウエイコンピュータ102は、クライアントコンピュータ101から送信されたクライアント側HTTPリクエストに音声データが含まれる場合はそれを音声認識し、認識結果に基づいてサーバ側HTTPリクエストを作成して送信し、また、HTTPリクエストに対するサーバコンピュータ103によるサーバ側HTTPレスポンスに含まれるHTMLデータから、クライアントコンピュータ101で音声出力すべき音声データを作成し、HTMLデータと共にその音声データをクライアントコンピュータ101へ提供するデータ処理装置として機能する。
【0034】
図5は、ボイスゲートウェイコンピュータ102の基本構成を示すブロック図である。
【0035】
図5において、501はクライアントコンピュータ101から送信されるクライアント側HTTPリクエストを受信するリクエスト受信部である。502は、リクエスト受信部501で受信されたクライアント側HTTPリクエストに音声データが含まれる場合に、それを音声認識する音声認識部である。
【0036】
503は、音声認識部502の認識結果に基づいて、音声データを含むクライアント側HTTPリクエストを、サーバコンピュータ103に適応した形式のサーバ側HTTPリクエストにデータ変換するリクエスト変換部である。
【0037】
504は、サーバ側HTTPリクエストをサーバコンピュータ103に送信するリクエスト送信部であり、対応するクライアント側HTTPリクエストが音声データを含む場合は、リクエスト変換部503で変換されたものを、音声データを含まない場合は、リクエスト受信部501で受信されたものを、それぞれサーバコンピュータ103に送信する。
【0038】
505は、リクエスト送信部504が送信したサーバ側HTTPリクエストに対するサーバ側HTTPレスポンスを受信するレスポンス受信部である。506は、レスポンス受信部505で受信されたサーバ側HTTPレスポンスに含まれるHTMLデータを解析するHTMLデータ解析部である。
【0039】
507は、HTMLデータ解析部506で解析された結果を用いて音声出力すべき音声データを作成する音声合成部である。508は、HTMLデータ解析部506で解析された結果を用いて、次に受け付ける音声入力候補とその入力があった場合に作成すべきリクエストを作成する入力候補作成部である。すなわち、入力候補作成部508は、サーバコンピュータ103がクライアントコンピュータ101に提供した情報の中に、クライアントコンピュータ101からの返答を要求する内容があるか否かを判定し、該内容があればその候補を作成する。
【0040】
509は、入力候補作成部508で作成された入力候補から音声認識部502が使用する音声認識文法を作成する認識文法作成部である。510は、認識文法作成部509で作成された認識文法を保持する認識文法保持部である。
【0041】
511は、入力侯補作成部508で作成された入力候補とその入力候補に対応する音声入力があったときに作成すべきHTTPリクエストの対を保持する次リクエスト保持部である。
【0042】
512は、音声合成部507で作成された音声データを保持する音声データ保持部である。513は、音声データ保持部512に保持されている音声データを取得するURLと、次の音声認識処理を起動するURLとを、レスポンス受信部505で受信されたレスポンスデータに含まれるHTMLデータに埋め込むHTMLデータ変換部である。
【0043】
514は、HTMLデータ変換部で作成されたHTMLデータをクライアントコンピュータ101へのクライアント側HTTPレスポンスとして返すレスポンス送信部である。515は、リクエスト受信部501で受信したクライアント側HTTPリクエストが、音声データ保持部512に保持されている音声データの要求であった場合に、その音声データをクライアントコンピュータ101へのクライアント側HTTPレスポンスとして返す音声データ返信部である。
【0044】
次に、図3は、クライアント側HTTPレスポンスに含まれるHTMLデータの例である。本実施形態では、マークアップ言語としてHTML4.0として定義されているHTML言語仕様に加えて、VOICEOUT,VOICEINの二つの拡張タグを使用している。
【0045】
ここで、VOICEOUTは、音声合成部507で作成された音声データの格納場所、すなわち、音声データ保持部512を示す識別子としてのタグである。
【0046】
また、VOICEINは、クライアントコンピュータ101からのHTTPリクエストが音声データを含む場合に、その受付先、リクエスト受信部501を示す識別子としてのタグである。
【0047】
VOICEOUTが出現した場合、クライアントコンピュータ101は、その属性で指定されるURLにある音声データを、別のHTTPリクエストを発行して取得し、取得した音声データをスピーカー等の音声出力デバイスから出力する。
【0048】
また、VOICEINタグは、クライアントコンピュータ101のマイクロホン等の音声入力デバイスに音声入力があった場合に作成するHTTPリクエストのベースとなるベースURLを指定する。
【0049】
この例を用いて、クライアントコンピュータ101における処理を説明する。
【0050】
レスポンス受信部201は、何らかのHTTPリクエストに対するHTTPレスポンスとして、図3に示したHTMLデータを含むHTTPレスポンスを受信する。受信の手順は、従来のブラウザ装置と同様である。
【0051】
HTMLデータ解析部202は、一般的なHTMLデータの解析を行うが、特に、VOICEOUT,VOICEINタグについても動作に必要なデータを抽出する点だけが異なる。HTML表示部203は、従来のブラウザ装置と同様にHTMLデータに基づき情報を表示する。
【0052】
音声出力部204は、VOICEOUTタグが解析された場合に、その属性で示されるURLで示す音声データを要求するHTTPリクエストを送信し、ボイスゲートコンピュータ103からの対応するHTTPレスポンスのボディに含まれる音声データを取得する。
【0053】
そして、取得した音声データをスピーカー等の音声出力デバイスにより出力する。
【0054】
一方、音声入力部207は、マイクロホン等の音声入力デバイスに入力があると、それをA/D変換して例えばPCMデータ等の音声データを作成する。この場合、PCMデータの始点と終点を定めるタイミングは、音声入力のパワーが閾値を越えている間を取るとか、何らかのキーが押下されている間を取るといった方法で定められる。
【0055】
リクエスト作成部208は、音声入力部207に入力があった場合は、HTMLデータ解析部202が解析した結果のうちで、VOICEINタグの属性として示されるURLへのPOSTリクエストを作成する。そして、そのボディに音声入力部207が作成したPCMデータを入れる。図3の例で示すHTMLデータを出力している状態のクライアントコンピュータ101に、音声入力があった場合のHTTPリクエストは図4のように作成される。リクエスト送信部209は、リクエスト作成部208で作成されたHTTPリクエストを、そのURLが示すコンピュータ、すなわちボイスゲートウェイコンピュータ102へ送信する。
【0056】
次に、図6に示すフローチャートを用いてボイスゲートウェイコンピュータ102における処理の概要を説明する。
【0057】
処理のメインルーチンでは、HTTPを受けるポート(通常80番ポートが使用されるがこの限りではない)への接続要求を待ち受けている。クライアントコンピュータ101から接続要求があると接続を確立する。そして、ここで説明する処理に移る。本実施形態では、説明を簡単にするため、待ち受け処理と同一の単一スレッドで処理を実現する場合で説明するが、マルチスレッドで実現してもよい。なお、本処理が終了すると、再びポートの接続要求待ち処理に戻る。
【0058】
まず、ステップS601では、クライアントコンピュータ101からのHTTPリクエストを受信する。そして、ステップS602に移る。
【0059】
ステップS602では、HTTPリクエストデータ中のURLを取り出し、それがボイスゲートウェイコンピュータ102の“/out.wav”を指すものであればステップS613に移る。指すものでなければステップS603に移る。
【0060】
ステップS603では、前記URLがボイスゲートウェイコンピュータ102の“/voicein”を指すものであればステップS604に移る。指すものでなければステップS606に移る。
【0061】
ステップS604では、HTTPリクエストのボディを取り出し、それを音声データとして音声認識を行なう。この時に認識文法保持部510に保持されている認識文法が使用される。そしてステップS605に移る。
【0062】
ステップS605では、ステップS604で認識された結果に対する次HTTPリクエストを次リクエスト保持部511から取り出す。そしてステップS607に移る。
【0063】
ステップS606では、クライアントコンピュータ101から送られてきたHTTPリクエストのURLをそのまま次HTTPリクエストとする。そしてステップS607に移る。
【0064】
ステップS607では、次HTTPリクエストのURL中のホスト部が示すサーバ(サーバコンピュータ103)に次HTTPリクエストを送信し、HTTPレスポンスを得る。この動作は、従来のプロキシ装置と同じである。そして、ステップS608に移る。なお、図7は、HTTPレスポンスのデータの例を示す図である。
【0065】
ステップS608では、ステップS607で受領したHTTPレスポンス(サーバ側HTTPレスポンス)のボディにあるHTMLデータを解析する。解析することで、HTMLデータ中の各タグの木構造とタグの要素を取り出すことができるようになる。そして、ステップS609に移る。
【0066】
ステップS609では、ステップS608の解析結果を用いて、クライアントコンピュータ101で音声出力すべき音声データを作成する。HTMLデータ中の一部あるいは全部のテキストを音声合成して音声データを作成する。どのテキストを音声合成するかは任意に定めることができ、ここでは簡単に最初のPタグ要素を音声合成するとして説明を続ける。図7のデータ例では、「製品の種類を選択して下さい。」という合成音声データが作成される。合成音声データは、WAVEフォーマットのファイルとして、“/out.wav”で参照される場所に格納する。そして、ステップS610に移る。
【0067】
ステップS610では、当該HTMLデータと音声データとをクライアントコンピュータ101へ出力した後、その内容によりクライアントコンピュータ101から受け付ける返答の音声入力候補を作成する。どのような音声入力を受理するかは、任意に定めることができるが、ここでは簡単にSELECTタグ中の各OPTIONタグの要素を入力候補とする。図7の例では、「コピー」,「プリンタ」,「Fax」が入力候補となる。
【0068】
そして、入力候補の各単語を認識する認識文法を作成する。さらに、各要素が音声入力された時の次HTTPリクエストとして、対応するSELECTタグが選択されてフォームがサブミットされた時に生成されるリクエストURLを作成し、それを次リクエスト保持部511に保持する。
【0069】
図8は、図7のデータを処理した場合の、次リクエスト保持部511のデータ構成例を示した図である。同図において、各行が一つの入力候補に対応する。列801には、入力候補の文字列が保持される。列802には、次HTTPリクエストのURLが保持される。そして、ステップS611に移る。
【0070】
ステップS611では、当該HTMLデータ中に、VOICEOUTタグとVOICEINタグとを埋め込む。本実施形態では、それぞれのURLは固定であるので、常に同じタグパターンが埋め込まれることとなる。そして、タグを埋め込んだHTMLデータをクライアント側レスポンスとして、ステップS613に移る。
【0071】
ステップS612では、一つ前の処理のステップS609で格納した音声データに係るクライアント側レスポンスを作成し、ステップS613に移る。
【0072】
ステップS613では、作成したクライアント側HTTPレスポンスをクライアントコンピュータ101に提供する。そして、クライアントコンピュータ101との接続を切断し処理を終了する。
【0073】
最後に、図9を用いて本実施形態における各コンピュータ間での通信例を示す。
【0074】
始めに、クライアントコンピュータ101(ブラウザ)にURLが直接入力され、ボイスゲートウェイコンピュータ102にhttp://server/index.htmlを要求するクライアント側HTTPリクエストが送られる(901)。なお、URLの直接入力ではなく、同URLをアンカーに持つオブジェクトをブラウザ表示画面上で指示することで、そのURLを要求するHTTPリクエストが送られる場合もある。この送信については、従来のブラウザ装置と同様である。
【0075】
次に、ボイスゲートウェイコンピュータ102は、サーバ103のURLに対するHTTPリクエストなので、従来のプロキシ装置と同様に、サーバ103に対し/index.htmlを要求する新たなサーバ側HTTPリクエストを送る(902)。
【0076】
サーバ103は、/index.htmlで指示されるデータをボディに含むサーバ側HTTPレスポンスをボイスゲートウェイコンピュータ102に返す(903)。例えば、図7がこのHTTPレスポンスの例である。
【0077】
ボイスゲートウェイコンピュータ102は、受信したサーバ側HTTPレスポンスをもとに音声データや入力候補などを作成し、新たなタグを埋め込んだHTMLデータ(例えば図4)をボディに合むクライアント側HTTPレスポンスをクライアントコンピュータ101に返す(904)。
【0078】
クライアントコンピュータ101では、受信したクライアント側HTTPレスポンスのボディに入っているHTMLデータを表示すると共に、VOICEOUTタグで指示される音声データ(図4の例ではhttp://gateway/out.wav)を要求するクライアント側HTTPリクエストをボイスゲートウェイコンピュータ102に送る(905)。
【0079】
ボイスゲートウェイコンピュータ102は、out.wavで指示される音声データをクライアントコンピュータ101に返信する(906)。この音声データは、クライアント側HTTPレスポンス(904)を提供する前に作成、格納されたデータである。
【0080】
ここで、クライアントコンピュータ101に音声入力があると、その音声データをボディに合むクライアント側HTTPリクエスト(POSTリクエスト)がクライアントコンピュータ101からボイスゲートウェイコンピュータ102に送られる(907)。例えば、図3に示したデータが送られる。
【0081】
ボイスゲートウェイコンピュータ102は、受信したPOSTリクエストのボディに含まれる音声データに対して音声認識を行なう。ここで、例えば「コピー」と認識されると、次リクエスト保持部511の内容に従い、この例では、サーバ103に対して、/cgi1?category=copyを要求するサーバ側HTTPリクエストを送る(908)。この時に使用される認識文法や次リクエスト保持部511の内容は、先のレスポンス(904)を提供する前に作成されたものである。
【0082】
サーバ103は、受信したサーバ側HTTPリクエストに従い、CGIプログラムを起動して、ボイスゲートウェイコンピュータ102にサーバ側HTTPレスポンスを返す(909)。
【0083】
ボイスゲートウェイコンピュータ102は、レスポンス903を受信したときと同様に、新たに音声データや認識文法を作成して、クライアント側HTTPレスポンスをクライアントコンピュータ101に返す(910)。
【0084】
このように、本実施形態のボイスブラウザシステムでは、ブラウザ(クライアントコンピュータ101)、ボイスゲートウェイ(ボイスゲートウェイコンピュータ102)、サーバ(サーバ103)しか存在せず、これらの間の通信だけでよいので、サーバから提供されるデータの表示と、該データに対応した音声入出力とを共通の通信処理の中で行うことができ、通信管理が簡単になる。また、全ての通信はHTTPで行うことができるので、一般的にHTTPだけを通すファイアーウォールが間にある場合でも、問題なく通信が行なえる。
【0085】
なお、上記実施形態においては、クライアントコンピュータ、ボイスゲートウェイコンピュータ、サーバコンピュータの三つのコンピューターで、それぞれブラウザ、ボイスゲートウェイ、サーバを実現する場合について説明したが、これに限定されるものではなく、例えば一つのコンピューターでボイスゲートウェイとサーバの両方を実現してもよい。
【0086】
また、上記実施形態においては、ネットワークに接続されているブラウザ装置、ボイスゲートウェイ装置、サーバ装置が各々1台である場合について説明したが、これに限定されるものではなく、各々複数台あり、要求するデータに応じて任意の装置を利用してもよい。
【0087】
また、上記実施形態においては、ボイスゲートウェイコンピュータ102において、識別子としてVOICEOUTタグとVOICEINタグとをそれぞれ一つずつ付け加える場合について説明したが、これに限定されるものではなく、複数付けてもよい。また、どちらか一方あるいは双方を付けなくてもよい。VOICEOUTを複数にする場合は、音声データを指示するURLをそれぞれ別のものにすることとなる。また、VOICEINを複数にする場合は、認識文法や次HTTPリクエストデータを複数用意し、VOICEINの属性で指示するURLをそれぞれ別のものにすることとなる。そして、ブラウザからボイスゲートウェイに、それらのURLで音声データを含むリクエストが送られてきた場合は、用意した複数の認識文法や次HTTPリクエストデータをURLで判別して使用する。
【0088】
また、上記実施形態においては、合成音声データをWAVEフォーマットで、入力音声データを生のPCMデータで受け渡す場合について説明したが、これに限定されるものではなく、任意の音声フォーマットを使用してもよい。複数の音声フォーマットを許す場合には、音声フォーマットを示すデータを、タグの属性やHTTPヘッダに記すこととなる。
【0089】
また、上記実施形態において使用したタグ名や属性名は、これらに限定されるものではなく、別の名称を用いてもよい。また、属性で表現したものを別のタグにする、あるいはタグで表現したものをHTTPヘッダで表現するというように、HTTPとHTMLの任意の拡張で実現してもよい。
【0090】
また、データ及びプログラムは、HTMLとHTTPに限定されるものではなく、別のマークアップ言語で記述されるデータや別のプロトコルでもよい。例えば、WAPプロトコルでWMLで記述されたデータに同様の音声の埋め込み、認識を行ってもよい。
【0091】
また、上記実施形態は、前述した機能を実現するソウトウェアプログラムを動作させる他、その機能の全部または一部を実現する論理回路により達成されることは言うまでもない。
【0092】
以上、本発明の好適な実施の形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0093】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0094】
【発明の効果】
以上説明したように、ネットワーク上で提供されるデータの表示と、該データに対する音声の出力又は入力と、を共通の通信処理の中で処理することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るボイスブラウザシステムの構成図である。
【図2】クライアントコンピュータ101の基本構成を示すブロック図である。
【図3】クライアント側HTTPレスポンスデータの例を示す図である。
【図4】クライアント側HTTPリクエストデータの例を示す図である。
【図5】ボイスゲートウェイコンピュータ102の基本構成を示すブロック図である。
【図6】ボイスゲートウェイコンピュータ102における処理を示すフローチャートである。
【図7】HTTPレスポンスのデータの例を示す図である。
【図8】図7のデータを処理した場合の、次リクエスト保持部511のデータ構成例を示した図である。
【図9】本発明の実施形態における各コンピュータ間の例を示す図である。

Claims (22)

  1. ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置であって、
    前記データを受信する手段と、
    受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
    作成した音声データを格納する手段と、
    前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
    を備えたことを特徴とするデータ処理装置。
  2. ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置であって、
    前記データを受信する手段と、
    受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
    前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
    を備えたことを特徴とするデータ処理装置。
  3. 前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段を備えたことを特徴とする請求項2に記載のデータ処理装置。
  4. 前記認識手段の結果に基づいて、前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する手段と、
    前記返答データを前記サーバに提供する手段と、
    を備えたことを特徴とする請求項3に記載のデータ処理装置。
  5. 前記返答が、予め定められた複数の項目から選択すべきものである場合に、
    各々の前記項目に係る音声データを認識するための認識文法を作成する手段と、
    前記認識文法に基づいて、前記ブラウザ装置からの前記返答に係る音声データが、いずれの前記項目に相当するかを判定する手段と、
    各々の前記項目に対応して前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する手段と、
    前記返答データを前記サーバに提供する手段と、
    を備えたことを特徴とする請求項2に記載のデータ処理装置。
  6. 前記返答データは、前記識別子を付加したデータを前記ブラウザ装置に対して提供する前に作成されることを特徴とする請求項5に記載のデータ処理装置。
  7. ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置と、を備えたブラウザシステムであって、
    前記データ処理装置は、
    前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
    作成した音声データを格納する手段と、
    前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備え、
    前記ブラウザ装置は、前記識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段を備えたことを特徴とするブラウザシステム。
  8. ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
    前記データ処理装置が、
    前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
    前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
    前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、
    前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
    前記返答データを前記サーバに提供する手段と、を備え、
    前記ブラウザ装置が、
    音声を入力する手段と、
    入力された音声に基づいて音声データを作成する手段と、
    作成した音声データを前記識別子が示す受付先へ供給する手段と、
    を備えたことを特徴とするブラウザシステム。
  9. ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供すると共に、前記サーバにより提供されるデータに対して、前記ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
    前記データ処理装置は、
    前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
    作成した音声データを格納する手段と、
    前記データに、前記音声データを格納した場所を示す第1の識別子を付加したデータを作成する手段と、
    前記第1の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
    前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
    前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す第2の識別子を付加したデータを作成する手段と、
    前記第2の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
    前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、
    前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
    前記返答データを前記サーバに提供する手段と、を備え、
    前記ブラウザ装置は、
    前記第1の識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段と、
    音声を入力する手段と、
    入力された音声に基づいて音声データを作成する手段と、
    作成した音声データを前記第2の識別子が示す受付先へ供給する手段と、
    を備えたことを特徴とするブラウザシステム。
  10. ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理方法であって、
    前記データを受信する工程と、
    受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する工程と、
    作成した音声データを格納する工程と、
    前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する工程と、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、
    を含むことを特徴とするデータ処理方法。
  11. ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理方法であって、
    前記データを受信する工程と、
    受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する工程と、
    前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する工程と、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、
    を含むことを特徴とするデータ処理方法。
  12. 前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識工程を含むことを特徴とする請求項11に記載のデータ処理方法。
  13. 前記認識工程の結果に基づいて、前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する工程と、
    前記返答データを前記サーバに提供する工程と、
    を含むことを特徴とする請求項12に記載のデータ処理方法。
  14. 前記返答が、予め定められた複数の項目から選択すべきものである場合に、
    各々の前記項目に係る音声データを認識するための認識文法を作成する工程と、
    前記認識文法に基づいて、前記ブラウザ装置からの前記返答に係る音声データが、いずれの前記項目に相当するかを判定する工程と、
    各々の前記項目に対応して前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する工程と、
    前記返答データを前記サーバに提供する工程と、
    を含むことを特徴とする請求項11に記載のデータ処理方法。
  15. 前記返答データは、前記識別子を付加したデータを前記ブラウザ装置に対して提供する前に作成されることを特徴とする請求項14に記載のデータ処理方法。
  16. ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するために、コンピュータを、
    前記データを受信する手段、
    受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段、
    作成した音声データを格納する手段、
    前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、
    として機能させるプログラムを記録した記録媒体。
  17. ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するために、コンピュータを、
    前記データを受信する手段、
    受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段、
    前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段、
    前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、
    として機能させるプログラムを記録した記録媒体。
  18. 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項1乃至6のいずれかに記載のデータ処理装置。
  19. 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項7乃至9のいずれかに記載のブラウザシステム。
  20. 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項10乃至15のいずれかに記載のデータ処理方法。
  21. 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項16又は17に記載の記録媒体。
  22. サーバ及びブラウザ装置とネットワークを介して通信可能なデータ処理装置であって、
    前記サーバより提供されるデータに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
    作成した音声データを格納する手段と、
    前記提供されるデータに、前記音声データを格納した場所を示す第1の識別子を付加する手段と、
    前記提供されるデータの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
    前記返答を要求する内容がある場合に、前記第1の識別子を付加したデータに返答の受付先を示す第2の識別子を更に付加する手段と、
    前記第1の識別子、或いは、前記第1及び第2の識別子、を付加したデータを前記ブラウザ装置に対して提供する手段と、
    前記ブラウザ装置から前記受付先へ前記返答に係る音声データが供給された場合に、当該音声データに対して音声認識を行う認識手段と、
    前記認識手段の認識結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
    前記返答データを前記サーバに提供する手段と、
    を備えたことを特徴とするデータ処理装置。
JP2000099418A 2000-03-31 2000-03-31 データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 Expired - Fee Related JP3862470B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2000099418A JP3862470B2 (ja) 2000-03-31 2000-03-31 データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体
US09/817,345 US7251602B2 (en) 2000-03-31 2001-03-27 Voice browser system
EP01302942A EP1139335B1 (en) 2000-03-31 2001-03-29 Voice browser system
DE60123153T DE60123153T2 (de) 2000-03-31 2001-03-29 Sprachgesteuertes Browsersystem

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000099418A JP3862470B2 (ja) 2000-03-31 2000-03-31 データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体

Publications (2)

Publication Number Publication Date
JP2001282503A JP2001282503A (ja) 2001-10-12
JP3862470B2 true JP3862470B2 (ja) 2006-12-27

Family

ID=18613778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000099418A Expired - Fee Related JP3862470B2 (ja) 2000-03-31 2000-03-31 データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体

Country Status (4)

Country Link
US (1) US7251602B2 (ja)
EP (1) EP1139335B1 (ja)
JP (1) JP3862470B2 (ja)
DE (1) DE60123153T2 (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1156751C (zh) * 2001-02-02 2004-07-07 国际商业机器公司 用于自动生成语音xml文件的方法和系统
ITTO20010179A1 (it) * 2001-02-28 2002-08-28 Cselt Centro Studi Lab Telecom Sistema e metodo per l'accesso a strutture multimediali.
GB2381409B (en) * 2001-10-27 2004-04-28 Hewlett Packard Ltd Asynchronous access to synchronous voice services
JP3880383B2 (ja) * 2001-12-04 2007-02-14 キヤノン株式会社 音声認識装置及びその方法、プログラム
US20030121002A1 (en) * 2001-12-20 2003-06-26 Stuart Goose Method and system for exchanging information through speech via a packet-oriented network
WO2003063137A1 (en) * 2002-01-22 2003-07-31 V-Enable, Inc. Multi-modal information delivery system
SE0202058D0 (sv) * 2002-07-02 2002-07-02 Ericsson Telefon Ab L M Voice browsing architecture based on adaptive keyword spotting
EP1394692A1 (en) * 2002-08-05 2004-03-03 Alcatel Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
US7571100B2 (en) * 2002-12-03 2009-08-04 Speechworks International, Inc. Speech recognition and speaker verification using distributed speech processing
JP4553246B2 (ja) * 2004-11-26 2010-09-29 富士通株式会社 ウェブ画面作成方法、プログラム及びサーバ
JP2007034487A (ja) * 2005-07-25 2007-02-08 Canon Inc 情報処理装置及びその制御方法、コンピュータプログラム
JP2007081765A (ja) * 2005-09-14 2007-03-29 Nippon Hoso Kyokai <Nhk> マルチメディアコンテンツ生成装置及び番組情報配信装置並びに携帯端末装置
JP4700451B2 (ja) * 2005-09-16 2011-06-15 日本放送協会 番組情報配信装置並びに携帯端末装置
US8102975B2 (en) * 2007-04-04 2012-01-24 Sap Ag Voice business client
JP2010282429A (ja) * 2009-06-04 2010-12-16 Canon Inc 画像処理装置及びその制御方法
KR20130016644A (ko) * 2011-08-08 2013-02-18 삼성전자주식회사 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법
CN105592239A (zh) * 2016-02-05 2016-05-18 郑歆明 一种语音网关
TWI672690B (zh) * 2018-03-21 2019-09-21 塞席爾商元鼎音訊股份有限公司 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置
CN114546324B (zh) * 2020-11-11 2024-09-17 上海哔哩哔哩科技有限公司 音频处理方法及装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240448B1 (en) * 1995-12-22 2001-05-29 Rutgers, The State University Of New Jersey Method and system for audio access to information in a wide area computer network
US5884262A (en) * 1996-03-28 1999-03-16 Bell Atlantic Network Services, Inc. Computer network audio access and conversion system
JPH10124293A (ja) 1996-08-23 1998-05-15 Osaka Gas Co Ltd 音声指令可能なコンピュータとそれ用の媒体
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
JP3826239B2 (ja) * 1996-11-22 2006-09-27 日本電信電話株式会社 ハイパーテキスト中継方法及び装置
US6125376A (en) 1997-04-10 2000-09-26 At&T Corp Method and apparatus for voice interaction over a network using parameterized interaction definitions
US6094677A (en) * 1997-05-30 2000-07-25 International Business Machines Corporation Methods, systems and computer program products for providing insertions during delays in interactive systems
JP3789614B2 (ja) * 1997-10-02 2006-06-28 日本電信電話株式会社 ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP4462649B2 (ja) * 1997-11-27 2010-05-12 ソニー株式会社 情報処理装置、情報処理方法および情報処理システム
JP4197195B2 (ja) * 1998-02-27 2008-12-17 ヒューレット・パッカード・カンパニー 音声情報の提供方法
US6269336B1 (en) 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation

Also Published As

Publication number Publication date
DE60123153D1 (de) 2006-11-02
US7251602B2 (en) 2007-07-31
EP1139335B1 (en) 2006-09-20
DE60123153T2 (de) 2007-01-25
JP2001282503A (ja) 2001-10-12
US20010049604A1 (en) 2001-12-06
EP1139335A2 (en) 2001-10-04
EP1139335A3 (en) 2001-12-05

Similar Documents

Publication Publication Date Title
JP3862470B2 (ja) データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体
US7640163B2 (en) Method and system for voice activating web pages
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
US8032577B2 (en) Apparatus and methods for providing network-based information suitable for audio output
US8635218B2 (en) Generation of XSLT style sheets for different portable devices
US7890506B2 (en) User interface control apparatus and method thereof
US20050010422A1 (en) Speech processing apparatus and method
JPH11136394A (ja) データ出力システムおよびデータ出力方法
JP2005149484A (ja) 逐次的なマルチモーダル入力
JP2004310748A (ja) ユーザ入力に基づくデータの提示
JP6254209B2 (ja) 音声を利用できるテルネットインターフェイス
KR20050045817A (ko) 순차 멀티모달 입력
JPH11249867A (ja) 音声ブラウザシステム
MXPA04006532A (es) Uso combinado de un lenguaje de marca por pasos y una herramienta de desarrollo orientada por objetos.
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
JPH11110186A (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
US20030182129A1 (en) Dialog system and dialog control system
KR20070119153A (ko) 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법
CN1983284A (zh) 模态同步控制方法及多模态界面系统
JP2001075968A (ja) 情報検索方法及びそれを記録した記録媒体
JP2005181358A (ja) 音声認識合成システム
US7246126B2 (en) Communications system for retrieving instruction files from a server
JP3987172B2 (ja) 対話型コミュニケーション端末装置
JP2001273294A (ja) 翻訳方法、翻訳システム、翻訳サーバ、記録媒体および情報伝送媒体
KR100277834B1 (ko) 도서 낭독 시스템 및 서비스 처리 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050318

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060915

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060926

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091006

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101006

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101006

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111006

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111006

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121006

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131006

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees