JP3862470B2 - データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 - Google Patents
データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 Download PDFInfo
- Publication number
- JP3862470B2 JP3862470B2 JP2000099418A JP2000099418A JP3862470B2 JP 3862470 B2 JP3862470 B2 JP 3862470B2 JP 2000099418 A JP2000099418 A JP 2000099418A JP 2000099418 A JP2000099418 A JP 2000099418A JP 3862470 B2 JP3862470 B2 JP 3862470B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- voice
- browser device
- response
- browser
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 230000004044 response Effects 0.000 claims description 102
- 230000006870 function Effects 0.000 claims description 17
- 238000003672 processing method Methods 0.000 claims description 12
- 230000006854 communication Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 8
- 238000007405 data analysis Methods 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/561—Adding application-functional data or data for application control, e.g. adding metadata
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/289—Intermediate processing functionally located close to the data consumer application, e.g. in same machine, in same home or in same sub-network
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
Description
【発明の属する技術分野】
本発明は、ネットワークを介してサーバとクライアントとの間で行われる情報の入出力を、クライアント側において音声により実現するブラウザシステム等に関する。
【0002】
【従来の技術】
音声入出力機能を有する従来のボイスブラウザシステムとしては、例えば特開平10−124293で提案されている音声司令可能なコンピュータのように、クライアント側で音声合成と音声認識を行なうものがある。しかし、この構成のボイスブラウザシステムでは、クライアントが携帯端末のような計算資源の少ないハードウェアで実現される場合に、クライアントでの処理負荷が資源に対して過大すぎるという問題があった。
【0003】
そこで、例えば、特開平11−110186で提案されているブラウザシステム又は音声プロキシサーバのように、クライアントを実現するハードウェアとは異なるハードウェアで音声合成や認識を行なうボイスブラウザシステムが考案されている。
【0004】
【発明が解決しようとする課題】
しかしながら、上記従来例のボイスブラウザシステムでは、HTML言語等のマークアップ言語により記述されたデータを表示するブラウザプロセスと、音声合成や音声認識による音声の出力や入力を行なうプロセスとが別個であるため、音声合成や音声認識を行なうハードウェアとクライアントを実現するハードウェアとの間で、HTTP等により実現されるHTML言語等のデータ送受の通信とは別に、音声出力および音声入力データの送受の通信を行なわなければならない。
【0005】
そのため、複雑な通信制御や各プロセス間の同期を取る制御などが必要となり、ボイスブラウザシステムの構築が難しくなるという問題があった。さらに、クライアントとサーバとの間で、HTTP以外の通信を許さないファイアーウォールが設けられることも多く、こうした場合に他の通信ができずボイスブラウザシステムの構築が困難になるという問題点もあった。
【0006】
従って、本発明の目的は、ネットワーク上で提供されるデータの表示と、該データに対する音声の出力又は入力と、を共通の通信処理の中で処理し得るデータ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置であって、前記データを受信する手段と、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備えたことを特徴とするデータ処理装置が提供される。
【0008】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置であって、前記データを受信する手段と、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備えたことを特徴とするデータ処理装置が提供される。
【0009】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備え、
前記ブラウザ装置は、前記識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段を備えたことを特徴とするブラウザシステムが提供される。
【0010】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置が、前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置が、音声を入力する手段と、入力された音声に基づいて音声データを作成する手段と、作成した音声データを前記識別子が示す受付先へ供給する手段と、を備えたことを特徴とするブラウザシステムが提供される。
【0011】
また、本発明によれば、ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供すると共に、前記サーバにより提供されるデータに対して、前記ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記データに、前記音声データを格納した場所を示す第1の識別子を付加したデータを作成する手段と、前記第1の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す第2の識別子を付加したデータを作成する手段と、前記第2の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置は、前記第1の識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段と、音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、作成した音声データを前記第2の識別子が示す受付先へ供給する手段と、を備えたことを特徴とするブラウザシステムが提供される。
【0012】
また、本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理方法であって、前記データを受信する工程と、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する工程と、作成した音声データを格納する工程と、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する工程と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、を含むことを特徴とするデータ処理方法が提供される。
【0013】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理方法であって、前記データを受信する工程と、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する工程と、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する工程と、前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、を含むことを特徴とするデータ処理方法が提供される。
【0014】
また、本発明によれば、ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するために、コンピュータを、前記データを受信する手段、受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段、作成した音声データを格納する手段、前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、として機能させるプログラムを記録した記録媒体が提供される。
【0015】
また、本発明によれば、ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するために、コンピュータを、前記データを受信する手段、受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段、前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段、前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、として機能させるプログラムを記録した記録媒体が提供される。
【0017】
また、本発明によれば、サーバ及びブラウザ装置とネットワークを介して通信可能なデータ処理装置であって、前記サーバより提供されるデータに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、作成した音声データを格納する手段と、前記提供されるデータに、前記音声データを格納した場所を示す第1の識別子を付加する手段と、前記提供されるデータの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、前記返答を要求する内容がある場合に、前記第1の識別子を付加したデータに返答の受付先を示す第2の識別子を更に付加する手段と、前記第1の識別子、或いは、前記第1及び第2の識別子、を付加したデータを前記ブラウザ装置に対して提供する手段と、前記ブラウザ装置から前記受付先へ前記返答に係る音声データが供給された場合に、当該音声データに対して音声認識を行う認識手段と、前記認識手段の認識結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とするデータ処理装置が提供される。
【0018】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施の形態について説明する。
【0019】
図1は、本発明の一実施形態に係るボイスブラウザシステムの構成図である。
【0020】
ボイスブラウザシステムは、ネットワーク104により相互に接続された、ブラウザ装置としてのクライアントコンピュータ101と、クライアントコンピュータ101に対して情報を提供するサーバコンピュータ103と、サーバコンピュータ103により提供される情報を音声データとしてクライアントコンピュータ101に提供し、また、クライアントコンピュータ101からサーバコンピュータ103に対して行われる要求又は返答を音声データにより実現するボイスゲートウェイコンピュータ102と、により構成される。
【0021】
クライアントコンピュータ101、ボイスゲートウェイコンピュータ102、サーバコンピューター103は、いずれも通信デバイスを備えており、ネットワーク104を介してTCP/IPプロトコルにより実現されるHTTPを互いに送受信できる。
【0022】
ここで、サーバコンピュータ103としては、従来のWebサーバと呼ばれるコンピュータ、すなわちHTTPリクエストに対して、そのURLに合致するデータをHTTPレスポンスとして返すWebサーバプログラムを実行するコンピュータを採用することができる。
【0023】
また、ネットワーク104としては、例えば、インターネットあるいはイントラネットを挙げることができる。
【0024】
このボイスブラウザシステムにおいて、クライアントコンピュータ101とサーバコンピュータ103との間における通信は、ボイスゲートウェイコンピュータ102を介して行うことができる。
【0025】
この場合、クライアントコンピュータ101からサーバコンピュータ103への要求、返答等をHTTPリクエストといい、特に、クライアントコンピュータ101からボイスゲートウエイコンピュータ102への要求、返信等をクライアント側HTTPリクエストとも称し、これに対応するボイスゲートウェイコンピュータ102からサーバコンピュータ103への要求、返答等をサーバ側HTTPリクエストとも称す。
【0026】
また、HTTPリクエストに対するサーバコンピュータ103からクライアントコンピュータ103への情報の提供等をHTTPレスポンスといい、特に、ボイスゲートウェイコンピュータ102に対する返答をサーバ側HTTPレスポンスとも称し、これに対応するボイスゲートウェイコンピュータ102からクライアントコンピュータ101に対する返答をクライアント側HTTPレスポンスとも称す。
【0027】
次に、クライアントコンピュータ101とボイスゲートウェイコンピュータ102について詳細に説明する。
【0028】
クライアントコンピュータ101は、ディスプレイ、キーボードやマウスなどの入力デバイス、及び、スピーカやマイクロホン等の音声入出力デバイス、を備えており、サーバコンピュータ103により提供されるHTML言語で記述されたデータの表示、及び、該データの内容を示すボイスゲートウエイコンピュータ102からの音声データの音声出力、並びに、音声データを含むクライアント側HTTPリクエストの作成、若しくは、文字入力を可能とするコンピュータである。
【0029】
図2は、ブラウザ装置として機能するクライアントコンピュータ101の基本構成を示すブロック図である。
【0030】
図2において、201は、HTTPレスポンスを受信するレスポンス受信部である。202は、レスポンス受信部で受信されたHTTPレスポンスに含まれるHTMLデータを解析するHTMLデータ解析部である。203は、HTMLデータ解析部202で解析された結果に従ってデータを表示するHTML表示部である。
【0031】
204は、HTMLデータ解析部202で解析された結果に従って音声データが含まれる場合はその音声出力を行なう音声出力部である。205は、ユーザからのキーボード等の入力デバイスからの入力を受け付ける直接入力部である。207は、音声入力を受け付ける音声入力部である。
【0032】
206は、サーバコンピュータ103から提供され、HTML表示部203で表示される情報に対する指示操作を受け付ける指示要求入力部である。208は、直接入力部205への入力、指示要求入力部206への入力、音声入力部207への入力のいずれかあるいはその組み合わせからHTTPリクエストを作成するリクエスト作成部である。209は、リクエスト作成部で作成されたHTTPリクエストを送信するリクエスト送信部である。
【0033】
一方、ボイスゲートウエイコンピュータ102は、クライアントコンピュータ101から送信されたクライアント側HTTPリクエストに音声データが含まれる場合はそれを音声認識し、認識結果に基づいてサーバ側HTTPリクエストを作成して送信し、また、HTTPリクエストに対するサーバコンピュータ103によるサーバ側HTTPレスポンスに含まれるHTMLデータから、クライアントコンピュータ101で音声出力すべき音声データを作成し、HTMLデータと共にその音声データをクライアントコンピュータ101へ提供するデータ処理装置として機能する。
【0034】
図5は、ボイスゲートウェイコンピュータ102の基本構成を示すブロック図である。
【0035】
図5において、501はクライアントコンピュータ101から送信されるクライアント側HTTPリクエストを受信するリクエスト受信部である。502は、リクエスト受信部501で受信されたクライアント側HTTPリクエストに音声データが含まれる場合に、それを音声認識する音声認識部である。
【0036】
503は、音声認識部502の認識結果に基づいて、音声データを含むクライアント側HTTPリクエストを、サーバコンピュータ103に適応した形式のサーバ側HTTPリクエストにデータ変換するリクエスト変換部である。
【0037】
504は、サーバ側HTTPリクエストをサーバコンピュータ103に送信するリクエスト送信部であり、対応するクライアント側HTTPリクエストが音声データを含む場合は、リクエスト変換部503で変換されたものを、音声データを含まない場合は、リクエスト受信部501で受信されたものを、それぞれサーバコンピュータ103に送信する。
【0038】
505は、リクエスト送信部504が送信したサーバ側HTTPリクエストに対するサーバ側HTTPレスポンスを受信するレスポンス受信部である。506は、レスポンス受信部505で受信されたサーバ側HTTPレスポンスに含まれるHTMLデータを解析するHTMLデータ解析部である。
【0039】
507は、HTMLデータ解析部506で解析された結果を用いて音声出力すべき音声データを作成する音声合成部である。508は、HTMLデータ解析部506で解析された結果を用いて、次に受け付ける音声入力候補とその入力があった場合に作成すべきリクエストを作成する入力候補作成部である。すなわち、入力候補作成部508は、サーバコンピュータ103がクライアントコンピュータ101に提供した情報の中に、クライアントコンピュータ101からの返答を要求する内容があるか否かを判定し、該内容があればその候補を作成する。
【0040】
509は、入力候補作成部508で作成された入力候補から音声認識部502が使用する音声認識文法を作成する認識文法作成部である。510は、認識文法作成部509で作成された認識文法を保持する認識文法保持部である。
【0041】
511は、入力侯補作成部508で作成された入力候補とその入力候補に対応する音声入力があったときに作成すべきHTTPリクエストの対を保持する次リクエスト保持部である。
【0042】
512は、音声合成部507で作成された音声データを保持する音声データ保持部である。513は、音声データ保持部512に保持されている音声データを取得するURLと、次の音声認識処理を起動するURLとを、レスポンス受信部505で受信されたレスポンスデータに含まれるHTMLデータに埋め込むHTMLデータ変換部である。
【0043】
514は、HTMLデータ変換部で作成されたHTMLデータをクライアントコンピュータ101へのクライアント側HTTPレスポンスとして返すレスポンス送信部である。515は、リクエスト受信部501で受信したクライアント側HTTPリクエストが、音声データ保持部512に保持されている音声データの要求であった場合に、その音声データをクライアントコンピュータ101へのクライアント側HTTPレスポンスとして返す音声データ返信部である。
【0044】
次に、図3は、クライアント側HTTPレスポンスに含まれるHTMLデータの例である。本実施形態では、マークアップ言語としてHTML4.0として定義されているHTML言語仕様に加えて、VOICEOUT,VOICEINの二つの拡張タグを使用している。
【0045】
ここで、VOICEOUTは、音声合成部507で作成された音声データの格納場所、すなわち、音声データ保持部512を示す識別子としてのタグである。
【0046】
また、VOICEINは、クライアントコンピュータ101からのHTTPリクエストが音声データを含む場合に、その受付先、リクエスト受信部501を示す識別子としてのタグである。
【0047】
VOICEOUTが出現した場合、クライアントコンピュータ101は、その属性で指定されるURLにある音声データを、別のHTTPリクエストを発行して取得し、取得した音声データをスピーカー等の音声出力デバイスから出力する。
【0048】
また、VOICEINタグは、クライアントコンピュータ101のマイクロホン等の音声入力デバイスに音声入力があった場合に作成するHTTPリクエストのベースとなるベースURLを指定する。
【0049】
この例を用いて、クライアントコンピュータ101における処理を説明する。
【0050】
レスポンス受信部201は、何らかのHTTPリクエストに対するHTTPレスポンスとして、図3に示したHTMLデータを含むHTTPレスポンスを受信する。受信の手順は、従来のブラウザ装置と同様である。
【0051】
HTMLデータ解析部202は、一般的なHTMLデータの解析を行うが、特に、VOICEOUT,VOICEINタグについても動作に必要なデータを抽出する点だけが異なる。HTML表示部203は、従来のブラウザ装置と同様にHTMLデータに基づき情報を表示する。
【0052】
音声出力部204は、VOICEOUTタグが解析された場合に、その属性で示されるURLで示す音声データを要求するHTTPリクエストを送信し、ボイスゲートコンピュータ103からの対応するHTTPレスポンスのボディに含まれる音声データを取得する。
【0053】
そして、取得した音声データをスピーカー等の音声出力デバイスにより出力する。
【0054】
一方、音声入力部207は、マイクロホン等の音声入力デバイスに入力があると、それをA/D変換して例えばPCMデータ等の音声データを作成する。この場合、PCMデータの始点と終点を定めるタイミングは、音声入力のパワーが閾値を越えている間を取るとか、何らかのキーが押下されている間を取るといった方法で定められる。
【0055】
リクエスト作成部208は、音声入力部207に入力があった場合は、HTMLデータ解析部202が解析した結果のうちで、VOICEINタグの属性として示されるURLへのPOSTリクエストを作成する。そして、そのボディに音声入力部207が作成したPCMデータを入れる。図3の例で示すHTMLデータを出力している状態のクライアントコンピュータ101に、音声入力があった場合のHTTPリクエストは図4のように作成される。リクエスト送信部209は、リクエスト作成部208で作成されたHTTPリクエストを、そのURLが示すコンピュータ、すなわちボイスゲートウェイコンピュータ102へ送信する。
【0056】
次に、図6に示すフローチャートを用いてボイスゲートウェイコンピュータ102における処理の概要を説明する。
【0057】
処理のメインルーチンでは、HTTPを受けるポート(通常80番ポートが使用されるがこの限りではない)への接続要求を待ち受けている。クライアントコンピュータ101から接続要求があると接続を確立する。そして、ここで説明する処理に移る。本実施形態では、説明を簡単にするため、待ち受け処理と同一の単一スレッドで処理を実現する場合で説明するが、マルチスレッドで実現してもよい。なお、本処理が終了すると、再びポートの接続要求待ち処理に戻る。
【0058】
まず、ステップS601では、クライアントコンピュータ101からのHTTPリクエストを受信する。そして、ステップS602に移る。
【0059】
ステップS602では、HTTPリクエストデータ中のURLを取り出し、それがボイスゲートウェイコンピュータ102の“/out.wav”を指すものであればステップS613に移る。指すものでなければステップS603に移る。
【0060】
ステップS603では、前記URLがボイスゲートウェイコンピュータ102の“/voicein”を指すものであればステップS604に移る。指すものでなければステップS606に移る。
【0061】
ステップS604では、HTTPリクエストのボディを取り出し、それを音声データとして音声認識を行なう。この時に認識文法保持部510に保持されている認識文法が使用される。そしてステップS605に移る。
【0062】
ステップS605では、ステップS604で認識された結果に対する次HTTPリクエストを次リクエスト保持部511から取り出す。そしてステップS607に移る。
【0063】
ステップS606では、クライアントコンピュータ101から送られてきたHTTPリクエストのURLをそのまま次HTTPリクエストとする。そしてステップS607に移る。
【0064】
ステップS607では、次HTTPリクエストのURL中のホスト部が示すサーバ(サーバコンピュータ103)に次HTTPリクエストを送信し、HTTPレスポンスを得る。この動作は、従来のプロキシ装置と同じである。そして、ステップS608に移る。なお、図7は、HTTPレスポンスのデータの例を示す図である。
【0065】
ステップS608では、ステップS607で受領したHTTPレスポンス(サーバ側HTTPレスポンス)のボディにあるHTMLデータを解析する。解析することで、HTMLデータ中の各タグの木構造とタグの要素を取り出すことができるようになる。そして、ステップS609に移る。
【0066】
ステップS609では、ステップS608の解析結果を用いて、クライアントコンピュータ101で音声出力すべき音声データを作成する。HTMLデータ中の一部あるいは全部のテキストを音声合成して音声データを作成する。どのテキストを音声合成するかは任意に定めることができ、ここでは簡単に最初のPタグ要素を音声合成するとして説明を続ける。図7のデータ例では、「製品の種類を選択して下さい。」という合成音声データが作成される。合成音声データは、WAVEフォーマットのファイルとして、“/out.wav”で参照される場所に格納する。そして、ステップS610に移る。
【0067】
ステップS610では、当該HTMLデータと音声データとをクライアントコンピュータ101へ出力した後、その内容によりクライアントコンピュータ101から受け付ける返答の音声入力候補を作成する。どのような音声入力を受理するかは、任意に定めることができるが、ここでは簡単にSELECTタグ中の各OPTIONタグの要素を入力候補とする。図7の例では、「コピー」,「プリンタ」,「Fax」が入力候補となる。
【0068】
そして、入力候補の各単語を認識する認識文法を作成する。さらに、各要素が音声入力された時の次HTTPリクエストとして、対応するSELECTタグが選択されてフォームがサブミットされた時に生成されるリクエストURLを作成し、それを次リクエスト保持部511に保持する。
【0069】
図8は、図7のデータを処理した場合の、次リクエスト保持部511のデータ構成例を示した図である。同図において、各行が一つの入力候補に対応する。列801には、入力候補の文字列が保持される。列802には、次HTTPリクエストのURLが保持される。そして、ステップS611に移る。
【0070】
ステップS611では、当該HTMLデータ中に、VOICEOUTタグとVOICEINタグとを埋め込む。本実施形態では、それぞれのURLは固定であるので、常に同じタグパターンが埋め込まれることとなる。そして、タグを埋め込んだHTMLデータをクライアント側レスポンスとして、ステップS613に移る。
【0071】
ステップS612では、一つ前の処理のステップS609で格納した音声データに係るクライアント側レスポンスを作成し、ステップS613に移る。
【0072】
ステップS613では、作成したクライアント側HTTPレスポンスをクライアントコンピュータ101に提供する。そして、クライアントコンピュータ101との接続を切断し処理を終了する。
【0073】
最後に、図9を用いて本実施形態における各コンピュータ間での通信例を示す。
【0074】
始めに、クライアントコンピュータ101(ブラウザ)にURLが直接入力され、ボイスゲートウェイコンピュータ102にhttp://server/index.htmlを要求するクライアント側HTTPリクエストが送られる(901)。なお、URLの直接入力ではなく、同URLをアンカーに持つオブジェクトをブラウザ表示画面上で指示することで、そのURLを要求するHTTPリクエストが送られる場合もある。この送信については、従来のブラウザ装置と同様である。
【0075】
次に、ボイスゲートウェイコンピュータ102は、サーバ103のURLに対するHTTPリクエストなので、従来のプロキシ装置と同様に、サーバ103に対し/index.htmlを要求する新たなサーバ側HTTPリクエストを送る(902)。
【0076】
サーバ103は、/index.htmlで指示されるデータをボディに含むサーバ側HTTPレスポンスをボイスゲートウェイコンピュータ102に返す(903)。例えば、図7がこのHTTPレスポンスの例である。
【0077】
ボイスゲートウェイコンピュータ102は、受信したサーバ側HTTPレスポンスをもとに音声データや入力候補などを作成し、新たなタグを埋め込んだHTMLデータ(例えば図4)をボディに合むクライアント側HTTPレスポンスをクライアントコンピュータ101に返す(904)。
【0078】
クライアントコンピュータ101では、受信したクライアント側HTTPレスポンスのボディに入っているHTMLデータを表示すると共に、VOICEOUTタグで指示される音声データ(図4の例ではhttp://gateway/out.wav)を要求するクライアント側HTTPリクエストをボイスゲートウェイコンピュータ102に送る(905)。
【0079】
ボイスゲートウェイコンピュータ102は、out.wavで指示される音声データをクライアントコンピュータ101に返信する(906)。この音声データは、クライアント側HTTPレスポンス(904)を提供する前に作成、格納されたデータである。
【0080】
ここで、クライアントコンピュータ101に音声入力があると、その音声データをボディに合むクライアント側HTTPリクエスト(POSTリクエスト)がクライアントコンピュータ101からボイスゲートウェイコンピュータ102に送られる(907)。例えば、図3に示したデータが送られる。
【0081】
ボイスゲートウェイコンピュータ102は、受信したPOSTリクエストのボディに含まれる音声データに対して音声認識を行なう。ここで、例えば「コピー」と認識されると、次リクエスト保持部511の内容に従い、この例では、サーバ103に対して、/cgi1?category=copyを要求するサーバ側HTTPリクエストを送る(908)。この時に使用される認識文法や次リクエスト保持部511の内容は、先のレスポンス(904)を提供する前に作成されたものである。
【0082】
サーバ103は、受信したサーバ側HTTPリクエストに従い、CGIプログラムを起動して、ボイスゲートウェイコンピュータ102にサーバ側HTTPレスポンスを返す(909)。
【0083】
ボイスゲートウェイコンピュータ102は、レスポンス903を受信したときと同様に、新たに音声データや認識文法を作成して、クライアント側HTTPレスポンスをクライアントコンピュータ101に返す(910)。
【0084】
このように、本実施形態のボイスブラウザシステムでは、ブラウザ(クライアントコンピュータ101)、ボイスゲートウェイ(ボイスゲートウェイコンピュータ102)、サーバ(サーバ103)しか存在せず、これらの間の通信だけでよいので、サーバから提供されるデータの表示と、該データに対応した音声入出力とを共通の通信処理の中で行うことができ、通信管理が簡単になる。また、全ての通信はHTTPで行うことができるので、一般的にHTTPだけを通すファイアーウォールが間にある場合でも、問題なく通信が行なえる。
【0085】
なお、上記実施形態においては、クライアントコンピュータ、ボイスゲートウェイコンピュータ、サーバコンピュータの三つのコンピューターで、それぞれブラウザ、ボイスゲートウェイ、サーバを実現する場合について説明したが、これに限定されるものではなく、例えば一つのコンピューターでボイスゲートウェイとサーバの両方を実現してもよい。
【0086】
また、上記実施形態においては、ネットワークに接続されているブラウザ装置、ボイスゲートウェイ装置、サーバ装置が各々1台である場合について説明したが、これに限定されるものではなく、各々複数台あり、要求するデータに応じて任意の装置を利用してもよい。
【0087】
また、上記実施形態においては、ボイスゲートウェイコンピュータ102において、識別子としてVOICEOUTタグとVOICEINタグとをそれぞれ一つずつ付け加える場合について説明したが、これに限定されるものではなく、複数付けてもよい。また、どちらか一方あるいは双方を付けなくてもよい。VOICEOUTを複数にする場合は、音声データを指示するURLをそれぞれ別のものにすることとなる。また、VOICEINを複数にする場合は、認識文法や次HTTPリクエストデータを複数用意し、VOICEINの属性で指示するURLをそれぞれ別のものにすることとなる。そして、ブラウザからボイスゲートウェイに、それらのURLで音声データを含むリクエストが送られてきた場合は、用意した複数の認識文法や次HTTPリクエストデータをURLで判別して使用する。
【0088】
また、上記実施形態においては、合成音声データをWAVEフォーマットで、入力音声データを生のPCMデータで受け渡す場合について説明したが、これに限定されるものではなく、任意の音声フォーマットを使用してもよい。複数の音声フォーマットを許す場合には、音声フォーマットを示すデータを、タグの属性やHTTPヘッダに記すこととなる。
【0089】
また、上記実施形態において使用したタグ名や属性名は、これらに限定されるものではなく、別の名称を用いてもよい。また、属性で表現したものを別のタグにする、あるいはタグで表現したものをHTTPヘッダで表現するというように、HTTPとHTMLの任意の拡張で実現してもよい。
【0090】
また、データ及びプログラムは、HTMLとHTTPに限定されるものではなく、別のマークアップ言語で記述されるデータや別のプロトコルでもよい。例えば、WAPプロトコルでWMLで記述されたデータに同様の音声の埋め込み、認識を行ってもよい。
【0091】
また、上記実施形態は、前述した機能を実現するソウトウェアプログラムを動作させる他、その機能の全部または一部を実現する論理回路により達成されることは言うまでもない。
【0092】
以上、本発明の好適な実施の形態について説明したが、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0093】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0094】
【発明の効果】
以上説明したように、ネットワーク上で提供されるデータの表示と、該データに対する音声の出力又は入力と、を共通の通信処理の中で処理することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るボイスブラウザシステムの構成図である。
【図2】クライアントコンピュータ101の基本構成を示すブロック図である。
【図3】クライアント側HTTPレスポンスデータの例を示す図である。
【図4】クライアント側HTTPリクエストデータの例を示す図である。
【図5】ボイスゲートウェイコンピュータ102の基本構成を示すブロック図である。
【図6】ボイスゲートウェイコンピュータ102における処理を示すフローチャートである。
【図7】HTTPレスポンスのデータの例を示す図である。
【図8】図7のデータを処理した場合の、次リクエスト保持部511のデータ構成例を示した図である。
【図9】本発明の実施形態における各コンピュータ間の例を示す図である。
Claims (22)
- ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置であって、
前記データを受信する手段と、
受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
を備えたことを特徴とするデータ処理装置。 - ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置であって、
前記データを受信する手段と、
受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
を備えたことを特徴とするデータ処理装置。 - 前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段を備えたことを特徴とする請求項2に記載のデータ処理装置。
- 前記認識手段の結果に基づいて、前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とする請求項3に記載のデータ処理装置。 - 前記返答が、予め定められた複数の項目から選択すべきものである場合に、
各々の前記項目に係る音声データを認識するための認識文法を作成する手段と、
前記認識文法に基づいて、前記ブラウザ装置からの前記返答に係る音声データが、いずれの前記項目に相当するかを判定する手段と、
各々の前記項目に対応して前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とする請求項2に記載のデータ処理装置。 - 前記返答データは、前記識別子を付加したデータを前記ブラウザ装置に対して提供する前に作成されることを特徴とする請求項5に記載のデータ処理装置。
- ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、
前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、を備え、
前記ブラウザ装置は、前記識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段を備えたことを特徴とするブラウザシステム。 - ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置が、
前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、
前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置が、
音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、
作成した音声データを前記識別子が示す受付先へ供給する手段と、
を備えたことを特徴とするブラウザシステム。 - ブラウザ装置と、ネットワークを介して前記ブラウザ装置にデータを提供するサーバと、前記サーバにより提供されるデータの内容を、ブラウザ装置に対して音声データとして提供すると共に、前記サーバにより提供されるデータに対して、前記ブラウザ装置から音声により返答するためのデータ処理装置と、を備えたブラウザシステムであって、
前記データ処理装置は、
前記サーバが提供する前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記データに、前記音声データを格納した場所を示す第1の識別子を付加したデータを作成する手段と、
前記第1の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す第2の識別子を付加したデータを作成する手段と、
前記第2の識別子を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識手段と、
前記認識手段の結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、を備え、
前記ブラウザ装置は、
前記第1の識別子に示された場所から前記音声データを取得し、該音声データに係る音声を出力する手段と、
音声を入力する手段と、
入力された音声に基づいて音声データを作成する手段と、
作成した音声データを前記第2の識別子が示す受付先へ供給する手段と、
を備えたことを特徴とするブラウザシステム。 - ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するためのデータ処理方法であって、
前記データを受信する工程と、
受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する工程と、
作成した音声データを格納する工程と、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する工程と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、
を含むことを特徴とするデータ処理方法。 - ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するためのデータ処理方法であって、
前記データを受信する工程と、
受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する工程と、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する工程と、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する工程と、
を含むことを特徴とするデータ処理方法。 - 前記返答に係る音声データが、前記ブラウザ装置から前記受付先へ供給された場合に、前記音声データに対して、音声認識を行う認識工程を含むことを特徴とする請求項11に記載のデータ処理方法。
- 前記認識工程の結果に基づいて、前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する工程と、
前記返答データを前記サーバに提供する工程と、
を含むことを特徴とする請求項12に記載のデータ処理方法。 - 前記返答が、予め定められた複数の項目から選択すべきものである場合に、
各々の前記項目に係る音声データを認識するための認識文法を作成する工程と、
前記認識文法に基づいて、前記ブラウザ装置からの前記返答に係る音声データが、いずれの前記項目に相当するかを判定する工程と、
各々の前記項目に対応して前記返答を受け付ける前記ネットワーク上のサーバに適応した形式の返答データを作成する工程と、
前記返答データを前記サーバに提供する工程と、
を含むことを特徴とする請求項11に記載のデータ処理方法。 - 前記返答データは、前記識別子を付加したデータを前記ブラウザ装置に対して提供する前に作成されることを特徴とする請求項14に記載のデータ処理方法。
- ネットワーク上で提供されるデータの内容を、ブラウザ装置に対して音声データとして提供するために、コンピュータを、
前記データを受信する手段、
受信した前記データに基づいて、その一部又は全部の内容を示す音声データを作成する手段、
作成した音声データを格納する手段、
前記データに、前記音声データを格納した場所を示す識別子を付加したデータを作成する手段、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、
として機能させるプログラムを記録した記録媒体。 - ネットワーク上で提供されるデータに対して、ブラウザ装置から音声により返答するために、コンピュータを、
前記データを受信する手段、
受信した前記データの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段、
前記データに、前記ブラウザ装置が音声データにより前記返答を行う場合の受付先を示す識別子を付加したデータを作成する手段、
前記識別子を付加したデータを前記ブラウザ装置に対して提供する手段、
として機能させるプログラムを記録した記録媒体。 - 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項1乃至6のいずれかに記載のデータ処理装置。
- 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項7乃至9のいずれかに記載のブラウザシステム。
- 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項10乃至15のいずれかに記載のデータ処理方法。
- 前記データが、マークアップ言語で記述されたデータであり、前記識別子は、該マークアップ言語に対応したタグとして前記データに付加されることを特徴とする請求項16又は17に記載の記録媒体。
- サーバ及びブラウザ装置とネットワークを介して通信可能なデータ処理装置であって、
前記サーバより提供されるデータに基づいて、その一部又は全部の内容を示す音声データを作成する手段と、
作成した音声データを格納する手段と、
前記提供されるデータに、前記音声データを格納した場所を示す第1の識別子を付加する手段と、
前記提供されるデータの内容に、前記ブラウザ装置からの返答を要求する内容があるか否かを判定する手段と、
前記返答を要求する内容がある場合に、前記第1の識別子を付加したデータに返答の受付先を示す第2の識別子を更に付加する手段と、
前記第1の識別子、或いは、前記第1及び第2の識別子、を付加したデータを前記ブラウザ装置に対して提供する手段と、
前記ブラウザ装置から前記受付先へ前記返答に係る音声データが供給された場合に、当該音声データに対して音声認識を行う認識手段と、
前記認識手段の認識結果に基づいて、前記返答を受け付ける前記サーバに適応した形式の返答データを作成する手段と、
前記返答データを前記サーバに提供する手段と、
を備えたことを特徴とするデータ処理装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099418A JP3862470B2 (ja) | 2000-03-31 | 2000-03-31 | データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 |
US09/817,345 US7251602B2 (en) | 2000-03-31 | 2001-03-27 | Voice browser system |
EP01302942A EP1139335B1 (en) | 2000-03-31 | 2001-03-29 | Voice browser system |
DE60123153T DE60123153T2 (de) | 2000-03-31 | 2001-03-29 | Sprachgesteuertes Browsersystem |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000099418A JP3862470B2 (ja) | 2000-03-31 | 2000-03-31 | データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001282503A JP2001282503A (ja) | 2001-10-12 |
JP3862470B2 true JP3862470B2 (ja) | 2006-12-27 |
Family
ID=18613778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000099418A Expired - Fee Related JP3862470B2 (ja) | 2000-03-31 | 2000-03-31 | データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7251602B2 (ja) |
EP (1) | EP1139335B1 (ja) |
JP (1) | JP3862470B2 (ja) |
DE (1) | DE60123153T2 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1156751C (zh) * | 2001-02-02 | 2004-07-07 | 国际商业机器公司 | 用于自动生成语音xml文件的方法和系统 |
ITTO20010179A1 (it) * | 2001-02-28 | 2002-08-28 | Cselt Centro Studi Lab Telecom | Sistema e metodo per l'accesso a strutture multimediali. |
GB2381409B (en) * | 2001-10-27 | 2004-04-28 | Hewlett Packard Ltd | Asynchronous access to synchronous voice services |
JP3880383B2 (ja) * | 2001-12-04 | 2007-02-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
US20030121002A1 (en) * | 2001-12-20 | 2003-06-26 | Stuart Goose | Method and system for exchanging information through speech via a packet-oriented network |
WO2003063137A1 (en) * | 2002-01-22 | 2003-07-31 | V-Enable, Inc. | Multi-modal information delivery system |
SE0202058D0 (sv) * | 2002-07-02 | 2002-07-02 | Ericsson Telefon Ab L M | Voice browsing architecture based on adaptive keyword spotting |
EP1394692A1 (en) * | 2002-08-05 | 2004-03-03 | Alcatel | Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal |
US7571100B2 (en) * | 2002-12-03 | 2009-08-04 | Speechworks International, Inc. | Speech recognition and speaker verification using distributed speech processing |
JP4553246B2 (ja) * | 2004-11-26 | 2010-09-29 | 富士通株式会社 | ウェブ画面作成方法、プログラム及びサーバ |
JP2007034487A (ja) * | 2005-07-25 | 2007-02-08 | Canon Inc | 情報処理装置及びその制御方法、コンピュータプログラム |
JP2007081765A (ja) * | 2005-09-14 | 2007-03-29 | Nippon Hoso Kyokai <Nhk> | マルチメディアコンテンツ生成装置及び番組情報配信装置並びに携帯端末装置 |
JP4700451B2 (ja) * | 2005-09-16 | 2011-06-15 | 日本放送協会 | 番組情報配信装置並びに携帯端末装置 |
US8102975B2 (en) * | 2007-04-04 | 2012-01-24 | Sap Ag | Voice business client |
JP2010282429A (ja) * | 2009-06-04 | 2010-12-16 | Canon Inc | 画像処理装置及びその制御方法 |
KR20130016644A (ko) * | 2011-08-08 | 2013-02-18 | 삼성전자주식회사 | 음성인식장치, 음성인식서버, 음성인식시스템 및 음성인식방법 |
CN105592239A (zh) * | 2016-02-05 | 2016-05-18 | 郑歆明 | 一种语音网关 |
TWI672690B (zh) * | 2018-03-21 | 2019-09-21 | 塞席爾商元鼎音訊股份有限公司 | 人工智慧語音互動之方法、電腦程式產品及其近端電子裝置 |
CN114546324B (zh) * | 2020-11-11 | 2024-09-17 | 上海哔哩哔哩科技有限公司 | 音频处理方法及装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6240448B1 (en) * | 1995-12-22 | 2001-05-29 | Rutgers, The State University Of New Jersey | Method and system for audio access to information in a wide area computer network |
US5884262A (en) * | 1996-03-28 | 1999-03-16 | Bell Atlantic Network Services, Inc. | Computer network audio access and conversion system |
JPH10124293A (ja) | 1996-08-23 | 1998-05-15 | Osaka Gas Co Ltd | 音声指令可能なコンピュータとそれ用の媒体 |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
JP3826239B2 (ja) * | 1996-11-22 | 2006-09-27 | 日本電信電話株式会社 | ハイパーテキスト中継方法及び装置 |
US6125376A (en) | 1997-04-10 | 2000-09-26 | At&T Corp | Method and apparatus for voice interaction over a network using parameterized interaction definitions |
US6094677A (en) * | 1997-05-30 | 2000-07-25 | International Business Machines Corporation | Methods, systems and computer program products for providing insertions during delays in interactive systems |
JP3789614B2 (ja) * | 1997-10-02 | 2006-06-28 | 日本電信電話株式会社 | ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体 |
JP4462649B2 (ja) * | 1997-11-27 | 2010-05-12 | ソニー株式会社 | 情報処理装置、情報処理方法および情報処理システム |
JP4197195B2 (ja) * | 1998-02-27 | 2008-12-17 | ヒューレット・パッカード・カンパニー | 音声情報の提供方法 |
US6269336B1 (en) | 1998-07-24 | 2001-07-31 | Motorola, Inc. | Voice browser for interactive services and methods thereof |
US6510413B1 (en) * | 2000-06-29 | 2003-01-21 | Intel Corporation | Distributed synthetic speech generation |
-
2000
- 2000-03-31 JP JP2000099418A patent/JP3862470B2/ja not_active Expired - Fee Related
-
2001
- 2001-03-27 US US09/817,345 patent/US7251602B2/en not_active Expired - Fee Related
- 2001-03-29 EP EP01302942A patent/EP1139335B1/en not_active Expired - Lifetime
- 2001-03-29 DE DE60123153T patent/DE60123153T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE60123153D1 (de) | 2006-11-02 |
US7251602B2 (en) | 2007-07-31 |
EP1139335B1 (en) | 2006-09-20 |
DE60123153T2 (de) | 2007-01-25 |
JP2001282503A (ja) | 2001-10-12 |
US20010049604A1 (en) | 2001-12-06 |
EP1139335A2 (en) | 2001-10-04 |
EP1139335A3 (en) | 2001-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3862470B2 (ja) | データ処理装置及び方法、ブラウザシステム、ブラウザ装置、記録媒体 | |
US7640163B2 (en) | Method and system for voice activating web pages | |
US8781840B2 (en) | Retrieval and presentation of network service results for mobile device using a multimodal browser | |
US8032577B2 (en) | Apparatus and methods for providing network-based information suitable for audio output | |
US8635218B2 (en) | Generation of XSLT style sheets for different portable devices | |
US7890506B2 (en) | User interface control apparatus and method thereof | |
US20050010422A1 (en) | Speech processing apparatus and method | |
JPH11136394A (ja) | データ出力システムおよびデータ出力方法 | |
JP2005149484A (ja) | 逐次的なマルチモーダル入力 | |
JP2004310748A (ja) | ユーザ入力に基づくデータの提示 | |
JP6254209B2 (ja) | 音声を利用できるテルネットインターフェイス | |
KR20050045817A (ko) | 순차 멀티모달 입력 | |
JPH11249867A (ja) | 音声ブラウザシステム | |
MXPA04006532A (es) | Uso combinado de un lenguaje de marca por pasos y una herramienta de desarrollo orientada por objetos. | |
JPH07222248A (ja) | 携帯型情報端末における音声情報の利用方式 | |
JPH11110186A (ja) | ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体 | |
US20030182129A1 (en) | Dialog system and dialog control system | |
KR20070119153A (ko) | 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법 | |
CN1983284A (zh) | 模态同步控制方法及多模态界面系统 | |
JP2001075968A (ja) | 情報検索方法及びそれを記録した記録媒体 | |
JP2005181358A (ja) | 音声認識合成システム | |
US7246126B2 (en) | Communications system for retrieving instruction files from a server | |
JP3987172B2 (ja) | 対話型コミュニケーション端末装置 | |
JP2001273294A (ja) | 翻訳方法、翻訳システム、翻訳サーバ、記録媒体および情報伝送媒体 | |
KR100277834B1 (ko) | 도서 낭독 시스템 및 서비스 처리 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050318 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060926 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091006 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101006 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101006 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111006 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111006 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121006 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131006 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |