JP4725512B2 - 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム - Google Patents
音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム Download PDFInfo
- Publication number
- JP4725512B2 JP4725512B2 JP2006511243A JP2006511243A JP4725512B2 JP 4725512 B2 JP4725512 B2 JP 4725512B2 JP 2006511243 A JP2006511243 A JP 2006511243A JP 2006511243 A JP2006511243 A JP 2006511243A JP 4725512 B2 JP4725512 B2 JP 4725512B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- voice
- processing
- voice processing
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/14—Session management
- H04L67/146—Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/26—Network addressing or numbering for mobility support
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
- Information Transfer Between Computers (AREA)
Description
図3は、本発明の第1の実施例の構成を示す図であり、セッション毎に生成されるセッションIDを生成するセッションID生成部を、Webサーバ20が具備している。
図4は、本発明の第2の実施例の構成を示す図であり、クライアント10が保持するIDを、固有IDとして用いる構成を具備している。予めクライアント10が保持するIDをクライアント固有のID(固有ID)として用いる場合、又は、予めクライアント10が保持するIDを用いて、クライアント固有のID(固有ID)を生成する場合の処理手順について説明する。
図5は、本発明の第3の実施例の構成を示す図であり、セッション毎に生成されるセッションIDを生成するセッションID生成部を、音声処理サーバ30が具備している。図5を参照して、本実施例の処理手順について説明する。クライアント10から音声処理サーバ30に音声情報送信のためのアクセスが行われた時点で、音声処理サーバ30のセッションID生成部31にてセッションIDが生成され、クライアント10に通知される。
・画面(HTML、XML等)内のタグ情報として埋め込むか、あるいは、
・パケットのヘッダ情報として埋め込む、
ようにしてもよい。
・音声情報のパケットのヘッダ情報として埋め込むか、あるいは、
・音声情報の一部として埋め込む、
ようにしてもよい。
・音声処理結果情報のパケットのヘッダ情報として送信するか、あるいは
・音声処理結果の一部として含める、
ようにしてもよい。
以下、具体例に即してさらに詳細に説明する。
図2を参照して、本発明の音声処理システムの第1の具体例について説明する。クライアント10は、ネットワーク(パケット網)40を介して、Webサーバ20と音声処理サーバ30に接続される。クライアントとして、携帯端末、PDA(Personal Digital Assistant)、車載端末、PC(パソコン)、ホーム端末等を挙げることができる。また、Webサーバ20、音声処理サーバ30としては、OS(オペレーティングシステム)として、WindowsXP(登録商標)、Windows2000(登録商標)等を搭載したコンピュータや、OSとしてSolaris(登録商標)を搭載したコンピュータを一例として挙げることができる。ネットワーク(パケット網)40として、インターネット(有線/無線)、イントラネット等のIP網が用いられる。
・Webサーバ20にて生成された画面中のタグ情報として記述するか、あるいは、
・パケットのヘッダとして記述する
ようにしてもよい。
・音声データパケットのヘッダ情報として含めるか、あるいは、
・音声データの一部として含める
ようにしてもよい。
・音声処理結果送信のパケットのヘッダ情報として含めるか、あるいは、
・音声処理結果の一部として送信する
ようにしてもよい。
・クライアント10、音声処理サーバ30間で対話を行う場合、
・音声処理サーバ30が、音声処理結果を利用して、検索等の処理を行う場合、
・Webサーバ20が、音声処理結果を利用して、検索等の処理を行う場合
等、様々な処理に利用可能である。
次に、本発明の第2の具体例について説明する。本具体例では、図4に示すように、予めクライアント10が保持するIDを、クライアント固有のID(固有ID)として用いる場合、又は、予めクライアントが保持するIDを用いて、クライアント固有のID(固有ID)を生成する構成とされる。
・クライアント10、音声処理サーバ30間で対話を行う場合、
・音声処理サーバ30が処理結果を利用して検索等の処理を行う場合、
・Webサーバ20が、音声処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。
次に、本発明の第3の具体例について説明する。本具体例は、セッションIDを生成する処理部を音声処理サーバ30が具備している。図11は、音声処理サーバ30の構成を示す図である。図11を参照すると、本具体例の音声処理サーバ30は、図8に示した音声処理サーバ30にセッションID生成部340が追加されている。なお、本具体例のクライアント10は、図6に示す構成とされ、Webサーバ20は図10に示す構成とされる。以下、本具体例の動作について説明する。
・クライアント10、音声処理サーバ30間で対話を行う場合、
・音声処理サーバ30が処理結果を利用して検索等の処理を行う場合、
・Webサーバ20が処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。
次に、本発明を適用した具体例としてクライアント10での操作画面の一例について説明する。図15は、図12を参照してシーケンス動作を説明した本発明の第1の具体例におけるクライアント10の画面表示部140に表示される画面(ページ)の推移の一例を例示した図である。以下、図15及び図12を参照して、本発明の第1の具体例におけるクライアント10の画面表示について説明する。
画面1001は、Webサーバ20からダウンロードした画面(「地図検索」のトップページ)であり、「音声入力」ボタン1011には、CGI(例えば、http://….jp/a.cgi)がリンクされいる。ユーザが、画面上に表示される「音声入力」ボタン1011をクリックしてサービス要求を行う(図12のステップS101に対応する)。すると、Webサーバ20では、”a.cgi”というプロセス(CGIプログラム)が起動され、入力された情報が引き渡される。CGIプログラムの処理結果を基に、Webサーバ20でHTMLを作成し、クライアント10に応答として返す。
「音声入力」画面1002が表示され、『検索したい地図の住所を「東京都港区三田」のように発声してください。』と表示される(図12のステップS102〜S104に対応する)。IDは、画面中タグとして埋め込まれる。この画面1002の状態で、ユーザは、音声入力(発話)を行う。画面上で「結果を表示」ボタン1012には、IDごとに生成されたページ(http://…/b.ID.html)がリンクされている。画面上でユーザが「結果を表示」ボタン1012をクリックすると、次の画面1003のように、音声処理サーバ30で音声認識された認識結果が表示される。なお、画面1003の認識結果画面は、Webサーバ20からクライアント10にダウンロードされたものを表示したものである。
クライアント10に「認識結果」画面1003が表示され、『結果は、「東京都港区三田」ですね?』と表示され、画面上には「地図を表示」ボタン1013が表示される。
ユーザが画面上で「地図を表示」ボタン1013をクリックすることで、Webサーバ20からコンテンツ情報がダウンロードされ(図12のステップ106に対応する)、地図画面(ページ)1004が表示される。
あるいは別の例としては、図15又は図16の画面1004に、「TOPページ」へというボタンを作成しておく。ユーザが、画面1004上で「TOPページ」をクリックすることで、図15又は図16の画面1001のページに戻るため、再度「音声入力」のプロセスが可能となる。
・音声で住所を発声して地図を表示させるサービス、
・音声で検索したい文章を発声してマニュアルを表示するようなサービス、
・音声で曲名を発声して曲をダウンロードするサービス
等に適用して好適とされる。
Claims (6)
- 入力された音声情報を送信するとともに、受信した情報を出力する端末と、
前記端末からの音声情報に基づき音声処理を行う音声処理装置と、
前記音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を前記端末に送信する情報提供装置とを備え、
前記端末は、
音声処理要求信号を前記音声処理装置に送信する第1の送信手段と、
前記音声処理要求信号の応答として前記音声処理装置から送信される、前記音声情報に基づいて行われる一連の処理に対応する処理識別情報を受信する第1の受信手段と、
受信された前記処理識別情報を前記情報提供装置に送信する第2の送信手段と、
入力された前記音声情報を前記処理識別情報とともに前記音声処理装置に送信する第3の送信手段と、
前記情報提供装置から送信される前記情報を受信して出力する第2の受信手段とを備え、
前記音声処理装置は、
前記端末からの前記音声処理要求信号を受信する第1の受信手段と、
前記音声処理要求信号が受信されたときに前記処理識別情報を生成する識別情報生成手段と、
生成された前記処理識別情報を前記端末に送信する第1の送信手段と、
前記端末からの前記音声情報及び前記処理識別情報を受信する第2の受信手段と、
前記端末からの前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果及び前記端末からの前記処理識別情報を前記情報提供装置に送信する第2の送信手段とを備え、
前記情報提供装置は、
前記端末からの前記処理識別情報と、前記音声処理装置からの前記音声処理結果及び前記処理識別情報とを受信する受信手段と、
前記音声処理装置からの前記処理識別情報に対応させて前記音声処理結果を反映した前記情報を生成する情報管理手段と、
前記情報管理手段で生成された前記情報を前記端末に送信する送信手段とを備える
ことを特徴とする音声処理システム。 - 請求項1に記載の音声処理システムにおいて、
前記端末は、
サービス要求時、サービス要求信号を前記情報提供装置に送信する第4の送信手段と、
前記情報提供装置からの提示情報を受信して出力する第3の受信手段とをさらに備え、
前記情報提供装置の前記受信手段は、前記端末からの前記サービス要求信号を受信し、
前記情報提供装置の前記情報管理手段は、前記端末からの前記サービス要求信号に基づき前記端末に提示する前記提示情報を生成し、
前記情報提供装置の前記送信手段は、前記サービス要求信号に基づき生成された前記提示情報を前記端末に送信する
ことを特徴とする音声処理システム。 - 入力された音声情報を送信するとともに、受信した情報を出力する端末と、前記端末からの音声情報に基づき音声処理を行う音声処理装置と、前記音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を前記端末に送信する情報提供装置とを備える音声処理システムで用いられる音声処理方法であって、
前記端末が、音声処理要求信号を前記音声処理装置に送信するステップと、
前記音声処理装置が、前記端末からの前記音声処理要求信号の受信に応じて、前記音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成し、前記端末に送信するステップと、
前記端末が、前記音声処理要求信号の応答として前記音声処理装置から送信される前記処理識別情報を受信し、前記処理識別情報を前記情報提供装置に送信するステップと、
前記情報提供装置が、前記端末からの前記処理識別情報を受信するステップと、
前記端末が、入力された前記音声情報を前記処理識別情報とともに前記音声処理装置に送信するステップと、
前記音声処理装置が、前記端末からの前記音声情報及び前記処理識別情報を受信し、前記音声情報の音声処理を行い、得られた前記音声処理結果及び前記端末からの前記処理識別情報を前記情報提供装置に送信するステップと、
前記情報提供装置が、前記音声処理装置からの前記音声処理結果及び前記処理識別情報とを受信し、前記処理識別情報に対応させて前記音声処理結果を反映した前記情報を生成して前記端末に送信するステップと
を備えることを特徴とする音声処理方法。 - 請求項3に記載の音声処理方法において、
前記端末が、サービス要求時、サービス要求信号を前記情報提供装置に送信するステップと、
前記情報提供装置が、前記端末からの前記サービス要求信号の受信に応じて、前記サービス要求信号に基づき前記端末に提示する提示情報を生成して前記端末に送信するステップと、
前記端末が、前記情報提供装置からの前記提示情報を受信して出力するステップと
をさらに備えることを特徴とする音声処理方法。 - クライアントからの音声処理要求信号を受信する第1の受信手段と、
前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、
前記処理識別情報を前記クライアントに送信する第1の送信手段と、
前記クライアントからの前記音声情報及び前記処理識別情報を受信する第2の受信手段と、
前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、
前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成し前記クライアントに送信する情報提供サーバに送信する第2の送信手段と
を備えることを特徴とする音声処理サーバ装置。 - コンピュータを、請求項5に記載の音声処理サーバ装置を構成する各部として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006511243A JP4725512B2 (ja) | 2004-03-18 | 2005-03-18 | 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004079078 | 2004-03-18 | ||
JP2004079078 | 2004-03-18 | ||
PCT/JP2005/004959 WO2005091128A1 (ja) | 2004-03-18 | 2005-03-18 | 音声処理装置とシステム及び音声処理方法 |
JP2006511243A JP4725512B2 (ja) | 2004-03-18 | 2005-03-18 | 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2005091128A1 JPWO2005091128A1 (ja) | 2008-05-22 |
JP4725512B2 true JP4725512B2 (ja) | 2011-07-13 |
Family
ID=34993882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006511243A Active JP4725512B2 (ja) | 2004-03-18 | 2005-03-18 | 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7835728B2 (ja) |
JP (1) | JP4725512B2 (ja) |
WO (1) | WO2005091128A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3885523B2 (ja) * | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
US8650030B2 (en) * | 2007-04-02 | 2014-02-11 | Google Inc. | Location based responses to telephone requests |
JP2008287674A (ja) * | 2007-05-21 | 2008-11-27 | Olympus Corp | 情報処理装置、クライアント装置、情報処理システム及びサービス接続方法 |
US10354689B2 (en) | 2008-04-06 | 2019-07-16 | Taser International, Inc. | Systems and methods for event recorder logging |
CN103871410B (zh) * | 2012-12-11 | 2017-09-29 | 联想(北京)有限公司 | 一种数据处理方法和装置 |
CN104967622B (zh) * | 2015-06-30 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 基于声纹的通讯方法、装置和系统 |
US11172293B2 (en) * | 2018-07-11 | 2021-11-09 | Ambiq Micro, Inc. | Power efficient context-based audio processing |
CN113542260B (zh) * | 2021-07-12 | 2023-05-09 | 宏图智能物流股份有限公司 | 一种基于分发方式的仓库用语音传输方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000040051A (ja) * | 1998-07-23 | 2000-02-08 | Toyo Commun Equip Co Ltd | クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置 |
JP2002359688A (ja) * | 2001-03-30 | 2002-12-13 | Ntt Comware Corp | 音声認識による情報提供サーバならびにその方法 |
JP2003125109A (ja) * | 2001-10-18 | 2003-04-25 | Hitachi Software Eng Co Ltd | 音声入力サービス提供方法及びシステム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5717740A (en) * | 1995-12-27 | 1998-02-10 | Lucent Technologies Inc. | Telephone station account number dialing device and method |
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US6636596B1 (en) * | 1999-09-24 | 2003-10-21 | Worldcom, Inc. | Method of and system for providing intelligent network control services in IP telephony |
JP3452250B2 (ja) | 2000-03-15 | 2003-09-29 | 日本電気株式会社 | 無線携帯端末通信システム |
US6654722B1 (en) * | 2000-06-19 | 2003-11-25 | International Business Machines Corporation | Voice over IP protocol based speech system |
JP3885523B2 (ja) | 2001-06-20 | 2007-02-21 | 日本電気株式会社 | サーバ・クライアント型音声認識装置及び方法 |
-
2005
- 2005-03-18 JP JP2006511243A patent/JP4725512B2/ja active Active
- 2005-03-18 WO PCT/JP2005/004959 patent/WO2005091128A1/ja active Application Filing
- 2005-03-18 US US10/593,041 patent/US7835728B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000040051A (ja) * | 1998-07-23 | 2000-02-08 | Toyo Commun Equip Co Ltd | クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置 |
JP2002359688A (ja) * | 2001-03-30 | 2002-12-13 | Ntt Comware Corp | 音声認識による情報提供サーバならびにその方法 |
JP2003125109A (ja) * | 2001-10-18 | 2003-04-25 | Hitachi Software Eng Co Ltd | 音声入力サービス提供方法及びシステム |
Also Published As
Publication number | Publication date |
---|---|
US20070143102A1 (en) | 2007-06-21 |
US7835728B2 (en) | 2010-11-16 |
JPWO2005091128A1 (ja) | 2008-05-22 |
WO2005091128A1 (ja) | 2005-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4725512B2 (ja) | 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム | |
KR101027548B1 (ko) | 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 | |
KR100430953B1 (ko) | 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법 | |
US7003463B1 (en) | System and method for providing network coordinated conversational services | |
US7529540B2 (en) | Method and system for invoking push-to-service offerings | |
US7739350B2 (en) | Voice enabled network communications | |
US20060064499A1 (en) | Information retrieval system including voice browser and data conversion server | |
JP2002049559A (ja) | 会話ブラウズおよびマルチメディア・ブロードキャスト・オン・デマンドを提供する会話ポータル | |
JP2002163143A (ja) | 無線サイトのコンテンツ・リフォーマッティング・システム及びその方法 | |
US20080275937A1 (en) | Control Device, Method and Program for Providing Information | |
US20030091016A1 (en) | System and method for providing web content provision service using subscriber terminal in exchange system | |
US8254898B2 (en) | Message handling based on the state of a telecommunications terminal | |
KR20060118221A (ko) | 싱크 서버를 이용한 컨텐츠 공유 시스템 및 방법 | |
CN1620018A (zh) | 通过个人计算系统访问语音服务的方法和系统 | |
US20090012888A1 (en) | Text-to-speech streaming via a network | |
KR100834134B1 (ko) | 휴대용 단말기에서 윙크서비스를 이용한 통화연결 방법 및그 시스템 | |
US8073930B2 (en) | Screen reader remote access system | |
JP6396685B2 (ja) | 呼制御装置、受信機及びそれらの制御方法 | |
KR100536911B1 (ko) | 인터넷 전화 서비스 제공 시스템 및 방법 | |
JP4813798B2 (ja) | ネットワークのオーディオデータを処理する方法およびその方法を実行する装置 | |
JPH11234451A (ja) | 情報取得システム | |
KR20020082339A (ko) | 자바 API 기반의 통합음성서비스 장치와 이를 이용한VoIP서비스 제공방법 | |
KR20020084337A (ko) | 웹브라우저의 url입력창을 이용한 통신 시스템 및 방법 | |
KR100785101B1 (ko) | 무선 인터넷 단말기에서의 전화번호 정보 처리방법 | |
JP2002359688A (ja) | 音声認識による情報提供サーバならびにその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4725512 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |