JP4725512B2 - 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム - Google Patents

音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム Download PDF

Info

Publication number
JP4725512B2
JP4725512B2 JP2006511243A JP2006511243A JP4725512B2 JP 4725512 B2 JP4725512 B2 JP 4725512B2 JP 2006511243 A JP2006511243 A JP 2006511243A JP 2006511243 A JP2006511243 A JP 2006511243A JP 4725512 B2 JP4725512 B2 JP 4725512B2
Authority
JP
Japan
Prior art keywords
information
voice
processing
voice processing
terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006511243A
Other languages
English (en)
Other versions
JPWO2005091128A1 (ja
Inventor
栄子 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2006511243A priority Critical patent/JP4725512B2/ja
Publication of JPWO2005091128A1 publication Critical patent/JPWO2005091128A1/ja
Application granted granted Critical
Publication of JP4725512B2 publication Critical patent/JP4725512B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/14Session management
    • H04L67/146Markers for unambiguous identification of a particular session, e.g. session cookie or URL-encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W8/00Network data management
    • H04W8/26Network addressing or numbering for mobility support

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephonic Communication Services (AREA)
  • Computer And Data Communications (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、音声処理技術に関し、特に、端末(クライアント)側で入力された音声情報をネットワークを通して音声処理装置に送信して処理を行うシステム、装置及び方法に関する。
この種の従来のシステムとして、携帯電話端末(クライアント)から、Phone-to機能等を用いて音声処理サーバに電話接続し、ユーザの発声を音声処理(音声認識、話者照合等の処理)し、結果を音声処理サーバからWebサーバに送信し、Webサーバにて処理結果を反映させた画面を作成し、携帯電話端末にて画面をダウンロードして表示する枠組みにおいて、音声処理と画面とを連動させた技術が知られている(例えば、特許第3452250号公報(文献1)を参照)。この従来のシステムでは、図1に示すように、携帯電話端末11と音声処理サーバ13とは回線交換網15を通してデータの送受信を行い、携帯電話端末11とWebサーバ12とはパケット網14を通してデータの送受信を行う。
Webサーバ12と音声処理サーバ13に、複数台の携帯電話端末11からアクセスがある場合、音声処理した結果を、画面に反映させて携帯電話端末11に表示させるために、Webサーバ12から携帯電話端末11にダウンロードされる画面と、携帯電話端末11から音声処理サーバ13へ送信される音声データとの関係を把握する技術が必要となる。
図1に示した従来のシステムでは、携帯電話端末11の端末IDと、携帯電話端末番号とを紐付けしておくことで、画面情報をダウンロードする端末と、音声データを送信する端末とを、Webサーバ12側と音声処理サーバ13とで一意に把握する機構とされている。
一方、近年、携帯情報端末(PDA)や車載端末等のクライアントから特徴ベクトルや圧縮された音声データ等の音声情報を、パケット網を通して音声処理サーバに送信し、音声処理(音声認識、話者照合等の処理)を行う技術が知られている(例えば、特開2003−5949号公報(文献2)を参照)。
文献2に記載されたシステムでは、処理結果を表に示したり、処理結果をもとに検索した結果を、画面に示したりするようなコンテンツを動作させることが可能となる。
上記文献2に記載されたシステムでは、パケット網を通してデータの送受信を行うような音声処理の枠組みにおいても、クライアントにダウンロードされた画面とクライアントから送信された音声データとの関係をサーバ側で把握する技術が必要である。
また、上記文献1の従来技術は、電話番号と携帯電話端末端末IDを紐付けする方法であるため、電話番号を必要としないパケット網を用いた前述の音声処理の枠組みにおいては、使用することができない技術である。そのため、パケット網を通してクライアント、音声処理サーバ、Webサーバ間でデータの送受信を行う音声処理の枠組みにおいて、クライアントにダウンロードされた画面とクライアントから送信された音声データとの関係をサーバ側で把握する技術が新たに必要となる。
したがって、本発明の目的は、Webサーバ等の情報提供サーバ(情報提供装置)からクライアント(端末)にダウンロードされる情報と、クライアントから音声処理サーバ(音声処理装置)へ送信される音声情報との関係をサーバ側で掌握可能とすることにある。
また、本発明の他の目的は、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた場合であっても、音声処理結果を反映させた適正な情報をダウンロードできるようにすることにある。
このような目的を達成するために、本発明に係る音声処理システムは、入力された音声情報を送信するとともに、受信した情報を出力する端末と、端末からの音声情報に基づき音声処理を行う音声処理装置と、音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を端末に送信する情報提供装置とを備え、端末は、音声処理要求信号を音声処理装置に送信する第1の送信手段と、音声処理要求信号の応答として音声処理装置から送信される、音声情報に基づいて行われる一連の処理に対応する処理識別情報を受信する第1の受信手段と、受信された処理識別情報を情報提供装置に送信する第2の送信手段と、入力された音声情報を処理識別情報とともに音声処理装置に送信する第3の送信手段と、情報提供装置から送信される情報を受信して出力する第2の受信手段とを備え、音声処理装置は、端末からの音声処理要求信号を受信する第1の受信手段と、音声処理要求信号が受信されたときに処理識別情報を生成する識別情報生成手段と、生成された処理識別情報を端末に送信する第1の送信手段と、端末からの音声情報及び処理識別情報を受信する第2の受信手段と、端末からの音声情報の音声処理を行う音声処理実行手段と、音声処理実行手段による音声処理結果及び端末からの処理識別情報を情報提供装置に送信する第2の送信手段とを備え、情報提供装置は、端末からの処理識別情報と、音声処理装置からの音声処理結果及び処理識別情報とを受信する受信手段と、音声処理装置からの処理識別情報に対応させて音声処理結果を反映した情報を生成する情報管理手段と、情報管理手段で生成された情報を端末に送信する送信手段とを備えることを特徴とする。
また、本発明に係る音声処理方法は、入力された音声情報を送信するとともに、受信した情報を出力する端末と、端末からの音声情報に基づき音声処理を行う音声処理装置と、音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を端末に送信する情報提供装置とを備える音声処理システムで用いられる音声処理方法であって、端末が、音声処理要求信号を音声処理装置に送信するステップと、音声処理装置が、端末からの音声処理要求信号の受信に応じて、音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成し、端末に送信するステップと、端末が、音声処理要求信号の応答として音声処理装置から送信される処理識別情報を受信し、処理識別情報を情報提供装置に送信するステップと、情報提供装置が、端末からの処理識別情報を受信するステップと、端末が、入力された音声情報を処理識別情報とともに音声処理装置に送信するステップと、音声処理装置が、端末からの音声情報及び処理識別情報を受信し、音声情報の音声処理を行い、得られた音声処理結果及び端末からの処理識別情報を情報提供装置に送信するステップと、情報提供装置が、音声処理装置からの音声処理結果及び処理識別情報とを受信し、処理識別情報に対応させて音声処理結果を反映した情報を生成して端末に送信するステップとを備えることを特徴とする。
また、本発明に係る音声処理サーバ装置は、クライアントからの音声処理要求信号を受信する第1の受信手段と、音声処理要求信号が受信されたときに、クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、処理識別情報をクライアントに送信する第1の送信手段と、クライアントからの音声情報及び処理識別情報を受信する第2の受信手段と、クライアントからの音声情報の音声処理を行う音声処理実行手段と、音声処理実行手段による音声処理結果及びクライアントからの処理識別情報を、処理識別情報に対応させて音声処理結果を反映した情報を生成しクライアントに送信する情報提供サーバに送信する第2の送信手段とを備えることを特徴とする。
また、本発明に係るプログラムは、上記音声処理サーバ装置を構成する各部として機能させるためのプログラムである。
本発明では、クライアント(端末)、音声処理サーバ(音声処理装置)及び情報提供サーバ(情報提供装置)が、音声情報に基づいて音声処理サーバ及び情報提供サーバで行われる一連の処理に対応する処理識別情報を共用することにより、情報提供サーバからクライアントにダウンロードされる情報と、クライアントから音声処理サーバへ送信される音声情報との関係をサーバ側で掌握することが可能となる。その結果、音声処理サーバ及び情報提供サーバに複数台のクライアントからアクセスされた場合であっても、ユーザは、音声処理結果を反映させた適正な情報をダウンロードすることができる。
これによって、例えば、ユーザが発声した音声情報をもとに検索等の処理を行った結果を画面に表示する、又は、ユーザが発声した音声情報をもとに適切な情報をダウンロードするといった、音声処理と画面とを連動させたコンテンツの提供が可能となる。
図1は、従来のシステムの構成を示す図である。 図2は、本発明の一実施例の構成を示す図である。 図3は、本発明の第1の実施例の構成を示す図である。 図4は、本発明の第2の実施例の構成を示す図である。 図5は、本発明の第3の実施例の構成を示す図である。 図6は、本発明の第1の具体例におけるクライアントの構成を示す図である。 図7は、本発明の第1の具体例におけるWebサーバの構成を示す図である。 図8は、本発明の第1の具体例における音声処理サーバの構成を示す図である。 図9は、本発明の第2の具体例におけるクライアントの構成を示す図である。 図10は、本発明の第2の具体例におけるWebサーバの構成を示す図である。 図11は、本発明の第3の具体例における音声処理サーバの構成を示す図である。 図12は、本発明の第1の具体例の動作を説明するための図である。 図14は、本発明の第2の具体例の動作を説明するための図である。 図14は、本発明の第3の具体例の動作を説明するための図である。 図15は、本発明の第1の具体例におけるクライアントに表示される画面(ページ)の推移の一例を説明するための図である。 図16は、本発明の第1の具体例におけるクライアントに表示される画面(ページ)の推移の他の例を説明するための図である。
以下、本発明の実施例について、図面を参照しながら詳細に説明する。
図2を参照すると、本発明の実施例では、クライアント(端末)10と、Webサーバ(情報提供サーバ、情報提供装置)20と、音声処理サーバ(音声処理装置)30とがネットワーク接続されている。クライアント10は、音声データ入力部、及び、ブラウザ機能を具備し、ネットワークとしてIP網等のパケット網40に接続する通信機能を具備する。クライアント10とWebサーバ20と音声処理サーバ30は、音声データに基づいてWebサーバ20と音声処理サーバ30で行われる一連の処理に対応する処理識別情報を共用する。処理識別情報としては、例えば発話処理のセッションに対応して付与されるID(「セッションID」という)、又は、クライアント10が保持する固有IDを用いることができる。このような処理識別情報を共用することで、Webサーバ20からクライアント10にダウンロードされる画面と、クライアント10から音声処理サーバ30に送信される音声データとの対応関係を把握可能としている。
[第1の実施例]
図3は、本発明の第1の実施例の構成を示す図であり、セッション毎に生成されるセッションIDを生成するセッションID生成部を、Webサーバ20が具備している。
図3を参照して、本実施例の処理の手順を説明する。クライアント10からWebサーバ20に音声処理を使用するサービスの要求があった時点で、Webサーバ20にてセッションIDが生成される。
生成されたセッションIDは、Webサーバ20から画面情報を、クライアント10がダウンロードする時点で、Webサーバ20からクライアント10に送信される。セッションIDの送信の仕方として、例えば、画面情報に含めて送信してもよい。
クライアント10は、入力音声の音声情報を音声処理サーバ30に送信する際に、Webサーバ20から受信したセッションIDを、音声処理サーバ30へ送信する。IDの送信の仕方としては、音声情報に含めるようにしてもよいし、別途送信してもよい。
音声処理サーバ30では、受信した音声情報をもとに、音声処理(音声認識、話者照合等)を行う。音声処理サーバ30は、音声処理結果をWebサーバ20に送信する時点でセッションIDも送信する。セッションIDの送信の仕方については、音声処理結果に含めるようにしてもよい。
Webサーバ20ではセッションID情報により、音声処理サーバ30での音声処理結果とサービス要求のあったクライアント10とを関連付けることが可能となり、処理結果を反映させた画面を、クライアント10にダウンロードさせることが可能となる。その際、Webサーバ20は、発話の音声認識結果等の音声処理結果情報を含む画面(ページ)をクライアント10に送信し、クライアント10からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもよい。
[第2の実施例]
図4は、本発明の第2の実施例の構成を示す図であり、クライアント10が保持するIDを、固有IDとして用いる構成を具備している。予めクライアント10が保持するIDをクライアント固有のID(固有ID)として用いる場合、又は、予めクライアント10が保持するIDを用いて、クライアント固有のID(固有ID)を生成する場合の処理手順について説明する。
クライアント10からWebサーバ20に音声処理を使用するサービスを要求する時に、クライアント10は予め保持するIDを固有IDとして、Webサーバ20へ通知する。あるいは、クライアント10側でクライアント10が予め保持するIDを用いて、クライアント固有のIDを新たに生成し、生成した固有IDを、Webサーバ20へ通知する。固有IDの生成の仕方として、例えば、予め保持するIDにタイムスタンプ情報を付与するようにしてもよい。
次に、Webサーバ20からクライアント10に対して、要求のあったサービスの画面情報がダウンロードされる。
次に、Webサーバ20からダウンロードされた画面がクライアント10の画面表示部140に表示され、クライアント10では、ユーザが入力し音声信号を受けて音声情報に変換し、音声処理サーバ30へ音声情報を送信する時点で、固有IDも送信する。
音声処理サーバ30では、受信した音声情報をもとに、音声処理を行う。音声処理サーバ30は、音声処理結果を、Webサーバ20に送信する時点で、固有IDもWebサーバ20に送信する。
Webサーバ20は、音声処理サーバ30から音声処理結果と固有IDを受け取る。Webサーバ20では、音声処理サーバ30からの固有IDにより、音声処理結果と、サービス要求のあったクライアント10とを関連付けることが可能となり、音声処理結果を反映させた画面情報を、クライアント10にダウンロードさせることが可能となる。その際、Webサーバ20は、発話の音声認識結果等の音声処理結果情報を含む画面(ページ)をクライアント10に送信し、クライアント10からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもよい。
[第3の実施例]
図5は、本発明の第3の実施例の構成を示す図であり、セッション毎に生成されるセッションIDを生成するセッションID生成部を、音声処理サーバ30が具備している。図5を参照して、本実施例の処理手順について説明する。クライアント10から音声処理サーバ30に音声情報送信のためのアクセスが行われた時点で、音声処理サーバ30のセッションID生成部31にてセッションIDが生成され、クライアント10に通知される。
次に、クライアント10は、受信したセッションIDをWebサーバ20に通知する。
音声処理サーバ30では、クライアント10から受信した音声情報をもとに、音声処理を行う。音声処理サーバ30は、音声処理した結果を、Webサーバ20に送信する時点でセッションIDも、Webサーバ20に送信する。
Webサーバ20では、セッションID情報により、音声処理結果とサービス要求のあったクライアントとを関連付けることが可能となり、処理結果を反映させた画面をクライアント10にダウンロードさせることが可能となる。その際、Webサーバ20は、発話の音声認識結果等の音声処理結果情報を含む画面(ページ)をクライアント10に送信し、クライアント10からの選択により、音声処理結果に対応する画面情報をダウンロードする構成としてもよい。
図3に示す実施例において、Webサーバ20からクライアント10にセッションIDを送信する仕方として、
・画面(HTML、XML等)内のタグ情報として埋め込むか、あるいは、
・パケットのヘッダ情報として埋め込む、
ようにしてもよい。
図3乃至図5を参照して説明した前記各実施例において、クライアント10から音声処理サーバ30にセッションIDを送信する送信方法として、
・音声情報のパケットのヘッダ情報として埋め込むか、あるいは、
・音声情報の一部として埋め込む、
ようにしてもよい。
図3乃至図5を参照して説明した前記各実施例において、音声処理サーバ30からWebサーバ20にセッションIDを送信する方法として、
・音声処理結果情報のパケットのヘッダ情報として送信するか、あるいは
・音声処理結果の一部として含める、
ようにしてもよい。
以下、具体例に即してさらに詳細に説明する。
[第1の具体例]
図2を参照して、本発明の音声処理システムの第1の具体例について説明する。クライアント10は、ネットワーク(パケット網)40を介して、Webサーバ20と音声処理サーバ30に接続される。クライアントとして、携帯端末、PDA(Personal Digital Assistant)、車載端末、PC(パソコン)、ホーム端末等を挙げることができる。また、Webサーバ20、音声処理サーバ30としては、OS(オペレーティングシステム)として、WindowsXP(登録商標)、Windows2000(登録商標)等を搭載したコンピュータや、OSとしてSolaris(登録商標)を搭載したコンピュータを一例として挙げることができる。ネットワーク(パケット網)40として、インターネット(有線/無線)、イントラネット等のIP網が用いられる。
本具体例では、Webサーバ20が、セッションIDを生成するセッションID生成部を有する。
図6は、本発明の第1の具体例のクライアント10の構成を示す図である。図6を参照すると、クライアント10は、音声入力部として機能し音声データを入力するデータ入力部110と、画面表示部140と、データ通信部130と、制御部120を備えている。
図7は、Webサーバ20の構成を示す図である。図7を参照すると、Webサーバ20は、データ通信部210と、コンテンツ管理部(情報管理手段)220と、セッションID生成部230を備えている。
図8は、音声処理サーバ30の構成を示す図である。図8を参照すると、音声処理サーバ30は、データ通信部310と、制御部320と、音声処理実行部330を備えている。
図12は、本具体例のシーケンス動作を説明するための図である。図6乃至図8、図12を参照して、本具体例について説明する。
クライアント10よりWebサーバ20へ音声処理が含まれるサービスの要求が行われる(ステップS101)。具体的には、クライアント10に表示された画面上のボタンのクリック操作により、サービス要求信号が、Webサーバ20に送信され、Webサーバ20にて、サービスを実行するCGI(Common Gateway Interface)等のプログラムが起動される。
Webサーバ20では、クライアント10からのサービス要求信号を、データ通信部210にて受信し(ステップS201)、コンテンツ管理部220に送信する。
コンテンツ管理部220では、サービスのチェック後、サービス要求信号をセッションID生成部230に送信する。セッションID生成部230は、サービス要求信号を受信し、セッションIDを生成する(ステップS202)。セッションID生成の仕方として、例えば、所定の初期値からアクセス数分、カウントアップすることで、IDを生成するようにしてもよい。
生成されたセッションIDは、コンテンツ管理部220に送信される。コンテンツ管理部220では、受信したセッションIDをもとに、クライアント10にダウンロードする画面の生成を行う(ステップS203)。画面の生成の仕方としては、結果取得用のボタンのリンク先URL(Uniform Resource Locator)情報にセッションIDを含ませるようにしてもよい。
次に、Webサーバ20のコンテンツ管理部220にて、生成された画面が、Webサーバ20のデータ通信部210を通ってクライアントにダウンロードされる(ステップS204)。この時点で、Webサーバ20から、セッションIDもクライアント10に送信される。セッションIDの送信方法として、
・Webサーバ20にて生成された画面中のタグ情報として記述するか、あるいは、
・パケットのヘッダとして記述する
ようにしてもよい。
クライアント10においては、Webサーバ20から受信した画面情報とセッションIDをデータ通信部130にて受信し(ステップS102)、クライアント10の制御部120に送信する。画面情報については、制御部120から画面表示部140に送信され、表示される。クライアント10上の画面情報には、例えばユーザによる音声入力等の選択/督促が表示される。
次に、ユーザの発声した音声は、クライアント10のデータ入力部110に入力され(ステップS104)、クライアント10内の制御部120に送信される。クライアント10の制御部120にて、必要なデータ処理が行われる(ステップS105)。データ処理として、例えば、入力音声のデジタル化処理、音声検出処理、音声分析処理、音声圧縮処理等が行われる。音声データについては、例えば、デジタル化された音声データ、圧縮された音声データ、特徴ベクトル等が用いられる(詳細は「確率モデルによる音声認識」、中川聖一著、p.10-12、社団法人電子情報通信学会(文献3)を参照)。
このデータ処理の際に、セッションIDを音声データに含める処理が行われる。具体的には、
・音声データパケットのヘッダ情報として含めるか、あるいは、
・音声データの一部として含める
ようにしてもよい。
クライアント10の制御部120で処理されたデータは、逐次的に、データ通信部130より、音声処理サーバ30に送信される。
音声処理サーバ30では、クライアントより逐次的に送信されたデータを、データ通信部310にて受信し(ステップS301)、制御部320にて、音声データであると判断した場合、音声処理実行部330に送信する。
音声処理実行部330では、音声処理に必要とする、いずれも図示されない、認識エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうちの少なくも1つを具備しており、逐次的に、音声処理を行う(ステップS302)。
なお、音声処理については、クライアント10から送信されるデータの種類によって処理内容が変わる。例えば、送信されるデータが圧縮音声データである場合には、圧縮データの伸張、音声分析、マッチング処理を行う。一方、クライアント10から特徴ベクトルが送信される場合には、マッチング処理のみを行う。
音声処理サーバ30の音声処理実行部330において、音声処理を終了すると、音声処理結果は、音声処理実行部330から、制御部320を通り、データ通信部310に送信され、データ通信部310から、Webサーバ20へ送信される(ステップS303)。
音声処理サーバ30からWebサーバ20へ送信される音声処理結果については、認識結果情報や、話者照合情報、音声(合成音声、入力音声を変換した音声等)等の少なくともいずれか1つを含む。その際、セッションIDも、音声処理サーバ30から、Webサーバ20へ送信される。セッションIDの送信方法として、
・音声処理結果送信のパケットのヘッダ情報として含めるか、あるいは、
・音声処理結果の一部として送信する
ようにしてもよい。
Webサーバ20は、音声処理結果と、セッションIDとを、データ通信部210にて受信し(ステップS205)、コンテンツ管理部220に送信する。
コンテンツ管理部220では、音声処理結果に基づく結果情報(例えば音声認識結果情報、後述する図15、図16の画面1003等参照)、あるいは、音声処理結果を反映させたコンテンツ情報(画面、音声、動画等)を、セッションIDごとに作成する(ステップS206)。
そして、Webサーバ20から、サービス要求が行われたクライアント10に、セッションIDごとに作成された、結果情報とコンテンツ、あるいは、コンテンツのみがダウンロードされ(ステップS207)、クライアント10でダウンロードされた結果情報/コンテンツが受信される(ステップS106)。
具体的には、音声処理開始時に、Webサーバ20からクライアント10にダウンロードされている画面の結果取得用ボタンのリンク先URLを、セッションIDが含まれたURLする。そして、コンテンツ管理部220によって、Webサーバ20で音声処理結果を反映させたコンテンツ情報を、セッションIDが含まれたURLによって表される場所に配置する。これにより、ユーザが、クライアント10の結果取得用ボタン(例えば図15の画面1003の「地図を表示」ボタン)を押下することにより、セッションIDが含まれたURLが指定され、このURLに対応するコンテンツ情報(例えば図15の画面1004の地図画面)が、ダウンロードされる。
本具体例は、
・クライアント10、音声処理サーバ30間で対話を行う場合、
・音声処理サーバ30が、音声処理結果を利用して、検索等の処理を行う場合、
・Webサーバ20が、音声処理結果を利用して、検索等の処理を行う場合
等、様々な処理に利用可能である。
なお、図12に一例を示したクライアント10、Webサーバ20、音声処理サーバ30の各処理は、クライアント10、Webサーバ20、音声処理サーバ30を構成する計算機(コンピュータ)上で実行されるプログラムによりその機能を実現するようにしてもよい。また、本発明は、Webサーバ20、音声処理サーバ30を1つの計算機上に実現してもよいし、リモートのコンピュータで実現してもよい。この場合、Webサーバ20、音声処理サーバ30間のIDの受け渡しは、サブルーチンコールの引数としてもよい。あるいは、Webサーバ20、音声処理サーバ30間でプロセス間通信により変数の引渡しを行う場合、共通に参照される変数としてもよい。さらに、本具体例は、サーバに処理要求を行うクライアントがサーバと同一計算機上に実装されたシステムに対しても本発明を適用することができる。すなわち、複数のサーバが協調連携してクライアントの要求を遂行するための任意の管理システムに適用することができる。
[第2の具体例]
次に、本発明の第2の具体例について説明する。本具体例では、図4に示すように、予めクライアント10が保持するIDを、クライアント固有のID(固有ID)として用いる場合、又は、予めクライアントが保持するIDを用いて、クライアント固有のID(固有ID)を生成する構成とされる。
図9は、本発明の第2の具体例のクライアント10の構成を示す図である。図9を参照すると、クライアント10は、音声入力部として機能し音声データを入力するデータ入力部110と、画面表示部140と、データ通信部130と、制御部120と、固有ID保持生成部(固有識別情報出力手段)150を備えている。
図10は、Webサーバ20の構成を示す図である。図10を参照すると、Webサーバ20は、データ通信部210と、コンテンツ管理部220とを備えている。
音声処理サーバ30は、図8に示す構成とされ、データ通信部310と、制御部320と、音声処理実行部330を備えている。
図13は、本具体例のシーケンス動作を説明するための図である。図9、図10及び図8、図13を参照して、本具体例について説明する。
クライアント10からWebサーバ20に音声処理を使用するサービスを要求する時点で、クライアント10は、固有ID保持生成部150にて、クライアント10が予め保持するIDを(端末識別情報)、固有ID(固有識別情報)として制御部120に送信する(ステップS111)。あるいは、ステップS111では、固有ID保持生成部150が予め保持するIDを用いてクライアント固有のIDを生成し、生成した固有IDを制御部120へ通知する。固有IDの生成の仕方として、予め保持するIDに、タイムスタンプ情報を付与するようにしてもよい。制御部120は、サービス要求とIDを受信し、受信した固有IDを、データ通信部130を通じて、Webサーバ20へ送信する(ステップS112)。
Webサーバ20は、受信した音声処理が含まれるサービス要求信号と、固有IDをデータ通信部210にて受信する(ステップS211)。データ通信部210は、コンテンツ管理部220に、サービス要求信号と固有IDを送信する。
コンテンツ管理部220では、サービスのチェック後、受信した固有IDをもとに、クライアント10にダウンロードする画面(第1の情報)の生成を行う(ステップS212)。画面の生成の仕方(方法)としては、前記具体例と同様、結果取得用のボタンのリンク先URL(Uniform Resource Locator)情報にセッションIDを含ませるようにしてもよい。
次に、コンテンツ管理部220にて生成された画面が、データ通信部210を通ってクライアント10にダウンロードされる(ステップS213)。
クライアント10では、Webサーバ20から受信した画面情報を、データ通信部130で受信して(ステップS113)、制御部120に送信する。画面情報については、制御部120から、画面表示部140に送信され、表示される(ステップS114)。
次に、ユーザの発声した音声は、クライアント10のデータ入力部110に入力され(ステップS115)、制御部120に送信される。制御部120にて、前記具体例で説明したデータ処理が行われる。このデータ処理の際に、固有IDを、音声データに含める処理が行われる。
処理されたデータは、逐次的に、データ通信部130より音声処理サーバ30に送信される(ステップS116)。固有IDを音声データに含める処理については、前記具体例と同様とされる。
音声処理サーバ30では、クライアント10より、逐次的に送信されたデータを、データ通信部310で受信し(ステップS311)、制御部320にて、音声データであると判断し、音声処理実行部330に送信する。
音声処理サーバ30において、音声処理実行部330は、前記具体例と同様、音声処理(音声認識、話者照合等)に必要とする、いずれも図示されない、認識エンジン、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等のうち少なくとも1つを具備しており、逐次的に音声処理を行う(ステップS312)。音声処理終了後、音声処理結果は、音声処理実行部330から制御部320を通り、データ通信部310に送信され、データ通信部310から、Webサーバ20へ送信される(ステップS313)。この時点で、固有IDも、音声処理サーバ30から、Webサーバ20へ送信される。送信方法については、前記具体例と同様とされる。
Webサーバ20は、音声処理サーバ30から送信された音声処理結果と固有IDを、データ通信部210にて受信し(ステップS214)、コンテンツ管理部220に送信する。
Webサーバ20のコンテンツ管理部220では、固有IDに対応させて、音声処理結果を反映させた情報(第2の情報:音声処理結果情報と該音声処理結果に対応するコンテンツ情報、又は該音声処理結果に対応するコンテンツ情報)を、用意する(ステップS215)。なお、Webサーバ20のコンテンツ管理部220では、クライアントの固有IDから、音声処理結果を反映させた情報の送信先のクライアント10を判別できる。
そして、Webサーバ20は、サービス要求が行われたクライアント10に、固有IDごとに作成された、結果情報(例えば図15の画面1003の音声認識結果画面)とコンテンツ(例えば図15の画面1004の地図画面)がダウンロードされるか、あるいは、コンテンツ(例えば図15の画面1004の地図画面)のみがダウンロードされ(ステップS216)、クライアント10がダウンロードされた情報を受信し(ステップS117)、クライアント10の画面に表示される。作成されたコンテンツ情報のダウンロード方法については、前記具体例と同様とされる。
本具体例は、
・クライアント10、音声処理サーバ30間で対話を行う場合、
・音声処理サーバ30が処理結果を利用して検索等の処理を行う場合、
・Webサーバ20が、音声処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。
なお、図13に一例を示したクライアント10、Webサーバ20、音声処理サーバ30の各処理は、クライアント10、Webサーバ20、音声処理サーバ30を構成する計算機(コンピュータ)上で実行されるプログラムによりその機能を実現するようにしてもよい。
[第3の具体例]
次に、本発明の第3の具体例について説明する。本具体例は、セッションIDを生成する処理部を音声処理サーバ30が具備している。図11は、音声処理サーバ30の構成を示す図である。図11を参照すると、本具体例の音声処理サーバ30は、図8に示した音声処理サーバ30にセッションID生成部340が追加されている。なお、本具体例のクライアント10は、図6に示す構成とされ、Webサーバ20は図10に示す構成とされる。以下、本具体例の動作について説明する。
図14は、本具体例のシーケンス動作を説明するための図である。図6、図10、図11、図14を参照して、本具体例について説明する。
クライアント10よりWebサーバ20へ音声処理が含まれるサービスの要求が行われる(ステップS121)。
Webサーバ20側は、サービス要求信号をデータ通信部210にて受信し(ステップS221)、コンテンツ管理部220に送信する。コンテンツ管理部220では、サービス要求信号を受信し、サービスのチェック後、要求されたサービスの画面を生成し(ステップS222)、データ通信部210を通じてクライアント10へ送信(ダウンロード)する(ステップS223)。
次に、クライアント10は、Webサーバ20からの画面情報を受信し(ステップS122)、さらに音声情報を音声処理サーバ30へ送信するために音声処理サーバ30に音声処理要求信号を送信する(ステップS123)。
音声処理サーバ30では、データ通信部310にて、音声処理要求信号を受信し(ステップS321)、制御部320に送信する。制御部320は、音声処理要求信号をセッションID生成部340に送信する。
音声処理サーバ30のセッションID生成部340は、セッションID要求信号を受信し、セッションIDを生成する。セッションID生成の仕方は、前記具体例で説明したものと同様とされる。
音声処理サーバ30のセッションID生成部340によって生成されたセッションIDは、音声処理サーバ30のセッションID生成部340から制御部320を通り、データ通信部310に送信される。
音声処理サーバ30のデータ通信部310は、クライアント10へセッションIDを送信する(ステップS322)。
クライアント10は、音声処理サーバ30からセッションIDを受信し(ステップS124)、セッションIDをデータ通信部130を通じて、制御部120に送信する。
次に、クライアント10のデータ通信部130を通じて、セッションIDを、Webサーバ20へ送信する(ステップS125)。
Webサーバ20では、データ通信部210にてセッションIDを受信し(ステップS224)、コンテンツ管理部220に送信して管理する。
クライアント10では、クライアント10からWebサーバ20にセッションIDを通知した後、ユーザの発声した音声がデータ入力部110に入力され(ステップS126)、制御部120に送信される。制御部120にて、前記した具体例と同様のデータ処理が行われる。このデータ処理の際に、セッションIDを、音声データに含めるようにしてもよい。
処理されたデータは、逐次的に、クライアント10のデータ通信部130より、音声処理サーバ30に送信される(ステップS127)。
音声処理サーバ30では、クライアント10より、逐次的に送信されたデータを、データ通信部310にて受信し(ステップS323)、制御部320にて、音声データであると判断し、音声処理実行部330に送信する。
音声処理実行部330は、前記具体例と同様、音声処理(音声認識、話者照合等)に必要な認識エンジン、いずれも図示されない、認識用辞書、合成エンジン、合成用辞書、話者照合エンジン等の機能の少なくとも1つを具備しており、逐次的に、音声処理を行う(ステップS324)。音声処理終了後、音声処理結果は、音声処理実行部330から制御部320を通り、データ通信部310に送信され、データ通信部310からWebサーバ20へ送信される(ステップS325)。音声処理結果については、前記具体例と同様とされる。この時点で、セッションIDも音声処理サーバ30からWebサーバ20へ送信される。セッションIDの送信も、前記具体例と同様とされる。
Webサーバ20は、音声処理結果とセッションIDをデータ通信部210にて受信し(ステップS225)、コンテンツ管理部220に送信する。音声処理結果については、前記具体例と同様の内容とされる。この時点で、セッションIDも音声処理サーバ30から、前記具体例と同様、Webサーバ20へ送信される。Webサーバ20は、音声処理結果とセッションIDをデータ通信部210にて受信し、コンテンツ管理部220に送信する。
Webサーバ20のコンテンツ管理部220は、セッションIDに対応した音声処理結果を反映させた情報(音声処理結果情報と該音声処理結果に対応するコンテンツ情報、又は該音声処理結果に対応するコンテンツ情報)をセッションIDごとに作成する(ステップS226)。
そして、Webサーバ20は、サービス要求が行われたクライアントにセッションIDごとに作成された結果情報(例えば図15の画面1003の音声認識結果画面)とコンテンツ(例えば図15の画面1004の地図画面)がダウンロードされるか、あるいは、コンテンツ(例えば図15の画面1004の地図画面)のみがダウンロードされ(ステップS226)、クライアント10はWebサーバ20からのダウンロードされた情報を受信する。
作成されたコンテンツ情報のダウンロードの方法として、音声処理開始時にクライアント10にダウンロードされている画面の結果取得用ボタンのリンク先URLを、クライアント10が音声処理サーバ30から通知されたセッションIDが含まれたURLとするような処理を、クライアント10側で実行し、Webサーバ20で、音声処理結果を反映させたコンテンツ情報を、セッションIDが含まれたURLに配置することで、ユーザが、クライアント画面の結果取得用ボタン(例えば図15の画面1003の「地図を表示」ボタン)を押下した際に、音声処理結果を反映させたコンテンツ情報をクライアント10にダウンロードするようにしてもよい。
本具体例においても、前記各具体例と同様に、
・クライアント10、音声処理サーバ30間で対話を行う場合、
・音声処理サーバ30が処理結果を利用して検索等の処理を行う場合、
・Webサーバ20が処理結果を利用して検索等の処理を行う場合
等、様々な処理に利用可能である。
なお、図14に一例を示したクライアント10、Webサーバ20、音声処理サーバ30の各処理は、クライアント10、Webサーバ20、音声処理サーバ30を構成する計算機(コンピュータ)上で実行されるプログラムにより、その機能を実現するようにしてもよい。
[操作画面]
次に、本発明を適用した具体例としてクライアント10での操作画面の一例について説明する。図15は、図12を参照してシーケンス動作を説明した本発明の第1の具体例におけるクライアント10の画面表示部140に表示される画面(ページ)の推移の一例を例示した図である。以下、図15及び図12を参照して、本発明の第1の具体例におけるクライアント10の画面表示について説明する。
<画面1001>
画面1001は、Webサーバ20からダウンロードした画面(「地図検索」のトップページ)であり、「音声入力」ボタン1011には、CGI(例えば、http://….jp/a.cgi)がリンクされいる。ユーザが、画面上に表示される「音声入力」ボタン1011をクリックしてサービス要求を行う(図12のステップS101に対応する)。すると、Webサーバ20では、”a.cgi”というプロセス(CGIプログラム)が起動され、入力された情報が引き渡される。CGIプログラムの処理結果を基に、Webサーバ20でHTMLを作成し、クライアント10に応答として返す。
<画面1002>
「音声入力」画面1002が表示され、『検索したい地図の住所を「東京都港区三田」のように発声してください。』と表示される(図12のステップS102〜S104に対応する)。IDは、画面中タグとして埋め込まれる。この画面1002の状態で、ユーザは、音声入力(発話)を行う。画面上で「結果を表示」ボタン1012には、IDごとに生成されたページ(http://…/b.ID.html)がリンクされている。画面上でユーザが「結果を表示」ボタン1012をクリックすると、次の画面1003のように、音声処理サーバ30で音声認識された認識結果が表示される。なお、画面1003の認識結果画面は、Webサーバ20からクライアント10にダウンロードされたものを表示したものである。
<画面1003>
クライアント10に「認識結果」画面1003が表示され、『結果は、「東京都港区三田」ですね?』と表示され、画面上には「地図を表示」ボタン1013が表示される。
<画面1004>
ユーザが画面上で「地図を表示」ボタン1013をクリックすることで、Webサーバ20からコンテンツ情報がダウンロードされ(図12のステップ106に対応する)、地図画面(ページ)1004が表示される。
なお、本具体例では、画面1003の認識結果画面を表示せずに、画面1002の結果、画面1004を直接表示するようにしてもよい。すなわち、音声処理サーバ30による音声認識結果の画面1003をIDごとに作成しているが、画面1002の「結果を表示」ボタン1012のクリックにより、音声認識結果を反映した画面1004を直接表示する構成としてもよい(この場合、図15の画面1003は省略される)。
なお、図15及び以下に説明する図16には、音声入力による地図案内システムの画面の一例が示されているが、本発明は、かかるシステムに限定されるものでないことは勿論であり、任意の発話管理に適用できる。
図16は、図15の変形例を示す図である。図16に示す画面1002aでは、図15の画面1002の「結果を表示」ボタン1012が表示されない。図16に示す例では、画面1002aにおける音声入力の結果、図15の画面1002のように、画面上で「結果を表示」ボタン1002aをクリックすることなく、認識結果画面1003が表示され、ユーザが「地図を表示」ボタン1013をクリックすると、画面1004の地図が表示される。あるいは、画面1003を表示せず、画面1002aにおける音声入力の結果、直接、画面1004の地図が表示される。
Webサーバ20は、IDごとに画面が準備できた際に(図12のステップS206)、画面のURL情報をクライアント10に送信し、クライアント10においては、受信したURL情報を自動的にアクセスすることで、図15、図16に示した画面1003、1004が表示される。
次に、本発明の具体例において、ユーザがクライアント10上で連続して発声する場合について処理の流れを説明する。連続して発声する場合の一例として、図15あるいは図16の画面1004に、「音声再入力」というボタンを作成しておくようにしてもよい。画面1004の「音声再入力」ボタンに、WebサーバのCGIのURLをリンクさせておくことで、画面1004上でユーザが「音声再入力」ボタンをクリックした時に、あらたにIDが作成され、図15の画面1002又は図16の画面1002aが表示され、再度音声入力が可能となる。
あるいは別の例としては、図15又は図16の画面1004に、「TOPページ」へというボタンを作成しておく。ユーザが、画面1004上で「TOPページ」をクリックすることで、図15又は図16の画面1001のページに戻るため、再度「音声入力」のプロセスが可能となる。
なお、クライアント10とWebサーバ20、音声処理サーバ30間で転送されるセキュリティID、固有IDの機密保持等のセキュリティ対策として、必要に応じて、パスワード、暗号化(公開鍵暗号化方式)等の対策を行ってもよいことは勿論である。
以上、本発明を上記具体例に即して説明したが、本発明は、上記具体例の構成にのみ限定されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明によれば、クライアントに画面を表示させ、音声にて要求を行い、結果を画面に表示させるようなサービス提供システムに適用可能である。具体的には、
・音声で住所を発声して地図を表示させるサービス、
・音声で検索したい文章を発声してマニュアルを表示するようなサービス、
・音声で曲名を発声して曲をダウンロードするサービス
等に適用して好適とされる。
さらに、本発明は、パケット網を通してデータを送受信することが可能であるため、クライアントとしては、携帯電話端末だけでなく、携帯情報端末(PDA)、PC、車載端末、ホーム端末等を用いることができる。

Claims (6)

  1. 入力された音声情報を送信するとともに、受信した情報を出力する端末と、
    前記端末からの音声情報に基づき音声処理を行う音声処理装置と、
    前記音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を前記端末に送信する情報提供装置とを備え、
    前記端末は、
    音声処理要求信号を前記音声処理装置に送信する第1の送信手段と、
    前記音声処理要求信号の応答として前記音声処理装置から送信される、前記音声情報に基づいて行われる一連の処理に対応する処理識別情報を受信する第1の受信手段と、
    受信された前記処理識別情報を前記情報提供装置に送信する第2の送信手段と、
    入力された前記音声情報を前記処理識別情報とともに前記音声処理装置に送信する第3の送信手段と、
    前記情報提供装置から送信される前記情報を受信して出力する第2の受信手段とを備え、
    前記音声処理装置は、
    前記端末からの前記音声処理要求信号を受信する第1の受信手段と、
    前記音声処理要求信号が受信されたときに前記処理識別情報を生成する識別情報生成手段と、
    生成された前記処理識別情報を前記端末に送信する第1の送信手段と、
    前記端末からの前記音声情報及び前記処理識別情報を受信する第2の受信手段と、
    前記端末からの前記音声情報の音声処理を行う音声処理実行手段と、
    前記音声処理実行手段による音声処理結果及び前記端末からの前記処理識別情報を前記情報提供装置に送信する第2の送信手段とを備え、
    前記情報提供装置は、
    前記端末からの前記処理識別情報と、前記音声処理装置からの前記音声処理結果及び前記処理識別情報とを受信する受信手段と、
    前記音声処理装置からの前記処理識別情報に対応させて前記音声処理結果を反映した前記情報を生成する情報管理手段と、
    前記情報管理手段で生成された前記情報を前記端末に送信する送信手段とを備える
    ことを特徴とする音声処理システム。
  2. 請求項1に記載の音声処理システムにおいて、
    前記端末は、
    サービス要求時、サービス要求信号を前記情報提供装置に送信する第4の送信手段と、
    前記情報提供装置からの提示情報を受信して出力する第3の受信手段とをさらに備え、
    前記情報提供装置の前記受信手段は、前記端末からの前記サービス要求信号を受信し、
    前記情報提供装置の前記情報管理手段は、前記端末からの前記サービス要求信号に基づき前記端末に提示する前記提示情報を生成し、
    前記情報提供装置の前記送信手段は、前記サービス要求信号に基づき生成された前記提示情報を前記端末に送信する
    ことを特徴とする音声処理システム。
  3. 入力された音声情報を送信するとともに、受信した情報を出力する端末と、前記端末からの音声情報に基づき音声処理を行う音声処理装置と、前記音声処理装置での音声処理結果を受け取り、この音声処理結果に基づき生成した情報を前記端末に送信する情報提供装置とを備える音声処理システムで用いられる音声処理方法であって、
    前記端末が、音声処理要求信号を前記音声処理装置に送信するステップと、
    前記音声処理装置が、前記端末からの前記音声処理要求信号の受信に応じて、前記音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成し、前記端末に送信するステップと、
    前記端末が、前記音声処理要求信号の応答として前記音声処理装置から送信される前記処理識別情報を受信し、前記処理識別情報を前記情報提供装置に送信するステップと、
    前記情報提供装置が、前記端末からの前記処理識別情報を受信するステップと、
    前記端末が、入力された前記音声情報を前記処理識別情報とともに前記音声処理装置に送信するステップと、
    前記音声処理装置が、前記端末からの前記音声情報及び前記処理識別情報を受信し、前記音声情報の音声処理を行い、得られた前記音声処理結果及び前記端末からの前記処理識別情報を前記情報提供装置に送信するステップと、
    前記情報提供装置が、前記音声処理装置からの前記音声処理結果及び前記処理識別情報とを受信し、前記処理識別情報に対応させて前記音声処理結果を反映した前記情報を生成して前記端末に送信するステップと
    を備えることを特徴とする音声処理方法。
  4. 請求項3に記載の音声処理方法において、
    前記端末が、サービス要求時、サービス要求信号を前記情報提供装置に送信するステップと、
    前記情報提供装置が、前記端末からの前記サービス要求信号の受信に応じて、前記サービス要求信号に基づき前記端末に提示する提示情報を生成して前記端末に送信するステップと、
    前記端末が、前記情報提供装置からの前記提示情報を受信して出力するステップと
    をさらに備えることを特徴とする音声処理方法。
  5. クライアントからの音声処理要求信号を受信する第1の受信手段と、
    前記音声処理要求信号が受信されたときに、前記クライアントからの音声情報に基づいて行われる一連の処理に対応する処理識別情報を生成する識別情報生成手段と、
    前記処理識別情報を前記クライアントに送信する第1の送信手段と、
    前記クライアントからの前記音声情報及び前記処理識別情報を受信する第2の受信手段と、
    前記クライアントからの前記音声情報の音声処理を行う音声処理実行手段と、
    前記音声処理実行手段による音声処理結果及び前記クライアントからの前記処理識別情報を、前記処理識別情報に対応させて前記音声処理結果を反映した情報を生成し前記クライアントに送信する情報提供サーバに送信する第2の送信手段と
    を備えることを特徴とする音声処理サーバ装置。
  6. コンピュータを、請求項5に記載の音声処理サーバ装置を構成する各部として機能させるためのプログラム。
JP2006511243A 2004-03-18 2005-03-18 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム Active JP4725512B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006511243A JP4725512B2 (ja) 2004-03-18 2005-03-18 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004079078 2004-03-18
JP2004079078 2004-03-18
PCT/JP2005/004959 WO2005091128A1 (ja) 2004-03-18 2005-03-18 音声処理装置とシステム及び音声処理方法
JP2006511243A JP4725512B2 (ja) 2004-03-18 2005-03-18 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2005091128A1 JPWO2005091128A1 (ja) 2008-05-22
JP4725512B2 true JP4725512B2 (ja) 2011-07-13

Family

ID=34993882

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006511243A Active JP4725512B2 (ja) 2004-03-18 2005-03-18 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム

Country Status (3)

Country Link
US (1) US7835728B2 (ja)
JP (1) JP4725512B2 (ja)
WO (1) WO2005091128A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3885523B2 (ja) * 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法
US8650030B2 (en) * 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
JP2008287674A (ja) * 2007-05-21 2008-11-27 Olympus Corp 情報処理装置、クライアント装置、情報処理システム及びサービス接続方法
US10354689B2 (en) 2008-04-06 2019-07-16 Taser International, Inc. Systems and methods for event recorder logging
CN103871410B (zh) * 2012-12-11 2017-09-29 联想(北京)有限公司 一种数据处理方法和装置
CN104967622B (zh) * 2015-06-30 2017-04-05 百度在线网络技术(北京)有限公司 基于声纹的通讯方法、装置和系统
US11172293B2 (en) * 2018-07-11 2021-11-09 Ambiq Micro, Inc. Power efficient context-based audio processing
CN113542260B (zh) * 2021-07-12 2023-05-09 宏图智能物流股份有限公司 一种基于分发方式的仓库用语音传输方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040051A (ja) * 1998-07-23 2000-02-08 Toyo Commun Equip Co Ltd クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置
JP2002359688A (ja) * 2001-03-30 2002-12-13 Ntt Comware Corp 音声認識による情報提供サーバならびにその方法
JP2003125109A (ja) * 2001-10-18 2003-04-25 Hitachi Software Eng Co Ltd 音声入力サービス提供方法及びシステム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717740A (en) * 1995-12-27 1998-02-10 Lucent Technologies Inc. Telephone station account number dialing device and method
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6636596B1 (en) * 1999-09-24 2003-10-21 Worldcom, Inc. Method of and system for providing intelligent network control services in IP telephony
JP3452250B2 (ja) 2000-03-15 2003-09-29 日本電気株式会社 無線携帯端末通信システム
US6654722B1 (en) * 2000-06-19 2003-11-25 International Business Machines Corporation Voice over IP protocol based speech system
JP3885523B2 (ja) 2001-06-20 2007-02-21 日本電気株式会社 サーバ・クライアント型音声認識装置及び方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000040051A (ja) * 1998-07-23 2000-02-08 Toyo Commun Equip Co Ltd クライアント・サーバーシステムにおけるメッセージ伝送方法及び装置
JP2002359688A (ja) * 2001-03-30 2002-12-13 Ntt Comware Corp 音声認識による情報提供サーバならびにその方法
JP2003125109A (ja) * 2001-10-18 2003-04-25 Hitachi Software Eng Co Ltd 音声入力サービス提供方法及びシステム

Also Published As

Publication number Publication date
US20070143102A1 (en) 2007-06-21
US7835728B2 (en) 2010-11-16
JPWO2005091128A1 (ja) 2008-05-22
WO2005091128A1 (ja) 2005-09-29

Similar Documents

Publication Publication Date Title
JP4725512B2 (ja) 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム
KR101027548B1 (ko) 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러
KR100430953B1 (ko) 네트워크 협동 대화 서비스를 제공하기 위한 시스템 및 방법
US7003463B1 (en) System and method for providing network coordinated conversational services
US7529540B2 (en) Method and system for invoking push-to-service offerings
US7739350B2 (en) Voice enabled network communications
US20060064499A1 (en) Information retrieval system including voice browser and data conversion server
JP2002049559A (ja) 会話ブラウズおよびマルチメディア・ブロードキャスト・オン・デマンドを提供する会話ポータル
JP2002163143A (ja) 無線サイトのコンテンツ・リフォーマッティング・システム及びその方法
US20080275937A1 (en) Control Device, Method and Program for Providing Information
US20030091016A1 (en) System and method for providing web content provision service using subscriber terminal in exchange system
US8254898B2 (en) Message handling based on the state of a telecommunications terminal
KR20060118221A (ko) 싱크 서버를 이용한 컨텐츠 공유 시스템 및 방법
CN1620018A (zh) 通过个人计算系统访问语音服务的方法和系统
US20090012888A1 (en) Text-to-speech streaming via a network
KR100834134B1 (ko) 휴대용 단말기에서 윙크서비스를 이용한 통화연결 방법 및그 시스템
US8073930B2 (en) Screen reader remote access system
JP6396685B2 (ja) 呼制御装置、受信機及びそれらの制御方法
KR100536911B1 (ko) 인터넷 전화 서비스 제공 시스템 및 방법
JP4813798B2 (ja) ネットワークのオーディオデータを処理する方法およびその方法を実行する装置
JPH11234451A (ja) 情報取得システム
KR20020082339A (ko) 자바 API 기반의 통합음성서비스 장치와 이를 이용한VoIP서비스 제공방법
KR20020084337A (ko) 웹브라우저의 url입력창을 이용한 통신 시스템 및 방법
KR100785101B1 (ko) 무선 인터넷 단말기에서의 전화번호 정보 처리방법
JP2002359688A (ja) 音声認識による情報提供サーバならびにその方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110328

R150 Certificate of patent or registration of utility model

Ref document number: 4725512

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3