JP2004020613A - サーバ、受信端末 - Google Patents
サーバ、受信端末 Download PDFInfo
- Publication number
- JP2004020613A JP2004020613A JP2002171660A JP2002171660A JP2004020613A JP 2004020613 A JP2004020613 A JP 2004020613A JP 2002171660 A JP2002171660 A JP 2002171660A JP 2002171660 A JP2002171660 A JP 2002171660A JP 2004020613 A JP2004020613 A JP 2004020613A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- external device
- data
- receiving
- synthesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/18—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
Abstract
【課題】全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させること。また全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させること。
【解決手段】データ通信部304は装置101から装置101のリソース情報を受信し、音声合成実行判定部306は装置101のリソース情報と装置102のリソース情報とを用いて装置101と装置102のどちらが音声合成処理を行うかを判定し、音声合成実行判定部306が装置102が音声合成処理を行うと判定した場合、音声合成部309はマルチモーダル文書のうち、指定された部分を読み上げるための出力音声データを生成し、音声合成実行判定部306が装置102が音声合成処理を行うと判定した場合、データ通信部304は音声合成部309による音声合成結果を装置101に送信する。
【選択図】 図2
【解決手段】データ通信部304は装置101から装置101のリソース情報を受信し、音声合成実行判定部306は装置101のリソース情報と装置102のリソース情報とを用いて装置101と装置102のどちらが音声合成処理を行うかを判定し、音声合成実行判定部306が装置102が音声合成処理を行うと判定した場合、音声合成部309はマルチモーダル文書のうち、指定された部分を読み上げるための出力音声データを生成し、音声合成実行判定部306が装置102が音声合成処理を行うと判定した場合、データ通信部304は音声合成部309による音声合成結果を装置101に送信する。
【選択図】 図2
Description
【0001】
【発明の属する技術分野】
本発明は、サーバ、受信端末に関するものである。
【0002】
【従来の技術】
インターネットの普及により、インターネットに接続されたサーバに保持され、マークアップ言語(HTML;HyperTextMarkupLanguage)で記述された文書を、インターネットを介してパソコン上のブラウザに表示するウェブブラウジングの世界は、拡大の一途をたどっている。
【0003】
HTML文書は歴史的な事情から、文書の構造を記述する部分と表現形式を記述する部分とが混在しており、その両者を分離するものとして、表現形式を構造から括り出したCSS(CascadingStyleSheet)も普及している。
【0004】
HTML(構造+表現)からCSS(表現)を分離しても、HTMLの文書構造は表現を意識したものである。よって、文書の内容のツリー構造のみを表すXML(eXtensibleMarkupLanguage)と、ツリーを表現したいものに変換するXSL(eXtensibleStylesheetLanguage)とで記述する方法も普及しつつある。
【0005】
XMLおよびXSLを用いて記述された文書の例を夫々図10,11に示し、その両者により生成されるHTML文書、CSSファイルの例、及びブラウザでの表示例を夫々図12,13,14に示す。
【0006】
上記のように、CSSやXSLというスタイルシートをいろいろと用意し、適宜切り替えることで、文書の内容のツリー構造のみを表す単一のXML文書を用途に応じて切り替えることができるようになってきている。
【0007】
その一方で、パソコンだけでなく、ユーザが日常で持ち歩く携帯電話やPHS(PersonalHandyphoneSystem)、PDA(PersonalDataAssintant;携帯情報端末)といったモバイル端末の性能も向上し、ハイエンドのモバイル端末は、一世代前のパソコンと遜色ない処理能力を持つようになってきた。
【0008】
そうしたハイエンドのモバイル端末は、以下の特徴が挙げられる。
【0009】
(1) 公衆回線や無線LANなどを経由して、ホストであるコンピュータと接続し、データ通信を行うことができる。
【0010】
(2) 音声入出力のデバイス(マイク、スピーカなど)を装備していることが多い。
【0011】
【発明が解決しようとする課題】
しかしながら上記ハイエンドのモバイル端末では一般にGUIを表示する表示画面のサイズが小さく、GUI情報を表示する能力が低い。また、市場に存在するモバイル端末はハイエンドのものだけではなく、ハイエンドでないモバイル端末も数多く存在し、そうしたモバイル端末には、GUI情報を表示できないものもある。
【0012】
そのようなモバイル端末の現状において、操作及び応答の一部またはすべてを音声で行なえるマルチモーダルインタフェースを実現することは有意義なことである。
【0013】
また、マルチモーダル文書を扱うに当たって、一部のハイエンドのモバイル端末では、音声認識、音声合成を行うことが可能であるが、多くのモバイル端末では、音声認識、音声合成を行うことができない、もしくは貧弱な音声認識、音声合成を行うことしかできない。
【0014】
一般に音声合成については、音声認識に比べてCPU、メモリといったリソースを必要としないが、音声合成機能が搭載されているモバイル端末はまだ少ない。また、モバイル端末で要求される音声認識が比較的リソースを必要としない特定話者方式で容認される可能性が高いのに対し、音声合成は可能であれば複数話者の声色を使い分けられることが望ましく、今後の発展が見込まれる感情表現などを取り込んだexpressivespeechなど、むしろ比較的リソースを必要とする方式が要求される。その一方で、サーバであるホストコンピュータにおいても、多くのモバイル端末をクライアントにする場合には、音声合成のための負荷が大きく、できる限り少なくしたいという問題点が存在する。
【0015】
また、通信データの容量の観点からすると、サーバであるホストコンピュータで合成した音声を送信するよりも、テキストを送信してクライアントであるモバイル端末で音声を合成するほうが有効である。
【0016】
本発明は以上の問題に鑑みてなされたものであり、全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させることを目的とする。また本発明は、全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させることを目的とする。
【0017】
【課題を解決するための手段】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【0018】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とする。
【0019】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【0020】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とする。
【0021】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【0022】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する音声合成結果送信手段と
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する音声認識結果送信手段と
を備えることを特徴とする。
【0023】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【0024】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とする。
【0025】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【0026】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とする。
【0027】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【0028】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する音声合成結果送信工程と
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する音声認識結果送信工程と
を備えることを特徴とする。
【0029】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【0030】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第1の受信手段と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第2の受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第1の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記第1の受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記第1の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
を備えることを特徴とする。
【0031】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【0032】
すなわち、外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末であって、
GUI入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする。
【0033】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【0034】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信手段と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
GUI入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、前記受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする。
【0035】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【0036】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第1の受信工程と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第2の受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第1の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記第1の受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記第1の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
を備えることを特徴とする。
【0037】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【0038】
すなわち、外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末の制御方法であって、
GUI入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする。
【0039】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【0040】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信工程と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
GUI入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、前記受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする。
【0041】
【発明の実施の形態】
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
【0042】
[第1の実施形態]
図1に本実施形態における通信システムの構成を示す。101は携帯電話や、PHS、PDAといった、モバイル端末からなる情報受信端末で、これらを総称してマルチモーダル文書受信処理装置と呼称するが、夫々の機器をマルチモーダル文書受信処理装置と呼称する場合もある。102はマルチモーダル文書受信処理装置101と通信を行うとともに、インターネットを介して、外部のWebサーバから原文書を取得するマルチモーダル文書編集送信装置である。
【0043】
またここでマルチモーダル文章とは、入力がキーボード、マウス、音声など複数の入力手段により入力可能な文章データのことを示している。
【0044】
マルチモーダル文書受信処理装置101とマルチモーダル文書編集送信装置102は、公衆回線や無線LANなどといった通信手段を介して、データ通信を行うことができる。
【0045】
図2は上記マルチモーダル文書受信処理装置の基本構成を示すブロック図である。同図において200はマルチモーダル文書受信処理装置本体で後述の各部を含む。201は例えばマイクロフォンにより構成されており、ユーザが音声を入力する音声入力部である。202は音声入力部201から入力された音声の認識処理を行う音声認識部で、その認識結果はGUI入力による文字入力と同等に扱われる。
【0046】
203はスタイラスなどのポインティングデバイスやテンキーなどのボタンにより各種の操作入力(GUI操作)を行うGUI操作入力部で、204はマルチモーダル文書受信装置のCPU速度を示すリソース情報を保持するリソース情報保持部である。
【0047】
205はGUI操作入力部から入力されたGUI操作、およびリソース情報保持部205に保持されたリソース情報をマルチモーダル文書編集送信装置102に送信し、マルチモーダル文書編集送信装置102から音声合成実行判定結果を示すデータ、マルチモーダル文書データ、符号化出力音声データを受信するデータ通信部である。
【0048】
206はデータ通信部205で受信した音声合成実行判定結果に基づき、マルチモーダル文書受信処理装置101で音声合成を行うかどうかを判定する音声合成実行判定部で、207は音声合成実行判定部206で判定された合成実行判定を保持する合成実行判定保持部である。
【0049】
208は音声合成実行判定部206においてマルチモーダル文書受信処理装置101で音声合成を行うと判定した場合に、データ通信部205で受信したマルチモーダル文書のうち、音声出力するテキスト部分を読み上げる出力音声データを生成する処理(音声合成処理)を行う音声合成部である。音声出力するテキストの部分は予め指定されているものとする。図6にマルチモーダル文書編集送信装置102から送られるマルチモーダル文書の例を示す。図6に示す、”<voice>”タグで括られた部分のテキストが、音声合成するテキストの部分である。また、図6に示したマルチモーダル文書をGUI表示部210に表示した場合の表示画面を図7に示す。
【0050】
図7に示された表示画面において”<voice>”タグで括られた部分に対応するテキストを上記GUI入力により指示することで、音声出力部210からこのテキスト部分を読み上げる合成音声が出力される。
【0051】
209は音声合成実行判定部206においてマルチモーダル文書受信処理装置101で音声合成を行わないと判定した場合に、データ通信部205で受信した符号化出力音声データを復号する出力音声復号化部である。ここでいう復号とは、デジタル通信を行うために量子化された出力音声の復号を差す。復号された音声データは、例えばWAV形式の音声ファイルである。
【0052】
210はスピーカやイヤホンなどにより構成される音声出力部で、音声合成部208による出力音声、出力音声復号化部210で復号された出力音声を出力する。211はデータ通信部207が受信したマルチモーダル文書のうち、GUI表示内容を表示するWebブラウザなどのGUI表示部である。上記の各部は夫々バスで接続されているので、互いにデータの受け渡しが可能となる。
【0053】
図3は、本実施形態におけるマルチモーダル文書編集送信装置102の基本構成を示すブロック図である。同図において、301はインターネットを介して外部のWebサーバより、編集してマルチモーダル文書受信処理装置101に送信するマルチモーダル文書の原文書を取得するインターネット通信部で、302はインターネット通信部301が取得した文書を保持する原文書保持部である。
【0054】
303は原文書保持部302に保持された原文書を編集するためのスタイルシート群を保持するスタイルシート保持部で、304はマルチモーダル文書受信処理装置101から、GUI操作、およびリソース情報を受信し、後述する音声合成実行判定結果を示すデータやマルチモーダル文書、符号化出力音声データをマルチモーダル文書受信処理装置101に送信するデータ通信部である。
【0055】
305はデータ通信部304が受信したリソース情報を個々のマルチモーダル文書受信処理装置101ごとに保持する端末リソース情報保持部である。端末リソース情報保持部305では、公衆回線で接続されている場合には電話番号で、無線LANなどなどで接続されている場合には、IPアドレスでマルチモーダル文書受信処理装置101の特定を行ない、個々の端末のリソース情報を上記電話番号、もしくは上記IPアドレスと関連づけて保持する。
【0056】
306は端末リソース情報保持部305に保持された現在通信中の端末のリソース情報とマルチモーダル文書編集送信装置102のリソース情報(本実施形態ではマルチモーダル文書編集送信装置102のロードアベレージ)からマルチモーダル文書編集送信装置102で音声合成を行うか否かを判定する音声合成実行判定部である。
【0057】
307は音声合成実行判定部306で判定された結果を示すデータを保持する実行判定結果保持部である。308は原文書保持部302に保持された原文書に、スタイルシート保持部303に保持されたスタイルシートを適用することにより、マルチモーダル文書を編集する送信文書編集部で、309は音声合成実行判定部306によりマルチモーダル文書編集送信装置102が音声合成を行うと判定した場合に、マルチモーダル文書中で音声出力するテキスト部分に対する音声合成処理を行う音声合成部である。
【0058】
図8に編集前の原文書の例を示し、図9に図8に示した原文書に適用するスタイルシートの例を示す。図8の原文書に図9のスタイルシートを適用することで図6に示したマルチモーダル文書を生成することができる。
【0059】
図4に、マルチモーダル文書受信処理装置101が行う処理のフローチャートを示す。まずデータ通信部205は、リソース情報保持部204に保持された、マルチモーダル文書受信処理装置のCPU速度を示すリソース情報をマルチモーダル文書送信編集装置102に送信する(ステップS401)。次に、データ通信部205はマルチモーダル文書編集送信装置102から後述する、サーバで音声合成を行うか否かという(サーバでの)合成実行判定を示すデータを受信し、合成実行判定保持部207は受信した合成実行判定を示すデータを保持する(ステップS402)。次にデータ受信部206は、マルチモーダル文書編集送信装置102からマルチモーダル文書データのみ、もしくはマルチモーダル文書データと符号化出力音声データを受信する(ステップS403)。GUI表示部211は受信したマルチモーダル文書データに従った画面を表示(GUI表示)する(ステップS404)。
【0060】
次に、音声合成実行判定部206は合成実行判定保持部207が保持する上記合成実行判定を示すデータを参照し、マルチモーダル文書受信処理装置101が音声合成処理を行うか否かを判断する(ステップS405)。マルチモーダル文書受信処理装置101が音声合成処理を行う場合には処理をステップS407に進め、音声合成部208はマルチモーダル文書のうち、音声出力するテキスト部分に対する音声合成処理を行い、出力音声データを生成する(ステップS407)。
【0061】
一方、マルチモーダル文書受信処理装置101が音声合成を行わない場合には処理をステップS406に進め、出力音声復号化部209はデータ通信部205が受信した符号化出力音声データを復号し、出力音声データを復元する(ステップS406)。そして音声出力部210は、音声合成部208による出力音声データ、もしくは出力音声復号化部209による出力音声データに従った音声を出力する(ステップS408)。
【0062】
そして、ユーザからの入力(音声入力部201もしくはGUI操作入力部203からのユーザ入力)があった場合には(ステップS409)処理をステップS410に進め、更に、音声入力部201から音声が入力された場合には(ステップS410)、処理をステップS411に進め、音声入力部201を介して入力された音声に対して音声認識部202は音声認識を行い、これをGUI操作とする(ステップS411)。そしてデータ通信部205は音声入力部201からのGUI操作、もしくはGUI操作入力部203からのGUI操作をマルチモーダル文書編集送信装置102に送信する(ステップS412)。
【0063】
次に図5に、マルチモーダル文書編集送信装置102が行う処理のフローチャートを示す。データ通信部304は基本的にはマルチモーダル文書受信処理装置からの入力待ちであり、入力を受信すると以下の処理に移行する。
【0064】
マルチモーダル文書受信処理装置からの入力を受信した場合(ステップS501)、処理をステップS502に進め、マルチモーダル文書受信処理装置からの入力がリソース情報であれば(ステップS502)、処理をステップS503に進め、音声合成実行判定部306は、端末リソース情報保持部305に、マルチモーダル文書受信処理装置101の電話番号もしくはIPアドレスとともに、リソース情報を保持し、更にマルチモーダル文書編集送信装置102で音声合成を実行するか否かを判定する音声合成実行判定処理を行う(ステップS503)。
【0065】
音声合成実行判定方法として本実施形態では、マルチモーダル文書編集送信装置102のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のCPU速度を比較し、マルチモーダル文書受信処理装置のCPU速度のほうが早かった場合には、マルチモーダル文書編集送信装置102による音声合成処理は行うべきではないと判定し、マルチモーダル文書受信処理装置のCPU速度のほうが遅かった場合には、マルチモーダル文書編集送信装置102による音声合成処理は行うべきであると判定する。なお、上記の通り、この判定結果を示すデータ、すなわち合成実行判定を示すデータは実行判定結果保持部307で保持される。
【0066】
次に、データ通信部304は、ステップS503で音声合成実行判定部306による合成判定結果を示すデータをマルチモーダル文書受信処理装置101に送信する(ステップS504)。そしてインターネット通信部301は、インターネットを介して原文書のデータ(ホームページデータ)を取得し、原文書保持部302に保持する(ステップS505)。
【0067】
一方、ステップS502において、マルチモーダル文書受信処理装置からの入力がGUI操作である場合には処理をステップS507に進め、インターネット通信部301はインターネットを介して他のWebサーバから、GUI操作に応じた原文書のデータ(現在ブラウジングしているホームページにリンクしているホームページのデータ)を取得し、原文書保持部302に保持する(ステップS507)。
【0068】
次に、送信文書編集部308は、原文書保持部302に保持されたページデータに、スタイルシート保持部303に保持されたスタールシートを適用する送信文書編集処理を行う(ステップS506)。そして音声合成部309は実行判定結果保持部307に保持されている上記合成実行判定を示すデータを参照し、音声合成処理を行う場合(ステップS508)、処理をステップS509に進め、音声合成部309は送信文書編集部308で編集されたマルチモーダル文書のうち、音声合成するテキスト部分の音声合成を行うことで出力音声データを生成し、更にこの出力音声データに対してデータ通信を行うための符号化処理を行い、符号化出力音声データを生成する(ステップS509)。そしてデータ通信部304は、上記マルチモーダル文書データと符号化出力音声データとをマルチモーダル文書受信処理装置101に送信する(ステップS511)。
【0069】
一方、音声合成処理を行わない場合、処理をステップS510に進め、データ通信部304は、送信文書編集部307にて編集されたマルチモーダル文書データをマルチモーダル文書受信処理装置101に送信する(ステップS510)。
【0070】
以上で述べたように、まず、マルチモーダル文書受信処理装置101から自身のリソース情報をマルチモーダル文書編集送信装置102に送信し、マルチモーダル文書編集送信装置102にて、自身の処理状況から、音声合成をマルチモーダル文書受信処理装置101で行うべきか、マルチモーダル文書編集送信装置102で行うべきかを判定し、その判定結果をマルチモーダル文書編集送信装置102に送信する。そして、マルチモーダル文書受信処理装置101では、マルチモーダル文書編集送信装置102から返信された判定結果に基づいて、マルチモーダル文書受信処理装置101で音声合成を行うかどうかを決定する。これにより、より処理負荷の小さい装置が音声合成処理を行うので、システム全体としての処理負荷を軽減させることができる。
【0071】
[第2の実施形態]
第1の実施形態では説明を簡略化するために、マルチモーダル文書編集送信装置102における音声合成実行判定処理で、マルチモーダル文書編集送信装置102のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置101のCPU速度を単純比較しているが、複数のマルチモーダル文書編集送信装置102と送受信を行なっている、もしくは行う可能性があるなどを加味して、重み付けを行なった比較を行うものとしても構わない。
【0072】
[第3の実施形態]
第1の実施形態1ではリソース情報として、CPU速度のみを用いているが、これに限定されるものではなく、他にも例えばメモリ容量など、マルチモーダル文書受信処理装置の処理性能を示す情報であればよい。
【0073】
[第4の実施形態]
第1の実施形態ではマルチモーダル文書編集送信装置102における音声合成実行判定処理をセッションの最初に1回のみ実施しているが、例えば、送受信のたびに行っても良いし、タイマーを用いて一定時間間隔で行っても良い。
【0074】
[第5の実施形態]
上記実施形態では、マルチモーダル文書受信処理装置のCPU速度と、マルチモーダル文書編集送信装置102のロードアベレージとに基づいて、マルチモーダル文書編集送信装置102が音声合成処理をどちらの装置で行うかという判定処理を行っていたが、本実施形態のマルチモーダル文書編集送信装置102は、どちらの装置で音声認識処理を行うかという判定処理を行う。なおそれ以外の処理は第1の実施形態と同じとする。
【0075】
すなわち本実施形態における通信システムは、音声合成処理は常にマルチモーダル文書受信装置が行い、GUI入力としてユーザから入力された音声を認識する処理をどちらの装置が行うかを判断する処理を行う。なお、本実施形態における通信システムの構成は第1の実施形態と同じ(図1に示した構成)ものとする。
【0076】
図15に本実施形態におけるマルチモーダル文書受信処理装置の基本構成を示す。同図において図2と同じ部分については同じ番号を付け、その説明を省略する。1501は本実施形態におけるマルチモーダル文書受信処理装置の本体で、1502は音声入力部201から入力した音声を符号化し、そのサイズを小さくする入力音声符号化部、1503はデータ通信部205が受信した音声認識実行判定結果に基づき、マルチモーダル文書受信処理装置で音声認識を行うかどうかを判定する音声認識実行判定部、1504は音声認識実行判定部1503で判定された認識実行判定を保持する認識実行判定保持部である。
【0077】
図16に本実施形態におけるマルチモーダル文書編集送信装置の基本構成を示す。同図において図3と同じ部分については同じ番号をつけ、その説明を省略する。1601は本実施形態におけるマルチモーダル文書編集送信装置の本体で、1602は端末リソース情報保持部205に保持された現在通信中の端末のリソース情報と、マルチモーダル文書編集送信装置のロードアベレージからマルチモーダル文書編集送信装置で音声認識を行うか否かを判定する音声認識実行判定部である。1603は音声認識実行判定部306で音声認識を行うと判定した場合に音声認識を行う音声認識部である。
【0078】
図17に本実施形態におけるマルチモーダル文書受信処理装置が行う処理のフローチャートを示す。データ通信部205は、リソース情報保持部204に保持されたCPU速度を示すリソース情報をマルチモーダル文書送信編集装置に送信する(ステップS1701)。次に、データ通信部205は、マルチモーダル文書編集送信装置から、後述するサーバで音声認識を行うか否かという認識実行判定を受信し、認識実行判定部1504は受信した認識実行判定を示すデータを保持する(ステップS1702)。
【0079】
次にデータ通信部205は、マルチモーダル文書編集送信装置からマルチモーダル文書データのみ、もしくはマルチモーダル文書データと音声認識結果のセットのいずれかを受信する(ステップS1704)。更に詳しくは、データ通信部205は、マルチモーダル文書編集送信装置が音声認識を行わない場合にはマルチモーダル文書データのみ、マルチモーダル文書編集送信装置が音声認識を行う場合にはマルチモーダル文書データと音声認識結果のセットを受信する。
【0080】
GUI表示部211は受信したマルチモーダル文書データに従った画面、音声認識結果を受信している場合には音声認識結果に従った画面を表示(GUI表示)する(ステップS1705)。また、音声合成部208はデータ通信部205が受信したマルチモーダル文書データにおいて音声合成すべきテキスト部分を読み上げる音声データを生成する音声合成処理を行い、音声出力部210は生成した音声データを音声として出力する(ステップS1706)。
【0081】
次に、ユーザからの入力(音声入力部201、GUI操作入力部204からの入力のいずれか)を検出し(ステップS1708)、更に、その入力が音声入力部201からの音声入力であった場合(ステップS1709)、処理をステップS1710に進め、音声認識実行判定部1503は認識実行判定保持部1504が保持する上記認識実行判定を示すデータを参照し、マルチモーダル文書受信処理装置が音声認識処理を行うか否かを判断する(ステップS1710)。
【0082】
認識実行判定部1503がマルチモーダル文書受信処理装置が音声認識処理を行うと判定した場合には処理をステップS1712に進め、音声認識部202は音声入力部210から入力された音声に対して音声認識処理を行う(ステップS1712)。音声認識処理に関する技術は公知の技術であるために、ここでの詳細な説明は省略する。音声認識処理結果は、マルチモーダル文書編集送信装置に対するGUI入力となる。
【0083】
一方、マルチモーダル文書受信処理装置が音声認識処理を行わない場合には、処理をステップS1711に進め、入力音声符号化部1502は音声入力部210から入力された音声の符号化を行い(ステップS1711)、データ通信部205は音声符号化データをマルチモーダル文書編集送信装置に対して送信する(ステップS1713)。
【0084】
図18に本実施形態におけるマルチモーダル文書編集送信装置が行う処理のフローチャートを示す。データ通信部304は基本的にはマルチモーダル文書受信処理装置からの入力待ちであり、入力を受信すると以下の処理に移行する。
【0085】
マルチモーダル文書受信処理装置からの入力を受信した場合(ステップS1801)、処理をステップS1802に進め、マルチモーダル文書受信処理装置からの入力がリソース情報であれば(ステップS1802)、処理をステップS1803に進め、音声認識実行判定部1602は、端末リソース情報保持部305に、マルチモーダル文書受信処理装置の電話番号もしくはIPアドレスとともに、リソース情報を保持し、更にマルチモーダル文書編集送信装置で音声認識を実行するか否かを判定する音声認識実行判定処理を行う(ステップS1803)。
【0086】
音声認識実行判定方法として本実施形態では、マルチモーダル文書編集送信装置のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のCPU速度を比較し、マルチモーダル文書受信処理装置のCPU速度のほうが早かった場合には、マルチモーダル文書編集送信装置による音声認識処理は行うべきではないと判定し、マルチモーダル文書受信処理装置のCPU速度のほうが遅かった場合には、マルチモーダル文書編集送信装置による音声認識処理は行うべきであると判定する。そしてデータ通信部304は上記音声認識判定結果を示すデータをマルチモーダル文書受信処理装置に送信する(ステップS1804)。
【0087】
また、インターネット通信部301は、インターネットを介して原文書のデータ(ホームページデータ)を取得し、原文書保持部302に保持する(ステップS1805)。
【0088】
一方、ステップS1802において、マルチモーダル文書受信処理装置からの入力がリソース情報でない場合には処理をステップS1808に進め、音声入力(音声符号化データの入力)である場合(ステップS1808)には、処理をステップS1809に進める。そして、音声認識部307は、データ通信部304が受信した音声符号化データを復号し、復元した音声データに対して音声認識処理を行う(ステップS1809)。そしてその音声認識結果をデータ通信部304からマルチモーダル文書受信処理装置に送信する(ステップS1810)。
【0089】
一方、ステップS1808においてデータ通信部304が入力したものがGUI入力出会った場合(ステップS1808)、処理をステップS1811に進め、GUI入力に応じた原文書のデータ(現在ブラウジングしているホームページにリンクしているホームページのデータ)を取得し、原文書保持部302に保持する(ステップS1811)。
【0090】
次に、送信文書編集部308は、原文書保持部302に保持されたページデータに、スタイルシート保持部303に保持されたスタイルシートを適用する送信文書編集処理を行い、マルチモーダル文書データを生成する(ステップS1806)。そしてデータ通信部304は、このマルチモーダル文書をマルチモーダル文書受信処理装置に送信する(ステップS1807)。
【0091】
以上で述べたように、まず、マルチモーダル文書受信処理装置から自身のリソース情報をマルチモーダル文書編集送信装置に送信し、マルチモーダル文書編集送信装置にて、自身の処理状況から、音声認識をマルチモーダル文書受信処理装置で行うべきか、マルチモーダル文書編集送信装置で行うべきかを判定し、その判定結果をマルチモーダル文書編集送信装置に送信する。そして、マルチモーダル文書受信処理装置では、マルチモーダル文書編集送信装置から送信された判定結果に基づいて、マルチモーダル文書受信処理装置で音声認識を行うかどうかを決定する。これにより、より処理負荷の小さい装置が音声認識処理を行うので、システム全体としての処理負荷を軽減させることができる。
【0092】
[第6の実施形態]
第5の実施形態では説明を簡略化するために、マルチモーダル文書編集送信装置における音声合成実行判定処理で、マルチモーダル文書編集送信装置のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のCPU速度を単純比較しているが、複数のマルチモーダル文書編集送信装置と送受信を行なっている、もしくは行う可能性があるなどを加味して、重み付けを行なった比較を行うものとしても構わない。
【0093】
[第7の実施形態]
第1の実施形態ではリソース情報として、CPU速度のみを用いているが、これに限定されるものではなく、他にも例えばメモリ容量など、マルチモーダル文書受信処理装置の処理性能を示す情報であればよい。
【0094】
[第8の実施形態]
また第1の実施形態では、マルチモーダル文書編集送信装置が自身の処理状況を鑑み、音声認識をマルチモーダル文書受信処理装置で行うべきでないと判定した場合には音声認識を行なっていないが、マルチモーダル文書受信処理装置でも音声認識を行い、認識速度や尤度から、双方の認識結果のどちらかを採用するものとしても構わない。
【0095】
[第9の実施形態]
また第1の実施形態では、マルチモーダル文書編集送信装置における音声認識実行判定処理をセッションの最初に1回のみ実施しているが、他の例えば、送受信のたびに再評価するものとしても構わないし、タイマーを用いて一定時間間隔で再評価するものとしても構わない。
【0096】
[第10の実施形態]
上記実施形態では、マルチモーダル文書編集送信装置がマルチモーダル文書受信処理装置から受信したリソース情報を参照して、音声合成処理、もしくは音声認識処理をどちらの装置が行うかを決定する判定処理を行っていたが、その両方の判定処理を行っても良い。すなわち、マルチモーダル文書編集送信装置がマルチモーダル文書受信処理装置から受信したリソース情報を参照して上記判定処理を行った結果、音声合成処理はマルチモーダル文書受信処理装置が、音声認識処理をマルチモーダル文書編集送信装置が行うなどの判定処理を行っても良い。
【0097】
[他の実施形態]
上記実施形態では、画像出力装置としてCMYKの4色カラープリンタに関して記載を行ったが、本発明の目的は、他の構成のカラープリンタによっても達成されることは言うまでもない。
【0098】
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUまたはMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
【0099】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0100】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることが出来る。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0101】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0102】
【発明の効果】
以上の説明により、本発明によって、全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させることができる。また本発明は、全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させることができる。
【図面の簡単な説明】
【図1】本発明の通信システムの構成を示す図である。
【図2】本発明の第1の実施形態におけるマルチモーダル文書受信処理装置の基本構成を示すブロック図である。
【図3】本発明の第1の実施形態におけるマルチモーダル文書編集送信装置の基本構成を示すブロック図である。
【図4】マルチモーダル文書受信処理装置が行う処理のフローチャートである。
【図5】マルチモーダル文書編集送信装置が行う処理のフローチャートである。
【図6】マルチモーダル文書編集送信装置から送られるマルチモーダル文書の例を示す図である。
【図7】図6に示したマルチモーダル文書をGUI表示部210に表示した場合の表示例を示す図である。
【図8】編集前の原文書の例を示す図である。
【図9】図8に示した原文書に適用するスタイルシートの例を示す図である。
【図10】XMLを用いて記述された文書の例を示す図である。
【図11】XSLを用いて記述された文書の例を示す図である。
【図12】XML、XSLを用いて生成されるHTML文書を示す図である。
【図13】図12に示すHTML文書におけるCSSファイルの例を示す図である。
【図14】図12に示したHTML文書をブラウザで表示した表示例を示す図である。
【図15】本発明の第5の実施形態におけるマルチモーダル文書受信処理装置の基本構成を示すブロック図である。
【図16】本発明の第5の実施形態におけるマルチモーダル文書編集送信装置の基本構成を示すブロック図である。
【図17】マルチモーダル文書受信処理装置が行う処理のフローチャートである。
【図18】マルチモーダル文書編集送信装置が行う処理のフローチャートである。
【発明の属する技術分野】
本発明は、サーバ、受信端末に関するものである。
【0002】
【従来の技術】
インターネットの普及により、インターネットに接続されたサーバに保持され、マークアップ言語(HTML;HyperTextMarkupLanguage)で記述された文書を、インターネットを介してパソコン上のブラウザに表示するウェブブラウジングの世界は、拡大の一途をたどっている。
【0003】
HTML文書は歴史的な事情から、文書の構造を記述する部分と表現形式を記述する部分とが混在しており、その両者を分離するものとして、表現形式を構造から括り出したCSS(CascadingStyleSheet)も普及している。
【0004】
HTML(構造+表現)からCSS(表現)を分離しても、HTMLの文書構造は表現を意識したものである。よって、文書の内容のツリー構造のみを表すXML(eXtensibleMarkupLanguage)と、ツリーを表現したいものに変換するXSL(eXtensibleStylesheetLanguage)とで記述する方法も普及しつつある。
【0005】
XMLおよびXSLを用いて記述された文書の例を夫々図10,11に示し、その両者により生成されるHTML文書、CSSファイルの例、及びブラウザでの表示例を夫々図12,13,14に示す。
【0006】
上記のように、CSSやXSLというスタイルシートをいろいろと用意し、適宜切り替えることで、文書の内容のツリー構造のみを表す単一のXML文書を用途に応じて切り替えることができるようになってきている。
【0007】
その一方で、パソコンだけでなく、ユーザが日常で持ち歩く携帯電話やPHS(PersonalHandyphoneSystem)、PDA(PersonalDataAssintant;携帯情報端末)といったモバイル端末の性能も向上し、ハイエンドのモバイル端末は、一世代前のパソコンと遜色ない処理能力を持つようになってきた。
【0008】
そうしたハイエンドのモバイル端末は、以下の特徴が挙げられる。
【0009】
(1) 公衆回線や無線LANなどを経由して、ホストであるコンピュータと接続し、データ通信を行うことができる。
【0010】
(2) 音声入出力のデバイス(マイク、スピーカなど)を装備していることが多い。
【0011】
【発明が解決しようとする課題】
しかしながら上記ハイエンドのモバイル端末では一般にGUIを表示する表示画面のサイズが小さく、GUI情報を表示する能力が低い。また、市場に存在するモバイル端末はハイエンドのものだけではなく、ハイエンドでないモバイル端末も数多く存在し、そうしたモバイル端末には、GUI情報を表示できないものもある。
【0012】
そのようなモバイル端末の現状において、操作及び応答の一部またはすべてを音声で行なえるマルチモーダルインタフェースを実現することは有意義なことである。
【0013】
また、マルチモーダル文書を扱うに当たって、一部のハイエンドのモバイル端末では、音声認識、音声合成を行うことが可能であるが、多くのモバイル端末では、音声認識、音声合成を行うことができない、もしくは貧弱な音声認識、音声合成を行うことしかできない。
【0014】
一般に音声合成については、音声認識に比べてCPU、メモリといったリソースを必要としないが、音声合成機能が搭載されているモバイル端末はまだ少ない。また、モバイル端末で要求される音声認識が比較的リソースを必要としない特定話者方式で容認される可能性が高いのに対し、音声合成は可能であれば複数話者の声色を使い分けられることが望ましく、今後の発展が見込まれる感情表現などを取り込んだexpressivespeechなど、むしろ比較的リソースを必要とする方式が要求される。その一方で、サーバであるホストコンピュータにおいても、多くのモバイル端末をクライアントにする場合には、音声合成のための負荷が大きく、できる限り少なくしたいという問題点が存在する。
【0015】
また、通信データの容量の観点からすると、サーバであるホストコンピュータで合成した音声を送信するよりも、テキストを送信してクライアントであるモバイル端末で音声を合成するほうが有効である。
【0016】
本発明は以上の問題に鑑みてなされたものであり、全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させることを目的とする。また本発明は、全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させることを目的とする。
【0017】
【課題を解決するための手段】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【0018】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とする。
【0019】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【0020】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とする。
【0021】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【0022】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する音声合成結果送信手段と
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する音声認識結果送信手段と
を備えることを特徴とする。
【0023】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【0024】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とする。
【0025】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【0026】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とする。
【0027】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【0028】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する音声合成結果送信工程と
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する音声認識結果送信工程と
を備えることを特徴とする。
【0029】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【0030】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第1の受信手段と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第2の受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第1の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記第1の受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記第1の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
を備えることを特徴とする。
【0031】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【0032】
すなわち、外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末であって、
GUI入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする。
【0033】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【0034】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信手段と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
GUI入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、前記受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする。
【0035】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【0036】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第1の受信工程と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第2の受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第1の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記第1の受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記第1の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
を備えることを特徴とする。
【0037】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【0038】
すなわち、外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末の制御方法であって、
GUI入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする。
【0039】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【0040】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信工程と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
GUI入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、前記受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする。
【0041】
【発明の実施の形態】
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
【0042】
[第1の実施形態]
図1に本実施形態における通信システムの構成を示す。101は携帯電話や、PHS、PDAといった、モバイル端末からなる情報受信端末で、これらを総称してマルチモーダル文書受信処理装置と呼称するが、夫々の機器をマルチモーダル文書受信処理装置と呼称する場合もある。102はマルチモーダル文書受信処理装置101と通信を行うとともに、インターネットを介して、外部のWebサーバから原文書を取得するマルチモーダル文書編集送信装置である。
【0043】
またここでマルチモーダル文章とは、入力がキーボード、マウス、音声など複数の入力手段により入力可能な文章データのことを示している。
【0044】
マルチモーダル文書受信処理装置101とマルチモーダル文書編集送信装置102は、公衆回線や無線LANなどといった通信手段を介して、データ通信を行うことができる。
【0045】
図2は上記マルチモーダル文書受信処理装置の基本構成を示すブロック図である。同図において200はマルチモーダル文書受信処理装置本体で後述の各部を含む。201は例えばマイクロフォンにより構成されており、ユーザが音声を入力する音声入力部である。202は音声入力部201から入力された音声の認識処理を行う音声認識部で、その認識結果はGUI入力による文字入力と同等に扱われる。
【0046】
203はスタイラスなどのポインティングデバイスやテンキーなどのボタンにより各種の操作入力(GUI操作)を行うGUI操作入力部で、204はマルチモーダル文書受信装置のCPU速度を示すリソース情報を保持するリソース情報保持部である。
【0047】
205はGUI操作入力部から入力されたGUI操作、およびリソース情報保持部205に保持されたリソース情報をマルチモーダル文書編集送信装置102に送信し、マルチモーダル文書編集送信装置102から音声合成実行判定結果を示すデータ、マルチモーダル文書データ、符号化出力音声データを受信するデータ通信部である。
【0048】
206はデータ通信部205で受信した音声合成実行判定結果に基づき、マルチモーダル文書受信処理装置101で音声合成を行うかどうかを判定する音声合成実行判定部で、207は音声合成実行判定部206で判定された合成実行判定を保持する合成実行判定保持部である。
【0049】
208は音声合成実行判定部206においてマルチモーダル文書受信処理装置101で音声合成を行うと判定した場合に、データ通信部205で受信したマルチモーダル文書のうち、音声出力するテキスト部分を読み上げる出力音声データを生成する処理(音声合成処理)を行う音声合成部である。音声出力するテキストの部分は予め指定されているものとする。図6にマルチモーダル文書編集送信装置102から送られるマルチモーダル文書の例を示す。図6に示す、”<voice>”タグで括られた部分のテキストが、音声合成するテキストの部分である。また、図6に示したマルチモーダル文書をGUI表示部210に表示した場合の表示画面を図7に示す。
【0050】
図7に示された表示画面において”<voice>”タグで括られた部分に対応するテキストを上記GUI入力により指示することで、音声出力部210からこのテキスト部分を読み上げる合成音声が出力される。
【0051】
209は音声合成実行判定部206においてマルチモーダル文書受信処理装置101で音声合成を行わないと判定した場合に、データ通信部205で受信した符号化出力音声データを復号する出力音声復号化部である。ここでいう復号とは、デジタル通信を行うために量子化された出力音声の復号を差す。復号された音声データは、例えばWAV形式の音声ファイルである。
【0052】
210はスピーカやイヤホンなどにより構成される音声出力部で、音声合成部208による出力音声、出力音声復号化部210で復号された出力音声を出力する。211はデータ通信部207が受信したマルチモーダル文書のうち、GUI表示内容を表示するWebブラウザなどのGUI表示部である。上記の各部は夫々バスで接続されているので、互いにデータの受け渡しが可能となる。
【0053】
図3は、本実施形態におけるマルチモーダル文書編集送信装置102の基本構成を示すブロック図である。同図において、301はインターネットを介して外部のWebサーバより、編集してマルチモーダル文書受信処理装置101に送信するマルチモーダル文書の原文書を取得するインターネット通信部で、302はインターネット通信部301が取得した文書を保持する原文書保持部である。
【0054】
303は原文書保持部302に保持された原文書を編集するためのスタイルシート群を保持するスタイルシート保持部で、304はマルチモーダル文書受信処理装置101から、GUI操作、およびリソース情報を受信し、後述する音声合成実行判定結果を示すデータやマルチモーダル文書、符号化出力音声データをマルチモーダル文書受信処理装置101に送信するデータ通信部である。
【0055】
305はデータ通信部304が受信したリソース情報を個々のマルチモーダル文書受信処理装置101ごとに保持する端末リソース情報保持部である。端末リソース情報保持部305では、公衆回線で接続されている場合には電話番号で、無線LANなどなどで接続されている場合には、IPアドレスでマルチモーダル文書受信処理装置101の特定を行ない、個々の端末のリソース情報を上記電話番号、もしくは上記IPアドレスと関連づけて保持する。
【0056】
306は端末リソース情報保持部305に保持された現在通信中の端末のリソース情報とマルチモーダル文書編集送信装置102のリソース情報(本実施形態ではマルチモーダル文書編集送信装置102のロードアベレージ)からマルチモーダル文書編集送信装置102で音声合成を行うか否かを判定する音声合成実行判定部である。
【0057】
307は音声合成実行判定部306で判定された結果を示すデータを保持する実行判定結果保持部である。308は原文書保持部302に保持された原文書に、スタイルシート保持部303に保持されたスタイルシートを適用することにより、マルチモーダル文書を編集する送信文書編集部で、309は音声合成実行判定部306によりマルチモーダル文書編集送信装置102が音声合成を行うと判定した場合に、マルチモーダル文書中で音声出力するテキスト部分に対する音声合成処理を行う音声合成部である。
【0058】
図8に編集前の原文書の例を示し、図9に図8に示した原文書に適用するスタイルシートの例を示す。図8の原文書に図9のスタイルシートを適用することで図6に示したマルチモーダル文書を生成することができる。
【0059】
図4に、マルチモーダル文書受信処理装置101が行う処理のフローチャートを示す。まずデータ通信部205は、リソース情報保持部204に保持された、マルチモーダル文書受信処理装置のCPU速度を示すリソース情報をマルチモーダル文書送信編集装置102に送信する(ステップS401)。次に、データ通信部205はマルチモーダル文書編集送信装置102から後述する、サーバで音声合成を行うか否かという(サーバでの)合成実行判定を示すデータを受信し、合成実行判定保持部207は受信した合成実行判定を示すデータを保持する(ステップS402)。次にデータ受信部206は、マルチモーダル文書編集送信装置102からマルチモーダル文書データのみ、もしくはマルチモーダル文書データと符号化出力音声データを受信する(ステップS403)。GUI表示部211は受信したマルチモーダル文書データに従った画面を表示(GUI表示)する(ステップS404)。
【0060】
次に、音声合成実行判定部206は合成実行判定保持部207が保持する上記合成実行判定を示すデータを参照し、マルチモーダル文書受信処理装置101が音声合成処理を行うか否かを判断する(ステップS405)。マルチモーダル文書受信処理装置101が音声合成処理を行う場合には処理をステップS407に進め、音声合成部208はマルチモーダル文書のうち、音声出力するテキスト部分に対する音声合成処理を行い、出力音声データを生成する(ステップS407)。
【0061】
一方、マルチモーダル文書受信処理装置101が音声合成を行わない場合には処理をステップS406に進め、出力音声復号化部209はデータ通信部205が受信した符号化出力音声データを復号し、出力音声データを復元する(ステップS406)。そして音声出力部210は、音声合成部208による出力音声データ、もしくは出力音声復号化部209による出力音声データに従った音声を出力する(ステップS408)。
【0062】
そして、ユーザからの入力(音声入力部201もしくはGUI操作入力部203からのユーザ入力)があった場合には(ステップS409)処理をステップS410に進め、更に、音声入力部201から音声が入力された場合には(ステップS410)、処理をステップS411に進め、音声入力部201を介して入力された音声に対して音声認識部202は音声認識を行い、これをGUI操作とする(ステップS411)。そしてデータ通信部205は音声入力部201からのGUI操作、もしくはGUI操作入力部203からのGUI操作をマルチモーダル文書編集送信装置102に送信する(ステップS412)。
【0063】
次に図5に、マルチモーダル文書編集送信装置102が行う処理のフローチャートを示す。データ通信部304は基本的にはマルチモーダル文書受信処理装置からの入力待ちであり、入力を受信すると以下の処理に移行する。
【0064】
マルチモーダル文書受信処理装置からの入力を受信した場合(ステップS501)、処理をステップS502に進め、マルチモーダル文書受信処理装置からの入力がリソース情報であれば(ステップS502)、処理をステップS503に進め、音声合成実行判定部306は、端末リソース情報保持部305に、マルチモーダル文書受信処理装置101の電話番号もしくはIPアドレスとともに、リソース情報を保持し、更にマルチモーダル文書編集送信装置102で音声合成を実行するか否かを判定する音声合成実行判定処理を行う(ステップS503)。
【0065】
音声合成実行判定方法として本実施形態では、マルチモーダル文書編集送信装置102のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のCPU速度を比較し、マルチモーダル文書受信処理装置のCPU速度のほうが早かった場合には、マルチモーダル文書編集送信装置102による音声合成処理は行うべきではないと判定し、マルチモーダル文書受信処理装置のCPU速度のほうが遅かった場合には、マルチモーダル文書編集送信装置102による音声合成処理は行うべきであると判定する。なお、上記の通り、この判定結果を示すデータ、すなわち合成実行判定を示すデータは実行判定結果保持部307で保持される。
【0066】
次に、データ通信部304は、ステップS503で音声合成実行判定部306による合成判定結果を示すデータをマルチモーダル文書受信処理装置101に送信する(ステップS504)。そしてインターネット通信部301は、インターネットを介して原文書のデータ(ホームページデータ)を取得し、原文書保持部302に保持する(ステップS505)。
【0067】
一方、ステップS502において、マルチモーダル文書受信処理装置からの入力がGUI操作である場合には処理をステップS507に進め、インターネット通信部301はインターネットを介して他のWebサーバから、GUI操作に応じた原文書のデータ(現在ブラウジングしているホームページにリンクしているホームページのデータ)を取得し、原文書保持部302に保持する(ステップS507)。
【0068】
次に、送信文書編集部308は、原文書保持部302に保持されたページデータに、スタイルシート保持部303に保持されたスタールシートを適用する送信文書編集処理を行う(ステップS506)。そして音声合成部309は実行判定結果保持部307に保持されている上記合成実行判定を示すデータを参照し、音声合成処理を行う場合(ステップS508)、処理をステップS509に進め、音声合成部309は送信文書編集部308で編集されたマルチモーダル文書のうち、音声合成するテキスト部分の音声合成を行うことで出力音声データを生成し、更にこの出力音声データに対してデータ通信を行うための符号化処理を行い、符号化出力音声データを生成する(ステップS509)。そしてデータ通信部304は、上記マルチモーダル文書データと符号化出力音声データとをマルチモーダル文書受信処理装置101に送信する(ステップS511)。
【0069】
一方、音声合成処理を行わない場合、処理をステップS510に進め、データ通信部304は、送信文書編集部307にて編集されたマルチモーダル文書データをマルチモーダル文書受信処理装置101に送信する(ステップS510)。
【0070】
以上で述べたように、まず、マルチモーダル文書受信処理装置101から自身のリソース情報をマルチモーダル文書編集送信装置102に送信し、マルチモーダル文書編集送信装置102にて、自身の処理状況から、音声合成をマルチモーダル文書受信処理装置101で行うべきか、マルチモーダル文書編集送信装置102で行うべきかを判定し、その判定結果をマルチモーダル文書編集送信装置102に送信する。そして、マルチモーダル文書受信処理装置101では、マルチモーダル文書編集送信装置102から返信された判定結果に基づいて、マルチモーダル文書受信処理装置101で音声合成を行うかどうかを決定する。これにより、より処理負荷の小さい装置が音声合成処理を行うので、システム全体としての処理負荷を軽減させることができる。
【0071】
[第2の実施形態]
第1の実施形態では説明を簡略化するために、マルチモーダル文書編集送信装置102における音声合成実行判定処理で、マルチモーダル文書編集送信装置102のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置101のCPU速度を単純比較しているが、複数のマルチモーダル文書編集送信装置102と送受信を行なっている、もしくは行う可能性があるなどを加味して、重み付けを行なった比較を行うものとしても構わない。
【0072】
[第3の実施形態]
第1の実施形態1ではリソース情報として、CPU速度のみを用いているが、これに限定されるものではなく、他にも例えばメモリ容量など、マルチモーダル文書受信処理装置の処理性能を示す情報であればよい。
【0073】
[第4の実施形態]
第1の実施形態ではマルチモーダル文書編集送信装置102における音声合成実行判定処理をセッションの最初に1回のみ実施しているが、例えば、送受信のたびに行っても良いし、タイマーを用いて一定時間間隔で行っても良い。
【0074】
[第5の実施形態]
上記実施形態では、マルチモーダル文書受信処理装置のCPU速度と、マルチモーダル文書編集送信装置102のロードアベレージとに基づいて、マルチモーダル文書編集送信装置102が音声合成処理をどちらの装置で行うかという判定処理を行っていたが、本実施形態のマルチモーダル文書編集送信装置102は、どちらの装置で音声認識処理を行うかという判定処理を行う。なおそれ以外の処理は第1の実施形態と同じとする。
【0075】
すなわち本実施形態における通信システムは、音声合成処理は常にマルチモーダル文書受信装置が行い、GUI入力としてユーザから入力された音声を認識する処理をどちらの装置が行うかを判断する処理を行う。なお、本実施形態における通信システムの構成は第1の実施形態と同じ(図1に示した構成)ものとする。
【0076】
図15に本実施形態におけるマルチモーダル文書受信処理装置の基本構成を示す。同図において図2と同じ部分については同じ番号を付け、その説明を省略する。1501は本実施形態におけるマルチモーダル文書受信処理装置の本体で、1502は音声入力部201から入力した音声を符号化し、そのサイズを小さくする入力音声符号化部、1503はデータ通信部205が受信した音声認識実行判定結果に基づき、マルチモーダル文書受信処理装置で音声認識を行うかどうかを判定する音声認識実行判定部、1504は音声認識実行判定部1503で判定された認識実行判定を保持する認識実行判定保持部である。
【0077】
図16に本実施形態におけるマルチモーダル文書編集送信装置の基本構成を示す。同図において図3と同じ部分については同じ番号をつけ、その説明を省略する。1601は本実施形態におけるマルチモーダル文書編集送信装置の本体で、1602は端末リソース情報保持部205に保持された現在通信中の端末のリソース情報と、マルチモーダル文書編集送信装置のロードアベレージからマルチモーダル文書編集送信装置で音声認識を行うか否かを判定する音声認識実行判定部である。1603は音声認識実行判定部306で音声認識を行うと判定した場合に音声認識を行う音声認識部である。
【0078】
図17に本実施形態におけるマルチモーダル文書受信処理装置が行う処理のフローチャートを示す。データ通信部205は、リソース情報保持部204に保持されたCPU速度を示すリソース情報をマルチモーダル文書送信編集装置に送信する(ステップS1701)。次に、データ通信部205は、マルチモーダル文書編集送信装置から、後述するサーバで音声認識を行うか否かという認識実行判定を受信し、認識実行判定部1504は受信した認識実行判定を示すデータを保持する(ステップS1702)。
【0079】
次にデータ通信部205は、マルチモーダル文書編集送信装置からマルチモーダル文書データのみ、もしくはマルチモーダル文書データと音声認識結果のセットのいずれかを受信する(ステップS1704)。更に詳しくは、データ通信部205は、マルチモーダル文書編集送信装置が音声認識を行わない場合にはマルチモーダル文書データのみ、マルチモーダル文書編集送信装置が音声認識を行う場合にはマルチモーダル文書データと音声認識結果のセットを受信する。
【0080】
GUI表示部211は受信したマルチモーダル文書データに従った画面、音声認識結果を受信している場合には音声認識結果に従った画面を表示(GUI表示)する(ステップS1705)。また、音声合成部208はデータ通信部205が受信したマルチモーダル文書データにおいて音声合成すべきテキスト部分を読み上げる音声データを生成する音声合成処理を行い、音声出力部210は生成した音声データを音声として出力する(ステップS1706)。
【0081】
次に、ユーザからの入力(音声入力部201、GUI操作入力部204からの入力のいずれか)を検出し(ステップS1708)、更に、その入力が音声入力部201からの音声入力であった場合(ステップS1709)、処理をステップS1710に進め、音声認識実行判定部1503は認識実行判定保持部1504が保持する上記認識実行判定を示すデータを参照し、マルチモーダル文書受信処理装置が音声認識処理を行うか否かを判断する(ステップS1710)。
【0082】
認識実行判定部1503がマルチモーダル文書受信処理装置が音声認識処理を行うと判定した場合には処理をステップS1712に進め、音声認識部202は音声入力部210から入力された音声に対して音声認識処理を行う(ステップS1712)。音声認識処理に関する技術は公知の技術であるために、ここでの詳細な説明は省略する。音声認識処理結果は、マルチモーダル文書編集送信装置に対するGUI入力となる。
【0083】
一方、マルチモーダル文書受信処理装置が音声認識処理を行わない場合には、処理をステップS1711に進め、入力音声符号化部1502は音声入力部210から入力された音声の符号化を行い(ステップS1711)、データ通信部205は音声符号化データをマルチモーダル文書編集送信装置に対して送信する(ステップS1713)。
【0084】
図18に本実施形態におけるマルチモーダル文書編集送信装置が行う処理のフローチャートを示す。データ通信部304は基本的にはマルチモーダル文書受信処理装置からの入力待ちであり、入力を受信すると以下の処理に移行する。
【0085】
マルチモーダル文書受信処理装置からの入力を受信した場合(ステップS1801)、処理をステップS1802に進め、マルチモーダル文書受信処理装置からの入力がリソース情報であれば(ステップS1802)、処理をステップS1803に進め、音声認識実行判定部1602は、端末リソース情報保持部305に、マルチモーダル文書受信処理装置の電話番号もしくはIPアドレスとともに、リソース情報を保持し、更にマルチモーダル文書編集送信装置で音声認識を実行するか否かを判定する音声認識実行判定処理を行う(ステップS1803)。
【0086】
音声認識実行判定方法として本実施形態では、マルチモーダル文書編集送信装置のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のCPU速度を比較し、マルチモーダル文書受信処理装置のCPU速度のほうが早かった場合には、マルチモーダル文書編集送信装置による音声認識処理は行うべきではないと判定し、マルチモーダル文書受信処理装置のCPU速度のほうが遅かった場合には、マルチモーダル文書編集送信装置による音声認識処理は行うべきであると判定する。そしてデータ通信部304は上記音声認識判定結果を示すデータをマルチモーダル文書受信処理装置に送信する(ステップS1804)。
【0087】
また、インターネット通信部301は、インターネットを介して原文書のデータ(ホームページデータ)を取得し、原文書保持部302に保持する(ステップS1805)。
【0088】
一方、ステップS1802において、マルチモーダル文書受信処理装置からの入力がリソース情報でない場合には処理をステップS1808に進め、音声入力(音声符号化データの入力)である場合(ステップS1808)には、処理をステップS1809に進める。そして、音声認識部307は、データ通信部304が受信した音声符号化データを復号し、復元した音声データに対して音声認識処理を行う(ステップS1809)。そしてその音声認識結果をデータ通信部304からマルチモーダル文書受信処理装置に送信する(ステップS1810)。
【0089】
一方、ステップS1808においてデータ通信部304が入力したものがGUI入力出会った場合(ステップS1808)、処理をステップS1811に進め、GUI入力に応じた原文書のデータ(現在ブラウジングしているホームページにリンクしているホームページのデータ)を取得し、原文書保持部302に保持する(ステップS1811)。
【0090】
次に、送信文書編集部308は、原文書保持部302に保持されたページデータに、スタイルシート保持部303に保持されたスタイルシートを適用する送信文書編集処理を行い、マルチモーダル文書データを生成する(ステップS1806)。そしてデータ通信部304は、このマルチモーダル文書をマルチモーダル文書受信処理装置に送信する(ステップS1807)。
【0091】
以上で述べたように、まず、マルチモーダル文書受信処理装置から自身のリソース情報をマルチモーダル文書編集送信装置に送信し、マルチモーダル文書編集送信装置にて、自身の処理状況から、音声認識をマルチモーダル文書受信処理装置で行うべきか、マルチモーダル文書編集送信装置で行うべきかを判定し、その判定結果をマルチモーダル文書編集送信装置に送信する。そして、マルチモーダル文書受信処理装置では、マルチモーダル文書編集送信装置から送信された判定結果に基づいて、マルチモーダル文書受信処理装置で音声認識を行うかどうかを決定する。これにより、より処理負荷の小さい装置が音声認識処理を行うので、システム全体としての処理負荷を軽減させることができる。
【0092】
[第6の実施形態]
第5の実施形態では説明を簡略化するために、マルチモーダル文書編集送信装置における音声合成実行判定処理で、マルチモーダル文書編集送信装置のCPU速度に1からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のCPU速度を単純比較しているが、複数のマルチモーダル文書編集送信装置と送受信を行なっている、もしくは行う可能性があるなどを加味して、重み付けを行なった比較を行うものとしても構わない。
【0093】
[第7の実施形態]
第1の実施形態ではリソース情報として、CPU速度のみを用いているが、これに限定されるものではなく、他にも例えばメモリ容量など、マルチモーダル文書受信処理装置の処理性能を示す情報であればよい。
【0094】
[第8の実施形態]
また第1の実施形態では、マルチモーダル文書編集送信装置が自身の処理状況を鑑み、音声認識をマルチモーダル文書受信処理装置で行うべきでないと判定した場合には音声認識を行なっていないが、マルチモーダル文書受信処理装置でも音声認識を行い、認識速度や尤度から、双方の認識結果のどちらかを採用するものとしても構わない。
【0095】
[第9の実施形態]
また第1の実施形態では、マルチモーダル文書編集送信装置における音声認識実行判定処理をセッションの最初に1回のみ実施しているが、他の例えば、送受信のたびに再評価するものとしても構わないし、タイマーを用いて一定時間間隔で再評価するものとしても構わない。
【0096】
[第10の実施形態]
上記実施形態では、マルチモーダル文書編集送信装置がマルチモーダル文書受信処理装置から受信したリソース情報を参照して、音声合成処理、もしくは音声認識処理をどちらの装置が行うかを決定する判定処理を行っていたが、その両方の判定処理を行っても良い。すなわち、マルチモーダル文書編集送信装置がマルチモーダル文書受信処理装置から受信したリソース情報を参照して上記判定処理を行った結果、音声合成処理はマルチモーダル文書受信処理装置が、音声認識処理をマルチモーダル文書編集送信装置が行うなどの判定処理を行っても良い。
【0097】
[他の実施形態]
上記実施形態では、画像出力装置としてCMYKの4色カラープリンタに関して記載を行ったが、本発明の目的は、他の構成のカラープリンタによっても達成されることは言うまでもない。
【0098】
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUまたはMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
【0099】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0100】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることが出来る。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0101】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0102】
【発明の効果】
以上の説明により、本発明によって、全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させることができる。また本発明は、全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させることができる。
【図面の簡単な説明】
【図1】本発明の通信システムの構成を示す図である。
【図2】本発明の第1の実施形態におけるマルチモーダル文書受信処理装置の基本構成を示すブロック図である。
【図3】本発明の第1の実施形態におけるマルチモーダル文書編集送信装置の基本構成を示すブロック図である。
【図4】マルチモーダル文書受信処理装置が行う処理のフローチャートである。
【図5】マルチモーダル文書編集送信装置が行う処理のフローチャートである。
【図6】マルチモーダル文書編集送信装置から送られるマルチモーダル文書の例を示す図である。
【図7】図6に示したマルチモーダル文書をGUI表示部210に表示した場合の表示例を示す図である。
【図8】編集前の原文書の例を示す図である。
【図9】図8に示した原文書に適用するスタイルシートの例を示す図である。
【図10】XMLを用いて記述された文書の例を示す図である。
【図11】XSLを用いて記述された文書の例を示す図である。
【図12】XML、XSLを用いて生成されるHTML文書を示す図である。
【図13】図12に示すHTML文書におけるCSSファイルの例を示す図である。
【図14】図12に示したHTML文書をブラウザで表示した表示例を示す図である。
【図15】本発明の第5の実施形態におけるマルチモーダル文書受信処理装置の基本構成を示すブロック図である。
【図16】本発明の第5の実施形態におけるマルチモーダル文書編集送信装置の基本構成を示すブロック図である。
【図17】マルチモーダル文書受信処理装置が行う処理のフローチャートである。
【図18】マルチモーダル文書編集送信装置が行う処理のフローチャートである。
Claims (30)
- 外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とするサーバ。 - 外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とするサーバ。 - 外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する音声合成結果送信手段と
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する音声認識結果送信手段と
を備えることを特徴とするサーバ。 - 前記文書データはマルチモーダル文書データであることを特徴とする請求項1乃至3に記載のサーバ。
- 前記リソース情報はCPU速度を含むことを特徴とする請求項1乃至3のいずれか1項に記載に記載のサーバ。
- 前記判断手段は、前記サーバのCPU速度に1からロードアベレージを引いた数を掛けたものと、前記外部装置のCPU速度とを比較し、前記外部装置のCPU速度のほうが早かった場合には、前記サーバによる音声合成処理は行うべきではないと判定し、前記外部装置のCPU速度のほうが遅かった場合には、前記サーバによる音声合成処理は行うべきであると判定することを特徴とする請求項1または3に記載のサーバ。
- 前記判断手段は、前記サーバのCPU速度に1からロードアベレージを引いた数を掛けたものと、前記外部装置のCPU速度とを比較し、前記外部装置のCPU速度のほうが早かった場合には、前記サーバによる音声合成処理は行うべきではないと判定し、前記外部装置のCPU速度のほうが遅かった場合には、前記サーバによる音声合成処理は行うべきであると判定することを特徴とする請求項2または3に記載のサーバ。
- 前記音声合成手段は、前記文書データにおいて、所定のタグにより括られた箇所を読み上げるための出力音声データを生成することを特徴とする請求項1または3に記載のサーバ。
- 前記音声認識手段は、GUI入力として入力された音声データに基づいて音声認識を行うことを特徴とする請求項2または3に記載のサーバ。
- 外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とするサーバの制御方法。 - 外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とするサーバの制御方法。 - 外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する音声合成結果送信工程と
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する音声認識結果送信工程と
を備えることを特徴とするサーバの制御方法。 - 文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第1の受信手段と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第2の受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第1の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記第1の受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記第1の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
を備えることを特徴とする受信端末。 - 外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末であって、
GUI入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする受信端末。 - 文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信手段と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
GUI入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、前記受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする受信端末。 - 前記文書データはマルチモーダル文書データであることを特徴とする請求項13乃至15に記載の受信端末。
- 更に、リソース情報を前記外部装置に送信するリソース情報送信手段を備えることを特徴とする請求項13乃至15のいずれか1項に記載の受信端末。
- 前記第1の受信手段は、リソース情報に基づいた合成実行判定結果を示すデータを受信する事を特徴とする請求項13に記載の受信端末。
- 前記認識実行判定結果データ受信手段は、リソース情報に基づいた合成実行判定結果を示すデータを受信する事を特徴とする請求項14に記載の受信端末。
- 前記合成実行判定結果データ受信手段は、リソース情報に基づいた合成実行判定結果を示すデータを受信する事を特徴とする請求項15に記載の受信端末。
- 前記リソース情報はCPU速度を含むことを特徴とする請求項17乃至20のいずれか1項に記載に記載の受信端末。
- 前記音声合成手段は、前記文書データにおいて、所定のタグにより括られた箇所を読み上げるための出力音声データを生成することを特徴とする請求項13または15に記載の受信端末。
- 文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第1の受信工程と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第2の受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第1の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記第1の受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記第1の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
を備えることを特徴とする受信端末の制御方法。 - 外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末の制御方法であって、
GUI入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする受信端末の制御方法。 - 文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信工程と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
GUI入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、前記受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする受信端末の制御方法。 - コンピュータを請求項1乃至9のいずれか1項に記載のサーバとして機能させるプログラム。
- コンピュータに請求項10乃至12に記載のサーバの制御方法を実行させるためのプログラム。
- コンピュータを請求項13乃至22に記載の受信端末として機能させるプログラム。
- コンピュータに請求項23乃至25に記載の受信端末の制御方法を実行させるためのプログラム。
- 請求項26乃至29のいずれか1項に記載のプログラムを格納するコンピュータ読みとり可能な記憶媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002171660A JP2004020613A (ja) | 2002-06-12 | 2002-06-12 | サーバ、受信端末 |
US10/455,443 US20040034528A1 (en) | 2002-06-12 | 2003-06-06 | Server and receiving terminal |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002171660A JP2004020613A (ja) | 2002-06-12 | 2002-06-12 | サーバ、受信端末 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004020613A true JP2004020613A (ja) | 2004-01-22 |
JP2004020613A5 JP2004020613A5 (ja) | 2005-10-13 |
Family
ID=31171455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002171660A Withdrawn JP2004020613A (ja) | 2002-06-12 | 2002-06-12 | サーバ、受信端末 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040034528A1 (ja) |
JP (1) | JP2004020613A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200480A (ja) * | 2012-03-26 | 2013-10-03 | Fujitsu Ltd | 音声対話システム及びプログラム |
JP2017129840A (ja) * | 2016-01-19 | 2017-07-27 | 百度在綫網絡技術(北京)有限公司 | 音声合成システムの最適化方法及び装置 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3542578B2 (ja) * | 2001-11-22 | 2004-07-14 | キヤノン株式会社 | 音声認識装置及びその方法、プログラム |
JP2004227468A (ja) * | 2003-01-27 | 2004-08-12 | Canon Inc | 情報提供装置、情報提供方法 |
GB0415928D0 (en) * | 2004-07-16 | 2004-08-18 | Koninkl Philips Electronics Nv | Communication method and system |
US20100030557A1 (en) | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
US9641481B2 (en) * | 2014-02-21 | 2017-05-02 | Htc Corporation | Smart conversation method and electronic device using the same |
US10614794B2 (en) * | 2017-06-15 | 2020-04-07 | Lenovo (Singapore) Pte. Ltd. | Adjust output characteristic |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1173398A (ja) * | 1997-06-03 | 1999-03-16 | Toshiba Corp | 分散ネットワークコンピューティングシステム、同システムに用いられる情報交換装置、同システムに用いられるセキュリティ機能を有する情報交換方法、この方法を格納したコンピュータ読取り可能な記憶媒体 |
US6629075B1 (en) * | 2000-06-09 | 2003-09-30 | Speechworks International, Inc. | Load-adjusted speech recogintion |
KR100434348B1 (ko) * | 2000-12-27 | 2004-06-04 | 엘지전자 주식회사 | 지능망 시스템의 특수자원 다중화 장치 및 그 제어방법 |
US20030014254A1 (en) * | 2001-07-11 | 2003-01-16 | You Zhang | Load-shared distribution of a speech system |
-
2002
- 2002-06-12 JP JP2002171660A patent/JP2004020613A/ja not_active Withdrawn
-
2003
- 2003-06-06 US US10/455,443 patent/US20040034528A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200480A (ja) * | 2012-03-26 | 2013-10-03 | Fujitsu Ltd | 音声対話システム及びプログラム |
JP2017129840A (ja) * | 2016-01-19 | 2017-07-27 | 百度在綫網絡技術(北京)有限公司 | 音声合成システムの最適化方法及び装置 |
US10242660B2 (en) | 2016-01-19 | 2019-03-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for optimizing speech synthesis system |
Also Published As
Publication number | Publication date |
---|---|
US20040034528A1 (en) | 2004-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8686276B1 (en) | System and method for capture and rendering of performance on synthetic musical instrument | |
AU684872B2 (en) | Communication system | |
EP2112650B1 (en) | Speech synthesis apparatus, speech synthesis method, speech synthesis program, portable information terminal, and speech synthesis system | |
JP2005521120A5 (ja) | ||
JP2005149484A (ja) | 逐次的なマルチモーダル入力 | |
JP2008271151A (ja) | 無線通信システム、無線通信装置、プログラムおよび無線通信方法 | |
CN1212601C (zh) | 一种嵌入式语音合成方法及系统 | |
US7174509B2 (en) | Multimodal document reception apparatus and multimodal document transmission apparatus, multimodal document transmission/reception system, their control method, and program | |
JP2004020613A (ja) | サーバ、受信端末 | |
US6845379B2 (en) | Sound data processing system and processing method | |
WO2019104889A1 (zh) | 一种声音处理系统、方法及声音识别装置和声音接收装置 | |
KR100826778B1 (ko) | 멀티모달을 위한 브라우저 기반의 무선 단말과, 무선단말을 위한 브라우저 기반의 멀티모달 서버 및 시스템과이의 운용 방법 | |
CN110022510A (zh) | 一种声音振动文件的生成方法、解析方法以及相关装置 | |
JP2004020613A5 (ja) | ||
WO2013182129A2 (zh) | 一种云笔记实现方法及装置 | |
JP2005062420A (ja) | コンテンツ生成システム、コンテンツ生成方法およびコンテンツ生成プログラム | |
CN208444595U (zh) | 一种具有声音调节功能的朗读装置 | |
JP4120440B2 (ja) | 通信処理装置、および通信処理方法、並びにコンピュータ・プログラム | |
TWM283469U (en) | Wireless earphone with downloading file function | |
KR100513040B1 (ko) | 음성합성을 이용하여 호출음을 생성하는 무선통신단말기및 그 방법 | |
JP2003199031A (ja) | データ処理装置、データ処理サーバ、データ処理システム、データ処理装置の制御方法、データ処理サーバの制御方法、コンピュータプログラム及びコンピュータ可読記憶媒体 | |
JP2004318607A (ja) | 情報処理装置、情報処理方法、プログラム、記憶媒体 | |
JP2004343649A (ja) | 音声応答システム | |
JP2005107320A (ja) | 音声再生用データ生成装置 | |
KR20010027241A (ko) | 휴대폰의 착신음 선택 장치 및 착신음 선택 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050607 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050607 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20071205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071214 |