JP2004020613A

JP2004020613A - サーバ、受信端末

Info

Publication number: JP2004020613A
Application number: JP2002171660A
Authority: JP
Inventors: Keiichi Sakai; 酒井　桂一; Tetsuo Kosaka; 小坂　哲夫
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2002-06-12
Filing date: 2002-06-12
Publication date: 2004-01-22
Also published as: US20040034528A1

Abstract

【課題】全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させること。また全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させること。
【解決手段】データ通信部３０４は装置１０１から装置１０１のリソース情報を受信し、音声合成実行判定部３０６は装置１０１のリソース情報と装置１０２のリソース情報とを用いて装置１０１と装置１０２のどちらが音声合成処理を行うかを判定し、音声合成実行判定部３０６が装置１０２が音声合成処理を行うと判定した場合、音声合成部３０９はマルチモーダル文書のうち、指定された部分を読み上げるための出力音声データを生成し、音声合成実行判定部３０６が装置１０２が音声合成処理を行うと判定した場合、データ通信部３０４は音声合成部３０９による音声合成結果を装置１０１に送信する。
【選択図】　図２

Description

【０００１】
【発明の属する技術分野】
本発明は、サーバ、受信端末に関するものである。
【０００２】
【従来の技術】
インターネットの普及により、インターネットに接続されたサーバに保持され、マークアップ言語（ＨＴＭＬ；ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述された文書を、インターネットを介してパソコン上のブラウザに表示するウェブブラウジングの世界は、拡大の一途をたどっている。
【０００３】
ＨＴＭＬ文書は歴史的な事情から、文書の構造を記述する部分と表現形式を記述する部分とが混在しており、その両者を分離するものとして、表現形式を構造から括り出したＣＳＳ（ＣａｓｃａｄｉｎｇＳｔｙｌｅＳｈｅｅｔ）も普及している。
【０００４】
ＨＴＭＬ（構造＋表現）からＣＳＳ（表現）を分離しても、ＨＴＭＬの文書構造は表現を意識したものである。よって、文書の内容のツリー構造のみを表すＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）と、ツリーを表現したいものに変換するＸＳＬ（ｅＸｔｅｎｓｉｂｌｅＳｔｙｌｅｓｈｅｅｔＬａｎｇｕａｇｅ）とで記述する方法も普及しつつある。
【０００５】
ＸＭＬおよびＸＳＬを用いて記述された文書の例を夫々図１０，１１に示し、その両者により生成されるＨＴＭＬ文書、ＣＳＳファイルの例、及びブラウザでの表示例を夫々図１２，１３，１４に示す。
【０００６】
上記のように、ＣＳＳやＸＳＬというスタイルシートをいろいろと用意し、適宜切り替えることで、文書の内容のツリー構造のみを表す単一のＸＭＬ文書を用途に応じて切り替えることができるようになってきている。
【０００７】
その一方で、パソコンだけでなく、ユーザが日常で持ち歩く携帯電話やＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）、ＰＤＡ（ＰｅｒｓｏｎａｌＤａｔａＡｓｓｉｎｔａｎｔ；携帯情報端末）といったモバイル端末の性能も向上し、ハイエンドのモバイル端末は、一世代前のパソコンと遜色ない処理能力を持つようになってきた。
【０００８】
そうしたハイエンドのモバイル端末は、以下の特徴が挙げられる。
【０００９】
（１）　公衆回線や無線ＬＡＮなどを経由して、ホストであるコンピュータと接続し、データ通信を行うことができる。
【００１０】
（２）　音声入出力のデバイス（マイク、スピーカなど）を装備していることが多い。
【００１１】
【発明が解決しようとする課題】
しかしながら上記ハイエンドのモバイル端末では一般にＧＵＩを表示する表示画面のサイズが小さく、ＧＵＩ情報を表示する能力が低い。また、市場に存在するモバイル端末はハイエンドのものだけではなく、ハイエンドでないモバイル端末も数多く存在し、そうしたモバイル端末には、ＧＵＩ情報を表示できないものもある。
【００１２】
そのようなモバイル端末の現状において、操作及び応答の一部またはすべてを音声で行なえるマルチモーダルインタフェースを実現することは有意義なことである。
【００１３】
また、マルチモーダル文書を扱うに当たって、一部のハイエンドのモバイル端末では、音声認識、音声合成を行うことが可能であるが、多くのモバイル端末では、音声認識、音声合成を行うことができない、もしくは貧弱な音声認識、音声合成を行うことしかできない。
【００１４】
一般に音声合成については、音声認識に比べてＣＰＵ、メモリといったリソースを必要としないが、音声合成機能が搭載されているモバイル端末はまだ少ない。また、モバイル端末で要求される音声認識が比較的リソースを必要としない特定話者方式で容認される可能性が高いのに対し、音声合成は可能であれば複数話者の声色を使い分けられることが望ましく、今後の発展が見込まれる感情表現などを取り込んだｅｘｐｒｅｓｓｉｖｅｓｐｅｅｃｈなど、むしろ比較的リソースを必要とする方式が要求される。その一方で、サーバであるホストコンピュータにおいても、多くのモバイル端末をクライアントにする場合には、音声合成のための負荷が大きく、できる限り少なくしたいという問題点が存在する。
【００１５】
また、通信データの容量の観点からすると、サーバであるホストコンピュータで合成した音声を送信するよりも、テキストを送信してクライアントであるモバイル端末で音声を合成するほうが有効である。
【００１６】
本発明は以上の問題に鑑みてなされたものであり、全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させることを目的とする。また本発明は、全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させることを目的とする。
【００１７】
【課題を解決するための手段】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【００１８】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とする。
【００１９】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【００２０】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とする。
【００２１】
本発明の目的を達成するために、例えば本発明のサーバは以下の構成を備える。
【００２２】
すなわち、外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する音声合成結果送信手段と
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する音声認識結果送信手段と
を備えることを特徴とする。
【００２３】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【００２４】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とする。
【００２５】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【００２６】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とする。
【００２７】
本発明の目的を達成するために、例えば本発明のサーバの制御方法は以下の構成を備える。
【００２８】
すなわち、外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する音声合成結果送信工程と
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する音声認識結果送信工程と
を備えることを特徴とする。
【００２９】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【００３０】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第１の受信手段と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第２の受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第１の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記第１の受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記第１の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
を備えることを特徴とする。
【００３１】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【００３２】
すなわち、外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末であって、
ＧＵＩ入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする。
【００３３】
本発明の目的を達成するために、例えば本発明の受信端末は以下の構成を備える。
【００３４】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信手段と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
ＧＵＩ入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、前記受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする。
【００３５】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【００３６】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第１の受信工程と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第２の受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第１の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記第１の受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記第１の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
を備えることを特徴とする。
【００３７】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【００３８】
すなわち、外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末の制御方法であって、
ＧＵＩ入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする。
【００３９】
本発明の目的を達成するために、例えば本発明の受信端末の制御方法は以下の構成を備える。
【００４０】
すなわち、文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信工程と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
ＧＵＩ入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、前記受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする。
【００４１】
【発明の実施の形態】
以下添付図面を参照して、本発明を好適な実施形態に従って詳細に説明する。
【００４２】
［第１の実施形態］
図１に本実施形態における通信システムの構成を示す。１０１は携帯電話や、ＰＨＳ、ＰＤＡといった、モバイル端末からなる情報受信端末で、これらを総称してマルチモーダル文書受信処理装置と呼称するが、夫々の機器をマルチモーダル文書受信処理装置と呼称する場合もある。１０２はマルチモーダル文書受信処理装置１０１と通信を行うとともに、インターネットを介して、外部のＷｅｂサーバから原文書を取得するマルチモーダル文書編集送信装置である。
【００４３】
またここでマルチモーダル文章とは、入力がキーボード、マウス、音声など複数の入力手段により入力可能な文章データのことを示している。
【００４４】
マルチモーダル文書受信処理装置１０１とマルチモーダル文書編集送信装置１０２は、公衆回線や無線ＬＡＮなどといった通信手段を介して、データ通信を行うことができる。
【００４５】
図２は上記マルチモーダル文書受信処理装置の基本構成を示すブロック図である。同図において２００はマルチモーダル文書受信処理装置本体で後述の各部を含む。２０１は例えばマイクロフォンにより構成されており、ユーザが音声を入力する音声入力部である。２０２は音声入力部２０１から入力された音声の認識処理を行う音声認識部で、その認識結果はＧＵＩ入力による文字入力と同等に扱われる。
【００４６】
２０３はスタイラスなどのポインティングデバイスやテンキーなどのボタンにより各種の操作入力（ＧＵＩ操作）を行うＧＵＩ操作入力部で、２０４はマルチモーダル文書受信装置のＣＰＵ速度を示すリソース情報を保持するリソース情報保持部である。
【００４７】
２０５はＧＵＩ操作入力部から入力されたＧＵＩ操作、およびリソース情報保持部２０５に保持されたリソース情報をマルチモーダル文書編集送信装置１０２に送信し、マルチモーダル文書編集送信装置１０２から音声合成実行判定結果を示すデータ、マルチモーダル文書データ、符号化出力音声データを受信するデータ通信部である。
【００４８】
２０６はデータ通信部２０５で受信した音声合成実行判定結果に基づき、マルチモーダル文書受信処理装置１０１で音声合成を行うかどうかを判定する音声合成実行判定部で、２０７は音声合成実行判定部２０６で判定された合成実行判定を保持する合成実行判定保持部である。
【００４９】
２０８は音声合成実行判定部２０６においてマルチモーダル文書受信処理装置１０１で音声合成を行うと判定した場合に、データ通信部２０５で受信したマルチモーダル文書のうち、音声出力するテキスト部分を読み上げる出力音声データを生成する処理（音声合成処理）を行う音声合成部である。音声出力するテキストの部分は予め指定されているものとする。図６にマルチモーダル文書編集送信装置１０２から送られるマルチモーダル文書の例を示す。図６に示す、”＜ｖｏｉｃｅ＞”タグで括られた部分のテキストが、音声合成するテキストの部分である。また、図６に示したマルチモーダル文書をＧＵＩ表示部２１０に表示した場合の表示画面を図７に示す。
【００５０】
図７に示された表示画面において”＜ｖｏｉｃｅ＞”タグで括られた部分に対応するテキストを上記ＧＵＩ入力により指示することで、音声出力部２１０からこのテキスト部分を読み上げる合成音声が出力される。
【００５１】
２０９は音声合成実行判定部２０６においてマルチモーダル文書受信処理装置１０１で音声合成を行わないと判定した場合に、データ通信部２０５で受信した符号化出力音声データを復号する出力音声復号化部である。ここでいう復号とは、デジタル通信を行うために量子化された出力音声の復号を差す。復号された音声データは、例えばＷＡＶ形式の音声ファイルである。
【００５２】
２１０はスピーカやイヤホンなどにより構成される音声出力部で、音声合成部２０８による出力音声、出力音声復号化部２１０で復号された出力音声を出力する。２１１はデータ通信部２０７が受信したマルチモーダル文書のうち、ＧＵＩ表示内容を表示するＷｅｂブラウザなどのＧＵＩ表示部である。上記の各部は夫々バスで接続されているので、互いにデータの受け渡しが可能となる。
【００５３】
図３は、本実施形態におけるマルチモーダル文書編集送信装置１０２の基本構成を示すブロック図である。同図において、３０１はインターネットを介して外部のＷｅｂサーバより、編集してマルチモーダル文書受信処理装置１０１に送信するマルチモーダル文書の原文書を取得するインターネット通信部で、３０２はインターネット通信部３０１が取得した文書を保持する原文書保持部である。
【００５４】
３０３は原文書保持部３０２に保持された原文書を編集するためのスタイルシート群を保持するスタイルシート保持部で、３０４はマルチモーダル文書受信処理装置１０１から、ＧＵＩ操作、およびリソース情報を受信し、後述する音声合成実行判定結果を示すデータやマルチモーダル文書、符号化出力音声データをマルチモーダル文書受信処理装置１０１に送信するデータ通信部である。
【００５５】
３０５はデータ通信部３０４が受信したリソース情報を個々のマルチモーダル文書受信処理装置１０１ごとに保持する端末リソース情報保持部である。端末リソース情報保持部３０５では、公衆回線で接続されている場合には電話番号で、無線ＬＡＮなどなどで接続されている場合には、ＩＰアドレスでマルチモーダル文書受信処理装置１０１の特定を行ない、個々の端末のリソース情報を上記電話番号、もしくは上記ＩＰアドレスと関連づけて保持する。
【００５６】
３０６は端末リソース情報保持部３０５に保持された現在通信中の端末のリソース情報とマルチモーダル文書編集送信装置１０２のリソース情報（本実施形態ではマルチモーダル文書編集送信装置１０２のロードアベレージ）からマルチモーダル文書編集送信装置１０２で音声合成を行うか否かを判定する音声合成実行判定部である。
【００５７】
３０７は音声合成実行判定部３０６で判定された結果を示すデータを保持する実行判定結果保持部である。３０８は原文書保持部３０２に保持された原文書に、スタイルシート保持部３０３に保持されたスタイルシートを適用することにより、マルチモーダル文書を編集する送信文書編集部で、３０９は音声合成実行判定部３０６によりマルチモーダル文書編集送信装置１０２が音声合成を行うと判定した場合に、マルチモーダル文書中で音声出力するテキスト部分に対する音声合成処理を行う音声合成部である。
【００５８】
図８に編集前の原文書の例を示し、図９に図８に示した原文書に適用するスタイルシートの例を示す。図８の原文書に図９のスタイルシートを適用することで図６に示したマルチモーダル文書を生成することができる。
【００５９】
図４に、マルチモーダル文書受信処理装置１０１が行う処理のフローチャートを示す。まずデータ通信部２０５は、リソース情報保持部２０４に保持された、マルチモーダル文書受信処理装置のＣＰＵ速度を示すリソース情報をマルチモーダル文書送信編集装置１０２に送信する（ステップＳ４０１）。次に、データ通信部２０５はマルチモーダル文書編集送信装置１０２から後述する、サーバで音声合成を行うか否かという（サーバでの）合成実行判定を示すデータを受信し、合成実行判定保持部２０７は受信した合成実行判定を示すデータを保持する（ステップＳ４０２）。次にデータ受信部２０６は、マルチモーダル文書編集送信装置１０２からマルチモーダル文書データのみ、もしくはマルチモーダル文書データと符号化出力音声データを受信する（ステップＳ４０３）。ＧＵＩ表示部２１１は受信したマルチモーダル文書データに従った画面を表示（ＧＵＩ表示）する（ステップＳ４０４）。
【００６０】
次に、音声合成実行判定部２０６は合成実行判定保持部２０７が保持する上記合成実行判定を示すデータを参照し、マルチモーダル文書受信処理装置１０１が音声合成処理を行うか否かを判断する（ステップＳ４０５）。マルチモーダル文書受信処理装置１０１が音声合成処理を行う場合には処理をステップＳ４０７に進め、音声合成部２０８はマルチモーダル文書のうち、音声出力するテキスト部分に対する音声合成処理を行い、出力音声データを生成する（ステップＳ４０７）。
【００６１】
一方、マルチモーダル文書受信処理装置１０１が音声合成を行わない場合には処理をステップＳ４０６に進め、出力音声復号化部２０９はデータ通信部２０５が受信した符号化出力音声データを復号し、出力音声データを復元する（ステップＳ４０６）。そして音声出力部２１０は、音声合成部２０８による出力音声データ、もしくは出力音声復号化部２０９による出力音声データに従った音声を出力する（ステップＳ４０８）。
【００６２】
そして、ユーザからの入力（音声入力部２０１もしくはＧＵＩ操作入力部２０３からのユーザ入力）があった場合には（ステップＳ４０９）処理をステップＳ４１０に進め、更に、音声入力部２０１から音声が入力された場合には（ステップＳ４１０）、処理をステップＳ４１１に進め、音声入力部２０１を介して入力された音声に対して音声認識部２０２は音声認識を行い、これをＧＵＩ操作とする（ステップＳ４１１）。そしてデータ通信部２０５は音声入力部２０１からのＧＵＩ操作、もしくはＧＵＩ操作入力部２０３からのＧＵＩ操作をマルチモーダル文書編集送信装置１０２に送信する（ステップＳ４１２）。
【００６３】
次に図５に、マルチモーダル文書編集送信装置１０２が行う処理のフローチャートを示す。データ通信部３０４は基本的にはマルチモーダル文書受信処理装置からの入力待ちであり、入力を受信すると以下の処理に移行する。
【００６４】
マルチモーダル文書受信処理装置からの入力を受信した場合（ステップＳ５０１）、処理をステップＳ５０２に進め、マルチモーダル文書受信処理装置からの入力がリソース情報であれば（ステップＳ５０２）、処理をステップＳ５０３に進め、音声合成実行判定部３０６は、端末リソース情報保持部３０５に、マルチモーダル文書受信処理装置１０１の電話番号もしくはＩＰアドレスとともに、リソース情報を保持し、更にマルチモーダル文書編集送信装置１０２で音声合成を実行するか否かを判定する音声合成実行判定処理を行う（ステップＳ５０３）。
【００６５】
音声合成実行判定方法として本実施形態では、マルチモーダル文書編集送信装置１０２のＣＰＵ速度に１からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のＣＰＵ速度を比較し、マルチモーダル文書受信処理装置のＣＰＵ速度のほうが早かった場合には、マルチモーダル文書編集送信装置１０２による音声合成処理は行うべきではないと判定し、マルチモーダル文書受信処理装置のＣＰＵ速度のほうが遅かった場合には、マルチモーダル文書編集送信装置１０２による音声合成処理は行うべきであると判定する。なお、上記の通り、この判定結果を示すデータ、すなわち合成実行判定を示すデータは実行判定結果保持部３０７で保持される。
【００６６】
次に、データ通信部３０４は、ステップＳ５０３で音声合成実行判定部３０６による合成判定結果を示すデータをマルチモーダル文書受信処理装置１０１に送信する（ステップＳ５０４）。そしてインターネット通信部３０１は、インターネットを介して原文書のデータ（ホームページデータ）を取得し、原文書保持部３０２に保持する（ステップＳ５０５）。
【００６７】
一方、ステップＳ５０２において、マルチモーダル文書受信処理装置からの入力がＧＵＩ操作である場合には処理をステップＳ５０７に進め、インターネット通信部３０１はインターネットを介して他のＷｅｂサーバから、ＧＵＩ操作に応じた原文書のデータ（現在ブラウジングしているホームページにリンクしているホームページのデータ）を取得し、原文書保持部３０２に保持する（ステップＳ５０７）。
【００６８】
次に、送信文書編集部３０８は、原文書保持部３０２に保持されたページデータに、スタイルシート保持部３０３に保持されたスタールシートを適用する送信文書編集処理を行う（ステップＳ５０６）。そして音声合成部３０９は実行判定結果保持部３０７に保持されている上記合成実行判定を示すデータを参照し、音声合成処理を行う場合（ステップＳ５０８）、処理をステップＳ５０９に進め、音声合成部３０９は送信文書編集部３０８で編集されたマルチモーダル文書のうち、音声合成するテキスト部分の音声合成を行うことで出力音声データを生成し、更にこの出力音声データに対してデータ通信を行うための符号化処理を行い、符号化出力音声データを生成する（ステップＳ５０９）。そしてデータ通信部３０４は、上記マルチモーダル文書データと符号化出力音声データとをマルチモーダル文書受信処理装置１０１に送信する（ステップＳ５１１）。
【００６９】
一方、音声合成処理を行わない場合、処理をステップＳ５１０に進め、データ通信部３０４は、送信文書編集部３０７にて編集されたマルチモーダル文書データをマルチモーダル文書受信処理装置１０１に送信する（ステップＳ５１０）。
【００７０】
以上で述べたように、まず、マルチモーダル文書受信処理装置１０１から自身のリソース情報をマルチモーダル文書編集送信装置１０２に送信し、マルチモーダル文書編集送信装置１０２にて、自身の処理状況から、音声合成をマルチモーダル文書受信処理装置１０１で行うべきか、マルチモーダル文書編集送信装置１０２で行うべきかを判定し、その判定結果をマルチモーダル文書編集送信装置１０２に送信する。そして、マルチモーダル文書受信処理装置１０１では、マルチモーダル文書編集送信装置１０２から返信された判定結果に基づいて、マルチモーダル文書受信処理装置１０１で音声合成を行うかどうかを決定する。これにより、より処理負荷の小さい装置が音声合成処理を行うので、システム全体としての処理負荷を軽減させることができる。
【００７１】
［第２の実施形態］
第１の実施形態では説明を簡略化するために、マルチモーダル文書編集送信装置１０２における音声合成実行判定処理で、マルチモーダル文書編集送信装置１０２のＣＰＵ速度に１からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置１０１のＣＰＵ速度を単純比較しているが、複数のマルチモーダル文書編集送信装置１０２と送受信を行なっている、もしくは行う可能性があるなどを加味して、重み付けを行なった比較を行うものとしても構わない。
【００７２】
［第３の実施形態］
第１の実施形態１ではリソース情報として、ＣＰＵ速度のみを用いているが、これに限定されるものではなく、他にも例えばメモリ容量など、マルチモーダル文書受信処理装置の処理性能を示す情報であればよい。
【００７３】
［第４の実施形態］
第１の実施形態ではマルチモーダル文書編集送信装置１０２における音声合成実行判定処理をセッションの最初に１回のみ実施しているが、例えば、送受信のたびに行っても良いし、タイマーを用いて一定時間間隔で行っても良い。
【００７４】
［第５の実施形態］
上記実施形態では、マルチモーダル文書受信処理装置のＣＰＵ速度と、マルチモーダル文書編集送信装置１０２のロードアベレージとに基づいて、マルチモーダル文書編集送信装置１０２が音声合成処理をどちらの装置で行うかという判定処理を行っていたが、本実施形態のマルチモーダル文書編集送信装置１０２は、どちらの装置で音声認識処理を行うかという判定処理を行う。なおそれ以外の処理は第１の実施形態と同じとする。
【００７５】
すなわち本実施形態における通信システムは、音声合成処理は常にマルチモーダル文書受信装置が行い、ＧＵＩ入力としてユーザから入力された音声を認識する処理をどちらの装置が行うかを判断する処理を行う。なお、本実施形態における通信システムの構成は第１の実施形態と同じ（図１に示した構成）ものとする。
【００７６】
図１５に本実施形態におけるマルチモーダル文書受信処理装置の基本構成を示す。同図において図２と同じ部分については同じ番号を付け、その説明を省略する。１５０１は本実施形態におけるマルチモーダル文書受信処理装置の本体で、１５０２は音声入力部２０１から入力した音声を符号化し、そのサイズを小さくする入力音声符号化部、１５０３はデータ通信部２０５が受信した音声認識実行判定結果に基づき、マルチモーダル文書受信処理装置で音声認識を行うかどうかを判定する音声認識実行判定部、１５０４は音声認識実行判定部１５０３で判定された認識実行判定を保持する認識実行判定保持部である。
【００７７】
図１６に本実施形態におけるマルチモーダル文書編集送信装置の基本構成を示す。同図において図３と同じ部分については同じ番号をつけ、その説明を省略する。１６０１は本実施形態におけるマルチモーダル文書編集送信装置の本体で、１６０２は端末リソース情報保持部２０５に保持された現在通信中の端末のリソース情報と、マルチモーダル文書編集送信装置のロードアベレージからマルチモーダル文書編集送信装置で音声認識を行うか否かを判定する音声認識実行判定部である。１６０３は音声認識実行判定部３０６で音声認識を行うと判定した場合に音声認識を行う音声認識部である。
【００７８】
図１７に本実施形態におけるマルチモーダル文書受信処理装置が行う処理のフローチャートを示す。データ通信部２０５は、リソース情報保持部２０４に保持されたＣＰＵ速度を示すリソース情報をマルチモーダル文書送信編集装置に送信する（ステップＳ１７０１）。次に、データ通信部２０５は、マルチモーダル文書編集送信装置から、後述するサーバで音声認識を行うか否かという認識実行判定を受信し、認識実行判定部１５０４は受信した認識実行判定を示すデータを保持する（ステップＳ１７０２）。
【００７９】
次にデータ通信部２０５は、マルチモーダル文書編集送信装置からマルチモーダル文書データのみ、もしくはマルチモーダル文書データと音声認識結果のセットのいずれかを受信する（ステップＳ１７０４）。更に詳しくは、データ通信部２０５は、マルチモーダル文書編集送信装置が音声認識を行わない場合にはマルチモーダル文書データのみ、マルチモーダル文書編集送信装置が音声認識を行う場合にはマルチモーダル文書データと音声認識結果のセットを受信する。
【００８０】
ＧＵＩ表示部２１１は受信したマルチモーダル文書データに従った画面、音声認識結果を受信している場合には音声認識結果に従った画面を表示（ＧＵＩ表示）する（ステップＳ１７０５）。また、音声合成部２０８はデータ通信部２０５が受信したマルチモーダル文書データにおいて音声合成すべきテキスト部分を読み上げる音声データを生成する音声合成処理を行い、音声出力部２１０は生成した音声データを音声として出力する（ステップＳ１７０６）。
【００８１】
次に、ユーザからの入力（音声入力部２０１、ＧＵＩ操作入力部２０４からの入力のいずれか）を検出し（ステップＳ１７０８）、更に、その入力が音声入力部２０１からの音声入力であった場合（ステップＳ１７０９）、処理をステップＳ１７１０に進め、音声認識実行判定部１５０３は認識実行判定保持部１５０４が保持する上記認識実行判定を示すデータを参照し、マルチモーダル文書受信処理装置が音声認識処理を行うか否かを判断する（ステップＳ１７１０）。
【００８２】
認識実行判定部１５０３がマルチモーダル文書受信処理装置が音声認識処理を行うと判定した場合には処理をステップＳ１７１２に進め、音声認識部２０２は音声入力部２１０から入力された音声に対して音声認識処理を行う（ステップＳ１７１２）。音声認識処理に関する技術は公知の技術であるために、ここでの詳細な説明は省略する。音声認識処理結果は、マルチモーダル文書編集送信装置に対するＧＵＩ入力となる。
【００８３】
一方、マルチモーダル文書受信処理装置が音声認識処理を行わない場合には、処理をステップＳ１７１１に進め、入力音声符号化部１５０２は音声入力部２１０から入力された音声の符号化を行い（ステップＳ１７１１）、データ通信部２０５は音声符号化データをマルチモーダル文書編集送信装置に対して送信する（ステップＳ１７１３）。
【００８４】
図１８に本実施形態におけるマルチモーダル文書編集送信装置が行う処理のフローチャートを示す。データ通信部３０４は基本的にはマルチモーダル文書受信処理装置からの入力待ちであり、入力を受信すると以下の処理に移行する。
【００８５】
マルチモーダル文書受信処理装置からの入力を受信した場合（ステップＳ１８０１）、処理をステップＳ１８０２に進め、マルチモーダル文書受信処理装置からの入力がリソース情報であれば（ステップＳ１８０２）、処理をステップＳ１８０３に進め、音声認識実行判定部１６０２は、端末リソース情報保持部３０５に、マルチモーダル文書受信処理装置の電話番号もしくはＩＰアドレスとともに、リソース情報を保持し、更にマルチモーダル文書編集送信装置で音声認識を実行するか否かを判定する音声認識実行判定処理を行う（ステップＳ１８０３）。
【００８６】
音声認識実行判定方法として本実施形態では、マルチモーダル文書編集送信装置のＣＰＵ速度に１からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のＣＰＵ速度を比較し、マルチモーダル文書受信処理装置のＣＰＵ速度のほうが早かった場合には、マルチモーダル文書編集送信装置による音声認識処理は行うべきではないと判定し、マルチモーダル文書受信処理装置のＣＰＵ速度のほうが遅かった場合には、マルチモーダル文書編集送信装置による音声認識処理は行うべきであると判定する。そしてデータ通信部３０４は上記音声認識判定結果を示すデータをマルチモーダル文書受信処理装置に送信する（ステップＳ１８０４）。
【００８７】
また、インターネット通信部３０１は、インターネットを介して原文書のデータ（ホームページデータ）を取得し、原文書保持部３０２に保持する（ステップＳ１８０５）。
【００８８】
一方、ステップＳ１８０２において、マルチモーダル文書受信処理装置からの入力がリソース情報でない場合には処理をステップＳ１８０８に進め、音声入力（音声符号化データの入力）である場合（ステップＳ１８０８）には、処理をステップＳ１８０９に進める。そして、音声認識部３０７は、データ通信部３０４が受信した音声符号化データを復号し、復元した音声データに対して音声認識処理を行う（ステップＳ１８０９）。そしてその音声認識結果をデータ通信部３０４からマルチモーダル文書受信処理装置に送信する（ステップＳ１８１０）。
【００８９】
一方、ステップＳ１８０８においてデータ通信部３０４が入力したものがＧＵＩ入力出会った場合（ステップＳ１８０８）、処理をステップＳ１８１１に進め、ＧＵＩ入力に応じた原文書のデータ（現在ブラウジングしているホームページにリンクしているホームページのデータ）を取得し、原文書保持部３０２に保持する（ステップＳ１８１１）。
【００９０】
次に、送信文書編集部３０８は、原文書保持部３０２に保持されたページデータに、スタイルシート保持部３０３に保持されたスタイルシートを適用する送信文書編集処理を行い、マルチモーダル文書データを生成する（ステップＳ１８０６）。そしてデータ通信部３０４は、このマルチモーダル文書をマルチモーダル文書受信処理装置に送信する（ステップＳ１８０７）。
【００９１】
以上で述べたように、まず、マルチモーダル文書受信処理装置から自身のリソース情報をマルチモーダル文書編集送信装置に送信し、マルチモーダル文書編集送信装置にて、自身の処理状況から、音声認識をマルチモーダル文書受信処理装置で行うべきか、マルチモーダル文書編集送信装置で行うべきかを判定し、その判定結果をマルチモーダル文書編集送信装置に送信する。そして、マルチモーダル文書受信処理装置では、マルチモーダル文書編集送信装置から送信された判定結果に基づいて、マルチモーダル文書受信処理装置で音声認識を行うかどうかを決定する。これにより、より処理負荷の小さい装置が音声認識処理を行うので、システム全体としての処理負荷を軽減させることができる。
【００９２】
［第６の実施形態］
第５の実施形態では説明を簡略化するために、マルチモーダル文書編集送信装置における音声合成実行判定処理で、マルチモーダル文書編集送信装置のＣＰＵ速度に１からロードアベレージを引いた数を掛けたものと、マルチモーダル文書受信処理装置のＣＰＵ速度を単純比較しているが、複数のマルチモーダル文書編集送信装置と送受信を行なっている、もしくは行う可能性があるなどを加味して、重み付けを行なった比較を行うものとしても構わない。
【００９３】
［第７の実施形態］
第１の実施形態ではリソース情報として、ＣＰＵ速度のみを用いているが、これに限定されるものではなく、他にも例えばメモリ容量など、マルチモーダル文書受信処理装置の処理性能を示す情報であればよい。
【００９４】
［第８の実施形態］
また第１の実施形態では、マルチモーダル文書編集送信装置が自身の処理状況を鑑み、音声認識をマルチモーダル文書受信処理装置で行うべきでないと判定した場合には音声認識を行なっていないが、マルチモーダル文書受信処理装置でも音声認識を行い、認識速度や尤度から、双方の認識結果のどちらかを採用するものとしても構わない。
【００９５】
［第９の実施形態］
また第１の実施形態では、マルチモーダル文書編集送信装置における音声認識実行判定処理をセッションの最初に１回のみ実施しているが、他の例えば、送受信のたびに再評価するものとしても構わないし、タイマーを用いて一定時間間隔で再評価するものとしても構わない。
【００９６】
［第１０の実施形態］
上記実施形態では、マルチモーダル文書編集送信装置がマルチモーダル文書受信処理装置から受信したリソース情報を参照して、音声合成処理、もしくは音声認識処理をどちらの装置が行うかを決定する判定処理を行っていたが、その両方の判定処理を行っても良い。すなわち、マルチモーダル文書編集送信装置がマルチモーダル文書受信処理装置から受信したリソース情報を参照して上記判定処理を行った結果、音声合成処理はマルチモーダル文書受信処理装置が、音声認識処理をマルチモーダル文書編集送信装置が行うなどの判定処理を行っても良い。
【００９７】
［他の実施形態］
上記実施形態では、画像出力装置としてＣＭＹＫの４色カラープリンタに関して記載を行ったが、本発明の目的は、他の構成のカラープリンタによっても達成されることは言うまでもない。
【００９８】
本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵまたはＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成されることは言うまでもない。
【００９９】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【０１００】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることが出来る。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）などが実際の処理の一部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【０１０１】
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【０１０２】
【発明の効果】
以上の説明により、本発明によって、全体の装置の処理負荷を鑑みて音声合成処理を行う装置を判断し、システム全体の負荷をより軽減させることができる。また本発明は、全体の装置の処理負荷を鑑みて音声認識処理を行う装置を判断し、システム全体の負荷をより軽減させることができる。
【図面の簡単な説明】
【図１】本発明の通信システムの構成を示す図である。
【図２】本発明の第１の実施形態におけるマルチモーダル文書受信処理装置の基本構成を示すブロック図である。
【図３】本発明の第１の実施形態におけるマルチモーダル文書編集送信装置の基本構成を示すブロック図である。
【図４】マルチモーダル文書受信処理装置が行う処理のフローチャートである。
【図５】マルチモーダル文書編集送信装置が行う処理のフローチャートである。
【図６】マルチモーダル文書編集送信装置から送られるマルチモーダル文書の例を示す図である。
【図７】図６に示したマルチモーダル文書をＧＵＩ表示部２１０に表示した場合の表示例を示す図である。
【図８】編集前の原文書の例を示す図である。
【図９】図８に示した原文書に適用するスタイルシートの例を示す図である。
【図１０】ＸＭＬを用いて記述された文書の例を示す図である。
【図１１】ＸＳＬを用いて記述された文書の例を示す図である。
【図１２】ＸＭＬ、ＸＳＬを用いて生成されるＨＴＭＬ文書を示す図である。
【図１３】図１２に示すＨＴＭＬ文書におけるＣＳＳファイルの例を示す図である。
【図１４】図１２に示したＨＴＭＬ文書をブラウザで表示した表示例を示す図である。
【図１５】本発明の第５の実施形態におけるマルチモーダル文書受信処理装置の基本構成を示すブロック図である。
【図１６】本発明の第５の実施形態におけるマルチモーダル文書編集送信装置の基本構成を示すブロック図である。
【図１７】マルチモーダル文書受信処理装置が行う処理のフローチャートである。
【図１８】マルチモーダル文書編集送信装置が行う処理のフローチャートである。

Claims

外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とするサーバ。
外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する送信手段と
を備えることを特徴とするサーバ。
外部装置に対して文書データを送信するサーバであって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信手段と、
前記外部装置から音声データを受信する音声データ受信手段と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定手段と、
当該判定手段が前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
当該判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識手段と、
前記判定手段が前記サーバが音声合成処理を行うと判定した場合、前記音声合成手段による音声合成処理結果を前記外部装置に送信する音声合成結果送信手段と
前記判定手段が前記サーバが音声認識処理を行うと判定した場合、前記音声認識手段による音声認識処理結果を前記外部装置に送信する音声認識結果送信手段と
を備えることを特徴とするサーバ。
前記文書データはマルチモーダル文書データであることを特徴とする請求項１乃至３に記載のサーバ。
前記リソース情報はＣＰＵ速度を含むことを特徴とする請求項１乃至３のいずれか１項に記載に記載のサーバ。
前記判断手段は、前記サーバのＣＰＵ速度に１からロードアベレージを引いた数を掛けたものと、前記外部装置のＣＰＵ速度とを比較し、前記外部装置のＣＰＵ速度のほうが早かった場合には、前記サーバによる音声合成処理は行うべきではないと判定し、前記外部装置のＣＰＵ速度のほうが遅かった場合には、前記サーバによる音声合成処理は行うべきであると判定することを特徴とする請求項１または３に記載のサーバ。
前記判断手段は、前記サーバのＣＰＵ速度に１からロードアベレージを引いた数を掛けたものと、前記外部装置のＣＰＵ速度とを比較し、前記外部装置のＣＰＵ速度のほうが早かった場合には、前記サーバによる音声合成処理は行うべきではないと判定し、前記外部装置のＣＰＵ速度のほうが遅かった場合には、前記サーバによる音声合成処理は行うべきであると判定することを特徴とする請求項２または３に記載のサーバ。
前記音声合成手段は、前記文書データにおいて、所定のタグにより括られた箇所を読み上げるための出力音声データを生成することを特徴とする請求項１または３に記載のサーバ。
前記音声認識手段は、ＧＵＩ入力として入力された音声データに基づいて音声認識を行うことを特徴とする請求項２または３に記載のサーバ。
外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とするサーバの制御方法。
外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する送信工程と
を備えることを特徴とするサーバの制御方法。
外部装置に対して文書データを送信するサーバの制御方法であって、
前記外部装置から前記外部装置のリソース情報を受信するリソース受信工程と、
前記外部装置から音声データを受信する音声データ受信工程と、
当該リソース情報と、前記サーバのリソース情報とを用いて、前記外部装置と前記サーバのうちどちらが音声合成処理、音声認識処理を行うかを判定する判定工程と、
当該判定工程で前記サーバが音声合成処理を行うと判定した場合、前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
当該判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声データに基づいて音声認識を行う音声認識工程と、
前記判定工程で前記サーバが音声合成処理を行うと判定した場合、前記音声合成工程による音声合成処理結果を前記外部装置に送信する音声合成結果送信工程と
前記判定工程で前記サーバが音声認識処理を行うと判定した場合、前記音声認識工程による音声認識処理結果を前記外部装置に送信する音声認識結果送信工程と
を備えることを特徴とするサーバの制御方法。
文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第１の受信手段と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第２の受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第１の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、
前記第１の受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記第１の受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
を備えることを特徴とする受信端末。
外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末であって、
ＧＵＩ入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする受信端末。
文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信手段と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信手段と、
ＧＵＩ入力としての音声データを入力する入力手段と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信手段と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成手段と、前記受信手段が受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成手段による出力音声データのいずれかを用いて、前記受信手段が受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力手段と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データに対して音声認識を行う音声認識手段と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力手段から入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信手段と
を備えることを特徴とする受信端末。
前記文書データはマルチモーダル文書データであることを特徴とする請求項１３乃至１５に記載の受信端末。
更に、リソース情報を前記外部装置に送信するリソース情報送信手段を備えることを特徴とする請求項１３乃至１５のいずれか１項に記載の受信端末。
前記第１の受信手段は、リソース情報に基づいた合成実行判定結果を示すデータを受信する事を特徴とする請求項１３に記載の受信端末。
前記認識実行判定結果データ受信手段は、リソース情報に基づいた合成実行判定結果を示すデータを受信する事を特徴とする請求項１４に記載の受信端末。
前記合成実行判定結果データ受信手段は、リソース情報に基づいた合成実行判定結果を示すデータを受信する事を特徴とする請求項１５に記載の受信端末。
前記リソース情報はＣＰＵ速度を含むことを特徴とする請求項１７乃至２０のいずれか１項に記載に記載の受信端末。
前記音声合成手段は、前記文書データにおいて、所定のタグにより括られた箇所を読み上げるための出力音声データを生成することを特徴とする請求項１３または１５に記載の受信端末。
文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する第１の受信工程と、
前記外部装置から、前記合成実行判定結果を示すデータを受信する第２の受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記第１の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、
前記第１の受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記第１の受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
を備えることを特徴とする受信端末の制御方法。
外部装置とネットワークを介して繋がっており、当該外部装置とデータ通信が可能な受信端末の制御方法であって、
ＧＵＩ入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
前記合成実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記合成実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする受信端末の制御方法。
文書データを外部装置から受信し、当該文書データが示す文書において指定された部分を読み上げる受信端末の制御方法であって、
前記外部装置による前記受信端末と前記外部装置のうちどちらが音声合成処理を行うかを示す合成実行判定結果が、前記受信端末が音声合成処理を行うことを示す場合には前記外部装置から文書データを受信し、前記合成実行判定結果が前記外部装置が音声合成処理を行うことを示す場合には前記外部装置から文書データ及び符号化出力音声データを受信する受信工程と、
前記合成実行判定結果を示すデータを受信する合成実行判定結果データ受信工程と、
ＧＵＩ入力としての音声データを入力する入力工程と、
前記外部装置から、前記受信端末と前記外部装置のうちどちらが前記音声データの音声認識処理を行うかを示す認識実行判定結果を示すデータを受信する認識実行判定結果データ受信工程と、
前記合成実行判定結果が前記受信端末が音声合成処理を行うことを示す場合、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げるための出力音声データを生成する音声合成処理を行う音声合成工程と、前記受信工程で受信した符号化出力音声データを復号することで得られる出力音声データ、もしくは前記音声合成工程による出力音声データのいずれかを用いて、前記受信工程で受信した前記文書データが示す文書のうち、指定された部分を読み上げる音声出力工程と
前記認識実行判定結果が、前記受信端末が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データに対して音声認識を行う音声認識工程と、
前記認識実行判定結果が、前記外部装置が音声認識処理を行うことを示す場合、前記入力工程で入力された音声データを符号化し、符号化音声データを前記外部装置に送信する符号化音声データ送信工程と
を備えることを特徴とする受信端末の制御方法。
コンピュータを請求項１乃至９のいずれか１項に記載のサーバとして機能させるプログラム。
コンピュータに請求項１０乃至１２に記載のサーバの制御方法を実行させるためのプログラム。
コンピュータを請求項１３乃至２２に記載の受信端末として機能させるプログラム。
コンピュータに請求項２３乃至２５に記載の受信端末の制御方法を実行させるためのプログラム。
請求項２６乃至２９のいずれか１項に記載のプログラムを格納するコンピュータ読みとり可能な記憶媒体。