JP3733322B2

JP3733322B2 - マルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラム

Info

Publication number: JP3733322B2
Application number: JP2001356487A
Authority: JP
Inventors: 桂一酒井; 哲夫小坂
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2001-11-21
Filing date: 2001-11-21
Publication date: 2006-01-11
Anticipated expiration: 2021-11-21
Also published as: US20030097265A1; JP2003157167A; US7174509B2

Description

【０００１】
【発明の属する技術分野】
本発明は、少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置と、マルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置と、そのマルチモーダル文書受信装置とマルチモーダル文書送信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムに関するものである。
【０００２】
【従来の技術】
インターネットの普及により、インターネットに接続されたサーバに保持され、ハイパーテキストマークアップ言語（ＨＴＭＬ：Hyper Text Markup Language）で記述された文書を、インターネットを介してパソコン上のブラウザに表示するウェブブラウジングの世界は、拡大の一途をたどっている。
【０００３】
ＨＴＭＬ文書は、歴史的な事情から、文書構造を記述する部分と表現形式を記述する部分が混在しており、その両者を分離するものとして、表現形式を構造から括り出したＣＳＳ（Cascading Style Sheet）も普及している。
【０００４】
ＨＴＭＬ（文書構造＋表現形式）からＣＳＳ（表現形式）を分離しても、ＨＴＭＬの文書構造は、表現形式を意識したものであるため、さらに、文書の内容のツリー構造のみを表すＸＭＬ（eXtensible Markup Language）と、ツリー構造を表現したい表現形式に変換するＸＳＬ（eXtensible Stylesheet Language）で記述する方法も普及しつつある。
【０００５】
また、ＨＴＭＬでの操作を記述するスクリプト言語としては、Java Script、VBScriptなどがあり、ＨＴＭＬファイル内に記述したり、外部ファイルを挿入したりすることができる。
【０００６】
ＸＭＬおよびＸＳＬを用いて記述された文書の例を図３２、３３に示し、その両者により生成されるＨＴＭＬ文書、およびＣＳＳファイルの例、JavaScriptファイルの例、ブラウザでの表示例をそれぞれ図３４〜図３７に示す。
【０００７】
尚、このブラウザは、例えば、パーソナルコンピュータ等の汎用コンピュータにインストールされ、マウスやキーボード等の入力装置によるユーザの操作に応じて、ブラウザが起動されると、ディスプレイ上にそのブラウザ画面が表示される。
【０００８】
図３７中のブラウザ画面２５００上の「反転」ボタン２５０１を押すと、図３４中ウのonClickの中身が呼び出され、図３６に示すJavaScriptで記述した関数（reverseColor()）により、ブラウザ画面２５００内の背景と文字の色が反転する。
【０００９】
上記のように、ＣＳＳやＸＳＬというスタイルシートをいろいろと用意し、適宜切り替えることで、文書の内容のツリー構造のみを表す単一のＸＭＬ文書を用途に応じて切り替えることができるようになってきている。また、スクリプト言語により、ボタンなどを押すことによるアクションも記述できる。
【００１０】
その一方で、パーソナルコンピュータだけでなく、ユーザが日常で持ち歩く携帯電話やＰＨＳ（Personal Handyphone System）、ＰＤＡ（Personal Digital Assintant：携帯情報端末）といったモバイル端末の性能も向上し、ハイエンドのモバイル端末は、一世代前のパソコンと遜色ない処理能力を持つようになってきた。
【００１１】
そうしたハイエンドのモバイル端末は、以下の特徴が挙げられる。
【００１２】
（１）公衆回線や無線ＬＡＮなどを経由して、ホストコンピュータと接続し、データ通信を行うことができる。
【００１３】
（２）音声入出力のデバイス（マイク、スピーカなど）を装備していることが多い。
【００１４】
【発明が解決しようとする課題】
しかしながら、上記ハイエンドのモバイル端末では、一般に、ＧＵＩ（Graphic User Interface：グラフィックユーザインタフェース）画面が小さく、ＧＵＩ情報を表示する能力が低い。また、市場に存在するモバイル端末は、ハイエンドのものだけではなく、ハイエンドでないモバイル端末も数多く存在し、そうしたモバイル端末には、ＧＵＩ情報を表示できないものもある。
【００１５】
そのようなモバイル端末の現状において、操作及び応答の一部またはすべてを音声で行えるマルチモーダルインタフェースを実現することは有意義なことである。
【００１６】
また、マルチモーダル文書を扱うに当たって、一部のハイエンドのモバイル端末では、音声認識、音声合成を行うことが可能である。しかしながら、多くのモバイル端末では、音声認識、音声合成を行うことができない、もしくは貧弱な音声認識、音声合成しか行うことができない。
【００１７】
しかしながら、ハードウェアの高性能化、小型化に伴い、これまで音声処理を行えなかった機種に、音声処理が可能になることも多く起こるであろう。また、モバイル端末においては、その携帯性の利点から、画面が小さいことが多かったが、画面の高精細度化、ハードウェアの軽量化に伴い、モバイル端末においても画面に表示できる情報が増大してきている。
【００１８】
さらに、音声、ＧＵＩ双方のモダリティを持ったモバイル端末においても、ＧＵＩ操作をしにくい状況で、音声のみで処理したいといった状況や、逆に、音声を使いづらいような環境で、ＧＵＩのみによって操作したいといった状況も存在する。
【００１９】
本発明は上記の課題に鑑みてなされたものであり、複数種類のモダリティを有する端末個々のモダリティやユーザが使用したいモダリティに応じて、最適なモダリティを有するインタフェースを提供することができるマルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラムを提供することを目的とする。
【００２０】
【課題を解決するための手段】
上記の目的を達成するための本発明によるマルチモーダル文書受信装置は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置であって、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報を前記マルチモーダル文書送信装置に送信し、該モダリティ情報に基づいて該マルチモーダル文書送信装置が生成したマルチモーダル文書を受信する通信手段と、
前記マルチモーダル文書中の音声出力対象のテキストデータを音声合成する音声合成手段と、
前記音声合成手段で合成した出力音声を出力する音声出力手段と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示手段と
を備える。
【００２１】
また、好ましくは、前記モダリティ情報を変更する変更手段と
を更に備える。
【００２２】
また、好ましくは、前記表示手段は、前記マルチモーダル文書中の記述に基づいて、前記表示対象のテキストデータの表示形態を制御する。
【００２３】
上記の目的を達成するための本発明によるマルチモーダル文書受信装置は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置であって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報を受信する受信手段と、
前記モダリティ情報に基づいて、前記マルチモーダル文書を生成する生成手段と、
前記マルチモーダル文書を前記マルチモーダル文書受信装置へ送信する送信手段と
を備える。
【００２４】
また、好ましくは、前記モダリティ情報に基づいて、前記マルチモーダル文書受信装置が要求する原文書を編集／操作するための編集／操作ファイルを判定する判定手段とを更に備え、
前記生成手段は、前記判定手段で判定された編集／操作ファイルを用いて、前記原文書を編集して前記マルチモーダル文書を生成する。
【００２５】
また、好ましくは、前記操作ファイルは、前記表示対象のテキストデータの一部を表示／非表示を制御するためのファイルである。
【００２６】
また、好ましくは、前記操作ファイルは、前記音声出力対象のテキストデータの音声出力の実行の有無を制御するためのファイルである。
【００２７】
上記の目的を達成するための本発明によるマルチモーダル文書送受信システムは以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成するマルチモーダル文書送信装置と該マルチモーダル文書を受信するマルチモーダル文書受信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムであって、
前記マルチモーダル文書受信装置は、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報を前記マルチモーダル文書送信装置に送信し、該モダリティ情報に基づいて該マルチモーダル文書送信装置が生成したマルチモーダル文書を受信する通信手段と、
前記マルチモーダル文書中の音声出力対象のテキストデータを音声合成する音声合成手段と、
前記音声合成手段で合成した出力音声を出力する音声出力手段と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示手段とを備え、
前記マルチモーダル文書送信装置は、
前記マルチモーダル文書受信装置から前記モダリティ情報を受信する受信手段と、
前記モダリティ情報に基づいて、前記マルチモーダル文書を生成する生成手段と、
前記マルチモーダル文書を前記マルチモーダル文書受信装置へ送信する送信手段と
を備える。
【００２８】
上記の目的を達成するための本発明によるマルチモーダル文書受信装置は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置であって、
音声を入力する音声入力手段と、
前記音声入力手段から入力された音声の符号化を行い、符号化入力音声データを生成する符号化手段と、
ユーザ設定情報を設定する設定手段と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記符号化入力音声データを前記マルチモーダル文書送信装置へ送信する送信手段と、
前記モダリティ情報、前記ユーザ設定情報及び前記符号化入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する符号化出力音声データを受信する受信手段と、
前記符号化出力音声データを復号する復号化手段と、
前記復号化手段で復号化された出力音声を出力する音声出力手段と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示手段と
を備える。
【００２９】
また、好ましくは、前記送信手段は、前記設定手段によって前記ユーザ設定情報が変更された変更ユーザ設定情報が生成された場合、前記変更ユーザ設定情報を前記マルチモーダル文書送信装置へ送信する。
【００３０】
また、好ましくは、前記受信手段は、更に、前記符号化入力音声データに対応する音声認識結果を前記マルチモーダル文書送信装置から受信する。
【００３１】
上記の目的を達成するための本発明によるマルチモーダル文書送信装置は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置であって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報及びユーザ設定情報、符号化入力音声データを受信する受信手段と、
前記符号化入力音声データを音声認識する音声認識手段と、
前記音声認識手段による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成手段と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して符号化出力音声データを生成する音声合成手段と、
前記マルチモーダル文書及び前記符号化出力音声データを前記マルチモーダル文書受信装置へ送信する送信手段と
を備える。
【００３２】
また、好ましくは、前記モダリティ情報に基づいて、前記マルチモーダル文書受信装置が要求する原文書を編集するための編集ファイルを判定する判定手段とを更に備え、
前記生成手段は、前記判定手段で判定された編集ファイルを用いて、前記原文書を編集して前記マルチモーダル文書を生成する。
【００３３】
また、好ましくは、前記受信手段が前記ユーザ設定情報が変更された変更ユーザ設定情報を受信した場合、前記生成手段は直前に生成した前記マルチモーダル文書を、前記変更ユーザ設定情報に基づいて、該マルチモーダル文書を編集する。
【００３４】
また、好ましくは、前記送信手段は、更に、前記音声認識結果を前記マルチモーダル文書受信装置へ送信する。
【００３５】
上記の目的を達成するための本発明によるマルチモーダル文書送受信システムは以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成するマルチモーダル文書送信装置と該マルチモーダル文書を受信するマルチモーダル文書受信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムであって、
前記マルチモーダル文書受信装置は、
音声を入力する音声入力手段と、
前記音声入力手段から入力された音声の符号化を行い、符号化入力音声データを生成する符号化手段と、
ユーザ設定情報を設定する設定手段と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記符号化入力音声データを前記マルチモーダル文書送信装置へ送信する第１送信手段と、
前記モダリティ情報、前記ユーザ設定情報及び前記符号化入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する符号化出力音声データを受信する第１受信手段と、
前記符号化出力音声データを復号する復号化手段と、
前記復号化手段で復号化された出力音声を出力する音声出力手段と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示手段とを備え、
前記マルチモーダル文書送信装置は、
前記マルチモーダル文書受信装置から前記モダリティ情報及び前記ユーザ設定情報、前記符号化入力音声データを受信する第２受信手段と、
前記符号化入力音声データを音声認識する音声認識手段と、
前記音声認識手段による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成手段と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して符号化出力音声データを生成する音声合成手段と、
前記マルチモーダル文書及び前記符号化出力音声データを前記マルチモーダル文書受信装置へ送信する第２送信手段と
を備える。
【００３６】
上記の目的を達成するための本発明によるマルチモーダル文書受信装置の制御方法は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置の制御方法であって、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報を前記マルチモーダル文書送信装置に送信し、該モダリティ情報に基づいて該マルチモーダル文書送信装置が生成したマルチモーダル文書を受信する通信工程と、
前記マルチモーダル文書中の音声出力対象のテキストデータを音声合成する音声合成工程と、
前記音声合成工程で合成した出力音声を出力する音声出力工程と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示工程と
を備える。
【００３７】
上記の目的を達成するための本発明によるマルチモーダル文書送信装置の制御方法は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置の制御方法であって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報を受信する受信工程と、
前記モダリティ情報に基づいて、前記マルチモーダル文書を生成する生成工程と、
前記マルチモーダル文書を前記マルチモーダル文書受信装置へ送信する送信工程と
を備える。
【００３８】
上記の目的を達成するための本発明によるマルチモーダル文書送受信システムの制御方法は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成するマルチモーダル送信装置と該マルチモーダル文書を受信するマルチモーダル文書受信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムの制御方法であって、
前記マルチモーダル文書受信装置は、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報を前記マルチモーダル文書送信装置に送信し、該モダリティ情報に基づいて該マルチモーダル文書送信装置が生成したマルチモーダル文書を受信する通信工程と、
前記マルチモーダル文書中の音声出力対象のテキストデータを音声合成する音声合成工程と、
前記音声合成工程で合成した出力音声を出力する音声出力工程と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示工程とを備え、
前記マルチモーダル文書送信装置は、
前記マルチモーダル文書受信装置から前記モダリティ情報を受信する受信工程と、
前記モダリティ情報に基づいて、前記マルチモーダル文書を生成する生成工程と、
前記マルチモーダル文書を前記マルチモーダル文書受信装置へ送信する送信工程と
を備える。
【００３９】
上記の目的を達成するための本発明によるマルチモーダル文書受信装置の制御方法は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置の制御方法であって、
音声を入力する音声入力工程と、
前記音声入力工程から入力された音声の符号化を行い、符号化入力音声データを生成する符号化工程と、
ユーザ設定情報を設定する設定工程と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記符号化入力音声データを前記マルチモーダル文書送信装置へ送信する送信工程と、
前記モダリティ情報、前記ユーザ設定情報及び前記符号化入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する符号化出力音声データを受信する受信工程と、
前記符号化出力音声データを復号する復号化工程と、
前記復号化工程で復号化された出力音声を出力する音声出力工程と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示工程と
を備える。
【００４０】
上記の目的を達成するための本発明によるマルチモーダル文書送信装置の制御方法は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置の制御方法であって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報及びユーザ設定情報、符号化入力音声データを受信する受信工程と、
前記符号化入力音声データを音声認識する音声認識工程と、
前記音声認識工程による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成工程と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して符号化出力音声データを生成する音声合成工程と、
前記マルチモーダル文書及び前記符号化出力音声データを前記マルチモーダル文書受信装置へ送信する送信工程と
を備える。
【００４１】
上記の目的を達成するための本発明によるマルチモーダル文書送受信システムの制御方法は以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成するマルチモーダル送信装置と該マルチモーダル文書を受信するマルチモーダル文書受信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムの制御方法であって、
前記マルチモーダル文書受信装置は、
音声を入力する音声入力工程と、
前記音声入力工程から入力された音声の符号化を行い、符号化入力音声データを生成する符号化工程と、
ユーザ設定情報を設定する設定工程と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記符号化入力音声データを前記マルチモーダル文書送信装置へ送信する第１送信工程と、
前記モダリティ情報、前記ユーザ設定情報及び前記符号化入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する符号化出力音声データを受信する第１受信工程と、
前記符号化出力音声データを復号する復号化工程と、
前記復号化工程で復号化された出力音声を出力する音声出力工程と、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示工程とを備え、
前記マルチモーダル文書送信装置は、
前記マルチモーダル文書受信装置から前記モダリティ情報及び前記ユーザ設定情報、前記符号化入力音声データを受信する第２受信工程と、
前記符号化入力音声データを音声認識する音声認識工程と、
前記音声認識工程による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成工程と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して符号化出力音声データを生成する音声合成工程と、
前記マルチモーダル文書及び前記符号化出力音声データを前記マルチモーダル文書受信装置へ送信する第２送信工程と
を備える。
【００４２】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置の制御をコンピュータに機能させるためのプログラムであって、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報を前記マルチモーダル文書送信装置に送信し、該モダリティ情報に基づいて該マルチモーダル文書送信装置が生成したマルチモーダル文書を受信する通信工程のプログラムコードと、
前記マルチモーダル文書中の音声出力対象のテキストデータを音声合成する音声合成工程のプログラムコードと、
前記音声合成工程で合成した出力音声を出力する音声出力工程のプログラムコードと、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示工程のプログラムコードと
を備える。
【００４３】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置の制御をコンピュータに機能させるためのプログラムであって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報を受信する受信工程のプログラムコードと、
前記モダリティ情報に基づいて、前記マルチモーダル文書を生成する生成工程のプログラムコードと、
前記マルチモーダル文書を前記マルチモーダル文書受信装置へ送信する送信工程のプログラムコードと
を備える。
【００４４】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置の制御をコンピュータに機能させるためのプログラムであって、
音声を入力する音声入力工程のプログラムコードと、
前記音声入力工程から入力された音声の符号化を行い、符号化入力音声データを生成する符号化工程のプログラムコードと、
ユーザ設定情報を設定する設定工程のプログラムコードと、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記符号化入力音声データを前記マルチモーダル文書送信装置へ送信する送信工程のプログラムコードと、
前記モダリティ情報、前記ユーザ設定情報及び前記符号化入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する符号化出力音声データを受信する受信工程のプログラムコードと、
前記符号化出力音声データを復号する復号化工程のプログラムコードと、
前記復号化工程で復号化された出力音声を出力する音声出力工程のプログラムコードと、
前記マルチモーダル文書中の表示対象のテキストデータを表示する表示工程のプログラムコードと
を備える。
【００４５】
上記の目的を達成するための本発明によるプログラムは以下の構成を備える。即ち、
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置の制御をコンピュータに機能させるためのプログラムであって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報及びユーザ設定情報、符号化入力音声データを受信する受信工程のプログラムコードと、
前記符号化入力音声データを音声認識する音声認識工程のプログラムコードと、
前記音声認識工程による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成工程のプログラムコードと、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して符号化出力音声データを生成する音声合成工程のプログラムコードと、
前記マルチモーダル文書及び前記符号化出力音声データを前記マルチモーダル文書受信装置へ送信する送信工程のプログラムコードと
を備える。
【００４６】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
＜実施形態１＞
図１は本発明の実施形態１のマルチモーダル文書送受信システムの構成図である。
【００４７】
図１において、１０１は携帯電話（ａ〜ｃ）や、ＰＨＳ（ａ〜ｃ）、ＰＤＡ（ａ〜ｃ）等のモバイル端末からなり、マルチモーダル文書（文書構造＋表現形式）を受信して出力するマルチモーダル文書受信処理装置群であり、その詳細については、図２を用いて後述する。
【００４８】
１０２はマルチモーダル文書受信処理装置１０１と通信を行うとともに、インターネット１０４を介して、外部のＷｅｂサーバ群１０３ａ〜１０３ｃから編集する原文書（例えば、Ｗｅｂサーバが管理するＷｅｂサイト／ＦＴＰサイト上のＨＴＭＬ文書、ＸＭＬ文書やファイル等の各種文書データ）を取得して、マルチモーダル文書を生成するマルチモーダル文書編集送信装置であり、その詳細については、図３を用いて後述する。
【００４９】
尚、マルチモーダル文書受信処理装置群１０１とマルチモーダル文書編集送信装置１０２は、公衆回線や無線ＬＡＮ等とのネットワークを介して、データ通信を行うことができる。また、マルチモーダル文書受信処理装置群１０１及びマルチモーダル文書編集送信装置１０２は、汎用コンピュータや携帯端末に搭載される標準的な構成要素（例えば、ＣＰＵ、ＲＡＭ、ＲＯＭ、ハードディスク、外部記憶装置、ネットワークインタフェース、ディスプレイ、キーボード、マウス等）を有している。更に、後述するマルチモーダル文書受信処理装置群１０１及びマルチモーダル文書編集送信装置１０２それぞれで実現される各種機能は、各装置内部のＲＯＭや外部記憶装置に記憶されるプログラムがＣＰＵによって実行されることによって実現されても良いし、専用のハードウェアで実現されても良い。
【００５０】
また、Ｗｅｂサーバ群１０３ａ〜１０３ｃの機能をマルチモーダル文書編集送信装置１０２に統合して構成されても良く、この場合、マルチモーダル文書編集送信装置１０２自身で管理している原文書に基づいて、マルチモーダル文書を生成する。
【００５１】
次に、マルチモーダル文書受信処理装置群１０１の内の１つの詳細構成について、図２を用いて説明する。
【００５２】
図２は本発明の実施形態１のマルチモーダル文書受信処理装置の詳細構成図である。
【００５３】
図２において、２０１はユーザがマイクロフォンから音声を入力する音声入力部である。２０２は、音声入力部２０１から入力された音声の認識処理を行う音声認識部であり、その音声認識結果は、ＧＵＩ入力による文字入力と同等に扱われる。
【００５４】
２０３は、スタイラスなどのポインティングデバイスやテンキーなどのボタンによるＧＵＩ操作を入力するＧＵＩ操作入力部である。
【００５５】
尚、ＧＵＩ操作には、インターネット１０４上のＷｅｂサーバ１０３ａ〜１０３ｃで管理されるＷｅｂサイトへのアクセス操作、後述するモダリティ情報の変更操作等の各種操作がある。
【００５６】
２０４は、当該マルチモーダル文書受信処理装置１０１で使用する音声認識機能、音声合成機能、ＧＵＩ表示機能等の各種機能を示すモダリティ情報を保持するモダリティ情報保持部である。
【００５７】
２０５は、入力されたＧＵＩ操作、かつモダリティ情報保持部２０４に保持されたモダリティ情報をマルチモーダル文書編集送信装置１０２に送信し、マルチモーダル文書編集送信装置１０２から、テキストデータの入出力形態（例えば、表示、音声入出力、印刷等）を記述しているマルチモーダル文書やスクリプトファイルを受信するデータ通信部である。
【００５８】
２０６は、データ通信部２０５より受信したマルチモーダル文書中の音声出力対象のテキストデータを合成する音声合成部である。２０７は、音声合成部２０７で合成した出力音声をスピーカやイヤホンから出力する音声出力部である。
【００５９】
２０８は、データ通信部２０５が受信したマルチモーダル文書中のＧＵＩ表示データを表示するＷｅｂブラウザ等のＧＵＩ表示部である。
【００６０】
２０９は、当該マルチモーダル文書受信処理装置１０１の各構成要素２０１〜２０８を相互に接続するバスである。
【００６１】
次に、マルチモーダル文書編集送信装置１０２の詳細構成について、図３を用いて説明する。
【００６２】
図３は本発明の実施形態１のマルチモーダル文書編集送信装置の詳細構成図である。
【００６３】
図３において、３０１は、インターネット１０４を介して外部のＷｅｂサーバ（例えば、１０３ａ）より原文書を受信するインターネット通信部である。
【００６４】
３０２は、インターネット通信部３０１が取得した原文書を保持する原文書保持部である。３０３は、原文書保持部３０２に保持された原文書を編集するためのスタイルシート群や原文書の操作を記述したスクリプトファイル群からなる編集／操作ファイルを保持するスタイルシート・スクリプト保持部である。
【００６５】
３０４は、マルチモーダル文書受信処理装置１０１から、ＧＵＩ操作情報及びモダリティ情報を受信し、マルチモーダル文書やスタイルシートやスクリプトファイルをマルチモーダル文書受信処理装置１０１に送信するデータ通信部である。
【００６６】
３０５は、データ通信部３０４が受信したマルチモーダル文書受信処理装置１０１を特定するための端末情報及びモダリティ情報を、個々のマルチモーダル文書受信処理装置１０１ごとに保持する端末情報保持部である。尚、端末情報保持部３０５では、公衆回線で接続されている場合には電話番号で、無線ＬＡＮなどなどで接続されている場合には、ＩＰアドレスでマルチモーダル文書受信処理装置１０１の特定を行い、個々のマルチモーダル文書受信処理装置１０１の端末情報を保持する。
【００６７】
３０６は、端末情報保持部３０５に保持された現在通信中のマルチモーダル文書受信処理装置１０１のモダリティ情報に基づいて、送信対象の原文書に適用するスタイルシートや添付するスクリプトファイルを判定するスタイルシート・スクリプト判定部である。
【００６８】
３０７は、データ通信部３０５が受信した操作入力に基づいて得られた、原文書保持部３０２に保持された原文書に、スタイルシート・スクリプト判定部３０６で判定されたやスクリプトファイルを適用して編集し、マルチモーダル文書を生成する送信文書編集部である。
【００６９】
３０８は、当該マルチモーダル文書編集処理装置１０１の各構成要素３０１〜３０７を相互に接続するバスである。
【００７０】
次に、マルチモーダル文書受信処理装置１０１の動作について、図４を用いて説明する。
【００７１】
図４は本発明の実施形態１のマルチモーダル文書受信処理装置の動作フローを示すフローチャートである。
【００７２】
まず、ステップＳ４０１で、データ通信部２０５にて、モダリティ情報保持部２０４に保持されたモダリティ情報をマルチモーダル文書送信編集送信装置１０２に送信する。
【００７３】
次に、ステップＳ４０２で、ユーザからの入力を待機する。ユーザからの入力がある場合（ステップＳ４０２でＹＥＳ）、ステップＳ４０３に進む。
【００７４】
ステップＳ４０３で、ユーザからの入力が音声入力であるか否かを判定する。音声入力である場合（ステップＳ４０３でＹＥＳ）、ステップＳ４０４に進み、音声認識部２０２にて、入力された音声の認識を行い、その音声認識結果をユーザからのＧＵＩ操作として、ステップＳ４０５に進む。一方、音声入力でない場合（ステップＳ４０３でＮＯ）、ステップＳ４０５に進む。
【００７５】
尚、ステップＳ４０３の判定は、この判定は、音声入力部２０１からの入力の有無に基づいて判定する。
【００７６】
ステップＳ４０５で、ユーザからの入力がモダリティ情報の変更であるか否かを判定する。モダリティ情報の変更である場合（ステップＳ４０５でＹＥＳ）、ステップＳ４０１に戻る。一方、モダリティ情報の変更でない場合（ステップＳ４０５でＮＯ）、ステップＳ４０６に進む。
【００７７】
ステップＳ４０６で、データ通信部２０５にて、ユーザからの入力（例えば、マルチモーダル文書の要求）をマルチモーダル文書編集送信装置１０２に送信する。ステップＳ４０７で、データ通信部２０５にて、マルチモーダル文書編集送信装置１０２からマルチモーダル文書を受信する。
【００７８】
ステップＳ４０８で、受信したＭＭ文書中に音声合成対象のテキストデータがあるかないかを判定する。音声合成対象のテキストデータがある場合（ステップＳ４０８でＹＥＳ）、ステップＳ４０９に進み、音声合成部２０６にて、音声合成対象のテキストデータの音声合成を行う。そして、ステップＳ４１０で、音声出力部２０７にて、その音声合成された音声データを出力する。
【００７９】
尚、ステップＳ４０８の判定は、例えば、モダリティ情報保持部２０４に保持されているモダリティ情報として音声合成機能があり、かつ、マルチモーダル文書編集送信装置１０２から受信したマルチモーダル文書中に音声合成対象用の所定タグ（例えば、後述する”＜voice＞”タグ）が含まれている否かに基づいて行う。
【００８０】
一方、ステップＳ４０８において、受信したマルチモーダル文書中に音声合成対象のテキストデータがない場合（ステップＳ４０８でＮＯ）、ステップＳ４１１に進み、ＧＵＩ表示部２０８にて、受信したマルチモーダル文書中のＧＵＩ表示データに基づくＧＵＩ表示を行って、ステップＳ４０２に戻る。
【００８１】
次に、マルチモーダル文書編集送信装置１０２の動作について、図５を用いて説明する。
【００８２】
図５は本発明の実施形態１のマルチモーダル文書編集送信装置の動作フローを示すフローチャートである。
【００８３】
まず、ステップＳ５０１で、データ通信部３０４にて、マルチモーダル文書受信処理装置１０１からの入力を待機する。入力がある場合（ステップＳ５０１でＹＥＳ）、ステップＳ５０２に進む。
【００８４】
ステップＳ５０２で、マルチモーダル文書受信処理装置１０１からの入力がモダリティ情報であるか否かを判定する。モダリティ情報でない場合（ステップＳ５０２でＮＯ）、ステップＳ５０５に進む。一方、モダリティ情報である場合（ステップＳ５０２でＹＥＳ）、ステップＳ５０３に進み、端末情報保持部３０５にて、そのモダリティ情報とマルチモーダル文書受信処理装置１０１の端末情報を保持する。続く、ステップＳ５０４で、スタイルシート・スクリプト判定部３０６にて、受信したモダリティ情報に基づいて、送信対象の原文書に適用するスタイルシート、スクリプトの判定を行う。
【００８５】
ステップＳ５０５で、マルチモーダル文書受信処理装置１０１からの入力に基づいて、インターネット通信部３０１にて、インターネット１０４を介して原文書を取得し、原文書保持部３０２に保持する。続く、ステップＳ５０６で、送信文書編集部３０７にて、原文書保持部３０２に保持された原文書に、使用スタイルシート・スクリプト判定部３０３で判定されたスタイルシートを適用する送信文書編集処理を行い、マルチモーダル文書を生成する。
【００８６】
ステップＳ５０７で、データ通信部３０４にて、送信文書編集部３０７で生成集されたマルチモーダル文書をマルチモーダル文書受信処理装置１０１に送信し、ステップＳ５０１に戻る。
【００８７】
次に、マルチモーダル文書編集送信装置１０２からマルチモーダル文書処理装置群１０１それぞれに送信されるマルチモーダル文書の例について、図６を用いて説明する。
【００８８】
図６は本発明の実施形態１のマルチモーダル文書の例を示す図である。
【００８９】
図６において、”＜voice＞”〜”＜/voice＞”タグで括られた部分のテキストデータは、音声出力対象のテキストデータであり、これは音声合成部２０６が音声合成し、音声出力部２０７から出力する。また、”＜h１＞”〜”＜/h１＞”タグや”＜h2＞”〜”＜/h2＞”タグで括られた部分のテキストデータは、表示対象のテキストデータ（ＧＵＩ表示データ）であり、ＧＵＩ表示部２０８には、図７に示すような表示が行われる。
【００９０】
尚、原文書の例及びその原文書に適用するスタイルシート例は、図８及び図９に示され、この原文書とこのスタイルシートに基づいて、送信文書編集部３０７は、例えば、図６に示したマルチモーダル文書を生成する。
【００９１】
この例では、マルチモーダル文書編集送信装置１０２が、マルチモーダル文書処理装置群１０１のモダリティ情報からマルチモーダル文書処理装置群１０１が音声合成機能及びＧＵＩ表示機能を有していることを判定した場合であり、図９は、図８の原文書中の”＜pageTitle＞”〜”＜/pageTitle＞”タグ、”＜aTitle＞”〜”＜/aTitle＞”タグ及び”＜abstract＞”〜”＜/abstract＞”タグで括られた部分のテキストデータはＧＵＩ表示データとし、”＜details＞”〜”＜/details＞”タグで括られた部分のテキストデータは音声出力対象のテキストデータとするスタイルシートである。
【００９２】
以上説明したように、実施形態１によれば、まず、マルチモーダル文書受信処理装置１０１から自身の使用するモダリティ情報をマルチモーダル文書編集送信装置１０２に送信する。次に、マルチモーダル文書編集送信装置１０２にて、そのモダリティ情報に基づいて、送信対象の原文書に適用するスタイルシートやスクリプトファイルを判定し、その判定結果に基づいて、原文書を編集したマルチモーダル文書や必要であればスクリプトファイルをマルチモーダル文書受信処理装置１０１に返信する。そして、マルチモーダル文書受信処理装置１０１では、受信したマルチモーダル文書及びスクリプトファイルに基づいて、マルチモーダル出力を行うことができる。
【００９３】
つまり、公衆回線や無線ＬＡＮなどを経由してホストコンピュータ（マルチモーダル文書編集送信装置１０２）とデータ通信を行える様々なモダリティを持った端末（マルチモーダル文書受信処理装置１０１）において、その端末個々の持つモダリティやユーザが使用したいモダリティに応じて、端末に対して最適なユーザインタフェース環境を提供することができる。
＜実施形態２＞
実施形態１では、マルチモーダル文書受信処理装置１０１が音声合成機能とＧＵＩ表示機能を有するモダリティ情報を有している場合を説明しているが、音声合成機能を有さないマルチモーダル文書受信処理装置１０１については、例えば、図１０に示すようなＨＴＭＬファイルと、図１１に示すようなスクリプトファイルから、図１２に示すようなＧＵＩ表示を行うことができる。この場合、図１０のＨＴＭＬファイル中の各タグで括られる部分のテキストデータはすべてＧＵＩ表示データとし、図１１のスクリプトファイルは、図１２に示すＧＵＩ表示と、ユーザが図１２のＧＵＩ表示中のメニュー「概要」から「詳細」に変更することで、図１３に示すようなＧＵＩ表示を行うようなスクリプトファイルとなっている。
＜実施形態３＞
マルチモーダル文書受信処理装置１０１が、携帯端末のような表示画面が小さいものである場合には、例えば、図１１に示すようなスクリプトファイルと、図１４に示すようなＨＴＭＬファイルから、図１５に示すようなＧＵＩ表示を行うことができる。この場合、ユーザが図１５のＧＵＩ表示中のメニュー「見出」から「概要」、「詳細」とたどっていくことで、図１６、図１７に示すようなＧＵＩ表示を行うようなことができる。つまり、表示するテキストデータ中の一部の表示／非表示を制御するメニューやボタン等のコントロールをＧＵＩ表示データに構成する。
＜実施形態４＞
実施形態１では、音声合成部２０６を有するマルチモーダル文書受信処理装置１０１に対して、マルチモーダル文書を出力する場合に、そのマルチモーダル文書中のＧＵＩ表示データと音声合成対象のテキストデータをそれぞれ出力する構成としている。しかしながら、ＧＵＩ表示データと音声合成対象のテキストデータの出力形態は、これに限定されない。例えば、実施形態２、３に示した手法と同様の手法で、最初のマルチモーダル文書の出力時には、音声合成対象のテキストデータの音声合成を行わず、音声合成の実行の有無を制御する音声合成実行ボタン（コントロール）をＧＵＩ表示して、ユーザがＧＵＩ表示上の音声合成実行ボタンを押したときのみ、その音声合成対象のテキストデータを音声合成するようにしても構わない。
＜実施形態５＞
マルチモーダル文書受信処理装置１０１における音声認識部２０２の有無については、音声認識部２０２がない場合には、例えば、図１８に示すようなＧＵＩ表示となるが、音声認識部２０２がある場合には、例えば、図１９に示すように、音声認識が可能な箇所にその旨を示すボタン（例えば、マイクをかたどっているアイコン）を表示するようにして、ユーザに音声合成が可能な旨を提示するような構成にすることもできる。
＜実施形態６＞
実施形態１〜５では、マルチモーダル文書受信処理装置１０１に音声認識機能や音声合成機能を有している場合に実現されるマルチモーダル文書送受信システムについて説明した。しかしながら、マルチモーダル文書受信処理装置１０１が音声入力機能を有しているものの音声認識機能、音声合成機能を持たないあるいは貧弱な場合や、加えて、このようなマルチモーダル文書受信処理装置１０１で音声入出力によるＧＵＩ操作を実現したい場合がある。
【００９４】
そこで、実施形態６では、実施形態１の応用例として、特に、音声認識、音声合成をマルチモーダル文書編集送信装置１０２で行う構成とすることで、マルチモーダル文書受信処理装置１０１が音声入力機能を有しているものの音声認識機能、音声合成機能を持たないあるいは貧弱な場合や、加えて、このようなマルチモーダル文書受信処理装置１０１で音声入出力によるＧＵＩ操作を実現したい場合でも、実施形態１と同等の効果を期待できるマルチモーダル文書送受信システムについて説明する。
【００９５】
また、実施形態６のマルチモーダル文書送受信システムでは、マルチモーダル文書受信処理装置１０１とマルチモーダル文書編集送信装置１０２間の音声データの送受信を、符号化されたデジタル音声で行う。これにより、データの安全性を確保することができる。
【００９６】
まず、マルチモーダル文書受信処理装置群１０１の内の１つの詳細構成について、図２０を用いて説明する。
【００９７】
図２０は本発明の実施形態６のマルチモーダル文書受信処理装置の詳細構成図である。
【００９８】
図２０において、４０１はユーザがマイクロフォンから音声を入力する音声入力部である。４０２は、音声入力部４０２から入力された音声の符号化を行う入力音声符号化部である。
【００９９】
４０３は、スタイラスなどのポインティングデバイスやテンキーなどのボタンによるＧＵＩ操作を入力するＧＵＩ操作入力部である。４０４は、当該マルチモーダル文書受信処理装置１０１の有効な各種機能を示すモダリティ情報を保持するモダリティ情報保持部である。
【０１００】
ここで、マルチモーダル文書受信処理装置１０１が携帯電話、ＰＨＳ、ＰＤＡそれぞれである場合のモダリティ情報の例をそれぞれ図２４〜図２６に示す。
【０１０１】
例えば、図２４は、マルチモーダル文書受信処理装置１０１が携帯電話である場合のモダリティ情報であり、ここでは、マルチモーダル文書受信処理装置１０１の機能としてその入力機能及び出力機能がＸＭＬ文書で構成されている。
【０１０２】
２４１０は入力機能を示す記述であり、この記述２４１０中の各行２４１１〜２４１６のタグで括られた部分がその具体的な入力機能の詳細記述である。ここでは、記述２４１０は、マイクによる音声入力（２４１０）、テンキーによる文字入力（２４１２）、ボタンによる項目の選択などのポインティング（２４１３）、４方向ボタンによるフォーカスの移動（２４１４）、２方向ボタンによる垂直方向の画面スクロール（２４１６）の入力機能を有する記述と、水平方向の画面スクロールは行えない（２４１５）ことを示す記述で構成されている。
【０１０３】
一方、２４２０は出力機能を示す記述であり、この記述２４２０中の各行２４２１〜２４２５のタグで括られた部分がその具体的な出力機能の詳細記述である。ここでは、記述２４２０は、スピーカによる音声出力（２４２１）とイヤホンによる音声出力（２４２２）、画面のタイプがビットマップ（２４２３）、画面サイズが１００ドット×１２０ドット（２４２４）、ＲＧＢそれぞれ１６階調のカラー（２４２５）の出力機能を有する記述で構成されている。
【０１０４】
同様に、図２５、図２６の記述も図２４の説明に準じて説明することができ、ここでは、その詳細については省略する。
【０１０５】
図２０の説明に戻る。
【０１０６】
４０５は、音声入力部４０１及びＧＵＩ操作入力部４０３から後述する音声出力部４０９より出力される音声出力形態やＧＵＩ表示部４１０で表示されるＧＵＩ表示形態をユーザごとに設定するユーザ設定部である。４０６はユーザ設定部４０５により設定されたユーザ設定情報を保持するユーザ設定保持部である。
【０１０７】
ここで、ユーザ設定保持部４０６に保持されるユーザ設定情報の初期値例を図２７に、そのユーザ設定情報をユーザが変更した場合の例を図２８に示す。
【０１０８】
図２７のユーザ設定情報の初期値例において、２７１０は入力機能を示す記述であり、この記述２７１０中の各行２７１１〜２７１５のタグで括られた部分がその具体的な入力機能の詳細記述である。ここでは、記述２７１０は、マイクがｏｎ（２７１１）、文字入力が音声（２７１２）、ポインティングが音声とボタン（２７１３）、フォーカス移動が４方向ボタン（２７１４）、垂直方向のスクロールが２方向ボタン（２７１５）であることを示す記述で構成されている。
【０１０９】
一方、２７２０は出力機能を示す記述であり、この記述２７２０中の各行〜２７２１〜２７２５のタグで括られた部分がその具体的な出力機能の詳細記述である。ここでは、記述２７１０は、スピーカがｏｎ（２７２１）、イヤホンがｏｆｆ（２７２２）、大きい文字は表示（２７２３）、中くらいの文字は表示及び音声出力（２７２４）、小さい文字は音声出力（２７２５）であることを示す記述で構成されている。
【０１１０】
これに対し、図２８のユーザ設定情報の変更例では、図２７のユーザ設定情報の入力／出力に係る記述をすべて音声で行う記述に変更されている。
【０１１１】
図２０の説明に戻る。
【０１１２】
４０７は、入力音声符号化部４０２によって生成した符号化入力音声データ、ＧＵＩ操作入力部４０３により入力されたＧＵＩ操作情報、モダリティ情報保持部４０４に保持されたモダリティ情報、及びユーザ設定保持部４０６に保持されたユーザ設定情報をマルチモーダル文書編集送信装置１０２に送信し、マルチモーダル文書編集送信装置１０２から、符号化出力音声データやＧＵＩ表示データを含むマルチモーダル文書を受信するデータ通信部である。
【０１１３】
４０８は、データ通信部４０７が受信した符号化出力音声データを復号化する出力音声復号化部である。４０９は、出力音声復号化部４０８で復号化された出力音声をスピーカやイヤホンから出力する音声出力部である。
【０１１４】
４１０は、データ通信部４０７が受信したマルチモーダル文書中のＧＵＩ表示データを表示するＷｅｂブラウザ等のＧＵＩ表示部である。
【０１１５】
４１１は、当該マルチモーダル文書処理装置１０１の各構成要素４０１〜４１０を相互に接続するバスである。
【０１１６】
次に、マルチモーダル文書編集送信装置１０２の詳細構成について、図２１を用いて説明する。
【０１１７】
図２１は本発明の実施形態６のマルチモーダル文書編集送信装置の詳細構成図である。
【０１１８】
図２１において、５０１はインターネット１０４を介して外部のＷｅｂサーバ（例えば、１０３ａ）より原文書を受信するインターネット通信部である。
【０１１９】
５０２は、インターネット通信部５０１が取得した原文書を保持する原文書保持部である。５０３は、原文書保持部５０２に保持された原文書を編集するためのスタイルシート群を保持するスタイルシート保持部である。
【０１２０】
５０４は、マルチモーダル文書受信処理装置１０１から、符号化入力音声データ、ＧＵＩ操作情報、モダリティ情報、及びユーザ設定情報を受信し、後述する符号化出力音声データやＧＵＩ表示データをマルチモーダル文書受信処理装置１０１に送信するデータ通信部である。
【０１２１】
５０５は、データ通信部５０４が受信したマルチモーダル文書受信処理装置１０１を特定するためのモダリティ情報及びユーザ設定情報を、個々のマルチモーダル文書受信処理装置１０１ごとに保持する端末情報保持部である。更に、端末情報保持部５０５では、公衆回線で接続されている場合には、電話番号で、無線ＬＡＮで接続されている場合には、ＩＰアドレスでマルチモーダル文書受信処理装置１０１の特定を行い、個々のマルチモーダル文書受信処理装置１０１の端末情報を保持する。
【０１２２】
５０６は、端末情報保持部５０５に保持された現在通信中のマルチモーダル文書受信処理装置１０１のモダリティ情報及びユーザ設定情報に基づいて、送信対象の原文書に適用するスタイルシートを判定するスタイルシート判定部である。
【０１２３】
５０７は、データ通信部５０５が受信した符号化入力音声データを音声認識する音声認識部である。５０８は、音声認識部５０７で音声認識した認識音声及びデータ通信部５０５が受信したＧＵＩ操作情報に基づいて得られた送信対象の原文書に、スタイルシート判定部５０６で判定されたスタイルシートスタイルシートを適用して編集し、マルチモーダル文書を生成する送信文書編集部である。
【０１２４】
５０９は、送信文書編集部５０８で編集されたマルチモーダル文書中の音声出力対象のテキストデータを符号化出力音声データとして生成する音声合成部である。
【０１２５】
５１０は、当該マルチモーダル文書編集装置装置１０２の各構成要素５０１〜５０９を相互に接続するバスである。
【０１２６】
次に、マルチモーダル文書受信処理装置１０１の動作について、図２２を用いて説明する。
【０１２７】
図２２は本発明の実施形態６のマルチモーダル文書受信処理装置の動作フローを示すフローチャートである。
【０１２８】
まず、ステップＳ９０１で、データ通信部４０７にて、モダリティ情報保持部４０４に保持されたモダリティ情報及びユーザ設定保持部４０６に保持されたユーザ設定情報をマルチモーダル文書編集送信装置１０２に送信する。
【０１２９】
ステップＳ９０２で、データ通信部４０７にて、マルチモーダル文書編集送信装置１０２からマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する符号化出力音声データ、あるいは音声認識結果を受信する。続いて、ステップＳ９０３で、ＧＵＩ表示部４１０にて、マルチモーダル文書中のＧＵＩ表示データに基づくＧＵＩ表示を行う。更に、ステップＳ９０４で、出力音声復号化部４０８にて、符号化出力音声データを復号し、音声出力部４０９にて、出力音声データの音声出力を行う。
【０１３０】
ステップＳ９０５で、マルチモーダル文書編集送信装置１０２から音声認識結果を受信しているか否かを判定する。音声認識結果を受信している場合（ステップＳ９０５でＹＥＳ）、ステップＳ９０７に進み、音声認識結果を受信していない場合（ステップＳ９０５でＮＯ）、ステップＳ９０６に進み、ユーザからの入力を待機する（ステップＳ９０６でＮＯ）。一方、ユーザからの入力がある場合（ステップＳ９０６でＹＥＳ）、ステップＳ９０７に進む。
【０１３１】
ステップＳ９０７で、ユーザからの入力がユーザ設定情報の変更であるか否かを判定する。ユーザ設定情報の変更である場合（ステップＳ９０７でＹＥＳ）、ステップＳ９０８に進み、変更保持処理として、ユーザが変更したユーザ設定情報をユーザ設定保持部４０６に保持し、ステップＳ９０１に戻る。一方、ユーザ設定情報の変更でない場合（ステップＳ９０７でＮＯ）、ステップＳ９０９に進む。
【０１３２】
ステップＳ９０９で、ユーザからの入力が音声入力であるか否かを判定する。音声入力である場合（ステップＳ９０９でＹＥＳ）、ステップＳ９１０に進み、入力された音声の符号化を行い、ステップＳ９１１に進む。一方、音声入力でない場合（ステップＳ９０９でＮＯ）、ステップＳ９１１に進む。
【０１３３】
ステップＳ９１１で、データ通信部４０７にて、ユーザからの入力をマルチモーダル文書編集送信装置１０２に送信し、ステップＳ９０２に戻る。
【０１３４】
次に、マルチモーダル文書編集送信装置１０２の動作について、図２３を用いて説明する。
【０１３５】
図２３は本発明の実施形態６のマルチモーダル文書編集送信装置の動作フローを示すフローチャートである。
【０１３６】
まず、ステップＳ１００１で、データ通信部５０４にて、マルチモーダル文書受信処理装置１０１からの入力を待機する。入力がある場合（ステップＳ１００１でＹＥＳ）、ステップＳ１００２に進む。
【０１３７】
ステップＳ１００２で、マルチモーダル文書受信処理装置１０１からの入力がモダリティ情報もしくはユーザ設定情報であるか否かを判定する。モダリティ情報もしくはユーザ設定情報である場合（ステップＳ１００２でＹＥＳ）、ステップＳ１００３に進み、ステップＳ１００３で、端末情報保持部５０５にて、マルチモーダル文書受信処理装置１０１の端末情報とともに、モダリティ情報もしくはユーザ設定情報を保持し、ステップＳ１００４に進む。
【０１３８】
ステップＳ１００４で、インターネット通信部５０１にて、インターネット１０４を介してマルチモーダル文書受信処理装置１０１から要求された原文書を取得し、原文書保持部５０２に保持する。
【０１３９】
ステップＳ１００５で、スタイルシート判定部５０６にて、端末情報保持部５０５に保持されたモダリティ情報もしくはユーザ設定情報から使用するスタイルシートを判定する。ステップＳ１００６で、送信文書編集部５０８にて、原文書保持部５０２に保持された原文書に、スタイルシート判定部５０６で判定されたスタイルシートを適用する送信文書編集を行い、マルチモーダル文書を生成する。
【０１４０】
ステップＳ１００７で、音声合成部５０９にて、送信文書編集部５０８にて編集されたマルチモーダル文書中の音声合成対象のテキストデータ（例えば、後述する”＜text-to-speech＞”タグが付与されたデータ）の音声合成を行い、符号化出力音声データを生成する。そして、ステップＳ１００８で、データ通信部５０４にて、送信文書編集部５０８で編集されたマルチモーダル文書と符号化出力音声データをマルチモーダル文書受信処理装置１０１に送信し、ステップＳ１００１に戻る。
【０１４１】
一方、ステップＳ１００２において、モダリティ情報もしくはユーザ設定情報でない場合（ステップＳ１００２でＮＯ）、ステップＳ１００９に進み、マルチモーダル文書受信処理装置１０１からの入力が音声入力であるか否かを判定する。音声入力である場合（ステップＳ１００９でＹＥＳ）、ステップＳ１０１０に進み、音声認識部５０７にて、符号化入力音声データを認識する音声認識を行う。続く、ステップＳ１０１１で、データ通信部５０４にて、音声認識結果をマルチモーダル文書受信処理装置１０１に送信して、ステップＳ１００１に戻る。
【０１４２】
一方、ステップＳ１００９において、音声入力でない場合（ステップＳ１００９でＮＯ）、つまり、ＧＵＩ操作情報の場合は、ステップ１０１２に進む。そして、ステップＳ１０１２で、そのＧＵＩ操作情報に応じて、インターネット通信部５０１、インターネット１０４を介して原文書に対するリンク文書を取得し、原文書保持部５０２に保持して、ステップＳ１００５に進む。
【０１４３】
次に、送信文書編集部５０８で生成するマルチモーダル文書の具体例について、図２９〜図３１を用いて説明する。
【０１４４】
図２９は原文書の例を示し、図３０は図２４のモダリティ情報及び図２７のユーザ設定情報に基づいて判定されたスタイルシートの例を示し、図３１は、これらの原文書及びスタイルシートに基づいて生成されたマルチモーダル文書中のＧＵＩ表示データの表示例を示している。
【０１４５】
図３１において、ＧＵＩ表示データを表示するマルチモーダル文書受信処理装置１０１０のユーザ設定情報に従えば、ＧＵＩ表示データ中の大きい文字（例えば、都心の桜、満開に・・・）と中くらいの文字（例えば、３日の関東地方・・・）は画面に表示し、中くらいの文字と小さい文字は音声合成で読み上げる設定になっている。
【０１４６】
そのため、スタイルシート判定部５０６では、図２９の原文書中の”＜aTitle＞”及び”＜/aTitle＞”タグと”＜abstract＞”及び”＜/abstract＞”を、それぞれ”＜h1＞”及び”＜/h1＞”タグと”＜h2＞”及び”＜/h2＞”タグに変換する。また、”＜abstract＞”及び”＜/abstract＞”タグと”＜details＞”及び”＜/details＞”タグを、それぞれ”＜text-to-speech＞”及び”＜/text-to-speech＞”タグに変換するスタイルシート（図３０）を判定する。
【０１４７】
また、音声合成部５０９で、”＜text-to-speech＞”及び”＜/text-to-speech＞”タグに変換された”＜abstract＞”及び”＜/abstract＞”タグと”＜details＞”及び”＜/details＞”タグで括られたでキスとデータは、音声合成部５０９で符号化出力音声データとして生成され、マルチモーダル文書受信処理装置１０２で生成される。
【０１４８】
そして、この符号化出力音声データを含み、かつ図２９の原文書及び図３０のスタイルシートから得られるマルチモーダル文書がマルチモーダル文書受信処理装置１０１へ送信されると、符号化出力音声データは、出力音声復号化部４０８を介して音声出力部４０９より音声出力される。また、マルチモーダル文書中のＧＵＩ表示データに基づいて、ＧＵＩ表示部４１０に図３１に示すようなＧＵＩ表示が表示される。尚、図３０中の”＜text-to-speech＞”タグは、”＜!-- 〜 --＞”タグ（コメントアウトを示すタグ）で囲まれているため、ＧＵＩ表示されない。
【０１４９】
以上説明したように、実施形態６によれば、音声認識、音声合成をマルチモーダル文書編集送信装置１０２で行う構成とすることで、マルチモーダル文書受信処理装置１０１が音声入力機能を有しているものの音声認識機能、音声合成機能を持たないあるいは貧弱な場合や、加えて、このようなマルチモーダル文書受信処理装置１０１で音声入出力によるＧＵＩ操作を実現したい場合でも、実施形態１と同等の効果を得ることができる。
＜実施形態７＞
実施形態６では、図２４のモダリティ情報、図２７のユーザ設定情報を例に挙げて説明したが、それ以外のモダリティ情報やユーザ設定情報の場合でも、それに応じたスタイルシートを用意すれば、同様の処理が可能なことは明らかである。
＜実施形態８＞
実施形態６では、説明を簡略化するため、原文書に適用するスタイルシートを１つにまとめたものを用いたが、タグごとにスタイルシートを用意し、複数のスタイルシートを適用するものとしても構わない。
＜実施形態９＞
実施形態６では、図２９の原文書に対する図３０のスタイルシートでは、マルチモーダル文書中の”＜text-to-speech＞”タグ内をＧＵＩ表示データとしない記述を含んだままマルチモーダル文書受信処理装置１０１に送信しているが、マルチモーダル文書自体のデータ量を削減するために、”text-to-speech”タグ内を削除したマルチモーダル文書をマルチモーダル文書受信処理装置１０１に送信する構成としても構わない。
【０１５０】
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システム或いは装置に直接或いは遠隔から供給し、そのシステム或いは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。その場合、プログラムの機能を有していれば、形態は、プログラムである必要はない。
【０１５１】
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
【０１５２】
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等、プログラムの形態を問わない。
【０１５３】
プログラムを供給するための記録媒体としては、例えば、フロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。
【０１５４】
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。
【０１５５】
また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
【０１５６】
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現され得る。
【０１５７】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によっても前述した実施形態の機能が実現される。
【０１５８】
【発明の効果】
以上説明したように、本発明によれば、複数種類のモダリティを有する端末個々のモダリティやユーザが使用したいモダリティに応じて、最適なモダリティを有するインタフェースを提供することができるマルチモーダル文書受信装置及びマルチモーダル文書送信装置、マルチモーダル文書送受信システム及びそれらの制御方法、プログラムを提供できる。
【図面の簡単な説明】
【図１】本発明の実施形態１のマルチモーダル文書送受信システムの構成図である。
【図２】本発明の実施形態１のマルチモーダル文書受信処理装置の詳細構成図である。
【図３】本発明の実施形態１のマルチモーダル文書編集送信装置の詳細構成図である。
【図４】本発明の実施形態１のマルチモーダル文書受信処理装置の動作フローを示すフローチャートである。
【図５】本発明の実施形態１のマルチモーダル文書編集送信装置の動作フローを示すフローチャートである。
【図６】本発明の実施形態１のマルチモーダル文書の例を示す図である。
【図７】本発明の実施形態１のＧＵＩ表示例を示す図である。
【図８】本発明の実施形態１の原文書の例を示す図である。
【図９】本発明の実施形態１のスタイルシートの例を示す図である。
【図１０】本発明の実施形態２のＨＴＭＬファイルの例を示す図である。
【図１１】本発明の実施形態２のスクリプトファイルの例を示す図である。
【図１２】本発明の実施形態２のＧＵＩ表示例を示す図である。
【図１３】本発明の実施形態２の別のＧＵＩ表示例を示す図である。
【図１４】本発明の実施形態３のＨＴＭＬファイルの例を示す図である。
【図１５】本発明の実施形態３のＧＵＩ表示例を示す図である。
【図１６】本発明の実施形態３の別のＧＵＩ表示例を示す図である。
【図１７】本発明の実施形態３の更に別のＧＵＩ表示例を示す図である。
【図１８】本発明の実施形態５のＧＵＩ表示例を示す図である。
【図１９】本発明の実施形態５の別のＧＵＩ表示例を示す図である。
【図２０】本発明の実施形態６のマルチモーダル文書受信処理装置の詳細構成図である。
【図２１】本発明の実施形態６のマルチモーダル文書編集送信装置の詳細構成図である。
【図２２】本発明の実施形態６のマルチモーダル文書受信処理装置の動作フローを示すフローチャートである。
【図２３】本発明の実施形態６のマルチモーダル文書編集送信装置の動作フローを示すフローチャートである。
【図２４】本発明の実施形態６のモダリティ情報の例を示す図である。
【図２５】本発明の実施形態６の別のモダリティ情報の例を示す図である。
【図２６】本発明の実施形態６の更に別のモダリティ情報の例を示す図である。
【図２７】本発明の実施形態６のユーザ設定情報の例を示す図である。
【図２８】本発明の実施形態６のユーザ設定情報の変更例を示す図である。
【図２９】本発明の実施形態６の原文書の例を示す図である。
【図３０】本発明の実施形態６のスタイルシートの例を示す図である。
【図３１】本発明の実施形態６のＧＵＩ表示例を示す図である。
【図３２】従来技術を説明するための図である。
【図３３】従来技術を説明するための図である。
【図３４】従来技術を説明するための図である。
【図３５】従来技術を説明するための図である。
【図３６】従来技術を説明するための図である。
【図３７】従来技術を説明するための図である。
【符号の説明】
１０１マルチモーダル文書受信処理装置群
１０２マルチモーダル文書編集送信装置
１０３ａ〜１０３ｂＷｅｂサーバ
１０４インターネット
２０１音声入力部
２０２音声認識部
２０３ＧＵＩ操作入力部
２０４モダリティ情報保持部
２０５データ通信部
２０６音声合成部
２０７音声出力部
２０８ＧＵＩ表示部
２０９バス
３０１インターネット通信部
３０２原文書保持部
３０３スタイルシート・スクリプト保持部
３０４データ通信部
３０５端末情報保持部
３０６スタイルシート・スクリプト判定部
３０７送信文書編集部
３０８バス
４０１音声入力部
４０２入力音声符号化部
４０３ＧＵＩ操作入力部
４０４モダリティ情報保持部
４０５ユーザ設定部
４０６ユーザ設定保持部
４０７データ通信部
４０８出力音声復号化部
４０９音声出力部
４１０ＧＵＩ表示部
４１１バス
５０１インターネット通信部
５０２原文書保持部
５０３スタイルシート保持部
５０４データ通信部
５０５端末情報保持部
５０６スタイルシート判定部
５０７音声認識部
５０８送信文書編集部
５０９音声合成部

Claims

少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置であって、
音声データを入力する音声入力手段と、
ユーザ設定情報を設定する設定手段と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記音声入力手段で入力された入力音声データを前記マルチモーダル文書送信装置へ送信する送信手段と、
前記モダリティ情報、前記ユーザ設定情報及び前記入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する出力音声データを受信する受信手段と、
前記受信手段で受信した出力音声データを出力する音声出力手段と、
前記マルチモーダル文書中の表示対象のテキストデータを表示するよう制御する表示制御手段と
を備えることを特徴とするマルチモーダル文書受信装置。
前記音声入力手段で入力された入力音声データの符号化を行い、符号化入力音声データを生成する符号化手段を更に備え、
前記送信手段は、前記音声入力手段で入力された入力音声データとして、前記符号化手段で符号化した符号化入力音声データを送信する
ことを特徴とする請求項１に記載のマルチモーダル文書受信装置。
前記受信手段は、前記マルチモーダル文書中の音声出力対象のテキストデータに対応する出力音声データとして符号化された符号化出力音声データを受信し、
前記符号化出力音声データを復号化する復号化手段を更に備え、
前記音声出力手段は、前記復号化手段で復号化された出力音声データを出力する
ことを特徴とする請求項１に記載のマルチモーダル文書受信装置。
前記送信手段は、前記設定手段によって前記ユーザ設定情報が変更された変更ユーザ設定情報が生成された場合、前記変更ユーザ設定情報を前記マルチモーダル文書送信装置へ送信する
ことを特徴とする請求項１に記載のマルチモーダル文書受信装置。
前記受信手段は、更に、前記入力音声データに対応する音声認識結果を前記マルチモーダル文書送信装置から受信する
ことを特徴とする請求項１に記載のマルチモーダル文書受信装置。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置であって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報及びユーザ設定情報、入力音声データを受信する受信手段と、
前記入力音声データを音声認識する音声認識手段と、
前記音声認識手段による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成手段と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して出力音声データを生成する音声合成手段と、
前記マルチモーダル文書及び前記出力音声データを前記マルチモーダル文書受信装置へ送信する送信手段と
を備えること特徴とするマルチモーダル文書送信装置。
前記受信手段は、入力音声データとして符号化された符号化入力音声データを受信する
ことを特徴とする請求項６に記載のマルチモーダル送信装置。
前記音声合成手段は、前記出力音声データとして符号化出力音声データを生成し、
前記送信手段は、出力音声データとして、前記符号化出力音声データを送信する
ことを特徴とする請求項６に記載のマルチモーダル送信装置。
前記モダリティ情報に基づいて、前記マルチモーダル文書受信装置が要求する原文書を編集するための編集ファイルを判定する判定手段とを更に備え、
前記生成手段は、前記判定手段で判定された編集ファイルを用いて、前記原文書を編集して前記マルチモーダル文書を生成する
ことを特徴とする請求項６に記載のマルチモーダル文書送信装置。
前記受信手段が前記ユーザ設定情報が変更された変更ユーザ設定情報を受信した場合、前記生成手段は直前に生成した前記マルチモーダル文書を、前記変更ユーザ設定情報に基づいて、該マルチモーダル文書を編集する
ことを特徴とする請求項６に記載のマルチモーダル文書送信装置。
前記送信手段は、更に、前記音声認識結果を前記マルチモーダル文書受信装置へ送信する
ことを特徴とする請求項６に記載のマルチモーダル文書送信装置。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成するマルチモーダル文書送信装置と該マルチモーダル文書を受信するマルチモーダル文書受信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムであって、
前記マルチモーダル文書受信装置は、
音声データを入力する音声入力手段と、
ユーザ設定情報を設定する設定手段と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記音声入力手段で入力された入力音声データを前記マルチモーダル文書送信装置へ送信する第１送信手段と、
前記モダリティ情報、前記ユーザ設定情報及び前記入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する出力音声データを受信する第１受信手段と、
前記第１受信手段で受信した出力音声データを出力する音声出力手段と、
前記マルチモーダル文書中の表示対象のテキストデータを表示するよう制御する表示制御手段とを備え、
前記マルチモーダル文書送信装置は、
前記マルチモーダル文書受信装置から前記モダリティ情報及び前記ユーザ設定情報、前記入力音声データを受信する第２受信手段と、
前記入力音声データを音声認識する音声認識手段と、
前記音声認識手段による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成手段と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して出力音声データを生成する音声合成手段と、
前記マルチモーダル文書及び前記出力音声データを前記マルチモーダル文書受信装置へ送信する第２送信手段と
を備えることを特徴とするマルチモーダル文書送受信システム。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置の制御方法であって、
入力音声データを受信する音声受信工程と、
ユーザ設定情報を設定する設定工程と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記音声受信工程で受信した入力音声データを前記マルチモーダル文書送信装置へ送信する送信工程と、
前記モダリティ情報、前記ユーザ設定情報及び前記入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する出力音声データを受信する受信工程と、
前記受信工程で受信した出力音声データを出力する音声出力工程と、
前記マルチモーダル文書中の表示対象のテキストデータを表示するよう制御する表示制御工程と
を備えることを特徴とするマルチモーダル文書受信装置の制御方法。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置の制御方法であって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報及びユーザ設定情報、入力音声データを受信する受信工程と、
前記入力音声データを音声認識する音声認識工程と、
前記音声認識工程による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成工程と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して出力音声データを生成する音声合成工程と、
前記マルチモーダル文書及び前記出力音声データを前記マルチモーダル文書受信装置へ送信する送信工程と
を備えること特徴とするマルチモーダル文書送信装置の制御方法。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成するマルチモーダル送信装置と該マルチモーダル文書を受信するマルチモーダル文書受信装置とがネットワークを介して接続されて構成されるマルチモーダル文書送受信システムの制御方法であって、
前記マルチモーダル文書受信装置は、
入力音声データを受信する音声受信工程と、
ユーザ設定情報を設定する設定工程と、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記音声受信工程で受信した入力音声データを前記マルチモーダル文書送信装置へ送信する第１送信工程と、
前記モダリティ情報、前記ユーザ設定情報及び前記入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する出力音声データを受信する第１受信工程と、
前記第１受信工程で受信した出力音声データを出力する音声出力工程と、
前記マルチモーダル文書中の表示対象のテキストデータを表示するよう制御する表示制御工程とを備え、
前記マルチモーダル文書送信装置は、
前記マルチモーダル文書受信装置から前記モダリティ情報及び前記ユーザ設定情報、前記入力音声データを受信する第２受信工程と、
前記入力音声データを音声認識する音声認識工程と、
前記音声認識工程による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成工程と、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して出力音声データを生成する音声合成工程と、
前記マルチモーダル文書及び前記出力音声データを前記マルチモーダル文書受信装置へ送信する第２送信工程と
を備えることを特徴とするマルチモーダル文書送受信システムの制御方法。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を、ネットワークを介してマルチモーダル文書送信装置から受信するマルチモーダル文書受信装置の制御をコンピュータに機能させるためのプログラムであって、
入力音声データを受信する音声受信工程のプログラムコードと、
ユーザ設定情報を設定する設定工程のプログラムコードと、
当該マルチモーダル文書受信装置の各種機能を示すモダリティ情報、前記ユーザ設定情報、前記音声受信工程で受信した入力音声データを前記マルチモーダル文書送信装置へ送信する送信工程のプログラムコードと、
前記モダリティ情報、前記ユーザ設定情報及び前記入力音声データに基づいて前記マルチモーダル文書送信装置が生成したマルチモーダル文書及びそのマルチモーダル文書中の音声出力対象のテキストデータに対応する出力音声データを受信する受信工程のプログラムコードと、
前記受信工程で受信した出力音声データを出力する音声出力工程のプログラムコードと、
前記マルチモーダル文書中の表示対象のテキストデータを表示するよう制御する表示制御工程のプログラムコードと
を備えることを特徴とするプログラム。
少なくともテキストデータの出力形態の記述を含むマルチモーダル文書を生成して、ネットワークを介してマルチモーダル文書受信装置へ送信するマルチモーダル文書送信装置の制御をコンピュータに機能させるためのプログラムであって、
前記マルチモーダル文書受信装置の各種機能を示すモダリティ情報及びユーザ設定情報、入力音声データを受信する受信工程のプログラムコードと、
前記入力音声データを音声認識する音声認識工程のプログラムコードと、
前記音声認識工程による音声認識結果、前記モダリティ情報及び前記ユーザ設定情報に基づいて、前記マルチモーダル文書を生成する生成工程のプログラムコードと、
前記マルチモーダル文書中の音声合成対象のテキストデータを音声合成して出力音声データを生成する音声合成工程のプログラムコードと、
前記マルチモーダル文書及び前記出力音声データを前記マルチモーダル文書受信装置へ送信する送信工程のプログラムコードと
を備えること特徴とするプログラム。
請求項１６または請求項１７に記載のプログラムを記憶したコンピュータ読み取り可能な記憶媒体。