JP2006178989A

JP2006178989A - 文書処理装置、方法及びプログラム

Info

Publication number: JP2006178989A
Application number: JP2005366989A
Authority: JP
Inventors: Berna Erol; エロールベルナ; Kathrin Berkner; バークナーキャスリン
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2004-12-20
Filing date: 2005-12-20
Publication date: 2006-07-06
Also published as: US7603620B2; US20060136803A1

Abstract

【課題】文書におけるビジュアル情報及び音声化可能情報を効果的に処理する方法、装置及びプログラムを提供することである。
【解決手段】本発明は、文書に関する文書情報を特定するステップと、前記文書情報を１以上の制限された時間ベースメディアチャネルに変換するステップとから構成されることを特徴とする方法に関する。また、本発明は、文書におけるビジュアル情報を特定するステップと、前記文書から音声に変換可能な音声化可能情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップとから構成されることを特徴とする方法に関する。
【選択図】図１

Description

本発明は、文書の処理及び提供に関し、より詳細には、特定された文書において音声化可能及び／または可視性のある情報を有し、文書の一部が表示されたとき、再生するよう合成される音声化可能情報を有するように文書を構成することに関する。

無線ネットワーク、モバイル機能及びパーソナルモバイル装置の普及が進展するに従い、より多くの人々が小型ディスプレイや限定的なものではあるが周辺入力装置を用いてウェブページ、画像及び文書までもブラウズ及び閲覧するようになってきている。現在、小型ディスプレイを用いたウェブページの閲覧のための１つの手段は、よりシンプルかつグラッフィク性の低いバージョンのウェブページを設計するというものである。画像ブラウジングの問題はまた、低解像度バージョンの画像を単に表示し、各画像の特定エリアへのズームイン及びスクロール機能をユーザに提供することにより一部は解消される。

他方、文書のブラウジング及び閲覧は、はるかに困難な問題である。文書は複数ページから構成され、画像以上に高い解像度を有し（コンテンツを確認するため、ユーザ側においてより多くのズーム及びスクロール操作を要する）、高い分布性を備えた情報を有するかもしれない（例えば、典型的な文書は、タイトル、著者、概要、数字、参照などの多くのフォーカスポイントを有するが、画像のフォーカスポイントは、数人の顔のみであったり、あるいは単なる１つのフォーカス対象であるかもしれない）。文書の閲覧及びブラウジングの問題点は、ＡｃｒｏｂａｔやＭＳＷｏｒｄなどの文書ビューアやブラウザを利用することにより、デスクトップ及びラップトップ表示に対して一部は解消されている。これらは、文書におけるズーム操作、文書ページ間の切り替え及びサムネールオーバービューのスクロール操作を可能にする。このようなインタラクティブな処理は、デスクトップアプリケーションでは許容されるが、モバイル装置（電話機やＰＤＡなど）では周辺入力装置が限られているということを考慮すると、これらの装置での文書のブラウジングには、限られた入力と小型のディスプレイによる文書ブラウジング及び閲覧のためのより良い手段が必要とされる。

カリフォルニア州ＭｅｎｌｏＰａｒｋのリコーイノベーションズは、ＳｍａｒｔＮａｉｌＴｅｃｈｎｏｌｏｇｙと呼ばれる技術を開発した。ＳｍａｒｔＮａｉｌＴｅｃｈｎｏｌｏｇｙは、与えられたディスプレイサイズの制約に適応した画像表示を生成する。ＳｍａｒｔＮａｉｌ処理は、（１）画像セグメントを特定し、それらに解像度及び重要性に関する属性を加える画像解析ステップと、（２）出力サムネイルにおける画像コンテンツを選択するレイアウト決定ステップと、（３）選択された画像セグメントのペースト、スケーリング及びクロッピングを介し最終的なＳｍａｒｔＮａｉｌ画像を生成する構成ステップの３つのステップを含むかもしれない。ＳｍａｒｔＮａｉｌ処理の出力と共にその入力は、静止画像である。これら３つのステップの実行中に処理されるすべての情報は、静的なビジュアル情報をもたらす。さらなる情報については、２００３年１月２９日に出願され、２００４年７月２９日に公開された米国特許出願第１０／３５４，８１１号（ＵＳ２００４／０１４６１９９Ａ１）「ＲｅｆｏｒｍａｔｔｉｎｇＤｏｃｕｍｅｎｔｓＵｓｉｎｇＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓＩｎｆｏｒｍａｔｉｏｎ」、及び２００３年５月９日に出願され、２００４年７月２９日に公開された米国特許出願第１０／４３５，３００号（ＵＳ２００４／０１４５５９３Ａ１）「ＲｅｓｏｌｕｔｉｏｎＳｅｎｓｉｔｉｖｅＬａｙｏｕｔｏｆＤｏｃｕｍｅｎｔＲｅｇｉｏｎｓ」を参照させたい。

一般に、ウェブページの要約を提供するウェブページ要約化が従来技術において周知である。しかしながら、ウェブページ要約化を実行する技術は、テキストに着目したものであり、通常はもとのウェブページに利用されていない新たなチャネル（音声など）を導入するものではない。米国特許第６，２４９，８０８号や以下で説明されるように、盲目の人々のためのブラウジングに音声が利用される場合が例外的にある。

Ｍａｄｅｒｌｅｃｈｎｅｒらは、まず余白や文字の高さなどの重要な文書特徴についてユーザに問い合わせ、その後、文書の関心領域を自動的にセグメント化する関心ベース文書モデルを確立するという技術を開示している。その後、ユーザが文書をより効率的にブラウズすることに資するため、当該領域がハイライトされる（例えば、当該領域をより濃く印刷し、その他の領域をより薄く印刷するなど）。さらなる情報については、Ｍａｄｅｒｌｅｃｈｎｅｒらによる「ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎｆｒｏｍＤｏｃｕｍｅｎｔＩｍａｇｅｓｕｓｉｎｇＡｔｔｅｎｔｉｏｎＢａｓｅｄＬａｙｏｕｔＳｅｇｍｅｎｔａｔｉｏｎ」（ＰｒｏｃｅｅｄｉｎｇｓｏｆＤＬＩＡ，ｐｐ．２１６−２１９，１９９９）を参照されたい。

従来技術における少なくとも１つの技術として、モバイル装置上での非インタラクティブ画像ブラウジングに対するものがある。当該技術は、画像中の顕著領域、顔領域及びテキスト領域を自動検出し、その後、当該画像上のズーム及びパン動作を利用して、閲覧者にクローズアップを自動的に提供する。当該方法は、文書画像でなく写真などの画像を表示することを目的としている。従って、当該方法は、画像ベースのものであり、画像サムネイルの音声に関するものではない。さらなる情報について、Ｗａｎｇらによる「ＭｏｂｉＰｉｃｔｕｒｅ−ＢｒｏｗｓｉｎｇＰｉｃｔｕｒｅｓｏｎＭｏｂｉｌｅＤｅｖｉｃｅｓ」（ＡＣＭＭＭ’０３，Ｂｅｒｋｅｌｅｙ，Ｎｏｖ．２００３）、及びＦａｎらによる「ＶｉｓｕａｌＡｔｔｅｎｔｉｏｎＢａｓｅｄＩｍａｇｅＢｒｏｗｓｉｎｇｏｎＭｏｂｉｌｅＤｅｖｉｃｅｓ」（ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐ．ｖｏｌ．１，ｐｐ．５３−５６、Ｂａｌｔｉｍｏｒｅ，ＭＤ，Ｊｕｌｙ２００３）を参照されたい。

従来技術による文書から音声への変換は、大部分は視覚障害者を支援することを目的としたものである。例えば、Ａｄｏｂｅは、ＰＤＦ文書を音声に合成するプラグインをＡｃｒｏｂａｔリーダに設けている。さらなる情報については、Ａｄｏｂｅのｈｔｔｐ：／／ｗｗｗ．ａｄｏｂｅ．ｃｏｍ／ｓｕｐｐｏｒｔ／ｓａｌｅｓｄｏｃｓ／１０４４６．ｈｔｍの視覚障害者のためのＰＤＦアクセスを参照されたい。視覚障害者のため文書から音声カセットを生成する方法に関するガイドラインが利用可能である。一般的なルールとして、テーブルや画像のキャプションに含まれる情報が、音声カセットに含まれる。一般に、グラフィックスは省略される。さらなる情報については、ｗｗｗ．ｍｉｕｓａ．ｏｒｇ／ｐｕｂｌｉｃａｔｉｏｎｓ／Ｈｒｔｏｏｌｂｏｘｉｎｔｒｏ．ｈｔｍの「ＨｕｍａｎＲｅｓｏｕｒｃｅｓＴｏｏｌｂｏｘ」（ＭｏｂｉｌｉｔｙＩｎｔｅｒｎａｔｉｏｎａｌＵＳＡ，２００２）を参照されたい。視覚障害のあるユーザのためのブラウザを開発する研究がなされてきた。１つの方法は、グラフィカルなＨＴＭＬ文書を非発声聴覚治療がＨＴＭＬ文書を識別する３Ｄ仮想音声空間環境に変換する。さらなる情報については、Ｒｏｔｈらによる「Ａｕｄｉｔｏｒｙｂｒｏｗｓｅｒｆｏｒｂｌｉｎｄａｎｄｖｉｓｕａｌｌｙｉｍｐａｉｒｅｄｕｓｅｒｓ」（ＣＨＩ’９９、Ｐｉｔｔｓｂｕｒｇｈ，Ｐｅｎｎｓｙｌｖａｎｉａ，Ｍａｙ１９９９）を参照されたい。聴覚障害のあるユーザのためのすべてのアプリケーションにおいて、その目的は、チャネルに対する制約を必要とせず、視覚チャネルを完全に放棄することなく、可能な限り大量の情報を音声チャネルに変換することであるように考えられる。

メッセージ変換の用いられる他の従来技術として、２００１年６月１９日に付与された米国特許第６，２４９，８０８号「ＷｉｒｅｌｅｓｓＤｅｌｉｖｅｒｙｏｆＭｅｓｓａｇｅＵｓｉｎｇＣｏｍｂｉｎａｔｉｏｎｏｆＴｅｘｔａｎｄＶｏｉｃｅ」があげられる。そこで開示されるように、ユーザが携帯装置上で音声メールを受信するため、音声メールはフォーマット化された音声メールメッセージ及びテキストメッセージに変換される。テキストに変換されるメッセージ部分は、携帯装置の利用可能な画面に表示され、その他の部分は音声として設定される。
米国特許出願第１０／３５４，８１１号米国特許出願第１０／４３５，３００号米国特許第６，２４９，８０８号「ＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎｆｒｏｍＤｏｃｕｍｅｎｔＩｍａｇｅｓｕｓｉｎｇＡｔｔｅｎｔｉｏｎＢａｓｅｄＬａｙｏｕｔＳｅｇｍｅｎｔａｔｉｏｎ」（ＰｒｏｃｅｅｄｉｎｇｓｏｆＤＬＩＡ，ｐｐ．２１６−２１９，１９９９）「ＭｏｂｉＰｉｃｔｕｒｅ−ＢｒｏｗｓｉｎｇＰｉｃｔｕｒｅｓｏｎＭｏｂｉｌｅＤｅｖｉｃｅｓ」（ＡＣＭＭＭ’０３，Ｂｅｒｋｅｌｅｙ，Ｎｏｖ．２００３）「ＶｉｓｕａｌＡｔｔｅｎｔｉｏｎＢａｓｅｄＩｍａｇｅＢｒｏｗｓｉｎｇｏｎＭｏｂｉｌｅＤｅｖｉｃｅｓ」（ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭｕｌｔｉｍｅｄｉａａｎｄＥｘｐ．ｖｏｌ．１，ｐｐ．５３−５６、Ｂａｌｔｉｍｏｒｅ，ＭＤ，Ｊｕｌｙ２００３）「Ａｕｄｉｔｏｒｙｂｒｏｗｓｅｒｆｏｒｂｌｉｎｄａｎｄｖｉｓｕａｌｌｙｉｍｐａｉｒｅｄｕｓｅｒｓ」（ＣＨＩ’９９、Ｐｉｔｔｓｂｕｒｇｈ，Ｐｅｎｎｓｙｌｖａｎｉａ，Ｍａｙ１９９９）

本発明は、上記問題点に鑑み、文書におけるビジュアル情報及び音声化可能情報を効果的に処理する方法、装置及びプログラムを提供することである。

上記課題を解決するため、本発明は、文書に関する文書情報を特定するステップと、前記文書情報を１以上の制限された時間ベースメディアチャネルに変換するステップとから構成されることを特徴とする方法に関する。

また、本発明は、文書に関する文書情報を特定する手段と、前記文書情報を１以上の制限された時間ベースメディアチャネルに変換する手段とから構成されることを特徴とする装置に関する。

さらに、本発明は、文書に関する文書情報を特定するステップと、前記文書情報を１以上の制限された時間ベースメディアチャネルに変換するステップとをコンピュータに実行させることを特徴とするプログラムに関する。

また、本発明は、文書におけるビジュアル情報を特定するステップと、前記文書から音声に変換可能な音声化可能情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップとから構成されることを特徴とする方法に関する。

さらに、本発明は、文書におけるビジュアル情報を特定し、前記文書から音声に変換可能な音声化可能情報を特定する解析装置と、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択する選択装置と、前記選択されたビジュアル情報部分と同期された前記選択された音声化可能情報に基づく音声により、前記マルチメディア表現を編集する合成装置とから構成されることを特徴とする装置に関する。

さらに、本発明は、文書におけるビジュアル情報を特定するステップと、前記文書から音声に変換可能な音声化可能情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップとをコンピュータに実行させることを特徴とするプログラムに関する。

また、本発明は、文書に対し少なくとも１つの描画処理を実行するステップと、文書画像におけるビジュアル情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、前記少なくとも１つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップとから構成されることを特徴とする方法に関する。

さらに、本発明は、文書に対し少なくとも１つの描画処理を実行する手段と、文書画像におけるビジュアル情報を特定する手段と、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択する手段と、前記少なくとも１つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示する手段とから構成されることを特徴とする装置に関する。

また、本発明は、文書に対し少なくとも１つの描画処理を実行するステップと、文書画像におけるビジュアル情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、前記少なくとも１つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップとをコンピュータに実行させることを特徴とするプログラムに関する。

本発明によると、文書におけるビジュアル情報及び音声化可能情報を効果的に処理する方法、装置及びプログラムを提供することを提供することができる。

ここでは、マルチメディアサムネイル（ＭＭＮａｉｌ）と呼ばれる文書マルチメディア概観を生成する方法及び装置が、説明される。一実施例では、ＭＭＮａｉｌは、文書の最も重要なビジュアル及び音声化可能要素（キーワードなど）を含み、これらの要素を空間領域と時間サイズの両方に関して当該要素を提供する。ＭＭＮａｉｌは、出力装置により与えられる制約（ディスプレイサイズ、限定的な画像レンダリング能力など）またはアプリケーションに対する制約（音声を再生する限定的な時間など）を考慮し、情報を解析、選択及び合成することにより得られる。

一実施例では、マルチメディア概観生成プロセスは、静止画像文書（画像及び音声）からマルチメディア情報を抽出し、ビジュアル及び音声化可能情報セグメントに重要度及び時間属性を割当て、装置及びアプリケーション制約が与えられると、画像及び音声チャネルに対しマルチメディア情報を最適化することからなる。従って、ＭＭＮａｉｌは両方のチャネルを利用する。装置またはユーザ選好に応じて、これらの２つのチャネルの１つが他方に対し選好されるかもしれない。この結果、ＭＭＮａｉｌは、装置の画像チャネルと音声チャネルの双方を用いて、限られたディスプレイ及びタイムフレームに文書の概観を提示し、ユーザにより必要とされるやりとりを減少及び潜在的に最小化する。従来技術によるアプローチと対照的に、もとの文書はマルチメディアコンテンツが添付されていない静止画像であるかもしれない。

以下の説明では、コンポーネント間の距離やモデリングタイプなどの多数の詳細が与えられる。しかしながら、本発明がこれらの具体的詳細なく実現可能であるということは、当業者には明らかであろう。他の例では、周知の構造及び装置は、本発明を不明瞭にすることを避けるため、詳細にではなくブロック図により示される。

以下の詳細な説明の一部は、コンピュータメモリ内部のデータビットに対する処理のアルゴリズム及び記号表現に関して与えられる。これらのアルゴリズム的な記述及び表現は、他の当業者に成果の本質を最も効果的に伝えるのにデータ処理分野の当業者により利用される手段である。ここではまた一般的に、アルゴリズムは、所望の結果を導く整合性あるステップシーケンスと考えられる。これらのステップは、物理量の物理的操作を要するものである。必須ではないが通常は、当該物理量は、格納、転送、合成、比較及び処理が可能な電気または磁気信号の形態をとる。これらの物理量は、格納、転送、合成、比較及び操作可能な電気または磁気信号の形式をとる。これらの信号をビット、値、要素、記号、文字、項、数などと呼ぶことは便利である。

しかしながら、上記及び類似の用語のすべてが適切な物理量と関連付けされ、それらは当該物理量に適用された単なる便宜上のラベルであるということに留意すべきである。以下の説明から明らかなように、特に述べられない場合、本説明を通じて「処理」、「計算」、「決定」、「表示」などの用語を利用した説明は、コンピュータシステムあるいはコンピュータシステムのレジスタ及びメモリ内の物理（電子）量として表されるデータをレジスタ、メモリあるいは他の情報記憶、送信または表示装置内の物理量として同様に表された他のデータに処理及び変換する同様の電子計算装置のアクション及びプロセスを表す。

本発明はまた、上記処理を実行する装置に関する。本装置は、求められる目的に特化して構成されてもよいし、あるいはコンピュータに格納されているコンピュータプログラムにより選択的に起動または再構成された汎用コンピュータから構成されてもよい。このようなコンピュータプログラムは、以下に限定されるものではないが、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、光磁気ディスクを含む任意のタイプのディスク、読出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気または光カード、電子命令を格納するのに適した任意のタイプのメディアなどのコンピュータ読出し可能な記憶媒体に格納されていてもよく、その各々がコンピュータシステムバスにより接続されている。

ここで与えられるアルゴリズム及びディスプレイは、特定のコンピュータまたは他の装置に固有に関連するものではない。各種汎用システムが、ここでの教示に従ってプログラムにより利用されてもよく、あるいは、求められる方法ステップを実行するためより特殊な装置を構成するのに便利であることがわかっている。これら各種システムに求められる構成が、以下の説明から明らかとなるであろう。さらに、本発明は特定のプログラミング言語を参照して説明はされない。様々なプログラミング言語が、ここで説明されるような本発明の教示を実現するのに利用されてもよいということは理解されるであろう。

機械可読媒体は、機械（コンピュータなど）により可読な形式により情報を格納または送信するための任意の機構を含む。例えば、機械可読媒体は、読出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、電気、光、音響または他の形式の伝搬信号（搬送波、赤外線信号、デジタル信号など）を含む。

概観
図１は、文書のマルチメディア概観を生成するプロセスの一実施例のフローチャートである。当該プロセスは、ハードウェア（回路、専用論理など）、ソフトウェア（汎用コンピュータシステムや専用マシーン上で実行されるものなど）、あるいはこれらの組み合わせから構成される処理論理により実行される。

図１を参照するに、文書の電子バージョン（必ずしも画像または音声データを含む必要はない）及びそれのメタデータを用いて、本プロセスは、処理論理が文書及び／またはそれのメタデータを前処理し、ビジュアルフォーカスポイント（ＶＦＰ）及び重要な音声化可能文書情報（ＡＤＩ）を決定することにより開始される（処理ブロック１０１）。

装置及びアプリケーションの制約（ディスプレイサイズや時間制約など）と共にＶＦＰ及びＡＤＩが与えられると、マルチメディア処理論理は、出力表示（マルチメディアサヌネイルなど）に含めるビジュアル情報及び／または音声化可能情報を選択する（処理ブロック１０２）。一実施例では、この選択は、選好されたビジュアル情報及び音声化可能情報を出力表示に含めるため最適化される。ここで、選好される情報は、重要情報を文書、ユーザにより選好される重要なビジュアル情報（図など）、重要な意味情報（タイトルなど）、キーとなるパラグラフ（意味解析の出力）、文書コンテクストに含めるようにしてもよい。重要情報は、文書の解像度の影響を受け易いエリアを含むものであってもよい。

選択後、処理論理は、マルチメディアサムネイルを生成するため、当該情報を画像データ（画像チャネルまたは表現用）及び／または音声データ（音声チャネルまたは表現用）に合成する（処理ブロック１０３）。従ってこれに関して、サムネイルは、文書からの題材が視覚的及び聴覚的に提供される表現を表すものであってもよい。

図２は、文書のマルチメディア概観を生成する処理コンポーネントの他の実施例のフローチャートである。一実施例では、各モジュールは、ハードウェア（回路、専用論理など）、ソフトウェア（汎用コンピュータシステムや専用マシーン上で実行されるものなど）、あるいはこれらの組み合わせから構成される。

図２を参照するに、解析装置２０３は、文書２０１及びメタデータ２０２を受け取る。メタデータ２０２は、作成者情報及び作成データ、テキスト（例えば、テキストがメタデータであり、文書画像と重ねられたｐｄｆファイル形式など）、音声または映像ストリーム、ＵＲＬ、公開名、日付、場所、アクセス情報、暗号化情報、画像スキャン解像度、ＭＰＥＧ−７記述子などを含むものであってもよい。これらの入力に応答して、解析装置２０３は、当該入力に対し前処理を行い、文書における音声化可能情報を示す情報と共に、文書１０１における１以上のビジュアルフォーカスポイントを示す出力情報を生成する、この音声化可能情報は、文書２０１及び／またはメタデータ２０２において重要な情報であってもよい。

一実施例では、解析装置２０３は、文書前処理ユニット２０３Ａ、メタデータ前処理ユニット２０３Ｂ、ビジュアルフォーカスポイント識別子２０３Ｃ及び重要音声化可能文書情報識別子２０３Ｄから構成される。一実施例では、文書前処理ユニット２０３Ａは、アプリケーションに応じて実行される、光学文字認識（ＯＣＲ）、レイアウト解析及び抽出、ＪＰＥＧ２０００圧縮及びヘッダ抽出、文書フロー解析、フォント抽出、顔検出及び認識、グラフィックス抽出及び音符認識の１以上を実行する。一実施例では、文書前処理ユニット２０３Ａは、文字に対するレイアウト解析を実行するＥｘｐｅｒｖｉｓｉｏｎのＯＣＲソフトウェアを備え、画成ボックスとフォントサイズやタイプなどの関連属性を生成する。他の実施例では、テキスト領域の画成ボックスと関連属性は、ＳｃａｎＳｏｆｔソフトウェアを用いて生成される。他の実施例では、タイトル、ヘッダ、フッタ、図のキャプションなどの意味属性を決定するため、Ａｉｅｌｌｏ，Ｍ．、Ｍｏｎｚ，Ｃ．、Ｔｏｄｏｒａｎ，Ｌ．、Ｗｏｒｒｉｎｇ，Ｍ．らによる「ＤｏｃｕｍｅｎｔＵｎｄｅｒｓｔａｄｉｎｇｆｏｒａＢｒｏａｄＣｌａｓｓｏｆＤｏｃｕｍｅｎｔｓ」（ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＤｏｃｕｍｅｎｔＡｎａｌｙｓｉｓａｎｄＲｅｃｏｇｎｉｔｉｏｎ（ＩＪＤＡＲ），ｖｏｌ．５（１），ｐｐ．１−１６，２００２）に記載される方法により、テキスト領域の意味解析が実行される。

メタデータ前処理ユニット２０３Ｂは、構文解析及びコンテンツ収集を実行する。例えば、一実施例では、メタデータとして作成者の氏名が与えられると、メタデータ前処理ユニット２０３Ｂは、ワールド・ワイド・ウェブ（ＷＷＷ）（以降においてＭＭＮａｉｌに含まれうる）から作成者の画像を抽出する。一実施例では、メタデータ前処理ユニット２０３Ｂは、ＸＭＬ構文解析を実行する。

前処理後、ビジュアルフォーカスポイント識別子２０３Ｃはビジュアルフォーカスセグメントを決定および抽出し、重要音声文書情報識別子１０３Ｄは重要音声データを決定及び抽出する。

一実施例では、ビジュアルフォーカスポイント識別子２０３Ｃは、前処理ユニット２０３ＡからのＯＣＲ及びレイアウト結果及び／または前処理ユニット２０３ＢからのＸＭＬ構文解析結果に基づき、ビジュアルフォーカスポイントを特定する。

一実施例では、ビジュアルフォーカスポイント識別子２０３Ｃは、テキスト領域及び関連属性（重要度及び解像度属性など）を特定するため、２００３年５月９日に出願され、２００４年７月２９日に公開された米国特許出願第１０／４３５，３００号（公開番号ＵＳ２００４／０１４５５９３Ａ１）「ＲｅｓｏｌｕｔｉｏｎＳｅｎｓｉｔｉｖｅＬａｙｏｕｔｏｆＤｏｃｕｍｅｎｔＲｅｇｉｏｎｓ」に記載される解析技術を実行する。テキスト領域は、セグメントして解釈されるタイトル及びキャプションを含むかもしれない。一実施例では、ビジュアルフォーカスポイント識別子２０３Ｃは、タイトルと図を決定する。一実施例では、図はセグメント化される。

一実施例では、音声化可能文書情報識別子２０３Ｄは、前処理ユニット２０３ＡからのＯＣＲ及びレイアウト解析結果及び／または前処理ユニット２０３ＢからのＸＭＬ構文解析結果に応じて音声化可能情報を特定する。

ビジュアルフォーカスポイントのセグメントの例として、図、タイトル、大きなフォントのテキスト、人間のいる写真などがあげられる。これらのビジュアルフォーカスポイントは、アプリケーションに依存したものであることに留意されたい。また、解像度や顕著性属性などの属性が、当該データに関連付けされる。解像度はメタデータとして指定されてもよい。一実施例では、これらのビジュアルフォーカスセグメントは、２００３年５月９日に出願され、２００４年７月２９日に公開された米国特許出願第１０／４３５，３００号（公開番号ＵＳ２００４／０１４５５９３Ａ１）「ＲｅｓｏｌｕｔｉｏｎＳｅｎｓｉｔｉｖｅＬａｙｏｕｔｏｆＤｏｃｕｍｅｎｔＲｅｇｉｏｎｓ」に示されるものと同様に決定される。他の実施例では、ビジュアルフォーカスセグメントは、ＬｅＭｅｕｒ，Ｏ．、ＬｅＣａｌｌｅｔ，Ｐ．、Ｂａｒｂａ，Ｄ．、Ｔｈｏｒｅａｕ，Ｄ．らによる「Ｐｅｒｆｏｒｍａｎｃｅａｓｓｅｓｓｍｅｎｔｏｆａｖｉｓｕａｌａｔｔｅｎｔｉｏｎｓｙｓｔｅｍｅｎｔｉｒｅｌｙｂａｓｅｄｏｎａｈｕｍａｎｖｉｓｉｏｎｍｏｄｅｌｉｎｇ」（ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＣＩＰ２００４，Ｓｉｎｇａｐｏｒｅ，ｐｐ．２３２７−２３３０，２００４）に記載されるものと同様にして決定される。顕著性は、画像セグメントのタイプに依存するかもしれない（例えば、大きなフォントのテキストは、アプリケーションに応じて、小さなフォントのテキストより重要であるかもしれないし、あるいはその反対であるかもしれない）。これらのセグメントの重要度は、ＭＭＮａｉｌ生成前に各アプリケーションに対し経験的に決定されてもよい。例えば、経験的な研究により、図中の顔や小さなテキストが、ユーザが文書のスキャンクオリティを評価するアプリケーションにおいて最重要の画像ポイントであることが判明するかもしれない。顕著なポイントはまた、従来技術による文書画像解析技術の１つを用いて検出可能である。

音声化可能情報の例として、タイトル、図のキャプション、キーワードや構文解析されたメタデータがあげられる。重要度（顕著性）及び時間（発生のための合成後の時間）属性などの属性がまた、音声化可能情報に付属される。音声セグメントの重要性は、それのタイプに依存するものであってもよい。例えば、経験的な研究により、文書タイトル及び図のキャプションが、「文書サマリアプリケーション」にとって文書における最重要の音声化可能情報であることが示されるかもしれない。

クロス解析を用いて、ＶＦＰ及びＡＤＩの一部の属性が割当て可能である。例えば、図の時間属性（ＶＦＰ）が、図のキャプションの時間属性（ＡＤＩ）と同一のものとして割当て可能である。

一実施例では、音声化可能文書情報識別子２０３Ｄは、Ｍａｔｓｕｏ，Ｙ．、Ｉｓｈｉｚｕｋａ，Ｍ．らによる「ＫｅｙｗｏｒｄＥｘｔｒａｃｔｉｏｎｆｒｏｍａＳｉｎｇｌｅＤｏｃｕｍｅｎｔｕｓｉｎｇＷｏｒｄＣｏ−ｏｃｃｕｒｒｅｎｃｅＳｔａｔｉｓｔｉｃａｌＩｎｆｏｒｍａｔｉｏｎ」（ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅＴｏｏｌｓ，ｖｏｌ．１３，ｎｏ．１，ｐｐ．１５７−１６９，２００４）、Ｆｕｋｕｍｏｔｏ，Ｆ．、Ｓｕｚｕｋｉ，Ｙ．、Ｆｕｋｕｍｏｔｏ，Ｊ．らによる「ＡｎＡｕｔｏｍａｔｉｃＥｘｔｒａｃｔｉｏｎｏｆＫｅｙＰａｒａｇｒａｐｈｓＢａｓｅｄｏｎＣｏｎｔｅｘｔＤｅｐｅｎｄｅｎｃｙ」（ＰｒｏｃｅｅｄｉｎｇｓｏｆＦｉｆｔｈＣｏｎｆｅｒｅｎｃｅｏｎＡｐｐｌｉｅｄＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｐｐ．２９１−２９８，１９９７）などに示されるように、周波数に基づきキーワードを自動決定するため、ＴＦＩＤＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ−ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）解析を実行する。各キーワードに対し、音声化可能文書情報識別子２０３Ｄは、合成装置が当該キーワードを発声するのにかかる時間としての時間属性を計算する。一実施例では、当該時間は、発声合成定数ＳＳＣと文字数を掛け合わせることにより計算される。各単語の音声時間を計算する代わりに、文字数と掛け合わされた定数ＳＳＣを有することにより、当該時間の近似を得ることができる。ＳＳＣは、Ｃ_ｎの文字数を有するテストテキスト文書を合成装置に与え、合成された音声を再生するのに要する時間Ｔ_{ａｕｄｉｏ}を測定し、当該時間を文字数で割ることにより、すなわち、ＳＳＣ＝Ｔ_{ａｕｄｉｏ}／Ｃ_ｎとすることにより求めるようにしてもよい。ＳＳＣ定数は、言語の選択、使用される合成装置及び合成装置オプション（女性または男性による音声、アクセントタイプ、発話スピードなど）に応じて変更されてもよい。

同様に、音声化可能文書情報識別子２０３Ｄは、タイトル、ヘッダ、図のキャプチャなどの選択されたテキスト領域に対する時間属性を計算する。各時間属性は、それの対応するセグメントと相関される。例えば、図のキャプションの時間属性はまた、対応する図のセグメントと相関される。一実施例では、各音声化可能情報セグメントはまた、画像重要度（フォントサイズ及びページ上の位置に基づく）、テキスト領域の場合には読取り順序、キーワードの場合には出現頻度、あるいは図及び関連する図のキャプションの画像重要度属性を反映する重要度属性を有する。一実施例では、重要度属性は、２００３年５月９日に出願され、２００４年７月２９日に公開された米国特許出願第１０／４３５，３００号（公開番号ＵＳ２００４／０１４５５９３Ａ１）「ＲｅｓｏｌｕｔｉｏｎＳｅｎｓｉｔｉｖｅＬａｙｏｕｔｏｆＤｏｃｕｍｅｎｔＲｅｇｉｏｎｓ」に開示されるものと同様にして計算される。

ビジュアルフォーカスセグメント及び重要音声化可能情報が、最適化装置２０４に出力される。

最適化装置２０４は、画像及び音声文書情報の特徴、装置特徴または１以上の制約（ディスプレイサイズ、利用可能なタイムスパン、ユーザ設定選好、装置の電力容量など）を含む出力を解析装置２０３から受け取り、装置の制約に適合し、利用可能な出力画像及び音声チャネルを介し送信可能な情報容量を用いた画像と音声化可能情報の組み合わせを計算する。このようにして、最適化装置２０４は、セレクタまたは選択機構として機能する。

一実施例では、解析装置２０３からの画像及び音声化可能情報セグメントと、出力装置のディスプレイサイズや最終的なマルチメディアサムネイルの期間であるタイムスパンＬなどの他の入力に応答して、最適化装置２０４は、最適化アルゴリズムを実行する。一実施例では、表示解像度及びマルチメディアサムネイルの長さＬが与えられると、以下の擬似コードが最適化装置２０４により適用される。

最適化アルゴリズムの主なる機能は、まず各ページが利用可能なタイムスパン中に０．５秒間ディスプレイに表示される場合、ユーザに表示可能なページ数を決定することである。タイムスパンＬからの時間が各ページの表示後に十分残されている場合、最適化装置２０４は、文書のタイトルにズームする時間を割当てる。ビジュアル情報チャネルが当該時間中に完全に占有されている場合、情報の送信のための唯一の他の選択はキーワードの合成された発声による利用される音声チャネルである。キーワードを「読む」タイムスパンが限られている場合、キーワードの重要度に従って、すなわち、重要度に関してキーワードリストをソートし、キーワードの時間属性に適用される線形パッケージ／充填処理順序アプローチを介し１次元のタイムスパンインターバルの充填を最適化することにより、１以上のキーワードの後のカットオフを計算することにより、キーワードリストの選択が実行される。

ページ及びタイトルズーム処理を介しページがめくられた後に時間が残っている場合、最適化装置２０４は、残りの利用可能な時間を充填するため。それらの時間属性（それらのキャプションが発声されるよう合成される期間）に基づき、図のキャプションをソートする。

一実施例では、最適化装置２０４は、その後にマルチメディアサムネイルに含まれる図を選択するため、ソートされた時間属性に当該技術分野において周知な方法により線形パッケージ／充填順序アプローチを適用する。静止画像の保持が、文書の選択された図に適用される。画像保持による画像チャネルの占有中、当該キャプションが音声チャネルにおいて「発声」される。最適化後、最適化装置２０４は、読取り順序に関して選択された画像及び音声セグメントを再順序付けする。

他の最適化装置が、制限されたサイズの画像表示及びタイムスパンＬにおける結合され通信された情報を最大化するのに利用されてもよい。

合成装置２０５は、最終的なマルチメディアサムネイルを構成する。一実施例では、合成装置２０５は、最適化装置２０４において決定された選択されたマルチメディア処理ステップを実行することにより、最終的なマルチメディアサムネイルを構成する。一実施例では、合成装置２０５は、処理ステップのリストを有するプレーンテキストまたはＸＭＬファイルなどのファイルを受け取る。他の実施例では、処理ステップのリストは、２つのソフトウェアモジュール間のｃｏｍオブジェクト通信またはソケット通信を介するなどの他の手段によって、合成装置２０５に送信されてもよい。さらなる他の実施例では、処理ステップのリストは、双方のモジュールが同一のソフトウェアにある場合、関数パラメータとしてわたされる。マルチメディア処理ステップは、「従来の」画像処理ステップのクロップ、スケール及びペーストを含むものであってもよく、また、ページめくり、パン、ズーム、発声及び音楽合成などの時間要素を含むものであってもよい。

一実施例では、合成装置２０５は、画像合成装置２０５Ａ、音声合成装置２０５Ｂ及び合成／編集装置２０５Ｃから構成される。合成装置２０５は、画像合成装置２０５Ａを用いて選択されたビジュアル情報を画像及び画像シーケンスに合成し、音声合成装置２０５Ｂを用いて音声化可能情報を発声に合成し、合成／編集装置２０５Ｃを用いて上記２つの出力（音声及び画像）を合成し、マルチメディアサムネイル２２０を編集する。一実施例では、画像シーケンス（音声なし）を含む画像構成に対して、ズームやページめくりなどがＡｄｏｂｅＡｆｔｅｒＥｆｆｅｃｔｓを用いて実行され、合成／編集装置２０５ＣはＡｄｏｂｅＰｒｅｍｉｅｒを利用する。一実施例では、音声合成装置２０５Ｂは、ＣＭＵ発声合成ソフトウェア（ＦｅｓｔＶｏｘ「ｈｔｔｐ：／／ｆｅｓｔｖｏｘ．ｏｒｇ／ｖｏｉｃｅｄｅｍｏｓ．ｈｔｍｌ」）を用いて、音声化可能情報に対する音声を生成する。

一実施例では、合成装置２０５は、合成／編集装置２０５Ｃを備えない。そのような場合、合成装置２０５の出力は、音声と画像のそれぞれに対する２つの独立したストリームとして出力されてもよい。

合成／編集装置２０５Ｃの出力は、１つのファイルに合成され、独立した音声チャネルと映像チャネルとしてもよい。

図３は、文書を処理するためのプロセスの他の実施例のフローチャートである。図３のプロセスは、ハードウェア（回路、専用論理など）、ソフトウェア（汎用コンピュータシステムや専用マシーン上で実行されるものなど）、あるいはこれらの組み合わせから構成される処理論理により実行される。図３を参照するに、当該処理は、処理論理が文書（ビジュアル情報、音声化可能情報、意味情報など）に関連する文書情報を特定することにより開始される（処理ブロック３０１）。文書情報を特定した後、処理論理は文書情報を１以上の制約付きのタイムベースメディアチャネルに対する情報に変換する（処理ブロック３０２）。一実施例では、これらのメディアチャネルは、画像チャネル、音声チャネルあるいはこれらの組み合わせであってもよい。

アプリケーション
ここで説明される技術は、潜在的にはいくつかのアプリケーションに有用であるかもしれない。例えば、当該技術は、モバイル装置や複合機（ＭＦＰ）などの装置の文書ブラウジングに利用可能であるかもしれない。

例えば、モバイル装置上でインタラクティブな文書ブラウジングを実行すると、当該文書ブラウジングは、例えば、ズーム及びスクロールの代わりに再生、一時停止、早送り、スピードアップやスピードダウンを含むように再規定することが可能である。

他のモバイル装置アプリケーションでは、モバイル装置上での文書閲覧実行時に、ここで与えられる技術を用いて、文書の概観だけでなくそのコンテンツも理解できるように、より長いＭＭＮａｉｌ（例えば、１５分など）を利用することが可能となる。このアプリケーションは、限定的な描画能力しか備えていない音声能力が優先される携帯電話器などの装置に適しているかもしれない。モバイル装置による文書のブラウジング及び閲覧後、一実施例では、モバイル装置は、当該装置に文書に対する他の機能を実行させるため、他の場所の装置（ＭＦＰなど）に送信する。

あるＭＦＰアプリケーションでは、ここで説明される技術は、文書概観に利用可能であるかもしれない。例えば、ユーザがＭＦＰにおいて文書をコピーしているとき、ページがスキャンされるごとに、自動計算された文書概観がユーザに表示され、文書コンテンツを理解することを容易にするかもしれない。

ＭＦＰ内の文書画像のエンハンスメントを実行する画像処理アルゴリズムは、スキャン解像度と干渉する特徴による低コントラスト、小さなフォント、ハーフトーンスクリーンなどの品質が問題となる領域を検出するようにしてもよい。ユーザがスキャンされた文書の品質（すなわち、スキャンクオリティ）を評価し、より高いコントラストや解像度などの異なる設定を示すため、ＭＭＮａｉｌがコピー機のディスプレイ（おそらく音声なし）上に表示されるようにしてもよい。

図４は、文書処理を実行するためのプロセスの一実施例のフローチャートである。当該プロセスは、ハードウェア（回路、専用論理など）、ソフトウェア（汎用コンピュータシステムや専用マシーン上で実行されるものなど）、あるいはこれらの組み合わせから構成される処理論理により実行される。図４を参照するに、本プロセスは、処理論理が文書に対し少なくとも１つの描画処理（スキャン処理など）を実行することにより開始される。描画処理実行後、処理論理は、文書画像内のビジュアル情報を特定する。一実施例では、処理論理は、クオリティが問題となる領域を検出することにより、ビジュアル情報を特定する。クオリティが問題となる領域は、例えば、スキャン解像度と干渉する低コントラスト、小さなフォント及びハーフトーンスクリーン特性を有する領域を含むかもしれない。他の実施例では、処理論理は、画像の解像度の影響を受ける部分を特定することにより、文書内のビジュアル情報を特定する。

ビジュアル情報特定後、処理論理は、文書のマルチメディア表現に組み込むためのビジュアル情報の一部を選択する（処理ブロック４０３）。一実施例では、処理論理が画像の解像度の影響を受ける部分を特定する場合、処理論理は当該部分をズームイン、パンまたはティルト処理にすることにより選択する。

部分選択後、処理論理は、描画処理の結果を表示するため、ディスプレイ上にマルチメディア表現を表示する（処理ブロック４０４）。一実施例では、マルチメディア表現の表示後、処理論理は、描画処理のアプリケーションを変更する入力を受け取る。

翻訳アプリケーションでは、音声チャネルの言語がユーザにより選択可能であり、音声化可能情報が選択された言語により提供されるかもしれない。この場合、最適化装置は、音声の長さが異なるため、異なる言語に対し異なって機能する。すなわち、最適化装置の結果は言語に依存する。一実施例では、画像文書テキストが変更される。画像文書部分は、異なる言語により再提供することが可能である。

一実施例では、ＭＭＮａｉｌ最適化は、ユーザにより提供されるやりとりに基づき計算される。例えば、ユーザが音声チャネルを閉じている場合、他のビジュアル情報がこの情報チャネルのロスに対応するため異なる画像表現を導出するようにしてもよい。他の例では、ユーザが画像チャネルをスローダウンする場合（例えば、車の運転中に）、音声チャネルを介し送信される情報は変更されてもよい。また、ズームやパンなどのアニメーション効果が、閲覧装置の計算力の制約に基づき利用可能とされてもよい。

一実施例では、障害者が文書情報を認知するのを助けるため、ＭＭＮａｉｌが利用される。例えば、視覚障害者は音声化可能情報の形式により小さなテキストを取得することを所望するかもしれない。他の例では、色盲の人々は、文書の色に関する情報を音声チャネルの音声化可能情報として利用可能となることを所望するかもしれない。

一例となるコンピュータシステム
図５は、ここで説明される処理の１以上を実行可能な一例となるコンピュータシステムのブロック図である。図５を参照するに、コンピュータシステム５００は、一例となるクライアントまたはサーバコンピュータシステムから構成される。コンピュータシステム５００は、情報を通信するための通信機構またはバス５１１と、情報を処理するためバス５１１に接続されたプロセッサ５１２とから構成される。プロセッサ５１２は、これに限定されるものではないが、Ｐｅｎｔｉｕｍ（登録商標）プロセッサなどのマイクロプロセッサを有する。

システム５００はさらに、プロセッサ５１２により実行される情報及び命令を格納するためバス５１１に接続されたＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）または他のダイナミック記憶装置（メインメモリと呼ぶ）５０４を有する。メインメモリ５０４はまた、プロセッサ５１２による命令の実行中に一時的変数または他の中間情報を格納するのに利用可能である。

コンピュータシステム５００はまた、プロセッサ５１２に対する静的情報及び命令を格納するためバス５１１に接続されたＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）及び／または他の静的記憶装置５０６と、磁気ディスク、光ディスク、それの対応するディスクドライブなどのデータ記憶装置５０７とを有する。データ記憶装置５０７は、情報及び命令を格納するためバス５１１に接続されている。

コンピュータシステム５００はさらに、コンピュータユーザに情報を表示するためバス５１１に接続されたＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）やＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示装置５２１に接続されてもよい。英数字及び他のキーを含む英数字入力装置５２２が、情報及びコマンド選択をプロセッサ５１２に通信するためバス５１１に接続されてもよい。追加的なユーザ入力装置として、向き情報及びコマンド選択をプロセッサ５１２に通信すると共に、ディスプレイ５２１上のカーソルの動きを制御するためバス５１１に接続された、マウス、トラックボール、トラックパッド、スタイラス、カーソル方向キーなどのカーソル制御５２３がある。

バス５１１に接続可能な他の装置として、用紙、フィルム、他の同様のタイプの媒体などの媒体に命令、データまたは他の情報を印刷するのに利用されるハードコピー装置５２４がある。さらに、スピーカーやマイクロフォンなどの音声記録再生装置が、コンピュータシステム５００との音声インタフェースをとるため、任意的にバス５１１に接続されてもよい。バス５１１に接続可能な他の装置として、電話や携帯型装置と通信する有線または無線通信機能がある。

ここで、システム５００の何れかまたはすべてのコンポーネント及び関連するハードウェアが利用可能であるということに留意されたい。しかしながら、コンピュータシステムの他の構成は上記装置の一部またはすべてを備えることが可能であるということは理解されるであろう。

２００３年５月９日に出願され、２００４年７月２９日に公開された米国特許出願第１０／４３５，３００号（ＵＳ２００４／０１４５５９３Ａ１）「ＲｅｓｏｌｕｔｉｏｎＳｅｎｓｉｔｉｖｅＬａｙｏｕｔｏｆＤｏｃｕｍｅｎｔＲｅｇｉｏｎｓ」では、文書を再フォーマット化する方法及び装置が開示されている。当該方法は、複数の属性を有する複数の画像セグメントを選択し、該複数の属性により複数の画像セグメントに対し実行対象となる複数の位置及び複数の幾何学的処理を決定することから構成される。

本発明の多数の変更及び改良が上記説明を読んだ後、当業者には明らかとなるであろうが、図示及び説明された実施例は本発明を限定するものとして解釈されるべきではない。各種実施例の詳細は、本発明の要部としてみなされる特徴のみを記載した請求項の範囲を限定するものではない。

図１は、文書のマルチメディア概観を生成するためのプロセスの一実施例のフローチャートである。図２は、文書のマルチメディア概観を生成するための処理コンポーネントの他の実施例のフローチャートである。図３は、文書を処理するためのプロセスの他の実施例のフローチャートである。図４は、１以上の描画処理の結果を参照することを可能にする文書処理を実行するためのプロセスの一実施例のフローチャートである。図５は、コンピュータシステムの一実施例のブロック図である。

符号の説明

２０１文書
２０２メタデータ
２０３解析装置
２０３Ａ文書前処理ユニット
２０３Ｂメタデータ前処理ユニット
２０３Ｃビジュアルフォーカスポイント識別子
２０３Ｄ重要音声化可能文書情報識別子
２０４最適化装置
２０５合成装置
２０５Ａ画像合成装置
２０５Ｂ音声合成装置
２０５Ｃ合成／編集装置
５００コンピュータシステム
５０４メインメモリ
５０６静的メモリ
５０７大容量ストレージ装置
５１１バス
５１２プロセッサ
５２１ディスプレイ
５２２キーボード
５２３カーソル制御装置
５２４ハードコピー装置
５２５無線／通信インタフェース

Claims

文書に関する文書情報を特定するステップと、
前記文書情報を１以上の制限された時間ベースメディアチャネルに変換するステップと、
から構成されることを特徴とする方法。
請求項１記載の方法であって、
前記文書情報を特定するステップは、前記文書の意味情報を特定することを特徴とする方法。
請求項２記載の方法であって、
前記文書の意味情報は、前記文書の概要、タイトル、図、図のキャプション、作成者名、キーパラグラフ、キーセンテンス、キーワード、サブタイトル及びリファレンスから構成されることを特徴とする方法。
文書に関する文書情報を特定する手段と、
前記文書情報を１以上の制限された時間ベースメディアチャネルに変換する手段と、
から構成されることを特徴とする装置。
請求項４記載の装置であって、
前記文書情報を特定する手段は、前記文書の意味情報を特定することを特徴とする装置。
請求項５記載の装置であって、
前記文書の意味情報は、前記文書の概要、タイトル、図、図のキャプション、作成者名、キーパラグラフ、キーセンテンス、キーワード、サブタイトル及びリファレンスから構成されることを特徴とする装置。
文書に関する文書情報を特定するステップと、
前記文書情報を１以上の制限された時間ベースメディアチャネルに変換するステップと、
をコンピュータに実行させることを特徴とするプログラム。
文書におけるビジュアル情報を特定するステップと、
前記文書から音声に変換可能な音声化可能情報を特定するステップと、
前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、
前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップと、
から構成されることを特徴とする方法。
請求項８記載の方法であって、さらに、
前記マルチメディア表現の一部として前記選択されたビジュアル情報及び音声化可能情報部分に関する時間属性に基づき、前記音声を同期させるステップを有することを特徴とする方法。
請求項８記載の方法であって、
前記ビジュアル情報及び音声化可能情報部分を選択するステップは、
各ページが所定時間表示されると、あるタイムスパン中に表示すべき前記文書のページ数を決定するステップと、
前記タイムスパンに、タイトル及びキーワードの少なくとも１つを表示するのに十分な時間があるか決定するステップと、
発声用に合成すべき前記文書の音声化可能情報を選択するステップと、
から構成されることを特徴とする方法。
文書におけるビジュアル情報を特定し、前記文書から音声に変換可能な音声化可能情報を特定する解析装置と、
前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択する選択装置と、
前記選択されたビジュアル情報部分と同期された前記選択された音声化可能情報に基づく音声により、前記マルチメディア表現を編集する合成装置と、
から構成されることを特徴とする装置。
請求項１１記載の装置であって、
前記解析装置は、
前記文書におけるビジュアル情報を特定するビジュアル情報識別子と、
前記文書から音声化可能情報と前記文書に関するメタデータとを特定する音声化可能文書情報識別子と、
を有することを特徴とする装置。
請求項１２記載の装置であって、
前記音声化可能文書情報識別子は、前記文書における１以上の図のキャプションを特定し、特定された各キーワードと属性を関連付けることにより、音声に変換可能な音声化可能情報を前記文書から特定することを特徴とする装置。
請求項１２記載の装置であって、さらに、
前記ビジュアル情報識別子と前記音声化可能文書情報識別子の両方にレイアウト情報を提供する文書前処理ユニットを有することを特徴とする装置。
請求項１４記載の装置であって、さらに、
メタデータ前処理結果を生成するため、前記文書に関するメタデータを前処理するメタデータ前処理ユニットを有し、
前記ビジュアル情報識別子と前記音声化可能文書情報識別子は、前記メタデータ前処理結果に応答する、
ことを特徴とする装置。
請求項１１記載の装置であって、
前記合成装置は、
前記選択されたビジュアル情報部分からビジュアル出力情報を生成するビジュアル合成装置と、
前記選択された音声化可能情報部分から音声を合成する音声合成装置と、
前記ビジュアル合成装置と前記音声合成装置とからの出力に応答して、マルチメディアサムネイルを生成する編集装置と、
から構成されることを特徴とする装置。
請求項１６記載の装置であって、
前記合成装置はさらに、前記選択されたビジュアル情報部分と音声化可能情報部分とに関する時間属性に基づき、前記音声を同期させる同期化装置を有することを特徴とする装置。
請求項１１記載の装置であって、
前記選択装置は、
各ページが所定時間表示されると、あるタイムスパン中に表示すべき前記文書のページ数を決定し、
前記タイムスパンに、タイトル及びキーワードの少なくとも１つを表示するのに十分な時間があるか決定し、
発声用に合成すべき前記文書の音声化可能情報を選択する、
ことによって、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択することを特徴とする装置。
文書におけるビジュアル情報を特定するステップと、
前記文書から音声に変換可能な音声化可能情報を特定するステップと、
前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、
前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップと、
をコンピュータに実行させることを特徴とするプログラム。
文書に対し少なくとも１つの描画処理を実行するステップと、
文書画像におけるビジュアル情報を特定するステップと、
前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、
前記少なくとも１つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップと、
から構成されることを特徴とする方法。
請求項２０記載の方法であって、さらに、
前記マルチメディア表現の表示後、前記少なくとも１つの描画処理のアプリケーションを変更する入力を受け取るステップを有することを特徴とする方法。
文書に対し少なくとも１つの描画処理を実行する手段と、
文書画像におけるビジュアル情報を特定する手段と、
前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択する手段と、
前記少なくとも１つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示する手段と、
から構成されることを特徴とする装置。
請求項２２記載の装置であって、さらに、
前記マルチメディア表現の表示後、前記少なくとも１つの描画処理のアプリケーションを変更する入力を受け取る手段を有することを特徴とする装置。
文書に対し少なくとも１つの描画処理を実行するステップと、
文書画像におけるビジュアル情報を特定するステップと、
前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、
前記少なくとも１つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップと、
をコンピュータに実行させることを特徴とするプログラム。