JP2007220093A

JP2007220093A - ナビゲーションパスの計算方法

Info

Publication number: JP2007220093A
Application number: JP2007005206A
Authority: JP
Inventors: Berna Erol; エロールベルナ; Barkner Catherine; バークナーキャサリン; Siddharth Joshi; ジョシシドハース; Schwarz Edward; シュワルツエドワード
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2006-01-13
Filing date: 2007-01-12
Publication date: 2007-08-30
Anticipated expiration: 2027-01-12
Also published as: JP5089996B2; EP1814049A1; US7761789B2; US20070168852A1

Abstract

【課題】文書を可視化する方法、装置、及び製品を提供することである。
【解決手段】一実施形態において、該発明は、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、ディスプレイとアプリケーションの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、前記時間及び情報コンテント属性に基づいて、前記１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップと、前記１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有する。
【選択図】図２

Description

本発明は文書の処理と表示に関する。より具体的には、文書中に特定された可聴（audible）及び／または可視(visual)情報を有し、その文書の一部を表示する時に可聴情報を再生（synthesized）する文書の作成に関する。

本特許文献の開示には、その一部として（著作権または回路配置権の）保護の対象となる素材が含まれている。（著作権または回路配置権の）権利者は、特許庁の包帯または記録にある範囲において、本特許文献を複製することは認めるが、（著作権または回路配置権である）すべての権利を保持している。

ワイヤレスネットワーク、モバイルネットワーク、パーソナルモバイル機器等がどこでも使用できるようになりつつあり、多くの人々が小さなディスプレイと限定された入力装置を用いてウェブページ、写真、文書等をブラウズ（閲覧）している。現在のところ、小さなディスプレイを用いてウェブページを見るために、ウェブページを単純なグラフィクスのレベルが低いものにしている。写真を見るときにも、その解像度を低くしたものを表示して、必要に応じて写真の一部を拡大したりスクロールしたりできるようにして、問題を解決している。

一方、文書のブラウズに伴う問題はより困難である。文書は、ページが複数あり、写真よりも解像度が非常に高く（内容を見るためにユーザは拡大やスクロールをより頻繁に行わなければならない）、情報が非常に分散している（例えば、写真の焦点はフォーカスされている人の顔や被写体のみであるが、典型的な文書は多数の焦点を有する。例えば、タイトル、著者、要約、図面、参考文献等である。）。文書を見てブラウズする時の問題は、デスクトップやラップトップのディスプレイでは文書ビュアーとブラウザを使用することにより解決されている。例えば、アドビアクロバット（www.adobe.com）やマイクロソフトワード（www.microsoft.com）等である。これらにより、文書の拡大（zooming）、文書ページ間の切り換え、サムネイルのスクロール等が可能となる。デスクトップアプリケーションではこのような非常にインターラクティブな処理が可能であるが、モバイル機器（例えば電話やＰＤＡなど）は入力装置が限られており、ディスプレイも小さいので、これらの機器上で文書のブラウズ等をするためのよりよいソリューションが必要とされている。

米国カリフォルニア州メンローパークにあるリコーイノベーション社は、ここでスマートネイルテクノロジーと呼ぶ技術を開発した。スマートネイルテクノロジーは、ディスプレイサイズの制限に合わせた別の画像表現を生成するものである。スマートネイル処理は、３つのステップを含む：（１）イメージセグメントを特定して、特定したイメージセグメントに解像度と重要性を付与するイメージ分析ステップと、（２）出力サムネイル中の可視コンテントを選択するレイアウト決定ステップと、（３）選択されたイメージセグメントのクロッピング（cropping）、スケーリング、ペースティング（pasting）により最終的なスマートネイルイメージを作る作成ステップ。スマートネイル処理の入力は、出力と同様に、静止イメージである。すべての情報は、上記の３つのステップで処理されて、静的可視情報が得られる。より詳細な情報は、特許文献１、２に記載されている。

ウェブページ要約（summarization）は、一般的に、ウェブページの要約を提供する先行技術として周知である。しかし、ウェブページ要約をする方法は、ほとんどがテキストに焦点を絞ったものであり、元のウェブページで使用されていない新しいチャネル（例えばオーディオ）を組み込むものではない。例外として、目が不自由な人たちのためにオーディオを使用するものを以下に説明するが、特許文献３にも説明されている。

Ｍａｄｅｒｌｅｃｈｎｅｒ等は、ユーザに対して、余白や文字の高さ等の文書の重要な特徴を調査し、自動的に文書の注意度の高い領域をセグメント化する注意ベースの文書モデルを開発した。これらの領域をハイライトし（例えば、これらの領域を暗くして、その他の領域をより透明にして）、ユーザが文書をより効率的にブラウズできるようにする。より詳細は、非特許文献１を参照せよ。

先行技術の方法の一つは、モバイル機器上で非インターラクティブに画像をブラウズするものである。この方法は、画像上の顕著な領域、顔領域、テキスト領域を自動的に見つけて、ズーム及びパンをして見るものに自動的にクローズアップを見せるものである。この方法は、写真等の画像の再生にフォーカスしており、文書画像にはフォーカスしていない。よって、この方法は画像ベースのみであり、サムネイルのオーディオチャネルを扱うものではない。また、我々のように各ビジュアルセグメントに関連した時間属性を有するものではない。より詳細は、非特許文献２及び３を参照せよ。

先行技術による文書のオーディオへの変換は、目の不自由な人達を補助することにフォーカスしたものである。例えば、アドビ社は、ＰＤＦ文書から音声を合成するアクロバットリーダーのプラグインを提供している。より詳細な情報は、目の不自由な方のためのＰＤＦアクセス（http://www.adobe.com/support/salesdocs/10446.htm）を参照されたい。盲目または弱視の人のために文書からオーディオカセットの作り方に関するガイドラインがある。一般的なルールとして、表または写真の説明文に含まれる情報はオーディオカセットに含める。グラフィックスは一般的に省略する。より詳細は、「ヒューマンリソースツールボックス」モビリティインターナショナルＵＳＡ、２００２年（www.miusa.org/publications/Hrtoolboxintro.htm）を参照せよ。盲目及び弱視のユーザのためのブラウザを開発する仕事もされている。ある方法では、グラフィカルなＨＴＭＬ文書を３次元仮想サウンド空間環境にマッピングし、非音声の聴覚回復（auditory cures）によりＨＴＭＬ文書を区別させる。より詳細は、非特許文献４を参照せよ。盲目または弱視のユーザのためのアプリケーションでは、必ずしもチャネルを制約せずに、視覚的チャネルを完全にあきらめないで、できるだけ多くの情報をオーディオチャネルに変換することが目標となっているようである。

メッセージの変換に使用するその他の先行技術による方法には、２００１年６月１９日に発行された特許文献３（発明の名称「Wireless Delivery of Message Using Combination of Text and Voice」）がある。ここに説明したように、ハンドヘルド機器でユーザがボイスメールを受信するために、ボイスメールメッセージをフォーマットされたオーディオボイスメールメッセージとフォーマットされたテキストメッセージとに変換する。テキストに変換されるメッセージ部分をハンドヘルド機器のスクリーンに入力し、メッセージの残りはオーディオとして設定される。
米国特許出願第１０／３５４，８１１号（公開公報第２００４／０１４６１９９Ａ１号）米国特許出願第１０／４３５，３００号（公開公報第２００４／０１４５５９３Ａ１号）米国特許公報第６，２４９，８０８号Ｍａｄｅｒｌｅｃｈｎｅｒ等著「Information Extraction from Document Images using Attention Based Layout Segmentation」ＤＬＩＡ会報、ページ２１６−２１９、１９９９年Ｗａｎｇ等著「MobiPicture-Browsing Pictures on Mobile Devices」ＡＣＭＭＭ‘０３、バークレー、２００３年１１月Ｆａｎ等著「Visual Attention Based Image Browsing on Mobile Devices」ＩＣＭＥ、第１巻、ページ５３−５６、バルチモア、メリーランド、２００３年７月Ｒｏｔｈ等著「Auditory browser for blind and visually impaired users」ＣＨＩ‘９９、ピッツバーグ、ペンシルバニア、１９９９年５月

文書を可視化する方法、装置、及び製品を提供することである。

一実施形態において、該発明は、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、ディスプレイとアプリケーションの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、前記時間及び情報コンテント属性に基づいて、前記１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップと、前記１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有する。

本発明は、以下の詳細な説明と本発明のいろいろな実施形態を示した添付図面から、よりよく理解できるであろう。しかし、これらの実施形態は、本発明を限定されるものと解してはならず、説明と理解を目的としたものと解すべきである。

ここでマルチメディアサムネイル（ＭＭネイル）と呼ぶ、文書のマルチメディア概観を生成する方法と装置を説明する。この技術は、オーディオチャネルとビジュアルチャネル、及び空間次元と時間次元を利用して、ディスプレイが小さい機器上に複数ページの文書を表示するものである。これは、文書中で自動的にガイド付きツアーをするようなものである。

一実施形態では、ＭＭネイルは、文書の最も重要なビジュアル要素と可聴要素（例えばキーワード）を含み、これらの要素を空間領域と時間次元の両方で提示する。ＭＭネイルは、出力機器に起因する制約（例えば、ディスプレイのサイズや画像描画能力上の制約など）やアプリケーションに起因する制約（例えば、オーディオ再生の時間上の制約など）を考慮して、情報を分析、選択、合成することにより得られる。

一実施形態では、マルチメディア概観生成プロセスには、静止画像文書からマルチメディア情報（ビジュアル、オーディブル、及びオーディオビジュアル）を抽出し、ビジュアル、オーディブル、オーディオビジュアル情報セグメントに情報価値と時間属性を割り当て、機器及びアプリケーション上の制約があるビジュアル及びオーディオチャネルに対してマルチメディア情報を最適化する。このように、ＭＭネイルは、両方のチャネルを使用することができる（必ずしも使用しなければならないのではない）。機器またはユーザの好みに応じて、２つのチャネルのうちの一方が他方より好ましいかも知れない。結果として、ＭＭネイルは、機器のビジュアルチャネルとオーディオチャネルの両方を用いて、限られたディスプレイと限られた時間フレームで文書の概観を提供し、ユーザが必要とするインターラクションを減らすか、潜在的には最小化する。

ＭＭネイルの一態様は、時間及びディスプレイに制約がある場合に、最終的な表現に含まれる文書要素を選択することである。一実施形態では、それぞれの文書要素の時間及び情報／関連性属性をまず計算し、最適化器を使ってＭＭネイルに含めるのにもっともよい要素を選択する。最適化フレームワークにより、ビジュアル文書要素とオーディオビジュアル文書要素の時間属性の新しい計算尺度を測る。一実施形態では、これらの尺度に対して最適化スキームを使用する。この最適化スキームはナップザックアルゴリズムの修正版である。

以下の説明では、詳細に記載して本発明をより詳しく説明する。しかし、言うまでもなく、本発明はこれらの詳細がなくても実施することができる。他の場合では、詳細事項ではなくブロック図に周知の構造と機器を示すが、これは本発明が不明瞭になることを避けるためである。

以下の詳細な説明の一部は、コンピュータメモリ中のデータビットに対する操作のアルゴリズムと記号による表現により表されている。これらのアルゴリズムによる説明と表現は、データ処理技術の当業者が、自分の仕事内容を他の分野の人に最も効果的に伝える手段である。ここで、また一般的に、アルゴリズムとは、所望の結果に導く自己矛盾のないステップのシーケンスである。このステップは、物理量の物理的操作を要するステップである。通常、必ずしも必要ではないが、この物理量には、記憶し、伝達し、結合し、比較し、操作できる電気的または磁気的信号の形をとる。主に一般的な使用のために、これらの信号をビット、値、要素、記号、文字、式、数字等で表すと便利な時がある。

しかし、これらの用語や類似の用語は適当な物理量と関連しているべきであり、これらの物理量に付された便利なラベルに過ぎないことに留意すべきである。特に断らなければ、以下の説明から明らかなように、言うまでもなく、この明細書全体において、「処理」、「算出」、「計算」、「判断」、「表示」等の用語を用いた説明は、コンピュータシステム、類似の電子的計算機器の動作やプロセスであって、コンピュータシステムのレジスタやメモリ内の物理的（電子的）量として表されたデータを操作し、コンピュータシステムメモリやレジスタ、その他の情報記憶装置、伝送機器、表示機器内の物理量として同様に表された他のデータに変換するものの動作や処理を指す。

本発明は、また、これらの動作を実行する装置にも関する。この装置は、必要な目的のために特に構成されたものでもよく、コンピュータ中に記憶されたコンピュータプログラムにより選択的に起動または再構成された汎用コンピュータを有していてもよい。かかるコンピュータプログラムは、コンピュータによる読み取りが可能な記憶媒体に記憶することができる。このような記憶媒体には、例えば、フロッピー（登録商標）ディスク、光ディスク、ＣＤ−ＲＯＭ、光磁気ディスク等のディスク、読出専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気カード、光カード、その他の電子的命令の記憶に適した媒体であってコンピュータのシステムバスに結合されたものが含まれるが、これらには限定されない。

ここで説明するアルゴリズムとディスプレイは、特定のコンピュータその他の装置に本質的に関係するものではない。いろいろな汎用システムをここでの教示に従ったプログラムで用いることができるし、必要な方法ステップを実行することに特化した装置を構成しても便利である。これらのシステムに必要な構成を以下に示す。また、本発明は特定のプログラミング言語により記述されるものではない。言うまでもなく、いろいろなプログラミング言語を用いてここに説明する本発明の教示を実施できる。

機械読み取り可能媒体には、機械により読み取り可能な形式で情報を記憶または送信するメカニズムであれば、どんなものも含まれる。例えば、機械読み取り可能媒体には、読出専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、伝搬信号（電気的・光学的・音響的その他の形式を含み、例えば搬送波・赤外線信号・デジタル信号等である）等が含まれる。

概要
下記の選択スキームは、文書のビジュアル、オーディブル、及びオーディオビジュアル要素を取り、時間及び情報コンテント（例えば重要性）属性、時間、ディスプレイ、アプリケーションによる制約に基づき、文書用の組み合わせ及びナビゲーションパスを選択するものである。そうすることにより、文書のマルチメディア表現を生成する。

図１は、文書のマルチメディア表示を生成するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア（例えば回路、専用ロジック等）、（汎用コンピュータシステムまたは専用機上で実行される）ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。

図１を参照して、このプロセスの開始において、処理ロジックが文書のオーディブル、ビジュアル、及びオーディオビジュアル要素を処理する（処理ブロック１０１）。オーディブル、ビジュアル、及びオーディオビジュアル文書要素をどのように得るかを以下に説明する。

オーディブル、ビジュアル、及びオーディオビジュアル文書要素を用いて、処理ロジックは、ディスプレイと少なくとも１つのアプリケーションとユーザごとの制約に基づいて、オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算する（処理ブロック１０２）。一実施形態では、ディスプレイの制約は、マルチメディア表示を生成する機器のディスプレイサイズである。

処理ロジックは、ディスプレイと少なくとも１つのアプリケーションとユーザごとの制約とに基づいて、オーディブル、ビジュアル、及びオーディオビジュアル文書要素に関連する情報コンテント（例えば重要性）属性の計算もする（処理ブロック１０３）。

時間及び情報コンテント属性を計算した後、処理ロジックは、マルチメディア表示に含めるオーディブル、ビジュアル、オーディオビジュアル文書要素を、ディスプレイの制約と亜憂くなくとも１つのアプリケーションとユーザごとの制約だけでなく時間及び情報コンテント属性に基づいて選択する（処理ブロック１０４）。一実施形態では、処理ロジックは、第１段階でビジュアルとオーディオビジュアル情報の組み合わせ、第２段階でオーディブル情報を選択し、いずれの場合も、処理ロジックは、文書要素の第１のセットを選択して、所与の時間的制約の下で第１段階でそれに含まれる情報を最大化し、選択された文書要素を最大化した後、文書要素の第２のセットを選択して、マルチメディア表示の時間的長さの残っている時間量の下で第２段階でその第２のセットに含まれている情報を最大化する。一実施形態では、１つ以上のアプリケーション及び／またはユーザ制約に基づく入力に基づいて、上記の選択をする。一実施形態では、どの段階が第１でありどの段階が第２であるかは、アプリケーション及び／またはユーザ制約の入力に基づく。一実施形態では、ページサムネイル制約の下で選択された文書要素の最大化をする。

オーディブル、ビジュアル、及びオーディオビジュアル要素を選択した後、処理ロジックは、１つ以上のオーディブル、ビジュアル、オーディオビジュアル文書要素のセットを用いてマルチメディア表示を生成する（処理ブロック１０５）。一実施形態では、処理ロジックは、マルチメディア表示を生成するときに１つ以上のオーディブル、ビジュアル、オーディオビジュアル要素を処理するナビゲーションパスを出力することにより、そのマルチメディア表示を作成する。ナビゲーションパスは、限られたディスプレイ面積中にある時間で、いかにオーディブル、ビジュアル、及びオーディオビジュアル要素を提示するかを決めるものである。かかる要素間の遷移も決定する。ナビゲーションパスには、開始時間、文書要素の場所と大きさ、要素のフォーカス時間、文書要素間の遷移タイプ（例えば、パン、ズーム、フェードイン等）、遷移時間等に関して、要素の順序付けすることが含まれる。これには、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を読む順序で並べ替えることが含まれる。

オーディブル、ビジュアル、及びオーディオビジュアル文書要素の取得
一実施形態では、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を生成するか、アナライザ（図示せず）を用いて取得する。アナライザが文書を受け取り、メタデータも受け取ることができる。メタデータには、著者情報、作成日付、（例えば、テキストがメタデータであり、文書画像にオーバーレイされるＰＤＦファイルフォーマットの場合の）テキスト、オーディブルストリームまたはビデオストリーム、ＵＲＬ、出版者名、出版日、出版地、アクセス情報、暗号化情報、画像及びスキャン分解能、ＭＰＥＧ−７記述子等が含まれる。アナライザは、これらの入力に応答して、これらの入力に前処理を実施し、文書中の１つ以上のビジュアルフォーカスポイントを示す出力情報と、文書中のオーディブル情報を示す情報と、文書中のオーディオビジュアル情報を示す情報とを生成する。文書要素から抽出した情報がビジュアル情報とオーディブル情報を示す場合、この要素はオーディオビジュアル要素の候補である。アプリケーションまたはユーザが、候補のセットから得たオーディオビジュアル要素を最終的に選択してもよい。オーディオビジュアル要素中のオーディブル情報とビジュアル情報は同期していても（していなくても）よい。例えば、アプリケーションは、文書中の図表とその注釈が同期していることを要する。オーディブル情報は、文書及び／またはメタデータ中の重要な情報であってもよい。

一実施形態では、アナライザは、文書前処理部、メタデータ前処理部、ビジュアルフォーカスポイント識別器、重要オーディブル文書情報識別器、及びオーディオビジュアル情報識別器を有する。一実施形態では、文書前処理部は、１つ以上の光学的文字認識（ＯＣＲ）と、レイアウト分析と、レイアウト抽出と、ＪＰＥＧ２０００圧縮と、ヘッダー抽出と、文書フロー分析と、フォント抽出と、顔検出と、顔認識と、グラフィックス抽出と、音符認識とのうち１つ以上を実行する。どれを実行するかはアプリケーションにより異なる。一実施形態では、文書前処理部は、ExpervisionＯＣＲソフトウェア（詳細はwww.expervision.comから得られる）を含み、文字のレイアウト分析を行い、境界ボックスと、フォントサイズやフォントタイプ等の関連属性とを生成する。他の実施形態では、テキスト領域の囲みボックスと関連属性を、ScanSoftソフトウェア（詳細はwww.nuance.comから得られる）を用いて生成する。他の実施形態では、Aiello M.,Monz,C.,Todoran,L.,Worring,M.著、「Document Understanding for a Broad Class of Documents」（International Journal on Document Analysis and Recognition (IJDAR),vol.5(1),pp.1-16,2002）に記載されたように、テキスト領域の意味分析を実施して、タイトル、ヘッダー、フッター、図面注釈等の意味属性を決定する。

メタデータ前処理部は、構文解析とコンテンツ収集を実行する。例えば、一実施形態では、メタデータ前処理部は、著者名をメタデータとして与えられると、ワールドワイドウェブ（ＷＷＷ）から著者の写真を抽出する（これは後でＭＭネイルに含めることができる）。一実施形態では、メタデータ前処理部はＸＭＬ構文解析を実行する。

前処理が済むと、ビジュアルフォーカスポイント識別器がビジュアルフォーカスセグメントを抽出し、一方、重要オーディブル文書情報識別器が重要オーディオデータを抽出し、オーディオビジュアル情報識別器が重要オーディオビジュアルデータを決定して抽出する。

一実施形態では、ビジュアルフォーカスポイント識別器が、ＯＣＲと前処理部からのレイアウト分析結果と前処理部からのＸＭＬ構文解析結果に基づいて、ビジュアルフォーカスポイントを識別する。

一実施形態では、ビジュアルフォーカスポイント（ＶＴＰ）識別器は、２００３年５月９日出願の米国特許出願第１０／４３５，３００号（発明の名称「Resolution Sensitive Layout of Document Regions」、２００４年７月２９日公開、公開番号ＵＳ２００４／０１４５５９３Ａ１号公報）に記載された分析手法を実行して、テキスト領域とそれに付随する属性（例えば、重要性及び解像度属性）を識別する。テキスト領域はタイトルと見だしを含む。タイトルや見だしはセグメントとして解釈される。一実施形態では、ビジュアルフォーカスポイント識別器は、タイトルと図表も判定する。一実施形態では、図表をセグメント化する。

一実施形態では、オーディブル文書情報（ＡＤＩ）識別器が、ＯＣＲと前処理部からのレイアウト分析結果と前処理部からのＸＭＬ構文解析結果に応じて、オーディブル情報を識別する。

ビジュアルフォーカスセグメントの例としては、図表、タイトル、フォントが大きいテキスト、人が写っている写真などがある。これらのビジュアルフォーカスポイントはアプリケーションによって異なることには留意されたい。また、解像度及び特徴属性等の属性もこのデータに関連する。解像度はメタデータとして指定されてもよい。一実施形態では、これらのビジュアルフォーカスセグメントは、２００３年５月９日出願の米国特許出願第１０／４３５，３００号（発明の名称「Resolution Sensitive Layout of Document Regions」、２００４年７月２９日公開、公開番号第ＵＳ２００４／０１４５５９３Ａ１号公報）に記載されたのと同じ方法で判定される。他の実施形態では、ビジュアルフォーカスセグメントは、Le Meur,O.,Le Callet,P.,Barba,D.,Thoreau,D.著「Performance assessment of a visual attention system entirely based on a human vision modeling」（ICIP 2004会報、シンガポール、ページ２３２７−２３３０、２００４年）に記載されたのと同じ方法で判定される。特徴はビジュアルセグメントのタイプによって異なってもよい（例えば、フォントが大きいテキストはフォントが小さいテキストよりも重要であったり、アプリケーションによってはその逆であったりする）。これらのセグメントの重要性は、ＭＭネイルを生成する前に、各アプリケーションについて経験的に決定される。例えば、経験的研究により、ユーザが文書のスキャン品質を評価するアプリケーションでは、画像中の顔や短いテキストが最も重要なビジュアルポイントであることが分かるかも知れない。特徴ポイントを見つけるには、先行技術の文書及び画像分析方法の１つを用いることもできる。

オーディブル情報の例としては、タイトル、画像注釈、キーワード、構文解析されたメタデータが含まれる。情報コンテント、関連性（特徴）、時間属性（音声合成後の時間的長さ）等の属性もオーディブル情報に付加される。オーディブルセグメントの情報コンテントはそのタイプにより異なる。例えば、経験的な研究により、「文書サマリーアプリケーション」の場合、文書タイトルと画像注釈が文書中の最も重要なオーディブル情報であることが分かるかも知れない。

ＶＦＰとＡＤＩの属性をクロス分析を用いて割り当てられる。例えば、画像（ＶＦＰ）の時間属性を割り当てて、画像注釈（ＡＤＩ）の時間属性と同じとすることができる。

一実施形態では、オーディブル文書情報識別器は、ＴＦＩＤＦ分析を実行して頻度に基づいてキーワードを自動的に決定する。この方法は、例えば次の文献に記載されているMatsuo, Y., Ishizuka, M.著「Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information」（International Journal on Artificial Intelligence Tools、vol.13、no.1、pp.157-169、2004）、またはFukumoto,F.,Suzuki,Y., ukumoto,J.著「An Automatic Extraction of Key Paragraphs Based on Context Dependency」（Proceedings of Fifth Conference on Applied Natural Language Processing、pp.291-298、1997）の主要段落に記載されている。各キーワードについて、オーディブル文書情報識別器は、時間属性を、シンセサイザーがそのキーワードを話すのにかかる時間として計算する。

同様に、オーディブル文書情報識別器は、タイトル、ヘッディング（headings）、画像注釈等の選択されたテキスト領域の時間属性を計算する。各時間属性は対応するセグメントと相関している。例えば、画像注釈時間属性は、対応する画像セグメントと相関している。一実施形態では、各オーディブル情報セグメントは、（フォントサイズやページ中での位置に基づく）ビジュアルな重要性や、テキスト領域の場合には読む順序や、キーワードの場合には出現頻度や、画像のビジュアルな重要性属性や、関連する画像注釈を反映する情報コンテント属性も担っている。一実施形態では、これらの情報コンテント属性は、２００３年５月９日出願の米国特許出願第１０／４３５，３００号（発明の名称「Resolution Sensitive Layout of Document Regions」、２００４年７月２９日公開、公開番号第ＵＳ２００４／０１４５５９３Ａ１号公報）に記載されたのと同じ方法で計算される。

オーディオビジュアル文書情報（ＡＶＤＩ）は、オーディオビジュアル要素から抽出する情報である。

このように、一実施形態では、文書の電子版（必ずしもビデオやオーディオのデータは含まないもの）とそのメタデータを用いて、ビジュアルフォーカスポイント（ＶＦＰ）、重要オーディブル文書情報（ＡＤＩ）、オーディオビジュアル文書情報（ＡＶＤＩ）を決定してもよい。

ビジュアルフォーカスセグメント、重要オーディブル情報、オーディオビジュアル情報を最適化器に与える。ＶＦＰ、ＡＤＩ、及びＡＶＤＩを装置及びアプリケーション制約（ディスプレイサイズ、時間制約等）とともに与えると、最適化器は出力表示（例えばマルチメディアサムネイル）に含むべき情報を選択する。一実施形態では、好ましいビジュアル、オーディブル、及びオーディオビジュアル情報を出力表示に含めるように選択を最適化する。ここで、好ましい情報には、文書中の重要情報、ユーザが好む、重要なビジュアル情報（例えば画像）、重要な意味情報（例えばタイトル）、キーパラグラフ（意味分析の出力）、文書コンテクストを含んでもよい。重要情報には、文書の解像度敏感領域を含んでもよい。選択は、計算された時間属性と情報コンテント（例えば重要性）属性に基づく。

図２は、ビジュアル情報、可聴情報、オーディオビジュアル情報を処理するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア（例えば回路、専用ロジック等）、（汎用コンピュータシステムまたは専用機上で実行される）ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。

図２を参照して、本プロセスの開始において、処理ロジックは、ディスプレイ制約２１０とアプリケーション／タスク及びユーザ毎の制約２１１を用いてオーディブル文書要素２０１、ビジュアル文書要素２０２、オーディオビジュアル文書要素２０３と関連する時間属性を計算する（処理ブロック２０４）。また、処理ロジックは、ディスプレイ制約２１０とアプリケーション／タスク制約２１１を用いてオーディブル文書要素２０１、ビジュアル文書要素２０２、オーディオビジュアル文書要素２０３と関連する情報コンテント（例えば重要性）属性を計算する（処理ブロック２０６）。最適化器２０６中の処理ロジックは、計算された時間属性、計算された情報コンテント属性、及び時間制約２１２を受け取り、これに応じて、ナビゲーションパス２０７を生成する。

選択後、この情報から、（ビジュアルチャネルまたは表示用の）ビジュアルデータ、（オーディオチャネルまたは表示用の）オーディオデータ、（オーディオチャネル及びビジュアルチャネルの組み合わせまたは表示用の）オーディオビジュアルデータを合成しマルチメディアサムネイルを生成する。よってこの場合、サムネイルは、文書の素材をビジュアルかつオーディブルに提示する表示のことを言う。

以下、これらの動作をより詳細に説明する。ビジュアル要素の時間属性の計算、オーディオビジュアル要素の時間属性の計算、ページ制約がある２段階最適化アルゴリズム等を説明する。

時間属性の計算
マルチメディア表示の文書要素選択の最適化には、可読性のためのレイアウトとサイズの最適化や余白の縮小等の空間的制約が係わる。かかるフレームワークでは、いくつかの情報コンテント（意味的、ビジュアル）属性が共通に文書要素と関連する。ここで説明したフレームワークにおいて、一実施形態では、空間的表示と時間的表示の両方を最適化する。そのため、「時間属性」が文書要素に付随する。以下のセクションでは、オーディブル、ビジュアル、及びオーディオビジュアル文書要素の時間属性の割り当てを詳細に説明する。

オーディブル要素の時間属性t _a,j の計算
文書のオーディブル要素のフォーマットはいろいろあり、テキスト、波形、音符等がある。一実施形態では、波形または音符を再生するための最適時間は一般的にその表示に固有であり（例えば、波形の時間軸等）、これらの要素にその時間属性として自動的に付随することができる。

テキストフォームのオーディブル要素の場合、一実施形態では、時間属性は次式のように計算する：
t_a,j =SSC x N （式１）
ここで、Ｎはテキスト中の文字（数字、符号を含んでもよい）数であり、ＳＳＣ（音声合成定数）は合成音声の各文字の再生に要する平均時間である。一実施形態では、ＳＳＣは次のように計算される：（１）文字数Ｋが分かっているテキスト文書を合成し、（２）合成した音声の発話に係るトータル時間Ｔを測定し、ＳＳＣ＝Ｔ／Ｋとする。ＳＳＣ定数は、言語、使用するシンセサイザー、及びそのオプション（女声と男声、アクセントのタイプ、話す速さ等）に応じて変化してもよい。一実施形態では、ＡＴ＆ＴスピーチＳＤＫ（http://www.nextup.com/attnv.htmlから入手できる）を用いると、女声の英語の場合ＳＳＣは７５ｍｓと計算された。

ビジュアル要素の時間属性t _v,j の計算
文書のビジュアル要素を、「テキスト」要素と、画像、表、グラフ等の「画像」要素等との２つのセットにグループ分けすることができる。

一実施形態では、テキストビジュアル要素の時間属性は、可読な解像度でユーザにテキストセグメントを見せるのに必要なビジュアル効果の時間的長さである。

図３は、文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア（例えば回路、専用ロジック等）、（汎用コンピュータシステムまたは専用機上で実行される）ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。

図３を参照して、このプロセスの開始において、処理ロジックが文書のビジュアルテキスト文書要素を受け取る（処理ブロック３０１）。ビジュアルテキスト文書要素を用いて、処理ロジックはビジュアルテキスト要素の時間属性を計算する（処理ブロック３０２）。この計算は、ビジュアルテキスト要素の可読性解像度を計算し（処理ブロック３０２Ａ）、ビジュアルテキスト要素を読むために必要なパン及びズーム動作を決定し（処理ブロック３０２Ｂ）、可読性解像度でその動作を実行するために必要な時間を決定する（処理ブロック３０２Ｃ）。

このアルゴリズムの一実施形態の一般的概要を図４に示し、擬似コードの例を下に示す：
w_d：表示幅（ＤＣ）
h_d：表示高さ（ＤＣ）
w_p：ページ幅（ＤＩ）
h_p：ページ高さ（ＤＩ）
w_v,_i
h_v,_i：１テキストラインの元の幅と高さ（ＤＥＩ）
N：テキスト中の文字数（ＤＥＩ）

MRH：最小可読性高さ（＝１０ピクセル）（ＤＣ）
ZOOMC：：タイトルズーム定数（＝０．５ｓｅｃ）（ＡＣ）
PANC：：パンピクセル定数（＝０．０１ｓｅｃ）（ＡＣ）

上記のコードは、単一のテキストラインがあることを仮定している。このコードは、すべてのテキストラインの高さht_v,iを考慮することによって、複数ラインの場合に適合させられる。また、上記のコードでは、ＤＣはディスプレイ制約、ＤＩは文書情報、ＤＥＩは文書要素情報、ＡＣはアプリケーション制約であることに注意する。

図４は、文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの他の実施形態を示すフロー図である。このプロセスは、ハードウェア（例えば回路、専用ロジック等）、（汎用コンピュータシステムまたは専用機上で実行される）ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。

図４を参照して、このプロセスの開始において、処理ロジックが文書のビジュアルテキスト文書要素を受け取る（処理ブロック４０１）。処理ロジックは、最初のビューにおいてビジュアルテキスト文書要素が読み取れるかを、ディスプレイ制約、アプリケーション制約、及び文書情報に基づいて判断する。

一実施形態では、最初のビューはサムネイルビューを有する。一実施形態では、ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づく。この場合には、処理ロジックは、ビジュアルテキスト要素が可読であると判断されると、時間制約を音声合成定数とビジュアルテキスト要素中の文字数の積に設定する（処理ロジック４０３）。

最初のビューで可読でなければ、処理ロジックはビジュアルテキスト要素がズームビューで可読か判断する（処理ロジック４０４）。その場合、処理ロジックは、ズームビューで可読であれば、音声合成定数とビジュアルテキスト要素中の文字数の積とズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す制約とを足し合わせた値に、時間制約を設定する。

ビジュアルテキスト要素が最初のビューまたはズームビューで可読でなければ、処理ロジックは、ビジュアルテキスト要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算し（処理ロジック４０６）、パンに要する時間を判断する。そして、時間属性を次の値（第１ないし第３の値）の和に設定する（処理ロジック４０７）。すなわち、パンピクセル定数と、１ラインの元のテキストの幅・高さ及びディスプレイの幅・高さの間の差との積（第１の値）、ズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す定数（第２の値）、音声合成定数と、最小可読高さに対するディスプレイ高さの商をビジュアルテキスト要素中の文字数から引いた結果との積（第３の値）、の和とする。

他の実施形態では、処理ロジックは、最小可読高さ（ＭＲＨ）にズームして、要素の幅がディスプレイの幅にフィットするかチェックする。フィットすれば、それを受け入れる。フィットしなければ、パン（panning）をする。ズーム定数を固定する必要はない。例えば、ズーム定数は次式で計算してもよい：

さらに他の実施形態では、ビジュアルテキスト要素ｅの時間属性を計算するため、最初に文書イメージをダウンサンプリングしてディスプレイ領域にフィットさせる。次に、Z(e)をテキスト中の最小フォントの高さを最小可読高さにするのに必要なズームファクタとして決定する。最後に、ビジュアルテキスト要素ｅの時間属性を次のように計算する：

ここで、n_eはｅ（ビジュアルテキスト要素）中の文字数であり、Z_Cはズーム時間（我々の実施形態では１秒に固定している）であり、SSC（音声合成定数）は合成されたオーディオ（audio character）を再生するのに要する平均時間である。テキスト要素を１回のズーム動作で表示できず、ズームとパンの両方の動作が必要であっても、ｔ（ｅ）の計算は同じである。かかる場合、プレゼンテーション時間は、最初にテキストの一部（例えば最初のｍ文字）にズームし、そのテキスト上へのフォーカスをSCC x m秒持続して使用される。次に、残り時間、すなわちSCC x (n_e-m)パン動作に使う。

図表要素の場合、一実施形態では、ユーザがその文書要素を理解するのに要する予測時間に基づき時間制約を計算する。理解時間CTは、次式の通り、図表タイプと図表要素のエントロピーe_v,iにより決まる：

ここで、FC(e_v,i)は図表定数であり、図表タイプ（画像、テーブル、グラフ等）により決まり、E(e_v,i)は図表の規格化（正規化）エントロピー（normalized entropy）である。一実施形態では、規格化(normalization)は次のように実行される：
［図表のエントロピー］／［ページ全体のエントロピー］
特許文献１、すなわち米国特許出願第１０／３５４，８１１号（公開公報第２００４／０１４６１９９Ａ１号）と、特許文献２、すなわち米国特許出願第１０／４３５，３００号（公開公報第２００４／０１４５５９３Ａ１号）を参照されたい。パラメータFC(e_v,i)を使用する理由は、タイプが異なる図表は理解するのにかかる時間も異なるからである。例えば、一般的に、画像はグラフよりも理解しやすい。それゆえ、タイプが異なる図表の定数はそれぞれ異なる。グラフとテーブルの場合、図表を理解するのにかかる時間は、ビジュアル要素に含まれる文字数、単語数、及び数字の数により異なるかも知れない。また、CTはこれらの文書要素のビジュアルな複雑さにより異なる。この複雑さはその文書要素のエントロピーに基づく。

オーディオビジュアル要素の時間属性e _av,i の計算
オーディオビジュアル要素は同期したオーディオ成分とビジュアル成分を含む文書要素である。例としては、注釈つきの図表であって、ビジュアル部分を有し、その図表注釈の合成音声がオーディオ部分であるものがある。一実施形態では、オーディオビジュアル要素の時間属性は、オーディオビジュアルテキスト要素の場合と図表要素の場合とでは異なる。以下説明する。

テキストタイプのオーディオビジュアル要素は２つの成分を含む：
V(e_av,i)：e_av,iのビジュアル成分
A(e_av,i)：e_av,iのオーディオ成分であり、合成テキストである
テキストタイプのオーディオビジュアル要素の場合、一実施形態では、時間属性を次のように計算する：

変数

は要素のビジュアル部分e_av,iの時間属性である。一実施形態では、上記のコードを用いてこれを計算する。変数

は要素のオーディブル部分e_av,iの時間属性である。一実施形態では、上記の式１としてＳＣＣを用いてこれを計算する。

図表タイプのオーディオビジュアル要素は２つの成分を含む：
V(e_av,i)：e_av,iのビジュアル成分であり、例えば図表、テーブル、グラフ等である。

A(e_av,i)：e_av,iのオーディオ成分であり、例えば図表注釈や図表中のテキスト等である。

しかし、図表注釈は長すぎる場合がほとんどである。注釈を短くする方法は幾つかある。例えば、注釈がいくつかの文から構成されている場合、最初の文のみを合成する。注釈が（ａ）、（ｂ）等の多数のサブセクションを有するときは、これらのサブセクションが合成されるまでの部分のみを合成する。

図表タイプのオーディオビジュアル要素の場合、一実施形態では、時間属性を次のように計算する：

CT(V(e_av,i))は、上記の式２に示した、要素のビジュアル部分e_av,iの図表を理解する時間である。変数

は要素のオーディブル部分e_av,iの時間属性である。一実施形態では、上記の式１に示したようにこれを計算する。

図５は、文書のオーディオビジュアル文書要素の時間属性を生成するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア（例えば回路、専用ロジック等）、（汎用コンピュータシステムまたは専用機上で実行される）ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。

図５を参照して、このプロセスの開始において、処理ロジックが文書のオーディオビジュアル文書要素を受け取る（処理ブロック５０１）。

次に、処理ロジックは、オーディオビジュアル文書要素のビジュアル部分をビジュアルにナビゲーションするのに要する時間と、オーディオビジュアル文書要素の合成部分を再生するのに要する時間の大きい方である時間属性を計算する。

一実施形態では、これの実行は、処理ロジックが、オーディオビジュアル文書要素がオーディオビジュアルテキスト要素か、それともオーディオビジュアル図表要素かを判断することにより行う。オーディオビジュアル文書要素がオーディオビジュアルテキスト要素である場合、処理ロジックは、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素のテキスト部分をビジュアルにナビゲーションするのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算する。オーディオビジュアル文書要素がオーディオビジュアル図表要素である場合、処理ロジックは、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素の図表部分をビジュアルに理解するのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算する。

時間属性のまとめ
下の表１は、マルチメディアサムネイルに含めることができる異なる文書要素と、その要素タイプと、各要素タイプの場合に時間属性をいかに計算するかをまとめたものである。

これらの図表−注釈なし*は、図表注釈と組み合わせるために選択された図表である。注釈がないか非常に長い図表は、この前処理ではこのグループから除外される。

一実施形態では、サムネイルページ定数（ＴＰＣ）は１秒である。

情報コンテント属性
文書要素について、情報コンテントすなわち重要性属性がオーディオ、ビジュアル、及びオーディビジュアル要素に割り当てられる。情報コンテント属性を異なる文書要素について計算する。

一部の文書要素、例えばタイトルに固定属性を割り当て、一方、その他の文書要素、例えば図表にコンテントに応じた重要性属性を割り当てることができる。

情報コンテント属性は、オーディオとビジュアル要素について一定であるか、そのコンテントから計算される。文書理解やブラウズタスクの場合など、異なるタスクには異なる情報コンテント値のセットとしてもよい。これらはアプリケーション制約と考える。

文書要素とそのタイプの例を表２に示す。

図表−注釈なし*は、図表注釈と組み合わせるために選択された図表である。注釈がないか注釈が非常に長い図表は、この前処理ではこのグループから除外される。

一実施形態では、文書要素をどう表すかユーザのフィードバックに基づき選択する。選択のしかたの例を以下に挙げる：
一実施形態では、テキストを読み出すのにどのくらいかかるかに基づいてＶとＡＶタイプを選択する。短いテキストの場合、オーディオチャネルがユーザの読む速さにシンクロするので、ＡＶの方がよいと仮定する。要約などの長いテキストの場合、この仮定はあてはまらず、オーディオチャネルは有用ではなく邪魔な場合もある。

公開名と公開日等の非常に短いテキストの場合、オーディオチャネルをコミュニケーションのために使う。

著者名をビジュアル要素とするのは、シンセサイザーが名前の発音を間違えることがあるからである。

コンテントに基づく情報属性の計算
一実施形態では、情報コンテント属性を以下のように計算する。
サムネイル
ページ番号に基づく情報コンテント（例えば重要性）（最初のページが最も重要であり、それ以降のページでは重要性は減少する）
コンテントに基づく情報コンテント（例えば重要性）（テキストのみ（非常に多くある場合であり、情報コンテントは大きくない）と、図表入りテキスト（より多くの情報がサムネイルにある））
v_v,i=min{1,1/pagenum+PC}
ＰＣ：ページの複雑性ＰＣを［００．５］の範囲に規格化する
pagenum:ページ番号

ｗはページの幅であり、ｈはページの高さである。

はそれぞれビジュアル要素e_v,nの幅と高さである。関数ｆが文書の情報コンテントの尺度となる（例えば、エントロピーや特徴などのビジュアルな重要性の尺度であり、これは周知である）。一実施形態では、αは０．７であり、βは０．３である。

図表
同一ページ上の図表のサイズの合計に対する図表サイズ

図表の情報コンテント属性の計算に役に立つその他の特徴には、図表の複雑性、図表参照（その図表が何回参照されるか）、及び図表コンテント（顔や建物が含まれているか）などがある。

一実施形態における情報属性のサマリー
一実施形態で使用される情報コンテント属性のサマリーを表３に示す。

上記の値を使用して、後で修正することもできる。例えば、４頁文書の１５−２０秒のＭＭネイルの場合、特定の出力が期待される。期待される出力がこれらの値を用いた出力とマッチしない場合、情報値を修正してもよい。

最適化器の例
一実施形態では、ビジュアル情報セグメントとオーディブル情報セグメント、及び出力機器のディスプレイサイズや時間スパンＴ（最終的なマルチメディアサムネイルの時間的長さ）等の入力に応じて、最適化器が最適化アルゴリズムを実行する。

最適化アルゴリズムの主要機能は、各ページを所定時間（例えば０．５秒）だけディスプレイに表示するとして、使える時間スパン中に、ユーザに何ページ表示できるか最初に決定する。

一実施形態では、最適化器は、周知のやり方で、リニアパッキング／フィリングオーダーアプローチ（linear packing/filling order approach）をソートした時間属性に対して適用し、マルチメディアサムネイルにどの図表を含めるか選択する。静止画保持を文書の選択された図表に適用する。画像保持によりビジュアルチャネルが使用されている間、注釈をオーディオチャネルで「話す」。最適化後、最適化器は、選択されたビジュアル、オーディオ、及びオーディオビジュアルセグメントを読み出し順序で並べ直す。

他の最適化器を用いて、時間スパンＬとサイズが制約されたビジュアルディスプレイにおいてともにコミュニケーションされる情報を最大化する。

具体的な最適化器の実施
一実施形態では、最適化器は、文書要素の情報コンテント（重要性）属性と時間属性及び時間的制約に基づき、サマリーに含める最良の文書要素を選択するように設計される。

より具体的には、問題を以下のように提起することができる：時間制約Ｔ、各ビジュアル要素e_v,iの重要性v_v,iと時間属性t_v,i、各オーディブル要素e_a,iの情報コンテントv_a,iと時間属性t_a,iを与えられると、最適化器は、サムネイルに含めるべきビジュアル要素とオーディオ要素を探す。一部の文書要素e_v,iの場合、e_a,iを含めなければならない（これは、図表に伴う図表注釈等のように、ビジュアル要素と同期しなければならない一部のオーディオ要素の場合である）。他の要素セット（オーディオビジュアル要素e_av,i）を加えることにより、この問題を解決し、この要素セットを純粋にビジュアルな要素（例えばページのサムネイル）及び純粋なオーディオ要素（例えばキーワード）から分けることができる。

最適化器の一実施形態では、プレゼンテーションに使える時間を最大限使用することにより、ユーザに提示する情報コンテントを最大化するよう試みる。ビジュアル要素とオーディオビジュアル要素を含める単純化をして、ビジュアル要素が締めている時間にオーディブル要素を重ねれば、最適化問題は「０−１ナップザック」問題となる。この問題では、要素は完全に含まれるか破棄されるかのいずれかである。これは、R.L.Rivestほか著、「Introduction to Algorithms」、MIT Press、MC-Graw-Hill、Cambridge Massachusetts、1997年に記載されている。

以下は具体的な最適化器の実施例である。前処理器が２ページ文書から、以下の情報と時間属性を有する要素を抽出したとする：
タイトルt=2, v=1（t：時間属性、v：情報属性）
図1 t=4, v=1/8（注釈なし）
図2 t=10, v=1/8（注釈あり）
要約t=20, v=1/8
キーワード1 t=1 v=1/180
キーワード2 t=3 v=1/180
キーワード3 t=2 v=1/180
一実施形態では、時間制約はT=8である。

最初の段階で、ビジュアル要素（図１、要約）とオーディオビジュアル要素（タイトル、図２）をそれらのｖ／ｔ比を用いて並べる。

タイトル(1/2)、図１(1/32)、図２(1/80)、要約(1/160)
トータル時間は８である。最初に順序付けリストから、最適化器は、タイトルと図１を選択して表示に含める。トータル時間は２＋４＝６である。残り時間（すなわち８−６＝２）にフィットするオーディオビジュアル要素とビジュアル要素はないから、最適化器は第２段階に進む。

第２段階では、オーディブル要素（キーワード）をそれらのｖ／ｔ比を用いて以下のように順序づける：キーワード１(1/180)、キーワード３(1/360)、キーワード２(1/540)
ここで、純粋にビジュアルな要素により締められている時間を計算する：
Time (図１)=4。

この時間制約を用いてオーディオ要素を挿入する。順序付けられたリストからキーワード１とキーワード３を選択する。

それゆえ、最終的なマルチメディアサムネイルは次の文書要素を含む：タイトル、図１、キーワード１及びキーワード３
０−１ナップザック問題−２段階
一実施形態では、最適化器の目標は、以下の条件の下で次の値を最大化することである

ここで、
v_v,i:ビジュアル要素ｉの情報コンテント属性；
v_av,i:オーディオビジュアル要素ｉの情報コンテント属性；
t_v,i：ビジュアル要素ｉの時間制約；
t_av,i:オーディオビジュアル要素ｉの時間属性；
T:時間制約、マルチメディアサムネイル提示の時間的長さ
x_v,i, x _av,i:変数が含まれているかどうかを示す含み変数。

次に、最適化器は、比

を、大きい順にソートして、順序付けリスト

を作る。一実施形態では、次のステップを反復して順序付けリストを生成する：

ビジュアル文書要素とオーディオビジュアル文書要素のリストを特定した後、最適化器はビジュアル要素を提示するのに要する時間を次のように判断する。

そして、オーディブル要素の最適化の第２段階を実行する：

ここで、
v_a,i:オーディブル要素ｉの情報値属性；
t_a,i:オーディブル要素ｉの時間属性；
ｘ_a,i:含み変数
他の実施形態では、ビジュアル要素の前にオーディブル要素とオーディオビジュアル要素の組み合わせを処理することもできることに留意されたい。最適化器は、ビジュアル要素とオーディブル要素のいずれをオーディオビジュアル要素とともに最初に処理するかを指示する入力に応じる。図６に実施例を示す。図６を参照して、アプリケーション制約は、２つの段階のいずれを最初に実行するか決定するために段階決定ブロック６０１により使用される入力である。かかるアプリケーション制約は、例えばオーディオとビジュアルでどちらがより重要かを示す。第１段階は、所与の時間制約の下でビジュアル及びオーディオビジュアル情報とオーディオビジュアル情報を最大化し、第２段階は、マルチメディア表示に割り当てられるプレゼンテーション時間の残り時間の下でオーディブル情報を最大化する。このように、段階決定ブロックは、最初にどの段階に進み、次にどの段階に進むかを示す。

図７は、文書の文書要素を選択するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア（例えば回路、専用ロジック等）、（汎用コンピュータシステムまたは専用機上で実行される）ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。処理ロジックは最適化器の中にあってもよい。

図７を参照して、このプロセスの開始において、処理ロジックがオーディブル、ビジュアル、及びオーディオビジュアル要素を処理する（処理ブロック７０１）。

オーディブル、ビジュアル、及びオーディオビジュアル文書要素から、処理ロジックは、ビジュアルとオーディオビジュアル文書要素の組み合わせか、またはオーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを、文書のマルチメディア表示に含めるために、時間属性と情報コンテント属性に基づいて選択する（処理ブロック７０２）。一実施形態では、処理ロジックは、１つ以上のアプリケーション制約に基づいた入力に基づいて、ビジュアルとオーディオビジュアル文書要素の組み合わせか、オーディブル情報のいずれかを選択する。

選択後、処理ロジックは、所与の時間制約の下で選択された文書要素中の情報を最大化する（処理ブロック７０３）。一実施形態では、処理ロジックは、ビジュアルとオーディオビジュアル文書要素を選択し、そのビジュアルとオーディオビジュアル文書要素の情報コンテントの合計を最大化する一方、選択されたビジュアルとオーディオビジュアル要素に関連する時間属性の合計はマルチメディアプレゼンテーションの長さより短い。すなわち、処理ロジックは要素のクラスを選択する。任意的に、処理ロジックは、文書要素に関連する情報コンテント属性の時間属性に対する比に基づいて、ビジュアルとオーディオビジュアル文書要素、またはオーディブルとオーディオビジュアル文書要素を順序付ける。

その後、選択された文書要素の第１のセットを最大化した後、処理ロジックは、マルチメディア表示を完了するまでに残っている時間量の下で、文書要素の第２のセットを最大化する。一実施形態では、（オーディブル文書要素の方が選択されていれば）ビジュアルとオーディオビジュアル文書要素を選択した後、処理ロジックは、オーディブル文書要素の情報コンテントの合計を最大化するようにマルチメディア表示に含めるオーディブル要素を選択する。ここで、選択されたオーディブル要素に関連する時間属性の合計は、マルチメディアプレゼンテーションの長さと選択されたビジュアル要素を提示する時間の間の差よりも小さい。

ページサムネイル制約を伴う「ナップザック問題」
一実施形態では、ユーザによりよい状況を与え、文書中をより容易にナビゲーションできるように、ページに表示すべきビジュアルアイテムがある場合、そのページのサムネイルビューを含める。それゆえ、そのページが以前に加えられていない場合、そのページを加えるコストがかかるであろう。そのコストはページサムネイルを加えることによるものである。よって、新しい制約を加え、次のように表す：

ここで、page(e_v,_i)は、要素e_v,_iがあるページのサムネイルを含む要素e_v,_jであり、page(e_av,_i)は、要素e_av,_iがあるページのサムネイルを含む要素e_v,_jである。

このプロセスは、上記のプロセス、すなわち処理ロジックが比

とを大きい順にソートして、要素数Nの順序リストL={e_l(0),…,e_l(N-1)}を形成するものと同様である。最適化器は次のステップを反復する：

オーディオ、ビジュアル、及びオーディオビジュアル要素の結合最適化器−１段階

アプリケーションにより、ビジュアルまたはオーディオ要素の配置に関するプライオリティが与えられない方が望ましいのであれば、最適化問題は次のように定式化できる：

この問題は次の問題と等価である：

一般的に、これは線形問題であり、標準的なＬＰ問題解決プログラムを使用することができる。例えば、Matlab(http://www.mathworks/com)やCVSoptソフトウェアパッケージ(http://www.ee.ucla.edu/~vandenbe/cvxopt/)に含まれているものである。

要素e_iの時間属性t_iは２つの部分t_iaとt_ibに（t_ia+t_ib=t_i）分けることができる。ここで、t_iaは時間t_iの大部分であり、t_ibは残り少しである(t_ia>t_ib)。最適化問題を次のように定式化する：
最大化

q=v,av, または aの場合
値α_q,iはユーザまたはアプリケーションが0<α_q,i<t_ib/t_iaを満たす定数として選択することができる。

時間属性を主要部分と残差部分に分け、主要部分（であるが要素の時間の全部ではないもの）を最終的な選択に含めることにより、文書要素の選択プロセスをよりフレキシブルにすることができる。

合成
上記の通り、最適化器は分析機から出力を受け取る。この出力は、ビジュアルとオーディブル文書情報の特徴と、装置の特徴と、または１つ以上の制約（例えば、ディスプレイサイズ、使える時間スパン、ユーザ設定の好み、装置のパワー容量）を含む。そして、最適化器は、装置の制約に合ったビジュアルとオーディブル情報の組み合わせを計算し、利用できる出力ビジュアル及びオーディオチャネルを介して出力できる情報キャパシティを利用する。このように、最適化器は選択機または選択メカニズムとして動作する。

選択後、シンセサイザー（synthesizer）（合成機）が最終的なマルチメディアサムネイルを作成する。一実施形態では、シンセサイザーが最適化器で決定された選択されたマルチメディア処理ステップを実行して、最終的マルチメディアサムネイルを作成する。一実施形態では、シンセサイザーは、処理ステップをリストしたプレインテキストファイルやＸＭＬファイル等のファイルを受け取る。他の実施形態では、処理ステップのリストは、例えば、２つのソフトウェアモジュール間のソケット通信またはＣＯＭオブジェクト通信等の手段を介して、シンセサイザーに送られる。さらに他の実施形態では、処理ステップのリストは、両方のモジュールが同一ソフトウェア中にある場合、関数パラメータとして渡される。マルチメディア処理ステップは、「従来の」画像処理ステップであるクロッピング、スケーリング、ペーストを含んでもよいが、時間成分を含むステップである例えばページフリッピング、パン、ズーム、及び音声・音楽合成等を含んでもよい。

一実施形態では、シンセサイザーは、ビジュアルシンセサイザー、オーディオシンセサイザー、及びシンクロナイザ／コンポーザを含む。シンセサイザーは、ビジュアル合成を用いて選択されたビジュアル情報から画像または画像のシーケンスを合成し、オーディオシンセサイザーを用いてオーディブル情報から音声を合成し、次にシンクロナイザ／コンポーザを用いて２つの出力チャネル（オーディオとビジュアル）を同期させ、マルチメディアサムネイルを作成する。オーディオビジュアル要素のオーディオ部分は、オーディブル情報を合成するために使用するのと同じ音声シンセサイザーを用いて合成されることに注意せよ。

一実施形態では、ズームとページフリッピング等の（オーディオを伴わない）画像シーケンスを含むビジュアル文書は、Adobe社のAfterEffectsを用いて実行され、一方、シンクロナイザ／コンポーザとしてAdobePremierを使用する。一実施形態では、オーディオシンセサイザーとしては、ＣＭＵ音声合成ソフトウェア（FestVox,http://festvox.org/voicedemos.html）を用いて、オーディブル情報の音声を生成する。

一実施形態では、シンセサイザーは、シンクロナイザ／コンポーザを含まない。このような場合、シンセサイザーの出力は、２つの別々のストリームとして出力される。１つはオーディオであり、１つはビジュアルである。

シンクロナイザ／コンポーザの出力は、単一ファイルに結合されてもよいし、オーディオとビデオチャネルに分けてもよい。

アプリケーション
上記の方法は、多数のアプリケーションに潜在的に有用である。例えば、この方法は、モバイル装置や多機能機（ＭＦＰ）等の装置で文書をブラウズするために使用してもよい。

例えば、モバイル装置上でインターラクティブに文書ブラウズを実行する時、文書ブラウズは、ズームやスクロール等ではなく、プレイ、ポーズ、早送り、加速、減速等を含む動作として再定義することができる。

他のモバイル装置アプリケーションでは、モバイル装置で文書を見るとき、上記の方法を使用して、ＭＭネイルの長いもの（例えば１５分の長さ）を使用し、概要だけではなく、文書の内容を理解させるようにすることもできる。このアプリケーションは、画像表示機能が限定されているが、オーディオ機能が充実している装置（例えば携帯電話）にも適している。一実施形態では、モバイル装置で文書をブラウズした後、そのモバイル装置はそれを他の場所にある装置（例えばＭＦＰ）に送り、その装置にその文書に対して他の処理を実行させる（例えば、その文書を印刷させる）。

ＭＦＰの一アプリケーションでは、ここで説明した方法を用いて文書の概要を知ることができる。例えば、ユーザがＭＦＰで文書をコピーしている時、ページをスキャンすると、自動的に計算された文書の概要がユーザに表示され、その文書の内容を理解しやすくする。

ＭＦＰ中で文書画像の画質向上を実行する画像処理アルゴリズムは、問題となりそうな領域、例えばコントラストが低い領域、フォントが小さい領域、スキャンの分解能と干渉してしまうハーフトーン領域等を検出する。ユーザにスキャン文書の品質（すなわちスキャン品質）を評価させるために、ＭＭネイルをコピー機のディスプレイ上に（オーディオなしで）表示して、必要に応じて設定変更（例えば、コントラストを高くしたり、解像度を上げたりする）を示唆する。

翻訳アプリケーションでは、オーディオチャネルの言語をユーザが選択して、オーディブル情報をその選択された言語で出力してもよい。この場合、最適化器は言語が異なれば異なる機能をするが、それはオーディオの長さが異なるからである。すなわち、最適化器の結果は言語によって異なる。一実施形態では、ビジュアル文書テキストを変更する。ビジュアル文書部分を異なる言語で再表示することができる。

一実施形態では、ＭＭネイルの最適化は、ユーザからのインターラクションに基づいて、すぐに計算される。例えば、ユーザがオーディオチャネルを閉じると、この情報チャネルがなくなったことに対応して、他のビジュアル情報によりビジュアルの表示が変化する。他の実施例では、ユーザがビジュアルチャネルをスローダウンすると（例えば、車の運転中）、オーディオチャネルを介して出力される情報が変化する。また、ビューイング装置の計算上の制約に基づいて、例えばズーム、パン等のアニメーション効果がえられる。

一実施形態では、ＭＭネイルを使用して、障害を持つ人が文書情報を得るのを援助する。例えば、目が不自由な人は、短いテキストをオーディブル情報の形で得たいかも知れない。他の実施例では、色盲の人は、文書中の色のついた情報の一部をオーディオチャネルのオーディブル情報として得ることを欲するかも知れない。

コンピュータシステムの実施例
図８は、ここに記載した１つ以上の動作を実行するコンピュータシステムの例を示すブロック図である。図８を参照して、コンピュータシステム８００は、クライアントまたはサーバのコンピュータシステムを含む。コンピュータシステム８００は、情報をやりとりする通信メカニズムすなわちバス８１１と、情報を処理する、バス８１１に結合したプロセッサ８１２とを有する。プロセッサ８１２は、例えばペンティアム（登録商標）プロセッサ等のマイクロプロセッサを含むが、マイクロプロセッサに限定されない。

システム８００は、さらに、プロセッサ８１２により実行される情報及び命令を格納する、バス８１１に結合したランダムアクセスメモリ（ＲＡＭ）またはその他のダイナミック記憶装置８０４（ここではメインメモリと呼ぶ）を有する。メインメモリ８０４は、プロセッサ８１２による命令の実行中に、一時的変数やその他の中間情報を記憶するために使用される。

コンピュータシステム８００は、プロセッサ８１２の静的情報や命令を記憶する、バス８１１に結合した読み出し専用メモリ（ＲＯＭ）及び／またはその他の静的記憶装置８０６と、磁気ディスク、光ディスクとその対応するディスクドライブ等であるデータ記憶装置８０７とを有する。データ記憶装置８０７は、情報と命令を記憶し、バス８１１に結合している。

コンピュータシステム８００は、コンピュータのユーザに情報を表示するための、バス８１１に結合した、陰極線管（ＣＲＴ）または液晶ディスプレイ（ＬＣＤ）等のディスプレイ装置８２１に結合している。英数字入力装置８２２は、英数字その他のキーを含み、バス８１１に結合され、プロセッサ８１２に情報とコマンド選択を送る。追加的なユーザ入力装置として、マウス、トラックボール、トラックパッド、スタイラス、またはカーソル方向キー等のカーソル制御８２３があり、バス８１１に結合し、プロセッサ８１２に方向情報とコマンド選択を送り、ディスプレイ８２１条のカーソルの動きを制御する。

バス８１１に結合した他の装置としてハードコピー装置８２４がある。このハードコピー装置８２４は、紙、フィルム、その他のメディア上に、命令、データ、その他の情報を印刷するために使用される。さらに、スピーカ及び／またはマイクロホン等の音声録音再生装置も任意的にバス８１１に結合しており、コンピュータシステム８００のオーディオインターフェイスとして機能する。バス８１１に結合する他の装置として、電話やハンドヘルドパームトップ装置と通信する、有線または無線の通信機能８２５がある。

なお、オーディブル、ビジュアル、及びオーディオビジュアル文書要素は、図８のコンピュータシステムにおける８０６や８０７に記録されている各文書要素を読み出すことで各文書要素を受け取ることとしても良いし、８２５によりネットワークを介して接続される他のコンピュータシステムから各文書要素を受信することで、受け取ることとしても良い。

ディスプレイの制約は、図８のコンピュータシステムにおける８２１から、事前に、又は、処理ロジックの実行時に、ディスプレイ制約を受信して８０６や８０７に記録しておくこととしても良い。８２５によりネットワークを介して接続される他のコンピュータシステムにおけるディスプレイのディスプレイ制約の受信についても同様に、事前に、又は、処理ロジックの実行時に、ディスプレイ制約を受信することとしても良い。

システム８００のどの構成要素もそれに関連するハードウェアも、本発明で使用してもよい。しかし、言うまでもなく、他の構成のコンピュータシステムでは、これらの構成要素の一部または全部を含んでもよい。

上記の説明を読んだ当業者には本発明の変形例や修正例が明らかになったことは間違いなく、言うまでもなく、上記のどの実施形態も本発明を限定することを目的としたものではない。それゆえ、いろいろな実施形態の詳細の説明は、本発明に本質的であると考えられる特徴のみを記載した請求項の範囲を限定するものではない。

なお、本開示にあたり、以下の付記を記す。
（付記２４）
システムにより実行された時、システムに一方法を実行させる命令を格納した１つ以上の記録媒体を有する製品であって、前記方法は、
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
マルチメディア表示に含める１つ以上のオーディブル、ビジュアル、オーディオビジュアル文書要素のセットを、ディスプレイと時間制約、及び少なくとも１つのアプリケーション制約とユーザごとの制約に基づいて選択することを特徴とする製品。
（付記２５）
付記２４に記載の製品であって、
１つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップは、
ディスプレイ制約、及びアプリケーション制約とユーザ制約の少なくとも一方に基づき、オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、
ディスプレイとアプリケーションの制約に基づき、オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、を有することを特徴とする製品。
（付記２６）
付記２４に記載の製品であって、
１つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップは、
前記１つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有することを特徴とする製品。
（付記２７）
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取る入力と、
マルチメディア表示に含める１つ以上のオーディブル、ビジュアル、オーディオビジュアル文書要素のセットを、ディスプレイと時間制約、及び少なくとも１つのアプリケーション制約とユーザごとの制約に基づいて選択する選択器とを有することを特徴とする装置。
（付記２８）
付記２７に記載の装置であって、
マルチメディア表示発生器は、１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成することを特徴とする装置。
（付記２９）
文書のオーディオビジュアル文書要素を受け取るステップと、
オーディオビジュアル文書要素のテキスト部分をビジュアルにナビゲーションするのに必要な時間と、オーディオビジュアル文書要素に関連する合成テキストを再生するのに要する時間のうち最大のものとしてオーディオビジュアル文書要素の時間属性を計算するステップと、を有することを特徴とする方法。
（付記３０）
文書のオーディオビジュアル文書要素を受け取るステップと、
オーディオビジュアル文書要素の図表部分をビジュアルに理解するのに必要な時間と、オーディオビジュアル文書要素に関連する合成テキストを再生するのに必要な時間のうち最大のものとしてオーディオビジュアル文書要素の時間属性を計算するステップと、を有することを特徴とする方法。
（付記３１）
文書のビジュアル文書要素を受け取るステップと、
ビジュアル要素の時間属性を計算するステップと、を有し、その計算は、
必要なパンとズームの動作を決定するステップと、
その動作が実行される１つ以上の解像度に基づいて動作を実行するのに必要な時間を決定するステップと、を有することを特徴とする方法。
（付記３２）
付記３１に記載の方法であって、
ビジュアルテキスト要素の時間属性の計算は、さらに、
ディスプレイとアプリケーション制約と文書情報に基づき第１のビューのビジュアルテキスト要素の可読性を決定するステップと、
ビジュアル要素が可読であると判断された場合、音声合成定数とビジュアル要素中の文字数の積に時間属性を設定するステップと、を有することを特徴とする方法。
（付記３３）
付記３２に記載の方法であって、
第１のビューで可読でない場合、
ズームビューでのビジュアル要素の可読性を決定するステップと、
ズームビューで可読であれば、音声合成定数とビジュアル要素中の文字数の積と、ズームビュー中のビジュアル要素中のタイトルにズームするのに必要な時間を示す定数とを足し合わせた値に、時間制約を設定するステップと、を有することを特徴とする方法。
（付記３４）
付記３３に記載の方法であって、
第１またはズームビューで可読でない場合、
ビジュアル要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算するステップと、
パンに必要な時間を決定するステップと、
パンピクセル制約と、時間属性を１ラインの元のテキスト幅及び高さとディスプレイ幅の間の差との積と、
ズームビューにおいてビジュアル要素中のタイトルにズームするのに必要な時間を示す定数と、
音声合成定数と、ディスプレイ高さの最小可読高さとの商をビジュアルテキスト要素の文字数から引いた結果との積と、を加えた値に設定することを特徴とする方法。
（付記３５）
付記３２に記載の方法であって、
ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づくことを特徴とする方法。
（付記３６）
付記３２に記載の方法であって、
第１のビューはサムネイルビューを含むことを特徴とする方法。
（付記３７）
システムにより実行された時、システムに一方法を実行させる命令を格納した１つ以上の記録媒体を有する製品であって、前記方法は、
文書のビジュアルテキスト文書要素を受け取るステップと、
ビジュアルテキスト要素の時間属性を計算するステップと、を有し、その計算は、
必要なパンとズームの動作を決定するステップと、
その動作が実行される１つ以上の解像度に基づいて動作を実行するのに必要な時間を決定するステップと、を有することを特徴とする方法。
（付記３８）
文書のビジュアル文書要素を受け取るステップと、
ビジュアル要素の時間属性を計算するステップと、を有し、その計算は、
最小可読文字高さへのズーム動作を実行するステップと、
要素の幅をチェックしてその要素がディスプレイ幅にフィットするか決定するステップと、
要素幅がディスプレイ幅にフィットしない場合パン動作を実行するステップと、を有することを特徴とする方法。
（付記３９）
文書のビジュアル文書要素を受け取るステップと、
ビジュアル要素の時間属性を計算するステップと、を有し、その計算は、
第１のビューにズーム動作を実行するステップと、
要素が完全に見えなければパンを実行するステップと、を有することを特徴とする方法。
（付記４０）
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
時間と情報コンテント属性に基づき、文書のマルチメディア表示に含めるビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを選択するステップと、
所与の時間制約に下でセットに含まれる情報を最大化するように第１のセットを選択するステップと、
選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、セットに含まれる情報を最大化するように第２のセットを選択するステップと、を有することを特徴とする方法。
（付記４１）
付記４０に記載の方法であって、
組み合わせとオーディブル情報のいずれかの選択は、１つ以上のアプリケーション制約に基づいた入力に基づくことを特徴とする方法。
（付記４２）
付記４０に記載の方法であって、
選択した文書要素の最大化はページサムネイル制約の下で行われることを特徴とする方法。
（付記４３）
付記４０に記載の方法であって、
文書要素に関連する情報コンテント属性の文書要素に関連する時間属性に対する比に基づいて、ビジュアルとオーディオビジュアル文書要素を順序付けるステップと、
マルチメディア表示に含めるためのビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブル文書要素のいずれかを選択するステップは、ビジュアルとオーディオビジュアル文書要素の情報コンテントの合計を最大化し、選択されたビジュアル及びオーディオビジュアル要素に関連付けられた時間属性の合計はマルチメディア表示の表示時間よりも短いように、ビジュアルとオーディオビジュアル文書要素を選択するステップを含むことを特徴とする方法。
（付記４４）
付記４３に記載の方法であって、
マルチメディア表示に含めるためにビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブル文書要素のいずれかを選択するステップは、オーディブル文書要素の情報コンテントの合計を最大化し、選択されたオーディブル要素と関連する時間属性の合計がマルチメディア表示の長さと選択されたビジュアル要素の表示時間の間の差よりも小さいように、マルチメディア表示に含ませるオーディオ要素を選択するステップを有することを特徴とする方法。
（付記４５）
システムにより実行された時、システムに一方法を実行させる命令を格納した１つ以上の記録媒体を有する製品であって、前記方法は、
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
時間と情報コンテント属性に基づき、文書のマルチメディア表示に含めるビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブル文書要素のいずれかを選択するステップと、
所与の時間制約に下で文書要素の第１のセットに含まれる情報を最大化するように第１のセットを選択するステップと、
選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、文書要素の第２のセットに含まれる情報を最大化するように第２のセットを選択するステップと、を有することを特徴とする方法。
（付記４６）
オーディオとビジュアル要素を受け取るステップと、
オーディオとビジュアルフォーカスポイントを決定するステップと、
オーディオビジュアル要素を選択するステップと、
選択されたオーディオビジュアル要素と、選択されたオーディオビジュアル要素の一部ではないオーディオとビジュアル要素の組み合わせとに基づき、制約されたディスプレイ領域中のプリセット時間中に表示するナビゲーションパスを生成するステップと、を有することを特徴とする方法。
（付記４７）
オーディオとビジュアル要素を受け取る入力と、
オーディオとビジュアルフォーカスポイントを決定するオーディオ及びビジュアルフォーカス決定器と、
オーディオビジュアル要素を選択するオーディオビジュアル要素選択器と、
選択されたオーディオビジュアル要素と、選択されたオーディオビジュアル要素の一部ではないオーディオとビジュアル要素の組み合わせとに基づき、制約されたディスプレイ領域中のプリセット時間中に表示するナビゲーションパスを生成するナビゲーションパス生成器と、を有することを特徴とする装置。

文書のマルチメディア表示を生成するプロセスの一実施形態を示すフロー図である。ビジュアル情報、可聴情報、オーディオビジュアル情報を処理するプロセスの一実施形態を示すフロー図である。文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの一実施形態を示すフロー図である。文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの他の実施形態を示すフロー図である。文書のオーディオビジュアル文書要素の時間属性を生成するプロセスの一実施形態を示すフロー図である。２段階最適化器の一実施形態を示す図である。文書の文書要素を選択するプロセスの一実施形態を示すフロー図である。コンピュータシステムの一実施形態を示すブロック図である。

符号の説明

２０１オーディブル文書要素
２０２ビジュアル文書要素
２０３オーディオビジュアル文書要素
２０４／２０５時間属性と重要性属性を計算
２０６最適化器
２０７ナビゲートパス
２１０ディスプレイ制約
２１１アプリケーション／タスク制約
２１２時間制約
８０４メインメモリ
８０６スタティック記憶装置
８０７データ記憶装置
８１２プロセッサ
８１１バス
８２１ディスプレイ装置
８２２英数字入力装置
８２３カーソル制御装置
８２４ハードコピー装置
８２５通信機能

Claims

オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、
ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、
時間及び情報コンテント属性に基づいて、マルチメディア表示に含める１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップと、を有することを特徴とする方法。
請求項１に記載の方法であって、
情報コンテント属性は１つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする方法。
請求項１に記載の方法であって、
１つのビジュアル文書要素はビジュアルテキスト要素を有し、時間属性の計算はそのビジュアルテキスト要素の時間属性の計算を有し、その計算は、
ズームパラメータを計算するステップと、
必要なパン動作を決定するステップと、
パンとズーム動作を実行するのに要する時間を決定するステップと、を有することを特徴とする方法。
請求項３に記載の方法であって、
ズームパラメータは可読性を示すことを特徴とする方法。
請求項３に記載の方法であって、
ズーム動作は可読でない解像度から可読な解像度に変更するズームを行うことを特徴とする方法。
請求項１に記載の方法であって、
ビジュアルテキスト要素の時間属性の計算は、さらに、
ディスプレイ制約と文書情報に基づき第１のビューのビジュアルテキスト要素の可読性を決定するステップと、
ビジュアルテキスト要素が可読であると判断された場合、音声合成定数とビジュアルテキスト要素中の文字数の積に時間属性を設定するステップと、を有することを特徴とする方法。
請求項６に記載の方法であって、
可読性の決定は、１つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする方法。
請求項６に記載の方法であって、
第１のビューで可読でない場合、
ズームビューでのビジュアルテキスト要素の可読性を決定するステップと、
ズームビューで可読であれば、音声合成定数とビジュアルテキスト要素中の文字数の積と、ズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す定数とを足し合わせた値に、時間制約を設定するステップと、を有することを特徴とする方法。
請求項８に記載の方法であって、
第１のビューまたはズームビューで可読でない場合、
ビジュアルテキスト要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算するステップと、
パンに必要な時間を決定するステップと、
ズームビューのビジュアルテキスト要素のテキストにズームし、テキスト要素をパンするのに必要な時間に基づき時間属性を設定するステップと、を有することを特徴とする方法。
請求項６に記載の方法であって、
第１のビューはサムネイルビューを含むことを特徴とする方法。
請求項６に記載の方法であって、
ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づくことを特徴とする方法。
請求項１に記載の方法であって、
オーディオビジュアル文書要素は、テキスト部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素のテキスト部分をビジュアルにナビゲーションするのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする方法。
請求項１に記載の方法であって、
オーディオビジュアル文書要素は、図表部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素の図表部分をビジュアルに理解するのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする方法。
請求項１に記載の方法であって、
前記１つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有することを特徴とする方法。
請求項１４に記載の方法であって、
１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いてマルチメディア表示を作成するステップは、マルチメディア表示を生成するときに１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットが処理されるナビゲーションパス表示を出力するステップを有することを特徴とする方法。
請求項１に記載の方法であって、
さらに、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を読む順序で並べ替えるステップを有することを特徴とする方法。
請求項１に記載の方法であって、
時間及び情報コンテント属性に基づいて、１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップは、
ビジュアルとオーディオビジュアル文書要素の組み合わせか、オーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを選択するステップと、
所与の時間制約に下で文書要素の第１のセットに含まれる情報を最大化するように第１のセットを選択するステップと、
選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、文書要素の第２のセットに含まれる情報を最大化するように第２のセットを選択するステップと、を有することを特徴とする方法。
請求項１７に記載の方法であって、
いずれかの組み合わせを選択するステップは、アプリケーションまたはユーザからの入力に応じて実行されることを特徴とする方法。
請求項１７に記載の方法であって、
オーディブルとオーディオビジュアル文書要素の組み合わせと、ビジュアルとオーディオビジュアル文書要素の組み合わせのいずれかの選択は、１つ以上のアプリケーション制約に基づいた入力に基づくことを特徴とする方法。
請求項１７に記載の方法であって、
選択した文書要素の最大化はページサムネイル制約の下で行われることを特徴とする方法。
請求項１に記載の方法であって、
ディスプレイの制約は、マルチメディア表示を生成する機器のディスプレイサイズであることを特徴とする方法。
請求項１に記載の方法であって、
選択した文書要素がディスプレイ幅にフィットするように選択した文書要素と関連する時間属性を分けるステップをさらに有することを特徴とする方法。
請求項２２に記載の方法であって、
時間属性が分かれる点はユーザとアプリケーションの一方または両方により選択されることを特徴とする方法。
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取る手段と、
ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算する手段と、
ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算する手段と、
時間及び情報コンテント属性に基づいて、マルチメディア表示に含める１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択する手段と、を有することを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
情報コンテント属性は１つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
１つのビジュアル文書要素はビジュアルテキスト要素を有し、時間属性の計算はそのビジュアルテキスト要素の時間属性の計算を有し、その計算は、
ズームパラメータを計算する手段と、
必要なパン動作を決定する手段と、
パンとズーム動作を実行するのに要する時間を決定する手段と、を有することを特徴とする情報処理装置。
請求項２６に記載の情報処理装置であって、
ズームパラメータは可読性を示すことを特徴とする情報処理装置。
請求項２６に記載の情報処理装置であって、
ズーム動作は可読でない解像度から可読な解像度に変更するズームを行うことを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
ビジュアルテキスト要素の時間属性の計算は、さらに、
ディスプレイ制約と文書情報に基づき第１のビューのビジュアルテキスト要素の可読性を決定する手段と、
ビジュアルテキスト要素が可読であると判断された場合、音声合成定数とビジュアルテキスト要素中の文字数の積に時間属性を設定する手段と、を有することを特徴とする情報処理装置。
請求項２９に記載の情報処理装置であって、
可読性の決定は、１つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする情報処理装置。
請求項２９に記載の情報処理装置であって、
第１のビューで可読でない場合、
ズームビューでのビジュアルテキスト要素の可読性を決定する手段と、
ズームビューで可読であれば、音声合成定数とビジュアルテキスト要素中の文字数の積と、ズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す定数とを足し合わせた値に、時間制約を設定する手段と、を有することを特徴とする情報処理装置。
請求項３１に記載の情報処理装置であって、
第１のビューまたはズームビューで可読でない場合、
ビジュアルテキスト要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算する手段と、
パンに必要な時間を決定する手段と、
ズームビューのビジュアルテキスト要素のテキストにズームし、テキスト要素をパンするのに必要な時間に基づき時間属性を設定する手段と、を有することを特徴とする情報処理装置。
請求項２９に記載の情報処理装置であって、
第１のビューはサムネイルビューを含むことを特徴とする情報処理装置。
請求項２９に記載の情報処理装置であって、
ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づくことを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
オーディオビジュアル文書要素は、テキスト部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素のテキスト部分をビジュアルにナビゲーションするのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
オーディオビジュアル文書要素は、図表部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素の図表部分をビジュアルに理解するのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
前記１つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成する手段と、を有することを特徴とする情報処理装置。
請求項３７に記載の情報処理装置であって、
１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いてマルチメディア表示を作成する手段は、マルチメディア表示を生成するときに１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットが処理されるナビゲーションパス表示を出力する手段を有することを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
さらに、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を読む順序で並べ替える手段を有することを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
時間及び情報コンテント属性に基づいて、１つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択する手段は、
ビジュアルとオーディオビジュアル文書要素の組み合わせか、オーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを選択する手段と、
所与の時間制約に下で文書要素の第１のセットに含まれる情報を最大化するように第１のセットを選択する手段と、
選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、文書要素の第２のセットに含まれる情報を最大化するように第２のセットを選択する手段と、を有することを特徴とする情報処理装置。
請求項４０に記載の情報処理装置であって、
いずれかの組み合わせを選択する手段は、アプリケーションまたはユーザからの入力に応じて実行されることを特徴とする情報処理装置。
請求項４０に記載の情報処理装置であって、
オーディブルとオーディオビジュアル文書要素の組み合わせと、ビジュアルとオーディオビジュアル文書要素の組み合わせのいずれかの選択は、１つ以上のアプリケーション制約に基づいた入力に基づくことを特徴とする情報処理装置。
請求項４０に記載の情報処理装置であって、
選択した文書要素の最大化はページサムネイル制約の下で行われることを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
ディスプレイの制約は、マルチメディア表示を生成する機器のディスプレイサイズであることを特徴とする情報処理装置。
請求項２４に記載の情報処理装置であって、
選択した文書要素がディスプレイ幅にフィットするように選択した文書要素と関連する時間属性を分ける手段をさらに有することを特徴とする情報処理装置。
請求項４５に記載の情報処理装置であって、
時間属性が分かれる点はユーザとアプリケーションの一方または両方により選択されることを特徴とする情報処理装置。
コンピュータに、請求項１ないし２３いずれか一項記載の方法ステップを実行させることを特徴とするコンピュータプログラム。