JP2007220093A - ナビゲーションパスの計算方法 - Google Patents

ナビゲーションパスの計算方法 Download PDF

Info

Publication number
JP2007220093A
JP2007220093A JP2007005206A JP2007005206A JP2007220093A JP 2007220093 A JP2007220093 A JP 2007220093A JP 2007005206 A JP2007005206 A JP 2007005206A JP 2007005206 A JP2007005206 A JP 2007005206A JP 2007220093 A JP2007220093 A JP 2007220093A
Authority
JP
Japan
Prior art keywords
visual
audiovisual
document
processing apparatus
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007005206A
Other languages
English (en)
Other versions
JP2007220093A5 (ja
JP5089996B2 (ja
Inventor
Berna Erol
エロール ベルナ
Barkner Catherine
バークナー キャサリン
Siddharth Joshi
ジョシ シドハース
Schwarz Edward
シュワルツ エドワード
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2007220093A publication Critical patent/JP2007220093A/ja
Publication of JP2007220093A5 publication Critical patent/JP2007220093A5/ja
Application granted granted Critical
Publication of JP5089996B2 publication Critical patent/JP5089996B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/489Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • G06F16/4387Presentation of query results by the use of playlists
    • G06F16/4393Multimedia presentations, e.g. slide shows, multimedia albums
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)

Abstract

【課題】 文書を可視化する方法、装置、及び製品を提供することである。
【解決手段】 一実施形態において、該発明は、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、ディスプレイとアプリケーションの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、前記時間及び情報コンテント属性に基づいて、前記1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップと、前記1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有する。
【選択図】 図2

Description

本発明は文書の処理と表示に関する。より具体的には、文書中に特定された可聴(audible)及び/または可視(visual)情報を有し、その文書の一部を表示する時に可聴情報を再生(synthesized)する文書の作成に関する。
本特許文献の開示には、その一部として(著作権または回路配置権の)保護の対象となる素材が含まれている。(著作権または回路配置権の)権利者は、特許庁の包帯または記録にある範囲において、本特許文献を複製することは認めるが、(著作権または回路配置権である)すべての権利を保持している。
ワイヤレスネットワーク、モバイルネットワーク、パーソナルモバイル機器等がどこでも使用できるようになりつつあり、多くの人々が小さなディスプレイと限定された入力装置を用いてウェブページ、写真、文書等をブラウズ(閲覧)している。現在のところ、小さなディスプレイを用いてウェブページを見るために、ウェブページを単純なグラフィクスのレベルが低いものにしている。写真を見るときにも、その解像度を低くしたものを表示して、必要に応じて写真の一部を拡大したりスクロールしたりできるようにして、問題を解決している。
一方、文書のブラウズに伴う問題はより困難である。文書は、ページが複数あり、写真よりも解像度が非常に高く(内容を見るためにユーザは拡大やスクロールをより頻繁に行わなければならない)、情報が非常に分散している(例えば、写真の焦点はフォーカスされている人の顔や被写体のみであるが、典型的な文書は多数の焦点を有する。例えば、タイトル、著者、要約、図面、参考文献等である。)。文書を見てブラウズする時の問題は、デスクトップやラップトップのディスプレイでは文書ビュアーとブラウザを使用することにより解決されている。例えば、アドビアクロバット(www.adobe.com)やマイクロソフトワード(www.microsoft.com)等である。これらにより、文書の拡大(zooming)、文書ページ間の切り換え、サムネイルのスクロール等が可能となる。デスクトップアプリケーションではこのような非常にインターラクティブな処理が可能であるが、モバイル機器(例えば電話やPDAなど)は入力装置が限られており、ディスプレイも小さいので、これらの機器上で文書のブラウズ等をするためのよりよいソリューションが必要とされている。
米国カリフォルニア州メンローパークにあるリコーイノベーション社は、ここでスマートネイルテクノロジーと呼ぶ技術を開発した。スマートネイルテクノロジーは、ディスプレイサイズの制限に合わせた別の画像表現を生成するものである。スマートネイル処理は、3つのステップを含む:(1)イメージセグメントを特定して、特定したイメージセグメントに解像度と重要性を付与するイメージ分析ステップと、(2)出力サムネイル中の可視コンテントを選択するレイアウト決定ステップと、(3)選択されたイメージセグメントのクロッピング(cropping)、スケーリング、ペースティング(pasting)により最終的なスマートネイルイメージを作る作成ステップ。スマートネイル処理の入力は、出力と同様に、静止イメージである。すべての情報は、上記の3つのステップで処理されて、静的可視情報が得られる。より詳細な情報は、特許文献1、2に記載されている。
ウェブページ要約(summarization)は、一般的に、ウェブページの要約を提供する先行技術として周知である。しかし、ウェブページ要約をする方法は、ほとんどがテキストに焦点を絞ったものであり、元のウェブページで使用されていない新しいチャネル(例えばオーディオ)を組み込むものではない。例外として、目が不自由な人たちのためにオーディオを使用するものを以下に説明するが、特許文献3にも説明されている。
Maderlechner等は、ユーザに対して、余白や文字の高さ等の文書の重要な特徴を調査し、自動的に文書の注意度の高い領域をセグメント化する注意ベースの文書モデルを開発した。これらの領域をハイライトし(例えば、これらの領域を暗くして、その他の領域をより透明にして)、ユーザが文書をより効率的にブラウズできるようにする。より詳細は、非特許文献1を参照せよ。
先行技術の方法の一つは、モバイル機器上で非インターラクティブに画像をブラウズするものである。この方法は、画像上の顕著な領域、顔領域、テキスト領域を自動的に見つけて、ズーム及びパンをして見るものに自動的にクローズアップを見せるものである。この方法は、写真等の画像の再生にフォーカスしており、文書画像にはフォーカスしていない。よって、この方法は画像ベースのみであり、サムネイルのオーディオチャネルを扱うものではない。また、我々のように各ビジュアルセグメントに関連した時間属性を有するものではない。より詳細は、非特許文献2及び3を参照せよ。
先行技術による文書のオーディオへの変換は、目の不自由な人達を補助することにフォーカスしたものである。例えば、アドビ社は、PDF文書から音声を合成するアクロバットリーダーのプラグインを提供している。より詳細な情報は、目の不自由な方のためのPDFアクセス(http://www.adobe.com/support/salesdocs/10446.htm)を参照されたい。盲目または弱視の人のために文書からオーディオカセットの作り方に関するガイドラインがある。一般的なルールとして、表または写真の説明文に含まれる情報はオーディオカセットに含める。グラフィックスは一般的に省略する。より詳細は、「ヒューマンリソースツールボックス」モビリティインターナショナルUSA、2002年(www.miusa.org/publications/Hrtoolboxintro.htm)を参照せよ。盲目及び弱視のユーザのためのブラウザを開発する仕事もされている。ある方法では、グラフィカルなHTML文書を3次元仮想サウンド空間環境にマッピングし、非音声の聴覚回復(auditory cures)によりHTML文書を区別させる。より詳細は、非特許文献4を参照せよ。盲目または弱視のユーザのためのアプリケーションでは、必ずしもチャネルを制約せずに、視覚的チャネルを完全にあきらめないで、できるだけ多くの情報をオーディオチャネルに変換することが目標となっているようである。
メッセージの変換に使用するその他の先行技術による方法には、2001年6月19日に発行された特許文献3(発明の名称「Wireless Delivery of Message Using Combination of Text and Voice」)がある。ここに説明したように、ハンドヘルド機器でユーザがボイスメールを受信するために、ボイスメールメッセージをフォーマットされたオーディオボイスメールメッセージとフォーマットされたテキストメッセージとに変換する。テキストに変換されるメッセージ部分をハンドヘルド機器のスクリーンに入力し、メッセージの残りはオーディオとして設定される。
米国特許出願第10/354,811号(公開公報第2004/0146199A1号) 米国特許出願第10/435,300号(公開公報第2004/0145593A1号) 米国特許公報第6,249,808号 Maderlechner等著「Information Extraction from Document Images using Attention Based Layout Segmentation」DLIA会報、ページ216−219、1999年 Wang等著「MobiPicture-Browsing Pictures on Mobile Devices」ACM MM‘03、バークレー、2003年11月 Fan等著「Visual Attention Based Image Browsing on Mobile Devices」ICME、第1巻、ページ53−56、バルチモア、メリーランド、2003年7月 Roth等著「Auditory browser for blind and visually impaired users」CHI‘99、ピッツバーグ、ペンシルバニア、1999年5月
文書を可視化する方法、装置、及び製品を提供することである。
一実施形態において、該発明は、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、ディスプレイとアプリケーションの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、前記時間及び情報コンテント属性に基づいて、前記1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップと、前記1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有する。
本発明は、以下の詳細な説明と本発明のいろいろな実施形態を示した添付図面から、よりよく理解できるであろう。しかし、これらの実施形態は、本発明を限定されるものと解してはならず、説明と理解を目的としたものと解すべきである。
ここでマルチメディアサムネイル(MMネイル)と呼ぶ、文書のマルチメディア概観を生成する方法と装置を説明する。この技術は、オーディオチャネルとビジュアルチャネル、及び空間次元と時間次元を利用して、ディスプレイが小さい機器上に複数ページの文書を表示するものである。これは、文書中で自動的にガイド付きツアーをするようなものである。
一実施形態では、MMネイルは、文書の最も重要なビジュアル要素と可聴要素(例えばキーワード)を含み、これらの要素を空間領域と時間次元の両方で提示する。MMネイルは、出力機器に起因する制約(例えば、ディスプレイのサイズや画像描画能力上の制約など)やアプリケーションに起因する制約(例えば、オーディオ再生の時間上の制約など)を考慮して、情報を分析、選択、合成することにより得られる。
一実施形態では、マルチメディア概観生成プロセスには、静止画像文書からマルチメディア情報(ビジュアル、オーディブル、及びオーディオビジュアル)を抽出し、ビジュアル、オーディブル、オーディオビジュアル情報セグメントに情報価値と時間属性を割り当て、機器及びアプリケーション上の制約があるビジュアル及びオーディオチャネルに対してマルチメディア情報を最適化する。このように、MMネイルは、両方のチャネルを使用することができる(必ずしも使用しなければならないのではない)。機器またはユーザの好みに応じて、2つのチャネルのうちの一方が他方より好ましいかも知れない。結果として、MMネイルは、機器のビジュアルチャネルとオーディオチャネルの両方を用いて、限られたディスプレイと限られた時間フレームで文書の概観を提供し、ユーザが必要とするインターラクションを減らすか、潜在的には最小化する。
MMネイルの一態様は、時間及びディスプレイに制約がある場合に、最終的な表現に含まれる文書要素を選択することである。一実施形態では、それぞれの文書要素の時間及び情報/関連性属性をまず計算し、最適化器を使ってMMネイルに含めるのにもっともよい要素を選択する。最適化フレームワークにより、ビジュアル文書要素とオーディオビジュアル文書要素の時間属性の新しい計算尺度を測る。一実施形態では、これらの尺度に対して最適化スキームを使用する。この最適化スキームはナップザックアルゴリズムの修正版である。
以下の説明では、詳細に記載して本発明をより詳しく説明する。しかし、言うまでもなく、本発明はこれらの詳細がなくても実施することができる。他の場合では、詳細事項ではなくブロック図に周知の構造と機器を示すが、これは本発明が不明瞭になることを避けるためである。
以下の詳細な説明の一部は、コンピュータメモリ中のデータビットに対する操作のアルゴリズムと記号による表現により表されている。これらのアルゴリズムによる説明と表現は、データ処理技術の当業者が、自分の仕事内容を他の分野の人に最も効果的に伝える手段である。ここで、また一般的に、アルゴリズムとは、所望の結果に導く自己矛盾のないステップのシーケンスである。このステップは、物理量の物理的操作を要するステップである。通常、必ずしも必要ではないが、この物理量には、記憶し、伝達し、結合し、比較し、操作できる電気的または磁気的信号の形をとる。主に一般的な使用のために、これらの信号をビット、値、要素、記号、文字、式、数字等で表すと便利な時がある。
しかし、これらの用語や類似の用語は適当な物理量と関連しているべきであり、これらの物理量に付された便利なラベルに過ぎないことに留意すべきである。特に断らなければ、以下の説明から明らかなように、言うまでもなく、この明細書全体において、「処理」、「算出」、「計算」、「判断」、「表示」等の用語を用いた説明は、コンピュータシステム、類似の電子的計算機器の動作やプロセスであって、コンピュータシステムのレジスタやメモリ内の物理的(電子的)量として表されたデータを操作し、コンピュータシステムメモリやレジスタ、その他の情報記憶装置、伝送機器、表示機器内の物理量として同様に表された他のデータに変換するものの動作や処理を指す。
本発明は、また、これらの動作を実行する装置にも関する。この装置は、必要な目的のために特に構成されたものでもよく、コンピュータ中に記憶されたコンピュータプログラムにより選択的に起動または再構成された汎用コンピュータを有していてもよい。かかるコンピュータプログラムは、コンピュータによる読み取りが可能な記憶媒体に記憶することができる。このような記憶媒体には、例えば、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、光磁気ディスク等のディスク、読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カード、光カード、その他の電子的命令の記憶に適した媒体であってコンピュータのシステムバスに結合されたものが含まれるが、これらには限定されない。
ここで説明するアルゴリズムとディスプレイは、特定のコンピュータその他の装置に本質的に関係するものではない。いろいろな汎用システムをここでの教示に従ったプログラムで用いることができるし、必要な方法ステップを実行することに特化した装置を構成しても便利である。これらのシステムに必要な構成を以下に示す。また、本発明は特定のプログラミング言語により記述されるものではない。言うまでもなく、いろいろなプログラミング言語を用いてここに説明する本発明の教示を実施できる。
機械読み取り可能媒体には、機械により読み取り可能な形式で情報を記憶または送信するメカニズムであれば、どんなものも含まれる。例えば、機械読み取り可能媒体には、読出専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリデバイス、伝搬信号(電気的・光学的・音響的その他の形式を含み、例えば搬送波・赤外線信号・デジタル信号等である)等が含まれる。
概要
下記の選択スキームは、文書のビジュアル、オーディブル、及びオーディオビジュアル要素を取り、時間及び情報コンテント(例えば重要性)属性、時間、ディスプレイ、アプリケーションによる制約に基づき、文書用の組み合わせ及びナビゲーションパスを選択するものである。そうすることにより、文書のマルチメディア表現を生成する。
図1は、文書のマルチメディア表示を生成するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア(例えば回路、専用ロジック等)、(汎用コンピュータシステムまたは専用機上で実行される)ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。
図1を参照して、このプロセスの開始において、処理ロジックが文書のオーディブル、ビジュアル、及びオーディオビジュアル要素を処理する(処理ブロック101)。オーディブル、ビジュアル、及びオーディオビジュアル文書要素をどのように得るかを以下に説明する。
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を用いて、処理ロジックは、ディスプレイと少なくとも1つのアプリケーションとユーザごとの制約に基づいて、オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算する(処理ブロック102)。一実施形態では、ディスプレイの制約は、マルチメディア表示を生成する機器のディスプレイサイズである。
処理ロジックは、ディスプレイと少なくとも1つのアプリケーションとユーザごとの制約とに基づいて、オーディブル、ビジュアル、及びオーディオビジュアル文書要素に関連する情報コンテント(例えば重要性)属性の計算もする(処理ブロック103)。
時間及び情報コンテント属性を計算した後、処理ロジックは、マルチメディア表示に含めるオーディブル、ビジュアル、オーディオビジュアル文書要素を、ディスプレイの制約と亜憂くなくとも1つのアプリケーションとユーザごとの制約だけでなく時間及び情報コンテント属性に基づいて選択する(処理ブロック104)。一実施形態では、処理ロジックは、第1段階でビジュアルとオーディオビジュアル情報の組み合わせ、第2段階でオーディブル情報を選択し、いずれの場合も、処理ロジックは、文書要素の第1のセットを選択して、所与の時間的制約の下で第1段階でそれに含まれる情報を最大化し、選択された文書要素を最大化した後、文書要素の第2のセットを選択して、マルチメディア表示の時間的長さの残っている時間量の下で第2段階でその第2のセットに含まれている情報を最大化する。一実施形態では、1つ以上のアプリケーション及び/またはユーザ制約に基づく入力に基づいて、上記の選択をする。一実施形態では、どの段階が第1でありどの段階が第2であるかは、アプリケーション及び/またはユーザ制約の入力に基づく。一実施形態では、ページサムネイル制約の下で選択された文書要素の最大化をする。
オーディブル、ビジュアル、及びオーディオビジュアル要素を選択した後、処理ロジックは、1つ以上のオーディブル、ビジュアル、オーディオビジュアル文書要素のセットを用いてマルチメディア表示を生成する(処理ブロック105)。一実施形態では、処理ロジックは、マルチメディア表示を生成するときに1つ以上のオーディブル、ビジュアル、オーディオビジュアル要素を処理するナビゲーションパスを出力することにより、そのマルチメディア表示を作成する。ナビゲーションパスは、限られたディスプレイ面積中にある時間で、いかにオーディブル、ビジュアル、及びオーディオビジュアル要素を提示するかを決めるものである。かかる要素間の遷移も決定する。ナビゲーションパスには、開始時間、文書要素の場所と大きさ、要素のフォーカス時間、文書要素間の遷移タイプ(例えば、パン、ズーム、フェードイン等)、遷移時間等に関して、要素の順序付けすることが含まれる。これには、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を読む順序で並べ替えることが含まれる。
オーディブル、ビジュアル、及びオーディオビジュアル文書要素の取得
一実施形態では、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を生成するか、アナライザ(図示せず)を用いて取得する。アナライザが文書を受け取り、メタデータも受け取ることができる。メタデータには、著者情報、作成日付、(例えば、テキストがメタデータであり、文書画像にオーバーレイされるPDFファイルフォーマットの場合の)テキスト、オーディブルストリームまたはビデオストリーム、URL、出版者名、出版日、出版地、アクセス情報、暗号化情報、画像及びスキャン分解能、MPEG−7記述子等が含まれる。アナライザは、これらの入力に応答して、これらの入力に前処理を実施し、文書中の1つ以上のビジュアルフォーカスポイントを示す出力情報と、文書中のオーディブル情報を示す情報と、文書中のオーディオビジュアル情報を示す情報とを生成する。文書要素から抽出した情報がビジュアル情報とオーディブル情報を示す場合、この要素はオーディオビジュアル要素の候補である。アプリケーションまたはユーザが、候補のセットから得たオーディオビジュアル要素を最終的に選択してもよい。オーディオビジュアル要素中のオーディブル情報とビジュアル情報は同期していても(していなくても)よい。例えば、アプリケーションは、文書中の図表とその注釈が同期していることを要する。オーディブル情報は、文書及び/またはメタデータ中の重要な情報であってもよい。
一実施形態では、アナライザは、文書前処理部、メタデータ前処理部、ビジュアルフォーカスポイント識別器、重要オーディブル文書情報識別器、及びオーディオビジュアル情報識別器を有する。一実施形態では、文書前処理部は、1つ以上の光学的文字認識(OCR)と、レイアウト分析と、レイアウト抽出と、JPEG2000圧縮と、ヘッダー抽出と、文書フロー分析と、フォント抽出と、顔検出と、顔認識と、グラフィックス抽出と、音符認識とのうち1つ以上を実行する。どれを実行するかはアプリケーションにより異なる。一実施形態では、文書前処理部は、ExpervisionOCRソフトウェア(詳細はwww.expervision.comから得られる)を含み、文字のレイアウト分析を行い、境界ボックスと、フォントサイズやフォントタイプ等の関連属性とを生成する。他の実施形態では、テキスト領域の囲みボックスと関連属性を、ScanSoftソフトウェア(詳細はwww.nuance.comから得られる)を用いて生成する。他の実施形態では、Aiello M.,Monz,C.,Todoran,L.,Worring,M.著、「Document Understanding for a Broad Class of Documents」(International Journal on Document Analysis and Recognition (IJDAR),vol.5(1),pp.1-16,2002)に記載されたように、テキスト領域の意味分析を実施して、タイトル、ヘッダー、フッター、図面注釈等の意味属性を決定する。
メタデータ前処理部は、構文解析とコンテンツ収集を実行する。例えば、一実施形態では、メタデータ前処理部は、著者名をメタデータとして与えられると、ワールドワイドウェブ(WWW)から著者の写真を抽出する(これは後でMMネイルに含めることができる)。一実施形態では、メタデータ前処理部はXML構文解析を実行する。
前処理が済むと、ビジュアルフォーカスポイント識別器がビジュアルフォーカスセグメントを抽出し、一方、重要オーディブル文書情報識別器が重要オーディオデータを抽出し、オーディオビジュアル情報識別器が重要オーディオビジュアルデータを決定して抽出する。
一実施形態では、ビジュアルフォーカスポイント識別器が、OCRと前処理部からのレイアウト分析結果と前処理部からのXML構文解析結果に基づいて、ビジュアルフォーカスポイントを識別する。
一実施形態では、ビジュアルフォーカスポイント(VTP)識別器は、2003年5月9日出願の米国特許出願第10/435,300号(発明の名称「Resolution Sensitive Layout of Document Regions」、2004年7月29日公開、公開番号US2004/0145593A1号公報)に記載された分析手法を実行して、テキスト領域とそれに付随する属性(例えば、重要性及び解像度属性)を識別する。テキスト領域はタイトルと見だしを含む。タイトルや見だしはセグメントとして解釈される。一実施形態では、ビジュアルフォーカスポイント識別器は、タイトルと図表も判定する。一実施形態では、図表をセグメント化する。
一実施形態では、オーディブル文書情報(ADI)識別器が、OCRと前処理部からのレイアウト分析結果と前処理部からのXML構文解析結果に応じて、オーディブル情報を識別する。
ビジュアルフォーカスセグメントの例としては、図表、タイトル、フォントが大きいテキスト、人が写っている写真などがある。これらのビジュアルフォーカスポイントはアプリケーションによって異なることには留意されたい。また、解像度及び特徴属性等の属性もこのデータに関連する。解像度はメタデータとして指定されてもよい。一実施形態では、これらのビジュアルフォーカスセグメントは、2003年5月9日出願の米国特許出願第10/435,300号(発明の名称「Resolution Sensitive Layout of Document Regions」、2004年7月29日公開、公開番号第US2004/0145593A1号公報)に記載されたのと同じ方法で判定される。他の実施形態では、ビジュアルフォーカスセグメントは、Le Meur,O.,Le Callet,P.,Barba,D.,Thoreau,D.著「Performance assessment of a visual attention system entirely based on a human vision modeling」(ICIP 2004会報、シンガポール、ページ2327−2330、2004年)に記載されたのと同じ方法で判定される。特徴はビジュアルセグメントのタイプによって異なってもよい(例えば、フォントが大きいテキストはフォントが小さいテキストよりも重要であったり、アプリケーションによってはその逆であったりする)。これらのセグメントの重要性は、MMネイルを生成する前に、各アプリケーションについて経験的に決定される。例えば、経験的研究により、ユーザが文書のスキャン品質を評価するアプリケーションでは、画像中の顔や短いテキストが最も重要なビジュアルポイントであることが分かるかも知れない。特徴ポイントを見つけるには、先行技術の文書及び画像分析方法の1つを用いることもできる。
オーディブル情報の例としては、タイトル、画像注釈、キーワード、構文解析されたメタデータが含まれる。情報コンテント、関連性(特徴)、時間属性(音声合成後の時間的長さ)等の属性もオーディブル情報に付加される。オーディブルセグメントの情報コンテントはそのタイプにより異なる。例えば、経験的な研究により、「文書サマリーアプリケーション」の場合、文書タイトルと画像注釈が文書中の最も重要なオーディブル情報であることが分かるかも知れない。
VFPとADIの属性をクロス分析を用いて割り当てられる。例えば、画像(VFP)の時間属性を割り当てて、画像注釈(ADI)の時間属性と同じとすることができる。
一実施形態では、オーディブル文書情報識別器は、TFIDF分析を実行して頻度に基づいてキーワードを自動的に決定する。この方法は、例えば次の文献に記載されているMatsuo, Y., Ishizuka, M.著「Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information」(International Journal on Artificial Intelligence Tools、vol.13、no.1、pp.157-169、2004)、またはFukumoto,F.,Suzuki,Y., ukumoto,J.著「An Automatic Extraction of Key Paragraphs Based on Context Dependency」(Proceedings of Fifth Conference on Applied Natural Language Processing、pp.291-298、1997)の主要段落に記載されている。各キーワードについて、オーディブル文書情報識別器は、時間属性を、シンセサイザーがそのキーワードを話すのにかかる時間として計算する。
同様に、オーディブル文書情報識別器は、タイトル、ヘッディング(headings)、画像注釈等の選択されたテキスト領域の時間属性を計算する。各時間属性は対応するセグメントと相関している。例えば、画像注釈時間属性は、対応する画像セグメントと相関している。一実施形態では、各オーディブル情報セグメントは、(フォントサイズやページ中での位置に基づく)ビジュアルな重要性や、テキスト領域の場合には読む順序や、キーワードの場合には出現頻度や、画像のビジュアルな重要性属性や、関連する画像注釈を反映する情報コンテント属性も担っている。一実施形態では、これらの情報コンテント属性は、2003年5月9日出願の米国特許出願第10/435,300号(発明の名称「Resolution Sensitive Layout of Document Regions」、2004年7月29日公開、公開番号第US2004/0145593A1号公報)に記載されたのと同じ方法で計算される。
オーディオビジュアル文書情報(AVDI)は、オーディオビジュアル要素から抽出する情報である。
このように、一実施形態では、文書の電子版(必ずしもビデオやオーディオのデータは含まないもの)とそのメタデータを用いて、ビジュアルフォーカスポイント(VFP)、重要オーディブル文書情報(ADI)、オーディオビジュアル文書情報(AVDI)を決定してもよい。
ビジュアルフォーカスセグメント、重要オーディブル情報、オーディオビジュアル情報を最適化器に与える。VFP、ADI、及びAVDIを装置及びアプリケーション制約(ディスプレイサイズ、時間制約等)とともに与えると、最適化器は出力表示(例えばマルチメディアサムネイル)に含むべき情報を選択する。一実施形態では、好ましいビジュアル、オーディブル、及びオーディオビジュアル情報を出力表示に含めるように選択を最適化する。ここで、好ましい情報には、文書中の重要情報、ユーザが好む、重要なビジュアル情報(例えば画像)、重要な意味情報(例えばタイトル)、キーパラグラフ(意味分析の出力)、文書コンテクストを含んでもよい。重要情報には、文書の解像度敏感領域を含んでもよい。選択は、計算された時間属性と情報コンテント(例えば重要性)属性に基づく。
図2は、ビジュアル情報、可聴情報、オーディオビジュアル情報を処理するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア(例えば回路、専用ロジック等)、(汎用コンピュータシステムまたは専用機上で実行される)ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。
図2を参照して、本プロセスの開始において、処理ロジックは、ディスプレイ制約210とアプリケーション/タスク及びユーザ毎の制約211を用いてオーディブル文書要素201、ビジュアル文書要素202、オーディオビジュアル文書要素203と関連する時間属性を計算する(処理ブロック204)。また、処理ロジックは、ディスプレイ制約210とアプリケーション/タスク制約211を用いてオーディブル文書要素201、ビジュアル文書要素202、オーディオビジュアル文書要素203と関連する情報コンテント(例えば重要性)属性を計算する(処理ブロック206)。最適化器206中の処理ロジックは、計算された時間属性、計算された情報コンテント属性、及び時間制約212を受け取り、これに応じて、ナビゲーションパス207を生成する。
選択後、この情報から、(ビジュアルチャネルまたは表示用の)ビジュアルデータ、(オーディオチャネルまたは表示用の)オーディオデータ、(オーディオチャネル及びビジュアルチャネルの組み合わせまたは表示用の)オーディオビジュアルデータを合成しマルチメディアサムネイルを生成する。よってこの場合、サムネイルは、文書の素材をビジュアルかつオーディブルに提示する表示のことを言う。
以下、これらの動作をより詳細に説明する。ビジュアル要素の時間属性の計算、オーディオビジュアル要素の時間属性の計算、ページ制約がある2段階最適化アルゴリズム等を説明する。
時間属性の計算
マルチメディア表示の文書要素選択の最適化には、可読性のためのレイアウトとサイズの最適化や余白の縮小等の空間的制約が係わる。かかるフレームワークでは、いくつかの情報コンテント(意味的、ビジュアル)属性が共通に文書要素と関連する。ここで説明したフレームワークにおいて、一実施形態では、空間的表示と時間的表示の両方を最適化する。そのため、「時間属性」が文書要素に付随する。以下のセクションでは、オーディブル、ビジュアル、及びオーディオビジュアル文書要素の時間属性の割り当てを詳細に説明する。
オーディブル要素の時間属性t a,j の計算
文書のオーディブル要素のフォーマットはいろいろあり、テキスト、波形、音符等がある。一実施形態では、波形または音符を再生するための最適時間は一般的にその表示に固有であり(例えば、波形の時間軸等)、これらの要素にその時間属性として自動的に付随することができる。
テキストフォームのオーディブル要素の場合、一実施形態では、時間属性は次式のように計算する:
ta,j =SSC x N (式1)
ここで、Nはテキスト中の文字(数字、符号を含んでもよい)数であり、SSC(音声合成定数)は合成音声の各文字の再生に要する平均時間である。一実施形態では、SSCは次のように計算される:(1)文字数Kが分かっているテキスト文書を合成し、(2)合成した音声の発話に係るトータル時間Tを測定し、SSC=T/Kとする。SSC定数は、言語、使用するシンセサイザー、及びそのオプション(女声と男声、アクセントのタイプ、話す速さ等)に応じて変化してもよい。一実施形態では、AT&TスピーチSDK(http://www.nextup.com/attnv.htmlから入手できる)を用いると、女声の英語の場合SSCは75msと計算された。
ビジュアル要素の時間属性t v,j の計算
文書のビジュアル要素を、「テキスト」要素と、画像、表、グラフ等の「画像」要素等との2つのセットにグループ分けすることができる。
一実施形態では、テキストビジュアル要素の時間属性は、可読な解像度でユーザにテキストセグメントを見せるのに必要なビジュアル効果の時間的長さである。
図3は、文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア(例えば回路、専用ロジック等)、(汎用コンピュータシステムまたは専用機上で実行される)ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。
図3を参照して、このプロセスの開始において、処理ロジックが文書のビジュアルテキスト文書要素を受け取る(処理ブロック301)。ビジュアルテキスト文書要素を用いて、処理ロジックはビジュアルテキスト要素の時間属性を計算する(処理ブロック302)。この計算は、ビジュアルテキスト要素の可読性解像度を計算し(処理ブロック302A)、ビジュアルテキスト要素を読むために必要なパン及びズーム動作を決定し(処理ブロック302B)、可読性解像度でその動作を実行するために必要な時間を決定する(処理ブロック302C)。
このアルゴリズムの一実施形態の一般的概要を図4に示し、擬似コードの例を下に示す:
wd:表示幅(DC)
hd:表示高さ(DC)
wp:ページ幅(DI)
hp:ページ高さ(DI)
wv,i
hv,i:1テキストラインの元の幅と高さ(DEI)
N:テキスト中の文字数(DEI)

MRH:最小可読性高さ(=10ピクセル)(DC)
ZOOMC::タイトルズーム定数(=0.5sec)(AC)
PANC::パンピクセル定数(=0.01sec)(AC)
Figure 2007220093
上記のコードは、単一のテキストラインがあることを仮定している。このコードは、すべてのテキストラインの高さhtv,iを考慮することによって、複数ラインの場合に適合させられる。また、上記のコードでは、DCはディスプレイ制約、DIは文書情報、DEIは文書要素情報、ACはアプリケーション制約であることに注意する。
図4は、文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの他の実施形態を示すフロー図である。このプロセスは、ハードウェア(例えば回路、専用ロジック等)、(汎用コンピュータシステムまたは専用機上で実行される)ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。
図4を参照して、このプロセスの開始において、処理ロジックが文書のビジュアルテキスト文書要素を受け取る(処理ブロック401)。処理ロジックは、最初のビューにおいてビジュアルテキスト文書要素が読み取れるかを、ディスプレイ制約、アプリケーション制約、及び文書情報に基づいて判断する。
一実施形態では、最初のビューはサムネイルビューを有する。一実施形態では、ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づく。この場合には、処理ロジックは、ビジュアルテキスト要素が可読であると判断されると、時間制約を音声合成定数とビジュアルテキスト要素中の文字数の積に設定する(処理ロジック403)。
最初のビューで可読でなければ、処理ロジックはビジュアルテキスト要素がズームビューで可読か判断する(処理ロジック404)。その場合、処理ロジックは、ズームビューで可読であれば、音声合成定数とビジュアルテキスト要素中の文字数の積とズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す制約とを足し合わせた値に、時間制約を設定する。
ビジュアルテキスト要素が最初のビューまたはズームビューで可読でなければ、処理ロジックは、ビジュアルテキスト要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算し(処理ロジック406)、パンに要する時間を判断する。そして、時間属性を次の値(第1ないし第3の値)の和に設定する(処理ロジック407)。すなわち、パンピクセル定数と、1ラインの元のテキストの幅・高さ及びディスプレイの幅・高さの間の差との積(第1の値)、ズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す定数(第2の値)、音声合成定数と、最小可読高さに対するディスプレイ高さの商をビジュアルテキスト要素中の文字数から引いた結果との積(第3の値)、の和とする。
他の実施形態では、処理ロジックは、最小可読高さ(MRH)にズームして、要素の幅がディスプレイの幅にフィットするかチェックする。フィットすれば、それを受け入れる。フィットしなければ、パン(panning)をする。ズーム定数を固定する必要はない。例えば、ズーム定数は次式で計算してもよい:
Figure 2007220093

さらに他の実施形態では、ビジュアルテキスト要素eの時間属性を計算するため、最初に文書イメージをダウンサンプリングしてディスプレイ領域にフィットさせる。次に、Z(e)をテキスト中の最小フォントの高さを最小可読高さにするのに必要なズームファクタとして決定する。最後に、ビジュアルテキスト要素eの時間属性を次のように計算する:
Figure 2007220093

ここで、neはe(ビジュアルテキスト要素)中の文字数であり、ZCはズーム時間(我々の実施形態では1秒に固定している)であり、SSC(音声合成定数)は合成されたオーディオ(audio character)を再生するのに要する平均時間である。テキスト要素を1回のズーム動作で表示できず、ズームとパンの両方の動作が必要であっても、t(e)の計算は同じである。かかる場合、プレゼンテーション時間は、最初にテキストの一部(例えば最初のm文字)にズームし、そのテキスト上へのフォーカスをSCC x m秒持続して使用される。次に、残り時間、すなわちSCC x (ne-m)パン動作に使う。
図表要素の場合、一実施形態では、ユーザがその文書要素を理解するのに要する予測時間に基づき時間制約を計算する。理解時間CTは、次式の通り、図表タイプと図表要素のエントロピーev,iにより決まる:
Figure 2007220093

ここで、FC(ev,i)は図表定数であり、図表タイプ(画像、テーブル、グラフ等)により決まり、E(ev,i)は図表の規格化(正規化)エントロピー(normalized entropy)である。一実施形態では、規格化(normalization)は次のように実行される:
[図表のエントロピー]/[ページ全体のエントロピー]
特許文献1、すなわち米国特許出願第10/354,811号(公開公報第2004/0146199A1号)と、特許文献2、すなわち米国特許出願第10/435,300号(公開公報第2004/0145593A1号)を参照されたい。パラメータFC(ev,i)を使用する理由は、タイプが異なる図表は理解するのにかかる時間も異なるからである。例えば、一般的に、画像はグラフよりも理解しやすい。それゆえ、タイプが異なる図表の定数はそれぞれ異なる。グラフとテーブルの場合、図表を理解するのにかかる時間は、ビジュアル要素に含まれる文字数、単語数、及び数字の数により異なるかも知れない。また、CTはこれらの文書要素のビジュアルな複雑さにより異なる。この複雑さはその文書要素のエントロピーに基づく。
オーディオビジュアル要素の時間属性e av,i の計算
オーディオビジュアル要素は同期したオーディオ成分とビジュアル成分を含む文書要素である。例としては、注釈つきの図表であって、ビジュアル部分を有し、その図表注釈の合成音声がオーディオ部分であるものがある。一実施形態では、オーディオビジュアル要素の時間属性は、オーディオビジュアルテキスト要素の場合と図表要素の場合とでは異なる。以下説明する。
テキストタイプのオーディオビジュアル要素は2つの成分を含む:
V(eav,i):eav,iのビジュアル成分
A(eav,i):eav,iのオーディオ成分であり、合成テキストである
テキストタイプのオーディオビジュアル要素の場合、一実施形態では、時間属性を次のように計算する:
Figure 2007220093

変数
Figure 2007220093

は要素のビジュアル部分eav,iの時間属性である。一実施形態では、上記のコードを用いてこれを計算する。変数
Figure 2007220093

は要素のオーディブル部分eav,iの時間属性である。一実施形態では、上記の式1としてSCCを用いてこれを計算する。
図表タイプのオーディオビジュアル要素は2つの成分を含む:
V(eav,i):eav,iのビジュアル成分であり、例えば図表、テーブル、グラフ等である。
A(eav,i):eav,iのオーディオ成分であり、例えば図表注釈や図表中のテキスト等である。
しかし、図表注釈は長すぎる場合がほとんどである。注釈を短くする方法は幾つかある。例えば、注釈がいくつかの文から構成されている場合、最初の文のみを合成する。注釈が(a)、(b)等の多数のサブセクションを有するときは、これらのサブセクションが合成されるまでの部分のみを合成する。
図表タイプのオーディオビジュアル要素の場合、一実施形態では、時間属性を次のように計算する:
Figure 2007220093

CT(V(eav,i))は、上記の式2に示した、要素のビジュアル部分eav,iの図表を理解する時間である。変数
Figure 2007220093
は要素のオーディブル部分eav,iの時間属性である。一実施形態では、上記の式1に示したようにこれを計算する。
図5は、文書のオーディオビジュアル文書要素の時間属性を生成するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア(例えば回路、専用ロジック等)、(汎用コンピュータシステムまたは専用機上で実行される)ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。
図5を参照して、このプロセスの開始において、処理ロジックが文書のオーディオビジュアル文書要素を受け取る(処理ブロック501)。
次に、処理ロジックは、オーディオビジュアル文書要素のビジュアル部分をビジュアルにナビゲーションするのに要する時間と、オーディオビジュアル文書要素の合成部分を再生するのに要する時間の大きい方である時間属性を計算する。
一実施形態では、これの実行は、処理ロジックが、オーディオビジュアル文書要素がオーディオビジュアルテキスト要素か、それともオーディオビジュアル図表要素かを判断することにより行う。オーディオビジュアル文書要素がオーディオビジュアルテキスト要素である場合、処理ロジックは、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素のテキスト部分をビジュアルにナビゲーションするのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算する。オーディオビジュアル文書要素がオーディオビジュアル図表要素である場合、処理ロジックは、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素の図表部分をビジュアルに理解するのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算する。
時間属性のまとめ
下の表1は、マルチメディアサムネイルに含めることができる異なる文書要素と、その要素タイプと、各要素タイプの場合に時間属性をいかに計算するかをまとめたものである。
Figure 2007220093

これらの図表−注釈なし*は、図表注釈と組み合わせるために選択された図表である。注釈がないか非常に長い図表は、この前処理ではこのグループから除外される。
一実施形態では、サムネイルページ定数(TPC)は1秒である。
情報コンテント属性
文書要素について、情報コンテントすなわち重要性属性がオーディオ、ビジュアル、及びオーディビジュアル要素に割り当てられる。情報コンテント属性を異なる文書要素について計算する。
一部の文書要素、例えばタイトルに固定属性を割り当て、一方、その他の文書要素、例えば図表にコンテントに応じた重要性属性を割り当てることができる。
情報コンテント属性は、オーディオとビジュアル要素について一定であるか、そのコンテントから計算される。文書理解やブラウズタスクの場合など、異なるタスクには異なる情報コンテント値のセットとしてもよい。これらはアプリケーション制約と考える。
文書要素とそのタイプの例を表2に示す。
Figure 2007220093

図表−注釈なし*は、図表注釈と組み合わせるために選択された図表である。注釈がないか注釈が非常に長い図表は、この前処理ではこのグループから除外される。
一実施形態では、文書要素をどう表すかユーザのフィードバックに基づき選択する。選択のしかたの例を以下に挙げる:
一実施形態では、テキストを読み出すのにどのくらいかかるかに基づいてVとAVタイプを選択する。短いテキストの場合、オーディオチャネルがユーザの読む速さにシンクロするので、AVの方がよいと仮定する。要約などの長いテキストの場合、この仮定はあてはまらず、オーディオチャネルは有用ではなく邪魔な場合もある。
公開名と公開日等の非常に短いテキストの場合、オーディオチャネルをコミュニケーションのために使う。
著者名をビジュアル要素とするのは、シンセサイザーが名前の発音を間違えることがあるからである。
コンテントに基づく情報属性の計算
一実施形態では、情報コンテント属性を以下のように計算する。
サムネイル
ページ番号に基づく情報コンテント(例えば重要性)(最初のページが最も重要であり、それ以降のページでは重要性は減少する)
コンテントに基づく情報コンテント(例えば重要性)(テキストのみ(非常に多くある場合であり、情報コンテントは大きくない)と、図表入りテキスト(より多くの情報がサムネイルにある))
vv,i=min{1,1/pagenum+PC}
PC:ページの複雑性 PCを[0 0.5]の範囲に規格化する
pagenum:ページ番号
Figure 2007220093

wはページの幅であり、hはページの高さである。
Figure 2007220093

はそれぞれビジュアル要素ev,nの幅と高さである。関数fが文書の情報コンテントの尺度となる(例えば、エントロピーや特徴などのビジュアルな重要性の尺度であり、これは周知である)。一実施形態では、αは0.7であり、βは0.3である。
図表
同一ページ上の図表のサイズの合計に対する図表サイズ
Figure 2007220093

図表の情報コンテント属性の計算に役に立つその他の特徴には、図表の複雑性、図表参照(その図表が何回参照されるか)、及び図表コンテント(顔や建物が含まれているか)などがある。
一実施形態における情報属性のサマリー
一実施形態で使用される情報コンテント属性のサマリーを表3に示す。
Figure 2007220093

上記の値を使用して、後で修正することもできる。例えば、4頁文書の15−20秒のMMネイルの場合、特定の出力が期待される。期待される出力がこれらの値を用いた出力とマッチしない場合、情報値を修正してもよい。
最適化器の例
一実施形態では、ビジュアル情報セグメントとオーディブル情報セグメント、及び出力機器のディスプレイサイズや時間スパンT(最終的なマルチメディアサムネイルの時間的長さ)等の入力に応じて、最適化器が最適化アルゴリズムを実行する。
最適化アルゴリズムの主要機能は、各ページを所定時間(例えば0.5秒)だけディスプレイに表示するとして、使える時間スパン中に、ユーザに何ページ表示できるか最初に決定する。
一実施形態では、最適化器は、周知のやり方で、リニアパッキング/フィリングオーダーアプローチ(linear packing/filling order approach)をソートした時間属性に対して適用し、マルチメディアサムネイルにどの図表を含めるか選択する。静止画保持を文書の選択された図表に適用する。画像保持によりビジュアルチャネルが使用されている間、注釈をオーディオチャネルで「話す」。最適化後、最適化器は、選択されたビジュアル、オーディオ、及びオーディオビジュアルセグメントを読み出し順序で並べ直す。
他の最適化器を用いて、時間スパンLとサイズが制約されたビジュアルディスプレイにおいてともにコミュニケーションされる情報を最大化する。
具体的な最適化器の実施
一実施形態では、最適化器は、文書要素の情報コンテント(重要性)属性と時間属性及び時間的制約に基づき、サマリーに含める最良の文書要素を選択するように設計される。
より具体的には、問題を以下のように提起することができる:時間制約T、各ビジュアル要素ev,iの重要性vv,iと時間属性tv,i、各オーディブル要素ea,iの情報コンテントva,iと時間属性ta,iを与えられると、最適化器は、サムネイルに含めるべきビジュアル要素とオーディオ要素を探す。一部の文書要素ev,iの場合、ea,iを含めなければならない(これは、図表に伴う図表注釈等のように、ビジュアル要素と同期しなければならない一部のオーディオ要素の場合である)。他の要素セット(オーディオビジュアル要素eav,i)を加えることにより、この問題を解決し、この要素セットを純粋にビジュアルな要素(例えばページのサムネイル)及び純粋なオーディオ要素(例えばキーワード)から分けることができる。
最適化器の一実施形態では、プレゼンテーションに使える時間を最大限使用することにより、ユーザに提示する情報コンテントを最大化するよう試みる。ビジュアル要素とオーディオビジュアル要素を含める単純化をして、ビジュアル要素が締めている時間にオーディブル要素を重ねれば、最適化問題は「0−1ナップザック」問題となる。この問題では、要素は完全に含まれるか破棄されるかのいずれかである。これは、R.L.Rivestほか著、「Introduction to Algorithms」、MIT Press、MC-Graw-Hill、Cambridge Massachusetts、1997年に記載されている。
以下は具体的な最適化器の実施例である。前処理器が2ページ文書から、以下の情報と時間属性を有する要素を抽出したとする:
タイトルt=2, v=1(t:時間属性、v:情報属性)
図1 t=4, v=1/8(注釈なし)
図2 t=10, v=1/8(注釈あり)
要約t=20, v=1/8
キーワード1 t=1 v=1/180
キーワード2 t=3 v=1/180
キーワード3 t=2 v=1/180
一実施形態では、時間制約はT=8である。
最初の段階で、ビジュアル要素(図1、要約)とオーディオビジュアル要素(タイトル、図2)をそれらのv/t比を用いて並べる。
タイトル(1/2)、図1(1/32)、図2(1/80)、要約(1/160)
トータル時間は8である。最初に順序付けリストから、最適化器は、タイトルと図1を選択して表示に含める。トータル時間は2+4=6である。残り時間(すなわち8−6=2)にフィットするオーディオビジュアル要素とビジュアル要素はないから、最適化器は第2段階に進む。
第2段階では、オーディブル要素(キーワード)をそれらのv/t比を用いて以下のように順序づける:キーワード1(1/180)、キーワード3(1/360)、キーワード2(1/540)
ここで、純粋にビジュアルな要素により締められている時間を計算する:
Time (図1)=4。
この時間制約を用いてオーディオ要素を挿入する。順序付けられたリストからキーワード1とキーワード3を選択する。
それゆえ、最終的なマルチメディアサムネイルは次の文書要素を含む:タイトル、図1、キーワード1及びキーワード3
0−1ナップザック問題−2段階
一実施形態では、最適化器の目標は、以下の条件の下で次の値を最大化することである
Figure 2007220093

ここで、
vv,i:ビジュアル要素iの情報コンテント属性;
vav,i:オーディオビジュアル要素iの情報コンテント属性;
tv,i:ビジュアル要素iの時間制約;
tav,i:オーディオビジュアル要素iの時間属性;
T:時間制約、マルチメディアサムネイル提示の時間的長さ
xv,i, x av,i:変数が含まれているかどうかを示す含み変数。
次に、最適化器は、比
Figure 2007220093

を、大きい順にソートして、順序付けリスト
Figure 2007220093
を作る。一実施形態では、次のステップを反復して順序付けリストを生成する:
Figure 2007220093

ビジュアル文書要素とオーディオビジュアル文書要素のリストを特定した後、最適化器はビジュアル要素を提示するのに要する時間を次のように判断する。
Figure 2007220093

そして、オーディブル要素の最適化の第2段階を実行する:
Figure 2007220093

ここで、
va,i:オーディブル要素iの情報値属性;
ta,i:オーディブル要素iの時間属性;
a,i:含み変数
他の実施形態では、ビジュアル要素の前にオーディブル要素とオーディオビジュアル要素の組み合わせを処理することもできることに留意されたい。最適化器は、ビジュアル要素とオーディブル要素のいずれをオーディオビジュアル要素とともに最初に処理するかを指示する入力に応じる。図6に実施例を示す。図6を参照して、アプリケーション制約は、2つの段階のいずれを最初に実行するか決定するために段階決定ブロック601により使用される入力である。かかるアプリケーション制約は、例えばオーディオとビジュアルでどちらがより重要かを示す。第1段階は、所与の時間制約の下でビジュアル及びオーディオビジュアル情報とオーディオビジュアル情報を最大化し、第2段階は、マルチメディア表示に割り当てられるプレゼンテーション時間の残り時間の下でオーディブル情報を最大化する。このように、段階決定ブロックは、最初にどの段階に進み、次にどの段階に進むかを示す。
図7は、文書の文書要素を選択するプロセスの一実施形態を示すフロー図である。このプロセスは、ハードウェア(例えば回路、専用ロジック等)、(汎用コンピュータシステムまたは専用機上で実行される)ソフトウェア、またはこれらの組み合わせを含む処理ロジックにより実行される。処理ロジックは最適化器の中にあってもよい。
図7を参照して、このプロセスの開始において、処理ロジックがオーディブル、ビジュアル、及びオーディオビジュアル要素を処理する(処理ブロック701)。
オーディブル、ビジュアル、及びオーディオビジュアル文書要素から、処理ロジックは、ビジュアルとオーディオビジュアル文書要素の組み合わせか、またはオーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを、文書のマルチメディア表示に含めるために、時間属性と情報コンテント属性に基づいて選択する(処理ブロック702)。一実施形態では、処理ロジックは、1つ以上のアプリケーション制約に基づいた入力に基づいて、ビジュアルとオーディオビジュアル文書要素の組み合わせか、オーディブル情報のいずれかを選択する。
選択後、処理ロジックは、所与の時間制約の下で選択された文書要素中の情報を最大化する(処理ブロック703)。一実施形態では、処理ロジックは、ビジュアルとオーディオビジュアル文書要素を選択し、そのビジュアルとオーディオビジュアル文書要素の情報コンテントの合計を最大化する一方、選択されたビジュアルとオーディオビジュアル要素に関連する時間属性の合計はマルチメディアプレゼンテーションの長さより短い。すなわち、処理ロジックは要素のクラスを選択する。任意的に、処理ロジックは、文書要素に関連する情報コンテント属性の時間属性に対する比に基づいて、ビジュアルとオーディオビジュアル文書要素、またはオーディブルとオーディオビジュアル文書要素を順序付ける。
その後、選択された文書要素の第1のセットを最大化した後、処理ロジックは、マルチメディア表示を完了するまでに残っている時間量の下で、文書要素の第2のセットを最大化する。一実施形態では、(オーディブル文書要素の方が選択されていれば)ビジュアルとオーディオビジュアル文書要素を選択した後、処理ロジックは、オーディブル文書要素の情報コンテントの合計を最大化するようにマルチメディア表示に含めるオーディブル要素を選択する。ここで、選択されたオーディブル要素に関連する時間属性の合計は、マルチメディアプレゼンテーションの長さと選択されたビジュアル要素を提示する時間の間の差よりも小さい。
ページサムネイル制約を伴う「ナップザック問題」
一実施形態では、ユーザによりよい状況を与え、文書中をより容易にナビゲーションできるように、ページに表示すべきビジュアルアイテムがある場合、そのページのサムネイルビューを含める。それゆえ、そのページが以前に加えられていない場合、そのページを加えるコストがかかるであろう。そのコストはページサムネイルを加えることによるものである。よって、新しい制約を加え、次のように表す:
Figure 2007220093

ここで、page(ev,i)は、要素ev,iがあるページのサムネイルを含む要素ev,jであり、page(eav,i)は、要素eav,iがあるページのサムネイルを含む要素ev,jである。
このプロセスは、上記のプロセス、すなわち処理ロジックが比
Figure 2007220093

とを大きい順にソートして、要素数Nの順序リストL={el(0),…,el(N-1)}を形成するものと同様である。最適化器は次のステップを反復する:
Figure 2007220093

オーディオ、ビジュアル、及びオーディオビジュアル要素の結合最適化器−1段階

アプリケーションにより、ビジュアルまたはオーディオ要素の配置に関するプライオリティが与えられない方が望ましいのであれば、最適化問題は次のように定式化できる:
Figure 2007220093

この問題は次の問題と等価である:
Figure 2007220093

一般的に、これは線形問題であり、標準的なLP問題解決プログラムを使用することができる。例えば、Matlab(http://www.mathworks/com)やCVSoptソフトウェアパッケージ(http://www.ee.ucla.edu/~vandenbe/cvxopt/)に含まれているものである。
要素eiの時間属性tiは2つの部分tiaとtibに(tia+tib=ti)分けることができる。ここで、tiaは時間tiの大部分であり、tibは残り少しである(tia>tib)。最適化問題を次のように定式化する:
最大化
Figure 2007220093

q=v,av, または aの場合
値αq,iはユーザまたはアプリケーションが0<αq,i<tib/tiaを満たす定数として選択することができる。
時間属性を主要部分と残差部分に分け、主要部分(であるが要素の時間の全部ではないもの)を最終的な選択に含めることにより、文書要素の選択プロセスをよりフレキシブルにすることができる。
合成
上記の通り、最適化器は分析機から出力を受け取る。この出力は、ビジュアルとオーディブル文書情報の特徴と、装置の特徴と、または1つ以上の制約(例えば、ディスプレイサイズ、使える時間スパン、ユーザ設定の好み、装置のパワー容量)を含む。そして、最適化器は、装置の制約に合ったビジュアルとオーディブル情報の組み合わせを計算し、利用できる出力ビジュアル及びオーディオチャネルを介して出力できる情報キャパシティを利用する。このように、最適化器は選択機または選択メカニズムとして動作する。
選択後、シンセサイザー(synthesizer)(合成機)が最終的なマルチメディアサムネイルを作成する。一実施形態では、シンセサイザーが最適化器で決定された選択されたマルチメディア処理ステップを実行して、最終的マルチメディアサムネイルを作成する。一実施形態では、シンセサイザーは、処理ステップをリストしたプレインテキストファイルやXMLファイル等のファイルを受け取る。他の実施形態では、処理ステップのリストは、例えば、2つのソフトウェアモジュール間のソケット通信またはCOMオブジェクト通信等の手段を介して、シンセサイザーに送られる。さらに他の実施形態では、処理ステップのリストは、両方のモジュールが同一ソフトウェア中にある場合、関数パラメータとして渡される。マルチメディア処理ステップは、「従来の」画像処理ステップであるクロッピング、スケーリング、ペーストを含んでもよいが、時間成分を含むステップである例えばページフリッピング、パン、ズーム、及び音声・音楽合成等を含んでもよい。
一実施形態では、シンセサイザーは、ビジュアルシンセサイザー、オーディオシンセサイザー、及びシンクロナイザ/コンポーザを含む。シンセサイザーは、ビジュアル合成を用いて選択されたビジュアル情報から画像または画像のシーケンスを合成し、オーディオシンセサイザーを用いてオーディブル情報から音声を合成し、次にシンクロナイザ/コンポーザを用いて2つの出力チャネル(オーディオとビジュアル)を同期させ、マルチメディアサムネイルを作成する。オーディオビジュアル要素のオーディオ部分は、オーディブル情報を合成するために使用するのと同じ音声シンセサイザーを用いて合成されることに注意せよ。
一実施形態では、ズームとページフリッピング等の(オーディオを伴わない)画像シーケンスを含むビジュアル文書は、Adobe社のAfterEffectsを用いて実行され、一方、シンクロナイザ/コンポーザとしてAdobePremierを使用する。一実施形態では、オーディオシンセサイザーとしては、CMU音声合成ソフトウェア(FestVox,http://festvox.org/voicedemos.html)を用いて、オーディブル情報の音声を生成する。
一実施形態では、シンセサイザーは、シンクロナイザ/コンポーザを含まない。このような場合、シンセサイザーの出力は、2つの別々のストリームとして出力される。1つはオーディオであり、1つはビジュアルである。
シンクロナイザ/コンポーザの出力は、単一ファイルに結合されてもよいし、オーディオとビデオチャネルに分けてもよい。
アプリケーション
上記の方法は、多数のアプリケーションに潜在的に有用である。例えば、この方法は、モバイル装置や多機能機(MFP)等の装置で文書をブラウズするために使用してもよい。
例えば、モバイル装置上でインターラクティブに文書ブラウズを実行する時、文書ブラウズは、ズームやスクロール等ではなく、プレイ、ポーズ、早送り、加速、減速等を含む動作として再定義することができる。
他のモバイル装置アプリケーションでは、モバイル装置で文書を見るとき、上記の方法を使用して、MMネイルの長いもの(例えば15分の長さ)を使用し、概要だけではなく、文書の内容を理解させるようにすることもできる。このアプリケーションは、画像表示機能が限定されているが、オーディオ機能が充実している装置(例えば携帯電話)にも適している。一実施形態では、モバイル装置で文書をブラウズした後、そのモバイル装置はそれを他の場所にある装置(例えばMFP)に送り、その装置にその文書に対して他の処理を実行させる(例えば、その文書を印刷させる)。
MFPの一アプリケーションでは、ここで説明した方法を用いて文書の概要を知ることができる。例えば、ユーザがMFPで文書をコピーしている時、ページをスキャンすると、自動的に計算された文書の概要がユーザに表示され、その文書の内容を理解しやすくする。
MFP中で文書画像の画質向上を実行する画像処理アルゴリズムは、問題となりそうな領域、例えばコントラストが低い領域、フォントが小さい領域、スキャンの分解能と干渉してしまうハーフトーン領域等を検出する。ユーザにスキャン文書の品質(すなわちスキャン品質)を評価させるために、MMネイルをコピー機のディスプレイ上に(オーディオなしで)表示して、必要に応じて設定変更(例えば、コントラストを高くしたり、解像度を上げたりする)を示唆する。
翻訳アプリケーションでは、オーディオチャネルの言語をユーザが選択して、オーディブル情報をその選択された言語で出力してもよい。この場合、最適化器は言語が異なれば異なる機能をするが、それはオーディオの長さが異なるからである。すなわち、最適化器の結果は言語によって異なる。一実施形態では、ビジュアル文書テキストを変更する。ビジュアル文書部分を異なる言語で再表示することができる。
一実施形態では、MMネイルの最適化は、ユーザからのインターラクションに基づいて、すぐに計算される。例えば、ユーザがオーディオチャネルを閉じると、この情報チャネルがなくなったことに対応して、他のビジュアル情報によりビジュアルの表示が変化する。他の実施例では、ユーザがビジュアルチャネルをスローダウンすると(例えば、車の運転中)、オーディオチャネルを介して出力される情報が変化する。また、ビューイング装置の計算上の制約に基づいて、例えばズーム、パン等のアニメーション効果がえられる。
一実施形態では、MMネイルを使用して、障害を持つ人が文書情報を得るのを援助する。例えば、目が不自由な人は、短いテキストをオーディブル情報の形で得たいかも知れない。他の実施例では、色盲の人は、文書中の色のついた情報の一部をオーディオチャネルのオーディブル情報として得ることを欲するかも知れない。
コンピュータシステムの実施例
図8は、ここに記載した1つ以上の動作を実行するコンピュータシステムの例を示すブロック図である。図8を参照して、コンピュータシステム800は、クライアントまたはサーバのコンピュータシステムを含む。コンピュータシステム800は、情報をやりとりする通信メカニズムすなわちバス811と、情報を処理する、バス811に結合したプロセッサ812とを有する。プロセッサ812は、例えばペンティアム(登録商標)プロセッサ等のマイクロプロセッサを含むが、マイクロプロセッサに限定されない。
システム800は、さらに、プロセッサ812により実行される情報及び命令を格納する、バス811に結合したランダムアクセスメモリ(RAM)またはその他のダイナミック記憶装置804(ここではメインメモリと呼ぶ)を有する。メインメモリ804は、プロセッサ812による命令の実行中に、一時的変数やその他の中間情報を記憶するために使用される。
コンピュータシステム800は、プロセッサ812の静的情報や命令を記憶する、バス811に結合した読み出し専用メモリ(ROM)及び/またはその他の静的記憶装置806と、磁気ディスク、光ディスクとその対応するディスクドライブ等であるデータ記憶装置807とを有する。データ記憶装置807は、情報と命令を記憶し、バス811に結合している。
コンピュータシステム800は、コンピュータのユーザに情報を表示するための、バス811に結合した、陰極線管(CRT)または液晶ディスプレイ(LCD)等のディスプレイ装置821に結合している。英数字入力装置822は、英数字その他のキーを含み、バス811に結合され、プロセッサ812に情報とコマンド選択を送る。追加的なユーザ入力装置として、マウス、トラックボール、トラックパッド、スタイラス、またはカーソル方向キー等のカーソル制御823があり、バス811に結合し、プロセッサ812に方向情報とコマンド選択を送り、ディスプレイ821条のカーソルの動きを制御する。
バス811に結合した他の装置としてハードコピー装置824がある。このハードコピー装置824は、紙、フィルム、その他のメディア上に、命令、データ、その他の情報を印刷するために使用される。さらに、スピーカ及び/またはマイクロホン等の音声録音再生装置も任意的にバス811に結合しており、コンピュータシステム800のオーディオインターフェイスとして機能する。バス811に結合する他の装置として、電話やハンドヘルドパームトップ装置と通信する、有線または無線の通信機能825がある。
なお、オーディブル、ビジュアル、及びオーディオビジュアル文書要素は、図8のコンピュータシステムにおける806や807に記録されている各文書要素を読み出すことで各文書要素を受け取ることとしても良いし、825によりネットワークを介して接続される他のコンピュータシステムから各文書要素を受信することで、受け取ることとしても良い。
ディスプレイの制約は、図8のコンピュータシステムにおける821から、事前に、又は、処理ロジックの実行時に、ディスプレイ制約を受信して806や807に記録しておくこととしても良い。825によりネットワークを介して接続される他のコンピュータシステムにおけるディスプレイのディスプレイ制約の受信についても同様に、事前に、又は、処理ロジックの実行時に、ディスプレイ制約を受信することとしても良い。
システム800のどの構成要素もそれに関連するハードウェアも、本発明で使用してもよい。しかし、言うまでもなく、他の構成のコンピュータシステムでは、これらの構成要素の一部または全部を含んでもよい。
上記の説明を読んだ当業者には本発明の変形例や修正例が明らかになったことは間違いなく、言うまでもなく、上記のどの実施形態も本発明を限定することを目的としたものではない。それゆえ、いろいろな実施形態の詳細の説明は、本発明に本質的であると考えられる特徴のみを記載した請求項の範囲を限定するものではない。
なお、本開示にあたり、以下の付記を記す。
(付記24)
システムにより実行された時、システムに一方法を実行させる命令を格納した1つ以上の記録媒体を有する製品であって、前記方法は、
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
マルチメディア表示に含める1つ以上のオーディブル、ビジュアル、オーディオビジュアル文書要素のセットを、ディスプレイと時間制約、及び少なくとも1つのアプリケーション制約とユーザごとの制約に基づいて選択することを特徴とする製品。
(付記25)
付記24に記載の製品であって、
1つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップは、
ディスプレイ制約、及びアプリケーション制約とユーザ制約の少なくとも一方に基づき、オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、
ディスプレイとアプリケーションの制約に基づき、オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、を有することを特徴とする製品。
(付記26)
付記24に記載の製品であって、
1つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップは、
前記1つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有することを特徴とする製品。
(付記27)
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取る入力と、
マルチメディア表示に含める1つ以上のオーディブル、ビジュアル、オーディオビジュアル文書要素のセットを、ディスプレイと時間制約、及び少なくとも1つのアプリケーション制約とユーザごとの制約に基づいて選択する選択器とを有することを特徴とする装置。
(付記28)
付記27に記載の装置であって、
マルチメディア表示発生器は、1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成することを特徴とする装置。
(付記29)
文書のオーディオビジュアル文書要素を受け取るステップと、
オーディオビジュアル文書要素のテキスト部分をビジュアルにナビゲーションするのに必要な時間と、オーディオビジュアル文書要素に関連する合成テキストを再生するのに要する時間のうち最大のものとしてオーディオビジュアル文書要素の時間属性を計算するステップと、を有することを特徴とする方法。
(付記30)
文書のオーディオビジュアル文書要素を受け取るステップと、
オーディオビジュアル文書要素の図表部分をビジュアルに理解するのに必要な時間と、オーディオビジュアル文書要素に関連する合成テキストを再生するのに必要な時間のうち最大のものとしてオーディオビジュアル文書要素の時間属性を計算するステップと、を有することを特徴とする方法。
(付記31)
文書のビジュアル文書要素を受け取るステップと、
ビジュアル要素の時間属性を計算するステップと、を有し、その計算は、
必要なパンとズームの動作を決定するステップと、
その動作が実行される1つ以上の解像度に基づいて動作を実行するのに必要な時間を決定するステップと、を有することを特徴とする方法。
(付記32)
付記31に記載の方法であって、
ビジュアルテキスト要素の時間属性の計算は、さらに、
ディスプレイとアプリケーション制約と文書情報に基づき第1のビューのビジュアルテキスト要素の可読性を決定するステップと、
ビジュアル要素が可読であると判断された場合、音声合成定数とビジュアル要素中の文字数の積に時間属性を設定するステップと、を有することを特徴とする方法。
(付記33)
付記32に記載の方法であって、
第1のビューで可読でない場合、
ズームビューでのビジュアル要素の可読性を決定するステップと、
ズームビューで可読であれば、音声合成定数とビジュアル要素中の文字数の積と、ズームビュー中のビジュアル要素中のタイトルにズームするのに必要な時間を示す定数とを足し合わせた値に、時間制約を設定するステップと、を有することを特徴とする方法。
(付記34)
付記33に記載の方法であって、
第1またはズームビューで可読でない場合、
ビジュアル要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算するステップと、
パンに必要な時間を決定するステップと、
パンピクセル制約と、時間属性を1ラインの元のテキスト幅及び高さとディスプレイ幅の間の差との積と、
ズームビューにおいてビジュアル要素中のタイトルにズームするのに必要な時間を示す定数と、
音声合成定数と、ディスプレイ高さの最小可読高さとの商をビジュアルテキスト要素の文字数から引いた結果との積と、を加えた値に設定することを特徴とする方法。
(付記35)
付記32に記載の方法であって、
ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づくことを特徴とする方法。
(付記36)
付記32に記載の方法であって、
第1のビューはサムネイルビューを含むことを特徴とする方法。
(付記37)
システムにより実行された時、システムに一方法を実行させる命令を格納した1つ以上の記録媒体を有する製品であって、前記方法は、
文書のビジュアルテキスト文書要素を受け取るステップと、
ビジュアルテキスト要素の時間属性を計算するステップと、を有し、その計算は、
必要なパンとズームの動作を決定するステップと、
その動作が実行される1つ以上の解像度に基づいて動作を実行するのに必要な時間を決定するステップと、を有することを特徴とする方法。
(付記38)
文書のビジュアル文書要素を受け取るステップと、
ビジュアル要素の時間属性を計算するステップと、を有し、その計算は、
最小可読文字高さへのズーム動作を実行するステップと、
要素の幅をチェックしてその要素がディスプレイ幅にフィットするか決定するステップと、
要素幅がディスプレイ幅にフィットしない場合パン動作を実行するステップと、を有することを特徴とする方法。
(付記39)
文書のビジュアル文書要素を受け取るステップと、
ビジュアル要素の時間属性を計算するステップと、を有し、その計算は、
第1のビューにズーム動作を実行するステップと、
要素が完全に見えなければパンを実行するステップと、を有することを特徴とする方法。
(付記40)
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
時間と情報コンテント属性に基づき、文書のマルチメディア表示に含めるビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを選択するステップと、
所与の時間制約に下でセットに含まれる情報を最大化するように第1のセットを選択するステップと、
選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、セットに含まれる情報を最大化するように第2のセットを選択するステップと、を有することを特徴とする方法。
(付記41)
付記40に記載の方法であって、
組み合わせとオーディブル情報のいずれかの選択は、1つ以上のアプリケーション制約に基づいた入力に基づくことを特徴とする方法。
(付記42)
付記40に記載の方法であって、
選択した文書要素の最大化はページサムネイル制約の下で行われることを特徴とする方法。
(付記43)
付記40に記載の方法であって、
文書要素に関連する情報コンテント属性の文書要素に関連する時間属性に対する比に基づいて、ビジュアルとオーディオビジュアル文書要素を順序付けるステップと、
マルチメディア表示に含めるためのビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブル文書要素のいずれかを選択するステップは、ビジュアルとオーディオビジュアル文書要素の情報コンテントの合計を最大化し、選択されたビジュアル及びオーディオビジュアル要素に関連付けられた時間属性の合計はマルチメディア表示の表示時間よりも短いように、ビジュアルとオーディオビジュアル文書要素を選択するステップを含むことを特徴とする方法。
(付記44)
付記43に記載の方法であって、
マルチメディア表示に含めるためにビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブル文書要素のいずれかを選択するステップは、オーディブル文書要素の情報コンテントの合計を最大化し、選択されたオーディブル要素と関連する時間属性の合計がマルチメディア表示の長さと選択されたビジュアル要素の表示時間の間の差よりも小さいように、マルチメディア表示に含ませるオーディオ要素を選択するステップを有することを特徴とする方法。
(付記45)
システムにより実行された時、システムに一方法を実行させる命令を格納した1つ以上の記録媒体を有する製品であって、前記方法は、
オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
時間と情報コンテント属性に基づき、文書のマルチメディア表示に含めるビジュアルとオーディオビジュアル文書要素の組み合わせかオーディブル文書要素のいずれかを選択するステップと、
所与の時間制約に下で文書要素の第1のセットに含まれる情報を最大化するように第1のセットを選択するステップと、
選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、文書要素の第2のセットに含まれる情報を最大化するように第2のセットを選択するステップと、を有することを特徴とする方法。
(付記46)
オーディオとビジュアル要素を受け取るステップと、
オーディオとビジュアルフォーカスポイントを決定するステップと、
オーディオビジュアル要素を選択するステップと、
選択されたオーディオビジュアル要素と、選択されたオーディオビジュアル要素の一部ではないオーディオとビジュアル要素の組み合わせとに基づき、制約されたディスプレイ領域中のプリセット時間中に表示するナビゲーションパスを生成するステップと、を有することを特徴とする方法。
(付記47)
オーディオとビジュアル要素を受け取る入力と、
オーディオとビジュアルフォーカスポイントを決定するオーディオ及びビジュアルフォーカス決定器と、
オーディオビジュアル要素を選択するオーディオビジュアル要素選択器と、
選択されたオーディオビジュアル要素と、選択されたオーディオビジュアル要素の一部ではないオーディオとビジュアル要素の組み合わせとに基づき、制約されたディスプレイ領域中のプリセット時間中に表示するナビゲーションパスを生成するナビゲーションパス生成器と、を有することを特徴とする装置。
文書のマルチメディア表示を生成するプロセスの一実施形態を示すフロー図である。 ビジュアル情報、可聴情報、オーディオビジュアル情報を処理するプロセスの一実施形態を示すフロー図である。 文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの一実施形態を示すフロー図である。 文書のビジュアルテキスト文書要素の時間属性を計算するプロセスの他の実施形態を示すフロー図である。 文書のオーディオビジュアル文書要素の時間属性を生成するプロセスの一実施形態を示すフロー図である。 2段階最適化器の一実施形態を示す図である。 文書の文書要素を選択するプロセスの一実施形態を示すフロー図である。 コンピュータシステムの一実施形態を示すブロック図である。
符号の説明
201 オーディブル文書要素
202 ビジュアル文書要素
203 オーディオビジュアル文書要素
204/205 時間属性と重要性属性を計算
206 最適化器
207 ナビゲートパス
210 ディスプレイ制約
211 アプリケーション/タスク制約
212 時間制約
804 メインメモリ
806 スタティック記憶装置
807 データ記憶装置
812 プロセッサ
811 バス
821 ディスプレイ装置
822 英数字入力装置
823 カーソル制御装置
824 ハードコピー装置
825 通信機能

Claims (47)

  1. オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取るステップと、
    ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算するステップと、
    ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算するステップと、
    時間及び情報コンテント属性に基づいて、マルチメディア表示に含める1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップと、を有することを特徴とする方法。
  2. 請求項1に記載の方法であって、
    情報コンテント属性は1つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする方法。
  3. 請求項1に記載の方法であって、
    1つのビジュアル文書要素はビジュアルテキスト要素を有し、時間属性の計算はそのビジュアルテキスト要素の時間属性の計算を有し、その計算は、
    ズームパラメータを計算するステップと、
    必要なパン動作を決定するステップと、
    パンとズーム動作を実行するのに要する時間を決定するステップと、を有することを特徴とする方法。
  4. 請求項3に記載の方法であって、
    ズームパラメータは可読性を示すことを特徴とする方法。
  5. 請求項3に記載の方法であって、
    ズーム動作は可読でない解像度から可読な解像度に変更するズームを行うことを特徴とする方法。
  6. 請求項1に記載の方法であって、
    ビジュアルテキスト要素の時間属性の計算は、さらに、
    ディスプレイ制約と文書情報に基づき第1のビューのビジュアルテキスト要素の可読性を決定するステップと、
    ビジュアルテキスト要素が可読であると判断された場合、音声合成定数とビジュアルテキスト要素中の文字数の積に時間属性を設定するステップと、を有することを特徴とする方法。
  7. 請求項6に記載の方法であって、
    可読性の決定は、1つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする方法。
  8. 請求項6に記載の方法であって、
    第1のビューで可読でない場合、
    ズームビューでのビジュアルテキスト要素の可読性を決定するステップと、
    ズームビューで可読であれば、音声合成定数とビジュアルテキスト要素中の文字数の積と、ズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す定数とを足し合わせた値に、時間制約を設定するステップと、を有することを特徴とする方法。
  9. 請求項8に記載の方法であって、
    第1のビューまたはズームビューで可読でない場合、
    ビジュアルテキスト要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算するステップと、
    パンに必要な時間を決定するステップと、
    ズームビューのビジュアルテキスト要素のテキストにズームし、テキスト要素をパンするのに必要な時間に基づき時間属性を設定するステップと、を有することを特徴とする方法。
  10. 請求項6に記載の方法であって、
    第1のビューはサムネイルビューを含むことを特徴とする方法。
  11. 請求項6に記載の方法であって、
    ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づくことを特徴とする方法。
  12. 請求項1に記載の方法であって、
    オーディオビジュアル文書要素は、テキスト部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素のテキスト部分をビジュアルにナビゲーションするのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする方法。
  13. 請求項1に記載の方法であって、
    オーディオビジュアル文書要素は、図表部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素の図表部分をビジュアルに理解するのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする方法。
  14. 請求項1に記載の方法であって、
    前記1つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成するステップと、を有することを特徴とする方法。
  15. 請求項14に記載の方法であって、
    1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いてマルチメディア表示を作成するステップは、マルチメディア表示を生成するときに1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットが処理されるナビゲーションパス表示を出力するステップを有することを特徴とする方法。
  16. 請求項1に記載の方法であって、
    さらに、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を読む順序で並べ替えるステップを有することを特徴とする方法。
  17. 請求項1に記載の方法であって、
    時間及び情報コンテント属性に基づいて、1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択するステップは、
    ビジュアルとオーディオビジュアル文書要素の組み合わせか、オーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを選択するステップと、
    所与の時間制約に下で文書要素の第1のセットに含まれる情報を最大化するように第1のセットを選択するステップと、
    選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、文書要素の第2のセットに含まれる情報を最大化するように第2のセットを選択するステップと、を有することを特徴とする方法。
  18. 請求項17に記載の方法であって、
    いずれかの組み合わせを選択するステップは、アプリケーションまたはユーザからの入力に応じて実行されることを特徴とする方法。
  19. 請求項17に記載の方法であって、
    オーディブルとオーディオビジュアル文書要素の組み合わせと、ビジュアルとオーディオビジュアル文書要素の組み合わせのいずれかの選択は、1つ以上のアプリケーション制約に基づいた入力に基づくことを特徴とする方法。
  20. 請求項17に記載の方法であって、
    選択した文書要素の最大化はページサムネイル制約の下で行われることを特徴とする方法。
  21. 請求項1に記載の方法であって、
    ディスプレイの制約は、マルチメディア表示を生成する機器のディスプレイサイズであることを特徴とする方法。
  22. 請求項1に記載の方法であって、
    選択した文書要素がディスプレイ幅にフィットするように選択した文書要素と関連する時間属性を分けるステップをさらに有することを特徴とする方法。
  23. 請求項22に記載の方法であって、
    時間属性が分かれる点はユーザとアプリケーションの一方または両方により選択されることを特徴とする方法。
  24. オーディブル、ビジュアル、及びオーディオビジュアル文書要素を受け取る手段と、
    ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する時間属性を計算する手段と、
    ディスプレイの制約に基づき、前記オーディブル、ビジュアル、及びオーディオビジュアル文書要素と関連する情報コンテント属性を計算する手段と、
    時間及び情報コンテント属性に基づいて、マルチメディア表示に含める1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択する手段と、を有することを特徴とする情報処理装置。
  25. 請求項24に記載の情報処理装置であって、
    情報コンテント属性は1つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする情報処理装置。
  26. 請求項24に記載の情報処理装置であって、
    1つのビジュアル文書要素はビジュアルテキスト要素を有し、時間属性の計算はそのビジュアルテキスト要素の時間属性の計算を有し、その計算は、
    ズームパラメータを計算する手段と、
    必要なパン動作を決定する手段と、
    パンとズーム動作を実行するのに要する時間を決定する手段と、を有することを特徴とする情報処理装置。
  27. 請求項26に記載の情報処理装置であって、
    ズームパラメータは可読性を示すことを特徴とする情報処理装置。
  28. 請求項26に記載の情報処理装置であって、
    ズーム動作は可読でない解像度から可読な解像度に変更するズームを行うことを特徴とする情報処理装置。
  29. 請求項24に記載の情報処理装置であって、
    ビジュアルテキスト要素の時間属性の計算は、さらに、
    ディスプレイ制約と文書情報に基づき第1のビューのビジュアルテキスト要素の可読性を決定する手段と、
    ビジュアルテキスト要素が可読であると判断された場合、音声合成定数とビジュアルテキスト要素中の文字数の積に時間属性を設定する手段と、を有することを特徴とする情報処理装置。
  30. 請求項29に記載の情報処理装置であって、
    可読性の決定は、1つ以上のアプリケーション制約とユーザ毎の制約に基づくことを特徴とする情報処理装置。
  31. 請求項29に記載の情報処理装置であって、
    第1のビューで可読でない場合、
    ズームビューでのビジュアルテキスト要素の可読性を決定する手段と、
    ズームビューで可読であれば、音声合成定数とビジュアルテキスト要素中の文字数の積と、ズームビュー中のビジュアルテキスト要素中のタイトルにズームするのに必要な時間を示す定数とを足し合わせた値に、時間制約を設定する手段と、を有することを特徴とする情報処理装置。
  32. 請求項31に記載の情報処理装置であって、
    第1のビューまたはズームビューで可読でない場合、
    ビジュアルテキスト要素中のテキストの可読性に必要なズーム量を示すズームファクタを計算する手段と、
    パンに必要な時間を決定する手段と、
    ズームビューのビジュアルテキスト要素のテキストにズームし、テキスト要素をパンするのに必要な時間に基づき時間属性を設定する手段と、を有することを特徴とする情報処理装置。
  33. 請求項29に記載の情報処理装置であって、
    第1のビューはサムネイルビューを含むことを特徴とする情報処理装置。
  34. 請求項29に記載の情報処理装置であって、
    ディスプレイ制約はディスプレイの幅と高さを含み、文書情報はページの幅と高さに基づくことを特徴とする情報処理装置。
  35. 請求項24に記載の情報処理装置であって、
    オーディオビジュアル文書要素は、テキスト部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素のテキスト部分をビジュアルにナビゲーションするのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする情報処理装置。
  36. 請求項24に記載の情報処理装置であって、
    オーディオビジュアル文書要素は、図表部分を有するオーディオビジュアルテキスト要素を有し、時間属性の計算は、オーディオビジュアル要素の時間属性を、オーディオビジュアル要素の図表部分をビジュアルに理解するのに要する時間と、そのオーディオビジュアル要素に付随する合成テキストを再生するのに要する時間との大きい方として、計算することを特徴とする情報処理装置。
  37. 請求項24に記載の情報処理装置であって、
    前記1つ以上のオーディオ、ビジュアル、及びオーディオビジュアル文書要素のセットを用いて前記マルチメディア表示を作成する手段と、を有することを特徴とする情報処理装置。
  38. 請求項37に記載の情報処理装置であって、
    1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを用いてマルチメディア表示を作成する手段は、マルチメディア表示を生成するときに1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットが処理されるナビゲーションパス表示を出力する手段を有することを特徴とする情報処理装置。
  39. 請求項24に記載の情報処理装置であって、
    さらに、オーディブル、ビジュアル、及びオーディオビジュアル文書要素を読む順序で並べ替える手段を有することを特徴とする情報処理装置。
  40. 請求項24に記載の情報処理装置であって、
    時間及び情報コンテント属性に基づいて、1つ以上のオーディブル、ビジュアル、及びオーディオビジュアル文書要素のセットを選択する手段は、
    ビジュアルとオーディオビジュアル文書要素の組み合わせか、オーディブルとオーディオビジュアル文書要素の組み合わせのいずれかを選択する手段と、
    所与の時間制約に下で文書要素の第1のセットに含まれる情報を最大化するように第1のセットを選択する手段と、
    選択された文書要素を最大化した後、マルチメディア表示の残り時間量の下で、文書要素の第2のセットに含まれる情報を最大化するように第2のセットを選択する手段と、を有することを特徴とする情報処理装置。
  41. 請求項40に記載の情報処理装置であって、
    いずれかの組み合わせを選択する手段は、アプリケーションまたはユーザからの入力に応じて実行されることを特徴とする情報処理装置。
  42. 請求項40に記載の情報処理装置であって、
    オーディブルとオーディオビジュアル文書要素の組み合わせと、ビジュアルとオーディオビジュアル文書要素の組み合わせのいずれかの選択は、1つ以上のアプリケーション制約に基づいた入力に基づくことを特徴とする情報処理装置。
  43. 請求項40に記載の情報処理装置であって、
    選択した文書要素の最大化はページサムネイル制約の下で行われることを特徴とする情報処理装置。
  44. 請求項24に記載の情報処理装置であって、
    ディスプレイの制約は、マルチメディア表示を生成する機器のディスプレイサイズであることを特徴とする情報処理装置。
  45. 請求項24に記載の情報処理装置であって、
    選択した文書要素がディスプレイ幅にフィットするように選択した文書要素と関連する時間属性を分ける手段をさらに有することを特徴とする情報処理装置。
  46. 請求項45に記載の情報処理装置であって、
    時間属性が分かれる点はユーザとアプリケーションの一方または両方により選択されることを特徴とする情報処理装置。
  47. コンピュータに、請求項1ないし23いずれか一項記載の方法ステップを実行させることを特徴とするコンピュータプログラム。
JP2007005206A 2006-01-13 2007-01-12 ナビゲーションパスの計算方法 Expired - Fee Related JP5089996B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/332,533 2006-01-13
US11/332,533 US7761789B2 (en) 2006-01-13 2006-01-13 Methods for computing a navigation path

Publications (3)

Publication Number Publication Date
JP2007220093A true JP2007220093A (ja) 2007-08-30
JP2007220093A5 JP2007220093A5 (ja) 2010-01-07
JP5089996B2 JP5089996B2 (ja) 2012-12-05

Family

ID=38121311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007005206A Expired - Fee Related JP5089996B2 (ja) 2006-01-13 2007-01-12 ナビゲーションパスの計算方法

Country Status (3)

Country Link
US (1) US7761789B2 (ja)
EP (1) EP1814049A1 (ja)
JP (1) JP5089996B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138479A (ja) * 2014-01-24 2015-07-30 レノボ・シンガポール・プライベート・リミテッド Webサイトを共有する方法、電子機器およびコンピュータ・プログラム

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
US8467506B2 (en) * 2005-04-21 2013-06-18 The Invention Science Fund I, Llc Systems and methods for structured voice interaction facilitated by data channel
US8938052B2 (en) * 2005-04-21 2015-01-20 The Invention Science Fund I, Llc Systems and methods for structured voice interaction facilitated by data channel
US9459622B2 (en) 2007-01-12 2016-10-04 Legalforce, Inc. Driverless vehicle commerce network and community
US7788579B2 (en) * 2006-03-06 2010-08-31 Ricoh Co., Ltd. Automated document layout design
US9373149B2 (en) 2006-03-17 2016-06-21 Fatdoor, Inc. Autonomous neighborhood vehicle commerce network and community
US9098545B2 (en) 2007-07-10 2015-08-04 Raj Abhyanker Hot news neighborhood banter in a geo-spatial social network
US8965409B2 (en) 2006-03-17 2015-02-24 Fatdoor, Inc. User-generated community publication in an online neighborhood social network
US9037516B2 (en) 2006-03-17 2015-05-19 Fatdoor, Inc. Direct mailing in a geo-spatial environment
US9070101B2 (en) 2007-01-12 2015-06-30 Fatdoor, Inc. Peer-to-peer neighborhood delivery multi-copter and method
US9002754B2 (en) 2006-03-17 2015-04-07 Fatdoor, Inc. Campaign in a geo-spatial environment
US9064288B2 (en) 2006-03-17 2015-06-23 Fatdoor, Inc. Government structures and neighborhood leads in a geo-spatial environment
US8863245B1 (en) 2006-10-19 2014-10-14 Fatdoor, Inc. Nextdoor neighborhood social network method, apparatus, and system
US8812969B2 (en) * 2007-03-21 2014-08-19 Ricoh Co., Ltd. Methods for authoring and interacting with multimedia representations of documents
US8584042B2 (en) 2007-03-21 2013-11-12 Ricoh Co., Ltd. Methods for scanning, printing, and copying multimedia thumbnails
US20080235564A1 (en) 2007-03-21 2008-09-25 Ricoh Co., Ltd. Methods for converting electronic content descriptions
US8583637B2 (en) * 2007-03-21 2013-11-12 Ricoh Co., Ltd. Coarse-to-fine navigation through paginated documents retrieved by a text search engine
AU2008236665B2 (en) * 2007-04-03 2013-08-22 Nuvasive, Inc. Neurophysiologic monitoring system
JP4898529B2 (ja) 2007-04-06 2012-03-14 株式会社エヌ・ティ・ティ・ドコモ エリア案内装置およびプログラム
KR100916505B1 (ko) * 2008-02-20 2009-09-08 한국전자통신연구원 정상 재생 타임을 이용한 스케일러블 비디오 코딩 정보와어드밴스드 오디오 코딩 정보의 동기화 지원 방법 및 장치
EP2249701B1 (en) * 2008-03-05 2020-04-29 Becton, Dickinson and Company Capillary action collection container assembly
JP5104709B2 (ja) * 2008-10-10 2012-12-19 ソニー株式会社 情報処理装置、プログラム、および情報処理方法
US9820480B2 (en) 2008-12-16 2017-11-21 Nico Corporation System for collecting and preserving tissue cores
US9026223B2 (en) 2009-04-30 2015-05-05 Medtronic, Inc. Therapy system including multiple posture sensors
JP5572016B2 (ja) * 2009-08-04 2014-08-13 シスメックス株式会社 組織液抽出用デバイス、その製造方法、及び該デバイスを用いた組織液の分析方法
US20110184738A1 (en) * 2010-01-25 2011-07-28 Kalisky Dror Navigation and orientation tools for speech synthesis
US9155886B2 (en) * 2010-10-28 2015-10-13 Cochlear Limited Fitting an auditory prosthesis
US9465785B2 (en) * 2011-09-16 2016-10-11 Adobe Systems Incorporated Methods and apparatus for comic creation
US8986228B2 (en) * 2011-09-19 2015-03-24 Trimanus Medical, Inc. Method and apparatus for monitoring surgical traction
US9839374B2 (en) * 2011-09-23 2017-12-12 Orthosensor Inc. System and method for vertebral load and location sensing
US8996350B1 (en) 2011-11-02 2015-03-31 Dub Software Group, Inc. System and method for automatic document management
US20130262968A1 (en) * 2012-03-31 2013-10-03 Patent Speed, Inc. Apparatus and method for efficiently reviewing patent documents
US9264505B2 (en) * 2013-01-31 2016-02-16 Hewlett Packard Enterprise Development Lp Building a semantics graph for an enterprise communication network
US9439367B2 (en) 2014-02-07 2016-09-13 Arthi Abhyanker Network enabled gardening with a remotely controllable positioning extension
US9457901B2 (en) 2014-04-22 2016-10-04 Fatdoor, Inc. Quadcopter with a printable payload extension system and method
US9004396B1 (en) 2014-04-24 2015-04-14 Fatdoor, Inc. Skyteboard quadcopter and method
US9022324B1 (en) 2014-05-05 2015-05-05 Fatdoor, Inc. Coordination of aerial vehicles through a central server
US9441981B2 (en) 2014-06-20 2016-09-13 Fatdoor, Inc. Variable bus stops across a bus route in a regional transportation network
US9971985B2 (en) 2014-06-20 2018-05-15 Raj Abhyanker Train based community
US9451020B2 (en) 2014-07-18 2016-09-20 Legalforce, Inc. Distributed communication of independent autonomous vehicles to provide redundancy and performance
US20180330325A1 (en) 2017-05-12 2018-11-15 Zippy Inc. Method for indicating delivery location and software for same
US20200134103A1 (en) * 2018-10-26 2020-04-30 Ca, Inc. Visualization-dashboard narration using text summarization

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231187A (ja) * 1993-02-08 1994-08-19 Nec Corp 自動ページめくり機能付き電子書籍装置
JPH06332893A (ja) * 1993-05-21 1994-12-02 Hitachi Ltd 文章加工装置
JPH0850471A (ja) * 1994-08-05 1996-02-20 Koito Ind Ltd 情報表示装置およびこれを用いた表示方法
JPH08235219A (ja) * 1995-02-27 1996-09-13 Canon Inc 文書要約装置
JPH1039846A (ja) * 1996-07-19 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> マルチメディア情報提示装置および蓄積装置
JP2000076473A (ja) * 1998-04-07 2000-03-14 Fuji Xerox Co Ltd 自動文書再オ―サリング方法及びシステム
JP2000231475A (ja) * 1999-02-10 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> マルチメディア情報閲覧システムにおける音声読み上げ方法
JP2002182815A (ja) * 2000-12-12 2002-06-28 Fujitsu Ltd 表示装置および表示制御プログラムを記録したコンピュータ読取可能な記録媒体
US20050084136A1 (en) * 2003-10-16 2005-04-21 Xing Xie Automatic browsing path generation to present image areas with high attention value as a function of space and time
JP2005251034A (ja) * 2004-03-05 2005-09-15 Konami Co Ltd 文字列表示システム、文字列表示方法及びプログラム
JP2005293174A (ja) * 2004-03-31 2005-10-20 Toshiba Corp テキストデータ編集装置、テキストデータ編集方法及びテキストデータ編集プログラム

Family Cites Families (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5353401A (en) 1992-11-06 1994-10-04 Ricoh Company, Ltd. Automatic interface layout generator for database systems
EP0677811A1 (en) 1994-04-15 1995-10-18 Canon Kabushiki Kaisha Image processing system with on-the-fly JPEG compression
US5625767A (en) 1995-03-13 1997-04-29 Bartell; Brian Method and system for two-dimensional visualization of an information taxonomy and of text documents based on topical content of the documents
AU5442796A (en) 1995-04-06 1996-10-23 Avid Technology, Inc. Graphical multimedia authoring system
US5903904A (en) 1995-04-28 1999-05-11 Ricoh Company Iconic paper for alphabetic, japanese and graphic documents
WO1996036003A1 (en) 1995-05-10 1996-11-14 Minnesota Mining And Manufacturing Company Method for transforming and storing data for search and display and a searching system utilized therewith
US5963966A (en) 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
US5761485A (en) 1995-12-01 1998-06-02 Munyan; Daniel E. Personal electronic book system
US5781879A (en) 1996-01-26 1998-07-14 Qpl Llc Semantic analysis and modification methodology
US6173286B1 (en) 1996-02-29 2001-01-09 Nth Degree Software, Inc. Computer-implemented optimization of publication layouts
US6141452A (en) 1996-05-13 2000-10-31 Fujitsu Limited Apparatus for compressing and restoring image data using wavelet transform
US5960126A (en) 1996-05-22 1999-09-28 Sun Microsystems, Inc. Method and system for providing relevance-enhanced image reduction in computer systems
US5978519A (en) 1996-08-06 1999-11-02 Xerox Corporation Automatic image cropping
JP2942736B2 (ja) * 1996-09-03 1999-08-30 オリンパス光学工業株式会社 コード記録装置
US5897644A (en) 1996-09-25 1999-04-27 Sun Microsystems, Inc. Methods and apparatus for fixed canvas presentations detecting canvas specifications including aspect ratio specifications within HTML data streams
US5893127A (en) 1996-11-18 1999-04-06 Canon Information Systems, Inc. Generator for document with HTML tagged table having data elements which preserve layout relationships of information in bitmap image of original document
US6144974A (en) 1996-12-13 2000-11-07 Adobe Systems Incorporated Automated layout of content in a page framework
US6018710A (en) 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US6043802A (en) 1996-12-17 2000-03-28 Ricoh Company, Ltd. Resolution reduction technique for displaying documents on a monitor
US6788347B1 (en) 1997-03-12 2004-09-07 Matsushita Electric Industrial Co., Ltd. HDTV downconversion system
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US7263659B2 (en) 1998-09-09 2007-08-28 Ricoh Company, Ltd. Paper-based interface for multimedia information
US6236987B1 (en) 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
US6377704B1 (en) 1998-04-30 2002-04-23 Xerox Corporation Method for inset detection in document layout analysis
US6778970B2 (en) 1998-05-28 2004-08-17 Lawrence Au Topological methods to organize semantic network data flows for conversational applications
US6970602B1 (en) * 1998-10-06 2005-11-29 International Business Machines Corporation Method and apparatus for transcoding multimedia using content analysis
US6249808B1 (en) 1998-12-15 2001-06-19 At&T Corp Wireless delivery of message using combination of text and voice
US6598054B2 (en) 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6317164B1 (en) 1999-01-28 2001-11-13 International Business Machines Corporation System for creating multiple scaled videos from encoded video sources
US6178272B1 (en) 1999-02-02 2001-01-23 Oplus Technologies Ltd. Non-linear and linear method of scale-up or scale-down image resolution conversion
JP2000306103A (ja) 1999-04-26 2000-11-02 Canon Inc 情報処理装置及び方法
JP4438129B2 (ja) 1999-07-02 2010-03-24 ソニー株式会社 コンテンツ受信システム及びコンテンツ受信方法
US6862713B1 (en) 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
JP2001101164A (ja) 1999-09-29 2001-04-13 Toshiba Corp 文書画像処理装置及び文書画像処理方法
US6349132B1 (en) 1999-12-16 2002-02-19 Talk2 Technology, Inc. Voice interface for electronic documents
US6873343B2 (en) 2000-05-11 2005-03-29 Zoran Corporation Scalable graphics image drawings on multiresolution image with/without image data re-usage
US8060389B2 (en) * 2000-06-07 2011-11-15 Apple Inc. System and method for anonymous location based services
FR2811782B1 (fr) 2000-07-12 2003-09-26 Jaxo Europ Systeme de conversion de documents a structure arborescente par parcours selectif de ladite structure
US6704024B2 (en) 2000-08-07 2004-03-09 Zframe, Inc. Visual content browsing using rasterized representations
US6804418B1 (en) 2000-11-03 2004-10-12 Eastman Kodak Company Petite size image processing engine
DE60134943D1 (de) * 2000-11-08 2008-09-04 Matsushita Electric Ind Co Ltd Rundfunksystem zum Senden und Empfangen von Programmen
US7299202B2 (en) 2001-02-07 2007-11-20 Exalt Solutions, Inc. Intelligent multimedia e-catalog
US6924904B2 (en) 2001-02-20 2005-08-02 Sharp Laboratories Of America, Inc. Methods and systems for electronically gathering and organizing printable information
JP4834919B2 (ja) 2001-05-28 2011-12-14 大日本印刷株式会社 自動組版システム
US20030014445A1 (en) 2001-07-13 2003-01-16 Dave Formanek Document reflowing technique
US7069506B2 (en) 2001-08-08 2006-06-27 Xerox Corporation Methods and systems for generating enhanced thumbnails
EP1309181A1 (en) 2001-11-06 2003-05-07 Thomson Licensing S.A. Device, method and system for multimedia content adaption
US7861169B2 (en) 2001-11-19 2010-12-28 Ricoh Co. Ltd. Multimedia print driver dialog interfaces
US7428338B2 (en) 2002-01-10 2008-09-23 Ricoh Co., Ltd. Header-based processing of images compressed using multi-scale transforms
US6747648B2 (en) 2002-01-18 2004-06-08 Eastman Kodak Company Website on the internet for automated interactive display of images
US7576756B1 (en) 2002-02-21 2009-08-18 Xerox Corporation System and method for interaction of graphical objects on a computer controlled system
GB0225789D0 (en) 2002-03-25 2002-12-11 Makemyphone Ltd Method and apparatus for creating image production file for a custom imprinted article
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
US7487445B2 (en) 2002-07-23 2009-02-03 Xerox Corporation Constraint-optimization system and method for document component layout generation
US7107525B2 (en) 2002-07-23 2006-09-12 Xerox Corporation Method for constraint-based document generation
US7171617B2 (en) 2002-07-30 2007-01-30 Xerox Corporation System and method for fitness evaluation for optimization in document assembly
US20040070631A1 (en) 2002-09-30 2004-04-15 Brown Mark L. Apparatus and method for viewing thumbnail images corresponding to print pages of a view on a display
US7284200B2 (en) 2002-11-10 2007-10-16 Microsoft Corporation Organization of handwritten notes using handwritten titles
US20040120589A1 (en) 2002-12-18 2004-06-24 Lopresti Daniel Philip Method and apparatus for providing resource-optimized delivery of web images to resource-constrained devices
US7272258B2 (en) 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
JP4583003B2 (ja) 2003-03-20 2010-11-17 富士通株式会社 検索処理方法及びプログラム
US8392834B2 (en) * 2003-04-09 2013-03-05 Hewlett-Packard Development Company, L.P. Systems and methods of authoring a multimedia file
GB2404270A (en) 2003-07-24 2005-01-26 Hewlett Packard Development Co Document composition
US7035439B2 (en) 2003-07-30 2006-04-25 Xerox Corporation System and method for measuring and quantizing document quality
US7864352B2 (en) 2003-09-25 2011-01-04 Ricoh Co. Ltd. Printer with multimedia server
US20050071763A1 (en) 2003-09-25 2005-03-31 Hart Peter E. Stand alone multimedia printer capable of sharing media processing tasks
JP4165888B2 (ja) 2004-01-30 2008-10-15 キヤノン株式会社 レイアウト制御方法、レイアウト制御装置及びレイアウト制御プログラム
US7912904B2 (en) 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
JP2005293239A (ja) * 2004-03-31 2005-10-20 Fujitsu Ltd 情報共有装置及び情報共有方法
US7574655B2 (en) 2004-05-03 2009-08-11 Microsoft Corporation System and method for encapsulation of representative sample of media object
US20050289127A1 (en) 2004-06-25 2005-12-29 Dominic Giampaolo Methods and systems for managing data
TR201904404T4 (tr) 2004-09-10 2019-04-22 Koninklijke Philips Nv En azından bir medya veri işleme cihazını kontrol etmeyi sağlamak için cihaz ve yöntem.
US7151547B2 (en) 2004-11-23 2006-12-19 Hewlett-Packard Development Company, L.P. Non-rectangular image cropping methods and systems
US7603620B2 (en) 2004-12-20 2009-10-13 Ricoh Co., Ltd. Creating visualizations of documents
US7330608B2 (en) 2004-12-22 2008-02-12 Ricoh Co., Ltd. Semantic document smartnails
US8229905B2 (en) 2005-01-14 2012-07-24 Ricoh Co., Ltd. Adaptive document management system using a physical representation of a document
US7434159B1 (en) 2005-05-11 2008-10-07 Hewlett-Packard Development Company, L.P. Automatically layout of document objects using an approximate convex function model
US20070118399A1 (en) * 2005-11-22 2007-05-24 Avinash Gopal B System and method for integrated learning and understanding of healthcare informatics
JP2009526327A (ja) 2006-02-10 2009-07-16 メタカータ・インコーポレーテッド メディアオブジェクトについての空間サムネイルおよびコンパニオンマップのためのシステムおよび方法
US8081827B2 (en) 2006-02-28 2011-12-20 Ricoh Co., Ltd. Compressed data image object feature extraction, ordering, and delivery
US7788579B2 (en) 2006-03-06 2010-08-31 Ricoh Co., Ltd. Automated document layout design
US8554868B2 (en) 2007-01-05 2013-10-08 Yahoo! Inc. Simultaneous sharing communication interface
US8584042B2 (en) 2007-03-21 2013-11-12 Ricoh Co., Ltd. Methods for scanning, printing, and copying multimedia thumbnails
US8812969B2 (en) 2007-03-21 2014-08-19 Ricoh Co., Ltd. Methods for authoring and interacting with multimedia representations of documents
US8583637B2 (en) 2007-03-21 2013-11-12 Ricoh Co., Ltd. Coarse-to-fine navigation through paginated documents retrieved by a text search engine
US20080235564A1 (en) 2007-03-21 2008-09-25 Ricoh Co., Ltd. Methods for converting electronic content descriptions

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06231187A (ja) * 1993-02-08 1994-08-19 Nec Corp 自動ページめくり機能付き電子書籍装置
JPH06332893A (ja) * 1993-05-21 1994-12-02 Hitachi Ltd 文章加工装置
JPH0850471A (ja) * 1994-08-05 1996-02-20 Koito Ind Ltd 情報表示装置およびこれを用いた表示方法
JPH08235219A (ja) * 1995-02-27 1996-09-13 Canon Inc 文書要約装置
JPH1039846A (ja) * 1996-07-19 1998-02-13 Nippon Telegr & Teleph Corp <Ntt> マルチメディア情報提示装置および蓄積装置
JP2000076473A (ja) * 1998-04-07 2000-03-14 Fuji Xerox Co Ltd 自動文書再オ―サリング方法及びシステム
JP2000231475A (ja) * 1999-02-10 2000-08-22 Nippon Telegr & Teleph Corp <Ntt> マルチメディア情報閲覧システムにおける音声読み上げ方法
JP2002182815A (ja) * 2000-12-12 2002-06-28 Fujitsu Ltd 表示装置および表示制御プログラムを記録したコンピュータ読取可能な記録媒体
US20050084136A1 (en) * 2003-10-16 2005-04-21 Xing Xie Automatic browsing path generation to present image areas with high attention value as a function of space and time
JP2005251034A (ja) * 2004-03-05 2005-09-15 Konami Co Ltd 文字列表示システム、文字列表示方法及びプログラム
JP2005293174A (ja) * 2004-03-31 2005-10-20 Toshiba Corp テキストデータ編集装置、テキストデータ編集方法及びテキストデータ編集プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015138479A (ja) * 2014-01-24 2015-07-30 レノボ・シンガポール・プライベート・リミテッド Webサイトを共有する方法、電子機器およびコンピュータ・プログラム

Also Published As

Publication number Publication date
US20070168852A1 (en) 2007-07-19
JP5089996B2 (ja) 2012-12-05
US7761789B2 (en) 2010-07-20
EP1814049A1 (en) 2007-08-01

Similar Documents

Publication Publication Date Title
JP5089996B2 (ja) ナビゲーションパスの計算方法
US7603620B2 (en) Creating visualizations of documents
US8584042B2 (en) Methods for scanning, printing, and copying multimedia thumbnails
US8812969B2 (en) Methods for authoring and interacting with multimedia representations of documents
US20080235564A1 (en) Methods for converting electronic content descriptions
US6616700B1 (en) Method and apparatus for converting video to multiple markup-language presentations
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
US7149957B2 (en) Techniques for retrieving multimedia information using a paper-based interface
US7330608B2 (en) Semantic document smartnails
US8539344B2 (en) Paper-based interface for multimedia information stored by multiple multimedia documents
GB2332544A (en) Automatic adaptive document help system
WO2019245033A1 (ja) 動画編集サーバおよびプログラム
CN112040142B (zh) 用于移动终端上的视频创作的方法
JP6730760B2 (ja) サーバおよびプログラム、動画配信システム
EP1727062A1 (en) Method and system for browsing multimedia document, and computer program
JP5674451B2 (ja) ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
Erol et al. Multimedia thumbnails for documents
JP2008160512A (ja) 再生装置、電子機器、再生方法、および、プログラム
Kouroupetroglou et al. Multimodal accessibility of documents
JP2007034960A (ja) コンテンツ処理装置、コンテンツ処理プログラムおよびコンテンツ処理方法
KR20060088175A (ko) 멀티 포맷을 갖는 전자책 파일 생성 방법 및 시스템
Bulterman Creating peer-level video annotations for web-based multimedia
Erol et al. Multimedia clip generation from documents for browsing on mobile devices
JP2002229985A (ja) 構造化文書処理装置、構造化文書処理方法およびコンピュータに構造化文書処理を実行させるためのプログラム
JP2020108162A (ja) サーバおよびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091116

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120806

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120912

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150921

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5089996

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees