JP2006178989A - 文書処理装置、方法及びプログラム - Google Patents

文書処理装置、方法及びプログラム Download PDF

Info

Publication number
JP2006178989A
JP2006178989A JP2005366989A JP2005366989A JP2006178989A JP 2006178989 A JP2006178989 A JP 2006178989A JP 2005366989 A JP2005366989 A JP 2005366989A JP 2005366989 A JP2005366989 A JP 2005366989A JP 2006178989 A JP2006178989 A JP 2006178989A
Authority
JP
Japan
Prior art keywords
document
information
visual
visual information
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005366989A
Other languages
English (en)
Inventor
Berna Erol
エロール ベルナ
Kathrin Berkner
バークナー キャスリン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of JP2006178989A publication Critical patent/JP2006178989A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 文書におけるビジュアル情報及び音声化可能情報を効果的に処理する方法、装置及びプログラムを提供することである。
【解決手段】 本発明は、文書に関する文書情報を特定するステップと、前記文書情報を1以上の制限された時間ベースメディアチャネルに変換するステップとから構成されることを特徴とする方法に関する。また、本発明は、文書におけるビジュアル情報を特定するステップと、前記文書から音声に変換可能な音声化可能情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップとから構成されることを特徴とする方法に関する。
【選択図】 図1

Description

本発明は、文書の処理及び提供に関し、より詳細には、特定された文書において音声化可能及び/または可視性のある情報を有し、文書の一部が表示されたとき、再生するよう合成される音声化可能情報を有するように文書を構成することに関する。
無線ネットワーク、モバイル機能及びパーソナルモバイル装置の普及が進展するに従い、より多くの人々が小型ディスプレイや限定的なものではあるが周辺入力装置を用いてウェブページ、画像及び文書までもブラウズ及び閲覧するようになってきている。現在、小型ディスプレイを用いたウェブページの閲覧のための1つの手段は、よりシンプルかつグラッフィク性の低いバージョンのウェブページを設計するというものである。画像ブラウジングの問題はまた、低解像度バージョンの画像を単に表示し、各画像の特定エリアへのズームイン及びスクロール機能をユーザに提供することにより一部は解消される。
他方、文書のブラウジング及び閲覧は、はるかに困難な問題である。文書は複数ページから構成され、画像以上に高い解像度を有し(コンテンツを確認するため、ユーザ側においてより多くのズーム及びスクロール操作を要する)、高い分布性を備えた情報を有するかもしれない(例えば、典型的な文書は、タイトル、著者、概要、数字、参照などの多くのフォーカスポイントを有するが、画像のフォーカスポイントは、数人の顔のみであったり、あるいは単なる1つのフォーカス対象であるかもしれない)。文書の閲覧及びブラウジングの問題点は、AcrobatやMSWordなどの文書ビューアやブラウザを利用することにより、デスクトップ及びラップトップ表示に対して一部は解消されている。これらは、文書におけるズーム操作、文書ページ間の切り替え及びサムネールオーバービューのスクロール操作を可能にする。このようなインタラクティブな処理は、デスクトップアプリケーションでは許容されるが、モバイル装置(電話機やPDAなど)では周辺入力装置が限られているということを考慮すると、これらの装置での文書のブラウジングには、限られた入力と小型のディスプレイによる文書ブラウジング及び閲覧のためのより良い手段が必要とされる。
カリフォルニア州Menlo Parkのリコーイノベーションズは、SmartNail Technologyと呼ばれる技術を開発した。SmartNail Technologyは、与えられたディスプレイサイズの制約に適応した画像表示を生成する。SmartNail処理は、(1)画像セグメントを特定し、それらに解像度及び重要性に関する属性を加える画像解析ステップと、(2)出力サムネイルにおける画像コンテンツを選択するレイアウト決定ステップと、(3)選択された画像セグメントのペースト、スケーリング及びクロッピングを介し最終的なSmartNail画像を生成する構成ステップの3つのステップを含むかもしれない。SmartNail処理の出力と共にその入力は、静止画像である。これら3つのステップの実行中に処理されるすべての情報は、静的なビジュアル情報をもたらす。さらなる情報については、2003年1月29日に出願され、2004年7月29日に公開された米国特許出願第10/354,811号(US2004/0146199A1)「Reformatting Documents Using Document Analysis Information」、及び2003年5月9日に出願され、2004年7月29日に公開された米国特許出願第10/435,300号(US2004/0145593A1)「Resolution Sensitive Layout of Document Regions」を参照させたい。
一般に、ウェブページの要約を提供するウェブページ要約化が従来技術において周知である。しかしながら、ウェブページ要約化を実行する技術は、テキストに着目したものであり、通常はもとのウェブページに利用されていない新たなチャネル(音声など)を導入するものではない。米国特許第6,249,808号や以下で説明されるように、盲目の人々のためのブラウジングに音声が利用される場合が例外的にある。
Maderlechnerらは、まず余白や文字の高さなどの重要な文書特徴についてユーザに問い合わせ、その後、文書の関心領域を自動的にセグメント化する関心ベース文書モデルを確立するという技術を開示している。その後、ユーザが文書をより効率的にブラウズすることに資するため、当該領域がハイライトされる(例えば、当該領域をより濃く印刷し、その他の領域をより薄く印刷するなど)。さらなる情報については、Maderlechnerらによる「Information Extraction from Document Images using Attention Based Layout Segmentation」(Proceedings of DLIA,pp.216−219,1999)を参照されたい。
従来技術における少なくとも1つの技術として、モバイル装置上での非インタラクティブ画像ブラウジングに対するものがある。当該技術は、画像中の顕著領域、顔領域及びテキスト領域を自動検出し、その後、当該画像上のズーム及びパン動作を利用して、閲覧者にクローズアップを自動的に提供する。当該方法は、文書画像でなく写真などの画像を表示することを目的としている。従って、当該方法は、画像ベースのものであり、画像サムネイルの音声に関するものではない。さらなる情報について、Wangらによる「MobiPicture−Browsing Pictures on Mobile Devices」(ACM MM’03,Berkeley,Nov.2003)、及びFanらによる「Visual Attention Based Image Browsing on Mobile Devices」(International Conference on Multimedia and Exp.vol.1,pp.53−56、Baltimore,MD,July 2003)を参照されたい。
従来技術による文書から音声への変換は、大部分は視覚障害者を支援することを目的としたものである。例えば、Adobeは、PDF文書を音声に合成するプラグインをAcrobatリーダに設けている。さらなる情報については、Adobeのhttp://www.adobe.com/support/salesdocs/10446.htmの視覚障害者のためのPDFアクセスを参照されたい。視覚障害者のため文書から音声カセットを生成する方法に関するガイドラインが利用可能である。一般的なルールとして、テーブルや画像のキャプションに含まれる情報が、音声カセットに含まれる。一般に、グラフィックスは省略される。さらなる情報については、www.miusa.org/publications/Hrtoolboxintro.htmの「Human Resources Toolbox」(Mobility International USA,2002)を参照されたい。視覚障害のあるユーザのためのブラウザを開発する研究がなされてきた。1つの方法は、グラフィカルなHTML文書を非発声聴覚治療がHTML文書を識別する3D仮想音声空間環境に変換する。さらなる情報については、Rothらによる「Auditory browser for blind and visually impaired users」(CHI’99、Pittsburgh,Pennsylvania,May 1999)を参照されたい。聴覚障害のあるユーザのためのすべてのアプリケーションにおいて、その目的は、チャネルに対する制約を必要とせず、視覚チャネルを完全に放棄することなく、可能な限り大量の情報を音声チャネルに変換することであるように考えられる。
メッセージ変換の用いられる他の従来技術として、2001年6月19日に付与された米国特許第6,249,808号「Wireless Delivery of Message Using Combination of Text and Voice」があげられる。そこで開示されるように、ユーザが携帯装置上で音声メールを受信するため、音声メールはフォーマット化された音声メールメッセージ及びテキストメッセージに変換される。テキストに変換されるメッセージ部分は、携帯装置の利用可能な画面に表示され、その他の部分は音声として設定される。
米国特許出願第10/354,811号 米国特許出願第10/435,300号 米国特許第6,249,808号 「Information Extraction from Document Images using Attention Based Layout Segmentation」(Proceedings of DLIA,pp.216−219,1999) 「MobiPicture−Browsing Pictures on Mobile Devices」(ACM MM’03,Berkeley,Nov.2003) 「Visual Attention Based Image Browsing on Mobile Devices」(International Conference on Multimedia and Exp.vol.1,pp.53−56、Baltimore,MD,July 2003) 「Auditory browser for blind and visually impaired users」(CHI’99、Pittsburgh,Pennsylvania,May 1999)
本発明は、上記問題点に鑑み、文書におけるビジュアル情報及び音声化可能情報を効果的に処理する方法、装置及びプログラムを提供することである。
上記課題を解決するため、本発明は、文書に関する文書情報を特定するステップと、前記文書情報を1以上の制限された時間ベースメディアチャネルに変換するステップとから構成されることを特徴とする方法に関する。
また、本発明は、文書に関する文書情報を特定する手段と、前記文書情報を1以上の制限された時間ベースメディアチャネルに変換する手段とから構成されることを特徴とする装置に関する。
さらに、本発明は、文書に関する文書情報を特定するステップと、前記文書情報を1以上の制限された時間ベースメディアチャネルに変換するステップとをコンピュータに実行させることを特徴とするプログラムに関する。
また、本発明は、文書におけるビジュアル情報を特定するステップと、前記文書から音声に変換可能な音声化可能情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップとから構成されることを特徴とする方法に関する。
さらに、本発明は、文書におけるビジュアル情報を特定し、前記文書から音声に変換可能な音声化可能情報を特定する解析装置と、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択する選択装置と、前記選択されたビジュアル情報部分と同期された前記選択された音声化可能情報に基づく音声により、前記マルチメディア表現を編集する合成装置とから構成されることを特徴とする装置に関する。
さらに、本発明は、文書におけるビジュアル情報を特定するステップと、前記文書から音声に変換可能な音声化可能情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップとをコンピュータに実行させることを特徴とするプログラムに関する。
また、本発明は、文書に対し少なくとも1つの描画処理を実行するステップと、文書画像におけるビジュアル情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、前記少なくとも1つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップとから構成されることを特徴とする方法に関する。
さらに、本発明は、文書に対し少なくとも1つの描画処理を実行する手段と、文書画像におけるビジュアル情報を特定する手段と、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択する手段と、前記少なくとも1つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示する手段とから構成されることを特徴とする装置に関する。
また、本発明は、文書に対し少なくとも1つの描画処理を実行するステップと、文書画像におけるビジュアル情報を特定するステップと、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、前記少なくとも1つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップとをコンピュータに実行させることを特徴とするプログラムに関する。
本発明によると、文書におけるビジュアル情報及び音声化可能情報を効果的に処理する方法、装置及びプログラムを提供することを提供することができる。
ここでは、マルチメディアサムネイル(MMNail)と呼ばれる文書マルチメディア概観を生成する方法及び装置が、説明される。一実施例では、MMNailは、文書の最も重要なビジュアル及び音声化可能要素(キーワードなど)を含み、これらの要素を空間領域と時間サイズの両方に関して当該要素を提供する。MMNailは、出力装置により与えられる制約(ディスプレイサイズ、限定的な画像レンダリング能力など)またはアプリケーションに対する制約(音声を再生する限定的な時間など)を考慮し、情報を解析、選択及び合成することにより得られる。
一実施例では、マルチメディア概観生成プロセスは、静止画像文書(画像及び音声)からマルチメディア情報を抽出し、ビジュアル及び音声化可能情報セグメントに重要度及び時間属性を割当て、装置及びアプリケーション制約が与えられると、画像及び音声チャネルに対しマルチメディア情報を最適化することからなる。従って、MMNailは両方のチャネルを利用する。装置またはユーザ選好に応じて、これらの2つのチャネルの1つが他方に対し選好されるかもしれない。この結果、MMNailは、装置の画像チャネルと音声チャネルの双方を用いて、限られたディスプレイ及びタイムフレームに文書の概観を提示し、ユーザにより必要とされるやりとりを減少及び潜在的に最小化する。従来技術によるアプローチと対照的に、もとの文書はマルチメディアコンテンツが添付されていない静止画像であるかもしれない。
以下の説明では、コンポーネント間の距離やモデリングタイプなどの多数の詳細が与えられる。しかしながら、本発明がこれらの具体的詳細なく実現可能であるということは、当業者には明らかであろう。他の例では、周知の構造及び装置は、本発明を不明瞭にすることを避けるため、詳細にではなくブロック図により示される。
以下の詳細な説明の一部は、コンピュータメモリ内部のデータビットに対する処理のアルゴリズム及び記号表現に関して与えられる。これらのアルゴリズム的な記述及び表現は、他の当業者に成果の本質を最も効果的に伝えるのにデータ処理分野の当業者により利用される手段である。ここではまた一般的に、アルゴリズムは、所望の結果を導く整合性あるステップシーケンスと考えられる。これらのステップは、物理量の物理的操作を要するものである。必須ではないが通常は、当該物理量は、格納、転送、合成、比較及び処理が可能な電気または磁気信号の形態をとる。これらの物理量は、格納、転送、合成、比較及び操作可能な電気または磁気信号の形式をとる。これらの信号をビット、値、要素、記号、文字、項、数などと呼ぶことは便利である。
しかしながら、上記及び類似の用語のすべてが適切な物理量と関連付けされ、それらは当該物理量に適用された単なる便宜上のラベルであるということに留意すべきである。以下の説明から明らかなように、特に述べられない場合、本説明を通じて「処理」、「計算」、「決定」、「表示」などの用語を利用した説明は、コンピュータシステムあるいはコンピュータシステムのレジスタ及びメモリ内の物理(電子)量として表されるデータをレジスタ、メモリあるいは他の情報記憶、送信または表示装置内の物理量として同様に表された他のデータに処理及び変換する同様の電子計算装置のアクション及びプロセスを表す。
本発明はまた、上記処理を実行する装置に関する。本装置は、求められる目的に特化して構成されてもよいし、あるいはコンピュータに格納されているコンピュータプログラムにより選択的に起動または再構成された汎用コンピュータから構成されてもよい。このようなコンピュータプログラムは、以下に限定されるものではないが、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、光磁気ディスクを含む任意のタイプのディスク、読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気または光カード、電子命令を格納するのに適した任意のタイプのメディアなどのコンピュータ読出し可能な記憶媒体に格納されていてもよく、その各々がコンピュータシステムバスにより接続されている。
ここで与えられるアルゴリズム及びディスプレイは、特定のコンピュータまたは他の装置に固有に関連するものではない。各種汎用システムが、ここでの教示に従ってプログラムにより利用されてもよく、あるいは、求められる方法ステップを実行するためより特殊な装置を構成するのに便利であることがわかっている。これら各種システムに求められる構成が、以下の説明から明らかとなるであろう。さらに、本発明は特定のプログラミング言語を参照して説明はされない。様々なプログラミング言語が、ここで説明されるような本発明の教示を実現するのに利用されてもよいということは理解されるであろう。
機械可読媒体は、機械(コンピュータなど)により可読な形式により情報を格納または送信するための任意の機構を含む。例えば、機械可読媒体は、読出し専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光記憶媒体、電気、光、音響または他の形式の伝搬信号(搬送波、赤外線信号、デジタル信号など)を含む。
概観
図1は、文書のマルチメディア概観を生成するプロセスの一実施例のフローチャートである。当該プロセスは、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステムや専用マシーン上で実行されるものなど)、あるいはこれらの組み合わせから構成される処理論理により実行される。
図1を参照するに、文書の電子バージョン(必ずしも画像または音声データを含む必要はない)及びそれのメタデータを用いて、本プロセスは、処理論理が文書及び/またはそれのメタデータを前処理し、ビジュアルフォーカスポイント(VFP)及び重要な音声化可能文書情報(ADI)を決定することにより開始される(処理ブロック101)。
装置及びアプリケーションの制約(ディスプレイサイズや時間制約など)と共にVFP及びADIが与えられると、マルチメディア処理論理は、出力表示(マルチメディアサヌネイルなど)に含めるビジュアル情報及び/または音声化可能情報を選択する(処理ブロック102)。一実施例では、この選択は、選好されたビジュアル情報及び音声化可能情報を出力表示に含めるため最適化される。ここで、選好される情報は、重要情報を文書、ユーザにより選好される重要なビジュアル情報(図など)、重要な意味情報(タイトルなど)、キーとなるパラグラフ(意味解析の出力)、文書コンテクストに含めるようにしてもよい。重要情報は、文書の解像度の影響を受け易いエリアを含むものであってもよい。
選択後、処理論理は、マルチメディアサムネイルを生成するため、当該情報を画像データ(画像チャネルまたは表現用)及び/または音声データ(音声チャネルまたは表現用)に合成する(処理ブロック103)。従ってこれに関して、サムネイルは、文書からの題材が視覚的及び聴覚的に提供される表現を表すものであってもよい。
図2は、文書のマルチメディア概観を生成する処理コンポーネントの他の実施例のフローチャートである。一実施例では、各モジュールは、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステムや専用マシーン上で実行されるものなど)、あるいはこれらの組み合わせから構成される。
図2を参照するに、解析装置203は、文書201及びメタデータ202を受け取る。メタデータ202は、作成者情報及び作成データ、テキスト(例えば、テキストがメタデータであり、文書画像と重ねられたpdfファイル形式など)、音声または映像ストリーム、URL、公開名、日付、場所、アクセス情報、暗号化情報、画像スキャン解像度、MPEG−7記述子などを含むものであってもよい。これらの入力に応答して、解析装置203は、当該入力に対し前処理を行い、文書における音声化可能情報を示す情報と共に、文書101における1以上のビジュアルフォーカスポイントを示す出力情報を生成する、この音声化可能情報は、文書201及び/またはメタデータ202において重要な情報であってもよい。
一実施例では、解析装置203は、文書前処理ユニット203A、メタデータ前処理ユニット203B、ビジュアルフォーカスポイント識別子203C及び重要音声化可能文書情報識別子203Dから構成される。一実施例では、文書前処理ユニット203Aは、アプリケーションに応じて実行される、光学文字認識(OCR)、レイアウト解析及び抽出、JPEG2000圧縮及びヘッダ抽出、文書フロー解析、フォント抽出、顔検出及び認識、グラフィックス抽出及び音符認識の1以上を実行する。一実施例では、文書前処理ユニット203Aは、文字に対するレイアウト解析を実行するExpervisionのOCRソフトウェアを備え、画成ボックスとフォントサイズやタイプなどの関連属性を生成する。他の実施例では、テキスト領域の画成ボックスと関連属性は、ScanSoftソフトウェアを用いて生成される。他の実施例では、タイトル、ヘッダ、フッタ、図のキャプションなどの意味属性を決定するため、Aiello,M.、Monz,C.、Todoran,L.、Worring,M.らによる「Document Understading for a Broad Class of Documents」(International Journal on Document Analysis and Recognition(IJDAR),vol.5(1),pp.1−16,2002)に記載される方法により、テキスト領域の意味解析が実行される。
メタデータ前処理ユニット203Bは、構文解析及びコンテンツ収集を実行する。例えば、一実施例では、メタデータとして作成者の氏名が与えられると、メタデータ前処理ユニット203Bは、ワールド・ワイド・ウェブ(WWW)(以降においてMMNailに含まれうる)から作成者の画像を抽出する。一実施例では、メタデータ前処理ユニット203Bは、XML構文解析を実行する。
前処理後、ビジュアルフォーカスポイント識別子203Cはビジュアルフォーカスセグメントを決定および抽出し、重要音声文書情報識別子103Dは重要音声データを決定及び抽出する。
一実施例では、ビジュアルフォーカスポイント識別子203Cは、前処理ユニット203AからのOCR及びレイアウト結果及び/または前処理ユニット203BからのXML構文解析結果に基づき、ビジュアルフォーカスポイントを特定する。
一実施例では、ビジュアルフォーカスポイント識別子203Cは、テキスト領域及び関連属性(重要度及び解像度属性など)を特定するため、2003年5月9日に出願され、2004年7月29日に公開された米国特許出願第10/435,300号(公開番号US2004/0145593A1)「Resolution Sensitive Layout of Document Regions」に記載される解析技術を実行する。テキスト領域は、セグメントして解釈されるタイトル及びキャプションを含むかもしれない。一実施例では、ビジュアルフォーカスポイント識別子203Cは、タイトルと図を決定する。一実施例では、図はセグメント化される。
一実施例では、音声化可能文書情報識別子203Dは、前処理ユニット203AからのOCR及びレイアウト解析結果及び/または前処理ユニット203BからのXML構文解析結果に応じて音声化可能情報を特定する。
ビジュアルフォーカスポイントのセグメントの例として、図、タイトル、大きなフォントのテキスト、人間のいる写真などがあげられる。これらのビジュアルフォーカスポイントは、アプリケーションに依存したものであることに留意されたい。また、解像度や顕著性属性などの属性が、当該データに関連付けされる。解像度はメタデータとして指定されてもよい。一実施例では、これらのビジュアルフォーカスセグメントは、2003年5月9日に出願され、2004年7月29日に公開された米国特許出願第10/435,300号(公開番号US2004/0145593A1)「Resolution Sensitive Layout of Document Regions」に示されるものと同様に決定される。他の実施例では、ビジュアルフォーカスセグメントは、Le Meur,O.、Le Callet,P.、Barba,D.、Thoreau,D.らによる「Performance assessment of a visual attention system entirely based on a human vision modeling」(Proceedings of ICIP 2004,Singapore,pp.2327−2330,2004)に記載されるものと同様にして決定される。顕著性は、画像セグメントのタイプに依存するかもしれない(例えば、大きなフォントのテキストは、アプリケーションに応じて、小さなフォントのテキストより重要であるかもしれないし、あるいはその反対であるかもしれない)。これらのセグメントの重要度は、MMNail生成前に各アプリケーションに対し経験的に決定されてもよい。例えば、経験的な研究により、図中の顔や小さなテキストが、ユーザが文書のスキャンクオリティを評価するアプリケーションにおいて最重要の画像ポイントであることが判明するかもしれない。顕著なポイントはまた、従来技術による文書画像解析技術の1つを用いて検出可能である。
音声化可能情報の例として、タイトル、図のキャプション、キーワードや構文解析されたメタデータがあげられる。重要度(顕著性)及び時間(発生のための合成後の時間)属性などの属性がまた、音声化可能情報に付属される。音声セグメントの重要性は、それのタイプに依存するものであってもよい。例えば、経験的な研究により、文書タイトル及び図のキャプションが、「文書サマリアプリケーション」にとって文書における最重要の音声化可能情報であることが示されるかもしれない。
クロス解析を用いて、VFP及びADIの一部の属性が割当て可能である。例えば、図の時間属性(VFP)が、図のキャプションの時間属性(ADI)と同一のものとして割当て可能である。
一実施例では、音声化可能文書情報識別子203Dは、Matsuo,Y.、Ishizuka,M.らによる「Keyword Extraction from a Single Document using Word Co−occurrence Statistical Information」(International Journal on Artificial Intelligence Tools,vol.13,no.1,pp.157−169,2004)、Fukumoto,F.、Suzuki,Y.、Fukumoto,J.らによる「An Automatic Extraction of Key Paragraphs Based on Context Dependency」(Proceedings of Fifth Conference on Applied Natural Language Processing,pp.291−298,1997)などに示されるように、周波数に基づきキーワードを自動決定するため、TFIDF(Term Frequency−Inverse Document Frequency)解析を実行する。各キーワードに対し、音声化可能文書情報識別子203Dは、合成装置が当該キーワードを発声するのにかかる時間としての時間属性を計算する。一実施例では、当該時間は、発声合成定数SSCと文字数を掛け合わせることにより計算される。各単語の音声時間を計算する代わりに、文字数と掛け合わされた定数SSCを有することにより、当該時間の近似を得ることができる。SSCは、Cの文字数を有するテストテキスト文書を合成装置に与え、合成された音声を再生するのに要する時間Taudioを測定し、当該時間を文字数で割ることにより、すなわち、SSC=Taudio/Cとすることにより求めるようにしてもよい。SSC定数は、言語の選択、使用される合成装置及び合成装置オプション(女性または男性による音声、アクセントタイプ、発話スピードなど)に応じて変更されてもよい。
同様に、音声化可能文書情報識別子203Dは、タイトル、ヘッダ、図のキャプチャなどの選択されたテキスト領域に対する時間属性を計算する。各時間属性は、それの対応するセグメントと相関される。例えば、図のキャプションの時間属性はまた、対応する図のセグメントと相関される。一実施例では、各音声化可能情報セグメントはまた、画像重要度(フォントサイズ及びページ上の位置に基づく)、テキスト領域の場合には読取り順序、キーワードの場合には出現頻度、あるいは図及び関連する図のキャプションの画像重要度属性を反映する重要度属性を有する。一実施例では、重要度属性は、2003年5月9日に出願され、2004年7月29日に公開された米国特許出願第10/435,300号(公開番号US2004/0145593A1)「Resolution Sensitive Layout of Document Regions」に開示されるものと同様にして計算される。
ビジュアルフォーカスセグメント及び重要音声化可能情報が、最適化装置204に出力される。
最適化装置204は、画像及び音声文書情報の特徴、装置特徴または1以上の制約(ディスプレイサイズ、利用可能なタイムスパン、ユーザ設定選好、装置の電力容量など)を含む出力を解析装置203から受け取り、装置の制約に適合し、利用可能な出力画像及び音声チャネルを介し送信可能な情報容量を用いた画像と音声化可能情報の組み合わせを計算する。このようにして、最適化装置204は、セレクタまたは選択機構として機能する。
一実施例では、解析装置203からの画像及び音声化可能情報セグメントと、出力装置のディスプレイサイズや最終的なマルチメディアサムネイルの期間であるタイムスパンLなどの他の入力に応答して、最適化装置204は、最適化アルゴリズムを実行する。一実施例では、表示解像度及びマルチメディアサムネイルの長さLが与えられると、以下の擬似コードが最適化装置204により適用される。
Figure 2006178989
最適化アルゴリズムの主なる機能は、まず各ページが利用可能なタイムスパン中に0.5秒間ディスプレイに表示される場合、ユーザに表示可能なページ数を決定することである。タイムスパンLからの時間が各ページの表示後に十分残されている場合、最適化装置204は、文書のタイトルにズームする時間を割当てる。ビジュアル情報チャネルが当該時間中に完全に占有されている場合、情報の送信のための唯一の他の選択はキーワードの合成された発声による利用される音声チャネルである。キーワードを「読む」タイムスパンが限られている場合、キーワードの重要度に従って、すなわち、重要度に関してキーワードリストをソートし、キーワードの時間属性に適用される線形パッケージ/充填処理順序アプローチを介し1次元のタイムスパンインターバルの充填を最適化することにより、1以上のキーワードの後のカットオフを計算することにより、キーワードリストの選択が実行される。
ページ及びタイトルズーム処理を介しページがめくられた後に時間が残っている場合、最適化装置204は、残りの利用可能な時間を充填するため。それらの時間属性(それらのキャプションが発声されるよう合成される期間)に基づき、図のキャプションをソートする。
一実施例では、最適化装置204は、その後にマルチメディアサムネイルに含まれる図を選択するため、ソートされた時間属性に当該技術分野において周知な方法により線形パッケージ/充填順序アプローチを適用する。静止画像の保持が、文書の選択された図に適用される。画像保持による画像チャネルの占有中、当該キャプションが音声チャネルにおいて「発声」される。最適化後、最適化装置204は、読取り順序に関して選択された画像及び音声セグメントを再順序付けする。
他の最適化装置が、制限されたサイズの画像表示及びタイムスパンLにおける結合され通信された情報を最大化するのに利用されてもよい。
合成装置205は、最終的なマルチメディアサムネイルを構成する。一実施例では、合成装置205は、最適化装置204において決定された選択されたマルチメディア処理ステップを実行することにより、最終的なマルチメディアサムネイルを構成する。一実施例では、合成装置205は、処理ステップのリストを有するプレーンテキストまたはXMLファイルなどのファイルを受け取る。他の実施例では、処理ステップのリストは、2つのソフトウェアモジュール間のcomオブジェクト通信またはソケット通信を介するなどの他の手段によって、合成装置205に送信されてもよい。さらなる他の実施例では、処理ステップのリストは、双方のモジュールが同一のソフトウェアにある場合、関数パラメータとしてわたされる。マルチメディア処理ステップは、「従来の」画像処理ステップのクロップ、スケール及びペーストを含むものであってもよく、また、ページめくり、パン、ズーム、発声及び音楽合成などの時間要素を含むものであってもよい。
一実施例では、合成装置205は、画像合成装置205A、音声合成装置205B及び合成/編集装置205Cから構成される。合成装置205は、画像合成装置205Aを用いて選択されたビジュアル情報を画像及び画像シーケンスに合成し、音声合成装置205Bを用いて音声化可能情報を発声に合成し、合成/編集装置205Cを用いて上記2つの出力(音声及び画像)を合成し、マルチメディアサムネイル220を編集する。一実施例では、画像シーケンス(音声なし)を含む画像構成に対して、ズームやページめくりなどがAdobe AfterEffectsを用いて実行され、合成/編集装置205CはAdobe Premierを利用する。一実施例では、音声合成装置205Bは、CMU発声合成ソフトウェア(FestVox「http://festvox.org/voicedemos.html」)を用いて、音声化可能情報に対する音声を生成する。
一実施例では、合成装置205は、合成/編集装置205Cを備えない。そのような場合、合成装置205の出力は、音声と画像のそれぞれに対する2つの独立したストリームとして出力されてもよい。
合成/編集装置205Cの出力は、1つのファイルに合成され、独立した音声チャネルと映像チャネルとしてもよい。
図3は、文書を処理するためのプロセスの他の実施例のフローチャートである。図3のプロセスは、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステムや専用マシーン上で実行されるものなど)、あるいはこれらの組み合わせから構成される処理論理により実行される。図3を参照するに、当該処理は、処理論理が文書(ビジュアル情報、音声化可能情報、意味情報など)に関連する文書情報を特定することにより開始される(処理ブロック301)。文書情報を特定した後、処理論理は文書情報を1以上の制約付きのタイムベースメディアチャネルに対する情報に変換する(処理ブロック302)。一実施例では、これらのメディアチャネルは、画像チャネル、音声チャネルあるいはこれらの組み合わせであってもよい。
アプリケーション
ここで説明される技術は、潜在的にはいくつかのアプリケーションに有用であるかもしれない。例えば、当該技術は、モバイル装置や複合機(MFP)などの装置の文書ブラウジングに利用可能であるかもしれない。
例えば、モバイル装置上でインタラクティブな文書ブラウジングを実行すると、当該文書ブラウジングは、例えば、ズーム及びスクロールの代わりに再生、一時停止、早送り、スピードアップやスピードダウンを含むように再規定することが可能である。
他のモバイル装置アプリケーションでは、モバイル装置上での文書閲覧実行時に、ここで与えられる技術を用いて、文書の概観だけでなくそのコンテンツも理解できるように、より長いMMNail(例えば、15分など)を利用することが可能となる。このアプリケーションは、限定的な描画能力しか備えていない音声能力が優先される携帯電話器などの装置に適しているかもしれない。モバイル装置による文書のブラウジング及び閲覧後、一実施例では、モバイル装置は、当該装置に文書に対する他の機能を実行させるため、他の場所の装置(MFPなど)に送信する。
あるMFPアプリケーションでは、ここで説明される技術は、文書概観に利用可能であるかもしれない。例えば、ユーザがMFPにおいて文書をコピーしているとき、ページがスキャンされるごとに、自動計算された文書概観がユーザに表示され、文書コンテンツを理解することを容易にするかもしれない。
MFP内の文書画像のエンハンスメントを実行する画像処理アルゴリズムは、スキャン解像度と干渉する特徴による低コントラスト、小さなフォント、ハーフトーンスクリーンなどの品質が問題となる領域を検出するようにしてもよい。ユーザがスキャンされた文書の品質(すなわち、スキャンクオリティ)を評価し、より高いコントラストや解像度などの異なる設定を示すため、MMNailがコピー機のディスプレイ(おそらく音声なし)上に表示されるようにしてもよい。
図4は、文書処理を実行するためのプロセスの一実施例のフローチャートである。当該プロセスは、ハードウェア(回路、専用論理など)、ソフトウェア(汎用コンピュータシステムや専用マシーン上で実行されるものなど)、あるいはこれらの組み合わせから構成される処理論理により実行される。図4を参照するに、本プロセスは、処理論理が文書に対し少なくとも1つの描画処理(スキャン処理など)を実行することにより開始される。描画処理実行後、処理論理は、文書画像内のビジュアル情報を特定する。一実施例では、処理論理は、クオリティが問題となる領域を検出することにより、ビジュアル情報を特定する。クオリティが問題となる領域は、例えば、スキャン解像度と干渉する低コントラスト、小さなフォント及びハーフトーンスクリーン特性を有する領域を含むかもしれない。他の実施例では、処理論理は、画像の解像度の影響を受ける部分を特定することにより、文書内のビジュアル情報を特定する。
ビジュアル情報特定後、処理論理は、文書のマルチメディア表現に組み込むためのビジュアル情報の一部を選択する(処理ブロック403)。一実施例では、処理論理が画像の解像度の影響を受ける部分を特定する場合、処理論理は当該部分をズームイン、パンまたはティルト処理にすることにより選択する。
部分選択後、処理論理は、描画処理の結果を表示するため、ディスプレイ上にマルチメディア表現を表示する(処理ブロック404)。一実施例では、マルチメディア表現の表示後、処理論理は、描画処理のアプリケーションを変更する入力を受け取る。
翻訳アプリケーションでは、音声チャネルの言語がユーザにより選択可能であり、音声化可能情報が選択された言語により提供されるかもしれない。この場合、最適化装置は、音声の長さが異なるため、異なる言語に対し異なって機能する。すなわち、最適化装置の結果は言語に依存する。一実施例では、画像文書テキストが変更される。画像文書部分は、異なる言語により再提供することが可能である。
一実施例では、MMNail最適化は、ユーザにより提供されるやりとりに基づき計算される。例えば、ユーザが音声チャネルを閉じている場合、他のビジュアル情報がこの情報チャネルのロスに対応するため異なる画像表現を導出するようにしてもよい。他の例では、ユーザが画像チャネルをスローダウンする場合(例えば、車の運転中に)、音声チャネルを介し送信される情報は変更されてもよい。また、ズームやパンなどのアニメーション効果が、閲覧装置の計算力の制約に基づき利用可能とされてもよい。
一実施例では、障害者が文書情報を認知するのを助けるため、MMNailが利用される。例えば、視覚障害者は音声化可能情報の形式により小さなテキストを取得することを所望するかもしれない。他の例では、色盲の人々は、文書の色に関する情報を音声チャネルの音声化可能情報として利用可能となることを所望するかもしれない。
一例となるコンピュータシステム
図5は、ここで説明される処理の1以上を実行可能な一例となるコンピュータシステムのブロック図である。図5を参照するに、コンピュータシステム500は、一例となるクライアントまたはサーバコンピュータシステムから構成される。コンピュータシステム500は、情報を通信するための通信機構またはバス511と、情報を処理するためバス511に接続されたプロセッサ512とから構成される。プロセッサ512は、これに限定されるものではないが、Pentium(登録商標)プロセッサなどのマイクロプロセッサを有する。
システム500はさらに、プロセッサ512により実行される情報及び命令を格納するためバス511に接続されたRAM(Random Access Memory)または他のダイナミック記憶装置(メインメモリと呼ぶ)504を有する。メインメモリ504はまた、プロセッサ512による命令の実行中に一時的変数または他の中間情報を格納するのに利用可能である。
コンピュータシステム500はまた、プロセッサ512に対する静的情報及び命令を格納するためバス511に接続されたROM(Read Only Memory)及び/または他の静的記憶装置506と、磁気ディスク、光ディスク、それの対応するディスクドライブなどのデータ記憶装置507とを有する。データ記憶装置507は、情報及び命令を格納するためバス511に接続されている。
コンピュータシステム500はさらに、コンピュータユーザに情報を表示するためバス511に接続されたCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)などの表示装置521に接続されてもよい。英数字及び他のキーを含む英数字入力装置522が、情報及びコマンド選択をプロセッサ512に通信するためバス511に接続されてもよい。追加的なユーザ入力装置として、向き情報及びコマンド選択をプロセッサ512に通信すると共に、ディスプレイ521上のカーソルの動きを制御するためバス511に接続された、マウス、トラックボール、トラックパッド、スタイラス、カーソル方向キーなどのカーソル制御523がある。
バス511に接続可能な他の装置として、用紙、フィルム、他の同様のタイプの媒体などの媒体に命令、データまたは他の情報を印刷するのに利用されるハードコピー装置524がある。さらに、スピーカーやマイクロフォンなどの音声記録再生装置が、コンピュータシステム500との音声インタフェースをとるため、任意的にバス511に接続されてもよい。バス511に接続可能な他の装置として、電話や携帯型装置と通信する有線または無線通信機能がある。
ここで、システム500の何れかまたはすべてのコンポーネント及び関連するハードウェアが利用可能であるということに留意されたい。しかしながら、コンピュータシステムの他の構成は上記装置の一部またはすべてを備えることが可能であるということは理解されるであろう。
2003年5月9日に出願され、2004年7月29日に公開された米国特許出願第10/435,300号(US2004/0145593A1)「Resolution Sensitive Layout of Document Regions」では、文書を再フォーマット化する方法及び装置が開示されている。当該方法は、複数の属性を有する複数の画像セグメントを選択し、該複数の属性により複数の画像セグメントに対し実行対象となる複数の位置及び複数の幾何学的処理を決定することから構成される。
本発明の多数の変更及び改良が上記説明を読んだ後、当業者には明らかとなるであろうが、図示及び説明された実施例は本発明を限定するものとして解釈されるべきではない。各種実施例の詳細は、本発明の要部としてみなされる特徴のみを記載した請求項の範囲を限定するものではない。
図1は、文書のマルチメディア概観を生成するためのプロセスの一実施例のフローチャートである。 図2は、文書のマルチメディア概観を生成するための処理コンポーネントの他の実施例のフローチャートである。 図3は、文書を処理するためのプロセスの他の実施例のフローチャートである。 図4は、1以上の描画処理の結果を参照することを可能にする文書処理を実行するためのプロセスの一実施例のフローチャートである。 図5は、コンピュータシステムの一実施例のブロック図である。
符号の説明
201 文書
202 メタデータ
203 解析装置
203A 文書前処理ユニット
203B メタデータ前処理ユニット
203C ビジュアルフォーカスポイント識別子
203D 重要音声化可能文書情報識別子
204 最適化装置
205 合成装置
205A 画像合成装置
205B 音声合成装置
205C 合成/編集装置
500 コンピュータシステム
504 メインメモリ
506 静的メモリ
507 大容量ストレージ装置
511 バス
512 プロセッサ
521 ディスプレイ
522 キーボード
523 カーソル制御装置
524 ハードコピー装置
525 無線/通信インタフェース

Claims (24)

  1. 文書に関する文書情報を特定するステップと、
    前記文書情報を1以上の制限された時間ベースメディアチャネルに変換するステップと、
    から構成されることを特徴とする方法。
  2. 請求項1記載の方法であって、
    前記文書情報を特定するステップは、前記文書の意味情報を特定することを特徴とする方法。
  3. 請求項2記載の方法であって、
    前記文書の意味情報は、前記文書の概要、タイトル、図、図のキャプション、作成者名、キーパラグラフ、キーセンテンス、キーワード、サブタイトル及びリファレンスから構成されることを特徴とする方法。
  4. 文書に関する文書情報を特定する手段と、
    前記文書情報を1以上の制限された時間ベースメディアチャネルに変換する手段と、
    から構成されることを特徴とする装置。
  5. 請求項4記載の装置であって、
    前記文書情報を特定する手段は、前記文書の意味情報を特定することを特徴とする装置。
  6. 請求項5記載の装置であって、
    前記文書の意味情報は、前記文書の概要、タイトル、図、図のキャプション、作成者名、キーパラグラフ、キーセンテンス、キーワード、サブタイトル及びリファレンスから構成されることを特徴とする装置。
  7. 文書に関する文書情報を特定するステップと、
    前記文書情報を1以上の制限された時間ベースメディアチャネルに変換するステップと、
    をコンピュータに実行させることを特徴とするプログラム。
  8. 文書におけるビジュアル情報を特定するステップと、
    前記文書から音声に変換可能な音声化可能情報を特定するステップと、
    前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、
    前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップと、
    から構成されることを特徴とする方法。
  9. 請求項8記載の方法であって、さらに、
    前記マルチメディア表現の一部として前記選択されたビジュアル情報及び音声化可能情報部分に関する時間属性に基づき、前記音声を同期させるステップを有することを特徴とする方法。
  10. 請求項8記載の方法であって、
    前記ビジュアル情報及び音声化可能情報部分を選択するステップは、
    各ページが所定時間表示されると、あるタイムスパン中に表示すべき前記文書のページ数を決定するステップと、
    前記タイムスパンに、タイトル及びキーワードの少なくとも1つを表示するのに十分な時間があるか決定するステップと、
    発声用に合成すべき前記文書の音声化可能情報を選択するステップと、
    から構成されることを特徴とする方法。
  11. 文書におけるビジュアル情報を特定し、前記文書から音声に変換可能な音声化可能情報を特定する解析装置と、
    前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択する選択装置と、
    前記選択されたビジュアル情報部分と同期された前記選択された音声化可能情報に基づく音声により、前記マルチメディア表現を編集する合成装置と、
    から構成されることを特徴とする装置。
  12. 請求項11記載の装置であって、
    前記解析装置は、
    前記文書におけるビジュアル情報を特定するビジュアル情報識別子と、
    前記文書から音声化可能情報と前記文書に関するメタデータとを特定する音声化可能文書情報識別子と、
    を有することを特徴とする装置。
  13. 請求項12記載の装置であって、
    前記音声化可能文書情報識別子は、前記文書における1以上の図のキャプションを特定し、特定された各キーワードと属性を関連付けることにより、音声に変換可能な音声化可能情報を前記文書から特定することを特徴とする装置。
  14. 請求項12記載の装置であって、さらに、
    前記ビジュアル情報識別子と前記音声化可能文書情報識別子の両方にレイアウト情報を提供する文書前処理ユニットを有することを特徴とする装置。
  15. 請求項14記載の装置であって、さらに、
    メタデータ前処理結果を生成するため、前記文書に関するメタデータを前処理するメタデータ前処理ユニットを有し、
    前記ビジュアル情報識別子と前記音声化可能文書情報識別子は、前記メタデータ前処理結果に応答する、
    ことを特徴とする装置。
  16. 請求項11記載の装置であって、
    前記合成装置は、
    前記選択されたビジュアル情報部分からビジュアル出力情報を生成するビジュアル合成装置と、
    前記選択された音声化可能情報部分から音声を合成する音声合成装置と、
    前記ビジュアル合成装置と前記音声合成装置とからの出力に応答して、マルチメディアサムネイルを生成する編集装置と、
    から構成されることを特徴とする装置。
  17. 請求項16記載の装置であって、
    前記合成装置はさらに、前記選択されたビジュアル情報部分と音声化可能情報部分とに関する時間属性に基づき、前記音声を同期させる同期化装置を有することを特徴とする装置。
  18. 請求項11記載の装置であって、
    前記選択装置は、
    各ページが所定時間表示されると、あるタイムスパン中に表示すべき前記文書のページ数を決定し、
    前記タイムスパンに、タイトル及びキーワードの少なくとも1つを表示するのに十分な時間があるか決定し、
    発声用に合成すべき前記文書の音声化可能情報を選択する、
    ことによって、前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択することを特徴とする装置。
  19. 文書におけるビジュアル情報を特定するステップと、
    前記文書から音声に変換可能な音声化可能情報を特定するステップと、
    前記文書のマルチメディア表現に組み込むための前記ビジュアル情報及び音声化可能情報の部分を選択するステップと、
    前記選択されたビジュアル情報及び音声化可能情報部分に基づく音声により、前記マルチメディア表現を編集するステップと、
    をコンピュータに実行させることを特徴とするプログラム。
  20. 文書に対し少なくとも1つの描画処理を実行するステップと、
    文書画像におけるビジュアル情報を特定するステップと、
    前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、
    前記少なくとも1つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップと、
    から構成されることを特徴とする方法。
  21. 請求項20記載の方法であって、さらに、
    前記マルチメディア表現の表示後、前記少なくとも1つの描画処理のアプリケーションを変更する入力を受け取るステップを有することを特徴とする方法。
  22. 文書に対し少なくとも1つの描画処理を実行する手段と、
    文書画像におけるビジュアル情報を特定する手段と、
    前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択する手段と、
    前記少なくとも1つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示する手段と、
    から構成されることを特徴とする装置。
  23. 請求項22記載の装置であって、さらに、
    前記マルチメディア表現の表示後、前記少なくとも1つの描画処理のアプリケーションを変更する入力を受け取る手段を有することを特徴とする装置。
  24. 文書に対し少なくとも1つの描画処理を実行するステップと、
    文書画像におけるビジュアル情報を特定するステップと、
    前記文書のマルチメディア表現に組み込むための前記ビジュアル情報の部分を選択するステップと、
    前記少なくとも1つの描画処理の結果を参照することを可能にするため、ディスプレイ上に前記マルチメディア表現を表示するステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2005366989A 2004-12-20 2005-12-20 文書処理装置、方法及びプログラム Pending JP2006178989A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US11/018,231 US7603620B2 (en) 2004-12-20 2004-12-20 Creating visualizations of documents

Publications (1)

Publication Number Publication Date
JP2006178989A true JP2006178989A (ja) 2006-07-06

Family

ID=36597625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005366989A Pending JP2006178989A (ja) 2004-12-20 2005-12-20 文書処理装置、方法及びプログラム

Country Status (2)

Country Link
US (1) US7603620B2 (ja)
JP (1) JP2006178989A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008125065A (ja) * 2006-10-27 2008-05-29 Ricoh Co Ltd 複合機からの文書提供方法

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050188297A1 (en) * 2001-11-01 2005-08-25 Automatic E-Learning, Llc Multi-audio add/drop deterministic animation synchronization
US7272258B2 (en) * 2003-01-29 2007-09-18 Ricoh Co., Ltd. Reformatting documents using document analysis information
JP4321549B2 (ja) * 2005-09-28 2009-08-26 セイコーエプソン株式会社 文書作成システム、文書作成方法、プログラムおよび記憶媒体
US7761789B2 (en) 2006-01-13 2010-07-20 Ricoh Company, Ltd. Methods for computing a navigation path
US7788579B2 (en) * 2006-03-06 2010-08-31 Ricoh Co., Ltd. Automated document layout design
US7493569B2 (en) * 2006-06-14 2009-02-17 Kabushiki Kaisha Toshiba System and method for visually encoding related functions on a multi-function document output device control interface
US7720251B2 (en) * 2006-06-23 2010-05-18 Echo 360, Inc. Embedded appliance for multimedia capture
KR20080076102A (ko) * 2007-02-14 2008-08-20 삼성전자주식회사 시각장애인을 위한 화상형성장치 및 화상형성장치의화상형성방법
US20080235564A1 (en) * 2007-03-21 2008-09-25 Ricoh Co., Ltd. Methods for converting electronic content descriptions
US8584042B2 (en) 2007-03-21 2013-11-12 Ricoh Co., Ltd. Methods for scanning, printing, and copying multimedia thumbnails
US8583637B2 (en) * 2007-03-21 2013-11-12 Ricoh Co., Ltd. Coarse-to-fine navigation through paginated documents retrieved by a text search engine
US8812969B2 (en) * 2007-03-21 2014-08-19 Ricoh Co., Ltd. Methods for authoring and interacting with multimedia representations of documents
US8054310B2 (en) * 2007-06-18 2011-11-08 International Business Machines Corporation Recasting a legacy web page as a motion picture with audio
US20090006965A1 (en) * 2007-06-26 2009-01-01 Bodin William K Assisting A User In Editing A Motion Picture With Audio Recast Of A Legacy Web Page
US7945847B2 (en) * 2007-06-26 2011-05-17 International Business Machines Corporation Recasting search engine results as a motion picture with audio
US20090070316A1 (en) * 2007-09-07 2009-03-12 Christian Beauchesne Web-based succession planning
JP2010016804A (ja) * 2008-06-05 2010-01-21 Canon Inc 画像処理装置及び画像処理方法、記憶媒体
US20100277767A1 (en) * 2009-04-30 2010-11-04 John Henry Klippenstein Profit based layouts
CN102065233B (zh) * 2009-11-12 2014-09-17 新奥特(北京)视频技术有限公司 一种字幕机
US8810829B2 (en) 2010-03-10 2014-08-19 Ricoh Co., Ltd. Method and apparatus for a print driver to control document and workflow transfer
US8547576B2 (en) 2010-03-10 2013-10-01 Ricoh Co., Ltd. Method and apparatus for a print spooler to control document and workflow transfer
EP2365429A3 (en) 2010-03-10 2013-05-01 Ricoh Company, Limited Method and apparatus for print driver and print spooler to control document and workflow transfer
US8584011B2 (en) 2010-06-22 2013-11-12 Microsoft Corporation Document representation transitioning
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US20120089945A1 (en) * 2010-10-12 2012-04-12 International Business Machines Corporation Efficient navigation based on importance with audio output option
WO2012057891A1 (en) * 2010-10-26 2012-05-03 Hewlett-Packard Development Company, L.P. Transformation of a document into interactive media content
US9111238B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data feed having customizable analytic and visual behavior
US9024952B2 (en) 2010-12-17 2015-05-05 Microsoft Technology Licensing, Inc. Discovering and configuring representations of data via an insight taxonomy
US9336184B2 (en) 2010-12-17 2016-05-10 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9069557B2 (en) 2010-12-17 2015-06-30 Microsoft Technology Licensing, LLP Business intelligence document
US9104992B2 (en) 2010-12-17 2015-08-11 Microsoft Technology Licensing, Llc Business application publication
US9304672B2 (en) 2010-12-17 2016-04-05 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9110957B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9171272B2 (en) 2010-12-17 2015-10-27 Microsoft Technology Licensing, LLP Automated generation of analytic and visual behavior
US9864966B2 (en) 2010-12-17 2018-01-09 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US20120166953A1 (en) * 2010-12-23 2012-06-28 Microsoft Corporation Techniques for electronic aggregation of information
US9003061B2 (en) 2011-06-30 2015-04-07 Echo 360, Inc. Methods and apparatus for an embedded appliance
US20150347357A1 (en) * 2014-05-30 2015-12-03 Rovi Guides, Inc. Systems and methods for automatic text recognition and linking
US10582269B2 (en) 2014-07-11 2020-03-03 Lg Electronics Inc. Method and device for transmitting and receiving broadcast signal
EP3169072A4 (en) 2014-07-11 2017-11-15 LG Electronics Inc. -1- Method and device for transmitting and receiving broadcast signal
WO2016017961A1 (ko) 2014-07-29 2016-02-04 엘지전자 주식회사 방송 신호 송수신 방법 및 장치
CN106294425B (zh) * 2015-05-26 2019-11-19 富泰华工业(深圳)有限公司 商品相关网络文章之自动图文摘要方法及系统
CN109241475B (zh) * 2017-07-11 2022-01-14 周武增 一种智能化信息发布系统及方法
US20200134103A1 (en) * 2018-10-26 2020-04-30 Ca, Inc. Visualization-dashboard narration using text summarization
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
US11461638B2 (en) * 2019-03-07 2022-10-04 Adobe Inc. Figure captioning system and related methods

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01144118A (ja) * 1987-11-30 1989-06-06 Nec Corp マルチメディア文書表示方法とその装置
JPH05232982A (ja) * 1992-02-24 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 時間長指定型記事読み上げ方法
JPH08297561A (ja) * 1995-04-25 1996-11-12 Fuji Xerox Co Ltd 複合情報処理装置
JPH1185457A (ja) * 1997-09-11 1999-03-30 Canon Inc データ処理装置およびデータ処理装置のデータ処理方法およびコンピュータが読み出し可能なプログラムを格納した記憶媒体
JP2001147941A (ja) * 1999-11-22 2001-05-29 Nippon Steel Corp データベース検索システムおよび方法、記録媒体
JP2003122550A (ja) * 2001-10-15 2003-04-25 Fujitsu Social Science Laboratory Ltd 受動型閲覧用データ加工処理方法、受動型閲覧用データ加工処理プログラム、端末側受動型閲覧用データ加工処理プログラム、受動型閲覧用データ閲覧処理プログラム
JP2004282614A (ja) * 2003-03-18 2004-10-07 Ricoh Co Ltd 同期再生データ生成装置、同期再生コンテンツ提供装置、同期再生データ生成方法およびコンテンツ提供方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5963966A (en) * 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
US5761485A (en) * 1995-12-01 1998-06-02 Munyan; Daniel E. Personal electronic book system
US6018710A (en) * 1996-12-13 2000-01-25 Siemens Corporate Research, Inc. Web-based interactive radio environment: WIRE
US6970602B1 (en) * 1998-10-06 2005-11-29 International Business Machines Corporation Method and apparatus for transcoding multimedia using content analysis
JP4438129B2 (ja) * 1999-07-02 2010-03-24 ソニー株式会社 コンテンツ受信システム及びコンテンツ受信方法
US6862713B1 (en) * 1999-08-31 2005-03-01 International Business Machines Corporation Interactive process for recognition and evaluation of a partial search query and display of interactive results
US6349132B1 (en) * 1999-12-16 2002-02-19 Talk2 Technology, Inc. Voice interface for electronic documents
FR2811782B1 (fr) * 2000-07-12 2003-09-26 Jaxo Europ Systeme de conversion de documents a structure arborescente par parcours selectif de ladite structure
US7299202B2 (en) * 2001-02-07 2007-11-20 Exalt Solutions, Inc. Intelligent multimedia e-catalog
US6924904B2 (en) * 2001-02-20 2005-08-02 Sharp Laboratories Of America, Inc. Methods and systems for electronically gathering and organizing printable information
JP4583003B2 (ja) * 2003-03-20 2010-11-17 富士通株式会社 検索処理方法及びプログラム
US7574655B2 (en) * 2004-05-03 2009-08-11 Microsoft Corporation System and method for encapsulation of representative sample of media object

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01144118A (ja) * 1987-11-30 1989-06-06 Nec Corp マルチメディア文書表示方法とその装置
JPH05232982A (ja) * 1992-02-24 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 時間長指定型記事読み上げ方法
JPH08297561A (ja) * 1995-04-25 1996-11-12 Fuji Xerox Co Ltd 複合情報処理装置
JPH1185457A (ja) * 1997-09-11 1999-03-30 Canon Inc データ処理装置およびデータ処理装置のデータ処理方法およびコンピュータが読み出し可能なプログラムを格納した記憶媒体
JP2001147941A (ja) * 1999-11-22 2001-05-29 Nippon Steel Corp データベース検索システムおよび方法、記録媒体
JP2003122550A (ja) * 2001-10-15 2003-04-25 Fujitsu Social Science Laboratory Ltd 受動型閲覧用データ加工処理方法、受動型閲覧用データ加工処理プログラム、端末側受動型閲覧用データ加工処理プログラム、受動型閲覧用データ閲覧処理プログラム
JP2004282614A (ja) * 2003-03-18 2004-10-07 Ricoh Co Ltd 同期再生データ生成装置、同期再生コンテンツ提供装置、同期再生データ生成方法およびコンテンツ提供方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008125065A (ja) * 2006-10-27 2008-05-29 Ricoh Co Ltd 複合機からの文書提供方法

Also Published As

Publication number Publication date
US7603620B2 (en) 2009-10-13
US20060136803A1 (en) 2006-06-22

Similar Documents

Publication Publication Date Title
US7603620B2 (en) Creating visualizations of documents
US7761789B2 (en) Methods for computing a navigation path
US8584042B2 (en) Methods for scanning, printing, and copying multimedia thumbnails
US20080235564A1 (en) Methods for converting electronic content descriptions
US8812969B2 (en) Methods for authoring and interacting with multimedia representations of documents
US8719029B2 (en) File format, server, viewer device for digital comic, digital comic generation device
US6616700B1 (en) Method and apparatus for converting video to multiple markup-language presentations
US7149957B2 (en) Techniques for retrieving multimedia information using a paper-based interface
US7263671B2 (en) Techniques for annotating multimedia information
CN106662920B (zh) 交互式视频生成
US20050229107A1 (en) Paper-based interface for multimedia information
US20050213153A1 (en) Paper-based interface for multimedia information stored by multiple multimedia documents
JP2006101521A (ja) 入力メディアオブジェクトの視覚的表現を決定する方法、コンピュータプログラム及びデータ処理システム
JP2006155580A (ja) メディアオブジェクトを生成する方法、コンピュータプログラム及びデータ処理システム
JP2006135939A (ja) 入力メディアオブジェクトをエンコードする方法、コンピュータプログラム及びデータ処理システム
CN112040142B (zh) 用于移动终端上的视频创作的方法
JP2002140085A (ja) 文書読み上げ装置及び方法、コンピュータプログラム並びに記憶媒体
WO2012086359A1 (ja) ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP5674451B2 (ja) ビューワ装置、閲覧システム、ビューワプログラム及び記録媒体
JP2019220098A (ja) 動画編集サーバおよびプログラム
JP2020065307A (ja) サーバおよびプログラム、動画配信システム
JP2008160512A (ja) 再生装置、電子機器、再生方法、および、プログラム
JP2006309443A (ja) 情報処理システム、情報処理装置、情報処理端末、情報処理方法、その方法をコンピュータで実行するプログラム、および記録媒体
Erol et al. Multimedia clip generation from documents for browsing on mobile devices
JP2008288804A (ja) 画像再生装置、画像再生装置の制御方法および制御プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100518

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110628