JP2002526862A - ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換 - Google Patents

ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換

Info

Publication number
JP2002526862A
JP2002526862A JP2000575041A JP2000575041A JP2002526862A JP 2002526862 A JP2002526862 A JP 2002526862A JP 2000575041 A JP2000575041 A JP 2000575041A JP 2000575041 A JP2000575041 A JP 2000575041A JP 2002526862 A JP2002526862 A JP 2002526862A
Authority
JP
Japan
Prior art keywords
document
format
computer
block
implemented method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2000575041A
Other languages
English (en)
Inventor
ハッサン アラム,
スコット ツパジ,
アリヨシ コイチ,
ラクマット ハルトノ,
ティモチアス ジャジャディ,
ハンヤン ウィッジャジャ,
Original Assignee
ビーシーエル コンピューターズ, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ビーシーエル コンピューターズ, インコーポレイテッド filed Critical ビーシーエル コンピューターズ, インコーポレイテッド
Publication of JP2002526862A publication Critical patent/JP2002526862A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 ある入力フォーマット(304)のドキュメントを、異なる出力フォーマットのドキュメントに変換する、コンピュータ(101)で実現される方法(300)が開示される。この方法は、一般に、入力ドキュメント内のデータの位置を確認をする工程、データを、中間フォーマットドキュメント(402)内の1より多い中間フォーマットブロックにグループ分けする工程、および中間フォーマットブロック(518)を用いて、中間フォーマットドキュメントを出力フォーマット(404)ドキュメントに変換する工程を含む。

Description

【発明の詳細な説明】
【0001】 (関連出願) 本出願は、1998年10月1日に出願され、「Processor−Bas
ed Method for Converting and Outputt
ing Digital Data Representing a Docu
ment Image」という名称の米国特許仮出願第60/102、688に
対する優先権を主張し、同特許の全体を参考のため援用する。
【0002】 (発明の背景) (1.発明の分野) 本発明は一般的には、1つの形式で格納されている文書を別の形式に変換する
方法に関する。より詳細には、ある形式で格納されている文書画像の画像を表す
デジタルデータを編集および表示用として別の形式に変換するシステムおよび方
法が開示される。
【0003】 (2.関連分野の説明) デジタルコンピュータを用いて、文書中の情報の認識、取得および/または格
納を行う文書画像デジタルデータの自動処理について、活発に研究および商品開
発が行われてきた。例えば、1998年4月7日に発行され、H.Alamに付
与された米国特許第5、737、442号には、文書を表すデジタルコンピュー
タデータから表形式データの認識、取得および格納を行うプロセッサを基本とす
る方法についての開示がある。本明細書中、同特許の開示内容を参考のため援用
する。
【0004】 しかし、多くの他の画像処理に関する研究および商品は、例えば、文書中の情
報を正確、効率的かつ自動的に取得し、変換する取得した文書を表示用として別
の形式に変換することに焦点をあてていない。他の画像処理に関する研究および
商品は、ユーザが手入力または別の場合は再フォーマットを行うことおよび/ま
たは文書の内容を変更することを可能にすることに焦点をあてていない。さらに
、このような画像処理に関する研究および商品は、文書情報の全体または一部を
利用することおよび/または文書を所望の別のレイアウトに再フォーマットする
ために、このような情報をユーザが容易に編集可能な形式に変換することに焦点
をあてていない。ユーザが所望し得るのは、例えば、カット、ペーストにより文
書を編集することおよび/または別の場合は文書を修正または変更して再フォー
マットすることならびに/または文書中の情報を分析および/または別の用途に
全体的にまたは部分的に利用することである。
【0005】 ある形式で格納されている文書を別の形式に変換する、正確かつ効率的なシス
テムおよび方法が必要とされている。このようなシステムおよび方法は好適には
、ある形式で格納されている文書画像の画像を表すデジタルデータを、(例えば
、編集および表示用として)別の形式に変換する。
【0006】 (発明の要旨) 本発明は、文書(印刷文書またはインターネットウェブページ文書)を表すデ
ジタルデータからデータを抽出する方法を含む。この方法は一般的には、オリジ
ナルの形式または入力形式の文書のデジタルデータから単語を位置確認する工程
と、連結した単語を線に結びつける工程と、単語線をパラグラフとして結びつけ
る工程と、連結したパラグラフから表を位置確認する工程と、これらのパラグラ
フおよび表を中間形式に変換する工程と、この情報を出力形式で出力する工程と
を含む。入力形式および出力形式は、例えば、portable docume
nt format(PDF)、rich text format(RTF)
、スタイルシート付きhypertext markup language(
HTML)形式、表形式HTML、extensible markup la
nguage(XML)、cascading style sheets(C
SS)、ネットスケープレイヤー、リンクされたページおよび別々のページ、T
ag Image File Format(TIFF)、または他のあらゆる
画像形式(例えば、graphics interchange format
(GIF)、ビットマップ(BMP)、またはJoint Photograp
hic Experts Group(JPEG))、テキストおよび/または
画像オーサリングツールまたはアプリケーションによって生成される形式、もし
くは他のあらゆる適切な形式であり得る。
【0007】 ある入力形式の文書を別の出力形式の文書に変換するコンピュータを用いた方
法が開示される。この方法は一般的には、入力文書中のデータを位置確認する工
程と、データを中間形式文書中の1つ以上の中間形式ブロックにグループ分けす
る工程と、これらの中間形式ブロックを用いてその中間形式文書を出力形式文書
に変換する工程とを含む。このグループ分け工程は好適には、入力文書中の単語
を位置確認する工程と、線閾値を満足する単語を線に結びつける工程と、パラグ
ラフ閾値を満足する線をパラグラフとして結びつける工程と、表を位置確認する
工程とを含む。このグループ分け工程は、上記工程の代替としてまたは上記工程
に加えて、入力文書中のタグ(すなわち制御文字)を位置確認し、そのタグを用
いて単語を位置確認する工程と、単語を線に結びつける工程と、これらの線をパ
ラグラフとして結びつける工程と、表を位置確認する工程とを含み得る。各中間
形式ブロックは、単語、線、パラグラフ、表、および画像から選択され得る。
【0008】 各入力形式および出力形式は、portable document for
mat(PDF)、rich text format(RTF)、hyper
text markup language(HTML)、extensibl
e markup language(XML)、cascading sty
le sheets(CSS)、ネットスケープレイヤー、リンクされたページ
および別々のページ、Tag Image File Format(TIFF
)、graphics interchange format(GIF)、ビ
ットマップ(BMP)、Joint Photographic Expert
s Group(JPEG)、MICROSOFT WORDTM、WORD P
ERFECTTM、AUTOCADTM、およびPOWER POINTTMであり得
る。
【0009】 1つの実施形態において、入力文書はネットワークを介して受け取られ、出力
文書はネットワークを介して送られる。このネットワークは、例えば、電子メー
ルを介したインターネットまたはイントラネットであり得る。入力文書の標題は
、その標題を含むリンク目次ページを生成するように配置され得、各目次の標題
は、出力文書中の標題へのリンクを含み、目次ページは出力文書内に配置される
【0010】 別の実施形態において、1つの出力形式を表示用として選択するためにコンピ
ュータで実行可能なプログラム(例えば、JAVATMスクリプト)が生成され得
、このプログラムは、出力文書に挿入される。
【0011】 本発明の方法は、コンピュータで読み出し可能なもの(例えば、CD−ROM
、ジップディスク、フロッピーディスク、テープ、フラッシュメモリ、システム
メモリ、ハードドライブ、および搬送波で実施されるデータ信号)に格納される
コンピュータコードによって実施され得る。
【0012】 出力文書の表示は、例えば、文書中にサブ改ページを配置し、サブ改ページを
用いてその文書をサブページに細分化し、各サブページ内にブロックを配置し、
サブページのブロックの全体または一部を、表示構成の表示パラメータ内で連続
的に表示することにより行われ得る。表は、分割され得、これにより1つ以上の
表示ページに表示される。リンク付き目次および/またはリンク付きインデック
スも生成され得る。
【0013】 別の実施形態において、入力文書のレポジトリを1つ以上の格納形式で保持す
るために、変換器がコンピュータプログラム製品に取り入れられる。目次および
/またはインデックスも生成され得る。
【0014】 (好適な実施形態の詳細な説明) 本発明は、オリジナルの形式または入力形式の印刷文書の画像を表すデジタル
データを、別の出力形式に変換するシステムおよび方法を含む。以下の記載は、
当業者であれば誰でも本発明の作製および使用が可能となるように提示される。
特定の用途の説明は、例示のためだけに提供される。好適な実施形態の様々な改
変は、当業者にとって容易に明らかである。本明細書中に定義されている一般的
原理は、本発明の精神および範囲を逸脱することなく他の実施形態および用途に
適用され得る。従って、本発明は、記載の実施形態に限定されることを意図せず
、本明細書中に開示されている原理および機能に従った最も広い範囲を与えられ
る。
【0015】 図1は、本発明の実施形態のソフトウェアを実行するために用いられ得るコン
ピュータシステム101の一例を示す。図1は、ディスプレイ103、画面10
5、キャビネット107、キーボード109およびマウス111を含むコンピュ
ータシステム101を示す。マウス111は、グラフィカルユーザインターフェ
ースとインタラクトするためのボタンを1つ以上有し得る。キャビネット107
は、CD−ROM、ジップ、および/またはフロッピーディスクドライブ113
、システムメモリならびにハードドライブ(図2を参照)を収容し、これらは、
本発明を実施するコンピュータコードを取り入れたソフトウェアプログラム、本
発明において用いられるデータ等を格納および検索する際に用いられ得る。CD
−ROM、ジップおよびフロッピーディスク115をコンピュータで読み出し可
能な格納媒体の例として図示しているが、別のコンピュータで読み出し可能な格
納媒体(例えば、テープ、フラッシュメモリ、システムメモリ、およびハードド
ライブ等)が用いられ得る。さらに、インターネットまたはイントラネット等の
ネットワークにおいて搬送波として実現されるデータ信号が、コンピュータ読み
出し可能な格納媒体であり得る。
【0016】 図2は、本発明の実施形態のソフトウェアを実行するために用いられるコンピ
ュータシステム101のシステムブロック図である。図1に示すように、コンピ
ュータシステム101は、モニター103と、キーボード109と、マウス11
1とを含む。コンピュータシステム101は、サブシステム(例えば、中央プロ
セッサ151、システムメモリ153、固定格納部155(例えば、ハードドラ
イブおよびランダムアクセスメモリ)、リムーバブル格納部157(例えば、C
D−ROM、ジップまたはフロッピーディスクドライブ)、表示アダプター15
9、サウンドカード161、スピーカ163、ネットワークインターフェース1
65、ならびにプリンタ、ファックス、および/またはスキャナーインターフェ
ース167をさらに含む。本発明による使用に適した他のコンピュータシステム
は、さらに多くのまたはさらに少数のサブシステムを含み得る。例えば、別のコ
ンピュータシステムは、1つ以上のプロセッサ151(例えば、マルチプロセッ
サシステム)またはキャッシュメモリを含み得る。
【0017】 矢印169は、コンピュータシステム101のシステムバスアーキテクチャを
示す。しかし、これらの矢印は、サブシステムをリンク接続する働きをする任意
の相互接続方式の一例である。例えば、中央プロセッサをシステムメモリおよび
表示アダプターに接続するために、ローカルバスが用いられ得る。図2に示すコ
ンピュータシステム101は、本発明による使用に適切なコンピュータシステム
の一例に過ぎない。異なる構成のサブシステムを有する別のコンピュータアーキ
テクチャも用いられ得る。
【0018】 図3は、文書を表すデータをオリジナルの入力形式から別の出力形式に変換す
る方法300を示すフロー図である。変換方法300は、工程302において入
力データを受け取る工程を含む。この入力データを受け取る工程は、コンピュー
タ読み出し可能な格納媒体(例えば、上記にて挙げたようなCD−ROM、ジッ
プ、フロッピーディスク、テープ、フラッシュメモリ、システムメモリ、ハード
ドライブ、搬送波として実施されるデータ信号等)からデータを受け取るかまた
は読み出すことにより、達成され得る。搬送波として実施されるデータ信号は、
ネットワーク(例えば、インターネットまたはイントラネット)内の搬送波また
はコンピュータポート(例えば、パラレルバス、シリアルバス、またはユニバー
サルシリアルバス(USB)プリンタポート)を介して配信される搬送波(例え
ば、ファックス機器および/またはスキャナを介して配信されるデータ信号)で
あり得る。
【0019】 次いで、方法300は、工程304において、入力データが入力形式としてサ
ポートされている形式であるかどうかを判定する。サポート入力形式は好適には
、出力形式として利用可能なものと同一であるが、入力形式は、より少数、より
多数または出力形式を部分的に組み合せたあらゆる組み合せを含み得る。例えば
、特定の状況において、多くの異なる入力形式をサポートまたは可能にする一方
で、1つの特定の出力形式のみを可能にすることが望ましい場合があり得る。サ
ポート入力形式および/または出力形式は、1つ以上のバージョンのHTML、
XML、PDF、RTF、CSS、ネットスケープレイヤー、リンクされたペー
ジおよび別々のページ、Tag Image File Format(TIF
F)または他のあらゆる画像形式、テキストおよび/または画像オーサリングツ
ールまたはアプリケーションによって生成される形式、もしくは他のあらゆる適
切な形式を含み得る。
【0020】 工程304において入力データが入力形式としてサポートされる形式であると
判定されると、その入力データは、工程306において、オリジナルの入力形式
と異なる1つ以上の出力形式に変換される。これらの1つ以上の出力形式は、ユ
ーザによって指定され得、1つ以上の出力形式の全ては、方法300によってサ
ポートされ、かつ/または変換されたデータ出力の出力先のアプリケーションま
たはデバイスに基づいて決定される。例えば、出力デバイスは、方法300によ
ってサポートされる1つ以上の出力形式をサポートするポータブルデジタルアシ
スタント(PDA)であり得る。
【0021】 あるいは、工程304において、入力データが入力形式としてサポートされて
いない形式であると判定された場合、方法300は、入力データを変換せずに終
了する。方法300はまた、入力データが入力形式としてサポートされていない
形式であることを示すエラーメッセージも出力し得る。
【0022】 図4は、入力データを異なる出力形式に変換する工程306の実施形態を示す
フロー図である。工程306は、工程402において入力データを中間形式に変
換する工程を含む。次いで、この中間形式は、工程404において出力データを
1つ以上の出力形式で生成するために用いられる。
【0023】 図5および6は、文書を表すデータを別の出力形式に変換する工程の実施形態
を示す模式図である。図5は、文書を表すデータを中間形式に変換し、次いで別
の出力形式に変換する工程を示し、図6は、文書を表すデータをPDFに変換し
、次いで中間形式に変換し、最後に別の出力形式に変換する工程を示す。
【0024】 図5に示すように、文書502はスキャナー504によってスキャンされ、ま
たは、ファックス506はファックス機器508によって受け取られる。スキャ
ナー504およびファックス機器508の各々は、文書502の画像を表すデー
タ510を光学式文字読取(OCR)アプリケーション526に出力する。OC
Rアプリケーションソフトウェアは、当該分野で公知であり、市販品として入手
可能である。OCRアプリケーション526は、文書502またはファックス5
06の画像を表す文書画像データ510を、テキスト/画像オーサリングツール
によって生成される形式のような形式の文書518に変換する。
【0025】 あるいは、テキストおよび/または画像オーサリングツール516は、テキス
トおよび/または画像文書518を作成するために用いられ得る。テキストおよ
び/または画像オーサリングツール516は、例えば、任意の単語処理アプリケ
ーション(例えば、MICROSOFT WORDTM、WORD PERFEC
TM等)、任意のテキストおよびドローイングオーサリングアプリケーション(
例えば、AUTOCADTM、POWER POINTTM等)および/または他の
あらゆる適切なテキストおよび/または画像オーサリングツールであり得る。テ
キスト/画像文書518は、テキストおよび/または画像文書518を中間形式
文書530に変換する文書変換器528に出力される。変換器528は本質的に
は文書翻訳器であり、例えば、プリンタドライブに組み込まれ得、これにより、
ソース(例えば、スキャナーまたはファックス機器)から受け取られたデータは
、中間形式の文書に直接変換され得る。
【0026】 中間形式文書530は、変換器532によって受け取られ、この変換器532
は、中間形式文書530をある出力形式文書534に変換する。出力形式は、例
えばHTMLまたはXMLであり得、出力形式文書534は、出力アプリケーシ
ョンまたは出力デバイス(例えば、INTERNET EXPLORERTMまた
はNETSCAPETM等)に出力され得る。この文書を中間形式に変換する工程
について、図7−10を参照しながらより詳細に説明する。
【0027】 図6に示す別の実施形態において、文書画像510およびテキストおよび/ま
たは画像文書518が、ACROBAT CAPTURETMアプリケーションソ
フトウェア612AおよびACROBAT WRITERTMアプリケーションソ
フトウェア612Bにそれぞれ入力され、これらのアプリケーションはそれぞれ
PDF文書626を出力する。アプリケーションプログラムACROBAT C
APTURETMおよびACROBAT WRITERTMは、Adobe Sys
temsから市販されているソフトウェア商品である。PDF文書626は、変
換器628によって受け取られ、変換器628は、このPDF文書を中間形式文
書530に変換する。この中間形式文書は、変換器532に出力され、この変換
器532は、中間形式文書530を出力形式文書534に変換する。上述したよ
うに、出力形式は、例えば、HTMLまたはXMLであり得、出力形式文書53
4は、出力アプリケーションまたは出力デバイス(例えば、INTERNET
EXPLORERTMまたはNETSCAPETM)に出力され得る。
【0028】 中間形式は好適には、文書内容を表すデータを任意の別の所望の出力形式に転
送するために容易に用いられ得る形式である。中間形式は本質的には、文書翻訳
器として働く。中間形式文書は好適には、文字、文字のフォント(イタリックを
含む)、サイズ、太さ(weights)(ボールドまたは普通の太さ)、下線
、および文書内の位置等の情報を含む。中間形式文書は好適には、文字情報を単
語、線、パラグラフ、および/または表にグループ分けする。各グループは、中
間形式ブロックとして中間形式文書に格納される。中間形式ブロックはまた、画
像もしくは他のグループ分けまたはブロック化された入力文書部分も格納し得る
。中間形式はまた好適には、入力文書に含まれるブックマーク、文書リンク、ラ
スター画像およびベクトル画像上の情報を維持する。さらに、中間形式は好適に
は、あらゆる埋め込みアニメーション、音声および/または音楽に加えて、他の
アプリケーションを開始するためのリンクの実行を維持または転送する。例えば
、中間形式は、中間形式ブロックをX座標およびY座標形式にしたリスト項目で
あり得る。
【0029】 各中間形式ブロックは、表の構成要素のスペーシングに応じて、画像、パラグ
ラフ、表の構成要素、または表の全体または一部分であり得る。中間形式で格納
された情報は、所望の出力形式への変換が容易である。
【0030】 ここまでは中間形式への変換プロセスの全体を説明してきたが、ここからは、
変換プロセスの詳細について説明する。図7は、文書画像からデータを抽出し、
抽出したデータを中間形式に変換する工程402の実施形態を示すフロー図を示
す。工程402は、入力形式文書中のタグの位置確認および格納を行う工程70
0と、デジタルデータから単語を位置確認する工程702と、位置確認した単語
を線に結びつける工程704と、連結した単語線をパラグラフとして結びつける
工程706と、連結したパラグラフから表を位置確認する工程708と、工程7
02、704、706、および708から生成された中間形式データを出力する
工程710とを含む。工程702、704、706、および708のそれぞれの
詳細について以下に説明する。
【0031】 (工程700:入力形式文書中のタグの位置確認および格納) 特定の形式の文書テキスト表示物(例えば、WORDTM)は、タグ(または制
御文字)を含み得る。このプロセスでは、まず最初に、入力文書の入力形式(例
えば、WORDTM)を認識し得る。入力文書のタグが認識可能な場合、その入力
形式または入力タイプ用のタグ辞書を用いて、位置確認したタグが中間形式に翻
訳され得る。
【0032】 各タグは、文書の特定部分と関連付けられ得る。タグは通常は、特定部分につ
いての情報(例えば、標題、表、パラグラフまたはリストとしての識別情報およ
び/またはアライメント、フォント等の他の情報)を含む。したがって、工程7
00では、タグが少しでも有る場合はタグおよびタグ中の関連情報を位置確認お
よび格納する。タグは、完全または不完全なタグであり得、文書の特定部分につ
いての完全な情報は提供しない。タグは、後続工程(例えば、工程702、70
4、706および708)の実行を容易にするために用いられ得る。このような
後続工程の結果がタグ中の情報と矛盾する場合、好適には、後続工程からの結果
がタグ中の情報に優先するかまたは取って代わる。言い換えれば、タグは好適に
は、基準線またはデフォルト結果または設定として用いられる。あるいは、タグ
が完全な場合、このプロセスは、工程702、704、706および708を迂
回する。
【0033】 別の特定の形式の文書(例えば、PDF)は、タグを含まない。このような場
合、後続工程(例えば、工程702、704、706および708)からの結果
を用いて、通常タグ内に含まれている情報を取得する。後続工程では、文書テキ
ストのレイアウト情報(すなわち、画像表示物)を用いて、例えば単語、線、パ
ラグラフおよび表等を配置する。
【0034】 (工程702:入力形式文書中の単語の位置確認) 工程702において文書画像を表すデジタルデータから単語を位置確認する際
、デジタルコンピュータは、入力形式のデジタルデータにより提供される各単語
情報を用いる。オリジナルの入力形式のデジタルデータにより提供される情報は
、例えば、ページに対して単語の左上および右下にあるX座標およびY座標なら
びに単語のフォントを含み得る。フォント情報は、スタイル情報、サイズ情報、
太さ(ボールドまたは非ボールド)情報、ストローク(イタリックまたは非イタ
リック)および単語の方向付けを含む。説明目的のみのため、横長方向または縦
長方向のいずれかにおいてX軸がページの幅(水平方向)に沿って伸びていると
仮定し、Y軸がページの長さ(垂直方向)にそって伸びていると仮定する。次い
で、個々の単語は、そのX座標およびY座標によって選別され、好適には、最初
にY座標によって垂直方向に、次いでX座標によって水平方向に選別される。し
かし、単語を選別する正確な方法は異なり得る。
【0035】 (工程704:単語を線に結びつける) 図8は、位置確認され、選別された単語を線に結びつける工程704を示すフ
ロー図を示す。位置確認され、選別された単語を線に結びつけるために、工程8
02において、選別された単語のリストからの第1の単語が第1の線に割り当て
られる。この第1の線は、現在線として規定され得る。次いで、工程804にお
いて、次の単語が取り出しまたは選択される。
【0036】 工程806において、選択された単語が現在線内にあるかどうかが判定される
。選択された単語が現在線内にあるかどうかが判定するために、選択単語の適切
なY座標(単数または複数)(すなわち、垂直方向)と、現在線内の先行単語の
適切なY座標(単数または複数)とを比較して、特定の線パラメータおよび/ま
たは閾値を満たすかどうかを判定する。例えば、選択単語の上部Y座標と現在線
内の先行単語の上部Y座標とを比較し得、これによりY方向の単語間スペーシン
グを判定する。単語間スペーシングまたはY方向の距離が閾値(例えば、平均文
字高さの10%)を越える場合、Y方向の単語間スペーシングパラメータを満足
しない結果となり、その単語は、現在線内に収まっていないと判定される。平均
文字高さは、例えば、現在線内の単語または文書中の全単語から判定され得る。
工程806では、他の適切な比較および/または分析が為され得、これにより、
選択単語が現在線内にあるかどうかを判定する。
【0037】 工程806において、選択単語が現在線内にないと判定された場合、工程80
8において、その単語が既存線(すなわち、1つ以上の単語が割り当てられた線
)内にあるかどうかが判定される。この工程は、工程806に関連して上述した
分析と同様の分析を用いて判定され得る。例えば、上方および/または下方Y座
標が各既存線に割り当てられている場合、選択単語の上方および/または下方Y
座標があらゆる他の既存線の上方および/または下方Y座標の上または下の閾値
距離内にあるかどうかが判定され得る。線の閾値距離は、例えば、平均文字高さ
の10%であり得る。あるいは、選択単語上方および/または下方Y座標が、残
りの既存線上の1つ以上の単語の上方および/または下方Y座標の上または下の
閾値距離内にあるかどうかが判定され得る。このY座標を比較する工程は、残り
の既存線を調べ終えるまでまたは選択単語が既存線内にあると判定されるまで、
残りの既存線の各々について繰り返される。選択単語が既存線内にあると判定さ
れると、工程809において、その既存線は現在線として規定される。
【0038】 工程806において選択単語が現在線内にあると判定されるか、もしくは、工
程809において別の既存線が現在線として設定された後、工程810において
、選択単語が特定の閾値距離または閾値スペーシング内にあるかどうかを判定す
る。例えば、現在選択単語の適切なX座標と、現在線内の先行単語の適切なX座
標とを比較して、これらのX(水平)方向の単語間の距離が閾値距離内にあるか
どうかを判定する。詳細には、選択単語の左上X座標と、左端および/または右
端単語の右下X座標とが比較され得、これにより、X方向の単語間のスペーシン
グを判定する。X方向の単語間スペーシングが閾値距離(例えば、文字幅の2.
5倍または平均文字幅の2.5倍)を上回る場合、この単語間スペーシング閾値
を上回る結果となり、選択単語は、現在線内に存在しないと判定される。X方向
の閾値単語間スペーシングは、単語間スペーシングの統計結果であり、動的に判
定され得る。ページ上のほぼ同一の垂直位置に配置されている2つの単語は、同
一線上に存在しない場合(例えば、単語がカラム間のスペーシングで異なるカラ
ムに配置されている場合等)がある。
【0039】 工程808において、選択単語が別の既存線内にないと判断された場合、工程
812において、その選択単語を新規線に追加することにより、新規線を開始す
る。次いで、新規線は、現在線として規定される。別の場合、工程810におい
て選択単語が閾値距離内にないと判定されると、プロセスは工程808から続け
て、選択単語が別の既存線上にあるかどうかを判定する。
【0040】 工程810において選択単語が閾値距離内にあると判定されると、工程814
において選択単語を現在線に追加する。工程812または工程814において選
択単語を現在線または新規線に追加した後、工程816において、選別単語リス
ト内に残っている単語(すなわち、線にまだ割り当てられていない単語)がある
かどうかを判定する。線にまだ割り当てられていない単語がある場合、プロセス
は工程804から続けて、次の単語を選択する。工程816において全単語が線
に割り当てられたと判定されると、単語を線に結びつけるプロセスが終了する。
【0041】 (工程704における単語を線に結びつける工程の説明) 図9は、工程704において単語を線に結びつけるために用いられる様々な基
準を示すサンプル文書900の一部を示す。例えば、線は、単語902(すなわ
ち、選別単語リスト内の第1の単語(例えば、文書中の位置により選別された単
語))から開始する。この線は、現在線として規定される。選別単語リスト内の
次の単語904が選択され、現在線内にある(すなわち、Y方向のパラグラフ閾
値距離内にある)と判定される。選択単語904は、X方向のパラグラフ閾値距
離内にもあり、したがって現在線に追加される。
【0042】 次いで、選別単語リスト内の次の単語906が選択され、単語906が現在線
内にある(すなわち、単語906の上方および/または下方Y座標(単数または
複数)が単語902、単語904および/または現在線の対応するY座標(単数
または複数)の閾値距離内にある)と判定される。単語906が、単語902、
単語904および/または現在線のX座標(単数または複数)からの閾値距離内
にあるX座標(単数または複数)を有するかどうかも判定される。これにより、
単語902および904を既に含む現在線に単語906が追加される。
【0043】 次いで、選別単語リスト内の次の単語908が選択され、単語908の上方お
よび/または下方Y座標(単数または複数)は、現在線および/または現在線内
のあらゆる単語の対応するY座標(単数または複数)の閾値距離内にあるため、
単語908は現在線内にあると判定される。しかし、単語908と現在線の任意
の単語(すなわち、単語902、904、906)との間の距離は、X方向に沿
った単語間距離閾値内にないと判定されるため、単語908は現在線に追加され
ない。単語908があらゆる他の既存線内にないと判定された後、新規線が開始
され、現在線として規定される。
【0044】 同様の様式により、次の単語910が選択され、現在線内にあり、閾値距離内
にあると判定され、現在線に追加される。
【0045】 次の単語912が選択され、現在線内または任意の他の既存線上にないと判定
されると、単語912は、新規線に追加される。この新規線は、現在線として規
定される。文書900中の残りの単語は、上述した様式と同様の様式で1つ以上
の既存および/または新規線に連結される。
【0046】 (工程706:線をパラグラフとして結びつける) 図10は、選別単語リスト中の各単語を線に割り当てた後、それらの線をパラ
グラフとして結びつける処理工程を示すフロー図を示す。
【0047】 線をパラグラフとして結びつけるために、工程1002において、第1の線を
第1のパラグラフに割り当てる。この第1のパラグラフは、現在パラグラフとし
て規定される。次いで、工程1004において、次の線が取り出されるかまたは
選択される。
【0048】 好適には、選択線を所与のパラグラフに割り当てる前に、3つの基準について
判定が為される。以下は、これらの3つの基準である:(1)選択線がY方向に
おいてパラグラフの近傍にある(工程1006);(2)選択線がX方向におい
てパラグラフと垂直にオーバーラップする(工程1010);および(3)選択
線の単語のフォントサイズと、パラグラフ中の単語のフォントサイズとが同じで
ある(工程1012)。これらの基準と、工程1006、1010、および10
12について以下により詳細に説明する。
【0049】 工程1004において次の線を選択した後、工程1006において、選択線が
Y方向において現在パラグラフの近傍にあるかどうかを判定する。選択線が現在
パラグラフのY方向の近傍にあるかどうかを判定するために、選択線の適切なY
座標(単数または複数)と、現在パラグラフの先行線の適切なY座標(単数また
は複数)とを比較して、特定のパラメータおよび/または閾値を満たすかどうか
を判定する。
【0050】 例えば、選択線の上方Y座標と、現在パラグラフ中の先行線の下方Y座標とが
比較され得、これにより、Y方向の線間スペーシングが判定され得る。Y方向の
線間スペーシングが閾値(例えば、平均文字高さの1.75倍等)を上回る場合
、Y方向の線間スペーシング閾値を満足しない結果となり、その線は、現在パラ
グラフのY方向の近傍にないと判定される。加えて、選択線が現在パラグラフ中
の先行線とY方向でほぼ同じ位置にある(例えば、現在パラグラフ中の先行線の
Y座標を上または下の平均文字高さの10%以内)場合、線間スペーシングは、
Y方向の最低線間スペーシング閾値を満足せず、その線は、Y方向において現在
パラグラフの近傍にないと判定される。工程1006では、他の適切な比較およ
び/または分析ももちろん為され得、これにより、選択線が現在パラグラフの近
傍にあるかどうかが判定される。
【0051】 工程1006において、選択線が現在パラグラフの近傍にないと判定されると
、工程1008において、選択線が任意の他の既存パラグラフ(すなわち、少な
くとも1本の線が割り当てられたパラグラフ)の近傍にあるかどうかが判定され
る。この工程は、工程1006に関して上述した分析と同様の分析を用いて判定
され得る。
【0052】 工程1006において、選択線が現在パラグラフ近傍にあると判定された場合
または工程1008において選択線が別の既存パラグラフ近傍にあると判定され
た場合、その選択線は現在パラグラフとして規定され、工程1010において、
選択線が現在パラグラフと垂直方向にオーバーラップするかどうかが判定される
。選択線のアライメントと現在パラグラフとが同じアライメントを有する場合(
例えば、左、右または中央のアライメント)場合、選択線は、現在パラグラフと
垂直方向にオーバーラップする。
【0053】 例えば、現在線の第1の単語の左X座標が、現在パラグラフ中の先行線の第1
の単語の左X座標に対する閾値距離内にある場合、選択線および現在パラグラフ
は両方とも、左にアライメントされており、したがってオーバーラップする。し
かし、パラグラフ中にはインデントされた第1の線があり得るため、現在線の第
1の単語の左のX座標と現在パラグラフ中の第1の線の第1の単語の左のX座標
とを比較した場合、閾値距離は、ぶら下げインデントを見込んで、より大きな数
に規定され得る。
【0054】 現在線の最終単語の右X座標が、現在パラグラフの線の最終単語の最右端X座
標からの閾値距離以内にある場合、選択線および現在パラグラフは両方とも、右
にアライメントされており、従ってオーバーラップする。さらに、現在線の中央
X座標(すなわち、現在線の第1の単語の左のX座標と最終の単語の右X座標と
の平均)が、現在パラグラフ中の先行既存線の中央X座標より大きいまたは小さ
い閾値距離(すなわち、現在パラグラフの先行既存線の第1の単語左X座標と最
終の単語の右X座標との平均)以内にある場合、選択線および現在パラグラフは
両方とも、中央にアライメントられており、したがってオーバーラップする。閾
値距離は、例えば、平均幅の文字の文字幅の0.5であり得る。
【0055】 上記は、線のアライメントを判定し、パラグラフ近傍の線が同様のアライメン
トであるかどうかを判定する工程の例示的実施例に過ぎず、別の適切な方法が用
いられ得る。例えば、上記の方法は、現在パラグラフの最終の既存線のみを評価
して、その現在線が同様のアライメントかどうかを判定するように改変され得る
工程1010において、選択線が現在パラグラフとオーバーラップしていると
判定されると、工程1012において、選択線の単語のフォントサイズと現在パ
ラグラフの単語のフォントサイズとが同じかどうかが判定される。上述したよう
に、入力形式のデジタルデータは、各単語のフォントに関する情報(例えば、ス
タイル、ボールドまたは非ボールドを表す太さおよびサイズ)を提供する。
【0056】 工程1008において、選択線が任意の他の既存パラグラフの近傍にないと判
定された場合、工程1010において、選択線が現在パラグラフとオーバーラッ
プしないと判定された場合、または工程1012において選択線の単語のフォン
トサイズと現在パラグラフの単語のフォントサイズとが同じでないと判定された
場合、工程1014において選択線を新規パラグラフに追加し、その新規パラグ
ラフを現在パラグラフとして設定することにより、新規パラグラフが開始される
【0057】 工程1012において、選択線の単語のフォントサイズが現在パラグラフの単
語のフォントサイズと同じであると判定された場合、工程1016において、そ
の選択線は、現在パラグラフに追加される。工程1014または工程1016に
おいて、選択線がパラグラフに追加された後、工程1018において、パラグラ
フに割り当てられていない線が残っているかどうかを判定する。パラグラフに割
り当てられていない線が残っている場合、プロセスは、工程1004から続けて
、次の線を選択する。全ての線がパラグラフに割り当てられると、線をパラグラ
フとして結びつけるプロセスが終了する。
【0058】 (工程706において線をパラグラフとして結びつける工程の説明) 再度図9を参照して、このサンプル文書900の一部分はまた、工程706に
おいて線をパラグラフとして結びつける工程において用いられる様々な基準を示
す。
【0059】 例えば、第1の線920を第1のパラグラフに追加し、第1のパラグラフを現
在パラグラフとして規定した後、次の線922が選択される。次いで、線922
のY座標は、現在パラグラフ中の先行線920とY方向でほぼ同じ位置にあり、
従ってY方向の最低線間スペーシングを満足していないため、線922が現在パ
ラグラフの近傍にないことが判定される。線922が任意の他の既存パラグラフ
のY方向の線間スペーシング基準を満たさないことも判定され、従って、線92
2は、新規パラグラフに追加され、この新規パラグラフは、現在パラグラフとし
て規定される。
【0060】 パラグラフに割り付けられていない線があるため、次の線924が選択される
。線924が線922を含む現在パラグラフの近傍にないことが判定される。次
いで、線924が線920を含むパラグラフの近傍にあることが判定され、その
パラグラフは現在パラグラフとして規定される。加えて、線924および現在パ
ラグラフは両方とも左にアライメントされているため、線924が現在パラグラ
フとオーバーラップすることが判定される。しかし、線924のフォントサイズ
と現在パラグラフのフォントサイズは異なり、線924はいずれの既存パラグラ
フの近傍にもないため、線924は、新規パラグラフに追加され、次いで、この
新規パラグラフは、現在パラグラフとして規定される。
【0061】 上述した様式と同様の様式で、線926が線924を含む現在パラグラフの近
傍にないが線922を含むパラグラフの近傍にあると判定され、そのパラグラフ
は現在パラグラフとして規定される。線926および現在パラグラフは両方とも
右にアライメントされているため、線926は現在パラグラフとオーバーラップ
すると判定される。しかし、線926のフォントサイズと現在パラグラフのフォ
ントサイズは異なるため、線926は、新規パラグラフに割り当てられる。パラ
グラフに割り当てられていない線があるため、次の線928が現在線として選択
される。
【0062】 線928は、線926を含む現在パラグラフの近傍にあると判定され、線92
8および現在パラグラフは両方とも右にアライメントされているため、線928
は現在パラグラフとオーバーラップする。線928のフォントサイズと現在パラ
グラフのフォントサイズとが同じであることも判定され、線928は、線926
を含む現在パラグラフに割り当てられる。
【0063】 文書900中の残りの線は、上述した様式と同様の様式で、1つ以上の新規お
よび/または既存パラグラフに連結される。
【0064】 (工程708:表の位置確認) 単語を線に結び付け、線をパラグラフとして結びつけた後、工程708におい
て、表が位置確認される。結びつけたパラグラフから表を位置確認するために、
任意の適切な方法が用いられ得る。例えば、1998年4月7日に発行され、H
.Alamに付与された米国特許第5、737、442号に、文書を表すデジタ
ルコンピュータデータから表形式データを認識し、取得し、格納するプロセッサ
を基本とする方法についての開示がある。本明細書中、同特許の開示内容全体を
参考のため援用する。
【0065】 工程708において、オリジナルの入力形式の文書から表を位置確認する1つ
の方法は一般的には、文書の水平プロジェクションプロフィールを評価する工程
と、水平プロジェクションプロフィールにより示される(disclosed)
空白を分析することにより、表の上方境界および下方境界を判定する工程と、文
書の垂直プロジェクションプロフィールを評価する工程と、垂直プロジェクショ
ンプロフィールにより示される空白を分析することにより、表の水平位置を判定
する工程とを含む。
【0066】 図11は、中間形式で格納されているデータを所望の出力形式に変換するプロ
セス404を説明するフロー図を示す。工程1102において、中間形式は、1
つ以上のサポート出力形式に変換される。上述したように、出力形式は、HTM
L、XML、CSS、ネットスケープレイヤー、リンクされたページおよび別々
のページ、PDF、TIF(またはGIF、BMP、JPEG等の他の画像形式
)、RTF、および他のあらゆる形式の1つ以上のバージョンであり得るが、例
示的出力形式RTF1104、HTML(表形式またはスタイルシート付き)1
106、TIFF(または別の画像形式)1108およびXML1110のみを
示す。例えばHTMLバージョン3.2は、ブロックを指定座標に配置すること
を可能にしない一方、例えばHTMLバージョン4.0は、座標を指定してブロ
ックの配置を可能にするため、変換プロセス404好適には、両方の種類のHT
MLをサポートする。従って変換プロセスを提供してスタイルシート付きのHT
MLおよび表形式のHTMLを生成する工程は、異なるバージョンのHTMLを
サポートする。出力は、1つ以上の可能な出力形式の文書を含み得る。
【0067】 図12は、中間形式文書をスタイルシート付きのRTFまたはHTML出力形
式文書1104または1106に変換する工程1102を説明するフロー図を示
す。スタイルシート付きのRTFまたはHTML出力形式に変換するために、工
程1202において、中間形式の各ブロックについて、左上および右下のX座標
およびY座標が判定され得る。上述したように、中間形式で格納された情報は、
1つ以上のブロックを含み得る。各ブロックは、表構成要素のスペーシングまた
は画像に応じて、パラグラフ、表中の構成要素、表の全体または一部分であり得
る。
【0068】 工程1204において、中間形式の各ブロックについて出力形式ブロックが生
成される。出力形式ブロックの作成は、出力形式スタイルシート中の出力形式ブ
ロックの座標が中間形式ブロックの座標に対応するように行われる。工程120
6において、各中間形式ブロックのフォントは出力形式フォントへマッピングさ
れ、中間形式の各ブロックが対応する出力形式ブロックに調和するように行われ
る。次いで、工程1208において、出力形式でマッピングされたフォントを有
する各出力形式ブロックは、対応する出力形式テキストブロック内に配置される
【0069】 個々の中間形式のブロックのプロセス1212による処理は、プロセス121
2を各中間形式ブロックに対して1回行うか、複数のグループの場合はプロセス
1212を中間形式ブロックの各グループに対して1回行うか、または、プロセ
ス1212を全ての中間形式ブロックに対して1回まとめて行うことによって行
われ得る。プロセス1212の繰り返しが全て終了すると、工程1210におい
て、スタイルシート付き文書の出力RTFまたはHTMLが出力される。
【0070】 図13は、中間形式をTIFF出力形式(または別の画像形式)に変換する工
程1102を説明するフロー図を示す。最初に、工程1302において、中間形
式ブロックを用いて文書のビットマップを生成する。工程1304において、中
間形式文書のビットマップを、TIFF出力文書に配置する。最後に、工程13
06において、TIFF出力文書を出力する。
【0071】 図14は、中間形式を表形式HTML出力形式1108に変換する工程110
2の第1のプロセスを説明するフロー図を示す。上述したように、例えば、HT
MLバージョン3.2は、ブロックを指定座標に配置することを可能にしない。
したがって、変換プロセスは好適には、表形式HTML出力文書内にグリッドを
生成する工程を含む。グリッドは一般的には、好適には最小数のセルを有する表
であり得る。
【0072】 表形式HTML出力形式を変換するために、工程1402において、各ブロッ
クの上Y座標および下Y座標yl、y2のリストが作成される。工程1404に
おいて、このY座標リストがスキャンされ、これにより、Y方向ブロック間に間
隔または空間が配置され、ブロック間の各間隔の上方Y座標および下方Y座標y
l’、y2’が記録される。明らかなように、各間隔のY座標yl’、y2’は
一般的には、1つのブロックのylのY座標と別のブロックのy2のY座標とに
対応する。同様に、工程1406において、各ブロックの左X座標および右X座
標、xl、x2のリストが作成される。工程1408において、このX座標リス
トがスキャンされ、これによりX方向のブロック間に間隔または空間が配置され
、ブロック間の各間隔の上X座標および下座標、xl’、x2’が記録される。
明らかなように、各間隔のX座標、xl’、x2’は一般的には、1つのブロッ
クのxlのX座標と別のブロックのx2のX座標とに対応する。
【0073】 次いで、工程1410において、「m」(すなわち、Y方向の間隔数)が数字
yl’に割り当てられ、「n」(すなわち、X方向の間隔数)が数字x1’に割
り当てられる。。次いで、工程1412において、m+1の数のローおよびn+
1の数のカラムを有するマクロ表が作成される。
【0074】 ローjとローj+1との間の境界(jは1からmである)は、Y座標y1j
に配置される。従って、各ローの高さは、Y方向に沿った2本の境界間の距離で
ある。ローがページ端部にY方向に延びる場合、このようなローの高さは、文書
端部からの距離(すなわち、ロー境界に対して、分割された表の最小X座標また
は最大X座標)である。ローが1本のみの場合、その高さは、単に分割された表
の最大X座標に等しい。また、カラムiとカラムi+1との間の境界(iは1か
らnである)は、X座標xlj’に配置される。従って、各カラムの幅は、X方
向に沿った2本の境界間の距離である。カラムがX方向にページ端部に延びる場
合、このようなカラムの幅は、文書の端部からの距離(すなわち、カラム境界に
対して、分割された表の最小Y座標または最大Y座標)である。カラムが1つし
かない場合、その幅は、単に分割された表の最大Y座標と等しい。
【0075】 工程1414において、上述したプロセス1400を用いて、マクロ表の各セ
ルを再帰的に細分化する。プロセス1400の第1の繰り返しにおいて、「マク
ロ表」は、ページまたは文書の全体を含む表を意味する。プロセス1400の各
後続の繰り返しにおいて、「マクロ表」は、細分化される高レベルマクロ表のセ
ルのみを含む表を意味する。いずれの場合においても、プロセス1400の全て
の後続繰り返し用の最大および最小のX座標およびY座標は、細分化される高レ
ベルマクロ表のセルのX座標およびY座標である。プロセス1400の反復は、
各セルの最初のマクロ表および後続の全マクロ表がそれ以上分割できなくなるま
で行われる。マクロ表の各セルは、1つ以上の中間形式ブロックを含み得る。
【0076】 図15Aは、サンプル文書のページを示し、図15Bは、図15Aのサンプル
文書ページをマクロ表のセルに概略的に分割したものを示す。図15Bに点線で
示すように、このマクロ表は、第1の繰り返しにおいて、5つのローおよび1つ
のカラムのセルに分割される。さらに、各ブロックは、ブロック周囲の境界で指
定される。第1すなわち上部のローのセルの水平スパンは、この第1のマクロ表
がそれ以上分割されることを防ぐ。最高レベルのマクロ表を細分化する繰り返し
が全て終了すると、各ブロックは、HTML表の1つのセルを占有する。図15
Cは、マクロ表を分割する後続の繰り返しの一例を示す。具体的には、第1のマ
クロ表の最終ローのセルはそれ自身は、2つのカラムに分割可能な低レベルマク
ロ表である。図示していないが、第1のマクロ表または最高レベルマクロ表なら
びに後続マクロ表または低レベルマクロ表の別のセルをさらに細分化することが
可能である。
【0077】 図16は、中間形式文書を表形式HTML出力文書に変換する工程1102の
第2のプロセス1600を説明するフロー図を示す。プロセス1600では、第
1のプロセス1400により生成された各不可分セルの区分分けを試み、各中間
形式ブロックを出力表形式HTML文書中の対応座標に配置する。
【0078】 具体的には、工程1602において、全マクロ表の第1のセルを選択する。第
1のセルは、最小の左上X座標および/または最小の左上Y座標を有するセルで
あり得る。各セルは、1つ以上の中間形式ブロックを含み得る。選択セルの左上
端部から始まって、工程1604において、左端部のX座標のベクトルと、セル
内の各ブロック上端部のY座標のベクトルとが生成される。各Y方向ベクトルは
、対応ブロックの左端部に対応するX座標を有し、各X方向ベクトルは、対応ブ
ロックの上端部に対応するY座標を有する。工程1606において、Y−方向ベ
クトルおよびX−方向ベクトルのそれぞれのX座標およびY座標のそれぞれの最
高共通因子が判定される。
【0079】 工程1608において、X座標およびY座標の表が生成され、ここで、X座標
およびY座標はそれぞれ、X座標およびY座標の最高共通因子の倍数である。次
いで、工程1610において、各セル内の中間形式ブロックは、HTML表の対
応座標に配置される。工程1612において、選択セルが中間形式文書の最終セ
ルであるか否かまたは未選択のセルがあるか否かが判定される。選択セルが中間
形式文書の最終セルでない場合または未選択セルがある場合、工程1614にお
いて、次のセルを選択し、工程1604から続けられる。選択セルが最終セルで
あるかまたは中間形式文書の最終選択セルである場合、工程1616において、
そのブロックを含むHTML表が出力表形式のHTML文書として出力される。
【0080】 工程1606において最高共通因子を判定する工程と、工程1608において
セル内に表を生成する工程とを説明する例として、セル内のブロックの左端部の
X座標が3、12、30および45である場合、最高共通因子は3である。した
がって、工程1608によって生成されるX座標の表は、3、6、9、12、1
5、18、21、24、247、30、33、36、39、42および45(す
なわち、3の倍数、最高共通因子)となる。
【0081】 図17は、分かり易くするため、区分分けX座標の位置のみを図示しているが
、表の不可分セルをX座標およびY座標の表の区分分けを説明するサンプル文書
の一部を示す。図示のサンプル文書部分において、1つより多いブロックを含む
テキストの各線は、各ブロックがマクロ表の構成要素となるようにさらに分割さ
れるマクロ表となり得る。図示の線部分は、各マクロ表のブロックのX座標の最
高共通因子の倍数を示す。
【0082】 (異なる構成のディスプレイ上での表示のためのリフォーマット) 上述の変換プロセスは、ドキュメントを表わすデータを、入力フォーマットが
適したディスプレイと、異なる構成を有するディスプレイでの表示に適したフォ
ーマットに変換するために利用され得る。例えば、あるドキュメントが、通常の
デスクトップまたはラップトップモニター上での表示に適したフォーマットであ
り得、そのドキュメントを、例えば、インターネットに接続されたテレビ、なら
びに/または携帯もしくは無線電話機、PDA、ポケットベル(登録商標)およ び/または音声プロダクト(voice products)等の携帯用デバイ ス上での表示に適した別のフォーマットに変換し得ることが望ましくあり得る。 異なる構成に必要である条件は、例えば、異なるディスプレイサイズおよび/ま たは解像度によることであり得る。
【0083】 図18〜28は、このような異なるディスプレイ構成のためのリフォーマット
のためのプロセスおよび例を示す。リフォーマットプロセス1800は、工程1
802で、ドキュメント内のサブページの区切り(sub−page brea
ks)を判断する工程、およびドキュメントをサブページに細分化する工程を含
み得る。サブページの区切りは、例えば、水平または垂直方向のいずれかでペー
ジを渡る分割線であり得る。次いで、工程1804で、第1のサブページが現在
のサブページとして選択され、工程1806で、現在のサブページ内の第1のブ
ロックが現在のブロックとして選択される。工程1808で、現在のブロックが
ディスプレイ構成のディスプレイパラメータの範囲内であると判断された場合、
工程1810で、現在のブロックが表示される。工程1808で、現在のブロッ
クがディスプレイ構成のディスプレイパラメータの範囲内でないと判断された場
合、工程1812で、現在のブロックは、各部分がディスプレイ構成のディスプ
レイパラメータの範囲内にあるように、複数の部分に分割され、その複数の部分
が表示される。
【0084】 工程1810または工程1812の後で、工程1814がサブページ内にブロ
ックが残っていると判断した場合、工程1816で、サブページ内のその次のブ
ロックが現在のブロックとして選択され、プロセスは工程1808から継続され
る。しかしながら、工程1814が現在のサブページ内に表示されるべきブロッ
クが残っていないと判断した場合には、工程1818がドキュメント内にサブペ
ージが残っているかどうかを判断する。ドキュメント内にサブページが残ってい
る場合、工程1820で、次のサブページが現在のサブページとして選択され、
プロセスは工程1806から継続される。サブページがドキュメント内に残って
いない場合、リフォーマットプロセス1800は完了する。
【0085】 1つの実施形態において、工程1810等でブロックを表示した後、または工
程1812等でブロックの最後の部分を表示した後、プロセス1800は、ブロ
ックが不完全な文章または不適切な終結(improper terminat
ion)で終わる段落であるかどうかを判断する。
【0086】 ブロックが段落であるかどうかの判断は、ブロックが1以上の文章を含むかど
うかを判断することによってなされ得る。1つの文章は、最初に大文字を使用し
、その後に、文章の終結を表わすピリオド、感嘆符、または疑問符等の文章を終
結する句読点が続くものとして定義され得る。ブロックがビュレットポイント(
bullet point)、または複数の項目からなるリスト内の項目である
ような場合、そのブロックは、段落でないと判断され得る。ブロックが不完全な
文章または不適切な終結で終わる段落であると判断された場合、次のブロックが
不適切な文章、または段落の始まりで始まるかどうかが判断される。
【0087】 ブロックが不完全な文章、または不適切な終結で終わる段落でない場合、プロ
セス1800は、上述のとおり、工程1814へと継続され得る。次のブロック
が不完全な文章、または不適切な終結で終わる段落である場合、プロセスは、次
のブロックが不適切な文章または段落の始まりで始まるかどうかを判断し得る。
不適切な文章、または段落の始まりが、最初に大文字を使用していないが、他で
の最初の大文字の使用、および文章の終結を含んだ最初の不完全な文章を含み得
る。あるいは、または加えて、不適切な文章、または段落の始まりは、例えば、
インデントされていない第1の行を含み得るが、前の段落の第1の行はインデン
トされている。
【0088】 次のブロックが段落でないか、もしくは不完全な文章または不適切な終結で終
わる段落でない場合、プロセスは、例えば、後続ブロック、元のドキュメントの
ページ、またはドキュメントの所定のエリア内のブロックの所定の数を調べて、
段落を含む第1の後続ブロックの位置を確認をする。段落の位置が確認されない
場合、または位置を確認した段落が、不適切な段落の始まりで始まらない場合、
上述のとおり、プロセスは工程1814を実行するために継続し得る。不適切な
段落の始まりを含む段落の位置が確認された場合、いずれの介在するブロックを
表示する直前に、その段落ブロックが表示され得る。次いで、上述のとおり、プ
ロセスは表示されていないブロックのみを残して、工程1814から継続する。
【0089】 別の実施形態において、2つの不完全な段落の一致は、引き続く後続ブロック
から、第2の補足的な不完全な段落を単純に検索せずに、最初の不完全な段落の
右側に位置するブロックを調べることによってなされ得る。この実施形態におい
て、複数の一致が見つけられ得、好ましくは、ユークリッド距離において近い段
落が一致する。
【0090】 上述の不完全な段落位置確認プロセスの代わりに、またはそれに加えて、構文
解析が実行され得る。パーシングルール(parsing rule)が、2つ
の段落ブロックの最後および最初の不完全な文章を組み合わせて、英文法の規則
に従って正しく解析されるかどうかを判断するために用いられ得る。
【0091】 図19は、各部分が出力用途またはデバイスのディスプレイ構成のディスプレ
イパラメータもしくは構成の範囲内であるように、現在のブロックを表示用の部
分に分割するための工程1812のフローチャートを示す。まず、工程1902
が、現在のブロックがテーブルであるかどうかを判断する。現在のブロックがテ
ーブルでない場合、工程1904が、各構成要素がディスプレイ構成の範囲内で
表示され得るように、現在のブロックを複数の構成要素に分解する。例えば、段
落ブロックの各構成要素は、段落内に含まれる単語であり得る。ブロックの構成
要素への他の分割が実行され得る。例えば、リストブロックの各構成要素は、リ
スト内の1つの項目または1行であり得る。
【0092】 工程1904はまた、ディスプレイ構成の限界に達するか、または現在のブロ
ックの全ての構成要素が表示されるまで、各構成要素を連続して表示する。工程
1904は、ディスプレイ構成の限界に達するたびに、新たな表示を用いて、現
在のブロックの残りの構成要素を連続して表示し続ける。現在のブロックの各構
成要素は、例えば、1つの単語または1つの行を含み、複数の行、および/また
は複数の単語に分解され得る。
【0093】 現在のブロックがテーブルである場合、工程1905で、テーブルの第1のロ
ーおよび第1のカラムが、ローおよびカラムの見出しとして選択される。テーブ
ルの第1のローおよび第1のカラムの全てが見出しであるわけではないが、第1
のローおよび第1のカラムが見出しであると考えられ得る。見出しのローまたは
カラムと、データのローまたはカラムとを区別する方法が実行され得る。また、
入力フォーマットには、テーブルの見出しを識別し得るものもあり、このプロセ
スでは、そのデータを用いることができる。
【0094】 工程1906は、ディスプレイ構成の範囲内で、もしあれば、カラムの見出し
で表示され得るカラムの数(n)を判断する。次いで、工程1907で、n個の
見出しでないカラムが選択され、第1のローの選択された構成要素またはカラム
が、現在のサブブロックとして設定されたサブブロックに加えられる。工程19
08で、次のローのn個の構成要素が現在のローとして選択され、現在のサブブ
ロックに加えられる。次いで、工程1910が、現在のサブブロックがディスプ
レイ構成の範囲内で表示され得るかどうかを判断する。現在のサブブロックがデ
ィスプレイ構成の範囲内で表示され得る場合、工程1911が、現在のサブブロ
ックを表示する。現在のサブブロックがディスプレイ構成の範囲内で表示され得
ない場合、工程1912が、現在のサブブロックから現在のローを取り除いて、
現在のサブブロックを表示し、その第1のローとして見出しを有する新たなサブ
ブロックに、現在のローを加える。この新たなサブブロックはまた、現在のサブ
ブロックとして設定される。
【0095】 工程1911または工程1912の後に、工程1914が、現在のローがテー
ブルの最後のローであるかどうかを判断する。現在のローがテーブルの最後のロ
ーでない場合、工程1916で、n個の構成要素から成る次のローが現在のロー
として選択され、現在のサブブロックに加えられ、プロセスは工程1910から
継続される。現在のローがテーブルの最後のローである場合、工程1918が、
表示された最後のカラムがテーブルの最後のカラムであるかどうかを判断する。
表示された最後のカラムが、テーブルの最後のカラムでない場合、プロセスは工
程1906から継続される。表示された最後のカラムがテーブルの最後のカラム
である場合、プロセスが完了する。
【0096】 ある状況において、テーブルが過度に分割されたために、テーブルのあるセル
を再結合することが必要または望ましいことがあり得る。例えば、1つのローが
2以上の行に渡る場合、単一のローが複数のローに細分化され得る。プロセス1
812が、正確な見出しがテーブルの部分を表示する各表示ページ内で表示され
るように、テーブルの一部を見出しとして割り当てる場合に、セルの再結合が特
に望まれ得る。
【0097】 1つの実施形態において、ローの間の不適切または誤ったセルの区切りが、ロ
ーのそれぞれの上側および下側のY座標の位置を確認すること、およびローとロ
ーの間の隔たりに基づいて、セルまたはローのどの区切れが不適切であり得るか
を判断することによって判断され得る。例えば、ロー内の行間隔は、2つのロー
の間の間隔よりも小さいことが有り得る。同様のアプローチが、カラム間の不適
切または誤ったセルの区切りを判断するために用いられ得る。
【0098】 上記に加えて、またはその代わりに、名目上のセルの区切りに基づいて、カラ
ムおよび/またはローの間の不適切または誤ったセルの区切りが、最適な方法で
空白のセルを除去するために、このような空白のセルの位置を確認して、セルを
再結合することによって判断され得る。例えば、1つのセルのみが2行に渡って
おり、残りのセルのそれぞれは1行に渡っているだけであるローにおいて、この
ローは、不適切に2つのローに分割され得、結果として、下側または第2のロー
は、ほとんど1つの空白のセルとなる。下側または第2のロー内の空白セルの最
適な除去は、その大部分が空白であるローと、先行のローとを再結合することで
あり得る。また、同様のアプローチが、カラム間の不適切または誤ったセルの区
切りを判断し、且つ除去するために用いられ得る。
【0099】 テーブルセルの過度の分割を判断し、且つ除去するために、ある種のルールが
設定され、且つ適用され得る。例えば、見出しローまたはカラムが、全て大文字
、大きいフォント、太字、イタリック体、および/または中央揃えにされ得るが
、残りのセルは、これらの特徴のいくつかまたは全てを有さない。よって、最初
の2つのローまたはカラムが、全て大文字、大きいフォント、太字、イタリック
体、および/または中央揃えにされるが、残りのセルは、これらの特徴のいくつ
かまたは全てを有さない場合には、最初の2つのローおよび/またはカラムが、
1つのローまたはカラムに再結合されるべきであると判断され得る。明らかであ
るが、多くの他の方法論が、最適なテーブルセルの分割を判断するために用いら
れ得る。
【0100】 別の実施形態において、上記に加えて、またはその代わりに、セルの区切りが
、正確な見出しを判断するために、意味解析を用いて解析され得る。しかしなが
ら、意味解析は、名詞または動詞の語句のみを含む不完全な文章が、しばしば、
見出しとして用いられるので、大量の文脈情報を必要とし得る。
【0101】 上述のセル結合プロセスは、プロセス1812の多くの時点で実行され得る。
例えば、工程1905で、第1のローおよびカラムを見出しとして選択するとき
、工程1906で、表示することができるカラムの数を判断するとき、工程19
07で、見出しでないカラムを選択するとき、および工程1908または工程1
916で、次のローの構成要素を選択するときに、再結合プロセスは実行され得
る。
【0102】 さらに、1つのテーブルは1以上のサブテーブルを含み得る。サブテーブルに
おいて、カラムおよび/またはローの一部が、サブカラム、および/またはサブ
ローに分割され得る。このようなサブテーブルは、表示ページ内に表示されてい
る複数のローおよび/またはカラムの見出しをもたらし得る。上述のテーブル検
出アルゴリズムは、これらのサブテーブルを判断するために、テーブルセルを繰
り返し検索するために用いられ得る。
【0103】 図20は、サンプルドキュメント2000を示す。サンプルドキュメント20
00は、3つのサブページ区切り2002、2004、および2006によって
、4つのサブページに分割され得る。サブページ区切りは、ページまたはドキュ
メントの幅の閾値部分に渡って延びる非テキストまたはイメージを含むブロック
で決定され得る。例えば、サブページ区切りは、もし有れば、例えば、ページ幅
の少なくとも70%、または余白部分の内側のページ幅に渡って延びる、図20
に示すような線、イメージまたは画像、または連続するダッシュもしくは他の繰
り返しの印であり得る。
【0104】 サンプルドキュメント2000は、テーブル2008、2010、および20
12を含む。サブページ区切り2004および2006の間のサブページの構成
要素を表示するための順序も、サブページのブロックが上から下へ、左から右へ
の順に配列される矢印2014で図20に示す。
【0105】 ドキュメント2000のサブページ区切り2004および2006の間のサブ
ページは、見出し2016を含む。見出し2016は、好ましくは、入力フォー
マットドキュメントを中間フォーマットドキュメントに変換するプロセスにおい
てか、またはリフォーマットプロセス1800中のいずれかで特定される。見出
しは、コンテンツのリストまたはテーブルを自動的に生成するために用いられ得
る。コンテンツのテーブルの生成は、ユーザによって選択されるか、またはデフ
ォルトとして設定されるオプションであり得る。好ましくは、コンテンツのテー
ブルは、リフォーマットプロセス1800の第1の表示ページとして挿入され得
る。第1の表示ページに表示される各見出しは、好ましくは、見出しおよびその
関連づけられたコンテンツを含む表示へのリンクを含む。
【0106】 あるいは、特に、リフォーマットプロセス1800が急に実行される場合、コ
ンテンツのテーブルが表示されたページ内に表示された見出しのリンクは、出力
フォーマットドキュメント内の見出しに対するものであり、特定の表示ページに
対するものではない。ユーザがコンテンツのテーブルが表示されたページ内に表
示された見出しのリンクを選択すると、リフォーマットプロセス1800は、ユ
ーザが表示された第1のコンテンツとして、その選択された見出しを有する表示
ページを提供されるように、その選択された見出しの前に表わされている全ての
コンテンツを無視する。換言すれば、表示ページの間の区切りは、ユーザによっ
て選択されたリンクまたは見出しに応じて変わり得る。
【0107】 この実施形態において、リフォーマットプロセス1800は、好ましくは、逆
の順番で表示ページを生成することが可能である。例えば、ユーザがコンテンツ
のテーブル内の見出しを選択し、選択された見出しを第1のコンテンツとして表
示する表示ページを見た後、そのユーザは先行ページを選択し得る。次いで、リ
フォーマットプロセス1800は、好ましくは、逆の順序で、ディスプレイ構成
のディスプレイパラメータの範囲内で表示され得るブロックおよび/またはブロ
ックの一部を判断する。
【0108】 図21A〜Fは、サブページと同数の要素またはサブブロックを各表示ページ
にはめ込むために、サンプルドキュメント2000が分割され得る、5つの表示
ページを示す。テーブル2008、2010、2012、および2014のそれ
ぞれは、単一の表示ページ上に表示されており、これらのテーブルは、出力表示
デバイスのディスプレイ構成の必要条件の範囲内であるために、複数の表示ペー
ジに渡っては表示されていないことに留意されたい。
【0109】 図22は、1つのドキュメント内に含まれ得る、サンプルテーブル2200を
示す。図23Aおよび23Bは、テーブル2200が表示され得る、サンプル表
示ページを示す。示されるとおり、サンプルテーブル2200のローの見出しを
形成する第1のローの少なくとも一部が、表示ページのそれぞれに表示される。
さらに、サンプルテーブル2200のカラムの見出しを形成する第1のカラムの
少なくとも一部が、表示ページのそれぞれに表示される。図23Aに示す表示ペ
ージにおいて、カラムの見出しに加えて、テーブルの全てのローの最初の2つの
カラムが表示される。図23Bに示す表示ページにおいて、カラムの見出しに加
えて、図23Aに表示された最後のカラムに続く、残りの3つのカラムの全ての
ローが表示される。この例には示さないが、サンプルテーブル2000のローは
、複数の表示ページに渡って表示されるようにも分割され得る。
【0110】 図24は、ドキュメントを表わすデータを出力フォーマットドキュメントに変
換するためのサービスが、ネットワーク2304上で提供され得る、システム2
300の概略図である。図25は、ネットワーク上で、ドキュメントを表わすデ
ータを変換するためのサービスのフローチャートを示す。
【0111】 ドキュメントを表わすデータを変換するためのサービスは、インターネット、
またはイントラネット等のネットワーク2304上のコンピュータシステム23
02によって提供され得る。ネットワーク2304は、ウェブページ等のドキュ
メントを入力フォーマットで提供する、サーバ2306に接続され得る。ネット
ワーク2304はまた、PDA2308、ラップトップコンピュータ2310、
およびデスクトップPC2312等の出力デバイスに接続され得る。図示しない
が、携帯電話およびポケットベル等の多くの他のデバイスも、ネットワーク23
04に接続され得る。
【0112】 コンピュータシステム2302が、PDA2308等の出力デバイスから、サ
ーバ2306によって供給されるドキュメントの表示要求を受信すると、コンピ
ュータシステム2302は、入力フォーマットドキュメントを出力フォーマット
ドキュメントに変換するためのプロセス2500を実行し得る。特に、工程25
02で、プロセス2500は、ネットワーク上で入力ドキュメントを受信する工
程を含む。工程2504で、好ましくは、ウィルス検出プログラムが、入力ドキ
ュメント内のウィルスの存在を検出するために、実行される。ウィルスが検出さ
れた場合は、工程2506が、ネットワークを介して、ユーザまたは要求デバイ
スに、入力ドキュメントがウィルスを含んでいるというメッセージを送信する。
あるいは、ウィルスを含むドキュメントの修復が可能な場合は、ドキュメントは
修復され得、プロセスは工程2508へと継続する。
【0113】 ウィルスが検出されない場合、またはウィルスが検出されて、除去された場合
、工程2508は、入力ドキュメントがサポートされたフォーマットであるかど
うかを判断する。入力ドキュメントが、サポートされたフォーマットではない場
合、プロセス2500は終了する。入力ドキュメントがサポートされたフォーマ
ットである場合、工程2510で、入力ドキュメントは中間フォーマットドキュ
メントに変換される。工程2512で、この中間フォーマットドキュメントが、
今度は、出力フォーマットドキュメントに変換される。上述のとおり、この変換
プロセスは、必要に応じて、または要求に応じて、入力ドキュメントの単一のペ
ージが複数の表示ページに分けられ得るようにリフォーマットする工程を含み得
る。
【0114】 工程2514で、コンテンツのテーブルは、上述のとおり、見出しを用いて生
成され、出力フォーマットドキュメントに挿入され得る。さらに、特に、工程2
512で、1より多くの出力フォーマットが生成される場合、工程2514で、
JAVATMスクリプト等の実行可能プログラムが、出力フォーマットドキュメン
トに挿入され得る。JAVATMスクリプトに関して述べたが、Common G
ateway Interface (CGI)、Visual Basic、
Practical extraction and reporting l
anguage (Perl)、C、C++等の他のプログラミング言語は、言
うまでもなく、用いられ得る。好ましくは、JAVATMスクリプトが、出力フォ
ーマットドキュメントの始めに挿入される。JAVATMスクリプトは、表示のた
めに生成された複数の出力フォーマットから、適切な出力フォーマットを選択す
るために、PDA等のディスプレイデバイスによって実行され得る。この適切な
出力フォーマットは、例えば、ディスプレイデバイス、および/またはディスプ
レイデバイスによって用いられるブラウザに依存し得る。出力フォーマットドキ
ュメントは、次いで、工程2516で、ネットワークを介して、ユーザまたは要
求デバイスに送信または配信される。1より多くの出力フォーマットが生成され
る場合、出力ドキュメントが各出力フォーマットごとに生成され得るか、または
単一の出力ドキュメントが全ての出力フォーマットのために生成され得る。いず
れの場合も、JAVATMスクリプトが、好ましくは、各出力ドキュメントに挿入
される。
【0115】 ユーザは、入力ドキュメント、または、例えば、インターネットウェブアドレ
ス等の入力ドキュメントの位置もしくはアドレスを提供し得る。特定の出力フォ
ーマットはまた、ユーザによって特定されるか、または要求アプリケーションも
しくは出力ディスプレイデバイスに依存して判断され得る。ユーザからの要求お
よび他の情報は、例えば、電子メール、インターネットまたはイントラネットを
介して、ネットワーク2304上をコンピュータシステム2302へと配信され
る得る。
【0116】 入力ドキュメントが複数の出力フォーマットドキュメントに変換される場合、
出力ドキュメントは、少なくとも、適切な出力フォーマットドキュメントが、出
力ディスプレイデバイスによって表示されるまで、コンピュータシステム230
2のメモリ内に記憶され得る。あるいは、全ての出力フォーマットドキュメント
が出力ディスプレイデバイスに送信され得、適切な出力フォーマットが、上述の
とおり、JAVATMスクリプトを実行することによって判断され得る。別の例と
しては、プロセス2500は、ユーザによって要求されたか、または出力ディス
プレイデバイスによって表示可能な適切なフォーマットであると判断された出力
フォーマットで、1つの出力ドキュメントのみを生成し得る。よって、プロセス
2500は、入力フォーマットドキュメントを、適切な出力ディスプレイフォー
マットに応じて、動的に、適切な出力フォーマットドキュメントに変換し得る。
【0117】 好ましくは、プロセス2500はまた、出力ディスプレイデバイスのブラウザ
が、元の入力ドキュメントに含まれるある種の実行可能物をサポートするかどう
かを判断する工程を含み得る。例えば、上記のとおり、中間および出力フォーマ
ットドキュメントは、他のアプリケーションを起動するためのリンクの実行以外
にも、好ましくは、任意の埋め込みアニメーション、音声および/または音楽を
保持し得る。よって、プロセス2500は、元の入力ドキュメントに含まれたそ
のような実行可能物のいつくかまたは全てが、出力ディスプレイデバイスによっ
てサポートされているかどうか、または実行可能であるかどうかを判断し得る。
そのような実行可能物のある種のものが、出力ディスプレイデバイスによってサ
ポートされないまたは実行可能でない場合、プロセス2500は、エラーメッセ
ージを避けるために、そのような埋め込み実行可能物を除去し得る。あるいは、
変換工程2510は、出力ドキュメントのフォーマットに応じて、このような埋
め込み実行可能物を自動的に除去または保持し得る。
【0118】 別の実施形態において、特定のブラウザまたは特定の機能のための出力を最適
化するために、ある種の最適化工程が実行され得る。例えば、プロセス2500
は、出力ディスプレイデバイスがINTERNET EXPLORERTM、NE
TSCAPETMを利用する場合、出力ドキュメントを最適化し得る。あるいは、
プロセス2500は、スペース、正確さ、および/または出力のために、出力ド
キュメントを1つまたは複数のファイルとして最適化し得る。これらのパラメー
タは、ユーザによって、あるデフォルト値および/または特定の値に設定され得
る。ユーザはまた、テキストのみまたは画像のみの出力を特定し得る。あるいは
、変換工程2510がそのような最適化工程を実行し得る。
【0119】 図26は、1以上の記憶フォーマットを用いる知識ベース、またはドキュメン
トレポジトリを生成するためのプロセス2600を説明するフローチャートを示
す。図27は、同形式の記憶フォーマットを用いる知識ベースまたはドキュメン
トレポジトリが用いられ得る、システム2700の概略図を示す。
【0120】 示されるとおり、上述の変換プロセスは、例えば、単一の同形式の記憶フォー
マットを用いて、各種の入力フォーマットのドキュメントの知識ベースまたはド
キュメントレポジトリを生成するために利用され得る。この記憶フォーマットで
記憶されたドキュメントもまた、その後に、ディスプレイデバイスでの表示のた
めに、他の出力フォーマットに変換され得る。好ましくは、単一の同形式の記憶
フォーマットが利用される場合、出力フォーマットはHTML Version 4.0である。しかしながら、他の記憶フォーマットが利用され得る。
【0121】 プロセス2600は、最初に、好ましくはドキュメントの始めにJAVATM
クリプトを含む、インデックスドキュメントを作成する。上述のとおり、JAV
TMスクリプトは、表示のために生成された複数の出力フォーマットから、適切
な出力フォーマットを選択するために、PDA等のディスプレイデバイスによっ
て実行され得る。JAVATMが好ましいが、他のプログラミング言語が利用され
得る。インデックスドキュメントが、例えば、あるキーワードを含むドキュメン
トを検索するために、検索エンジンによって利用され得る。インデックスドキュ
メント内に含まれた各キーワードは、1以上の入力ドキュメントに含まれたキー
ワードへのリンクを含み得る。
【0122】 プロセス2600は、次いで、工程2604で、入力ドキュメントまたはファ
イルの位置の確認および入力をし、工程2606で、入力ドキュメントがサポー
トされた入力フォーマットであるかどうかを判断する。入力ドキュメントがサポ
ートされた入力フォーマットである場合、工程2608が、その入力ドキュメン
トを1より多い異なる出力フォーマットドキュメントに変換する。変換工程26
08は、上述のとおり、好ましくは、中間フォーマットを利用する。好ましくは
、工程2610で、入力ドキュメントの全てのまたはあるキーワードのインデッ
クスが生成され、インデックスドキュメントに挿入される。さらに、工程261
2で、コンテンツのテーブルが、好ましくは、対応する出力フォーマットの各出
力フォーマットドキュメントごとに生成され、対応する出力フォーマットドキュ
メントに挿入される。工程2614で、JAVATMスクリプトが、出力フォーマ
ットドキュメント、好ましくは、その出力ドキュメントの始めに挿入され得る。
上述のとおり、JAVATMスクリプトは、表示のために生成された複数の出力フ
ォーマットから、適切な出力フォーマットを選択するために、PDA等のディス
プレイデバイスによって実行され得る。JAVATMスクリプトが好ましいが、他
のプログラミング言語が利用され得る。
【0123】 工程2614の後、または工程2606が、入力ドキュメントがサポートされ
た入力フォーマットでないことを判断した場合、工程2616は、他にも入力フ
ァイルがあるかどうかを判断する。他の入力ファイルがある場合、プロセス26
00は工程2604から継続される。他に入力ファイルがない場合、プロセス2
600は完了する。
【0124】 プロセス2600によって生成されたレポジトリは、好ましくは、1以上の記
憶フォーマットならびに入力フォーマットの入力ドキュメントを記憶する。さら
なる入力ドキュメントがレポジトリによって受信されると、プロセス2600は
、さらなる入力ドキュメントのそれぞれを、1以上の記憶フォーマットに変換す
る。1よりも多くの記憶フォーマットが利用される場合、単一の変換されたドキ
ュメントが、複数の記憶フォーマットに入力ドキュメントを含んで生成され得る
。あるいは、それぞれが異なる記憶フォーマットである、複数の記憶ドキュメン
トが生成され得る。
【0125】 プロセス2600によって生成された知識ベースまたはドキュメントレポジト
リは、上述の表示リフォーマット機能を含む入力−出力フォーマット変換器とと
もに用いられ得る。例えば、レポジトリからのドキュメントを見る要求は、PD
Aから起こり得る。入力およびレポジトリ記憶フォーマットは、PDAでの表示
に適したフォーマットとは異なり得る。入力−出力フォーマット変換器が、記憶
フォーマットレポジトリドキュメントを、PDAでの表示に適した出力フォーマ
ットドキュメントに変換するために利用され得る。
【0126】 図27の概略図に示すシステム2700は、上述のプロセス2600を用いて
生成された、知識ベースまたはドキュメントレポジトリを利用する。システム2
700は、ネットワーク2704に結合されたドキュメント変換器2702、お
よび知識ベースまたはドキュメントレポジトリを記憶するコンピュータシステム
2706を含む。ドキュメント変換器2702は、ドキュメントが中間フォーマ
ットドキュメントに変換され、次いで、異なるフォーマットのドキュメントに変
換される得る、上述のドキュメント変換器と同様のものであり得る。ネットワー
ク2704は、例えば、インターネット、またはイントラネットであり得る。各
種のディスプレイデバイス2708は、ネットワーク2704に結合され得る。
ディスプレイデバイスは、例えば、PDA、ラップトップコンピュータ、デスク
トップPC、インターネットに接続されたテレビ、携帯または無線電話機、ポケ
ットベル、および/または音声のみのプロダクトを含む。プロセス2600によ
って生成された知識ベースまたはドキュメントレポジトリを利用するために、シ
ステム2700の他の構成が実現され得る。
【0127】 上記は、本発明の好適な実施形態の完全な説明であるが、各種の代替物、改変
物、および同等物を用いることが可能である。本発明が上述の実施形態に適切な
修正を加えることによって、同様に適用できることは明らかである。それゆえ、
上記の記載は、請求の範囲、およびその同等物の全ての範囲によって規定される
本発明の範囲を限定するものではない。
【図面の簡単な説明】
【図1】 図1は、本発明の実施形態のソフトウェアを実行するために用いられ得るコン
ピュータシステムの一例を示す。
【図2】 図2は、図2のコンピュータシステムのシステムブロック図である。
【図3】 図3は、文書を表すデータをオリジナルの入力形式から別の出力形式に変換す
る方法の概要を示すフロー図である。
【図4】 図4は、入力データを別の出力形式に変換する工程を示すフロー図である。
【図5】 図5は、文書を表すデータを別の出力形式に変換する工程を模式的に示したも
のである。
【図6】 図6は、文書を表すデータを、portable document for
mat、次に中間形式、そして最後に別の出力形式に変換する工程を模式的に示
したものである。
【図7】 図7は、文書画像からデータを抽出して、抽出データを中間形式に変換する工
程を示すフロー図を示す。
【図8】 図8は、単語を線に結びつけるプロセスの工程を示すフロー図を示す。
【図9】 図9は、単語および線を結びつける際に用いられる様々な基準を示すサンプル
文書の一部を示す。
【図10】 図10は、線をパラグラフとして結びつける処理工程を示すフロー図を示す。
【図11】 図11は、ある中間形式で格納されている文書をある出力形式に変換するプロ
セスを示すフロー図を示す。
【図12】 図12は、中間形式からスタイルシート付き出力形式を有するRTFまたはH
TMLに変換する工程を示すフロー図を示す。
【図13】 図13は、中間形式からTIFF出力形式(または他の画像形式)に変換する
工程を示すフロー図を示す。
【図14】 図14は、ある中間形式から表形式HTML出力形式に変換する工程の第1の
部分を示すフロー図を示す。
【図15A】 図15Aは、中間形式ブロックを示すサンプル文書のページを示す。
【図15B】 図15Bは、図15Aのサンプル文書ページを分割してマクロ表のセルにした
ものを示す。
【図15C】 図15Cは、図15Aのサンプル文書ページを分割してマクロ表のセルにした
ものを示す。
【図16】 図16は、中間形式から表形式HTML出力形式に変換したものの第2の部分
を示すフロー図を示す。
【図17】 図17は、マクロ表の分割不可能セルを区分分けして最高共通因子座標表を生
成し、セル内の各ブロックを、その座標表中の対応座標に配置する工程を示すサ
ンプル文書ページを示す。
【図18】 図18は、文書を表示ページに再フォーマットして、異なる構成の表示を行う
プロセスのフロー図を示す。
【図19】 図19は、各部分が表示構成の表示パラメータ内に収まるように現在のブロッ
クを分割し、現在のブロックの部分を表示する工程を示すフロー図を示す。
【図20】 図20は、サブ改ページおよび表を有するサンプル文書を示す。
【図21A】 図21Aは、図20のサンプル文書を分割した表示ページを示す。
【図21B】 図21Bは、図20のサンプル文書を分割した表示ページを示す。
【図21C】 図21Cは、図20のサンプル文書を分割した表示ページを示す。
【図21D】 図21Dは、図20のサンプル文書を分割した表示ページを示す。
【図21E】 図21Eは、図20のサンプル文書を分割した表示ページを示す。
【図22】 図22は、文書中に含まれ得るサンプル表を示す。
【図23A】 図23Aは、図22の表を示し得るサンプル表示ページを示す。
【図23B】 図23Bは、図22の表を示し得るサンプル表示ページを示す。
【図24】 図24は、文書を表すデータを変換するサービスをネットワークを介して提供
し得るシステムの模式図を示す。
【図25】 図25は、データ文書を表すデータをネットワークを介して変換するサービス
を示すフロー図を示す。
【図26】 図26は、単一の格納形式を用いて知識ベースまたは文書レポジトリを生成す
るプロセスを示すフロー図を示す。
【図27】 図27は、単一の格納形式を用いた知識ベースまたは文書レポジトリが使用可
能なシステムの模式図を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),CN,JP,R U (72)発明者 ツパジ, スコット アメリカ合衆国 マサチューセッツ 02141, ケンブリッジ, プリマウス ストリート ナンバー2 31 (72)発明者 コイチ, アリヨシ アメリカ合衆国 カリフォルニア 95129, サン ノゼ, ワイ303, エス. サ ラトガ アベニュー 700 (72)発明者 ハルトノ, ラクマット アメリカ合衆国 カリフォルニア 95132, サン ノゼ, マドリッド ドライブ 3611 (72)発明者 ジャジャディ, ティモチアス アメリカ合衆国 カリフォルニア 95136, サン ノゼ, サファイア コート 903 (72)発明者 ウィッジャジャ, ハンヤン アメリカ合衆国 カリフォルニア 95136, サン ノゼ, サファイア コート 903 Fターム(参考) 5B009 NG00 NG03 QA07 QA11 SA03 5B082 GA02

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 第1のフォーマットの第1のドキュメントを、異なる第2の
    フォーマットの第2のドキュメントに変換する、コンピュータで実現される方法
    であって、 該第1のドキュメント内のデータの位置を確認する工程と、 データを、中間フォーマットドキュメント内の少なくとも1つの中間フォーマ
    ットブロックにグループ分けする工程と、 該中間フォーマットドキュメントを、該中間フォーマットブロックを用いて、
    該第2のフォーマットドキュメントに変換する工程と、 を包含する方法。
  2. 【請求項2】 前記グループ分けの工程が、 前記第1のドキュメント内の単語の位置を確認する工程と、 行閾値を満たす単語を行に組み込む工程と、 段落閾値を満たす行を段落に組み込む工程であって、各段落が該中間フォーマ
    ットブロックのうちの1つである、工程と、 テーブルの位置を確認する工程であって、各テーブルが前記中間フォーマット
    ブロックのうちの1つである、工程と、 を包含する、請求項1に記載のコンピュータで実現される方法。
  3. 【請求項3】 前記グループ分けの工程が、 前記第1のドキュメント内のタグの位置を確認する工程と、 該タグを用いて、単語の位置確認、単語の行への組み込み、行の段落への組み
    込み、およびテーブルの位置確認を行う工程と、 を包含する、請求項2に記載のコンピュータで実現される方法。
  4. 【請求項4】 各中間フォーマットブロックが、単語、行、段落、テーブル
    およびイメージから成る群から選択される、請求項2に記載のコンピュータで実
    現される方法。
  5. 【請求項5】 前記第1のフォーマットおよび第2のフォーマットのそれぞ
    れが、portable document format(PDF)、ric
    h text format(RTF)、hypertext markup
    language(HTML)、extensible markup lan
    guage(XML)、cascading style sheets(CS
    S)、ネットスケープレイヤー、リンクされた個々のページ、Tag Imag
    e File Format(TIFF)、graphics interch
    ange format(GIFF)、ビットマップ(BMP)、Joint
    Photographic Experts Group(JPEG)、MIC
    ROSOFT WORDTM、WORD PERFECTTM、AUTOCADTM
    およびPOWER POINTTMから成る群から選択される、請求項1に記載の
    コンピュータで実現される方法。
  6. 【請求項6】 コンピュータで実現される方法であって、前記第2のフォー
    マットが、hypertext markup language(HTML)
    、およびrich text format(RTF)から選択される、該方法
    は、 各中間フォーマットブロックの座標を判断する工程と、 各中間フォーマットブロックごとに、第2のフォーマットブロックを生成する
    工程と、 各中間フォーマットブロックごとに、第2のフォーマットスタイルシートを生
    成する工程であって、各第2のフォーマットスタイルシートの座標が、対応する
    中間フォーマットブロックの座標と一致する、工程と、 中間フォーマットブロックフォントを第2のフォーマットフォントに割り当て
    ることにより、第2のフォーマットブロックを第2のフォーマットスタイルシー
    トにはめ込む工程と、 各第2のフォーマットブロックを対応する第2のフォーマットスタイルシート
    に配置する工程と、 を包含する、請求項1に記載の方法。
  7. 【請求項7】 コンピュータで実現される方法であって、前記第2のフォー
    マットがhypertext markup language(HTML)で
    ある、該方法は、 座標のテーブルを生成する工程であって、該座標の少なくとも1つのサブセッ
    トが、各中間フォーマットブロックの座標と対応する、工程と、 各中間フォーマットブロックを該座標のテーブル内の該対応する座標に配置す
    る工程と、 を包含する、請求項1に記載の方法。
  8. 【請求項8】 前記座標のテーブルを生成する工程が、 前記中間フォーマットドキュメントに渡って広がる隔たりを判断する工程と、 該中間フォーマットドキュメントの一部に対応するセルを有するマクロテーブ
    ルを、該隔たりの外側に作成する工程と、 該マクロテーブルの各セルを、該セルを渡って広がる隔たりを判断することに
    よって、各セルをさらに分割することができなくなるまで、繰り返して分割する
    工程と、 を包含する、請求項7に記載のコンピュータで実現される方法。
  9. 【請求項9】 コンピュータで実現される方法であって、前記第2のフォー
    マットが、イメージビットマップフォーマットである、該方法は、 中間フォーマットブロックを用いて、前記中間フォーマットドキュメントのビ
    ットマップを生成する工程と、 該ビットマップを第2のイメージドキュメントに配置する工程と、 を包含する、請求項1に記載の方法。
  10. 【請求項10】 前記第1のドキュメントがネットワーク上で受信され、前
    記第2のドキュメントが該ネットワーク上に送信される、請求項1に記載のコン
    ピュータで実現される方法。
  11. 【請求項11】 前記ネットワークがインターネットおよびイントラネット
    から成る群から選択される、請求項10に記載のコンピュータで実現される方法
  12. 【請求項12】 前記受信および送信が電子メールを介する、請求項11に
    記載のコンピュータで実現される方法。
  13. 【請求項13】 コンピュータで実現される方法であって、 前記第1のドキュメントの見出しの位置を確認する工程と、 前記第2のフォーマットの該見出しを含むコンテンツページのテーブルを生成
    する工程であって、各コンテンツ見出しのテーブルが、該ドキュメント内に含ま
    れる該見出しへのリンクを含む、工程と、 該コンテンツページのテーブルを前記第2のドキュメントに配置する工程と、
    をさらに包含する、請求項10に記載の方法。
  14. 【請求項14】 前記中間フォーマットドキュメントを前記第2のフォーマ
    ットドキュメントに変換する工程が、 1つの第2のフォーマットの該第2のフォーマットドキュメントに変換する工
    程と、 複数の第2のフォーマットの該第2のフォーマットドキュメントに変換する工
    程と、 それぞれが異なる第2のフォーマットの該複数の第2のフォーマットドキュメ
    ントに変換する工程と、 から成る群から選択される、請求項10に記載のコンピュータで実現される方法
  15. 【請求項15】 コンピュータで実現される方法であって、 表示される1つの第2のフォーマットを選択するためのコンピュータ実行可能
    プログラムを生成する工程と、 該コンピュータ実行可能プログラムを前記第2のドキュメントに挿入する工程
    と、 をさらに包含する、請求項14に記載のコンピュータで実現される方法。
  16. 【請求項16】 前記コンピュータ実行可能プログラムが、JAVA(登録 商標)、Common Gateway Interface(CGI)、Vi sual Basic、Practical extraction and reporting language(Perl)、C、およびC++から成 る群から選択されるプログラミング言語で書かれる、請求項15に記載のコンピ ュータで実現される方法。
  17. 【請求項17】 第1のフォーマットのドキュメントを、異なる第2のフォ
    ーマットのドキュメントに変換するためのコンピュータプログラムプロダクトで
    あって、 該第1のドキュメントのデータの位置を確認するコンピュータコードと、 データを、中間フォーマットドキュメント内の少なくとも1つの中間フォーマ
    ットブロックにグループ分けするコンピュータコードと、 該中間フォーマットドキュメントを、該中間フォーマットブロックを用いて、
    該第2のフォーマットドキュメントに変換するコンピュータコードと、 該コンピュータコードを記憶するコンピュータ可読媒体と、 を含むコンピュータプログラムプロダクト。
  18. 【請求項18】 前記コンピュータ可読媒体が、CD−ROM、ジップディ
    スク、フロッピー(登録商標)ディスク、テープ、フラッシュメモリ、システム メモリ、ハードドライブ、および搬送波に組み入れられるデータ信号からなる群 から選択される、請求項17に記載のコンピュータプログラムプロダクト。
  19. 【請求項19】 ドキュメントを表示するためのコンピュータで実現される
    方法であって、 該ドキュメント内のサブページ区切りの位置を確認する工程と、 該ドキュメントをサブページ区切りを用いてサブページに細分化する工程と、 各サブページ内のブロックの位置を確認する工程と、 該サブページの各ブロックの全てまたは一部を、ディスプレイ構成のディスプ
    レイパラメータの範囲内で連続して表示する工程と、 を包含する方法。
  20. 【請求項20】 前記連続して表示する工程が、 各ブロックが、前記ディスプレイ構成のディスプレイパラメータの範囲内で表
    示することができるかどうかを判断する工程と、 ディスプレイパラメータの範囲内にないブロックを、該ディスプレイ構成の該
    ディスプレイパラメータの範囲内になるように、複数の部分に分割する工程と、
    を包含する、請求項19に記載のドキュメントを表示するためのコンピュータで
    実現される方法。
  21. 【請求項21】 前記ドキュメントがmarkup language f
    ormatである、請求項19に記載のドキュメントを表示するためのコンピュ
    ータで実現される方法。
  22. 【請求項22】 ドキュメントを表示するためのコンピュータで実現される
    方法であって、 該ドキュメントの見出しの位置を確認する工程と、 該見出しを含むコンテンツページのテーブルを生成する工程であって、各コン
    テンツ見出しのテーブルが、該ドキュメント内に含まれる該見出しへのリンクを
    含む、工程と、 該コンテンツページのテーブルを前記第2のドキュメントに配置する工程と、
    をさらに包含する、請求項19に記載のドキュメントを表示するためのコンピュ
    ータで実現される方法。
  23. 【請求項23】 前記ブロックを分割する工程が、 該ブロックがテーブルであるかどうかを判断する工程と、 該ブロックがテーブルでない場合に、該ブロックの全ての構成要素が表示され
    るまで、該ブロックの各構成要素を連続して表示する工程と、 該ブロックがテーブルである場合に、 該テーブルの前記見出し、および前記ディスプレイパラメータの範囲内で表
    示可能な該テーブルの見出しではないカラムのサブセットを判断する工程と、 該テーブルの全てのローの見出しではないカラムの該サブセットを表示する
    工程と、 該ディスプレイパラメータの範囲内で表示可能な該テーブルの見出しではな
    いカラムの次のサブセットを判断し、該テーブルの全てのローおよび全てのカラ
    ムが表示されるまで、該テーブルの全てのローの該見出しでないカラムを表示し
    続ける工程と、 を包含する、請求項20に記載のドキュメントを表示するためのコンピュータで
    実現される方法。
  24. 【請求項24】 少なくとも1つの記憶フォーマットの第1のドキュメン
    トのレポジトリを保存するためのコンピュータプログラムプロダクトであって、 少なくとも1つの第1のドキュメントを受信するコンピュータコードと、 該少なくとも1つの記憶フォーマットのドキュメントを記憶するために、少な
    くとも1つの第1のフォーマットの該第1のドキュメントを変換するコンピュー
    タコードと、 該コンピュータコードを記憶するコンピュータ可読媒体と、 を含むコンピュータプログラムプロダクト。
  25. 【請求項25】 前記コンピュータ可読媒体が、CD−ROM、ジップディ
    スク、フロッピーディスク、テープ、フラッシュメモリ、システムメモリ、ハー
    ドドライブ、および搬送波に組み入れられるデータ信号からなる群から選択され
    る、請求項24に記載のコンピュータプログラムプロダクト。
  26. 【請求項26】 前記記憶ドキュメントを表示ドキュメントに変換するコン
    ピュータコードをさらに含む、請求項24に記載のコンピュータプログラムプロ
    ダクト。
  27. 【請求項27】 コンピュータプログラムプロダクトであって、 前記第1のドキュメント内のキーワードの位置を確認するコンピュータコード
    と、 該位置確認されたキーワードのインデックスドキュメントを生成するコンピュ
    ータコードであって、該インデックスドキュメントが該キーワードを含み、各キ
    ーワードが、少なくとも1つの第1のドキュメント内に含まれる該キーワードへ
    の少なくとも1つのリンクを含む、請求項24に記載のコンピュータプログラム
    プロダクト。
  28. 【請求項28】 コンピュータプログラムプロダクトであって、 1つの第2のフォーマットを選択するためのコンピュータ実行可能プログラム
    を生成するコンピュータコードと、 該コンピュータ実行可能プログラムを前記第2のドキュメントに挿入するコン
    ピュータコードと、 をさらに含む、請求項24に記載のコンピュータプログラムプロダクト。
  29. 【請求項29】 コンピュータプログラムプロダクトであって、 前記第1のドキュメントの見出しの位置を確認するコンピュータコードと、 各第1のドキュメントごとに、コンテンツページのテーブルを生成するコンピ
    ュータコードであって、該コンテンツページのテーブルが該見出しを含み、コン
    テンツ見出しの各テーブルが、該第1のドキュメント内に含まれる該見出しへの
    リンクを含む、コンピュータコードと、 該コンテンツページのテーブルを前記第2のドキュメントに配置するコンピュ
    ータコードと、 をさらに含む、請求項24に記載のコンピュータプログラムプロダクト。
JP2000575041A 1998-10-01 1999-08-20 ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換 Withdrawn JP2002526862A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10268898P 1998-10-01 1998-10-01
US60/102,688 1998-10-01
US09/346,786 1999-07-07
US09/346,786 US6336124B1 (en) 1998-10-01 1999-07-07 Conversion data representing a document to other formats for manipulation and display
PCT/US1999/019253 WO2000020985A1 (en) 1998-10-01 1999-08-20 Conversion of data representing a document to other formats for manipulation and display

Publications (1)

Publication Number Publication Date
JP2002526862A true JP2002526862A (ja) 2002-08-20

Family

ID=26799627

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000575041A Withdrawn JP2002526862A (ja) 1998-10-01 1999-08-20 ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換

Country Status (4)

Country Link
US (1) US6336124B1 (ja)
EP (1) EP1153350A2 (ja)
JP (1) JP2002526862A (ja)
WO (1) WO2000020985A1 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002229915A (ja) * 2001-01-30 2002-08-16 Cognitive Research Laboratories Inc 電子メールへのプログラム配信機能の自動付加システム
JP2004510253A (ja) * 2000-09-27 2004-04-02 エイゼル・テクノロジーズ・インコーポレーテッド 能力が限られたデバイス上で用いるための電子文書の区分処理
WO2004053724A1 (ja) * 2002-12-06 2004-06-24 Sharp Kabushiki Kaisha データ変換装置、データ変換方法、および、データ変換プログラムを記録した記録媒体
US7890855B2 (en) 2001-07-27 2011-02-15 Sap Ag Method and computer system for separating and processing layout information and data of a document
US8037407B2 (en) 2001-07-27 2011-10-11 Sap Ag Method and computer system for creating and processing a browser compliant human interface description
JP2014071552A (ja) * 2012-09-28 2014-04-21 Nec Corp データ形式変換装置、方法、及び、プログラム
WO2014073941A1 (ko) * 2012-11-12 2014-05-15 한국과학기술정보연구원 전자 서식 변환 장치 및 방법
US11966685B1 (en) * 2023-02-24 2024-04-23 Ying Zhang Lu Webpage edition system and method thereof
WO2024122858A1 (ko) * 2022-12-05 2024-06-13 김주명 문서 자동변환 및 편집 프로그램

Families Citing this family (438)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487566B1 (en) * 1998-10-05 2002-11-26 International Business Machines Corporation Transforming documents using pattern matching and a replacement language
US6480865B1 (en) * 1998-10-05 2002-11-12 International Business Machines Corporation Facility for adding dynamism to an extensible markup language
US7117452B1 (en) 1998-12-15 2006-10-03 International Business Machines Corporation System and method for customizing workspace
US6711624B1 (en) * 1999-01-13 2004-03-23 Prodex Technologies Process of dynamically loading driver interface modules for exchanging data between disparate data hosts
US6535896B2 (en) * 1999-01-29 2003-03-18 International Business Machines Corporation Systems, methods and computer program products for tailoring web page content in hypertext markup language format for display within pervasive computing devices using extensible markup language tools
US7257767B1 (en) * 1999-02-09 2007-08-14 Carden Jr William T System and method for publishing documents
US8321411B2 (en) 1999-03-23 2012-11-27 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6567796B1 (en) 1999-03-23 2003-05-20 Microstrategy, Incorporated System and method for management of an automatic OLAP report broadcast system
US6446110B1 (en) * 1999-04-05 2002-09-03 International Business Machines Corporation Method and apparatus for representing host datastream screen image information using markup languages
US6463440B1 (en) * 1999-04-08 2002-10-08 International Business Machines Corporation Retrieval of style sheets from directories based upon partial characteristic matching
US6542913B1 (en) * 1999-04-23 2003-04-01 Xerox Corporation Integrated document output management in a hybrid environment
US6986101B2 (en) * 1999-05-06 2006-01-10 International Business Machines Corporation Method and apparatus for converting programs and source code files written in a programming language to equivalent markup language files
US7263655B1 (en) * 1999-05-21 2007-08-28 Thomson Scientific Inc. System and method for publishing manuscripts
US8607138B2 (en) 1999-05-28 2013-12-10 Microstrategy, Incorporated System and method for OLAP report generation with spreadsheet report within the network user interface
US9208213B2 (en) 1999-05-28 2015-12-08 Microstrategy, Incorporated System and method for network user interface OLAP report formatting
US6675351B1 (en) * 1999-06-15 2004-01-06 Sun Microsystems, Inc. Table layout for a small footprint device
US6565609B1 (en) * 1999-06-15 2003-05-20 Microsoft Corporation Translating data into HTML while retaining formatting and functionality for returning the translated data to a parent application
US6643825B1 (en) * 1999-07-14 2003-11-04 International Business Machines Corporation Methods, systems, and computer program products for applying styles to host screens based on host screen content
US7200809B1 (en) 1999-08-04 2007-04-03 Oracle International Corporation Multi-device support for mobile applications using XML
US7278094B1 (en) 2000-05-03 2007-10-02 R. R. Donnelley & Sons Co. Variable text processing for an electronic press
US20050223408A1 (en) * 1999-09-13 2005-10-06 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information
US6964012B1 (en) * 1999-09-13 2005-11-08 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts
US6836537B1 (en) 1999-09-13 2004-12-28 Microstrategy Incorporated System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule
US8130918B1 (en) 1999-09-13 2012-03-06 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing
US6829334B1 (en) 1999-09-13 2004-12-07 Microstrategy, Incorporated System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control
US6768788B1 (en) * 1999-09-13 2004-07-27 Microstrategy, Incorporated System and method for real-time, personalized, dynamic, interactive voice services for property-related information
US6799299B1 (en) * 1999-09-23 2004-09-28 International Business Machines Corporation Method and apparatus for creating stylesheets in a data processing system
US6715129B1 (en) * 1999-10-13 2004-03-30 International Business Machines Corporation Achieving application-specific document content by transcoding using Java Server Pages
US7249318B1 (en) * 1999-11-08 2007-07-24 Adobe Systems Incorporated Style sheet generation
US6532476B1 (en) * 1999-11-13 2003-03-11 Precision Solutions, Inc. Software based methodology for the storage and retrieval of diverse information
JP3470664B2 (ja) * 1999-12-01 2003-11-25 日本電気株式会社 受信メール表示方法及び絵文字変換機能付き電子メール端末装置
US7146566B1 (en) * 1999-12-14 2006-12-05 International Business Machines Corporation Method and system for multiformat presentation
US6772413B2 (en) * 1999-12-21 2004-08-03 Datapower Technology, Inc. Method and apparatus of data exchange using runtime code generator and translator
US6484178B1 (en) * 1999-12-30 2002-11-19 The Merallis Company Universal claims formatter
KR100431255B1 (ko) * 2000-01-12 2004-05-12 세이코 엡슨 가부시키가이샤 휴대단말 및 데이터 출력제어 시스템
EP1117049A1 (en) * 2000-01-14 2001-07-18 Sun Microsystems, Inc. Dynamic conversion of data
EP1117220A1 (en) 2000-01-14 2001-07-18 Sun Microsystems, Inc. Method and system for protocol conversion
EP1117050A1 (en) 2000-01-14 2001-07-18 Sun Microsystems, Inc. Individual data representation
US6779154B1 (en) * 2000-02-01 2004-08-17 Cisco Technology, Inc. Arrangement for reversibly converting extensible markup language documents to hypertext markup language documents
US6633314B1 (en) * 2000-02-02 2003-10-14 Raja Tuli Portable high speed internet device integrating cellular telephone and palm top computer
US6810429B1 (en) * 2000-02-03 2004-10-26 Mitsubishi Electric Research Laboratories, Inc. Enterprise integration system
EP1184779A4 (en) * 2000-02-21 2003-01-22 Seiko Epson Corp MEDIATION SYSTEM FOR NETWORK PRINTING
CA2299824C (en) * 2000-03-01 2012-02-21 Spicer Corporation Network resource control system
US8843617B2 (en) * 2000-03-01 2014-09-23 Printeron Inc. Multi-stage polling mechanism and system for the transmission and processing control of network resource data
CA2301996A1 (en) * 2000-03-13 2001-09-13 Spicer Corporation Wireless attachment enabling
US6738767B1 (en) * 2000-03-20 2004-05-18 International Business Machines Corporation System and method for discovering schematic structure in hypertext documents
US6757870B1 (en) * 2000-03-22 2004-06-29 Hewlett-Packard Development Company, L.P. Automatic table detection method and system
US6963908B1 (en) 2000-03-29 2005-11-08 Symantec Corporation System for transferring customized hardware and software settings from one computer to another computer to provide personalized operating environments
US7032011B2 (en) 2000-03-29 2006-04-18 Symantec Corporation Server based extraction, transfer, storage and processing of remote settings, files and data
US7092985B2 (en) * 2000-03-30 2006-08-15 United Devices, Inc. Method of managing workloads and associated distributed processing system
US8010703B2 (en) * 2000-03-30 2011-08-30 Prashtama Wireless Llc Data conversion services and associated distributed processing system
US6963897B1 (en) * 2000-03-30 2005-11-08 United Devices, Inc. Customer services and advertising based upon device attributes and associated distributed processing system
USRE42153E1 (en) 2000-03-30 2011-02-15 Hubbard Edward A Dynamic coordination and control of network connected devices for large-scale network site testing and associated architectures
US20040103139A1 (en) * 2000-03-30 2004-05-27 United Devices, Inc. Distributed processing system having sensor based data collection and associated method
US20010039497A1 (en) * 2000-03-30 2001-11-08 Hubbard Edward A. System and method for monitizing network connected user bases utilizing distributed processing systems
US20090216641A1 (en) 2000-03-30 2009-08-27 Niration Network Group, L.L.C. Methods and Systems for Indexing Content
US20090222508A1 (en) * 2000-03-30 2009-09-03 Hubbard Edward A Network Site Testing
US7072055B1 (en) * 2000-03-31 2006-07-04 Hewlett-Packard Development Company, L.P. Encapsulated pdf direct printing
AU4465101A (en) * 2000-03-31 2001-10-08 Kyocera Communication Systems, Co., Ltd. Contents providing system
US7836395B1 (en) * 2000-04-06 2010-11-16 International Business Machines Corporation System, apparatus and method for transformation of java server pages into PVC formats
WO2001077847A1 (en) * 2000-04-07 2001-10-18 Financeware.Com Method and apparatus for rendering electronic documents
US7576730B2 (en) * 2000-04-14 2009-08-18 Picsel (Research) Limited User interface systems and methods for viewing and manipulating digital documents
US7009626B2 (en) * 2000-04-14 2006-03-07 Picsel Technologies Limited Systems and methods for generating visual representations of graphical data and digital document processing
US6781600B2 (en) * 2000-04-14 2004-08-24 Picsel Technologies Limited Shape processor
US7055095B1 (en) * 2000-04-14 2006-05-30 Picsel Research Limited Systems and methods for digital document processing
US6834312B2 (en) * 2000-05-02 2004-12-21 Cadopener.Com 11C Method and apparatus for delivery of data over a network
US6625335B1 (en) * 2000-05-11 2003-09-23 Matsushita Electric Industrial Co., Ltd. Method and apparatus for assigning keywords to documents
SE0001842D0 (sv) * 2000-05-18 2000-05-18 Ericsson Telefon Ab L M Interface protocol
WO2001095631A2 (en) * 2000-06-09 2001-12-13 British Broadcasting Corporation Generation subtitles or captions for moving pictures
US7418653B1 (en) * 2000-11-17 2008-08-26 Olive Software Inc. System and method for data publication through web pages
US7600183B2 (en) * 2000-06-16 2009-10-06 Olive Software Inc. System and method for data publication through web pages
US6901519B1 (en) * 2000-06-22 2005-05-31 Infobahn, Inc. E-mail virus protection system and method
JP2002014852A (ja) * 2000-06-29 2002-01-18 Ataka Engineering Co Ltd 通信端末用ファイル変換サービスの提供方法
EP1172722A3 (en) * 2000-07-12 2003-08-06 Matsushita Electric Industrial Co., Ltd. Display device
US7072052B1 (en) * 2000-07-21 2006-07-04 Canon Kabushiki Kaisha Efficient rasterization system and method
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM
US6938083B1 (en) * 2000-07-21 2005-08-30 Unisys Corporation Method of providing duplicate original file copies of a searched topic from multiple file types derived from the web
US7287095B2 (en) * 2000-08-03 2007-10-23 Fujitsu Limited Processing method, processing apparatus and storage medium
US7373422B1 (en) * 2000-08-04 2008-05-13 Oracle International Corporation Techniques for supporting multiple devices in mobile applications
US7013329B1 (en) 2000-08-04 2006-03-14 Oracle International Corporation Techniques for programming event-driven transactions in mobile applications
JP2002056033A (ja) * 2000-08-11 2002-02-20 Nissei Plastics Ind Co データ処理サービス方法
US6941511B1 (en) * 2000-08-31 2005-09-06 International Business Machines Corporation High-performance extensible document transformation
MXPA01008719A (es) * 2000-09-06 2002-04-10 Air Products Polymers Lp Conservacion de emulsiones polimericas usando compuestos cationicos.
AU2001291306A1 (en) * 2000-09-12 2002-03-26 Infolibria, Inc. Managing distribution and local execution of computing resources
US7613810B2 (en) * 2000-09-27 2009-11-03 Nokia Inc. Segmenting electronic documents for use on a device of limited capability
US7210100B2 (en) * 2000-09-27 2007-04-24 Eizel Technologies, Inc. Configurable transformation of electronic documents
JP4657432B2 (ja) * 2000-09-28 2011-03-23 富士通株式会社 階層構造の構造化文書を変換する装置
US6983331B1 (en) * 2000-10-17 2006-01-03 Microsoft Corporation Selective display of content
US7260777B2 (en) * 2001-08-17 2007-08-21 Desknet Inc. Apparatus, method and system for transforming data
US6854008B1 (en) * 2000-10-24 2005-02-08 Canon Kabushiki Kaisha Automatically uploading and organizing documents in a document server
DE10054887A1 (de) * 2000-11-06 2002-05-08 Fileants Com Ag Verfahren zum Austausch von Daten in einem Netzwerk, Vorrichtung zur Durchführung des Verfahrens, Computerprogramm zum Durchführen desselben und Datenträger, auf dem ein solches gespeichert ist
US7181508B1 (en) * 2000-11-09 2007-02-20 Oki Data Americas, Inc. System and method for communicating, monitoring and configuring a device operatively connected to a network
US8255791B2 (en) 2000-11-29 2012-08-28 Dov Koren Collaborative, flexible, interactive real-time displays
US20020143821A1 (en) * 2000-12-15 2002-10-03 Douglas Jakubowski Site mining stylesheet generator
EP1215547B1 (de) * 2000-12-15 2007-01-03 Siemens Aktiengesellschaft Verschlüsselung von Steuerungsprogrammen
US20020111972A1 (en) * 2000-12-15 2002-08-15 Virtual Access Networks. Inc. Virtual access
US6934909B2 (en) * 2000-12-20 2005-08-23 Adobe Systems Incorporated Identifying logical elements by modifying a source document using marker attribute values
US7581011B2 (en) * 2000-12-22 2009-08-25 Oracle International Corporation Template based workflow definition
US7415607B2 (en) * 2000-12-22 2008-08-19 Oracle International Corporation Obtaining and maintaining real time certificate status
US8015600B2 (en) 2000-12-22 2011-09-06 Oracle International Corporation Employing electronic certificate workflows
US7711818B2 (en) * 2000-12-22 2010-05-04 Oracle International Corporation Support for multiple data stores
US7937655B2 (en) * 2000-12-22 2011-05-03 Oracle International Corporation Workflows with associated processes
US7363339B2 (en) * 2000-12-22 2008-04-22 Oracle International Corporation Determining group membership
US7802174B2 (en) * 2000-12-22 2010-09-21 Oracle International Corporation Domain based workflows
US7349912B2 (en) 2000-12-22 2008-03-25 Oracle International Corporation Runtime modification of entries in an identity system
US7085834B2 (en) * 2000-12-22 2006-08-01 Oracle International Corporation Determining a user's groups
US6782379B2 (en) * 2000-12-22 2004-08-24 Oblix, Inc. Preparing output XML based on selected programs and XML templates
US7475151B2 (en) 2000-12-22 2009-01-06 Oracle International Corporation Policies for modifying group membership
US7380008B2 (en) 2000-12-22 2008-05-27 Oracle International Corporation Proxy system
US6816871B2 (en) 2000-12-22 2004-11-09 Oblix, Inc. Delivering output XML with dynamically selectable processing
US7213249B2 (en) * 2000-12-22 2007-05-01 Oracle International Corporation Blocking cache flush requests until completing current pending requests in a local server and remote server
US7043687B2 (en) 2000-12-27 2006-05-09 G. E. Information Services, Inc. Document/message management
US20020129059A1 (en) * 2000-12-29 2002-09-12 Eck Jeffery R. XML auto map generator
US20020087603A1 (en) * 2001-01-02 2002-07-04 Bergman Eric D. Change tracking integrated with disconnected device document synchronization
TW571201B (en) * 2001-02-02 2004-01-11 Wistron Corp Conversion method and system for contents format of document file
WO2002063481A1 (en) * 2001-02-07 2002-08-15 Infodraw Inc. A dynamic object type for information management and real time graphic collaboration
US20040003028A1 (en) * 2002-05-08 2004-01-01 David Emmett Automatic display of web content to smaller display devices: improved summarization and navigation
US7496831B2 (en) * 2001-02-22 2009-02-24 International Business Machines Corporation Method to reformat regions with cluttered hyperlinks
EP1239375B1 (de) * 2001-03-08 2014-05-07 Sap Ag Verfahren zum Konvertieren von Dokumenten
US8117313B2 (en) 2001-03-19 2012-02-14 International Business Machines Corporation System and method for adaptive formatting of image information for efficient delivery and presentation
EP1381965B1 (en) * 2001-03-23 2018-05-09 BlackBerry Limited Systems and methods for content delivery over a wireless communication medium to a portable computing device
US7200271B2 (en) * 2001-03-29 2007-04-03 The Boeing Company Method, computer program product, and system for performing automated text recognition and text search within a graphic file
US20020140958A1 (en) * 2001-03-29 2002-10-03 Lester Samuel M. Page description language adapted for direct printing of multiple file formats
US7039643B2 (en) * 2001-04-10 2006-05-02 Adobe Systems Incorporated System, method and apparatus for converting and integrating media files
US20020156923A1 (en) * 2001-04-19 2002-10-24 Murata Kikai Kabushiki Kaisha Server device and network system
US7134075B2 (en) * 2001-04-26 2006-11-07 International Business Machines Corporation Conversion of documents between XML and processor efficient MXML in content based routing networks
US7421650B2 (en) * 2001-05-01 2008-09-02 General Electric Company Method and system for publishing electronic media to a document management system in various publishing formats independent of the media creation application
US7565605B2 (en) * 2001-05-08 2009-07-21 Nokia, Inc. Reorganizing content of an electronic document
US20020184263A1 (en) * 2001-05-17 2002-12-05 Pierre Perinet Method and system for converting usage data to extensive markup language
CA2348706A1 (en) * 2001-05-25 2002-11-25 Ibm Canada Limited-Ibm Canada Limitee Converting user interface source code of a legacy application to web pages
US7272594B1 (en) 2001-05-31 2007-09-18 Autonomy Corporation Ltd. Method and apparatus to link to a related document
JP2002358336A (ja) * 2001-06-01 2002-12-13 Pioneer Electronic Corp 設計情報公開システム、設計情報公開方法および記録媒体
US7231460B2 (en) * 2001-06-04 2007-06-12 Gateway Inc. System and method for leveraging networked computers to view windows based files on Linux platforms
US6868528B2 (en) * 2001-06-15 2005-03-15 Microsoft Corporation Systems and methods for creating and displaying a user interface for displaying hierarchical data
US7028257B1 (en) * 2001-06-29 2006-04-11 Bellsouth Intellectual Property Corp. System and method for rapid creation and display of stylized digital content items
US7107521B2 (en) * 2001-07-03 2006-09-12 International Business Machines Corporation XSL dynamic inheritance
US20030093565A1 (en) * 2001-07-03 2003-05-15 Berger Adam L. System and method for converting an attachment in an e-mail for delivery to a device of limited rendering capability
US8324576B2 (en) * 2001-07-13 2012-12-04 Koninklijke Philips Electronics N.V. Nuclear camera with open and flexible software architecture
US6996772B2 (en) * 2001-07-25 2006-02-07 Hewlett-Packard Development Company, L.P. Formatting a content item in a text file using a discrimination stylesheet created using a heuristics stylesheet
DE10136439A1 (de) * 2001-07-26 2003-02-13 Bosch Gmbh Robert Informationssystem
US20030033432A1 (en) * 2001-08-08 2003-02-13 Simpson Shell S. Web based imaging service that converts web pages into content on behalf of another web site
US7640361B1 (en) * 2001-08-24 2009-12-29 Mcafee, Inc. Systems and methods for converting infected electronic files to a safe format
US7263561B1 (en) * 2001-08-24 2007-08-28 Mcafee, Inc. Systems and methods for making electronic files that have been converted to a safe format available for viewing by an intended recipient
DE10141834A1 (de) * 2001-08-27 2003-04-03 Siemens Ag Datenkonverter
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
US20030048468A1 (en) * 2001-09-07 2003-03-13 Boldon John L. Method of virus filtering for use in peripherals having embedded controller devices
JP2003091344A (ja) * 2001-09-19 2003-03-28 Sony Corp 情報処理装置および情報処理方法、記録媒体、データ構造、並びにプログラム
JP2003099562A (ja) * 2001-09-20 2003-04-04 Nec Soft Ltd 公共工事の書類送受信システム
AU2002337921A1 (en) * 2001-10-19 2003-04-28 Vizional Technologies, Inc. Extensible mark-up language (xml) tracer for conversion of xml documents to hypertext markup language (html)
US20030084188A1 (en) * 2001-10-30 2003-05-01 Dreyer Hans Daniel Multiple mode input and output
JP2003150586A (ja) 2001-11-12 2003-05-23 Ntt Docomo Inc 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
US6931404B2 (en) * 2001-11-14 2005-08-16 Inventec Corporation System and method for operating workflow
KR100456022B1 (ko) * 2001-11-20 2004-11-08 한국전자통신연구원 비피씨 정보단말을 위한 엑스엠엘 기반 웹 페이지 제공방법 및 그 시스템
US20030106021A1 (en) * 2001-11-30 2003-06-05 Tushar Mangrola Apparatus and method for creating PDF documents
US7225256B2 (en) * 2001-11-30 2007-05-29 Oracle International Corporation Impersonation in an access system
US20030106016A1 (en) * 2001-12-04 2003-06-05 Kendrick John J. Process for storing electronic documents on an internet-accessible document storage system
WO2003048966A1 (en) * 2001-12-05 2003-06-12 Webxcentric Holdings Pty Ltd A method of collaborative communication structuring and applications therefor
JP2003186794A (ja) * 2001-12-13 2003-07-04 Fujitsu Ltd 情報提供プログラム,情報提供プログラムを記録したコンピュータ読取可能な記録媒体及び情報提供装置
WO2003056449A2 (en) * 2001-12-21 2003-07-10 Xmlcities, Inc. Extensible stylesheet designs using meta-tag and/or associated meta-tag information
JP2003196270A (ja) * 2001-12-27 2003-07-11 Sharp Corp 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体
US6917969B2 (en) 2002-01-03 2005-07-12 International Business Machines Corporation Portable bean-based content rendering
JP3809863B2 (ja) 2002-02-28 2006-08-16 インターナショナル・ビジネス・マシーンズ・コーポレーション サーバ
US20040205568A1 (en) * 2002-03-01 2004-10-14 Breuel Thomas M. Method and system for document image layout deconstruction and redisplay system
TWI235946B (en) * 2002-03-13 2005-07-11 Culture Com Technology Macau Ltd Method and system of displaying data
US7096421B2 (en) * 2002-03-18 2006-08-22 Sun Microsystems, Inc. System and method for comparing hashed XML files
US20040205509A1 (en) * 2002-03-18 2004-10-14 Sun Microsystems, Inc. System and method for comparing parsed XML files
US7840658B2 (en) * 2002-05-15 2010-11-23 Oracle International Corporation Employing job code attributes in provisioning
US7216163B2 (en) * 2002-05-15 2007-05-08 Oracle International Corporation Method and apparatus for provisioning tasks using a provisioning bridge server
US7146030B2 (en) * 2002-05-22 2006-12-05 Agilent Technologies, Inc. System and methods for extracting semantics from images
US7444302B2 (en) * 2002-06-14 2008-10-28 Ellie Mae, Inc. Online system for fulfilling loan applications from loan originators
US7650566B1 (en) 2002-06-28 2010-01-19 Microsoft Corporation Representing list definitions and instances in a markup language document
US7127520B2 (en) 2002-06-28 2006-10-24 Streamserve Method and system for transforming input data streams
US7533335B1 (en) 2002-06-28 2009-05-12 Microsoft Corporation Representing fields in a markup language document
US7584419B1 (en) 2002-06-28 2009-09-01 Microsoft Corporation Representing non-structured features in a well formed document
US7565603B1 (en) 2002-06-28 2009-07-21 Microsoft Corporation Representing style information in a markup language document
US7523394B2 (en) 2002-06-28 2009-04-21 Microsoft Corporation Word-processing document stored in a single XML file that may be manipulated by applications that understand XML
US7607081B1 (en) 2002-06-28 2009-10-20 Microsoft Corporation Storing document header and footer information in a markup language document
US7562295B1 (en) 2002-06-28 2009-07-14 Microsoft Corporation Representing spelling and grammatical error state in an XML document
CA2393035A1 (en) * 2002-07-11 2004-01-11 Ibm Canada Limited-Ibm Canada Limitee Converting markup language files
US20040015782A1 (en) * 2002-07-17 2004-01-22 Day Young Francis Templating method for automated generation of print product catalogs
US7472089B2 (en) 2002-08-15 2008-12-30 Ellie Mae, Inc. Loan origination system interface for online loan application processing
JP2004234620A (ja) * 2002-09-04 2004-08-19 Oce Technologies Bv 書類データを物理的に管理する方法および装置
US20040117731A1 (en) * 2002-09-27 2004-06-17 Sergey Blyashov Automated report building system
US7761459B1 (en) 2002-10-15 2010-07-20 Ximpleware, Inc. Processing structured data
CA2409079A1 (en) * 2002-10-21 2004-04-21 Ibm Canada Limited-Ibm Canada Limitee Creating multiple and cascading business interpretations from raw application data using transformation layering
DE10250842B4 (de) * 2002-10-31 2010-11-11 OCé PRINTING SYSTEMS GMBH Verfahren, Computerprogrammprodukt und Vorrichtung zum Verarbeiten eines Dokumentendatenstroms eines Eingangsformates zu einem Ausgangsformat
US7233698B2 (en) * 2002-12-13 2007-06-19 The Boeing Company Apparatus and methods for converting raster illustrated parts images into intelligent vector-layered files
US7856454B2 (en) 2002-12-20 2010-12-21 Siebel Systems, Inc. Data model for business relationships
US8538840B2 (en) * 2002-12-20 2013-09-17 Siebel Systems, Inc. Financial services data model
US7016915B2 (en) * 2002-12-28 2006-03-21 International Business Machines Corporation Method for processing XML queries over relational data and meta-data using a relational database system
US7669118B2 (en) * 2003-01-06 2010-02-23 Sap Ag Method, system and program for providing page with plurality of code portions in browser markup language
US20040151377A1 (en) * 2003-02-04 2004-08-05 Boose Molly L. Apparatus and methods for converting network drawings from raster format to vector format
US7366978B1 (en) * 2003-02-13 2008-04-29 Microsoft Corporation Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table
US8392298B2 (en) * 2003-03-04 2013-03-05 Siebel Systems, Inc. Invoice adjustment data object for a common data object format
US8473399B2 (en) * 2003-03-04 2013-06-25 Siebel Systems, Inc. Invoice data object for a common data object format
AU2003229699A1 (en) * 2003-03-06 2004-09-28 Sap Aktiengesellschaft A method and a computer system for data assignment
US7313754B2 (en) * 2003-03-14 2007-12-25 Texterity, Inc. Method and expert system for deducing document structure in document conversion
US8489470B2 (en) * 2003-03-24 2013-07-16 Siebel Systems, Inc. Inventory location common object
US9704120B2 (en) * 2003-03-24 2017-07-11 Oracle International Corporation Inventory balance common object
US8510179B2 (en) * 2003-03-24 2013-08-13 Siebel Systems, Inc. Inventory transaction common object
US7912932B2 (en) * 2003-03-24 2011-03-22 Siebel Systems, Inc. Service request common object
US20070208577A1 (en) * 2003-03-24 2007-09-06 Leon Maria T B Position common object
AU2003901428A0 (en) * 2003-03-24 2003-04-10 Objective Systems Pty Ltd A system and method for formatting and distributing reading material
EP1606739A4 (en) * 2003-03-24 2007-10-17 Siebel Systems Inc CUSTOMIZED JOINT OBJECT
US7904340B2 (en) * 2003-03-24 2011-03-08 Siebel Systems, Inc. Methods and computer-readable medium for defining a product model
US7711680B2 (en) 2003-03-24 2010-05-04 Siebel Systems, Inc. Common common object
US20070226037A1 (en) * 2003-03-25 2007-09-27 Shailendra Garg Modeling of opportunity data
US20040194009A1 (en) * 2003-03-27 2004-09-30 Lacomb Christina Automated understanding, extraction and structured reformatting of information in electronic files
US7305612B2 (en) * 2003-03-31 2007-12-04 Siemens Corporate Research, Inc. Systems and methods for automatic form segmentation for raster-based passive electronic documents
US7653876B2 (en) * 2003-04-07 2010-01-26 Adobe Systems Incorporated Reversible document format
WO2004100015A2 (en) * 2003-05-05 2004-11-18 Arbortext, Inc. System and method for defining specifications for outputting content in multiple formats
US9026901B2 (en) * 2003-06-20 2015-05-05 International Business Machines Corporation Viewing annotations across multiple applications
US7315857B2 (en) * 2004-05-13 2008-01-01 International Business Machines Corporation Method and system for propagating annotations using pattern matching
US8321470B2 (en) * 2003-06-20 2012-11-27 International Business Machines Corporation Heterogeneous multi-level extendable indexing for general purpose annotation systems
US7890852B2 (en) 2003-06-26 2011-02-15 International Business Machines Corporation Rich text handling for a web application
US7225411B1 (en) * 2003-06-30 2007-05-29 Tibco Software Inc. Efficient transformation of information between a source schema and a target schema
NO20034035D0 (no) 2003-09-11 2003-09-11 Opera Software Asa Skjelne og fremvise tabeller i dokumenter
US7340447B2 (en) 2003-10-09 2008-03-04 Oracle International Corporation Partitioning data access requests
US7904487B2 (en) 2003-10-09 2011-03-08 Oracle International Corporation Translating data access requests
US7882132B2 (en) 2003-10-09 2011-02-01 Oracle International Corporation Support for RDBMS in LDAP system
US7617196B2 (en) 2003-10-22 2009-11-10 International Business Machines Corporation Context-sensitive term expansion with multiple levels of expansion
US20050262435A1 (en) * 2003-10-30 2005-11-24 Avaya Technology Corp. Automatic detection and dialing of phone numbers on computer documents
US7181538B2 (en) * 2003-11-14 2007-02-20 Sybase 365, Inc. System and method for providing configurable, dynamic multimedia message service pre-transcoding
US7325191B2 (en) * 2003-12-08 2008-01-29 Microsoft Corporation Preservation of source code formatting
US7900133B2 (en) 2003-12-09 2011-03-01 International Business Machines Corporation Annotation structure type determination
US20050197920A1 (en) * 2004-01-19 2005-09-08 Weir Timothy J.Ii Systems and methods for electronic integration of business transactions
US20050166143A1 (en) * 2004-01-22 2005-07-28 David Howell System and method for collection and conversion of document sets and related metadata to a plurality of document/metadata subsets
US7418323B2 (en) * 2004-01-27 2008-08-26 Tag One, Inc. Method and system for aircraft data and portfolio management
GB2411014A (en) * 2004-02-11 2005-08-17 Autonomy Corp Ltd Automatic searching for relevant information
US20050210047A1 (en) * 2004-03-18 2005-09-22 Zenodata Corporation Posting data to a database from non-standard documents using document mapping to standard document types
US20050235202A1 (en) * 2004-04-20 2005-10-20 Tsu-Wang Chen Automatic graphical layout printing system utilizing parsing and merging of data
DE102004021269A1 (de) * 2004-04-30 2005-11-24 OCé PRINTING SYSTEMS GMBH Verfahren, Vorrichtung und Computerprogrammprodukt zum Erzeugen eines seiten- und/oder bereichsstrukturierten Datenstroms aus einem Zeilendatenstrom
US8095871B2 (en) * 2004-05-06 2012-01-10 Siemens Corporation System and method for GUI supported specifications for automating form field extraction with database mapping
US7865390B2 (en) * 2004-05-21 2011-01-04 Siebel Systems, Inc. Modeling of employee performance result data
US8112296B2 (en) * 2004-05-21 2012-02-07 Siebel Systems, Inc. Modeling of job profile data
US8990254B2 (en) * 2004-07-02 2015-03-24 Ellie Mae, Inc. Loan origination software system for processing mortgage loans over a distributed network
US20060059422A1 (en) * 2004-09-16 2006-03-16 Ting-Hu Wu Desktop application implemented with web paradigm
US7447993B2 (en) * 2004-10-12 2008-11-04 Microsoft Corporation System and method for displaying a user interface object using an associated style
US8620816B2 (en) * 2004-10-14 2013-12-31 Google Inc. Information vault, data format conversion services system and method
EP1817692A1 (en) * 2004-10-14 2007-08-15 Docteq AB Method for handling electronic documents
US7949675B2 (en) 2004-10-15 2011-05-24 Oracle International Corporation Data retrieval method
GB0422979D0 (en) * 2004-10-15 2004-11-17 Oracle Int Corp Data retrieval method
WO2006050056A2 (en) * 2004-10-29 2006-05-11 Upstream Software, Inc. Transaction network
US20060101023A1 (en) * 2004-11-05 2006-05-11 Ellie Mae, Inc. Universal computing paradigm with single-code base utilizing a flexible distributed computing architecture
US8839097B2 (en) * 2004-11-15 2014-09-16 Ca, Inc. System and method for information encapsulation for providing multiple deliverable formats from one information source
US20060200763A1 (en) * 2005-03-04 2006-09-07 Alexander Michaelsen Technique for exporting document content
US7734636B2 (en) * 2005-03-31 2010-06-08 Xerox Corporation Systems and methods for electronic document genre classification using document grammars
US7805495B2 (en) * 2005-03-31 2010-09-28 Google Inc. Method and system for transferring web browser data between web browsers
US8095393B2 (en) * 2005-04-21 2012-01-10 Seifert Michael J Method and system for automated processing of insurance information
US7512833B1 (en) 2005-05-09 2009-03-31 Adam C. Murphy Universal imaging utility program
EP1732012B1 (en) * 2005-06-09 2007-10-10 PDFlib GmbH Method of identifying redundant text in an electronic document
GB2427048A (en) * 2005-06-09 2006-12-13 Avecho Group Ltd Detection of unwanted code or data in electronic mail
JP2007060505A (ja) * 2005-08-26 2007-03-08 Fuji Xerox Co Ltd 画像読取装置およびその画像処理方法、画像形成装置、画像処理システムおよびその印刷時間短縮方法
JP4738943B2 (ja) * 2005-09-01 2011-08-03 キヤノン株式会社 画像処理装置およびその方法
US20070109574A1 (en) * 2005-11-14 2007-05-17 Kabushiki Kaisha Toshiba System and method for assembly of multiple format digital files
US20070130202A1 (en) * 2005-12-03 2007-06-07 International Business Machines Corporation System and method for automatically generating a searchable plug-in from text files
US7779351B2 (en) * 2005-12-09 2010-08-17 Adobe Systems Incorporated Coloring a generated document by replacing original colors of a source document paragraph with colors to identify the paragraph and with colors to mark color boundries
CN100356370C (zh) * 2005-12-15 2007-12-19 无锡永中科技有限公司 提高文字处理文档打开速度的处理方法
US8099341B2 (en) * 2006-01-31 2012-01-17 OREM Financial Services Inc. System and method for recreating tax documents
US8046679B2 (en) * 2006-02-02 2011-10-25 Research In Motion Limited Apparatus, method and machine-readable medium for facilitating generation of a markup language document containing identical sets of markup language elements
US20070188473A1 (en) * 2006-02-14 2007-08-16 Picsel Research Limited System and methods for document navigation
US7743327B2 (en) * 2006-02-23 2010-06-22 Xerox Corporation Table of contents extraction with improved robustness
US8176416B1 (en) * 2006-03-17 2012-05-08 Wells Fargo Bank, N.A. System and method for delivering a device-independent web page
JP2007249754A (ja) * 2006-03-17 2007-09-27 Internatl Business Mach Corp <Ibm> 情報処理装置、情報処理方法およびプログラム
US20060271451A1 (en) * 2006-03-30 2006-11-30 George Varughese System and method for providing data to tax preparation software
US8615663B2 (en) * 2006-04-17 2013-12-24 Broadcom Corporation System and method for secure remote biometric authentication
US9251222B2 (en) * 2006-06-29 2016-02-02 International Business Machines Corporation Abstracted dynamic report definition generation for use within information technology infrastructure
US8712965B2 (en) * 2006-06-29 2014-04-29 International Business Machines Corporation Dynamic report mapping apparatus to physical data source when creating report definitions for information technology service management reporting for peruse of report definition transparency and reuse
US8484556B2 (en) * 2006-08-22 2013-07-09 Autodesk, Inc. Drawing interoperability between different computer-aided design applications
US8683600B2 (en) * 2006-10-11 2014-03-25 Adobe Systems Incorporated Print policy commands
US20080104505A1 (en) * 2006-10-27 2008-05-01 Keohane Susann M Method, System and Program Product Supporting Customized Presentation of Toolbars Within a Document
US7949949B2 (en) * 2006-11-20 2011-05-24 Intentional Software Corporation Domain transformation languages
GB2444514A (en) 2006-12-04 2008-06-11 Glasswall Electronic file re-generation
US9729513B2 (en) 2007-11-08 2017-08-08 Glasswall (Ip) Limited Using multiple layers of policy management to manage risk
TWI385535B (zh) * 2006-12-15 2013-02-11 Hon Hai Prec Ind Co Ltd Word檔轉換成XML檔的系統及方法
US8156018B1 (en) 2006-12-18 2012-04-10 Intuit Inc. Transformation of standard document format electronic documents for electronic filing
US8239504B2 (en) * 2007-01-07 2012-08-07 Apple Inc. Synchronization methods and systems
US7778971B2 (en) * 2007-01-07 2010-08-17 Apple Inc. Synchronization methods and systems
US7805403B2 (en) 2007-01-07 2010-09-28 Apple Inc. Synchronization methods and systems
US7660831B2 (en) * 2007-01-07 2010-02-09 Apple Inc. Synchronization methods and systems
US20080163743A1 (en) * 2007-01-07 2008-07-10 Freedman Gordon J Synchronization methods and systems
US7739410B2 (en) * 2007-01-07 2010-06-15 Apple Inc. Synchronization methods and systems
US8745486B2 (en) * 2007-01-25 2014-06-03 Microsoft Corporation Streamable interactive rendering-independent page layout
US7797743B2 (en) * 2007-02-26 2010-09-14 Microsoft Corporation File conversion in restricted process
US7797742B2 (en) 2007-02-26 2010-09-14 Microsoft Corporation File blocking mitigation
US10825089B2 (en) * 2007-03-15 2020-11-03 Bgc Partners, Inc. Error detection and recovery in an electronic trading system
US20080243823A1 (en) * 2007-03-28 2008-10-02 Elumindata, Inc. System and method for automatically generating information within an eletronic document
US8209540B2 (en) 2007-06-28 2012-06-26 Apple Inc. Incremental secure backup and restore of user settings and data
US20090003603A1 (en) * 2007-06-29 2009-01-01 Metabeam Corporation Platform Independent Networked Communications
US8478245B2 (en) 2007-08-01 2013-07-02 Phunware, Inc. Method and system for rendering content on a wireless device
US20090044144A1 (en) * 2007-08-06 2009-02-12 Morris Robert P Methods And Apparatus For Sharing User Interface Widget Annotations
US8600798B1 (en) 2007-09-21 2013-12-03 Ellie Mae, Inc. Loan screening
US20090100023A1 (en) * 2007-10-11 2009-04-16 Koichi Inoue Information processing apparatus and computer readable information recording medium
US9015692B1 (en) 2007-10-23 2015-04-21 Phunware, Inc. Method and system for customizing content on a server for rendering on a wireless device
US8326814B2 (en) 2007-12-05 2012-12-04 Box, Inc. Web-based file management system and service
US8707166B2 (en) * 2008-02-29 2014-04-22 Sap Ag Plain text formatting of data item tables
US20090235161A1 (en) * 2008-03-15 2009-09-17 Microsoft Corporation Lossless Web-Based Editor For Complex Documents
US9189478B2 (en) * 2008-04-03 2015-11-17 Elumindata, Inc. System and method for collecting data from an electronic document and storing the data in a dynamically organized data structure
US8041695B2 (en) 2008-04-18 2011-10-18 The Boeing Company Automatically extracting data from semi-structured documents
US8176042B2 (en) * 2008-07-22 2012-05-08 Elumindata, Inc. System and method for automatically linking data sources for providing data related to a query
US8037062B2 (en) * 2008-07-22 2011-10-11 Elumindata, Inc. System and method for automatically selecting a data source for providing data related to a query
US20100023501A1 (en) * 2008-07-22 2010-01-28 Elumindata, Inc. System and method for automatically selecting a data source for providing data related to a query
US8041712B2 (en) * 2008-07-22 2011-10-18 Elumindata Inc. System and method for automatically selecting a data source for providing data related to a query
US9274910B2 (en) * 2008-08-29 2016-03-01 Spirent Communications, Inc. Automatic test map generation for system verification test
US8347208B2 (en) * 2009-03-04 2013-01-01 Microsoft Corporation Content rendering on a computer
US10152504B2 (en) 2009-03-11 2018-12-11 Actian Netherlands B.V. Column-store database architecture utilizing positional delta tree update system and methods
AU2010245310A1 (en) * 2009-05-04 2011-11-03 Aptara, Inc. Method and system for verifying a citation
US9256591B2 (en) * 2009-07-24 2016-02-09 Hewlett-Packard Development Company, L.P. Document handling method
US20110179036A1 (en) * 2009-12-16 2011-07-21 Jason Townes French Methods and Apparatuses For Abstract Representation of Financial Documents
US9069731B2 (en) * 2009-12-29 2015-06-30 Olive Software Inc. System and method for providing online versions of print-medium publications
US20110258535A1 (en) * 2010-04-20 2011-10-20 Scribd, Inc. Integrated document viewer with automatic sharing of reading-related activities across external social networks
JP2011249996A (ja) * 2010-05-25 2011-12-08 Fuji Xerox Co Ltd 画像処理装置、画像送信装置及びプログラム
US20120041989A1 (en) * 2010-08-16 2012-02-16 Tata Consultancy Services Limited Generating assessment data
WO2012032537A2 (en) * 2010-09-06 2012-03-15 Indian Institute Of Technology A method and system for providing a content adaptive and legibility retentive display of a lecture video on a miniature video device
US8970873B2 (en) 2010-09-17 2015-03-03 Printeron Inc. System and method for managing printer resources on an internal network
US8570566B2 (en) 2010-09-17 2013-10-29 Printeron Inc. System and method that provides user interface on mobile network terminal for releasing print jobs based on location information
JP5725812B2 (ja) * 2010-11-25 2015-05-27 キヤノン株式会社 文書処理装置、文書処理方法、及びプログラム
US9251123B2 (en) * 2010-11-29 2016-02-02 Hewlett-Packard Development Company, L.P. Systems and methods for converting a PDF file
US9760329B2 (en) 2010-11-30 2017-09-12 Printeron Inc. System for internet enabled printing
WO2012099617A1 (en) 2011-01-20 2012-07-26 Box.Net, Inc. Real time notification of activities that occur in a web-based collaboration environment
US20130298012A1 (en) * 2011-01-25 2013-11-07 David Neil Slatter Document Design Capture and Reuse System
US9002139B2 (en) 2011-02-16 2015-04-07 Adobe Systems Incorporated Methods and systems for automated image slicing
US8977964B2 (en) * 2011-05-17 2015-03-10 Next Issue Media Media content device, system and method
US9015601B2 (en) 2011-06-21 2015-04-21 Box, Inc. Batch uploading of content to a web-based collaboration environment
US9063912B2 (en) 2011-06-22 2015-06-23 Box, Inc. Multimedia content preview rendering in a cloud content management system
GB2503625A (en) 2011-07-08 2014-01-01 Box Inc Collaboration sessions in a workspace on cloud-based content management system
US9652741B2 (en) 2011-07-08 2017-05-16 Box, Inc. Desktop application for access and interaction with workspaces in a cloud-based content management system and synchronization mechanisms thereof
US9400974B2 (en) * 2011-09-02 2016-07-26 Jn Projects, Inc. Systems and methods for annotating and sending electronic documents
US8910039B2 (en) * 2011-09-09 2014-12-09 Accenture Global Services Limited File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface
US9612670B2 (en) * 2011-09-12 2017-04-04 Microsoft Technology Licensing, Llc Explicit touch selection and cursor placement
US9197718B2 (en) 2011-09-23 2015-11-24 Box, Inc. Central management and control of user-contributed content in a web-based collaboration environment and management console thereof
US20130086467A1 (en) * 2011-10-03 2013-04-04 Google Inc. System for sending a file for viewing on a mobile device
US8515902B2 (en) 2011-10-14 2013-08-20 Box, Inc. Automatic and semi-automatic tagging features of work items in a shared workspace for metadata tracking in a cloud-based content management system with selective or optional user contribution
US11210610B2 (en) 2011-10-26 2021-12-28 Box, Inc. Enhanced multimedia content preview rendering in a cloud content management system
US9098474B2 (en) * 2011-10-26 2015-08-04 Box, Inc. Preview pre-generation based on heuristics and algorithmic prediction/assessment of predicted user behavior for enhancement of user experience
US8990307B2 (en) 2011-11-16 2015-03-24 Box, Inc. Resource effective incremental updating of a remote client with events which occurred via a cloud-enabled platform
WO2013082320A1 (en) 2011-11-29 2013-06-06 Box, Inc. Mobile platform file and folder selection functionalities for offline access and synchronization
US9019123B2 (en) 2011-12-22 2015-04-28 Box, Inc. Health check services for web-based collaboration environments
WO2013110288A1 (en) * 2012-01-23 2013-08-01 Microsoft Corporation Fixed format document conversion engine
WO2013110286A1 (en) 2012-01-23 2013-08-01 Microsoft Corporation Paragraph property detection and style reconstruction engine
WO2013110287A1 (en) 2012-01-23 2013-08-01 Microsoft Corporation Vector graphics classification engine
WO2013110289A1 (en) 2012-01-23 2013-08-01 Microsoft Corporation Borderless table detection engine
US11232481B2 (en) 2012-01-30 2022-01-25 Box, Inc. Extended applications of multimedia content previews in the cloud-based content management system
US9965745B2 (en) 2012-02-24 2018-05-08 Box, Inc. System and method for promoting enterprise adoption of a web-based collaboration environment
US9195636B2 (en) 2012-03-07 2015-11-24 Box, Inc. Universal file type preview for mobile devices
US9922090B1 (en) * 2012-03-27 2018-03-20 Actian Netherlands, B.V. System and method for automatic vertical decomposition of a table for improving input/output and memory utilization in a database
US9054919B2 (en) 2012-04-05 2015-06-09 Box, Inc. Device pinning capability for enterprise cloud service and storage accounts
US9575981B2 (en) 2012-04-11 2017-02-21 Box, Inc. Cloud service enabled to handle a set of files depicted to a user as a single file in a native operating system
US8914809B1 (en) 2012-04-24 2014-12-16 Open Text S.A. Message broker system and method
US9413587B2 (en) 2012-05-02 2016-08-09 Box, Inc. System and method for a third-party application to access content within a cloud-based platform
AU2013205612A1 (en) * 2012-05-03 2013-11-21 Makebook Pty Ltd A Computerized Method and Software Product for Producing User Interactive Electronic Documents
US9396216B2 (en) 2012-05-04 2016-07-19 Box, Inc. Repository redundancy implementation of a system which incrementally updates clients with events that occurred via a cloud-enabled platform
US9691051B2 (en) 2012-05-21 2017-06-27 Box, Inc. Security enhancement through application access control
US8914900B2 (en) 2012-05-23 2014-12-16 Box, Inc. Methods, architectures and security mechanisms for a third-party application to access content in a cloud-based platform
US9027108B2 (en) 2012-05-23 2015-05-05 Box, Inc. Systems and methods for secure file portability between mobile applications on a mobile device
US20130339886A1 (en) * 2012-06-18 2013-12-19 Computer Pundits, Inc. Tools for dynamic database driven catalog building
US9021099B2 (en) 2012-07-03 2015-04-28 Box, Inc. Load balancing secure FTP connections among multiple FTP servers
US9792320B2 (en) 2012-07-06 2017-10-17 Box, Inc. System and method for performing shard migration to support functions of a cloud-based service
US9946690B2 (en) 2012-07-06 2018-04-17 Microsoft Technology Licensing, Llc Paragraph alignment detection and region-based section reconstruction
US9712510B2 (en) 2012-07-06 2017-07-18 Box, Inc. Systems and methods for securely submitting comments among users via external messaging applications in a cloud-based platform
GB2505072A (en) 2012-07-06 2014-02-19 Box Inc Identifying users and collaborators as search results in a cloud-based system
US9473532B2 (en) 2012-07-19 2016-10-18 Box, Inc. Data loss prevention (DLP) methods by a cloud service including third party integration architectures
US8868574B2 (en) 2012-07-30 2014-10-21 Box, Inc. System and method for advanced search and filtering mechanisms for enterprise administrators in a cloud-based environment
US9794256B2 (en) 2012-07-30 2017-10-17 Box, Inc. System and method for advanced control tools for administrators in a cloud-based service
US9369520B2 (en) 2012-08-19 2016-06-14 Box, Inc. Enhancement of upload and/or download performance based on client and/or server feedback information
US8745267B2 (en) 2012-08-19 2014-06-03 Box, Inc. Enhancement of upload and/or download performance based on client and/or server feedback information
US9558202B2 (en) 2012-08-27 2017-01-31 Box, Inc. Server side techniques for reducing database workload in implementing selective subfolder synchronization in a cloud-based environment
US9135462B2 (en) 2012-08-29 2015-09-15 Box, Inc. Upload and download streaming encryption to/from a cloud-based platform
US9195519B2 (en) 2012-09-06 2015-11-24 Box, Inc. Disabling the self-referential appearance of a mobile application in an intent via a background registration
US9311071B2 (en) 2012-09-06 2016-04-12 Box, Inc. Force upgrade of a mobile application via a server side configuration file
US9117087B2 (en) 2012-09-06 2015-08-25 Box, Inc. System and method for creating a secure channel for inter-application communication based on intents
US9292833B2 (en) 2012-09-14 2016-03-22 Box, Inc. Batching notifications of activities that occur in a web-based collaboration environment
US10200256B2 (en) 2012-09-17 2019-02-05 Box, Inc. System and method of a manipulative handle in an interactive mobile user interface
US9553758B2 (en) 2012-09-18 2017-01-24 Box, Inc. Sandboxing individual applications to specific user folders in a cloud-based service
US10915492B2 (en) 2012-09-19 2021-02-09 Box, Inc. Cloud-based platform enabled with media content indexed for text-based searches and/or metadata extraction
CN103699520A (zh) * 2012-09-27 2014-04-02 茵弗维尔株式会社 用于维持电子文档布局的字体处理方法
US9323767B2 (en) 2012-10-01 2016-04-26 Longsand Limited Performance and scalability in an intelligent data operating layer system
US9959420B2 (en) 2012-10-02 2018-05-01 Box, Inc. System and method for enhanced security and management mechanisms for enterprise administrators in a cloud-based environment
US9705967B2 (en) 2012-10-04 2017-07-11 Box, Inc. Corporate user discovery and identification of recommended collaborators in a cloud platform
US9495364B2 (en) 2012-10-04 2016-11-15 Box, Inc. Enhanced quick search features, low-barrier commenting/interactive features in a collaboration platform
US9665349B2 (en) 2012-10-05 2017-05-30 Box, Inc. System and method for generating embeddable widgets which enable access to a cloud-based collaboration platform
JP5982343B2 (ja) 2012-10-17 2016-08-31 ボックス インコーポレイテッドBox, Inc. クラウドベース環境におけるリモートキー管理
US9756022B2 (en) 2014-08-29 2017-09-05 Box, Inc. Enhanced remote key management for an enterprise in a cloud-based environment
US10235383B2 (en) 2012-12-19 2019-03-19 Box, Inc. Method and apparatus for synchronization of items with read-only permissions in a cloud-based environment
US9396245B2 (en) 2013-01-02 2016-07-19 Box, Inc. Race condition handling in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform
US9953036B2 (en) 2013-01-09 2018-04-24 Box, Inc. File system monitoring in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform
EP2755151A3 (en) 2013-01-11 2014-09-24 Box, Inc. Functionalities, features and user interface of a synchronization client to a cloud-based environment
EP2757491A1 (en) 2013-01-17 2014-07-23 Box, Inc. Conflict resolution, retry condition management, and handling of problem files for the synchronization client to a cloud-based platform
US9953008B2 (en) 2013-01-18 2018-04-24 Microsoft Technology Licensing, Llc Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally
US9667740B2 (en) 2013-01-25 2017-05-30 Sap Se System and method of formatting data
US9223756B2 (en) 2013-03-13 2015-12-29 Adobe Systems Incorporated Method and apparatus for identifying logical blocks of text in a document
US11507574B1 (en) 2013-03-13 2022-11-22 Actian Netherlands B.V. Adaptive selection of a processing method based on observed performance for improved and robust system efficiency
US10725968B2 (en) 2013-05-10 2020-07-28 Box, Inc. Top down delete or unsynchronization on delete of and depiction of item synchronization with a synchronization client to a cloud-based platform
US10846074B2 (en) 2013-05-10 2020-11-24 Box, Inc. Identification and handling of items to be ignored for synchronization with a cloud-based platform by a synchronization client
GB2515192B (en) 2013-06-13 2016-12-14 Box Inc Systems and methods for synchronization event building and/or collapsing by a synchronization component of a cloud-based platform
US9805050B2 (en) 2013-06-21 2017-10-31 Box, Inc. Maintaining and updating file system shadows on a local device by a synchronization client of a cloud-based platform
US10110656B2 (en) 2013-06-25 2018-10-23 Box, Inc. Systems and methods for providing shell communication in a cloud-based platform
US10229134B2 (en) 2013-06-25 2019-03-12 Box, Inc. Systems and methods for managing upgrades, migration of user data and improving performance of a cloud-based platform
US9535924B2 (en) 2013-07-30 2017-01-03 Box, Inc. Scalability improvement in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform
US9535909B2 (en) 2013-09-13 2017-01-03 Box, Inc. Configurable event-based automation architecture for cloud-based collaboration platforms
US9213684B2 (en) 2013-09-13 2015-12-15 Box, Inc. System and method for rendering document in web browser or mobile device regardless of third-party plug-in software
GB2518298A (en) 2013-09-13 2015-03-18 Box Inc High-availability architecture for a cloud-based concurrent-access collaboration platform
US10509527B2 (en) 2013-09-13 2019-12-17 Box, Inc. Systems and methods for configuring event-based automation in cloud-based collaboration platforms
US9704137B2 (en) 2013-09-13 2017-07-11 Box, Inc. Simultaneous editing/accessing of content by collaborator invitation through a web-based or mobile application to a cloud-based collaboration platform
US8892679B1 (en) 2013-09-13 2014-11-18 Box, Inc. Mobile device, methods and user interfaces thereof in a mobile device platform featuring multifunctional access and engagement in a collaborative environment provided by a cloud-based platform
GB2518880A (en) 2013-10-04 2015-04-08 Glasswall Ip Ltd Anti-Malware mobile content data management apparatus and method
US10866931B2 (en) 2013-10-22 2020-12-15 Box, Inc. Desktop application for accessing a cloud collaboration platform
US9940646B2 (en) * 2013-11-13 2018-04-10 Google Llc Dynamic insertion of content items into resources
US9792276B2 (en) 2013-12-13 2017-10-17 International Business Machines Corporation Content availability for natural language processing tasks
US9356882B2 (en) 2014-02-04 2016-05-31 Printeron Inc. Streamlined system for the transmission of network resource data
CN103870543B (zh) * 2014-02-25 2017-07-25 百度在线网络技术(北京)有限公司 一种用于文档文件重构的方法及装置
CN105022616B (zh) * 2014-04-23 2019-12-03 腾讯科技(北京)有限公司 一种生成网页页面的方法及装置
US9880989B1 (en) * 2014-05-09 2018-01-30 Amazon Technologies, Inc. Document annotation service
US10530854B2 (en) 2014-05-30 2020-01-07 Box, Inc. Synchronization of permissioned content in cloud-based environments
US9602514B2 (en) 2014-06-16 2017-03-21 Box, Inc. Enterprise mobility management and verification of a managed application by a content provider
US10038731B2 (en) 2014-08-29 2018-07-31 Box, Inc. Managing flow-based interactions with cloud-based shared content
US9894119B2 (en) 2014-08-29 2018-02-13 Box, Inc. Configurable metadata-based automation and content classification architecture for cloud-based collaboration platforms
US10574442B2 (en) 2014-08-29 2020-02-25 Box, Inc. Enhanced remote key management for an enterprise in a cloud-based environment
US9330264B1 (en) 2014-11-26 2016-05-03 Glasswall (Ip) Limited Statistical analytic method for the determination of the risk posed by file based content
US10360294B2 (en) * 2015-04-26 2019-07-23 Sciome, LLC Methods and systems for efficient and accurate text extraction from unstructured documents
JP6308169B2 (ja) * 2015-05-20 2018-04-11 コニカミノルタ株式会社 文書変換プログラム及び文書変換方法
WO2017002130A1 (en) 2015-07-01 2017-01-05 Tnq Books And Journals Private Limited Transformation of marked-up content to a reversible file format for automated browser based pagination
US10318614B2 (en) 2015-07-01 2019-06-11 Tnq Books And Journals Private Limited Transformation of marked-up content into a file format that enables automated browser based pagination
US10534843B2 (en) 2016-05-27 2020-01-14 Open Text Sa Ulc Document architecture with efficient storage
US10649985B1 (en) 2016-11-08 2020-05-12 Premera Blue Cross Systems and methods for processing natural language queries for healthcare data
KR20190058005A (ko) * 2017-11-21 2019-05-29 그린캣소프트(주) Svg 포맷의 편집 방법, 시스템 및 컴퓨터 판독 가능한 기록매체
CN107943417A (zh) * 2017-11-21 2018-04-20 广州市百果园网络科技有限公司 图像处理方法、终端、计算机存储介质及计算机程序
CN108052490B (zh) * 2017-12-29 2019-04-30 北京仁和汇智信息技术有限公司 一种xml论文在线撰写方法和装置
US11048864B2 (en) * 2019-04-01 2021-06-29 Adobe Inc. Digital annotation and digital content linking techniques
CN110334585B (zh) * 2019-05-22 2023-10-24 平安科技(深圳)有限公司 表格识别方法、装置、计算机设备和存储介质
CN110278265B (zh) * 2019-06-20 2022-06-21 宜春宜联科技有限公司 用户上传文件的处理方法、装置、存储介质和电子设备
US11615244B2 (en) * 2020-01-30 2023-03-28 Oracle International Corporation Data extraction and ordering based on document layout analysis
US11475686B2 (en) 2020-01-31 2022-10-18 Oracle International Corporation Extracting data from tables detected in electronic documents
US11341318B2 (en) 2020-07-07 2022-05-24 Kudzu Software Llc Interactive tool for modifying an automatically generated electronic form
US11403455B2 (en) * 2020-07-07 2022-08-02 Kudzu Software Llc Electronic form generation from electronic documents
AU2022204170A1 (en) * 2021-07-16 2023-02-02 Roar Software Pty Ltd System and method for processing an active document from a rich text document
US11888793B2 (en) 2022-02-22 2024-01-30 Open Text Holdings, Inc. Systems and methods for intelligent delivery of communications
US12032651B2 (en) * 2022-04-01 2024-07-09 Wipro Limited Method and system for extracting information from input document comprising multi-format information

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4734858B1 (en) 1983-12-05 1997-02-11 Portel Services Network Inc Data terminal and system for placing orders
US4723209A (en) * 1984-08-30 1988-02-02 International Business Machines Corp. Flow attribute for text objects
US5107419A (en) * 1987-12-23 1992-04-21 International Business Machines Corporation Method of assigning retention and deletion criteria to electronic documents stored in an interactive information handling system
JPH04157563A (ja) * 1990-10-22 1992-05-29 Hitachi Ltd 帳票作成方法
US5283887A (en) * 1990-12-19 1994-02-01 Bull Hn Information Systems Inc. Automatic document format conversion in an electronic mail system based upon user preference
JPH04284768A (ja) * 1991-03-13 1992-10-09 Ricoh Co Ltd ミクストモード文書作成装置
JPH05108641A (ja) * 1991-10-17 1993-04-30 Fuji Xerox Co Ltd 文書スタイル設計支援装置
US5438657A (en) * 1992-04-24 1995-08-01 Casio Computer Co., Ltd. Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document
US5485369A (en) 1993-09-28 1996-01-16 Tandata Corporation Logistics system for automating tansportation of goods
US5715314A (en) 1994-10-24 1998-02-03 Open Market, Inc. Network sales system
US5608874A (en) * 1994-12-02 1997-03-04 Autoentry Online, Inc. System and method for automatic data file format translation and transmission having advanced features
US5732400A (en) 1995-01-04 1998-03-24 Citibank N.A. System and method for a risk-based purchase of goods
JP3166555B2 (ja) * 1995-04-13 2001-05-14 富士ゼロックス株式会社 文書処理装置
US5708828A (en) * 1995-05-25 1998-01-13 Reliant Data Systems System for converting data from input data environment using first format to output data environment using second format by executing the associations between their fields
US5781914A (en) * 1995-06-30 1998-07-14 Ricoh Company, Ltd. Converting documents, with links to other electronic information, between hardcopy and electronic formats
US5860073A (en) * 1995-07-17 1999-01-12 Microsoft Corporation Style sheets for publishing system
US5963966A (en) * 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
US5956033A (en) * 1995-11-28 1999-09-21 Microsoft Corporation Document control interface and method for graphical message document software
US5778359A (en) * 1996-04-18 1998-07-07 Davox Corporation System and method for determining and verifying a file record format based upon file characteristics

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510253A (ja) * 2000-09-27 2004-04-02 エイゼル・テクノロジーズ・インコーポレーテッド 能力が限られたデバイス上で用いるための電子文書の区分処理
JP2002229915A (ja) * 2001-01-30 2002-08-16 Cognitive Research Laboratories Inc 電子メールへのプログラム配信機能の自動付加システム
US7890855B2 (en) 2001-07-27 2011-02-15 Sap Ag Method and computer system for separating and processing layout information and data of a document
US8037407B2 (en) 2001-07-27 2011-10-11 Sap Ag Method and computer system for creating and processing a browser compliant human interface description
WO2004053724A1 (ja) * 2002-12-06 2004-06-24 Sharp Kabushiki Kaisha データ変換装置、データ変換方法、および、データ変換プログラムを記録した記録媒体
JP2014071552A (ja) * 2012-09-28 2014-04-21 Nec Corp データ形式変換装置、方法、及び、プログラム
WO2014073941A1 (ko) * 2012-11-12 2014-05-15 한국과학기술정보연구원 전자 서식 변환 장치 및 방법
WO2024122858A1 (ko) * 2022-12-05 2024-06-13 김주명 문서 자동변환 및 편집 프로그램
US11966685B1 (en) * 2023-02-24 2024-04-23 Ying Zhang Lu Webpage edition system and method thereof

Also Published As

Publication number Publication date
WO2000020985A9 (en) 2000-09-08
WO2000020985A8 (en) 2000-07-27
WO2000020985A1 (en) 2000-04-13
EP1153350A2 (en) 2001-11-14
US6336124B1 (en) 2002-01-01

Similar Documents

Publication Publication Date Title
JP2002526862A (ja) ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換
US6694053B1 (en) Method and apparatus for performing document structure analysis
US8254681B1 (en) Display of document image optimized for reading
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US20060271847A1 (en) Method and apparatus for determining logical document structure
US20060285746A1 (en) Computer assisted document analysis
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US7310773B2 (en) Removal of extraneous text from electronic documents
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
JPH10228473A (ja) 文書画像処理方法、文書画像処理装置および記憶媒体
JPH0713995A (ja) 自動テキスト特徴決定装置
US20070133067A1 (en) Forming a master page for an electronic document
WO2004090743A2 (en) Enhanced readability with flowed bitmaps
JPH08194697A (ja) ページ記述言語ファイル内に記載された単語を識別する方法及び装置
JP7493937B2 (ja) 文書における見出しのシーケンスの識別方法、プログラム及びシステム
JPH08147446A (ja) 電子ファイリング装置
US20240119218A1 (en) Device dependent rendering of pdf content
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JPH1166196A (ja) 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
US20230046344A1 (en) Systems, Methods, and Devices for a Form Converter
JP7252818B2 (ja) デジタル文書からのデータ抽出システム
JP2004287992A (ja) 文書情報処理装置並びにプログラム

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061107