JP2002526862A - ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換 - Google Patents
ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換Info
- Publication number
- JP2002526862A JP2002526862A JP2000575041A JP2000575041A JP2002526862A JP 2002526862 A JP2002526862 A JP 2002526862A JP 2000575041 A JP2000575041 A JP 2000575041A JP 2000575041 A JP2000575041 A JP 2000575041A JP 2002526862 A JP2002526862 A JP 2002526862A
- Authority
- JP
- Japan
- Prior art keywords
- document
- format
- computer
- block
- implemented method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】
ある入力フォーマット(304)のドキュメントを、異なる出力フォーマットのドキュメントに変換する、コンピュータ(101)で実現される方法(300)が開示される。この方法は、一般に、入力ドキュメント内のデータの位置を確認をする工程、データを、中間フォーマットドキュメント(402)内の1より多い中間フォーマットブロックにグループ分けする工程、および中間フォーマットブロック(518)を用いて、中間フォーマットドキュメントを出力フォーマット(404)ドキュメントに変換する工程を含む。
Description
【0001】 (関連出願) 本出願は、1998年10月1日に出願され、「Processor−Bas
ed Method for Converting and Outputt
ing Digital Data Representing a Docu
ment Image」という名称の米国特許仮出願第60/102、688に
対する優先権を主張し、同特許の全体を参考のため援用する。
ed Method for Converting and Outputt
ing Digital Data Representing a Docu
ment Image」という名称の米国特許仮出願第60/102、688に
対する優先権を主張し、同特許の全体を参考のため援用する。
【0002】 (発明の背景) (1.発明の分野) 本発明は一般的には、1つの形式で格納されている文書を別の形式に変換する
方法に関する。より詳細には、ある形式で格納されている文書画像の画像を表す
デジタルデータを編集および表示用として別の形式に変換するシステムおよび方
法が開示される。
方法に関する。より詳細には、ある形式で格納されている文書画像の画像を表す
デジタルデータを編集および表示用として別の形式に変換するシステムおよび方
法が開示される。
【0003】 (2.関連分野の説明) デジタルコンピュータを用いて、文書中の情報の認識、取得および/または格
納を行う文書画像デジタルデータの自動処理について、活発に研究および商品開
発が行われてきた。例えば、1998年4月7日に発行され、H.Alamに付
与された米国特許第5、737、442号には、文書を表すデジタルコンピュー
タデータから表形式データの認識、取得および格納を行うプロセッサを基本とす
る方法についての開示がある。本明細書中、同特許の開示内容を参考のため援用
する。
納を行う文書画像デジタルデータの自動処理について、活発に研究および商品開
発が行われてきた。例えば、1998年4月7日に発行され、H.Alamに付
与された米国特許第5、737、442号には、文書を表すデジタルコンピュー
タデータから表形式データの認識、取得および格納を行うプロセッサを基本とす
る方法についての開示がある。本明細書中、同特許の開示内容を参考のため援用
する。
【0004】 しかし、多くの他の画像処理に関する研究および商品は、例えば、文書中の情
報を正確、効率的かつ自動的に取得し、変換する取得した文書を表示用として別
の形式に変換することに焦点をあてていない。他の画像処理に関する研究および
商品は、ユーザが手入力または別の場合は再フォーマットを行うことおよび/ま
たは文書の内容を変更することを可能にすることに焦点をあてていない。さらに
、このような画像処理に関する研究および商品は、文書情報の全体または一部を
利用することおよび/または文書を所望の別のレイアウトに再フォーマットする
ために、このような情報をユーザが容易に編集可能な形式に変換することに焦点
をあてていない。ユーザが所望し得るのは、例えば、カット、ペーストにより文
書を編集することおよび/または別の場合は文書を修正または変更して再フォー
マットすることならびに/または文書中の情報を分析および/または別の用途に
全体的にまたは部分的に利用することである。
報を正確、効率的かつ自動的に取得し、変換する取得した文書を表示用として別
の形式に変換することに焦点をあてていない。他の画像処理に関する研究および
商品は、ユーザが手入力または別の場合は再フォーマットを行うことおよび/ま
たは文書の内容を変更することを可能にすることに焦点をあてていない。さらに
、このような画像処理に関する研究および商品は、文書情報の全体または一部を
利用することおよび/または文書を所望の別のレイアウトに再フォーマットする
ために、このような情報をユーザが容易に編集可能な形式に変換することに焦点
をあてていない。ユーザが所望し得るのは、例えば、カット、ペーストにより文
書を編集することおよび/または別の場合は文書を修正または変更して再フォー
マットすることならびに/または文書中の情報を分析および/または別の用途に
全体的にまたは部分的に利用することである。
【0005】 ある形式で格納されている文書を別の形式に変換する、正確かつ効率的なシス
テムおよび方法が必要とされている。このようなシステムおよび方法は好適には
、ある形式で格納されている文書画像の画像を表すデジタルデータを、(例えば
、編集および表示用として)別の形式に変換する。
テムおよび方法が必要とされている。このようなシステムおよび方法は好適には
、ある形式で格納されている文書画像の画像を表すデジタルデータを、(例えば
、編集および表示用として)別の形式に変換する。
【0006】 (発明の要旨) 本発明は、文書(印刷文書またはインターネットウェブページ文書)を表すデ
ジタルデータからデータを抽出する方法を含む。この方法は一般的には、オリジ
ナルの形式または入力形式の文書のデジタルデータから単語を位置確認する工程
と、連結した単語を線に結びつける工程と、単語線をパラグラフとして結びつけ
る工程と、連結したパラグラフから表を位置確認する工程と、これらのパラグラ
フおよび表を中間形式に変換する工程と、この情報を出力形式で出力する工程と
を含む。入力形式および出力形式は、例えば、portable docume
nt format(PDF)、rich text format(RTF)
、スタイルシート付きhypertext markup language(
HTML)形式、表形式HTML、extensible markup la
nguage(XML)、cascading style sheets(C
SS)、ネットスケープレイヤー、リンクされたページおよび別々のページ、T
ag Image File Format(TIFF)、または他のあらゆる
画像形式(例えば、graphics interchange format
(GIF)、ビットマップ(BMP)、またはJoint Photograp
hic Experts Group(JPEG))、テキストおよび/または
画像オーサリングツールまたはアプリケーションによって生成される形式、もし
くは他のあらゆる適切な形式であり得る。
ジタルデータからデータを抽出する方法を含む。この方法は一般的には、オリジ
ナルの形式または入力形式の文書のデジタルデータから単語を位置確認する工程
と、連結した単語を線に結びつける工程と、単語線をパラグラフとして結びつけ
る工程と、連結したパラグラフから表を位置確認する工程と、これらのパラグラ
フおよび表を中間形式に変換する工程と、この情報を出力形式で出力する工程と
を含む。入力形式および出力形式は、例えば、portable docume
nt format(PDF)、rich text format(RTF)
、スタイルシート付きhypertext markup language(
HTML)形式、表形式HTML、extensible markup la
nguage(XML)、cascading style sheets(C
SS)、ネットスケープレイヤー、リンクされたページおよび別々のページ、T
ag Image File Format(TIFF)、または他のあらゆる
画像形式(例えば、graphics interchange format
(GIF)、ビットマップ(BMP)、またはJoint Photograp
hic Experts Group(JPEG))、テキストおよび/または
画像オーサリングツールまたはアプリケーションによって生成される形式、もし
くは他のあらゆる適切な形式であり得る。
【0007】 ある入力形式の文書を別の出力形式の文書に変換するコンピュータを用いた方
法が開示される。この方法は一般的には、入力文書中のデータを位置確認する工
程と、データを中間形式文書中の1つ以上の中間形式ブロックにグループ分けす
る工程と、これらの中間形式ブロックを用いてその中間形式文書を出力形式文書
に変換する工程とを含む。このグループ分け工程は好適には、入力文書中の単語
を位置確認する工程と、線閾値を満足する単語を線に結びつける工程と、パラグ
ラフ閾値を満足する線をパラグラフとして結びつける工程と、表を位置確認する
工程とを含む。このグループ分け工程は、上記工程の代替としてまたは上記工程
に加えて、入力文書中のタグ(すなわち制御文字)を位置確認し、そのタグを用
いて単語を位置確認する工程と、単語を線に結びつける工程と、これらの線をパ
ラグラフとして結びつける工程と、表を位置確認する工程とを含み得る。各中間
形式ブロックは、単語、線、パラグラフ、表、および画像から選択され得る。
法が開示される。この方法は一般的には、入力文書中のデータを位置確認する工
程と、データを中間形式文書中の1つ以上の中間形式ブロックにグループ分けす
る工程と、これらの中間形式ブロックを用いてその中間形式文書を出力形式文書
に変換する工程とを含む。このグループ分け工程は好適には、入力文書中の単語
を位置確認する工程と、線閾値を満足する単語を線に結びつける工程と、パラグ
ラフ閾値を満足する線をパラグラフとして結びつける工程と、表を位置確認する
工程とを含む。このグループ分け工程は、上記工程の代替としてまたは上記工程
に加えて、入力文書中のタグ(すなわち制御文字)を位置確認し、そのタグを用
いて単語を位置確認する工程と、単語を線に結びつける工程と、これらの線をパ
ラグラフとして結びつける工程と、表を位置確認する工程とを含み得る。各中間
形式ブロックは、単語、線、パラグラフ、表、および画像から選択され得る。
【0008】 各入力形式および出力形式は、portable document for
mat(PDF)、rich text format(RTF)、hyper
text markup language(HTML)、extensibl
e markup language(XML)、cascading sty
le sheets(CSS)、ネットスケープレイヤー、リンクされたページ
および別々のページ、Tag Image File Format(TIFF
)、graphics interchange format(GIF)、ビ
ットマップ(BMP)、Joint Photographic Expert
s Group(JPEG)、MICROSOFT WORDTM、WORD P
ERFECTTM、AUTOCADTM、およびPOWER POINTTMであり得
る。
mat(PDF)、rich text format(RTF)、hyper
text markup language(HTML)、extensibl
e markup language(XML)、cascading sty
le sheets(CSS)、ネットスケープレイヤー、リンクされたページ
および別々のページ、Tag Image File Format(TIFF
)、graphics interchange format(GIF)、ビ
ットマップ(BMP)、Joint Photographic Expert
s Group(JPEG)、MICROSOFT WORDTM、WORD P
ERFECTTM、AUTOCADTM、およびPOWER POINTTMであり得
る。
【0009】 1つの実施形態において、入力文書はネットワークを介して受け取られ、出力
文書はネットワークを介して送られる。このネットワークは、例えば、電子メー
ルを介したインターネットまたはイントラネットであり得る。入力文書の標題は
、その標題を含むリンク目次ページを生成するように配置され得、各目次の標題
は、出力文書中の標題へのリンクを含み、目次ページは出力文書内に配置される
。
文書はネットワークを介して送られる。このネットワークは、例えば、電子メー
ルを介したインターネットまたはイントラネットであり得る。入力文書の標題は
、その標題を含むリンク目次ページを生成するように配置され得、各目次の標題
は、出力文書中の標題へのリンクを含み、目次ページは出力文書内に配置される
。
【0010】 別の実施形態において、1つの出力形式を表示用として選択するためにコンピ
ュータで実行可能なプログラム(例えば、JAVATMスクリプト)が生成され得
、このプログラムは、出力文書に挿入される。
ュータで実行可能なプログラム(例えば、JAVATMスクリプト)が生成され得
、このプログラムは、出力文書に挿入される。
【0011】 本発明の方法は、コンピュータで読み出し可能なもの(例えば、CD−ROM
、ジップディスク、フロッピーディスク、テープ、フラッシュメモリ、システム
メモリ、ハードドライブ、および搬送波で実施されるデータ信号)に格納される
コンピュータコードによって実施され得る。
、ジップディスク、フロッピーディスク、テープ、フラッシュメモリ、システム
メモリ、ハードドライブ、および搬送波で実施されるデータ信号)に格納される
コンピュータコードによって実施され得る。
【0012】 出力文書の表示は、例えば、文書中にサブ改ページを配置し、サブ改ページを
用いてその文書をサブページに細分化し、各サブページ内にブロックを配置し、
サブページのブロックの全体または一部を、表示構成の表示パラメータ内で連続
的に表示することにより行われ得る。表は、分割され得、これにより1つ以上の
表示ページに表示される。リンク付き目次および/またはリンク付きインデック
スも生成され得る。
用いてその文書をサブページに細分化し、各サブページ内にブロックを配置し、
サブページのブロックの全体または一部を、表示構成の表示パラメータ内で連続
的に表示することにより行われ得る。表は、分割され得、これにより1つ以上の
表示ページに表示される。リンク付き目次および/またはリンク付きインデック
スも生成され得る。
【0013】 別の実施形態において、入力文書のレポジトリを1つ以上の格納形式で保持す
るために、変換器がコンピュータプログラム製品に取り入れられる。目次および
/またはインデックスも生成され得る。
るために、変換器がコンピュータプログラム製品に取り入れられる。目次および
/またはインデックスも生成され得る。
【0014】 (好適な実施形態の詳細な説明) 本発明は、オリジナルの形式または入力形式の印刷文書の画像を表すデジタル
データを、別の出力形式に変換するシステムおよび方法を含む。以下の記載は、
当業者であれば誰でも本発明の作製および使用が可能となるように提示される。
特定の用途の説明は、例示のためだけに提供される。好適な実施形態の様々な改
変は、当業者にとって容易に明らかである。本明細書中に定義されている一般的
原理は、本発明の精神および範囲を逸脱することなく他の実施形態および用途に
適用され得る。従って、本発明は、記載の実施形態に限定されることを意図せず
、本明細書中に開示されている原理および機能に従った最も広い範囲を与えられ
る。
データを、別の出力形式に変換するシステムおよび方法を含む。以下の記載は、
当業者であれば誰でも本発明の作製および使用が可能となるように提示される。
特定の用途の説明は、例示のためだけに提供される。好適な実施形態の様々な改
変は、当業者にとって容易に明らかである。本明細書中に定義されている一般的
原理は、本発明の精神および範囲を逸脱することなく他の実施形態および用途に
適用され得る。従って、本発明は、記載の実施形態に限定されることを意図せず
、本明細書中に開示されている原理および機能に従った最も広い範囲を与えられ
る。
【0015】 図1は、本発明の実施形態のソフトウェアを実行するために用いられ得るコン
ピュータシステム101の一例を示す。図1は、ディスプレイ103、画面10
5、キャビネット107、キーボード109およびマウス111を含むコンピュ
ータシステム101を示す。マウス111は、グラフィカルユーザインターフェ
ースとインタラクトするためのボタンを1つ以上有し得る。キャビネット107
は、CD−ROM、ジップ、および/またはフロッピーディスクドライブ113
、システムメモリならびにハードドライブ(図2を参照)を収容し、これらは、
本発明を実施するコンピュータコードを取り入れたソフトウェアプログラム、本
発明において用いられるデータ等を格納および検索する際に用いられ得る。CD
−ROM、ジップおよびフロッピーディスク115をコンピュータで読み出し可
能な格納媒体の例として図示しているが、別のコンピュータで読み出し可能な格
納媒体(例えば、テープ、フラッシュメモリ、システムメモリ、およびハードド
ライブ等)が用いられ得る。さらに、インターネットまたはイントラネット等の
ネットワークにおいて搬送波として実現されるデータ信号が、コンピュータ読み
出し可能な格納媒体であり得る。
ピュータシステム101の一例を示す。図1は、ディスプレイ103、画面10
5、キャビネット107、キーボード109およびマウス111を含むコンピュ
ータシステム101を示す。マウス111は、グラフィカルユーザインターフェ
ースとインタラクトするためのボタンを1つ以上有し得る。キャビネット107
は、CD−ROM、ジップ、および/またはフロッピーディスクドライブ113
、システムメモリならびにハードドライブ(図2を参照)を収容し、これらは、
本発明を実施するコンピュータコードを取り入れたソフトウェアプログラム、本
発明において用いられるデータ等を格納および検索する際に用いられ得る。CD
−ROM、ジップおよびフロッピーディスク115をコンピュータで読み出し可
能な格納媒体の例として図示しているが、別のコンピュータで読み出し可能な格
納媒体(例えば、テープ、フラッシュメモリ、システムメモリ、およびハードド
ライブ等)が用いられ得る。さらに、インターネットまたはイントラネット等の
ネットワークにおいて搬送波として実現されるデータ信号が、コンピュータ読み
出し可能な格納媒体であり得る。
【0016】 図2は、本発明の実施形態のソフトウェアを実行するために用いられるコンピ
ュータシステム101のシステムブロック図である。図1に示すように、コンピ
ュータシステム101は、モニター103と、キーボード109と、マウス11
1とを含む。コンピュータシステム101は、サブシステム(例えば、中央プロ
セッサ151、システムメモリ153、固定格納部155(例えば、ハードドラ
イブおよびランダムアクセスメモリ)、リムーバブル格納部157(例えば、C
D−ROM、ジップまたはフロッピーディスクドライブ)、表示アダプター15
9、サウンドカード161、スピーカ163、ネットワークインターフェース1
65、ならびにプリンタ、ファックス、および/またはスキャナーインターフェ
ース167をさらに含む。本発明による使用に適した他のコンピュータシステム
は、さらに多くのまたはさらに少数のサブシステムを含み得る。例えば、別のコ
ンピュータシステムは、1つ以上のプロセッサ151(例えば、マルチプロセッ
サシステム)またはキャッシュメモリを含み得る。
ュータシステム101のシステムブロック図である。図1に示すように、コンピ
ュータシステム101は、モニター103と、キーボード109と、マウス11
1とを含む。コンピュータシステム101は、サブシステム(例えば、中央プロ
セッサ151、システムメモリ153、固定格納部155(例えば、ハードドラ
イブおよびランダムアクセスメモリ)、リムーバブル格納部157(例えば、C
D−ROM、ジップまたはフロッピーディスクドライブ)、表示アダプター15
9、サウンドカード161、スピーカ163、ネットワークインターフェース1
65、ならびにプリンタ、ファックス、および/またはスキャナーインターフェ
ース167をさらに含む。本発明による使用に適した他のコンピュータシステム
は、さらに多くのまたはさらに少数のサブシステムを含み得る。例えば、別のコ
ンピュータシステムは、1つ以上のプロセッサ151(例えば、マルチプロセッ
サシステム)またはキャッシュメモリを含み得る。
【0017】 矢印169は、コンピュータシステム101のシステムバスアーキテクチャを
示す。しかし、これらの矢印は、サブシステムをリンク接続する働きをする任意
の相互接続方式の一例である。例えば、中央プロセッサをシステムメモリおよび
表示アダプターに接続するために、ローカルバスが用いられ得る。図2に示すコ
ンピュータシステム101は、本発明による使用に適切なコンピュータシステム
の一例に過ぎない。異なる構成のサブシステムを有する別のコンピュータアーキ
テクチャも用いられ得る。
示す。しかし、これらの矢印は、サブシステムをリンク接続する働きをする任意
の相互接続方式の一例である。例えば、中央プロセッサをシステムメモリおよび
表示アダプターに接続するために、ローカルバスが用いられ得る。図2に示すコ
ンピュータシステム101は、本発明による使用に適切なコンピュータシステム
の一例に過ぎない。異なる構成のサブシステムを有する別のコンピュータアーキ
テクチャも用いられ得る。
【0018】 図3は、文書を表すデータをオリジナルの入力形式から別の出力形式に変換す
る方法300を示すフロー図である。変換方法300は、工程302において入
力データを受け取る工程を含む。この入力データを受け取る工程は、コンピュー
タ読み出し可能な格納媒体(例えば、上記にて挙げたようなCD−ROM、ジッ
プ、フロッピーディスク、テープ、フラッシュメモリ、システムメモリ、ハード
ドライブ、搬送波として実施されるデータ信号等)からデータを受け取るかまた
は読み出すことにより、達成され得る。搬送波として実施されるデータ信号は、
ネットワーク(例えば、インターネットまたはイントラネット)内の搬送波また
はコンピュータポート(例えば、パラレルバス、シリアルバス、またはユニバー
サルシリアルバス(USB)プリンタポート)を介して配信される搬送波(例え
ば、ファックス機器および/またはスキャナを介して配信されるデータ信号)で
あり得る。
る方法300を示すフロー図である。変換方法300は、工程302において入
力データを受け取る工程を含む。この入力データを受け取る工程は、コンピュー
タ読み出し可能な格納媒体(例えば、上記にて挙げたようなCD−ROM、ジッ
プ、フロッピーディスク、テープ、フラッシュメモリ、システムメモリ、ハード
ドライブ、搬送波として実施されるデータ信号等)からデータを受け取るかまた
は読み出すことにより、達成され得る。搬送波として実施されるデータ信号は、
ネットワーク(例えば、インターネットまたはイントラネット)内の搬送波また
はコンピュータポート(例えば、パラレルバス、シリアルバス、またはユニバー
サルシリアルバス(USB)プリンタポート)を介して配信される搬送波(例え
ば、ファックス機器および/またはスキャナを介して配信されるデータ信号)で
あり得る。
【0019】 次いで、方法300は、工程304において、入力データが入力形式としてサ
ポートされている形式であるかどうかを判定する。サポート入力形式は好適には
、出力形式として利用可能なものと同一であるが、入力形式は、より少数、より
多数または出力形式を部分的に組み合せたあらゆる組み合せを含み得る。例えば
、特定の状況において、多くの異なる入力形式をサポートまたは可能にする一方
で、1つの特定の出力形式のみを可能にすることが望ましい場合があり得る。サ
ポート入力形式および/または出力形式は、1つ以上のバージョンのHTML、
XML、PDF、RTF、CSS、ネットスケープレイヤー、リンクされたペー
ジおよび別々のページ、Tag Image File Format(TIF
F)または他のあらゆる画像形式、テキストおよび/または画像オーサリングツ
ールまたはアプリケーションによって生成される形式、もしくは他のあらゆる適
切な形式を含み得る。
ポートされている形式であるかどうかを判定する。サポート入力形式は好適には
、出力形式として利用可能なものと同一であるが、入力形式は、より少数、より
多数または出力形式を部分的に組み合せたあらゆる組み合せを含み得る。例えば
、特定の状況において、多くの異なる入力形式をサポートまたは可能にする一方
で、1つの特定の出力形式のみを可能にすることが望ましい場合があり得る。サ
ポート入力形式および/または出力形式は、1つ以上のバージョンのHTML、
XML、PDF、RTF、CSS、ネットスケープレイヤー、リンクされたペー
ジおよび別々のページ、Tag Image File Format(TIF
F)または他のあらゆる画像形式、テキストおよび/または画像オーサリングツ
ールまたはアプリケーションによって生成される形式、もしくは他のあらゆる適
切な形式を含み得る。
【0020】 工程304において入力データが入力形式としてサポートされる形式であると
判定されると、その入力データは、工程306において、オリジナルの入力形式
と異なる1つ以上の出力形式に変換される。これらの1つ以上の出力形式は、ユ
ーザによって指定され得、1つ以上の出力形式の全ては、方法300によってサ
ポートされ、かつ/または変換されたデータ出力の出力先のアプリケーションま
たはデバイスに基づいて決定される。例えば、出力デバイスは、方法300によ
ってサポートされる1つ以上の出力形式をサポートするポータブルデジタルアシ
スタント(PDA)であり得る。
判定されると、その入力データは、工程306において、オリジナルの入力形式
と異なる1つ以上の出力形式に変換される。これらの1つ以上の出力形式は、ユ
ーザによって指定され得、1つ以上の出力形式の全ては、方法300によってサ
ポートされ、かつ/または変換されたデータ出力の出力先のアプリケーションま
たはデバイスに基づいて決定される。例えば、出力デバイスは、方法300によ
ってサポートされる1つ以上の出力形式をサポートするポータブルデジタルアシ
スタント(PDA)であり得る。
【0021】 あるいは、工程304において、入力データが入力形式としてサポートされて
いない形式であると判定された場合、方法300は、入力データを変換せずに終
了する。方法300はまた、入力データが入力形式としてサポートされていない
形式であることを示すエラーメッセージも出力し得る。
いない形式であると判定された場合、方法300は、入力データを変換せずに終
了する。方法300はまた、入力データが入力形式としてサポートされていない
形式であることを示すエラーメッセージも出力し得る。
【0022】 図4は、入力データを異なる出力形式に変換する工程306の実施形態を示す
フロー図である。工程306は、工程402において入力データを中間形式に変
換する工程を含む。次いで、この中間形式は、工程404において出力データを
1つ以上の出力形式で生成するために用いられる。
フロー図である。工程306は、工程402において入力データを中間形式に変
換する工程を含む。次いで、この中間形式は、工程404において出力データを
1つ以上の出力形式で生成するために用いられる。
【0023】 図5および6は、文書を表すデータを別の出力形式に変換する工程の実施形態
を示す模式図である。図5は、文書を表すデータを中間形式に変換し、次いで別
の出力形式に変換する工程を示し、図6は、文書を表すデータをPDFに変換し
、次いで中間形式に変換し、最後に別の出力形式に変換する工程を示す。
を示す模式図である。図5は、文書を表すデータを中間形式に変換し、次いで別
の出力形式に変換する工程を示し、図6は、文書を表すデータをPDFに変換し
、次いで中間形式に変換し、最後に別の出力形式に変換する工程を示す。
【0024】 図5に示すように、文書502はスキャナー504によってスキャンされ、ま
たは、ファックス506はファックス機器508によって受け取られる。スキャ
ナー504およびファックス機器508の各々は、文書502の画像を表すデー
タ510を光学式文字読取(OCR)アプリケーション526に出力する。OC
Rアプリケーションソフトウェアは、当該分野で公知であり、市販品として入手
可能である。OCRアプリケーション526は、文書502またはファックス5
06の画像を表す文書画像データ510を、テキスト/画像オーサリングツール
によって生成される形式のような形式の文書518に変換する。
たは、ファックス506はファックス機器508によって受け取られる。スキャ
ナー504およびファックス機器508の各々は、文書502の画像を表すデー
タ510を光学式文字読取(OCR)アプリケーション526に出力する。OC
Rアプリケーションソフトウェアは、当該分野で公知であり、市販品として入手
可能である。OCRアプリケーション526は、文書502またはファックス5
06の画像を表す文書画像データ510を、テキスト/画像オーサリングツール
によって生成される形式のような形式の文書518に変換する。
【0025】 あるいは、テキストおよび/または画像オーサリングツール516は、テキス
トおよび/または画像文書518を作成するために用いられ得る。テキストおよ
び/または画像オーサリングツール516は、例えば、任意の単語処理アプリケ
ーション(例えば、MICROSOFT WORDTM、WORD PERFEC
TTM等)、任意のテキストおよびドローイングオーサリングアプリケーション(
例えば、AUTOCADTM、POWER POINTTM等)および/または他の
あらゆる適切なテキストおよび/または画像オーサリングツールであり得る。テ
キスト/画像文書518は、テキストおよび/または画像文書518を中間形式
文書530に変換する文書変換器528に出力される。変換器528は本質的に
は文書翻訳器であり、例えば、プリンタドライブに組み込まれ得、これにより、
ソース(例えば、スキャナーまたはファックス機器)から受け取られたデータは
、中間形式の文書に直接変換され得る。
トおよび/または画像文書518を作成するために用いられ得る。テキストおよ
び/または画像オーサリングツール516は、例えば、任意の単語処理アプリケ
ーション(例えば、MICROSOFT WORDTM、WORD PERFEC
TTM等)、任意のテキストおよびドローイングオーサリングアプリケーション(
例えば、AUTOCADTM、POWER POINTTM等)および/または他の
あらゆる適切なテキストおよび/または画像オーサリングツールであり得る。テ
キスト/画像文書518は、テキストおよび/または画像文書518を中間形式
文書530に変換する文書変換器528に出力される。変換器528は本質的に
は文書翻訳器であり、例えば、プリンタドライブに組み込まれ得、これにより、
ソース(例えば、スキャナーまたはファックス機器)から受け取られたデータは
、中間形式の文書に直接変換され得る。
【0026】 中間形式文書530は、変換器532によって受け取られ、この変換器532
は、中間形式文書530をある出力形式文書534に変換する。出力形式は、例
えばHTMLまたはXMLであり得、出力形式文書534は、出力アプリケーシ
ョンまたは出力デバイス(例えば、INTERNET EXPLORERTMまた
はNETSCAPETM等)に出力され得る。この文書を中間形式に変換する工程
について、図7−10を参照しながらより詳細に説明する。
は、中間形式文書530をある出力形式文書534に変換する。出力形式は、例
えばHTMLまたはXMLであり得、出力形式文書534は、出力アプリケーシ
ョンまたは出力デバイス(例えば、INTERNET EXPLORERTMまた
はNETSCAPETM等)に出力され得る。この文書を中間形式に変換する工程
について、図7−10を参照しながらより詳細に説明する。
【0027】 図6に示す別の実施形態において、文書画像510およびテキストおよび/ま
たは画像文書518が、ACROBAT CAPTURETMアプリケーションソ
フトウェア612AおよびACROBAT WRITERTMアプリケーションソ
フトウェア612Bにそれぞれ入力され、これらのアプリケーションはそれぞれ
PDF文書626を出力する。アプリケーションプログラムACROBAT C
APTURETMおよびACROBAT WRITERTMは、Adobe Sys
temsから市販されているソフトウェア商品である。PDF文書626は、変
換器628によって受け取られ、変換器628は、このPDF文書を中間形式文
書530に変換する。この中間形式文書は、変換器532に出力され、この変換
器532は、中間形式文書530を出力形式文書534に変換する。上述したよ
うに、出力形式は、例えば、HTMLまたはXMLであり得、出力形式文書53
4は、出力アプリケーションまたは出力デバイス(例えば、INTERNET
EXPLORERTMまたはNETSCAPETM)に出力され得る。
たは画像文書518が、ACROBAT CAPTURETMアプリケーションソ
フトウェア612AおよびACROBAT WRITERTMアプリケーションソ
フトウェア612Bにそれぞれ入力され、これらのアプリケーションはそれぞれ
PDF文書626を出力する。アプリケーションプログラムACROBAT C
APTURETMおよびACROBAT WRITERTMは、Adobe Sys
temsから市販されているソフトウェア商品である。PDF文書626は、変
換器628によって受け取られ、変換器628は、このPDF文書を中間形式文
書530に変換する。この中間形式文書は、変換器532に出力され、この変換
器532は、中間形式文書530を出力形式文書534に変換する。上述したよ
うに、出力形式は、例えば、HTMLまたはXMLであり得、出力形式文書53
4は、出力アプリケーションまたは出力デバイス(例えば、INTERNET
EXPLORERTMまたはNETSCAPETM)に出力され得る。
【0028】 中間形式は好適には、文書内容を表すデータを任意の別の所望の出力形式に転
送するために容易に用いられ得る形式である。中間形式は本質的には、文書翻訳
器として働く。中間形式文書は好適には、文字、文字のフォント(イタリックを
含む)、サイズ、太さ(weights)(ボールドまたは普通の太さ)、下線
、および文書内の位置等の情報を含む。中間形式文書は好適には、文字情報を単
語、線、パラグラフ、および/または表にグループ分けする。各グループは、中
間形式ブロックとして中間形式文書に格納される。中間形式ブロックはまた、画
像もしくは他のグループ分けまたはブロック化された入力文書部分も格納し得る
。中間形式はまた好適には、入力文書に含まれるブックマーク、文書リンク、ラ
スター画像およびベクトル画像上の情報を維持する。さらに、中間形式は好適に
は、あらゆる埋め込みアニメーション、音声および/または音楽に加えて、他の
アプリケーションを開始するためのリンクの実行を維持または転送する。例えば
、中間形式は、中間形式ブロックをX座標およびY座標形式にしたリスト項目で
あり得る。
送するために容易に用いられ得る形式である。中間形式は本質的には、文書翻訳
器として働く。中間形式文書は好適には、文字、文字のフォント(イタリックを
含む)、サイズ、太さ(weights)(ボールドまたは普通の太さ)、下線
、および文書内の位置等の情報を含む。中間形式文書は好適には、文字情報を単
語、線、パラグラフ、および/または表にグループ分けする。各グループは、中
間形式ブロックとして中間形式文書に格納される。中間形式ブロックはまた、画
像もしくは他のグループ分けまたはブロック化された入力文書部分も格納し得る
。中間形式はまた好適には、入力文書に含まれるブックマーク、文書リンク、ラ
スター画像およびベクトル画像上の情報を維持する。さらに、中間形式は好適に
は、あらゆる埋め込みアニメーション、音声および/または音楽に加えて、他の
アプリケーションを開始するためのリンクの実行を維持または転送する。例えば
、中間形式は、中間形式ブロックをX座標およびY座標形式にしたリスト項目で
あり得る。
【0029】 各中間形式ブロックは、表の構成要素のスペーシングに応じて、画像、パラグ
ラフ、表の構成要素、または表の全体または一部分であり得る。中間形式で格納
された情報は、所望の出力形式への変換が容易である。
ラフ、表の構成要素、または表の全体または一部分であり得る。中間形式で格納
された情報は、所望の出力形式への変換が容易である。
【0030】 ここまでは中間形式への変換プロセスの全体を説明してきたが、ここからは、
変換プロセスの詳細について説明する。図7は、文書画像からデータを抽出し、
抽出したデータを中間形式に変換する工程402の実施形態を示すフロー図を示
す。工程402は、入力形式文書中のタグの位置確認および格納を行う工程70
0と、デジタルデータから単語を位置確認する工程702と、位置確認した単語
を線に結びつける工程704と、連結した単語線をパラグラフとして結びつける
工程706と、連結したパラグラフから表を位置確認する工程708と、工程7
02、704、706、および708から生成された中間形式データを出力する
工程710とを含む。工程702、704、706、および708のそれぞれの
詳細について以下に説明する。
変換プロセスの詳細について説明する。図7は、文書画像からデータを抽出し、
抽出したデータを中間形式に変換する工程402の実施形態を示すフロー図を示
す。工程402は、入力形式文書中のタグの位置確認および格納を行う工程70
0と、デジタルデータから単語を位置確認する工程702と、位置確認した単語
を線に結びつける工程704と、連結した単語線をパラグラフとして結びつける
工程706と、連結したパラグラフから表を位置確認する工程708と、工程7
02、704、706、および708から生成された中間形式データを出力する
工程710とを含む。工程702、704、706、および708のそれぞれの
詳細について以下に説明する。
【0031】 (工程700:入力形式文書中のタグの位置確認および格納) 特定の形式の文書テキスト表示物(例えば、WORDTM)は、タグ(または制
御文字)を含み得る。このプロセスでは、まず最初に、入力文書の入力形式(例
えば、WORDTM)を認識し得る。入力文書のタグが認識可能な場合、その入力
形式または入力タイプ用のタグ辞書を用いて、位置確認したタグが中間形式に翻
訳され得る。
御文字)を含み得る。このプロセスでは、まず最初に、入力文書の入力形式(例
えば、WORDTM)を認識し得る。入力文書のタグが認識可能な場合、その入力
形式または入力タイプ用のタグ辞書を用いて、位置確認したタグが中間形式に翻
訳され得る。
【0032】 各タグは、文書の特定部分と関連付けられ得る。タグは通常は、特定部分につ
いての情報(例えば、標題、表、パラグラフまたはリストとしての識別情報およ
び/またはアライメント、フォント等の他の情報)を含む。したがって、工程7
00では、タグが少しでも有る場合はタグおよびタグ中の関連情報を位置確認お
よび格納する。タグは、完全または不完全なタグであり得、文書の特定部分につ
いての完全な情報は提供しない。タグは、後続工程(例えば、工程702、70
4、706および708)の実行を容易にするために用いられ得る。このような
後続工程の結果がタグ中の情報と矛盾する場合、好適には、後続工程からの結果
がタグ中の情報に優先するかまたは取って代わる。言い換えれば、タグは好適に
は、基準線またはデフォルト結果または設定として用いられる。あるいは、タグ
が完全な場合、このプロセスは、工程702、704、706および708を迂
回する。
いての情報(例えば、標題、表、パラグラフまたはリストとしての識別情報およ
び/またはアライメント、フォント等の他の情報)を含む。したがって、工程7
00では、タグが少しでも有る場合はタグおよびタグ中の関連情報を位置確認お
よび格納する。タグは、完全または不完全なタグであり得、文書の特定部分につ
いての完全な情報は提供しない。タグは、後続工程(例えば、工程702、70
4、706および708)の実行を容易にするために用いられ得る。このような
後続工程の結果がタグ中の情報と矛盾する場合、好適には、後続工程からの結果
がタグ中の情報に優先するかまたは取って代わる。言い換えれば、タグは好適に
は、基準線またはデフォルト結果または設定として用いられる。あるいは、タグ
が完全な場合、このプロセスは、工程702、704、706および708を迂
回する。
【0033】 別の特定の形式の文書(例えば、PDF)は、タグを含まない。このような場
合、後続工程(例えば、工程702、704、706および708)からの結果
を用いて、通常タグ内に含まれている情報を取得する。後続工程では、文書テキ
ストのレイアウト情報(すなわち、画像表示物)を用いて、例えば単語、線、パ
ラグラフおよび表等を配置する。
合、後続工程(例えば、工程702、704、706および708)からの結果
を用いて、通常タグ内に含まれている情報を取得する。後続工程では、文書テキ
ストのレイアウト情報(すなわち、画像表示物)を用いて、例えば単語、線、パ
ラグラフおよび表等を配置する。
【0034】 (工程702:入力形式文書中の単語の位置確認) 工程702において文書画像を表すデジタルデータから単語を位置確認する際
、デジタルコンピュータは、入力形式のデジタルデータにより提供される各単語
情報を用いる。オリジナルの入力形式のデジタルデータにより提供される情報は
、例えば、ページに対して単語の左上および右下にあるX座標およびY座標なら
びに単語のフォントを含み得る。フォント情報は、スタイル情報、サイズ情報、
太さ(ボールドまたは非ボールド)情報、ストローク(イタリックまたは非イタ
リック)および単語の方向付けを含む。説明目的のみのため、横長方向または縦
長方向のいずれかにおいてX軸がページの幅(水平方向)に沿って伸びていると
仮定し、Y軸がページの長さ(垂直方向)にそって伸びていると仮定する。次い
で、個々の単語は、そのX座標およびY座標によって選別され、好適には、最初
にY座標によって垂直方向に、次いでX座標によって水平方向に選別される。し
かし、単語を選別する正確な方法は異なり得る。
、デジタルコンピュータは、入力形式のデジタルデータにより提供される各単語
情報を用いる。オリジナルの入力形式のデジタルデータにより提供される情報は
、例えば、ページに対して単語の左上および右下にあるX座標およびY座標なら
びに単語のフォントを含み得る。フォント情報は、スタイル情報、サイズ情報、
太さ(ボールドまたは非ボールド)情報、ストローク(イタリックまたは非イタ
リック)および単語の方向付けを含む。説明目的のみのため、横長方向または縦
長方向のいずれかにおいてX軸がページの幅(水平方向)に沿って伸びていると
仮定し、Y軸がページの長さ(垂直方向)にそって伸びていると仮定する。次い
で、個々の単語は、そのX座標およびY座標によって選別され、好適には、最初
にY座標によって垂直方向に、次いでX座標によって水平方向に選別される。し
かし、単語を選別する正確な方法は異なり得る。
【0035】 (工程704:単語を線に結びつける) 図8は、位置確認され、選別された単語を線に結びつける工程704を示すフ
ロー図を示す。位置確認され、選別された単語を線に結びつけるために、工程8
02において、選別された単語のリストからの第1の単語が第1の線に割り当て
られる。この第1の線は、現在線として規定され得る。次いで、工程804にお
いて、次の単語が取り出しまたは選択される。
ロー図を示す。位置確認され、選別された単語を線に結びつけるために、工程8
02において、選別された単語のリストからの第1の単語が第1の線に割り当て
られる。この第1の線は、現在線として規定され得る。次いで、工程804にお
いて、次の単語が取り出しまたは選択される。
【0036】 工程806において、選択された単語が現在線内にあるかどうかが判定される
。選択された単語が現在線内にあるかどうかが判定するために、選択単語の適切
なY座標(単数または複数)(すなわち、垂直方向)と、現在線内の先行単語の
適切なY座標(単数または複数)とを比較して、特定の線パラメータおよび/ま
たは閾値を満たすかどうかを判定する。例えば、選択単語の上部Y座標と現在線
内の先行単語の上部Y座標とを比較し得、これによりY方向の単語間スペーシン
グを判定する。単語間スペーシングまたはY方向の距離が閾値(例えば、平均文
字高さの10%)を越える場合、Y方向の単語間スペーシングパラメータを満足
しない結果となり、その単語は、現在線内に収まっていないと判定される。平均
文字高さは、例えば、現在線内の単語または文書中の全単語から判定され得る。
工程806では、他の適切な比較および/または分析が為され得、これにより、
選択単語が現在線内にあるかどうかを判定する。
。選択された単語が現在線内にあるかどうかが判定するために、選択単語の適切
なY座標(単数または複数)(すなわち、垂直方向)と、現在線内の先行単語の
適切なY座標(単数または複数)とを比較して、特定の線パラメータおよび/ま
たは閾値を満たすかどうかを判定する。例えば、選択単語の上部Y座標と現在線
内の先行単語の上部Y座標とを比較し得、これによりY方向の単語間スペーシン
グを判定する。単語間スペーシングまたはY方向の距離が閾値(例えば、平均文
字高さの10%)を越える場合、Y方向の単語間スペーシングパラメータを満足
しない結果となり、その単語は、現在線内に収まっていないと判定される。平均
文字高さは、例えば、現在線内の単語または文書中の全単語から判定され得る。
工程806では、他の適切な比較および/または分析が為され得、これにより、
選択単語が現在線内にあるかどうかを判定する。
【0037】 工程806において、選択単語が現在線内にないと判定された場合、工程80
8において、その単語が既存線(すなわち、1つ以上の単語が割り当てられた線
)内にあるかどうかが判定される。この工程は、工程806に関連して上述した
分析と同様の分析を用いて判定され得る。例えば、上方および/または下方Y座
標が各既存線に割り当てられている場合、選択単語の上方および/または下方Y
座標があらゆる他の既存線の上方および/または下方Y座標の上または下の閾値
距離内にあるかどうかが判定され得る。線の閾値距離は、例えば、平均文字高さ
の10%であり得る。あるいは、選択単語上方および/または下方Y座標が、残
りの既存線上の1つ以上の単語の上方および/または下方Y座標の上または下の
閾値距離内にあるかどうかが判定され得る。このY座標を比較する工程は、残り
の既存線を調べ終えるまでまたは選択単語が既存線内にあると判定されるまで、
残りの既存線の各々について繰り返される。選択単語が既存線内にあると判定さ
れると、工程809において、その既存線は現在線として規定される。
8において、その単語が既存線(すなわち、1つ以上の単語が割り当てられた線
)内にあるかどうかが判定される。この工程は、工程806に関連して上述した
分析と同様の分析を用いて判定され得る。例えば、上方および/または下方Y座
標が各既存線に割り当てられている場合、選択単語の上方および/または下方Y
座標があらゆる他の既存線の上方および/または下方Y座標の上または下の閾値
距離内にあるかどうかが判定され得る。線の閾値距離は、例えば、平均文字高さ
の10%であり得る。あるいは、選択単語上方および/または下方Y座標が、残
りの既存線上の1つ以上の単語の上方および/または下方Y座標の上または下の
閾値距離内にあるかどうかが判定され得る。このY座標を比較する工程は、残り
の既存線を調べ終えるまでまたは選択単語が既存線内にあると判定されるまで、
残りの既存線の各々について繰り返される。選択単語が既存線内にあると判定さ
れると、工程809において、その既存線は現在線として規定される。
【0038】 工程806において選択単語が現在線内にあると判定されるか、もしくは、工
程809において別の既存線が現在線として設定された後、工程810において
、選択単語が特定の閾値距離または閾値スペーシング内にあるかどうかを判定す
る。例えば、現在選択単語の適切なX座標と、現在線内の先行単語の適切なX座
標とを比較して、これらのX(水平)方向の単語間の距離が閾値距離内にあるか
どうかを判定する。詳細には、選択単語の左上X座標と、左端および/または右
端単語の右下X座標とが比較され得、これにより、X方向の単語間のスペーシン
グを判定する。X方向の単語間スペーシングが閾値距離(例えば、文字幅の2.
5倍または平均文字幅の2.5倍)を上回る場合、この単語間スペーシング閾値
を上回る結果となり、選択単語は、現在線内に存在しないと判定される。X方向
の閾値単語間スペーシングは、単語間スペーシングの統計結果であり、動的に判
定され得る。ページ上のほぼ同一の垂直位置に配置されている2つの単語は、同
一線上に存在しない場合(例えば、単語がカラム間のスペーシングで異なるカラ
ムに配置されている場合等)がある。
程809において別の既存線が現在線として設定された後、工程810において
、選択単語が特定の閾値距離または閾値スペーシング内にあるかどうかを判定す
る。例えば、現在選択単語の適切なX座標と、現在線内の先行単語の適切なX座
標とを比較して、これらのX(水平)方向の単語間の距離が閾値距離内にあるか
どうかを判定する。詳細には、選択単語の左上X座標と、左端および/または右
端単語の右下X座標とが比較され得、これにより、X方向の単語間のスペーシン
グを判定する。X方向の単語間スペーシングが閾値距離(例えば、文字幅の2.
5倍または平均文字幅の2.5倍)を上回る場合、この単語間スペーシング閾値
を上回る結果となり、選択単語は、現在線内に存在しないと判定される。X方向
の閾値単語間スペーシングは、単語間スペーシングの統計結果であり、動的に判
定され得る。ページ上のほぼ同一の垂直位置に配置されている2つの単語は、同
一線上に存在しない場合(例えば、単語がカラム間のスペーシングで異なるカラ
ムに配置されている場合等)がある。
【0039】 工程808において、選択単語が別の既存線内にないと判断された場合、工程
812において、その選択単語を新規線に追加することにより、新規線を開始す
る。次いで、新規線は、現在線として規定される。別の場合、工程810におい
て選択単語が閾値距離内にないと判定されると、プロセスは工程808から続け
て、選択単語が別の既存線上にあるかどうかを判定する。
812において、その選択単語を新規線に追加することにより、新規線を開始す
る。次いで、新規線は、現在線として規定される。別の場合、工程810におい
て選択単語が閾値距離内にないと判定されると、プロセスは工程808から続け
て、選択単語が別の既存線上にあるかどうかを判定する。
【0040】 工程810において選択単語が閾値距離内にあると判定されると、工程814
において選択単語を現在線に追加する。工程812または工程814において選
択単語を現在線または新規線に追加した後、工程816において、選別単語リス
ト内に残っている単語(すなわち、線にまだ割り当てられていない単語)がある
かどうかを判定する。線にまだ割り当てられていない単語がある場合、プロセス
は工程804から続けて、次の単語を選択する。工程816において全単語が線
に割り当てられたと判定されると、単語を線に結びつけるプロセスが終了する。
において選択単語を現在線に追加する。工程812または工程814において選
択単語を現在線または新規線に追加した後、工程816において、選別単語リス
ト内に残っている単語(すなわち、線にまだ割り当てられていない単語)がある
かどうかを判定する。線にまだ割り当てられていない単語がある場合、プロセス
は工程804から続けて、次の単語を選択する。工程816において全単語が線
に割り当てられたと判定されると、単語を線に結びつけるプロセスが終了する。
【0041】 (工程704における単語を線に結びつける工程の説明) 図9は、工程704において単語を線に結びつけるために用いられる様々な基
準を示すサンプル文書900の一部を示す。例えば、線は、単語902(すなわ
ち、選別単語リスト内の第1の単語(例えば、文書中の位置により選別された単
語))から開始する。この線は、現在線として規定される。選別単語リスト内の
次の単語904が選択され、現在線内にある(すなわち、Y方向のパラグラフ閾
値距離内にある)と判定される。選択単語904は、X方向のパラグラフ閾値距
離内にもあり、したがって現在線に追加される。
準を示すサンプル文書900の一部を示す。例えば、線は、単語902(すなわ
ち、選別単語リスト内の第1の単語(例えば、文書中の位置により選別された単
語))から開始する。この線は、現在線として規定される。選別単語リスト内の
次の単語904が選択され、現在線内にある(すなわち、Y方向のパラグラフ閾
値距離内にある)と判定される。選択単語904は、X方向のパラグラフ閾値距
離内にもあり、したがって現在線に追加される。
【0042】 次いで、選別単語リスト内の次の単語906が選択され、単語906が現在線
内にある(すなわち、単語906の上方および/または下方Y座標(単数または
複数)が単語902、単語904および/または現在線の対応するY座標(単数
または複数)の閾値距離内にある)と判定される。単語906が、単語902、
単語904および/または現在線のX座標(単数または複数)からの閾値距離内
にあるX座標(単数または複数)を有するかどうかも判定される。これにより、
単語902および904を既に含む現在線に単語906が追加される。
内にある(すなわち、単語906の上方および/または下方Y座標(単数または
複数)が単語902、単語904および/または現在線の対応するY座標(単数
または複数)の閾値距離内にある)と判定される。単語906が、単語902、
単語904および/または現在線のX座標(単数または複数)からの閾値距離内
にあるX座標(単数または複数)を有するかどうかも判定される。これにより、
単語902および904を既に含む現在線に単語906が追加される。
【0043】 次いで、選別単語リスト内の次の単語908が選択され、単語908の上方お
よび/または下方Y座標(単数または複数)は、現在線および/または現在線内
のあらゆる単語の対応するY座標(単数または複数)の閾値距離内にあるため、
単語908は現在線内にあると判定される。しかし、単語908と現在線の任意
の単語(すなわち、単語902、904、906)との間の距離は、X方向に沿
った単語間距離閾値内にないと判定されるため、単語908は現在線に追加され
ない。単語908があらゆる他の既存線内にないと判定された後、新規線が開始
され、現在線として規定される。
よび/または下方Y座標(単数または複数)は、現在線および/または現在線内
のあらゆる単語の対応するY座標(単数または複数)の閾値距離内にあるため、
単語908は現在線内にあると判定される。しかし、単語908と現在線の任意
の単語(すなわち、単語902、904、906)との間の距離は、X方向に沿
った単語間距離閾値内にないと判定されるため、単語908は現在線に追加され
ない。単語908があらゆる他の既存線内にないと判定された後、新規線が開始
され、現在線として規定される。
【0044】 同様の様式により、次の単語910が選択され、現在線内にあり、閾値距離内
にあると判定され、現在線に追加される。
にあると判定され、現在線に追加される。
【0045】 次の単語912が選択され、現在線内または任意の他の既存線上にないと判定
されると、単語912は、新規線に追加される。この新規線は、現在線として規
定される。文書900中の残りの単語は、上述した様式と同様の様式で1つ以上
の既存および/または新規線に連結される。
されると、単語912は、新規線に追加される。この新規線は、現在線として規
定される。文書900中の残りの単語は、上述した様式と同様の様式で1つ以上
の既存および/または新規線に連結される。
【0046】 (工程706:線をパラグラフとして結びつける) 図10は、選別単語リスト中の各単語を線に割り当てた後、それらの線をパラ
グラフとして結びつける処理工程を示すフロー図を示す。
グラフとして結びつける処理工程を示すフロー図を示す。
【0047】 線をパラグラフとして結びつけるために、工程1002において、第1の線を
第1のパラグラフに割り当てる。この第1のパラグラフは、現在パラグラフとし
て規定される。次いで、工程1004において、次の線が取り出されるかまたは
選択される。
第1のパラグラフに割り当てる。この第1のパラグラフは、現在パラグラフとし
て規定される。次いで、工程1004において、次の線が取り出されるかまたは
選択される。
【0048】 好適には、選択線を所与のパラグラフに割り当てる前に、3つの基準について
判定が為される。以下は、これらの3つの基準である:(1)選択線がY方向に
おいてパラグラフの近傍にある(工程1006);(2)選択線がX方向におい
てパラグラフと垂直にオーバーラップする(工程1010);および(3)選択
線の単語のフォントサイズと、パラグラフ中の単語のフォントサイズとが同じで
ある(工程1012)。これらの基準と、工程1006、1010、および10
12について以下により詳細に説明する。
判定が為される。以下は、これらの3つの基準である:(1)選択線がY方向に
おいてパラグラフの近傍にある(工程1006);(2)選択線がX方向におい
てパラグラフと垂直にオーバーラップする(工程1010);および(3)選択
線の単語のフォントサイズと、パラグラフ中の単語のフォントサイズとが同じで
ある(工程1012)。これらの基準と、工程1006、1010、および10
12について以下により詳細に説明する。
【0049】 工程1004において次の線を選択した後、工程1006において、選択線が
Y方向において現在パラグラフの近傍にあるかどうかを判定する。選択線が現在
パラグラフのY方向の近傍にあるかどうかを判定するために、選択線の適切なY
座標(単数または複数)と、現在パラグラフの先行線の適切なY座標(単数また
は複数)とを比較して、特定のパラメータおよび/または閾値を満たすかどうか
を判定する。
Y方向において現在パラグラフの近傍にあるかどうかを判定する。選択線が現在
パラグラフのY方向の近傍にあるかどうかを判定するために、選択線の適切なY
座標(単数または複数)と、現在パラグラフの先行線の適切なY座標(単数また
は複数)とを比較して、特定のパラメータおよび/または閾値を満たすかどうか
を判定する。
【0050】 例えば、選択線の上方Y座標と、現在パラグラフ中の先行線の下方Y座標とが
比較され得、これにより、Y方向の線間スペーシングが判定され得る。Y方向の
線間スペーシングが閾値(例えば、平均文字高さの1.75倍等)を上回る場合
、Y方向の線間スペーシング閾値を満足しない結果となり、その線は、現在パラ
グラフのY方向の近傍にないと判定される。加えて、選択線が現在パラグラフ中
の先行線とY方向でほぼ同じ位置にある(例えば、現在パラグラフ中の先行線の
Y座標を上または下の平均文字高さの10%以内)場合、線間スペーシングは、
Y方向の最低線間スペーシング閾値を満足せず、その線は、Y方向において現在
パラグラフの近傍にないと判定される。工程1006では、他の適切な比較およ
び/または分析ももちろん為され得、これにより、選択線が現在パラグラフの近
傍にあるかどうかが判定される。
比較され得、これにより、Y方向の線間スペーシングが判定され得る。Y方向の
線間スペーシングが閾値(例えば、平均文字高さの1.75倍等)を上回る場合
、Y方向の線間スペーシング閾値を満足しない結果となり、その線は、現在パラ
グラフのY方向の近傍にないと判定される。加えて、選択線が現在パラグラフ中
の先行線とY方向でほぼ同じ位置にある(例えば、現在パラグラフ中の先行線の
Y座標を上または下の平均文字高さの10%以内)場合、線間スペーシングは、
Y方向の最低線間スペーシング閾値を満足せず、その線は、Y方向において現在
パラグラフの近傍にないと判定される。工程1006では、他の適切な比較およ
び/または分析ももちろん為され得、これにより、選択線が現在パラグラフの近
傍にあるかどうかが判定される。
【0051】 工程1006において、選択線が現在パラグラフの近傍にないと判定されると
、工程1008において、選択線が任意の他の既存パラグラフ(すなわち、少な
くとも1本の線が割り当てられたパラグラフ)の近傍にあるかどうかが判定され
る。この工程は、工程1006に関して上述した分析と同様の分析を用いて判定
され得る。
、工程1008において、選択線が任意の他の既存パラグラフ(すなわち、少な
くとも1本の線が割り当てられたパラグラフ)の近傍にあるかどうかが判定され
る。この工程は、工程1006に関して上述した分析と同様の分析を用いて判定
され得る。
【0052】 工程1006において、選択線が現在パラグラフ近傍にあると判定された場合
または工程1008において選択線が別の既存パラグラフ近傍にあると判定され
た場合、その選択線は現在パラグラフとして規定され、工程1010において、
選択線が現在パラグラフと垂直方向にオーバーラップするかどうかが判定される
。選択線のアライメントと現在パラグラフとが同じアライメントを有する場合(
例えば、左、右または中央のアライメント)場合、選択線は、現在パラグラフと
垂直方向にオーバーラップする。
または工程1008において選択線が別の既存パラグラフ近傍にあると判定され
た場合、その選択線は現在パラグラフとして規定され、工程1010において、
選択線が現在パラグラフと垂直方向にオーバーラップするかどうかが判定される
。選択線のアライメントと現在パラグラフとが同じアライメントを有する場合(
例えば、左、右または中央のアライメント)場合、選択線は、現在パラグラフと
垂直方向にオーバーラップする。
【0053】 例えば、現在線の第1の単語の左X座標が、現在パラグラフ中の先行線の第1
の単語の左X座標に対する閾値距離内にある場合、選択線および現在パラグラフ
は両方とも、左にアライメントされており、したがってオーバーラップする。し
かし、パラグラフ中にはインデントされた第1の線があり得るため、現在線の第
1の単語の左のX座標と現在パラグラフ中の第1の線の第1の単語の左のX座標
とを比較した場合、閾値距離は、ぶら下げインデントを見込んで、より大きな数
に規定され得る。
の単語の左X座標に対する閾値距離内にある場合、選択線および現在パラグラフ
は両方とも、左にアライメントされており、したがってオーバーラップする。し
かし、パラグラフ中にはインデントされた第1の線があり得るため、現在線の第
1の単語の左のX座標と現在パラグラフ中の第1の線の第1の単語の左のX座標
とを比較した場合、閾値距離は、ぶら下げインデントを見込んで、より大きな数
に規定され得る。
【0054】 現在線の最終単語の右X座標が、現在パラグラフの線の最終単語の最右端X座
標からの閾値距離以内にある場合、選択線および現在パラグラフは両方とも、右
にアライメントされており、従ってオーバーラップする。さらに、現在線の中央
X座標(すなわち、現在線の第1の単語の左のX座標と最終の単語の右X座標と
の平均)が、現在パラグラフ中の先行既存線の中央X座標より大きいまたは小さ
い閾値距離(すなわち、現在パラグラフの先行既存線の第1の単語左X座標と最
終の単語の右X座標との平均)以内にある場合、選択線および現在パラグラフは
両方とも、中央にアライメントられており、したがってオーバーラップする。閾
値距離は、例えば、平均幅の文字の文字幅の0.5であり得る。
標からの閾値距離以内にある場合、選択線および現在パラグラフは両方とも、右
にアライメントされており、従ってオーバーラップする。さらに、現在線の中央
X座標(すなわち、現在線の第1の単語の左のX座標と最終の単語の右X座標と
の平均)が、現在パラグラフ中の先行既存線の中央X座標より大きいまたは小さ
い閾値距離(すなわち、現在パラグラフの先行既存線の第1の単語左X座標と最
終の単語の右X座標との平均)以内にある場合、選択線および現在パラグラフは
両方とも、中央にアライメントられており、したがってオーバーラップする。閾
値距離は、例えば、平均幅の文字の文字幅の0.5であり得る。
【0055】 上記は、線のアライメントを判定し、パラグラフ近傍の線が同様のアライメン
トであるかどうかを判定する工程の例示的実施例に過ぎず、別の適切な方法が用
いられ得る。例えば、上記の方法は、現在パラグラフの最終の既存線のみを評価
して、その現在線が同様のアライメントかどうかを判定するように改変され得る
工程1010において、選択線が現在パラグラフとオーバーラップしていると
判定されると、工程1012において、選択線の単語のフォントサイズと現在パ
ラグラフの単語のフォントサイズとが同じかどうかが判定される。上述したよう
に、入力形式のデジタルデータは、各単語のフォントに関する情報(例えば、ス
タイル、ボールドまたは非ボールドを表す太さおよびサイズ)を提供する。
トであるかどうかを判定する工程の例示的実施例に過ぎず、別の適切な方法が用
いられ得る。例えば、上記の方法は、現在パラグラフの最終の既存線のみを評価
して、その現在線が同様のアライメントかどうかを判定するように改変され得る
工程1010において、選択線が現在パラグラフとオーバーラップしていると
判定されると、工程1012において、選択線の単語のフォントサイズと現在パ
ラグラフの単語のフォントサイズとが同じかどうかが判定される。上述したよう
に、入力形式のデジタルデータは、各単語のフォントに関する情報(例えば、ス
タイル、ボールドまたは非ボールドを表す太さおよびサイズ)を提供する。
【0056】 工程1008において、選択線が任意の他の既存パラグラフの近傍にないと判
定された場合、工程1010において、選択線が現在パラグラフとオーバーラッ
プしないと判定された場合、または工程1012において選択線の単語のフォン
トサイズと現在パラグラフの単語のフォントサイズとが同じでないと判定された
場合、工程1014において選択線を新規パラグラフに追加し、その新規パラグ
ラフを現在パラグラフとして設定することにより、新規パラグラフが開始される
。
定された場合、工程1010において、選択線が現在パラグラフとオーバーラッ
プしないと判定された場合、または工程1012において選択線の単語のフォン
トサイズと現在パラグラフの単語のフォントサイズとが同じでないと判定された
場合、工程1014において選択線を新規パラグラフに追加し、その新規パラグ
ラフを現在パラグラフとして設定することにより、新規パラグラフが開始される
。
【0057】 工程1012において、選択線の単語のフォントサイズが現在パラグラフの単
語のフォントサイズと同じであると判定された場合、工程1016において、そ
の選択線は、現在パラグラフに追加される。工程1014または工程1016に
おいて、選択線がパラグラフに追加された後、工程1018において、パラグラ
フに割り当てられていない線が残っているかどうかを判定する。パラグラフに割
り当てられていない線が残っている場合、プロセスは、工程1004から続けて
、次の線を選択する。全ての線がパラグラフに割り当てられると、線をパラグラ
フとして結びつけるプロセスが終了する。
語のフォントサイズと同じであると判定された場合、工程1016において、そ
の選択線は、現在パラグラフに追加される。工程1014または工程1016に
おいて、選択線がパラグラフに追加された後、工程1018において、パラグラ
フに割り当てられていない線が残っているかどうかを判定する。パラグラフに割
り当てられていない線が残っている場合、プロセスは、工程1004から続けて
、次の線を選択する。全ての線がパラグラフに割り当てられると、線をパラグラ
フとして結びつけるプロセスが終了する。
【0058】 (工程706において線をパラグラフとして結びつける工程の説明) 再度図9を参照して、このサンプル文書900の一部分はまた、工程706に
おいて線をパラグラフとして結びつける工程において用いられる様々な基準を示
す。
おいて線をパラグラフとして結びつける工程において用いられる様々な基準を示
す。
【0059】 例えば、第1の線920を第1のパラグラフに追加し、第1のパラグラフを現
在パラグラフとして規定した後、次の線922が選択される。次いで、線922
のY座標は、現在パラグラフ中の先行線920とY方向でほぼ同じ位置にあり、
従ってY方向の最低線間スペーシングを満足していないため、線922が現在パ
ラグラフの近傍にないことが判定される。線922が任意の他の既存パラグラフ
のY方向の線間スペーシング基準を満たさないことも判定され、従って、線92
2は、新規パラグラフに追加され、この新規パラグラフは、現在パラグラフとし
て規定される。
在パラグラフとして規定した後、次の線922が選択される。次いで、線922
のY座標は、現在パラグラフ中の先行線920とY方向でほぼ同じ位置にあり、
従ってY方向の最低線間スペーシングを満足していないため、線922が現在パ
ラグラフの近傍にないことが判定される。線922が任意の他の既存パラグラフ
のY方向の線間スペーシング基準を満たさないことも判定され、従って、線92
2は、新規パラグラフに追加され、この新規パラグラフは、現在パラグラフとし
て規定される。
【0060】 パラグラフに割り付けられていない線があるため、次の線924が選択される
。線924が線922を含む現在パラグラフの近傍にないことが判定される。次
いで、線924が線920を含むパラグラフの近傍にあることが判定され、その
パラグラフは現在パラグラフとして規定される。加えて、線924および現在パ
ラグラフは両方とも左にアライメントされているため、線924が現在パラグラ
フとオーバーラップすることが判定される。しかし、線924のフォントサイズ
と現在パラグラフのフォントサイズは異なり、線924はいずれの既存パラグラ
フの近傍にもないため、線924は、新規パラグラフに追加され、次いで、この
新規パラグラフは、現在パラグラフとして規定される。
。線924が線922を含む現在パラグラフの近傍にないことが判定される。次
いで、線924が線920を含むパラグラフの近傍にあることが判定され、その
パラグラフは現在パラグラフとして規定される。加えて、線924および現在パ
ラグラフは両方とも左にアライメントされているため、線924が現在パラグラ
フとオーバーラップすることが判定される。しかし、線924のフォントサイズ
と現在パラグラフのフォントサイズは異なり、線924はいずれの既存パラグラ
フの近傍にもないため、線924は、新規パラグラフに追加され、次いで、この
新規パラグラフは、現在パラグラフとして規定される。
【0061】 上述した様式と同様の様式で、線926が線924を含む現在パラグラフの近
傍にないが線922を含むパラグラフの近傍にあると判定され、そのパラグラフ
は現在パラグラフとして規定される。線926および現在パラグラフは両方とも
右にアライメントされているため、線926は現在パラグラフとオーバーラップ
すると判定される。しかし、線926のフォントサイズと現在パラグラフのフォ
ントサイズは異なるため、線926は、新規パラグラフに割り当てられる。パラ
グラフに割り当てられていない線があるため、次の線928が現在線として選択
される。
傍にないが線922を含むパラグラフの近傍にあると判定され、そのパラグラフ
は現在パラグラフとして規定される。線926および現在パラグラフは両方とも
右にアライメントされているため、線926は現在パラグラフとオーバーラップ
すると判定される。しかし、線926のフォントサイズと現在パラグラフのフォ
ントサイズは異なるため、線926は、新規パラグラフに割り当てられる。パラ
グラフに割り当てられていない線があるため、次の線928が現在線として選択
される。
【0062】 線928は、線926を含む現在パラグラフの近傍にあると判定され、線92
8および現在パラグラフは両方とも右にアライメントされているため、線928
は現在パラグラフとオーバーラップする。線928のフォントサイズと現在パラ
グラフのフォントサイズとが同じであることも判定され、線928は、線926
を含む現在パラグラフに割り当てられる。
8および現在パラグラフは両方とも右にアライメントされているため、線928
は現在パラグラフとオーバーラップする。線928のフォントサイズと現在パラ
グラフのフォントサイズとが同じであることも判定され、線928は、線926
を含む現在パラグラフに割り当てられる。
【0063】 文書900中の残りの線は、上述した様式と同様の様式で、1つ以上の新規お
よび/または既存パラグラフに連結される。
よび/または既存パラグラフに連結される。
【0064】 (工程708:表の位置確認) 単語を線に結び付け、線をパラグラフとして結びつけた後、工程708におい
て、表が位置確認される。結びつけたパラグラフから表を位置確認するために、
任意の適切な方法が用いられ得る。例えば、1998年4月7日に発行され、H
.Alamに付与された米国特許第5、737、442号に、文書を表すデジタ
ルコンピュータデータから表形式データを認識し、取得し、格納するプロセッサ
を基本とする方法についての開示がある。本明細書中、同特許の開示内容全体を
参考のため援用する。
て、表が位置確認される。結びつけたパラグラフから表を位置確認するために、
任意の適切な方法が用いられ得る。例えば、1998年4月7日に発行され、H
.Alamに付与された米国特許第5、737、442号に、文書を表すデジタ
ルコンピュータデータから表形式データを認識し、取得し、格納するプロセッサ
を基本とする方法についての開示がある。本明細書中、同特許の開示内容全体を
参考のため援用する。
【0065】 工程708において、オリジナルの入力形式の文書から表を位置確認する1つ
の方法は一般的には、文書の水平プロジェクションプロフィールを評価する工程
と、水平プロジェクションプロフィールにより示される(disclosed)
空白を分析することにより、表の上方境界および下方境界を判定する工程と、文
書の垂直プロジェクションプロフィールを評価する工程と、垂直プロジェクショ
ンプロフィールにより示される空白を分析することにより、表の水平位置を判定
する工程とを含む。
の方法は一般的には、文書の水平プロジェクションプロフィールを評価する工程
と、水平プロジェクションプロフィールにより示される(disclosed)
空白を分析することにより、表の上方境界および下方境界を判定する工程と、文
書の垂直プロジェクションプロフィールを評価する工程と、垂直プロジェクショ
ンプロフィールにより示される空白を分析することにより、表の水平位置を判定
する工程とを含む。
【0066】 図11は、中間形式で格納されているデータを所望の出力形式に変換するプロ
セス404を説明するフロー図を示す。工程1102において、中間形式は、1
つ以上のサポート出力形式に変換される。上述したように、出力形式は、HTM
L、XML、CSS、ネットスケープレイヤー、リンクされたページおよび別々
のページ、PDF、TIF(またはGIF、BMP、JPEG等の他の画像形式
)、RTF、および他のあらゆる形式の1つ以上のバージョンであり得るが、例
示的出力形式RTF1104、HTML(表形式またはスタイルシート付き)1
106、TIFF(または別の画像形式)1108およびXML1110のみを
示す。例えばHTMLバージョン3.2は、ブロックを指定座標に配置すること
を可能にしない一方、例えばHTMLバージョン4.0は、座標を指定してブロ
ックの配置を可能にするため、変換プロセス404好適には、両方の種類のHT
MLをサポートする。従って変換プロセスを提供してスタイルシート付きのHT
MLおよび表形式のHTMLを生成する工程は、異なるバージョンのHTMLを
サポートする。出力は、1つ以上の可能な出力形式の文書を含み得る。
セス404を説明するフロー図を示す。工程1102において、中間形式は、1
つ以上のサポート出力形式に変換される。上述したように、出力形式は、HTM
L、XML、CSS、ネットスケープレイヤー、リンクされたページおよび別々
のページ、PDF、TIF(またはGIF、BMP、JPEG等の他の画像形式
)、RTF、および他のあらゆる形式の1つ以上のバージョンであり得るが、例
示的出力形式RTF1104、HTML(表形式またはスタイルシート付き)1
106、TIFF(または別の画像形式)1108およびXML1110のみを
示す。例えばHTMLバージョン3.2は、ブロックを指定座標に配置すること
を可能にしない一方、例えばHTMLバージョン4.0は、座標を指定してブロ
ックの配置を可能にするため、変換プロセス404好適には、両方の種類のHT
MLをサポートする。従って変換プロセスを提供してスタイルシート付きのHT
MLおよび表形式のHTMLを生成する工程は、異なるバージョンのHTMLを
サポートする。出力は、1つ以上の可能な出力形式の文書を含み得る。
【0067】 図12は、中間形式文書をスタイルシート付きのRTFまたはHTML出力形
式文書1104または1106に変換する工程1102を説明するフロー図を示
す。スタイルシート付きのRTFまたはHTML出力形式に変換するために、工
程1202において、中間形式の各ブロックについて、左上および右下のX座標
およびY座標が判定され得る。上述したように、中間形式で格納された情報は、
1つ以上のブロックを含み得る。各ブロックは、表構成要素のスペーシングまた
は画像に応じて、パラグラフ、表中の構成要素、表の全体または一部分であり得
る。
式文書1104または1106に変換する工程1102を説明するフロー図を示
す。スタイルシート付きのRTFまたはHTML出力形式に変換するために、工
程1202において、中間形式の各ブロックについて、左上および右下のX座標
およびY座標が判定され得る。上述したように、中間形式で格納された情報は、
1つ以上のブロックを含み得る。各ブロックは、表構成要素のスペーシングまた
は画像に応じて、パラグラフ、表中の構成要素、表の全体または一部分であり得
る。
【0068】 工程1204において、中間形式の各ブロックについて出力形式ブロックが生
成される。出力形式ブロックの作成は、出力形式スタイルシート中の出力形式ブ
ロックの座標が中間形式ブロックの座標に対応するように行われる。工程120
6において、各中間形式ブロックのフォントは出力形式フォントへマッピングさ
れ、中間形式の各ブロックが対応する出力形式ブロックに調和するように行われ
る。次いで、工程1208において、出力形式でマッピングされたフォントを有
する各出力形式ブロックは、対応する出力形式テキストブロック内に配置される
。
成される。出力形式ブロックの作成は、出力形式スタイルシート中の出力形式ブ
ロックの座標が中間形式ブロックの座標に対応するように行われる。工程120
6において、各中間形式ブロックのフォントは出力形式フォントへマッピングさ
れ、中間形式の各ブロックが対応する出力形式ブロックに調和するように行われ
る。次いで、工程1208において、出力形式でマッピングされたフォントを有
する各出力形式ブロックは、対応する出力形式テキストブロック内に配置される
。
【0069】 個々の中間形式のブロックのプロセス1212による処理は、プロセス121
2を各中間形式ブロックに対して1回行うか、複数のグループの場合はプロセス
1212を中間形式ブロックの各グループに対して1回行うか、または、プロセ
ス1212を全ての中間形式ブロックに対して1回まとめて行うことによって行
われ得る。プロセス1212の繰り返しが全て終了すると、工程1210におい
て、スタイルシート付き文書の出力RTFまたはHTMLが出力される。
2を各中間形式ブロックに対して1回行うか、複数のグループの場合はプロセス
1212を中間形式ブロックの各グループに対して1回行うか、または、プロセ
ス1212を全ての中間形式ブロックに対して1回まとめて行うことによって行
われ得る。プロセス1212の繰り返しが全て終了すると、工程1210におい
て、スタイルシート付き文書の出力RTFまたはHTMLが出力される。
【0070】 図13は、中間形式をTIFF出力形式(または別の画像形式)に変換する工
程1102を説明するフロー図を示す。最初に、工程1302において、中間形
式ブロックを用いて文書のビットマップを生成する。工程1304において、中
間形式文書のビットマップを、TIFF出力文書に配置する。最後に、工程13
06において、TIFF出力文書を出力する。
程1102を説明するフロー図を示す。最初に、工程1302において、中間形
式ブロックを用いて文書のビットマップを生成する。工程1304において、中
間形式文書のビットマップを、TIFF出力文書に配置する。最後に、工程13
06において、TIFF出力文書を出力する。
【0071】 図14は、中間形式を表形式HTML出力形式1108に変換する工程110
2の第1のプロセスを説明するフロー図を示す。上述したように、例えば、HT
MLバージョン3.2は、ブロックを指定座標に配置することを可能にしない。
したがって、変換プロセスは好適には、表形式HTML出力文書内にグリッドを
生成する工程を含む。グリッドは一般的には、好適には最小数のセルを有する表
であり得る。
2の第1のプロセスを説明するフロー図を示す。上述したように、例えば、HT
MLバージョン3.2は、ブロックを指定座標に配置することを可能にしない。
したがって、変換プロセスは好適には、表形式HTML出力文書内にグリッドを
生成する工程を含む。グリッドは一般的には、好適には最小数のセルを有する表
であり得る。
【0072】 表形式HTML出力形式を変換するために、工程1402において、各ブロッ
クの上Y座標および下Y座標yl、y2のリストが作成される。工程1404に
おいて、このY座標リストがスキャンされ、これにより、Y方向ブロック間に間
隔または空間が配置され、ブロック間の各間隔の上方Y座標および下方Y座標y
l’、y2’が記録される。明らかなように、各間隔のY座標yl’、y2’は
一般的には、1つのブロックのylのY座標と別のブロックのy2のY座標とに
対応する。同様に、工程1406において、各ブロックの左X座標および右X座
標、xl、x2のリストが作成される。工程1408において、このX座標リス
トがスキャンされ、これによりX方向のブロック間に間隔または空間が配置され
、ブロック間の各間隔の上X座標および下座標、xl’、x2’が記録される。
明らかなように、各間隔のX座標、xl’、x2’は一般的には、1つのブロッ
クのxlのX座標と別のブロックのx2のX座標とに対応する。
クの上Y座標および下Y座標yl、y2のリストが作成される。工程1404に
おいて、このY座標リストがスキャンされ、これにより、Y方向ブロック間に間
隔または空間が配置され、ブロック間の各間隔の上方Y座標および下方Y座標y
l’、y2’が記録される。明らかなように、各間隔のY座標yl’、y2’は
一般的には、1つのブロックのylのY座標と別のブロックのy2のY座標とに
対応する。同様に、工程1406において、各ブロックの左X座標および右X座
標、xl、x2のリストが作成される。工程1408において、このX座標リス
トがスキャンされ、これによりX方向のブロック間に間隔または空間が配置され
、ブロック間の各間隔の上X座標および下座標、xl’、x2’が記録される。
明らかなように、各間隔のX座標、xl’、x2’は一般的には、1つのブロッ
クのxlのX座標と別のブロックのx2のX座標とに対応する。
【0073】 次いで、工程1410において、「m」(すなわち、Y方向の間隔数)が数字
yl’に割り当てられ、「n」(すなわち、X方向の間隔数)が数字x1’に割
り当てられる。。次いで、工程1412において、m+1の数のローおよびn+
1の数のカラムを有するマクロ表が作成される。
yl’に割り当てられ、「n」(すなわち、X方向の間隔数)が数字x1’に割
り当てられる。。次いで、工程1412において、m+1の数のローおよびn+
1の数のカラムを有するマクロ表が作成される。
【0074】 ローjとローj+1との間の境界(jは1からmである)は、Y座標y1j’
に配置される。従って、各ローの高さは、Y方向に沿った2本の境界間の距離で
ある。ローがページ端部にY方向に延びる場合、このようなローの高さは、文書
端部からの距離(すなわち、ロー境界に対して、分割された表の最小X座標また
は最大X座標)である。ローが1本のみの場合、その高さは、単に分割された表
の最大X座標に等しい。また、カラムiとカラムi+1との間の境界(iは1か
らnである)は、X座標xlj’に配置される。従って、各カラムの幅は、X方
向に沿った2本の境界間の距離である。カラムがX方向にページ端部に延びる場
合、このようなカラムの幅は、文書の端部からの距離(すなわち、カラム境界に
対して、分割された表の最小Y座標または最大Y座標)である。カラムが1つし
かない場合、その幅は、単に分割された表の最大Y座標と等しい。
に配置される。従って、各ローの高さは、Y方向に沿った2本の境界間の距離で
ある。ローがページ端部にY方向に延びる場合、このようなローの高さは、文書
端部からの距離(すなわち、ロー境界に対して、分割された表の最小X座標また
は最大X座標)である。ローが1本のみの場合、その高さは、単に分割された表
の最大X座標に等しい。また、カラムiとカラムi+1との間の境界(iは1か
らnである)は、X座標xlj’に配置される。従って、各カラムの幅は、X方
向に沿った2本の境界間の距離である。カラムがX方向にページ端部に延びる場
合、このようなカラムの幅は、文書の端部からの距離(すなわち、カラム境界に
対して、分割された表の最小Y座標または最大Y座標)である。カラムが1つし
かない場合、その幅は、単に分割された表の最大Y座標と等しい。
【0075】 工程1414において、上述したプロセス1400を用いて、マクロ表の各セ
ルを再帰的に細分化する。プロセス1400の第1の繰り返しにおいて、「マク
ロ表」は、ページまたは文書の全体を含む表を意味する。プロセス1400の各
後続の繰り返しにおいて、「マクロ表」は、細分化される高レベルマクロ表のセ
ルのみを含む表を意味する。いずれの場合においても、プロセス1400の全て
の後続繰り返し用の最大および最小のX座標およびY座標は、細分化される高レ
ベルマクロ表のセルのX座標およびY座標である。プロセス1400の反復は、
各セルの最初のマクロ表および後続の全マクロ表がそれ以上分割できなくなるま
で行われる。マクロ表の各セルは、1つ以上の中間形式ブロックを含み得る。
ルを再帰的に細分化する。プロセス1400の第1の繰り返しにおいて、「マク
ロ表」は、ページまたは文書の全体を含む表を意味する。プロセス1400の各
後続の繰り返しにおいて、「マクロ表」は、細分化される高レベルマクロ表のセ
ルのみを含む表を意味する。いずれの場合においても、プロセス1400の全て
の後続繰り返し用の最大および最小のX座標およびY座標は、細分化される高レ
ベルマクロ表のセルのX座標およびY座標である。プロセス1400の反復は、
各セルの最初のマクロ表および後続の全マクロ表がそれ以上分割できなくなるま
で行われる。マクロ表の各セルは、1つ以上の中間形式ブロックを含み得る。
【0076】 図15Aは、サンプル文書のページを示し、図15Bは、図15Aのサンプル
文書ページをマクロ表のセルに概略的に分割したものを示す。図15Bに点線で
示すように、このマクロ表は、第1の繰り返しにおいて、5つのローおよび1つ
のカラムのセルに分割される。さらに、各ブロックは、ブロック周囲の境界で指
定される。第1すなわち上部のローのセルの水平スパンは、この第1のマクロ表
がそれ以上分割されることを防ぐ。最高レベルのマクロ表を細分化する繰り返し
が全て終了すると、各ブロックは、HTML表の1つのセルを占有する。図15
Cは、マクロ表を分割する後続の繰り返しの一例を示す。具体的には、第1のマ
クロ表の最終ローのセルはそれ自身は、2つのカラムに分割可能な低レベルマク
ロ表である。図示していないが、第1のマクロ表または最高レベルマクロ表なら
びに後続マクロ表または低レベルマクロ表の別のセルをさらに細分化することが
可能である。
文書ページをマクロ表のセルに概略的に分割したものを示す。図15Bに点線で
示すように、このマクロ表は、第1の繰り返しにおいて、5つのローおよび1つ
のカラムのセルに分割される。さらに、各ブロックは、ブロック周囲の境界で指
定される。第1すなわち上部のローのセルの水平スパンは、この第1のマクロ表
がそれ以上分割されることを防ぐ。最高レベルのマクロ表を細分化する繰り返し
が全て終了すると、各ブロックは、HTML表の1つのセルを占有する。図15
Cは、マクロ表を分割する後続の繰り返しの一例を示す。具体的には、第1のマ
クロ表の最終ローのセルはそれ自身は、2つのカラムに分割可能な低レベルマク
ロ表である。図示していないが、第1のマクロ表または最高レベルマクロ表なら
びに後続マクロ表または低レベルマクロ表の別のセルをさらに細分化することが
可能である。
【0077】 図16は、中間形式文書を表形式HTML出力文書に変換する工程1102の
第2のプロセス1600を説明するフロー図を示す。プロセス1600では、第
1のプロセス1400により生成された各不可分セルの区分分けを試み、各中間
形式ブロックを出力表形式HTML文書中の対応座標に配置する。
第2のプロセス1600を説明するフロー図を示す。プロセス1600では、第
1のプロセス1400により生成された各不可分セルの区分分けを試み、各中間
形式ブロックを出力表形式HTML文書中の対応座標に配置する。
【0078】 具体的には、工程1602において、全マクロ表の第1のセルを選択する。第
1のセルは、最小の左上X座標および/または最小の左上Y座標を有するセルで
あり得る。各セルは、1つ以上の中間形式ブロックを含み得る。選択セルの左上
端部から始まって、工程1604において、左端部のX座標のベクトルと、セル
内の各ブロック上端部のY座標のベクトルとが生成される。各Y方向ベクトルは
、対応ブロックの左端部に対応するX座標を有し、各X方向ベクトルは、対応ブ
ロックの上端部に対応するY座標を有する。工程1606において、Y−方向ベ
クトルおよびX−方向ベクトルのそれぞれのX座標およびY座標のそれぞれの最
高共通因子が判定される。
1のセルは、最小の左上X座標および/または最小の左上Y座標を有するセルで
あり得る。各セルは、1つ以上の中間形式ブロックを含み得る。選択セルの左上
端部から始まって、工程1604において、左端部のX座標のベクトルと、セル
内の各ブロック上端部のY座標のベクトルとが生成される。各Y方向ベクトルは
、対応ブロックの左端部に対応するX座標を有し、各X方向ベクトルは、対応ブ
ロックの上端部に対応するY座標を有する。工程1606において、Y−方向ベ
クトルおよびX−方向ベクトルのそれぞれのX座標およびY座標のそれぞれの最
高共通因子が判定される。
【0079】 工程1608において、X座標およびY座標の表が生成され、ここで、X座標
およびY座標はそれぞれ、X座標およびY座標の最高共通因子の倍数である。次
いで、工程1610において、各セル内の中間形式ブロックは、HTML表の対
応座標に配置される。工程1612において、選択セルが中間形式文書の最終セ
ルであるか否かまたは未選択のセルがあるか否かが判定される。選択セルが中間
形式文書の最終セルでない場合または未選択セルがある場合、工程1614にお
いて、次のセルを選択し、工程1604から続けられる。選択セルが最終セルで
あるかまたは中間形式文書の最終選択セルである場合、工程1616において、
そのブロックを含むHTML表が出力表形式のHTML文書として出力される。
およびY座標はそれぞれ、X座標およびY座標の最高共通因子の倍数である。次
いで、工程1610において、各セル内の中間形式ブロックは、HTML表の対
応座標に配置される。工程1612において、選択セルが中間形式文書の最終セ
ルであるか否かまたは未選択のセルがあるか否かが判定される。選択セルが中間
形式文書の最終セルでない場合または未選択セルがある場合、工程1614にお
いて、次のセルを選択し、工程1604から続けられる。選択セルが最終セルで
あるかまたは中間形式文書の最終選択セルである場合、工程1616において、
そのブロックを含むHTML表が出力表形式のHTML文書として出力される。
【0080】 工程1606において最高共通因子を判定する工程と、工程1608において
セル内に表を生成する工程とを説明する例として、セル内のブロックの左端部の
X座標が3、12、30および45である場合、最高共通因子は3である。した
がって、工程1608によって生成されるX座標の表は、3、6、9、12、1
5、18、21、24、247、30、33、36、39、42および45(す
なわち、3の倍数、最高共通因子)となる。
セル内に表を生成する工程とを説明する例として、セル内のブロックの左端部の
X座標が3、12、30および45である場合、最高共通因子は3である。した
がって、工程1608によって生成されるX座標の表は、3、6、9、12、1
5、18、21、24、247、30、33、36、39、42および45(す
なわち、3の倍数、最高共通因子)となる。
【0081】 図17は、分かり易くするため、区分分けX座標の位置のみを図示しているが
、表の不可分セルをX座標およびY座標の表の区分分けを説明するサンプル文書
の一部を示す。図示のサンプル文書部分において、1つより多いブロックを含む
テキストの各線は、各ブロックがマクロ表の構成要素となるようにさらに分割さ
れるマクロ表となり得る。図示の線部分は、各マクロ表のブロックのX座標の最
高共通因子の倍数を示す。
、表の不可分セルをX座標およびY座標の表の区分分けを説明するサンプル文書
の一部を示す。図示のサンプル文書部分において、1つより多いブロックを含む
テキストの各線は、各ブロックがマクロ表の構成要素となるようにさらに分割さ
れるマクロ表となり得る。図示の線部分は、各マクロ表のブロックのX座標の最
高共通因子の倍数を示す。
【0082】 (異なる構成のディスプレイ上での表示のためのリフォーマット) 上述の変換プロセスは、ドキュメントを表わすデータを、入力フォーマットが
適したディスプレイと、異なる構成を有するディスプレイでの表示に適したフォ
ーマットに変換するために利用され得る。例えば、あるドキュメントが、通常の
デスクトップまたはラップトップモニター上での表示に適したフォーマットであ
り得、そのドキュメントを、例えば、インターネットに接続されたテレビ、なら
びに/または携帯もしくは無線電話機、PDA、ポケットベル(登録商標)およ び/または音声プロダクト(voice products)等の携帯用デバイ ス上での表示に適した別のフォーマットに変換し得ることが望ましくあり得る。 異なる構成に必要である条件は、例えば、異なるディスプレイサイズおよび/ま たは解像度によることであり得る。
適したディスプレイと、異なる構成を有するディスプレイでの表示に適したフォ
ーマットに変換するために利用され得る。例えば、あるドキュメントが、通常の
デスクトップまたはラップトップモニター上での表示に適したフォーマットであ
り得、そのドキュメントを、例えば、インターネットに接続されたテレビ、なら
びに/または携帯もしくは無線電話機、PDA、ポケットベル(登録商標)およ び/または音声プロダクト(voice products)等の携帯用デバイ ス上での表示に適した別のフォーマットに変換し得ることが望ましくあり得る。 異なる構成に必要である条件は、例えば、異なるディスプレイサイズおよび/ま たは解像度によることであり得る。
【0083】 図18〜28は、このような異なるディスプレイ構成のためのリフォーマット
のためのプロセスおよび例を示す。リフォーマットプロセス1800は、工程1
802で、ドキュメント内のサブページの区切り(sub−page brea
ks)を判断する工程、およびドキュメントをサブページに細分化する工程を含
み得る。サブページの区切りは、例えば、水平または垂直方向のいずれかでペー
ジを渡る分割線であり得る。次いで、工程1804で、第1のサブページが現在
のサブページとして選択され、工程1806で、現在のサブページ内の第1のブ
ロックが現在のブロックとして選択される。工程1808で、現在のブロックが
ディスプレイ構成のディスプレイパラメータの範囲内であると判断された場合、
工程1810で、現在のブロックが表示される。工程1808で、現在のブロッ
クがディスプレイ構成のディスプレイパラメータの範囲内でないと判断された場
合、工程1812で、現在のブロックは、各部分がディスプレイ構成のディスプ
レイパラメータの範囲内にあるように、複数の部分に分割され、その複数の部分
が表示される。
のためのプロセスおよび例を示す。リフォーマットプロセス1800は、工程1
802で、ドキュメント内のサブページの区切り(sub−page brea
ks)を判断する工程、およびドキュメントをサブページに細分化する工程を含
み得る。サブページの区切りは、例えば、水平または垂直方向のいずれかでペー
ジを渡る分割線であり得る。次いで、工程1804で、第1のサブページが現在
のサブページとして選択され、工程1806で、現在のサブページ内の第1のブ
ロックが現在のブロックとして選択される。工程1808で、現在のブロックが
ディスプレイ構成のディスプレイパラメータの範囲内であると判断された場合、
工程1810で、現在のブロックが表示される。工程1808で、現在のブロッ
クがディスプレイ構成のディスプレイパラメータの範囲内でないと判断された場
合、工程1812で、現在のブロックは、各部分がディスプレイ構成のディスプ
レイパラメータの範囲内にあるように、複数の部分に分割され、その複数の部分
が表示される。
【0084】 工程1810または工程1812の後で、工程1814がサブページ内にブロ
ックが残っていると判断した場合、工程1816で、サブページ内のその次のブ
ロックが現在のブロックとして選択され、プロセスは工程1808から継続され
る。しかしながら、工程1814が現在のサブページ内に表示されるべきブロッ
クが残っていないと判断した場合には、工程1818がドキュメント内にサブペ
ージが残っているかどうかを判断する。ドキュメント内にサブページが残ってい
る場合、工程1820で、次のサブページが現在のサブページとして選択され、
プロセスは工程1806から継続される。サブページがドキュメント内に残って
いない場合、リフォーマットプロセス1800は完了する。
ックが残っていると判断した場合、工程1816で、サブページ内のその次のブ
ロックが現在のブロックとして選択され、プロセスは工程1808から継続され
る。しかしながら、工程1814が現在のサブページ内に表示されるべきブロッ
クが残っていないと判断した場合には、工程1818がドキュメント内にサブペ
ージが残っているかどうかを判断する。ドキュメント内にサブページが残ってい
る場合、工程1820で、次のサブページが現在のサブページとして選択され、
プロセスは工程1806から継続される。サブページがドキュメント内に残って
いない場合、リフォーマットプロセス1800は完了する。
【0085】 1つの実施形態において、工程1810等でブロックを表示した後、または工
程1812等でブロックの最後の部分を表示した後、プロセス1800は、ブロ
ックが不完全な文章または不適切な終結(improper terminat
ion)で終わる段落であるかどうかを判断する。
程1812等でブロックの最後の部分を表示した後、プロセス1800は、ブロ
ックが不完全な文章または不適切な終結(improper terminat
ion)で終わる段落であるかどうかを判断する。
【0086】 ブロックが段落であるかどうかの判断は、ブロックが1以上の文章を含むかど
うかを判断することによってなされ得る。1つの文章は、最初に大文字を使用し
、その後に、文章の終結を表わすピリオド、感嘆符、または疑問符等の文章を終
結する句読点が続くものとして定義され得る。ブロックがビュレットポイント(
bullet point)、または複数の項目からなるリスト内の項目である
ような場合、そのブロックは、段落でないと判断され得る。ブロックが不完全な
文章または不適切な終結で終わる段落であると判断された場合、次のブロックが
不適切な文章、または段落の始まりで始まるかどうかが判断される。
うかを判断することによってなされ得る。1つの文章は、最初に大文字を使用し
、その後に、文章の終結を表わすピリオド、感嘆符、または疑問符等の文章を終
結する句読点が続くものとして定義され得る。ブロックがビュレットポイント(
bullet point)、または複数の項目からなるリスト内の項目である
ような場合、そのブロックは、段落でないと判断され得る。ブロックが不完全な
文章または不適切な終結で終わる段落であると判断された場合、次のブロックが
不適切な文章、または段落の始まりで始まるかどうかが判断される。
【0087】 ブロックが不完全な文章、または不適切な終結で終わる段落でない場合、プロ
セス1800は、上述のとおり、工程1814へと継続され得る。次のブロック
が不完全な文章、または不適切な終結で終わる段落である場合、プロセスは、次
のブロックが不適切な文章または段落の始まりで始まるかどうかを判断し得る。
不適切な文章、または段落の始まりが、最初に大文字を使用していないが、他で
の最初の大文字の使用、および文章の終結を含んだ最初の不完全な文章を含み得
る。あるいは、または加えて、不適切な文章、または段落の始まりは、例えば、
インデントされていない第1の行を含み得るが、前の段落の第1の行はインデン
トされている。
セス1800は、上述のとおり、工程1814へと継続され得る。次のブロック
が不完全な文章、または不適切な終結で終わる段落である場合、プロセスは、次
のブロックが不適切な文章または段落の始まりで始まるかどうかを判断し得る。
不適切な文章、または段落の始まりが、最初に大文字を使用していないが、他で
の最初の大文字の使用、および文章の終結を含んだ最初の不完全な文章を含み得
る。あるいは、または加えて、不適切な文章、または段落の始まりは、例えば、
インデントされていない第1の行を含み得るが、前の段落の第1の行はインデン
トされている。
【0088】 次のブロックが段落でないか、もしくは不完全な文章または不適切な終結で終
わる段落でない場合、プロセスは、例えば、後続ブロック、元のドキュメントの
ページ、またはドキュメントの所定のエリア内のブロックの所定の数を調べて、
段落を含む第1の後続ブロックの位置を確認をする。段落の位置が確認されない
場合、または位置を確認した段落が、不適切な段落の始まりで始まらない場合、
上述のとおり、プロセスは工程1814を実行するために継続し得る。不適切な
段落の始まりを含む段落の位置が確認された場合、いずれの介在するブロックを
表示する直前に、その段落ブロックが表示され得る。次いで、上述のとおり、プ
ロセスは表示されていないブロックのみを残して、工程1814から継続する。
わる段落でない場合、プロセスは、例えば、後続ブロック、元のドキュメントの
ページ、またはドキュメントの所定のエリア内のブロックの所定の数を調べて、
段落を含む第1の後続ブロックの位置を確認をする。段落の位置が確認されない
場合、または位置を確認した段落が、不適切な段落の始まりで始まらない場合、
上述のとおり、プロセスは工程1814を実行するために継続し得る。不適切な
段落の始まりを含む段落の位置が確認された場合、いずれの介在するブロックを
表示する直前に、その段落ブロックが表示され得る。次いで、上述のとおり、プ
ロセスは表示されていないブロックのみを残して、工程1814から継続する。
【0089】 別の実施形態において、2つの不完全な段落の一致は、引き続く後続ブロック
から、第2の補足的な不完全な段落を単純に検索せずに、最初の不完全な段落の
右側に位置するブロックを調べることによってなされ得る。この実施形態におい
て、複数の一致が見つけられ得、好ましくは、ユークリッド距離において近い段
落が一致する。
から、第2の補足的な不完全な段落を単純に検索せずに、最初の不完全な段落の
右側に位置するブロックを調べることによってなされ得る。この実施形態におい
て、複数の一致が見つけられ得、好ましくは、ユークリッド距離において近い段
落が一致する。
【0090】 上述の不完全な段落位置確認プロセスの代わりに、またはそれに加えて、構文
解析が実行され得る。パーシングルール(parsing rule)が、2つ
の段落ブロックの最後および最初の不完全な文章を組み合わせて、英文法の規則
に従って正しく解析されるかどうかを判断するために用いられ得る。
解析が実行され得る。パーシングルール(parsing rule)が、2つ
の段落ブロックの最後および最初の不完全な文章を組み合わせて、英文法の規則
に従って正しく解析されるかどうかを判断するために用いられ得る。
【0091】 図19は、各部分が出力用途またはデバイスのディスプレイ構成のディスプレ
イパラメータもしくは構成の範囲内であるように、現在のブロックを表示用の部
分に分割するための工程1812のフローチャートを示す。まず、工程1902
が、現在のブロックがテーブルであるかどうかを判断する。現在のブロックがテ
ーブルでない場合、工程1904が、各構成要素がディスプレイ構成の範囲内で
表示され得るように、現在のブロックを複数の構成要素に分解する。例えば、段
落ブロックの各構成要素は、段落内に含まれる単語であり得る。ブロックの構成
要素への他の分割が実行され得る。例えば、リストブロックの各構成要素は、リ
スト内の1つの項目または1行であり得る。
イパラメータもしくは構成の範囲内であるように、現在のブロックを表示用の部
分に分割するための工程1812のフローチャートを示す。まず、工程1902
が、現在のブロックがテーブルであるかどうかを判断する。現在のブロックがテ
ーブルでない場合、工程1904が、各構成要素がディスプレイ構成の範囲内で
表示され得るように、現在のブロックを複数の構成要素に分解する。例えば、段
落ブロックの各構成要素は、段落内に含まれる単語であり得る。ブロックの構成
要素への他の分割が実行され得る。例えば、リストブロックの各構成要素は、リ
スト内の1つの項目または1行であり得る。
【0092】 工程1904はまた、ディスプレイ構成の限界に達するか、または現在のブロ
ックの全ての構成要素が表示されるまで、各構成要素を連続して表示する。工程
1904は、ディスプレイ構成の限界に達するたびに、新たな表示を用いて、現
在のブロックの残りの構成要素を連続して表示し続ける。現在のブロックの各構
成要素は、例えば、1つの単語または1つの行を含み、複数の行、および/また
は複数の単語に分解され得る。
ックの全ての構成要素が表示されるまで、各構成要素を連続して表示する。工程
1904は、ディスプレイ構成の限界に達するたびに、新たな表示を用いて、現
在のブロックの残りの構成要素を連続して表示し続ける。現在のブロックの各構
成要素は、例えば、1つの単語または1つの行を含み、複数の行、および/また
は複数の単語に分解され得る。
【0093】 現在のブロックがテーブルである場合、工程1905で、テーブルの第1のロ
ーおよび第1のカラムが、ローおよびカラムの見出しとして選択される。テーブ
ルの第1のローおよび第1のカラムの全てが見出しであるわけではないが、第1
のローおよび第1のカラムが見出しであると考えられ得る。見出しのローまたは
カラムと、データのローまたはカラムとを区別する方法が実行され得る。また、
入力フォーマットには、テーブルの見出しを識別し得るものもあり、このプロセ
スでは、そのデータを用いることができる。
ーおよび第1のカラムが、ローおよびカラムの見出しとして選択される。テーブ
ルの第1のローおよび第1のカラムの全てが見出しであるわけではないが、第1
のローおよび第1のカラムが見出しであると考えられ得る。見出しのローまたは
カラムと、データのローまたはカラムとを区別する方法が実行され得る。また、
入力フォーマットには、テーブルの見出しを識別し得るものもあり、このプロセ
スでは、そのデータを用いることができる。
【0094】 工程1906は、ディスプレイ構成の範囲内で、もしあれば、カラムの見出し
で表示され得るカラムの数(n)を判断する。次いで、工程1907で、n個の
見出しでないカラムが選択され、第1のローの選択された構成要素またはカラム
が、現在のサブブロックとして設定されたサブブロックに加えられる。工程19
08で、次のローのn個の構成要素が現在のローとして選択され、現在のサブブ
ロックに加えられる。次いで、工程1910が、現在のサブブロックがディスプ
レイ構成の範囲内で表示され得るかどうかを判断する。現在のサブブロックがデ
ィスプレイ構成の範囲内で表示され得る場合、工程1911が、現在のサブブロ
ックを表示する。現在のサブブロックがディスプレイ構成の範囲内で表示され得
ない場合、工程1912が、現在のサブブロックから現在のローを取り除いて、
現在のサブブロックを表示し、その第1のローとして見出しを有する新たなサブ
ブロックに、現在のローを加える。この新たなサブブロックはまた、現在のサブ
ブロックとして設定される。
で表示され得るカラムの数(n)を判断する。次いで、工程1907で、n個の
見出しでないカラムが選択され、第1のローの選択された構成要素またはカラム
が、現在のサブブロックとして設定されたサブブロックに加えられる。工程19
08で、次のローのn個の構成要素が現在のローとして選択され、現在のサブブ
ロックに加えられる。次いで、工程1910が、現在のサブブロックがディスプ
レイ構成の範囲内で表示され得るかどうかを判断する。現在のサブブロックがデ
ィスプレイ構成の範囲内で表示され得る場合、工程1911が、現在のサブブロ
ックを表示する。現在のサブブロックがディスプレイ構成の範囲内で表示され得
ない場合、工程1912が、現在のサブブロックから現在のローを取り除いて、
現在のサブブロックを表示し、その第1のローとして見出しを有する新たなサブ
ブロックに、現在のローを加える。この新たなサブブロックはまた、現在のサブ
ブロックとして設定される。
【0095】 工程1911または工程1912の後に、工程1914が、現在のローがテー
ブルの最後のローであるかどうかを判断する。現在のローがテーブルの最後のロ
ーでない場合、工程1916で、n個の構成要素から成る次のローが現在のロー
として選択され、現在のサブブロックに加えられ、プロセスは工程1910から
継続される。現在のローがテーブルの最後のローである場合、工程1918が、
表示された最後のカラムがテーブルの最後のカラムであるかどうかを判断する。
表示された最後のカラムが、テーブルの最後のカラムでない場合、プロセスは工
程1906から継続される。表示された最後のカラムがテーブルの最後のカラム
である場合、プロセスが完了する。
ブルの最後のローであるかどうかを判断する。現在のローがテーブルの最後のロ
ーでない場合、工程1916で、n個の構成要素から成る次のローが現在のロー
として選択され、現在のサブブロックに加えられ、プロセスは工程1910から
継続される。現在のローがテーブルの最後のローである場合、工程1918が、
表示された最後のカラムがテーブルの最後のカラムであるかどうかを判断する。
表示された最後のカラムが、テーブルの最後のカラムでない場合、プロセスは工
程1906から継続される。表示された最後のカラムがテーブルの最後のカラム
である場合、プロセスが完了する。
【0096】 ある状況において、テーブルが過度に分割されたために、テーブルのあるセル
を再結合することが必要または望ましいことがあり得る。例えば、1つのローが
2以上の行に渡る場合、単一のローが複数のローに細分化され得る。プロセス1
812が、正確な見出しがテーブルの部分を表示する各表示ページ内で表示され
るように、テーブルの一部を見出しとして割り当てる場合に、セルの再結合が特
に望まれ得る。
を再結合することが必要または望ましいことがあり得る。例えば、1つのローが
2以上の行に渡る場合、単一のローが複数のローに細分化され得る。プロセス1
812が、正確な見出しがテーブルの部分を表示する各表示ページ内で表示され
るように、テーブルの一部を見出しとして割り当てる場合に、セルの再結合が特
に望まれ得る。
【0097】 1つの実施形態において、ローの間の不適切または誤ったセルの区切りが、ロ
ーのそれぞれの上側および下側のY座標の位置を確認すること、およびローとロ
ーの間の隔たりに基づいて、セルまたはローのどの区切れが不適切であり得るか
を判断することによって判断され得る。例えば、ロー内の行間隔は、2つのロー
の間の間隔よりも小さいことが有り得る。同様のアプローチが、カラム間の不適
切または誤ったセルの区切りを判断するために用いられ得る。
ーのそれぞれの上側および下側のY座標の位置を確認すること、およびローとロ
ーの間の隔たりに基づいて、セルまたはローのどの区切れが不適切であり得るか
を判断することによって判断され得る。例えば、ロー内の行間隔は、2つのロー
の間の間隔よりも小さいことが有り得る。同様のアプローチが、カラム間の不適
切または誤ったセルの区切りを判断するために用いられ得る。
【0098】 上記に加えて、またはその代わりに、名目上のセルの区切りに基づいて、カラ
ムおよび/またはローの間の不適切または誤ったセルの区切りが、最適な方法で
空白のセルを除去するために、このような空白のセルの位置を確認して、セルを
再結合することによって判断され得る。例えば、1つのセルのみが2行に渡って
おり、残りのセルのそれぞれは1行に渡っているだけであるローにおいて、この
ローは、不適切に2つのローに分割され得、結果として、下側または第2のロー
は、ほとんど1つの空白のセルとなる。下側または第2のロー内の空白セルの最
適な除去は、その大部分が空白であるローと、先行のローとを再結合することで
あり得る。また、同様のアプローチが、カラム間の不適切または誤ったセルの区
切りを判断し、且つ除去するために用いられ得る。
ムおよび/またはローの間の不適切または誤ったセルの区切りが、最適な方法で
空白のセルを除去するために、このような空白のセルの位置を確認して、セルを
再結合することによって判断され得る。例えば、1つのセルのみが2行に渡って
おり、残りのセルのそれぞれは1行に渡っているだけであるローにおいて、この
ローは、不適切に2つのローに分割され得、結果として、下側または第2のロー
は、ほとんど1つの空白のセルとなる。下側または第2のロー内の空白セルの最
適な除去は、その大部分が空白であるローと、先行のローとを再結合することで
あり得る。また、同様のアプローチが、カラム間の不適切または誤ったセルの区
切りを判断し、且つ除去するために用いられ得る。
【0099】 テーブルセルの過度の分割を判断し、且つ除去するために、ある種のルールが
設定され、且つ適用され得る。例えば、見出しローまたはカラムが、全て大文字
、大きいフォント、太字、イタリック体、および/または中央揃えにされ得るが
、残りのセルは、これらの特徴のいくつかまたは全てを有さない。よって、最初
の2つのローまたはカラムが、全て大文字、大きいフォント、太字、イタリック
体、および/または中央揃えにされるが、残りのセルは、これらの特徴のいくつ
かまたは全てを有さない場合には、最初の2つのローおよび/またはカラムが、
1つのローまたはカラムに再結合されるべきであると判断され得る。明らかであ
るが、多くの他の方法論が、最適なテーブルセルの分割を判断するために用いら
れ得る。
設定され、且つ適用され得る。例えば、見出しローまたはカラムが、全て大文字
、大きいフォント、太字、イタリック体、および/または中央揃えにされ得るが
、残りのセルは、これらの特徴のいくつかまたは全てを有さない。よって、最初
の2つのローまたはカラムが、全て大文字、大きいフォント、太字、イタリック
体、および/または中央揃えにされるが、残りのセルは、これらの特徴のいくつ
かまたは全てを有さない場合には、最初の2つのローおよび/またはカラムが、
1つのローまたはカラムに再結合されるべきであると判断され得る。明らかであ
るが、多くの他の方法論が、最適なテーブルセルの分割を判断するために用いら
れ得る。
【0100】 別の実施形態において、上記に加えて、またはその代わりに、セルの区切りが
、正確な見出しを判断するために、意味解析を用いて解析され得る。しかしなが
ら、意味解析は、名詞または動詞の語句のみを含む不完全な文章が、しばしば、
見出しとして用いられるので、大量の文脈情報を必要とし得る。
、正確な見出しを判断するために、意味解析を用いて解析され得る。しかしなが
ら、意味解析は、名詞または動詞の語句のみを含む不完全な文章が、しばしば、
見出しとして用いられるので、大量の文脈情報を必要とし得る。
【0101】 上述のセル結合プロセスは、プロセス1812の多くの時点で実行され得る。
例えば、工程1905で、第1のローおよびカラムを見出しとして選択するとき
、工程1906で、表示することができるカラムの数を判断するとき、工程19
07で、見出しでないカラムを選択するとき、および工程1908または工程1
916で、次のローの構成要素を選択するときに、再結合プロセスは実行され得
る。
例えば、工程1905で、第1のローおよびカラムを見出しとして選択するとき
、工程1906で、表示することができるカラムの数を判断するとき、工程19
07で、見出しでないカラムを選択するとき、および工程1908または工程1
916で、次のローの構成要素を選択するときに、再結合プロセスは実行され得
る。
【0102】 さらに、1つのテーブルは1以上のサブテーブルを含み得る。サブテーブルに
おいて、カラムおよび/またはローの一部が、サブカラム、および/またはサブ
ローに分割され得る。このようなサブテーブルは、表示ページ内に表示されてい
る複数のローおよび/またはカラムの見出しをもたらし得る。上述のテーブル検
出アルゴリズムは、これらのサブテーブルを判断するために、テーブルセルを繰
り返し検索するために用いられ得る。
おいて、カラムおよび/またはローの一部が、サブカラム、および/またはサブ
ローに分割され得る。このようなサブテーブルは、表示ページ内に表示されてい
る複数のローおよび/またはカラムの見出しをもたらし得る。上述のテーブル検
出アルゴリズムは、これらのサブテーブルを判断するために、テーブルセルを繰
り返し検索するために用いられ得る。
【0103】 図20は、サンプルドキュメント2000を示す。サンプルドキュメント20
00は、3つのサブページ区切り2002、2004、および2006によって
、4つのサブページに分割され得る。サブページ区切りは、ページまたはドキュ
メントの幅の閾値部分に渡って延びる非テキストまたはイメージを含むブロック
で決定され得る。例えば、サブページ区切りは、もし有れば、例えば、ページ幅
の少なくとも70%、または余白部分の内側のページ幅に渡って延びる、図20
に示すような線、イメージまたは画像、または連続するダッシュもしくは他の繰
り返しの印であり得る。
00は、3つのサブページ区切り2002、2004、および2006によって
、4つのサブページに分割され得る。サブページ区切りは、ページまたはドキュ
メントの幅の閾値部分に渡って延びる非テキストまたはイメージを含むブロック
で決定され得る。例えば、サブページ区切りは、もし有れば、例えば、ページ幅
の少なくとも70%、または余白部分の内側のページ幅に渡って延びる、図20
に示すような線、イメージまたは画像、または連続するダッシュもしくは他の繰
り返しの印であり得る。
【0104】 サンプルドキュメント2000は、テーブル2008、2010、および20
12を含む。サブページ区切り2004および2006の間のサブページの構成
要素を表示するための順序も、サブページのブロックが上から下へ、左から右へ
の順に配列される矢印2014で図20に示す。
12を含む。サブページ区切り2004および2006の間のサブページの構成
要素を表示するための順序も、サブページのブロックが上から下へ、左から右へ
の順に配列される矢印2014で図20に示す。
【0105】 ドキュメント2000のサブページ区切り2004および2006の間のサブ
ページは、見出し2016を含む。見出し2016は、好ましくは、入力フォー
マットドキュメントを中間フォーマットドキュメントに変換するプロセスにおい
てか、またはリフォーマットプロセス1800中のいずれかで特定される。見出
しは、コンテンツのリストまたはテーブルを自動的に生成するために用いられ得
る。コンテンツのテーブルの生成は、ユーザによって選択されるか、またはデフ
ォルトとして設定されるオプションであり得る。好ましくは、コンテンツのテー
ブルは、リフォーマットプロセス1800の第1の表示ページとして挿入され得
る。第1の表示ページに表示される各見出しは、好ましくは、見出しおよびその
関連づけられたコンテンツを含む表示へのリンクを含む。
ページは、見出し2016を含む。見出し2016は、好ましくは、入力フォー
マットドキュメントを中間フォーマットドキュメントに変換するプロセスにおい
てか、またはリフォーマットプロセス1800中のいずれかで特定される。見出
しは、コンテンツのリストまたはテーブルを自動的に生成するために用いられ得
る。コンテンツのテーブルの生成は、ユーザによって選択されるか、またはデフ
ォルトとして設定されるオプションであり得る。好ましくは、コンテンツのテー
ブルは、リフォーマットプロセス1800の第1の表示ページとして挿入され得
る。第1の表示ページに表示される各見出しは、好ましくは、見出しおよびその
関連づけられたコンテンツを含む表示へのリンクを含む。
【0106】 あるいは、特に、リフォーマットプロセス1800が急に実行される場合、コ
ンテンツのテーブルが表示されたページ内に表示された見出しのリンクは、出力
フォーマットドキュメント内の見出しに対するものであり、特定の表示ページに
対するものではない。ユーザがコンテンツのテーブルが表示されたページ内に表
示された見出しのリンクを選択すると、リフォーマットプロセス1800は、ユ
ーザが表示された第1のコンテンツとして、その選択された見出しを有する表示
ページを提供されるように、その選択された見出しの前に表わされている全ての
コンテンツを無視する。換言すれば、表示ページの間の区切りは、ユーザによっ
て選択されたリンクまたは見出しに応じて変わり得る。
ンテンツのテーブルが表示されたページ内に表示された見出しのリンクは、出力
フォーマットドキュメント内の見出しに対するものであり、特定の表示ページに
対するものではない。ユーザがコンテンツのテーブルが表示されたページ内に表
示された見出しのリンクを選択すると、リフォーマットプロセス1800は、ユ
ーザが表示された第1のコンテンツとして、その選択された見出しを有する表示
ページを提供されるように、その選択された見出しの前に表わされている全ての
コンテンツを無視する。換言すれば、表示ページの間の区切りは、ユーザによっ
て選択されたリンクまたは見出しに応じて変わり得る。
【0107】 この実施形態において、リフォーマットプロセス1800は、好ましくは、逆
の順番で表示ページを生成することが可能である。例えば、ユーザがコンテンツ
のテーブル内の見出しを選択し、選択された見出しを第1のコンテンツとして表
示する表示ページを見た後、そのユーザは先行ページを選択し得る。次いで、リ
フォーマットプロセス1800は、好ましくは、逆の順序で、ディスプレイ構成
のディスプレイパラメータの範囲内で表示され得るブロックおよび/またはブロ
ックの一部を判断する。
の順番で表示ページを生成することが可能である。例えば、ユーザがコンテンツ
のテーブル内の見出しを選択し、選択された見出しを第1のコンテンツとして表
示する表示ページを見た後、そのユーザは先行ページを選択し得る。次いで、リ
フォーマットプロセス1800は、好ましくは、逆の順序で、ディスプレイ構成
のディスプレイパラメータの範囲内で表示され得るブロックおよび/またはブロ
ックの一部を判断する。
【0108】 図21A〜Fは、サブページと同数の要素またはサブブロックを各表示ページ
にはめ込むために、サンプルドキュメント2000が分割され得る、5つの表示
ページを示す。テーブル2008、2010、2012、および2014のそれ
ぞれは、単一の表示ページ上に表示されており、これらのテーブルは、出力表示
デバイスのディスプレイ構成の必要条件の範囲内であるために、複数の表示ペー
ジに渡っては表示されていないことに留意されたい。
にはめ込むために、サンプルドキュメント2000が分割され得る、5つの表示
ページを示す。テーブル2008、2010、2012、および2014のそれ
ぞれは、単一の表示ページ上に表示されており、これらのテーブルは、出力表示
デバイスのディスプレイ構成の必要条件の範囲内であるために、複数の表示ペー
ジに渡っては表示されていないことに留意されたい。
【0109】 図22は、1つのドキュメント内に含まれ得る、サンプルテーブル2200を
示す。図23Aおよび23Bは、テーブル2200が表示され得る、サンプル表
示ページを示す。示されるとおり、サンプルテーブル2200のローの見出しを
形成する第1のローの少なくとも一部が、表示ページのそれぞれに表示される。
さらに、サンプルテーブル2200のカラムの見出しを形成する第1のカラムの
少なくとも一部が、表示ページのそれぞれに表示される。図23Aに示す表示ペ
ージにおいて、カラムの見出しに加えて、テーブルの全てのローの最初の2つの
カラムが表示される。図23Bに示す表示ページにおいて、カラムの見出しに加
えて、図23Aに表示された最後のカラムに続く、残りの3つのカラムの全ての
ローが表示される。この例には示さないが、サンプルテーブル2000のローは
、複数の表示ページに渡って表示されるようにも分割され得る。
示す。図23Aおよび23Bは、テーブル2200が表示され得る、サンプル表
示ページを示す。示されるとおり、サンプルテーブル2200のローの見出しを
形成する第1のローの少なくとも一部が、表示ページのそれぞれに表示される。
さらに、サンプルテーブル2200のカラムの見出しを形成する第1のカラムの
少なくとも一部が、表示ページのそれぞれに表示される。図23Aに示す表示ペ
ージにおいて、カラムの見出しに加えて、テーブルの全てのローの最初の2つの
カラムが表示される。図23Bに示す表示ページにおいて、カラムの見出しに加
えて、図23Aに表示された最後のカラムに続く、残りの3つのカラムの全ての
ローが表示される。この例には示さないが、サンプルテーブル2000のローは
、複数の表示ページに渡って表示されるようにも分割され得る。
【0110】 図24は、ドキュメントを表わすデータを出力フォーマットドキュメントに変
換するためのサービスが、ネットワーク2304上で提供され得る、システム2
300の概略図である。図25は、ネットワーク上で、ドキュメントを表わすデ
ータを変換するためのサービスのフローチャートを示す。
換するためのサービスが、ネットワーク2304上で提供され得る、システム2
300の概略図である。図25は、ネットワーク上で、ドキュメントを表わすデ
ータを変換するためのサービスのフローチャートを示す。
【0111】 ドキュメントを表わすデータを変換するためのサービスは、インターネット、
またはイントラネット等のネットワーク2304上のコンピュータシステム23
02によって提供され得る。ネットワーク2304は、ウェブページ等のドキュ
メントを入力フォーマットで提供する、サーバ2306に接続され得る。ネット
ワーク2304はまた、PDA2308、ラップトップコンピュータ2310、
およびデスクトップPC2312等の出力デバイスに接続され得る。図示しない
が、携帯電話およびポケットベル等の多くの他のデバイスも、ネットワーク23
04に接続され得る。
またはイントラネット等のネットワーク2304上のコンピュータシステム23
02によって提供され得る。ネットワーク2304は、ウェブページ等のドキュ
メントを入力フォーマットで提供する、サーバ2306に接続され得る。ネット
ワーク2304はまた、PDA2308、ラップトップコンピュータ2310、
およびデスクトップPC2312等の出力デバイスに接続され得る。図示しない
が、携帯電話およびポケットベル等の多くの他のデバイスも、ネットワーク23
04に接続され得る。
【0112】 コンピュータシステム2302が、PDA2308等の出力デバイスから、サ
ーバ2306によって供給されるドキュメントの表示要求を受信すると、コンピ
ュータシステム2302は、入力フォーマットドキュメントを出力フォーマット
ドキュメントに変換するためのプロセス2500を実行し得る。特に、工程25
02で、プロセス2500は、ネットワーク上で入力ドキュメントを受信する工
程を含む。工程2504で、好ましくは、ウィルス検出プログラムが、入力ドキ
ュメント内のウィルスの存在を検出するために、実行される。ウィルスが検出さ
れた場合は、工程2506が、ネットワークを介して、ユーザまたは要求デバイ
スに、入力ドキュメントがウィルスを含んでいるというメッセージを送信する。
あるいは、ウィルスを含むドキュメントの修復が可能な場合は、ドキュメントは
修復され得、プロセスは工程2508へと継続する。
ーバ2306によって供給されるドキュメントの表示要求を受信すると、コンピ
ュータシステム2302は、入力フォーマットドキュメントを出力フォーマット
ドキュメントに変換するためのプロセス2500を実行し得る。特に、工程25
02で、プロセス2500は、ネットワーク上で入力ドキュメントを受信する工
程を含む。工程2504で、好ましくは、ウィルス検出プログラムが、入力ドキ
ュメント内のウィルスの存在を検出するために、実行される。ウィルスが検出さ
れた場合は、工程2506が、ネットワークを介して、ユーザまたは要求デバイ
スに、入力ドキュメントがウィルスを含んでいるというメッセージを送信する。
あるいは、ウィルスを含むドキュメントの修復が可能な場合は、ドキュメントは
修復され得、プロセスは工程2508へと継続する。
【0113】 ウィルスが検出されない場合、またはウィルスが検出されて、除去された場合
、工程2508は、入力ドキュメントがサポートされたフォーマットであるかど
うかを判断する。入力ドキュメントが、サポートされたフォーマットではない場
合、プロセス2500は終了する。入力ドキュメントがサポートされたフォーマ
ットである場合、工程2510で、入力ドキュメントは中間フォーマットドキュ
メントに変換される。工程2512で、この中間フォーマットドキュメントが、
今度は、出力フォーマットドキュメントに変換される。上述のとおり、この変換
プロセスは、必要に応じて、または要求に応じて、入力ドキュメントの単一のペ
ージが複数の表示ページに分けられ得るようにリフォーマットする工程を含み得
る。
、工程2508は、入力ドキュメントがサポートされたフォーマットであるかど
うかを判断する。入力ドキュメントが、サポートされたフォーマットではない場
合、プロセス2500は終了する。入力ドキュメントがサポートされたフォーマ
ットである場合、工程2510で、入力ドキュメントは中間フォーマットドキュ
メントに変換される。工程2512で、この中間フォーマットドキュメントが、
今度は、出力フォーマットドキュメントに変換される。上述のとおり、この変換
プロセスは、必要に応じて、または要求に応じて、入力ドキュメントの単一のペ
ージが複数の表示ページに分けられ得るようにリフォーマットする工程を含み得
る。
【0114】 工程2514で、コンテンツのテーブルは、上述のとおり、見出しを用いて生
成され、出力フォーマットドキュメントに挿入され得る。さらに、特に、工程2
512で、1より多くの出力フォーマットが生成される場合、工程2514で、
JAVATMスクリプト等の実行可能プログラムが、出力フォーマットドキュメン
トに挿入され得る。JAVATMスクリプトに関して述べたが、Common G
ateway Interface (CGI)、Visual Basic、
Practical extraction and reporting l
anguage (Perl)、C、C++等の他のプログラミング言語は、言
うまでもなく、用いられ得る。好ましくは、JAVATMスクリプトが、出力フォ
ーマットドキュメントの始めに挿入される。JAVATMスクリプトは、表示のた
めに生成された複数の出力フォーマットから、適切な出力フォーマットを選択す
るために、PDA等のディスプレイデバイスによって実行され得る。この適切な
出力フォーマットは、例えば、ディスプレイデバイス、および/またはディスプ
レイデバイスによって用いられるブラウザに依存し得る。出力フォーマットドキ
ュメントは、次いで、工程2516で、ネットワークを介して、ユーザまたは要
求デバイスに送信または配信される。1より多くの出力フォーマットが生成され
る場合、出力ドキュメントが各出力フォーマットごとに生成され得るか、または
単一の出力ドキュメントが全ての出力フォーマットのために生成され得る。いず
れの場合も、JAVATMスクリプトが、好ましくは、各出力ドキュメントに挿入
される。
成され、出力フォーマットドキュメントに挿入され得る。さらに、特に、工程2
512で、1より多くの出力フォーマットが生成される場合、工程2514で、
JAVATMスクリプト等の実行可能プログラムが、出力フォーマットドキュメン
トに挿入され得る。JAVATMスクリプトに関して述べたが、Common G
ateway Interface (CGI)、Visual Basic、
Practical extraction and reporting l
anguage (Perl)、C、C++等の他のプログラミング言語は、言
うまでもなく、用いられ得る。好ましくは、JAVATMスクリプトが、出力フォ
ーマットドキュメントの始めに挿入される。JAVATMスクリプトは、表示のた
めに生成された複数の出力フォーマットから、適切な出力フォーマットを選択す
るために、PDA等のディスプレイデバイスによって実行され得る。この適切な
出力フォーマットは、例えば、ディスプレイデバイス、および/またはディスプ
レイデバイスによって用いられるブラウザに依存し得る。出力フォーマットドキ
ュメントは、次いで、工程2516で、ネットワークを介して、ユーザまたは要
求デバイスに送信または配信される。1より多くの出力フォーマットが生成され
る場合、出力ドキュメントが各出力フォーマットごとに生成され得るか、または
単一の出力ドキュメントが全ての出力フォーマットのために生成され得る。いず
れの場合も、JAVATMスクリプトが、好ましくは、各出力ドキュメントに挿入
される。
【0115】 ユーザは、入力ドキュメント、または、例えば、インターネットウェブアドレ
ス等の入力ドキュメントの位置もしくはアドレスを提供し得る。特定の出力フォ
ーマットはまた、ユーザによって特定されるか、または要求アプリケーションも
しくは出力ディスプレイデバイスに依存して判断され得る。ユーザからの要求お
よび他の情報は、例えば、電子メール、インターネットまたはイントラネットを
介して、ネットワーク2304上をコンピュータシステム2302へと配信され
る得る。
ス等の入力ドキュメントの位置もしくはアドレスを提供し得る。特定の出力フォ
ーマットはまた、ユーザによって特定されるか、または要求アプリケーションも
しくは出力ディスプレイデバイスに依存して判断され得る。ユーザからの要求お
よび他の情報は、例えば、電子メール、インターネットまたはイントラネットを
介して、ネットワーク2304上をコンピュータシステム2302へと配信され
る得る。
【0116】 入力ドキュメントが複数の出力フォーマットドキュメントに変換される場合、
出力ドキュメントは、少なくとも、適切な出力フォーマットドキュメントが、出
力ディスプレイデバイスによって表示されるまで、コンピュータシステム230
2のメモリ内に記憶され得る。あるいは、全ての出力フォーマットドキュメント
が出力ディスプレイデバイスに送信され得、適切な出力フォーマットが、上述の
とおり、JAVATMスクリプトを実行することによって判断され得る。別の例と
しては、プロセス2500は、ユーザによって要求されたか、または出力ディス
プレイデバイスによって表示可能な適切なフォーマットであると判断された出力
フォーマットで、1つの出力ドキュメントのみを生成し得る。よって、プロセス
2500は、入力フォーマットドキュメントを、適切な出力ディスプレイフォー
マットに応じて、動的に、適切な出力フォーマットドキュメントに変換し得る。
出力ドキュメントは、少なくとも、適切な出力フォーマットドキュメントが、出
力ディスプレイデバイスによって表示されるまで、コンピュータシステム230
2のメモリ内に記憶され得る。あるいは、全ての出力フォーマットドキュメント
が出力ディスプレイデバイスに送信され得、適切な出力フォーマットが、上述の
とおり、JAVATMスクリプトを実行することによって判断され得る。別の例と
しては、プロセス2500は、ユーザによって要求されたか、または出力ディス
プレイデバイスによって表示可能な適切なフォーマットであると判断された出力
フォーマットで、1つの出力ドキュメントのみを生成し得る。よって、プロセス
2500は、入力フォーマットドキュメントを、適切な出力ディスプレイフォー
マットに応じて、動的に、適切な出力フォーマットドキュメントに変換し得る。
【0117】 好ましくは、プロセス2500はまた、出力ディスプレイデバイスのブラウザ
が、元の入力ドキュメントに含まれるある種の実行可能物をサポートするかどう
かを判断する工程を含み得る。例えば、上記のとおり、中間および出力フォーマ
ットドキュメントは、他のアプリケーションを起動するためのリンクの実行以外
にも、好ましくは、任意の埋め込みアニメーション、音声および/または音楽を
保持し得る。よって、プロセス2500は、元の入力ドキュメントに含まれたそ
のような実行可能物のいつくかまたは全てが、出力ディスプレイデバイスによっ
てサポートされているかどうか、または実行可能であるかどうかを判断し得る。
そのような実行可能物のある種のものが、出力ディスプレイデバイスによってサ
ポートされないまたは実行可能でない場合、プロセス2500は、エラーメッセ
ージを避けるために、そのような埋め込み実行可能物を除去し得る。あるいは、
変換工程2510は、出力ドキュメントのフォーマットに応じて、このような埋
め込み実行可能物を自動的に除去または保持し得る。
が、元の入力ドキュメントに含まれるある種の実行可能物をサポートするかどう
かを判断する工程を含み得る。例えば、上記のとおり、中間および出力フォーマ
ットドキュメントは、他のアプリケーションを起動するためのリンクの実行以外
にも、好ましくは、任意の埋め込みアニメーション、音声および/または音楽を
保持し得る。よって、プロセス2500は、元の入力ドキュメントに含まれたそ
のような実行可能物のいつくかまたは全てが、出力ディスプレイデバイスによっ
てサポートされているかどうか、または実行可能であるかどうかを判断し得る。
そのような実行可能物のある種のものが、出力ディスプレイデバイスによってサ
ポートされないまたは実行可能でない場合、プロセス2500は、エラーメッセ
ージを避けるために、そのような埋め込み実行可能物を除去し得る。あるいは、
変換工程2510は、出力ドキュメントのフォーマットに応じて、このような埋
め込み実行可能物を自動的に除去または保持し得る。
【0118】 別の実施形態において、特定のブラウザまたは特定の機能のための出力を最適
化するために、ある種の最適化工程が実行され得る。例えば、プロセス2500
は、出力ディスプレイデバイスがINTERNET EXPLORERTM、NE
TSCAPETMを利用する場合、出力ドキュメントを最適化し得る。あるいは、
プロセス2500は、スペース、正確さ、および/または出力のために、出力ド
キュメントを1つまたは複数のファイルとして最適化し得る。これらのパラメー
タは、ユーザによって、あるデフォルト値および/または特定の値に設定され得
る。ユーザはまた、テキストのみまたは画像のみの出力を特定し得る。あるいは
、変換工程2510がそのような最適化工程を実行し得る。
化するために、ある種の最適化工程が実行され得る。例えば、プロセス2500
は、出力ディスプレイデバイスがINTERNET EXPLORERTM、NE
TSCAPETMを利用する場合、出力ドキュメントを最適化し得る。あるいは、
プロセス2500は、スペース、正確さ、および/または出力のために、出力ド
キュメントを1つまたは複数のファイルとして最適化し得る。これらのパラメー
タは、ユーザによって、あるデフォルト値および/または特定の値に設定され得
る。ユーザはまた、テキストのみまたは画像のみの出力を特定し得る。あるいは
、変換工程2510がそのような最適化工程を実行し得る。
【0119】 図26は、1以上の記憶フォーマットを用いる知識ベース、またはドキュメン
トレポジトリを生成するためのプロセス2600を説明するフローチャートを示
す。図27は、同形式の記憶フォーマットを用いる知識ベースまたはドキュメン
トレポジトリが用いられ得る、システム2700の概略図を示す。
トレポジトリを生成するためのプロセス2600を説明するフローチャートを示
す。図27は、同形式の記憶フォーマットを用いる知識ベースまたはドキュメン
トレポジトリが用いられ得る、システム2700の概略図を示す。
【0120】 示されるとおり、上述の変換プロセスは、例えば、単一の同形式の記憶フォー
マットを用いて、各種の入力フォーマットのドキュメントの知識ベースまたはド
キュメントレポジトリを生成するために利用され得る。この記憶フォーマットで
記憶されたドキュメントもまた、その後に、ディスプレイデバイスでの表示のた
めに、他の出力フォーマットに変換され得る。好ましくは、単一の同形式の記憶
フォーマットが利用される場合、出力フォーマットはHTML Version 4.0である。しかしながら、他の記憶フォーマットが利用され得る。
マットを用いて、各種の入力フォーマットのドキュメントの知識ベースまたはド
キュメントレポジトリを生成するために利用され得る。この記憶フォーマットで
記憶されたドキュメントもまた、その後に、ディスプレイデバイスでの表示のた
めに、他の出力フォーマットに変換され得る。好ましくは、単一の同形式の記憶
フォーマットが利用される場合、出力フォーマットはHTML Version 4.0である。しかしながら、他の記憶フォーマットが利用され得る。
【0121】 プロセス2600は、最初に、好ましくはドキュメントの始めにJAVATMス
クリプトを含む、インデックスドキュメントを作成する。上述のとおり、JAV
ATMスクリプトは、表示のために生成された複数の出力フォーマットから、適切
な出力フォーマットを選択するために、PDA等のディスプレイデバイスによっ
て実行され得る。JAVATMが好ましいが、他のプログラミング言語が利用され
得る。インデックスドキュメントが、例えば、あるキーワードを含むドキュメン
トを検索するために、検索エンジンによって利用され得る。インデックスドキュ
メント内に含まれた各キーワードは、1以上の入力ドキュメントに含まれたキー
ワードへのリンクを含み得る。
クリプトを含む、インデックスドキュメントを作成する。上述のとおり、JAV
ATMスクリプトは、表示のために生成された複数の出力フォーマットから、適切
な出力フォーマットを選択するために、PDA等のディスプレイデバイスによっ
て実行され得る。JAVATMが好ましいが、他のプログラミング言語が利用され
得る。インデックスドキュメントが、例えば、あるキーワードを含むドキュメン
トを検索するために、検索エンジンによって利用され得る。インデックスドキュ
メント内に含まれた各キーワードは、1以上の入力ドキュメントに含まれたキー
ワードへのリンクを含み得る。
【0122】 プロセス2600は、次いで、工程2604で、入力ドキュメントまたはファ
イルの位置の確認および入力をし、工程2606で、入力ドキュメントがサポー
トされた入力フォーマットであるかどうかを判断する。入力ドキュメントがサポ
ートされた入力フォーマットである場合、工程2608が、その入力ドキュメン
トを1より多い異なる出力フォーマットドキュメントに変換する。変換工程26
08は、上述のとおり、好ましくは、中間フォーマットを利用する。好ましくは
、工程2610で、入力ドキュメントの全てのまたはあるキーワードのインデッ
クスが生成され、インデックスドキュメントに挿入される。さらに、工程261
2で、コンテンツのテーブルが、好ましくは、対応する出力フォーマットの各出
力フォーマットドキュメントごとに生成され、対応する出力フォーマットドキュ
メントに挿入される。工程2614で、JAVATMスクリプトが、出力フォーマ
ットドキュメント、好ましくは、その出力ドキュメントの始めに挿入され得る。
上述のとおり、JAVATMスクリプトは、表示のために生成された複数の出力フ
ォーマットから、適切な出力フォーマットを選択するために、PDA等のディス
プレイデバイスによって実行され得る。JAVATMスクリプトが好ましいが、他
のプログラミング言語が利用され得る。
イルの位置の確認および入力をし、工程2606で、入力ドキュメントがサポー
トされた入力フォーマットであるかどうかを判断する。入力ドキュメントがサポ
ートされた入力フォーマットである場合、工程2608が、その入力ドキュメン
トを1より多い異なる出力フォーマットドキュメントに変換する。変換工程26
08は、上述のとおり、好ましくは、中間フォーマットを利用する。好ましくは
、工程2610で、入力ドキュメントの全てのまたはあるキーワードのインデッ
クスが生成され、インデックスドキュメントに挿入される。さらに、工程261
2で、コンテンツのテーブルが、好ましくは、対応する出力フォーマットの各出
力フォーマットドキュメントごとに生成され、対応する出力フォーマットドキュ
メントに挿入される。工程2614で、JAVATMスクリプトが、出力フォーマ
ットドキュメント、好ましくは、その出力ドキュメントの始めに挿入され得る。
上述のとおり、JAVATMスクリプトは、表示のために生成された複数の出力フ
ォーマットから、適切な出力フォーマットを選択するために、PDA等のディス
プレイデバイスによって実行され得る。JAVATMスクリプトが好ましいが、他
のプログラミング言語が利用され得る。
【0123】 工程2614の後、または工程2606が、入力ドキュメントがサポートされ
た入力フォーマットでないことを判断した場合、工程2616は、他にも入力フ
ァイルがあるかどうかを判断する。他の入力ファイルがある場合、プロセス26
00は工程2604から継続される。他に入力ファイルがない場合、プロセス2
600は完了する。
た入力フォーマットでないことを判断した場合、工程2616は、他にも入力フ
ァイルがあるかどうかを判断する。他の入力ファイルがある場合、プロセス26
00は工程2604から継続される。他に入力ファイルがない場合、プロセス2
600は完了する。
【0124】 プロセス2600によって生成されたレポジトリは、好ましくは、1以上の記
憶フォーマットならびに入力フォーマットの入力ドキュメントを記憶する。さら
なる入力ドキュメントがレポジトリによって受信されると、プロセス2600は
、さらなる入力ドキュメントのそれぞれを、1以上の記憶フォーマットに変換す
る。1よりも多くの記憶フォーマットが利用される場合、単一の変換されたドキ
ュメントが、複数の記憶フォーマットに入力ドキュメントを含んで生成され得る
。あるいは、それぞれが異なる記憶フォーマットである、複数の記憶ドキュメン
トが生成され得る。
憶フォーマットならびに入力フォーマットの入力ドキュメントを記憶する。さら
なる入力ドキュメントがレポジトリによって受信されると、プロセス2600は
、さらなる入力ドキュメントのそれぞれを、1以上の記憶フォーマットに変換す
る。1よりも多くの記憶フォーマットが利用される場合、単一の変換されたドキ
ュメントが、複数の記憶フォーマットに入力ドキュメントを含んで生成され得る
。あるいは、それぞれが異なる記憶フォーマットである、複数の記憶ドキュメン
トが生成され得る。
【0125】 プロセス2600によって生成された知識ベースまたはドキュメントレポジト
リは、上述の表示リフォーマット機能を含む入力−出力フォーマット変換器とと
もに用いられ得る。例えば、レポジトリからのドキュメントを見る要求は、PD
Aから起こり得る。入力およびレポジトリ記憶フォーマットは、PDAでの表示
に適したフォーマットとは異なり得る。入力−出力フォーマット変換器が、記憶
フォーマットレポジトリドキュメントを、PDAでの表示に適した出力フォーマ
ットドキュメントに変換するために利用され得る。
リは、上述の表示リフォーマット機能を含む入力−出力フォーマット変換器とと
もに用いられ得る。例えば、レポジトリからのドキュメントを見る要求は、PD
Aから起こり得る。入力およびレポジトリ記憶フォーマットは、PDAでの表示
に適したフォーマットとは異なり得る。入力−出力フォーマット変換器が、記憶
フォーマットレポジトリドキュメントを、PDAでの表示に適した出力フォーマ
ットドキュメントに変換するために利用され得る。
【0126】 図27の概略図に示すシステム2700は、上述のプロセス2600を用いて
生成された、知識ベースまたはドキュメントレポジトリを利用する。システム2
700は、ネットワーク2704に結合されたドキュメント変換器2702、お
よび知識ベースまたはドキュメントレポジトリを記憶するコンピュータシステム
2706を含む。ドキュメント変換器2702は、ドキュメントが中間フォーマ
ットドキュメントに変換され、次いで、異なるフォーマットのドキュメントに変
換される得る、上述のドキュメント変換器と同様のものであり得る。ネットワー
ク2704は、例えば、インターネット、またはイントラネットであり得る。各
種のディスプレイデバイス2708は、ネットワーク2704に結合され得る。
ディスプレイデバイスは、例えば、PDA、ラップトップコンピュータ、デスク
トップPC、インターネットに接続されたテレビ、携帯または無線電話機、ポケ
ットベル、および/または音声のみのプロダクトを含む。プロセス2600によ
って生成された知識ベースまたはドキュメントレポジトリを利用するために、シ
ステム2700の他の構成が実現され得る。
生成された、知識ベースまたはドキュメントレポジトリを利用する。システム2
700は、ネットワーク2704に結合されたドキュメント変換器2702、お
よび知識ベースまたはドキュメントレポジトリを記憶するコンピュータシステム
2706を含む。ドキュメント変換器2702は、ドキュメントが中間フォーマ
ットドキュメントに変換され、次いで、異なるフォーマットのドキュメントに変
換される得る、上述のドキュメント変換器と同様のものであり得る。ネットワー
ク2704は、例えば、インターネット、またはイントラネットであり得る。各
種のディスプレイデバイス2708は、ネットワーク2704に結合され得る。
ディスプレイデバイスは、例えば、PDA、ラップトップコンピュータ、デスク
トップPC、インターネットに接続されたテレビ、携帯または無線電話機、ポケ
ットベル、および/または音声のみのプロダクトを含む。プロセス2600によ
って生成された知識ベースまたはドキュメントレポジトリを利用するために、シ
ステム2700の他の構成が実現され得る。
【0127】 上記は、本発明の好適な実施形態の完全な説明であるが、各種の代替物、改変
物、および同等物を用いることが可能である。本発明が上述の実施形態に適切な
修正を加えることによって、同様に適用できることは明らかである。それゆえ、
上記の記載は、請求の範囲、およびその同等物の全ての範囲によって規定される
本発明の範囲を限定するものではない。
物、および同等物を用いることが可能である。本発明が上述の実施形態に適切な
修正を加えることによって、同様に適用できることは明らかである。それゆえ、
上記の記載は、請求の範囲、およびその同等物の全ての範囲によって規定される
本発明の範囲を限定するものではない。
【図1】 図1は、本発明の実施形態のソフトウェアを実行するために用いられ得るコン
ピュータシステムの一例を示す。
ピュータシステムの一例を示す。
【図2】 図2は、図2のコンピュータシステムのシステムブロック図である。
【図3】 図3は、文書を表すデータをオリジナルの入力形式から別の出力形式に変換す
る方法の概要を示すフロー図である。
る方法の概要を示すフロー図である。
【図4】 図4は、入力データを別の出力形式に変換する工程を示すフロー図である。
【図5】 図5は、文書を表すデータを別の出力形式に変換する工程を模式的に示したも
のである。
のである。
【図6】 図6は、文書を表すデータを、portable document for
mat、次に中間形式、そして最後に別の出力形式に変換する工程を模式的に示
したものである。
mat、次に中間形式、そして最後に別の出力形式に変換する工程を模式的に示
したものである。
【図7】 図7は、文書画像からデータを抽出して、抽出データを中間形式に変換する工
程を示すフロー図を示す。
程を示すフロー図を示す。
【図8】 図8は、単語を線に結びつけるプロセスの工程を示すフロー図を示す。
【図9】 図9は、単語および線を結びつける際に用いられる様々な基準を示すサンプル
文書の一部を示す。
文書の一部を示す。
【図10】 図10は、線をパラグラフとして結びつける処理工程を示すフロー図を示す。
【図11】 図11は、ある中間形式で格納されている文書をある出力形式に変換するプロ
セスを示すフロー図を示す。
セスを示すフロー図を示す。
【図12】 図12は、中間形式からスタイルシート付き出力形式を有するRTFまたはH
TMLに変換する工程を示すフロー図を示す。
TMLに変換する工程を示すフロー図を示す。
【図13】 図13は、中間形式からTIFF出力形式(または他の画像形式)に変換する
工程を示すフロー図を示す。
工程を示すフロー図を示す。
【図14】 図14は、ある中間形式から表形式HTML出力形式に変換する工程の第1の
部分を示すフロー図を示す。
部分を示すフロー図を示す。
【図15A】 図15Aは、中間形式ブロックを示すサンプル文書のページを示す。
【図15B】 図15Bは、図15Aのサンプル文書ページを分割してマクロ表のセルにした
ものを示す。
ものを示す。
【図15C】 図15Cは、図15Aのサンプル文書ページを分割してマクロ表のセルにした
ものを示す。
ものを示す。
【図16】 図16は、中間形式から表形式HTML出力形式に変換したものの第2の部分
を示すフロー図を示す。
を示すフロー図を示す。
【図17】 図17は、マクロ表の分割不可能セルを区分分けして最高共通因子座標表を生
成し、セル内の各ブロックを、その座標表中の対応座標に配置する工程を示すサ
ンプル文書ページを示す。
成し、セル内の各ブロックを、その座標表中の対応座標に配置する工程を示すサ
ンプル文書ページを示す。
【図18】 図18は、文書を表示ページに再フォーマットして、異なる構成の表示を行う
プロセスのフロー図を示す。
プロセスのフロー図を示す。
【図19】 図19は、各部分が表示構成の表示パラメータ内に収まるように現在のブロッ
クを分割し、現在のブロックの部分を表示する工程を示すフロー図を示す。
クを分割し、現在のブロックの部分を表示する工程を示すフロー図を示す。
【図20】 図20は、サブ改ページおよび表を有するサンプル文書を示す。
【図21A】 図21Aは、図20のサンプル文書を分割した表示ページを示す。
【図21B】 図21Bは、図20のサンプル文書を分割した表示ページを示す。
【図21C】 図21Cは、図20のサンプル文書を分割した表示ページを示す。
【図21D】 図21Dは、図20のサンプル文書を分割した表示ページを示す。
【図21E】 図21Eは、図20のサンプル文書を分割した表示ページを示す。
【図22】 図22は、文書中に含まれ得るサンプル表を示す。
【図23A】 図23Aは、図22の表を示し得るサンプル表示ページを示す。
【図23B】 図23Bは、図22の表を示し得るサンプル表示ページを示す。
【図24】 図24は、文書を表すデータを変換するサービスをネットワークを介して提供
し得るシステムの模式図を示す。
し得るシステムの模式図を示す。
【図25】 図25は、データ文書を表すデータをネットワークを介して変換するサービス
を示すフロー図を示す。
を示すフロー図を示す。
【図26】 図26は、単一の格納形式を用いて知識ベースまたは文書レポジトリを生成す
るプロセスを示すフロー図を示す。
るプロセスを示すフロー図を示す。
【図27】 図27は、単一の格納形式を用いた知識ベースまたは文書レポジトリが使用可
能なシステムの模式図を示す。
能なシステムの模式図を示す。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),CN,JP,R U (72)発明者 ツパジ, スコット アメリカ合衆国 マサチューセッツ 02141, ケンブリッジ, プリマウス ストリート ナンバー2 31 (72)発明者 コイチ, アリヨシ アメリカ合衆国 カリフォルニア 95129, サン ノゼ, ワイ303, エス. サ ラトガ アベニュー 700 (72)発明者 ハルトノ, ラクマット アメリカ合衆国 カリフォルニア 95132, サン ノゼ, マドリッド ドライブ 3611 (72)発明者 ジャジャディ, ティモチアス アメリカ合衆国 カリフォルニア 95136, サン ノゼ, サファイア コート 903 (72)発明者 ウィッジャジャ, ハンヤン アメリカ合衆国 カリフォルニア 95136, サン ノゼ, サファイア コート 903 Fターム(参考) 5B009 NG00 NG03 QA07 QA11 SA03 5B082 GA02
Claims (29)
- 【請求項1】 第1のフォーマットの第1のドキュメントを、異なる第2の
フォーマットの第2のドキュメントに変換する、コンピュータで実現される方法
であって、 該第1のドキュメント内のデータの位置を確認する工程と、 データを、中間フォーマットドキュメント内の少なくとも1つの中間フォーマ
ットブロックにグループ分けする工程と、 該中間フォーマットドキュメントを、該中間フォーマットブロックを用いて、
該第2のフォーマットドキュメントに変換する工程と、 を包含する方法。 - 【請求項2】 前記グループ分けの工程が、 前記第1のドキュメント内の単語の位置を確認する工程と、 行閾値を満たす単語を行に組み込む工程と、 段落閾値を満たす行を段落に組み込む工程であって、各段落が該中間フォーマ
ットブロックのうちの1つである、工程と、 テーブルの位置を確認する工程であって、各テーブルが前記中間フォーマット
ブロックのうちの1つである、工程と、 を包含する、請求項1に記載のコンピュータで実現される方法。 - 【請求項3】 前記グループ分けの工程が、 前記第1のドキュメント内のタグの位置を確認する工程と、 該タグを用いて、単語の位置確認、単語の行への組み込み、行の段落への組み
込み、およびテーブルの位置確認を行う工程と、 を包含する、請求項2に記載のコンピュータで実現される方法。 - 【請求項4】 各中間フォーマットブロックが、単語、行、段落、テーブル
およびイメージから成る群から選択される、請求項2に記載のコンピュータで実
現される方法。 - 【請求項5】 前記第1のフォーマットおよび第2のフォーマットのそれぞ
れが、portable document format(PDF)、ric
h text format(RTF)、hypertext markup
language(HTML)、extensible markup lan
guage(XML)、cascading style sheets(CS
S)、ネットスケープレイヤー、リンクされた個々のページ、Tag Imag
e File Format(TIFF)、graphics interch
ange format(GIFF)、ビットマップ(BMP)、Joint
Photographic Experts Group(JPEG)、MIC
ROSOFT WORDTM、WORD PERFECTTM、AUTOCADTM、
およびPOWER POINTTMから成る群から選択される、請求項1に記載の
コンピュータで実現される方法。 - 【請求項6】 コンピュータで実現される方法であって、前記第2のフォー
マットが、hypertext markup language(HTML)
、およびrich text format(RTF)から選択される、該方法
は、 各中間フォーマットブロックの座標を判断する工程と、 各中間フォーマットブロックごとに、第2のフォーマットブロックを生成する
工程と、 各中間フォーマットブロックごとに、第2のフォーマットスタイルシートを生
成する工程であって、各第2のフォーマットスタイルシートの座標が、対応する
中間フォーマットブロックの座標と一致する、工程と、 中間フォーマットブロックフォントを第2のフォーマットフォントに割り当て
ることにより、第2のフォーマットブロックを第2のフォーマットスタイルシー
トにはめ込む工程と、 各第2のフォーマットブロックを対応する第2のフォーマットスタイルシート
に配置する工程と、 を包含する、請求項1に記載の方法。 - 【請求項7】 コンピュータで実現される方法であって、前記第2のフォー
マットがhypertext markup language(HTML)で
ある、該方法は、 座標のテーブルを生成する工程であって、該座標の少なくとも1つのサブセッ
トが、各中間フォーマットブロックの座標と対応する、工程と、 各中間フォーマットブロックを該座標のテーブル内の該対応する座標に配置す
る工程と、 を包含する、請求項1に記載の方法。 - 【請求項8】 前記座標のテーブルを生成する工程が、 前記中間フォーマットドキュメントに渡って広がる隔たりを判断する工程と、 該中間フォーマットドキュメントの一部に対応するセルを有するマクロテーブ
ルを、該隔たりの外側に作成する工程と、 該マクロテーブルの各セルを、該セルを渡って広がる隔たりを判断することに
よって、各セルをさらに分割することができなくなるまで、繰り返して分割する
工程と、 を包含する、請求項7に記載のコンピュータで実現される方法。 - 【請求項9】 コンピュータで実現される方法であって、前記第2のフォー
マットが、イメージビットマップフォーマットである、該方法は、 中間フォーマットブロックを用いて、前記中間フォーマットドキュメントのビ
ットマップを生成する工程と、 該ビットマップを第2のイメージドキュメントに配置する工程と、 を包含する、請求項1に記載の方法。 - 【請求項10】 前記第1のドキュメントがネットワーク上で受信され、前
記第2のドキュメントが該ネットワーク上に送信される、請求項1に記載のコン
ピュータで実現される方法。 - 【請求項11】 前記ネットワークがインターネットおよびイントラネット
から成る群から選択される、請求項10に記載のコンピュータで実現される方法
。 - 【請求項12】 前記受信および送信が電子メールを介する、請求項11に
記載のコンピュータで実現される方法。 - 【請求項13】 コンピュータで実現される方法であって、 前記第1のドキュメントの見出しの位置を確認する工程と、 前記第2のフォーマットの該見出しを含むコンテンツページのテーブルを生成
する工程であって、各コンテンツ見出しのテーブルが、該ドキュメント内に含ま
れる該見出しへのリンクを含む、工程と、 該コンテンツページのテーブルを前記第2のドキュメントに配置する工程と、
をさらに包含する、請求項10に記載の方法。 - 【請求項14】 前記中間フォーマットドキュメントを前記第2のフォーマ
ットドキュメントに変換する工程が、 1つの第2のフォーマットの該第2のフォーマットドキュメントに変換する工
程と、 複数の第2のフォーマットの該第2のフォーマットドキュメントに変換する工
程と、 それぞれが異なる第2のフォーマットの該複数の第2のフォーマットドキュメ
ントに変換する工程と、 から成る群から選択される、請求項10に記載のコンピュータで実現される方法
。 - 【請求項15】 コンピュータで実現される方法であって、 表示される1つの第2のフォーマットを選択するためのコンピュータ実行可能
プログラムを生成する工程と、 該コンピュータ実行可能プログラムを前記第2のドキュメントに挿入する工程
と、 をさらに包含する、請求項14に記載のコンピュータで実現される方法。 - 【請求項16】 前記コンピュータ実行可能プログラムが、JAVA(登録 商標)、Common Gateway Interface(CGI)、Vi sual Basic、Practical extraction and reporting language(Perl)、C、およびC++から成 る群から選択されるプログラミング言語で書かれる、請求項15に記載のコンピ ュータで実現される方法。
- 【請求項17】 第1のフォーマットのドキュメントを、異なる第2のフォ
ーマットのドキュメントに変換するためのコンピュータプログラムプロダクトで
あって、 該第1のドキュメントのデータの位置を確認するコンピュータコードと、 データを、中間フォーマットドキュメント内の少なくとも1つの中間フォーマ
ットブロックにグループ分けするコンピュータコードと、 該中間フォーマットドキュメントを、該中間フォーマットブロックを用いて、
該第2のフォーマットドキュメントに変換するコンピュータコードと、 該コンピュータコードを記憶するコンピュータ可読媒体と、 を含むコンピュータプログラムプロダクト。 - 【請求項18】 前記コンピュータ可読媒体が、CD−ROM、ジップディ
スク、フロッピー(登録商標)ディスク、テープ、フラッシュメモリ、システム メモリ、ハードドライブ、および搬送波に組み入れられるデータ信号からなる群 から選択される、請求項17に記載のコンピュータプログラムプロダクト。 - 【請求項19】 ドキュメントを表示するためのコンピュータで実現される
方法であって、 該ドキュメント内のサブページ区切りの位置を確認する工程と、 該ドキュメントをサブページ区切りを用いてサブページに細分化する工程と、 各サブページ内のブロックの位置を確認する工程と、 該サブページの各ブロックの全てまたは一部を、ディスプレイ構成のディスプ
レイパラメータの範囲内で連続して表示する工程と、 を包含する方法。 - 【請求項20】 前記連続して表示する工程が、 各ブロックが、前記ディスプレイ構成のディスプレイパラメータの範囲内で表
示することができるかどうかを判断する工程と、 ディスプレイパラメータの範囲内にないブロックを、該ディスプレイ構成の該
ディスプレイパラメータの範囲内になるように、複数の部分に分割する工程と、
を包含する、請求項19に記載のドキュメントを表示するためのコンピュータで
実現される方法。 - 【請求項21】 前記ドキュメントがmarkup language f
ormatである、請求項19に記載のドキュメントを表示するためのコンピュ
ータで実現される方法。 - 【請求項22】 ドキュメントを表示するためのコンピュータで実現される
方法であって、 該ドキュメントの見出しの位置を確認する工程と、 該見出しを含むコンテンツページのテーブルを生成する工程であって、各コン
テンツ見出しのテーブルが、該ドキュメント内に含まれる該見出しへのリンクを
含む、工程と、 該コンテンツページのテーブルを前記第2のドキュメントに配置する工程と、
をさらに包含する、請求項19に記載のドキュメントを表示するためのコンピュ
ータで実現される方法。 - 【請求項23】 前記ブロックを分割する工程が、 該ブロックがテーブルであるかどうかを判断する工程と、 該ブロックがテーブルでない場合に、該ブロックの全ての構成要素が表示され
るまで、該ブロックの各構成要素を連続して表示する工程と、 該ブロックがテーブルである場合に、 該テーブルの前記見出し、および前記ディスプレイパラメータの範囲内で表
示可能な該テーブルの見出しではないカラムのサブセットを判断する工程と、 該テーブルの全てのローの見出しではないカラムの該サブセットを表示する
工程と、 該ディスプレイパラメータの範囲内で表示可能な該テーブルの見出しではな
いカラムの次のサブセットを判断し、該テーブルの全てのローおよび全てのカラ
ムが表示されるまで、該テーブルの全てのローの該見出しでないカラムを表示し
続ける工程と、 を包含する、請求項20に記載のドキュメントを表示するためのコンピュータで
実現される方法。 - 【請求項24】 少なくとも1つの記憶フォーマットの第1のドキュメン
トのレポジトリを保存するためのコンピュータプログラムプロダクトであって、 少なくとも1つの第1のドキュメントを受信するコンピュータコードと、 該少なくとも1つの記憶フォーマットのドキュメントを記憶するために、少な
くとも1つの第1のフォーマットの該第1のドキュメントを変換するコンピュー
タコードと、 該コンピュータコードを記憶するコンピュータ可読媒体と、 を含むコンピュータプログラムプロダクト。 - 【請求項25】 前記コンピュータ可読媒体が、CD−ROM、ジップディ
スク、フロッピーディスク、テープ、フラッシュメモリ、システムメモリ、ハー
ドドライブ、および搬送波に組み入れられるデータ信号からなる群から選択され
る、請求項24に記載のコンピュータプログラムプロダクト。 - 【請求項26】 前記記憶ドキュメントを表示ドキュメントに変換するコン
ピュータコードをさらに含む、請求項24に記載のコンピュータプログラムプロ
ダクト。 - 【請求項27】 コンピュータプログラムプロダクトであって、 前記第1のドキュメント内のキーワードの位置を確認するコンピュータコード
と、 該位置確認されたキーワードのインデックスドキュメントを生成するコンピュ
ータコードであって、該インデックスドキュメントが該キーワードを含み、各キ
ーワードが、少なくとも1つの第1のドキュメント内に含まれる該キーワードへ
の少なくとも1つのリンクを含む、請求項24に記載のコンピュータプログラム
プロダクト。 - 【請求項28】 コンピュータプログラムプロダクトであって、 1つの第2のフォーマットを選択するためのコンピュータ実行可能プログラム
を生成するコンピュータコードと、 該コンピュータ実行可能プログラムを前記第2のドキュメントに挿入するコン
ピュータコードと、 をさらに含む、請求項24に記載のコンピュータプログラムプロダクト。 - 【請求項29】 コンピュータプログラムプロダクトであって、 前記第1のドキュメントの見出しの位置を確認するコンピュータコードと、 各第1のドキュメントごとに、コンテンツページのテーブルを生成するコンピ
ュータコードであって、該コンテンツページのテーブルが該見出しを含み、コン
テンツ見出しの各テーブルが、該第1のドキュメント内に含まれる該見出しへの
リンクを含む、コンピュータコードと、 該コンテンツページのテーブルを前記第2のドキュメントに配置するコンピュ
ータコードと、 をさらに含む、請求項24に記載のコンピュータプログラムプロダクト。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10268898P | 1998-10-01 | 1998-10-01 | |
US60/102,688 | 1998-10-01 | ||
US09/346,786 | 1999-07-07 | ||
US09/346,786 US6336124B1 (en) | 1998-10-01 | 1999-07-07 | Conversion data representing a document to other formats for manipulation and display |
PCT/US1999/019253 WO2000020985A1 (en) | 1998-10-01 | 1999-08-20 | Conversion of data representing a document to other formats for manipulation and display |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002526862A true JP2002526862A (ja) | 2002-08-20 |
Family
ID=26799627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000575041A Withdrawn JP2002526862A (ja) | 1998-10-01 | 1999-08-20 | ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6336124B1 (ja) |
EP (1) | EP1153350A2 (ja) |
JP (1) | JP2002526862A (ja) |
WO (1) | WO2000020985A1 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229915A (ja) * | 2001-01-30 | 2002-08-16 | Cognitive Research Laboratories Inc | 電子メールへのプログラム配信機能の自動付加システム |
JP2004510253A (ja) * | 2000-09-27 | 2004-04-02 | エイゼル・テクノロジーズ・インコーポレーテッド | 能力が限られたデバイス上で用いるための電子文書の区分処理 |
WO2004053724A1 (ja) * | 2002-12-06 | 2004-06-24 | Sharp Kabushiki Kaisha | データ変換装置、データ変換方法、および、データ変換プログラムを記録した記録媒体 |
US7890855B2 (en) | 2001-07-27 | 2011-02-15 | Sap Ag | Method and computer system for separating and processing layout information and data of a document |
US8037407B2 (en) | 2001-07-27 | 2011-10-11 | Sap Ag | Method and computer system for creating and processing a browser compliant human interface description |
JP2014071552A (ja) * | 2012-09-28 | 2014-04-21 | Nec Corp | データ形式変換装置、方法、及び、プログラム |
WO2014073941A1 (ko) * | 2012-11-12 | 2014-05-15 | 한국과학기술정보연구원 | 전자 서식 변환 장치 및 방법 |
US11966685B1 (en) * | 2023-02-24 | 2024-04-23 | Ying Zhang Lu | Webpage edition system and method thereof |
WO2024122858A1 (ko) * | 2022-12-05 | 2024-06-13 | 김주명 | 문서 자동변환 및 편집 프로그램 |
Families Citing this family (438)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487566B1 (en) * | 1998-10-05 | 2002-11-26 | International Business Machines Corporation | Transforming documents using pattern matching and a replacement language |
US6480865B1 (en) * | 1998-10-05 | 2002-11-12 | International Business Machines Corporation | Facility for adding dynamism to an extensible markup language |
US7117452B1 (en) | 1998-12-15 | 2006-10-03 | International Business Machines Corporation | System and method for customizing workspace |
US6711624B1 (en) * | 1999-01-13 | 2004-03-23 | Prodex Technologies | Process of dynamically loading driver interface modules for exchanging data between disparate data hosts |
US6535896B2 (en) * | 1999-01-29 | 2003-03-18 | International Business Machines Corporation | Systems, methods and computer program products for tailoring web page content in hypertext markup language format for display within pervasive computing devices using extensible markup language tools |
US7257767B1 (en) * | 1999-02-09 | 2007-08-14 | Carden Jr William T | System and method for publishing documents |
US8321411B2 (en) | 1999-03-23 | 2012-11-27 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US6567796B1 (en) | 1999-03-23 | 2003-05-20 | Microstrategy, Incorporated | System and method for management of an automatic OLAP report broadcast system |
US6446110B1 (en) * | 1999-04-05 | 2002-09-03 | International Business Machines Corporation | Method and apparatus for representing host datastream screen image information using markup languages |
US6463440B1 (en) * | 1999-04-08 | 2002-10-08 | International Business Machines Corporation | Retrieval of style sheets from directories based upon partial characteristic matching |
US6542913B1 (en) * | 1999-04-23 | 2003-04-01 | Xerox Corporation | Integrated document output management in a hybrid environment |
US6986101B2 (en) * | 1999-05-06 | 2006-01-10 | International Business Machines Corporation | Method and apparatus for converting programs and source code files written in a programming language to equivalent markup language files |
US7263655B1 (en) * | 1999-05-21 | 2007-08-28 | Thomson Scientific Inc. | System and method for publishing manuscripts |
US8607138B2 (en) | 1999-05-28 | 2013-12-10 | Microstrategy, Incorporated | System and method for OLAP report generation with spreadsheet report within the network user interface |
US9208213B2 (en) | 1999-05-28 | 2015-12-08 | Microstrategy, Incorporated | System and method for network user interface OLAP report formatting |
US6675351B1 (en) * | 1999-06-15 | 2004-01-06 | Sun Microsystems, Inc. | Table layout for a small footprint device |
US6565609B1 (en) * | 1999-06-15 | 2003-05-20 | Microsoft Corporation | Translating data into HTML while retaining formatting and functionality for returning the translated data to a parent application |
US6643825B1 (en) * | 1999-07-14 | 2003-11-04 | International Business Machines Corporation | Methods, systems, and computer program products for applying styles to host screens based on host screen content |
US7200809B1 (en) | 1999-08-04 | 2007-04-03 | Oracle International Corporation | Multi-device support for mobile applications using XML |
US7278094B1 (en) | 2000-05-03 | 2007-10-02 | R. R. Donnelley & Sons Co. | Variable text processing for an electronic press |
US20050223408A1 (en) * | 1999-09-13 | 2005-10-06 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for entertainment-related information |
US6964012B1 (en) * | 1999-09-13 | 2005-11-08 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, including deployment through personalized broadcasts |
US6836537B1 (en) | 1999-09-13 | 2004-12-28 | Microstrategy Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for information related to existing travel schedule |
US8130918B1 (en) | 1999-09-13 | 2012-03-06 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with closed loop transaction processing |
US6829334B1 (en) | 1999-09-13 | 2004-12-07 | Microstrategy, Incorporated | System and method for the creation and automatic deployment of personalized, dynamic and interactive voice services, with telephone-based service utilization and control |
US6768788B1 (en) * | 1999-09-13 | 2004-07-27 | Microstrategy, Incorporated | System and method for real-time, personalized, dynamic, interactive voice services for property-related information |
US6799299B1 (en) * | 1999-09-23 | 2004-09-28 | International Business Machines Corporation | Method and apparatus for creating stylesheets in a data processing system |
US6715129B1 (en) * | 1999-10-13 | 2004-03-30 | International Business Machines Corporation | Achieving application-specific document content by transcoding using Java Server Pages |
US7249318B1 (en) * | 1999-11-08 | 2007-07-24 | Adobe Systems Incorporated | Style sheet generation |
US6532476B1 (en) * | 1999-11-13 | 2003-03-11 | Precision Solutions, Inc. | Software based methodology for the storage and retrieval of diverse information |
JP3470664B2 (ja) * | 1999-12-01 | 2003-11-25 | 日本電気株式会社 | 受信メール表示方法及び絵文字変換機能付き電子メール端末装置 |
US7146566B1 (en) * | 1999-12-14 | 2006-12-05 | International Business Machines Corporation | Method and system for multiformat presentation |
US6772413B2 (en) * | 1999-12-21 | 2004-08-03 | Datapower Technology, Inc. | Method and apparatus of data exchange using runtime code generator and translator |
US6484178B1 (en) * | 1999-12-30 | 2002-11-19 | The Merallis Company | Universal claims formatter |
KR100431255B1 (ko) * | 2000-01-12 | 2004-05-12 | 세이코 엡슨 가부시키가이샤 | 휴대단말 및 데이터 출력제어 시스템 |
EP1117049A1 (en) * | 2000-01-14 | 2001-07-18 | Sun Microsystems, Inc. | Dynamic conversion of data |
EP1117220A1 (en) | 2000-01-14 | 2001-07-18 | Sun Microsystems, Inc. | Method and system for protocol conversion |
EP1117050A1 (en) | 2000-01-14 | 2001-07-18 | Sun Microsystems, Inc. | Individual data representation |
US6779154B1 (en) * | 2000-02-01 | 2004-08-17 | Cisco Technology, Inc. | Arrangement for reversibly converting extensible markup language documents to hypertext markup language documents |
US6633314B1 (en) * | 2000-02-02 | 2003-10-14 | Raja Tuli | Portable high speed internet device integrating cellular telephone and palm top computer |
US6810429B1 (en) * | 2000-02-03 | 2004-10-26 | Mitsubishi Electric Research Laboratories, Inc. | Enterprise integration system |
EP1184779A4 (en) * | 2000-02-21 | 2003-01-22 | Seiko Epson Corp | MEDIATION SYSTEM FOR NETWORK PRINTING |
CA2299824C (en) * | 2000-03-01 | 2012-02-21 | Spicer Corporation | Network resource control system |
US8843617B2 (en) * | 2000-03-01 | 2014-09-23 | Printeron Inc. | Multi-stage polling mechanism and system for the transmission and processing control of network resource data |
CA2301996A1 (en) * | 2000-03-13 | 2001-09-13 | Spicer Corporation | Wireless attachment enabling |
US6738767B1 (en) * | 2000-03-20 | 2004-05-18 | International Business Machines Corporation | System and method for discovering schematic structure in hypertext documents |
US6757870B1 (en) * | 2000-03-22 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Automatic table detection method and system |
US6963908B1 (en) | 2000-03-29 | 2005-11-08 | Symantec Corporation | System for transferring customized hardware and software settings from one computer to another computer to provide personalized operating environments |
US7032011B2 (en) | 2000-03-29 | 2006-04-18 | Symantec Corporation | Server based extraction, transfer, storage and processing of remote settings, files and data |
US7092985B2 (en) * | 2000-03-30 | 2006-08-15 | United Devices, Inc. | Method of managing workloads and associated distributed processing system |
US8010703B2 (en) * | 2000-03-30 | 2011-08-30 | Prashtama Wireless Llc | Data conversion services and associated distributed processing system |
US6963897B1 (en) * | 2000-03-30 | 2005-11-08 | United Devices, Inc. | Customer services and advertising based upon device attributes and associated distributed processing system |
USRE42153E1 (en) | 2000-03-30 | 2011-02-15 | Hubbard Edward A | Dynamic coordination and control of network connected devices for large-scale network site testing and associated architectures |
US20040103139A1 (en) * | 2000-03-30 | 2004-05-27 | United Devices, Inc. | Distributed processing system having sensor based data collection and associated method |
US20010039497A1 (en) * | 2000-03-30 | 2001-11-08 | Hubbard Edward A. | System and method for monitizing network connected user bases utilizing distributed processing systems |
US20090216641A1 (en) | 2000-03-30 | 2009-08-27 | Niration Network Group, L.L.C. | Methods and Systems for Indexing Content |
US20090222508A1 (en) * | 2000-03-30 | 2009-09-03 | Hubbard Edward A | Network Site Testing |
US7072055B1 (en) * | 2000-03-31 | 2006-07-04 | Hewlett-Packard Development Company, L.P. | Encapsulated pdf direct printing |
AU4465101A (en) * | 2000-03-31 | 2001-10-08 | Kyocera Communication Systems, Co., Ltd. | Contents providing system |
US7836395B1 (en) * | 2000-04-06 | 2010-11-16 | International Business Machines Corporation | System, apparatus and method for transformation of java server pages into PVC formats |
WO2001077847A1 (en) * | 2000-04-07 | 2001-10-18 | Financeware.Com | Method and apparatus for rendering electronic documents |
US7576730B2 (en) * | 2000-04-14 | 2009-08-18 | Picsel (Research) Limited | User interface systems and methods for viewing and manipulating digital documents |
US7009626B2 (en) * | 2000-04-14 | 2006-03-07 | Picsel Technologies Limited | Systems and methods for generating visual representations of graphical data and digital document processing |
US6781600B2 (en) * | 2000-04-14 | 2004-08-24 | Picsel Technologies Limited | Shape processor |
US7055095B1 (en) * | 2000-04-14 | 2006-05-30 | Picsel Research Limited | Systems and methods for digital document processing |
US6834312B2 (en) * | 2000-05-02 | 2004-12-21 | Cadopener.Com 11C | Method and apparatus for delivery of data over a network |
US6625335B1 (en) * | 2000-05-11 | 2003-09-23 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for assigning keywords to documents |
SE0001842D0 (sv) * | 2000-05-18 | 2000-05-18 | Ericsson Telefon Ab L M | Interface protocol |
WO2001095631A2 (en) * | 2000-06-09 | 2001-12-13 | British Broadcasting Corporation | Generation subtitles or captions for moving pictures |
US7418653B1 (en) * | 2000-11-17 | 2008-08-26 | Olive Software Inc. | System and method for data publication through web pages |
US7600183B2 (en) * | 2000-06-16 | 2009-10-06 | Olive Software Inc. | System and method for data publication through web pages |
US6901519B1 (en) * | 2000-06-22 | 2005-05-31 | Infobahn, Inc. | E-mail virus protection system and method |
JP2002014852A (ja) * | 2000-06-29 | 2002-01-18 | Ataka Engineering Co Ltd | 通信端末用ファイル変換サービスの提供方法 |
EP1172722A3 (en) * | 2000-07-12 | 2003-08-06 | Matsushita Electric Industrial Co., Ltd. | Display device |
US7072052B1 (en) * | 2000-07-21 | 2006-07-04 | Canon Kabushiki Kaisha | Efficient rasterization system and method |
US6654758B1 (en) * | 2000-07-21 | 2003-11-25 | Unisys Corporation | Method for searching multiple file types on a CD ROM |
US6938083B1 (en) * | 2000-07-21 | 2005-08-30 | Unisys Corporation | Method of providing duplicate original file copies of a searched topic from multiple file types derived from the web |
US7287095B2 (en) * | 2000-08-03 | 2007-10-23 | Fujitsu Limited | Processing method, processing apparatus and storage medium |
US7373422B1 (en) * | 2000-08-04 | 2008-05-13 | Oracle International Corporation | Techniques for supporting multiple devices in mobile applications |
US7013329B1 (en) | 2000-08-04 | 2006-03-14 | Oracle International Corporation | Techniques for programming event-driven transactions in mobile applications |
JP2002056033A (ja) * | 2000-08-11 | 2002-02-20 | Nissei Plastics Ind Co | データ処理サービス方法 |
US6941511B1 (en) * | 2000-08-31 | 2005-09-06 | International Business Machines Corporation | High-performance extensible document transformation |
MXPA01008719A (es) * | 2000-09-06 | 2002-04-10 | Air Products Polymers Lp | Conservacion de emulsiones polimericas usando compuestos cationicos. |
AU2001291306A1 (en) * | 2000-09-12 | 2002-03-26 | Infolibria, Inc. | Managing distribution and local execution of computing resources |
US7613810B2 (en) * | 2000-09-27 | 2009-11-03 | Nokia Inc. | Segmenting electronic documents for use on a device of limited capability |
US7210100B2 (en) * | 2000-09-27 | 2007-04-24 | Eizel Technologies, Inc. | Configurable transformation of electronic documents |
JP4657432B2 (ja) * | 2000-09-28 | 2011-03-23 | 富士通株式会社 | 階層構造の構造化文書を変換する装置 |
US6983331B1 (en) * | 2000-10-17 | 2006-01-03 | Microsoft Corporation | Selective display of content |
US7260777B2 (en) * | 2001-08-17 | 2007-08-21 | Desknet Inc. | Apparatus, method and system for transforming data |
US6854008B1 (en) * | 2000-10-24 | 2005-02-08 | Canon Kabushiki Kaisha | Automatically uploading and organizing documents in a document server |
DE10054887A1 (de) * | 2000-11-06 | 2002-05-08 | Fileants Com Ag | Verfahren zum Austausch von Daten in einem Netzwerk, Vorrichtung zur Durchführung des Verfahrens, Computerprogramm zum Durchführen desselben und Datenträger, auf dem ein solches gespeichert ist |
US7181508B1 (en) * | 2000-11-09 | 2007-02-20 | Oki Data Americas, Inc. | System and method for communicating, monitoring and configuring a device operatively connected to a network |
US8255791B2 (en) | 2000-11-29 | 2012-08-28 | Dov Koren | Collaborative, flexible, interactive real-time displays |
US20020143821A1 (en) * | 2000-12-15 | 2002-10-03 | Douglas Jakubowski | Site mining stylesheet generator |
EP1215547B1 (de) * | 2000-12-15 | 2007-01-03 | Siemens Aktiengesellschaft | Verschlüsselung von Steuerungsprogrammen |
US20020111972A1 (en) * | 2000-12-15 | 2002-08-15 | Virtual Access Networks. Inc. | Virtual access |
US6934909B2 (en) * | 2000-12-20 | 2005-08-23 | Adobe Systems Incorporated | Identifying logical elements by modifying a source document using marker attribute values |
US7581011B2 (en) * | 2000-12-22 | 2009-08-25 | Oracle International Corporation | Template based workflow definition |
US7415607B2 (en) * | 2000-12-22 | 2008-08-19 | Oracle International Corporation | Obtaining and maintaining real time certificate status |
US8015600B2 (en) | 2000-12-22 | 2011-09-06 | Oracle International Corporation | Employing electronic certificate workflows |
US7711818B2 (en) * | 2000-12-22 | 2010-05-04 | Oracle International Corporation | Support for multiple data stores |
US7937655B2 (en) * | 2000-12-22 | 2011-05-03 | Oracle International Corporation | Workflows with associated processes |
US7363339B2 (en) * | 2000-12-22 | 2008-04-22 | Oracle International Corporation | Determining group membership |
US7802174B2 (en) * | 2000-12-22 | 2010-09-21 | Oracle International Corporation | Domain based workflows |
US7349912B2 (en) | 2000-12-22 | 2008-03-25 | Oracle International Corporation | Runtime modification of entries in an identity system |
US7085834B2 (en) * | 2000-12-22 | 2006-08-01 | Oracle International Corporation | Determining a user's groups |
US6782379B2 (en) * | 2000-12-22 | 2004-08-24 | Oblix, Inc. | Preparing output XML based on selected programs and XML templates |
US7475151B2 (en) | 2000-12-22 | 2009-01-06 | Oracle International Corporation | Policies for modifying group membership |
US7380008B2 (en) | 2000-12-22 | 2008-05-27 | Oracle International Corporation | Proxy system |
US6816871B2 (en) | 2000-12-22 | 2004-11-09 | Oblix, Inc. | Delivering output XML with dynamically selectable processing |
US7213249B2 (en) * | 2000-12-22 | 2007-05-01 | Oracle International Corporation | Blocking cache flush requests until completing current pending requests in a local server and remote server |
US7043687B2 (en) | 2000-12-27 | 2006-05-09 | G. E. Information Services, Inc. | Document/message management |
US20020129059A1 (en) * | 2000-12-29 | 2002-09-12 | Eck Jeffery R. | XML auto map generator |
US20020087603A1 (en) * | 2001-01-02 | 2002-07-04 | Bergman Eric D. | Change tracking integrated with disconnected device document synchronization |
TW571201B (en) * | 2001-02-02 | 2004-01-11 | Wistron Corp | Conversion method and system for contents format of document file |
WO2002063481A1 (en) * | 2001-02-07 | 2002-08-15 | Infodraw Inc. | A dynamic object type for information management and real time graphic collaboration |
US20040003028A1 (en) * | 2002-05-08 | 2004-01-01 | David Emmett | Automatic display of web content to smaller display devices: improved summarization and navigation |
US7496831B2 (en) * | 2001-02-22 | 2009-02-24 | International Business Machines Corporation | Method to reformat regions with cluttered hyperlinks |
EP1239375B1 (de) * | 2001-03-08 | 2014-05-07 | Sap Ag | Verfahren zum Konvertieren von Dokumenten |
US8117313B2 (en) | 2001-03-19 | 2012-02-14 | International Business Machines Corporation | System and method for adaptive formatting of image information for efficient delivery and presentation |
EP1381965B1 (en) * | 2001-03-23 | 2018-05-09 | BlackBerry Limited | Systems and methods for content delivery over a wireless communication medium to a portable computing device |
US7200271B2 (en) * | 2001-03-29 | 2007-04-03 | The Boeing Company | Method, computer program product, and system for performing automated text recognition and text search within a graphic file |
US20020140958A1 (en) * | 2001-03-29 | 2002-10-03 | Lester Samuel M. | Page description language adapted for direct printing of multiple file formats |
US7039643B2 (en) * | 2001-04-10 | 2006-05-02 | Adobe Systems Incorporated | System, method and apparatus for converting and integrating media files |
US20020156923A1 (en) * | 2001-04-19 | 2002-10-24 | Murata Kikai Kabushiki Kaisha | Server device and network system |
US7134075B2 (en) * | 2001-04-26 | 2006-11-07 | International Business Machines Corporation | Conversion of documents between XML and processor efficient MXML in content based routing networks |
US7421650B2 (en) * | 2001-05-01 | 2008-09-02 | General Electric Company | Method and system for publishing electronic media to a document management system in various publishing formats independent of the media creation application |
US7565605B2 (en) * | 2001-05-08 | 2009-07-21 | Nokia, Inc. | Reorganizing content of an electronic document |
US20020184263A1 (en) * | 2001-05-17 | 2002-12-05 | Pierre Perinet | Method and system for converting usage data to extensive markup language |
CA2348706A1 (en) * | 2001-05-25 | 2002-11-25 | Ibm Canada Limited-Ibm Canada Limitee | Converting user interface source code of a legacy application to web pages |
US7272594B1 (en) | 2001-05-31 | 2007-09-18 | Autonomy Corporation Ltd. | Method and apparatus to link to a related document |
JP2002358336A (ja) * | 2001-06-01 | 2002-12-13 | Pioneer Electronic Corp | 設計情報公開システム、設計情報公開方法および記録媒体 |
US7231460B2 (en) * | 2001-06-04 | 2007-06-12 | Gateway Inc. | System and method for leveraging networked computers to view windows based files on Linux platforms |
US6868528B2 (en) * | 2001-06-15 | 2005-03-15 | Microsoft Corporation | Systems and methods for creating and displaying a user interface for displaying hierarchical data |
US7028257B1 (en) * | 2001-06-29 | 2006-04-11 | Bellsouth Intellectual Property Corp. | System and method for rapid creation and display of stylized digital content items |
US7107521B2 (en) * | 2001-07-03 | 2006-09-12 | International Business Machines Corporation | XSL dynamic inheritance |
US20030093565A1 (en) * | 2001-07-03 | 2003-05-15 | Berger Adam L. | System and method for converting an attachment in an e-mail for delivery to a device of limited rendering capability |
US8324576B2 (en) * | 2001-07-13 | 2012-12-04 | Koninklijke Philips Electronics N.V. | Nuclear camera with open and flexible software architecture |
US6996772B2 (en) * | 2001-07-25 | 2006-02-07 | Hewlett-Packard Development Company, L.P. | Formatting a content item in a text file using a discrimination stylesheet created using a heuristics stylesheet |
DE10136439A1 (de) * | 2001-07-26 | 2003-02-13 | Bosch Gmbh Robert | Informationssystem |
US20030033432A1 (en) * | 2001-08-08 | 2003-02-13 | Simpson Shell S. | Web based imaging service that converts web pages into content on behalf of another web site |
US7640361B1 (en) * | 2001-08-24 | 2009-12-29 | Mcafee, Inc. | Systems and methods for converting infected electronic files to a safe format |
US7263561B1 (en) * | 2001-08-24 | 2007-08-28 | Mcafee, Inc. | Systems and methods for making electronic files that have been converted to a safe format available for viewing by an intended recipient |
DE10141834A1 (de) * | 2001-08-27 | 2003-04-03 | Siemens Ag | Datenkonverter |
US20030042319A1 (en) * | 2001-08-31 | 2003-03-06 | Xerox Corporation | Automatic and semi-automatic index generation for raster documents |
US20030048468A1 (en) * | 2001-09-07 | 2003-03-13 | Boldon John L. | Method of virus filtering for use in peripherals having embedded controller devices |
JP2003091344A (ja) * | 2001-09-19 | 2003-03-28 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、データ構造、並びにプログラム |
JP2003099562A (ja) * | 2001-09-20 | 2003-04-04 | Nec Soft Ltd | 公共工事の書類送受信システム |
AU2002337921A1 (en) * | 2001-10-19 | 2003-04-28 | Vizional Technologies, Inc. | Extensible mark-up language (xml) tracer for conversion of xml documents to hypertext markup language (html) |
US20030084188A1 (en) * | 2001-10-30 | 2003-05-01 | Dreyer Hans Daniel | Multiple mode input and output |
JP2003150586A (ja) | 2001-11-12 | 2003-05-23 | Ntt Docomo Inc | 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体 |
US6931404B2 (en) * | 2001-11-14 | 2005-08-16 | Inventec Corporation | System and method for operating workflow |
KR100456022B1 (ko) * | 2001-11-20 | 2004-11-08 | 한국전자통신연구원 | 비피씨 정보단말을 위한 엑스엠엘 기반 웹 페이지 제공방법 및 그 시스템 |
US20030106021A1 (en) * | 2001-11-30 | 2003-06-05 | Tushar Mangrola | Apparatus and method for creating PDF documents |
US7225256B2 (en) * | 2001-11-30 | 2007-05-29 | Oracle International Corporation | Impersonation in an access system |
US20030106016A1 (en) * | 2001-12-04 | 2003-06-05 | Kendrick John J. | Process for storing electronic documents on an internet-accessible document storage system |
WO2003048966A1 (en) * | 2001-12-05 | 2003-06-12 | Webxcentric Holdings Pty Ltd | A method of collaborative communication structuring and applications therefor |
JP2003186794A (ja) * | 2001-12-13 | 2003-07-04 | Fujitsu Ltd | 情報提供プログラム,情報提供プログラムを記録したコンピュータ読取可能な記録媒体及び情報提供装置 |
WO2003056449A2 (en) * | 2001-12-21 | 2003-07-10 | Xmlcities, Inc. | Extensible stylesheet designs using meta-tag and/or associated meta-tag information |
JP2003196270A (ja) * | 2001-12-27 | 2003-07-11 | Sharp Corp | 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体 |
US6917969B2 (en) | 2002-01-03 | 2005-07-12 | International Business Machines Corporation | Portable bean-based content rendering |
JP3809863B2 (ja) | 2002-02-28 | 2006-08-16 | インターナショナル・ビジネス・マシーンズ・コーポレーション | サーバ |
US20040205568A1 (en) * | 2002-03-01 | 2004-10-14 | Breuel Thomas M. | Method and system for document image layout deconstruction and redisplay system |
TWI235946B (en) * | 2002-03-13 | 2005-07-11 | Culture Com Technology Macau Ltd | Method and system of displaying data |
US7096421B2 (en) * | 2002-03-18 | 2006-08-22 | Sun Microsystems, Inc. | System and method for comparing hashed XML files |
US20040205509A1 (en) * | 2002-03-18 | 2004-10-14 | Sun Microsystems, Inc. | System and method for comparing parsed XML files |
US7840658B2 (en) * | 2002-05-15 | 2010-11-23 | Oracle International Corporation | Employing job code attributes in provisioning |
US7216163B2 (en) * | 2002-05-15 | 2007-05-08 | Oracle International Corporation | Method and apparatus for provisioning tasks using a provisioning bridge server |
US7146030B2 (en) * | 2002-05-22 | 2006-12-05 | Agilent Technologies, Inc. | System and methods for extracting semantics from images |
US7444302B2 (en) * | 2002-06-14 | 2008-10-28 | Ellie Mae, Inc. | Online system for fulfilling loan applications from loan originators |
US7650566B1 (en) | 2002-06-28 | 2010-01-19 | Microsoft Corporation | Representing list definitions and instances in a markup language document |
US7127520B2 (en) | 2002-06-28 | 2006-10-24 | Streamserve | Method and system for transforming input data streams |
US7533335B1 (en) | 2002-06-28 | 2009-05-12 | Microsoft Corporation | Representing fields in a markup language document |
US7584419B1 (en) | 2002-06-28 | 2009-09-01 | Microsoft Corporation | Representing non-structured features in a well formed document |
US7565603B1 (en) | 2002-06-28 | 2009-07-21 | Microsoft Corporation | Representing style information in a markup language document |
US7523394B2 (en) | 2002-06-28 | 2009-04-21 | Microsoft Corporation | Word-processing document stored in a single XML file that may be manipulated by applications that understand XML |
US7607081B1 (en) | 2002-06-28 | 2009-10-20 | Microsoft Corporation | Storing document header and footer information in a markup language document |
US7562295B1 (en) | 2002-06-28 | 2009-07-14 | Microsoft Corporation | Representing spelling and grammatical error state in an XML document |
CA2393035A1 (en) * | 2002-07-11 | 2004-01-11 | Ibm Canada Limited-Ibm Canada Limitee | Converting markup language files |
US20040015782A1 (en) * | 2002-07-17 | 2004-01-22 | Day Young Francis | Templating method for automated generation of print product catalogs |
US7472089B2 (en) | 2002-08-15 | 2008-12-30 | Ellie Mae, Inc. | Loan origination system interface for online loan application processing |
JP2004234620A (ja) * | 2002-09-04 | 2004-08-19 | Oce Technologies Bv | 書類データを物理的に管理する方法および装置 |
US20040117731A1 (en) * | 2002-09-27 | 2004-06-17 | Sergey Blyashov | Automated report building system |
US7761459B1 (en) | 2002-10-15 | 2010-07-20 | Ximpleware, Inc. | Processing structured data |
CA2409079A1 (en) * | 2002-10-21 | 2004-04-21 | Ibm Canada Limited-Ibm Canada Limitee | Creating multiple and cascading business interpretations from raw application data using transformation layering |
DE10250842B4 (de) * | 2002-10-31 | 2010-11-11 | OCé PRINTING SYSTEMS GMBH | Verfahren, Computerprogrammprodukt und Vorrichtung zum Verarbeiten eines Dokumentendatenstroms eines Eingangsformates zu einem Ausgangsformat |
US7233698B2 (en) * | 2002-12-13 | 2007-06-19 | The Boeing Company | Apparatus and methods for converting raster illustrated parts images into intelligent vector-layered files |
US7856454B2 (en) | 2002-12-20 | 2010-12-21 | Siebel Systems, Inc. | Data model for business relationships |
US8538840B2 (en) * | 2002-12-20 | 2013-09-17 | Siebel Systems, Inc. | Financial services data model |
US7016915B2 (en) * | 2002-12-28 | 2006-03-21 | International Business Machines Corporation | Method for processing XML queries over relational data and meta-data using a relational database system |
US7669118B2 (en) * | 2003-01-06 | 2010-02-23 | Sap Ag | Method, system and program for providing page with plurality of code portions in browser markup language |
US20040151377A1 (en) * | 2003-02-04 | 2004-08-05 | Boose Molly L. | Apparatus and methods for converting network drawings from raster format to vector format |
US7366978B1 (en) * | 2003-02-13 | 2008-04-29 | Microsoft Corporation | Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table |
US8392298B2 (en) * | 2003-03-04 | 2013-03-05 | Siebel Systems, Inc. | Invoice adjustment data object for a common data object format |
US8473399B2 (en) * | 2003-03-04 | 2013-06-25 | Siebel Systems, Inc. | Invoice data object for a common data object format |
AU2003229699A1 (en) * | 2003-03-06 | 2004-09-28 | Sap Aktiengesellschaft | A method and a computer system for data assignment |
US7313754B2 (en) * | 2003-03-14 | 2007-12-25 | Texterity, Inc. | Method and expert system for deducing document structure in document conversion |
US8489470B2 (en) * | 2003-03-24 | 2013-07-16 | Siebel Systems, Inc. | Inventory location common object |
US9704120B2 (en) * | 2003-03-24 | 2017-07-11 | Oracle International Corporation | Inventory balance common object |
US8510179B2 (en) * | 2003-03-24 | 2013-08-13 | Siebel Systems, Inc. | Inventory transaction common object |
US7912932B2 (en) * | 2003-03-24 | 2011-03-22 | Siebel Systems, Inc. | Service request common object |
US20070208577A1 (en) * | 2003-03-24 | 2007-09-06 | Leon Maria T B | Position common object |
AU2003901428A0 (en) * | 2003-03-24 | 2003-04-10 | Objective Systems Pty Ltd | A system and method for formatting and distributing reading material |
EP1606739A4 (en) * | 2003-03-24 | 2007-10-17 | Siebel Systems Inc | CUSTOMIZED JOINT OBJECT |
US7904340B2 (en) * | 2003-03-24 | 2011-03-08 | Siebel Systems, Inc. | Methods and computer-readable medium for defining a product model |
US7711680B2 (en) | 2003-03-24 | 2010-05-04 | Siebel Systems, Inc. | Common common object |
US20070226037A1 (en) * | 2003-03-25 | 2007-09-27 | Shailendra Garg | Modeling of opportunity data |
US20040194009A1 (en) * | 2003-03-27 | 2004-09-30 | Lacomb Christina | Automated understanding, extraction and structured reformatting of information in electronic files |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
US7653876B2 (en) * | 2003-04-07 | 2010-01-26 | Adobe Systems Incorporated | Reversible document format |
WO2004100015A2 (en) * | 2003-05-05 | 2004-11-18 | Arbortext, Inc. | System and method for defining specifications for outputting content in multiple formats |
US9026901B2 (en) * | 2003-06-20 | 2015-05-05 | International Business Machines Corporation | Viewing annotations across multiple applications |
US7315857B2 (en) * | 2004-05-13 | 2008-01-01 | International Business Machines Corporation | Method and system for propagating annotations using pattern matching |
US8321470B2 (en) * | 2003-06-20 | 2012-11-27 | International Business Machines Corporation | Heterogeneous multi-level extendable indexing for general purpose annotation systems |
US7890852B2 (en) | 2003-06-26 | 2011-02-15 | International Business Machines Corporation | Rich text handling for a web application |
US7225411B1 (en) * | 2003-06-30 | 2007-05-29 | Tibco Software Inc. | Efficient transformation of information between a source schema and a target schema |
NO20034035D0 (no) | 2003-09-11 | 2003-09-11 | Opera Software Asa | Skjelne og fremvise tabeller i dokumenter |
US7340447B2 (en) | 2003-10-09 | 2008-03-04 | Oracle International Corporation | Partitioning data access requests |
US7904487B2 (en) | 2003-10-09 | 2011-03-08 | Oracle International Corporation | Translating data access requests |
US7882132B2 (en) | 2003-10-09 | 2011-02-01 | Oracle International Corporation | Support for RDBMS in LDAP system |
US7617196B2 (en) | 2003-10-22 | 2009-11-10 | International Business Machines Corporation | Context-sensitive term expansion with multiple levels of expansion |
US20050262435A1 (en) * | 2003-10-30 | 2005-11-24 | Avaya Technology Corp. | Automatic detection and dialing of phone numbers on computer documents |
US7181538B2 (en) * | 2003-11-14 | 2007-02-20 | Sybase 365, Inc. | System and method for providing configurable, dynamic multimedia message service pre-transcoding |
US7325191B2 (en) * | 2003-12-08 | 2008-01-29 | Microsoft Corporation | Preservation of source code formatting |
US7900133B2 (en) | 2003-12-09 | 2011-03-01 | International Business Machines Corporation | Annotation structure type determination |
US20050197920A1 (en) * | 2004-01-19 | 2005-09-08 | Weir Timothy J.Ii | Systems and methods for electronic integration of business transactions |
US20050166143A1 (en) * | 2004-01-22 | 2005-07-28 | David Howell | System and method for collection and conversion of document sets and related metadata to a plurality of document/metadata subsets |
US7418323B2 (en) * | 2004-01-27 | 2008-08-26 | Tag One, Inc. | Method and system for aircraft data and portfolio management |
GB2411014A (en) * | 2004-02-11 | 2005-08-17 | Autonomy Corp Ltd | Automatic searching for relevant information |
US20050210047A1 (en) * | 2004-03-18 | 2005-09-22 | Zenodata Corporation | Posting data to a database from non-standard documents using document mapping to standard document types |
US20050235202A1 (en) * | 2004-04-20 | 2005-10-20 | Tsu-Wang Chen | Automatic graphical layout printing system utilizing parsing and merging of data |
DE102004021269A1 (de) * | 2004-04-30 | 2005-11-24 | OCé PRINTING SYSTEMS GMBH | Verfahren, Vorrichtung und Computerprogrammprodukt zum Erzeugen eines seiten- und/oder bereichsstrukturierten Datenstroms aus einem Zeilendatenstrom |
US8095871B2 (en) * | 2004-05-06 | 2012-01-10 | Siemens Corporation | System and method for GUI supported specifications for automating form field extraction with database mapping |
US7865390B2 (en) * | 2004-05-21 | 2011-01-04 | Siebel Systems, Inc. | Modeling of employee performance result data |
US8112296B2 (en) * | 2004-05-21 | 2012-02-07 | Siebel Systems, Inc. | Modeling of job profile data |
US8990254B2 (en) * | 2004-07-02 | 2015-03-24 | Ellie Mae, Inc. | Loan origination software system for processing mortgage loans over a distributed network |
US20060059422A1 (en) * | 2004-09-16 | 2006-03-16 | Ting-Hu Wu | Desktop application implemented with web paradigm |
US7447993B2 (en) * | 2004-10-12 | 2008-11-04 | Microsoft Corporation | System and method for displaying a user interface object using an associated style |
US8620816B2 (en) * | 2004-10-14 | 2013-12-31 | Google Inc. | Information vault, data format conversion services system and method |
EP1817692A1 (en) * | 2004-10-14 | 2007-08-15 | Docteq AB | Method for handling electronic documents |
US7949675B2 (en) | 2004-10-15 | 2011-05-24 | Oracle International Corporation | Data retrieval method |
GB0422979D0 (en) * | 2004-10-15 | 2004-11-17 | Oracle Int Corp | Data retrieval method |
WO2006050056A2 (en) * | 2004-10-29 | 2006-05-11 | Upstream Software, Inc. | Transaction network |
US20060101023A1 (en) * | 2004-11-05 | 2006-05-11 | Ellie Mae, Inc. | Universal computing paradigm with single-code base utilizing a flexible distributed computing architecture |
US8839097B2 (en) * | 2004-11-15 | 2014-09-16 | Ca, Inc. | System and method for information encapsulation for providing multiple deliverable formats from one information source |
US20060200763A1 (en) * | 2005-03-04 | 2006-09-07 | Alexander Michaelsen | Technique for exporting document content |
US7734636B2 (en) * | 2005-03-31 | 2010-06-08 | Xerox Corporation | Systems and methods for electronic document genre classification using document grammars |
US7805495B2 (en) * | 2005-03-31 | 2010-09-28 | Google Inc. | Method and system for transferring web browser data between web browsers |
US8095393B2 (en) * | 2005-04-21 | 2012-01-10 | Seifert Michael J | Method and system for automated processing of insurance information |
US7512833B1 (en) | 2005-05-09 | 2009-03-31 | Adam C. Murphy | Universal imaging utility program |
EP1732012B1 (en) * | 2005-06-09 | 2007-10-10 | PDFlib GmbH | Method of identifying redundant text in an electronic document |
GB2427048A (en) * | 2005-06-09 | 2006-12-13 | Avecho Group Ltd | Detection of unwanted code or data in electronic mail |
JP2007060505A (ja) * | 2005-08-26 | 2007-03-08 | Fuji Xerox Co Ltd | 画像読取装置およびその画像処理方法、画像形成装置、画像処理システムおよびその印刷時間短縮方法 |
JP4738943B2 (ja) * | 2005-09-01 | 2011-08-03 | キヤノン株式会社 | 画像処理装置およびその方法 |
US20070109574A1 (en) * | 2005-11-14 | 2007-05-17 | Kabushiki Kaisha Toshiba | System and method for assembly of multiple format digital files |
US20070130202A1 (en) * | 2005-12-03 | 2007-06-07 | International Business Machines Corporation | System and method for automatically generating a searchable plug-in from text files |
US7779351B2 (en) * | 2005-12-09 | 2010-08-17 | Adobe Systems Incorporated | Coloring a generated document by replacing original colors of a source document paragraph with colors to identify the paragraph and with colors to mark color boundries |
CN100356370C (zh) * | 2005-12-15 | 2007-12-19 | 无锡永中科技有限公司 | 提高文字处理文档打开速度的处理方法 |
US8099341B2 (en) * | 2006-01-31 | 2012-01-17 | OREM Financial Services Inc. | System and method for recreating tax documents |
US8046679B2 (en) * | 2006-02-02 | 2011-10-25 | Research In Motion Limited | Apparatus, method and machine-readable medium for facilitating generation of a markup language document containing identical sets of markup language elements |
US20070188473A1 (en) * | 2006-02-14 | 2007-08-16 | Picsel Research Limited | System and methods for document navigation |
US7743327B2 (en) * | 2006-02-23 | 2010-06-22 | Xerox Corporation | Table of contents extraction with improved robustness |
US8176416B1 (en) * | 2006-03-17 | 2012-05-08 | Wells Fargo Bank, N.A. | System and method for delivering a device-independent web page |
JP2007249754A (ja) * | 2006-03-17 | 2007-09-27 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法およびプログラム |
US20060271451A1 (en) * | 2006-03-30 | 2006-11-30 | George Varughese | System and method for providing data to tax preparation software |
US8615663B2 (en) * | 2006-04-17 | 2013-12-24 | Broadcom Corporation | System and method for secure remote biometric authentication |
US9251222B2 (en) * | 2006-06-29 | 2016-02-02 | International Business Machines Corporation | Abstracted dynamic report definition generation for use within information technology infrastructure |
US8712965B2 (en) * | 2006-06-29 | 2014-04-29 | International Business Machines Corporation | Dynamic report mapping apparatus to physical data source when creating report definitions for information technology service management reporting for peruse of report definition transparency and reuse |
US8484556B2 (en) * | 2006-08-22 | 2013-07-09 | Autodesk, Inc. | Drawing interoperability between different computer-aided design applications |
US8683600B2 (en) * | 2006-10-11 | 2014-03-25 | Adobe Systems Incorporated | Print policy commands |
US20080104505A1 (en) * | 2006-10-27 | 2008-05-01 | Keohane Susann M | Method, System and Program Product Supporting Customized Presentation of Toolbars Within a Document |
US7949949B2 (en) * | 2006-11-20 | 2011-05-24 | Intentional Software Corporation | Domain transformation languages |
GB2444514A (en) | 2006-12-04 | 2008-06-11 | Glasswall | Electronic file re-generation |
US9729513B2 (en) | 2007-11-08 | 2017-08-08 | Glasswall (Ip) Limited | Using multiple layers of policy management to manage risk |
TWI385535B (zh) * | 2006-12-15 | 2013-02-11 | Hon Hai Prec Ind Co Ltd | Word檔轉換成XML檔的系統及方法 |
US8156018B1 (en) | 2006-12-18 | 2012-04-10 | Intuit Inc. | Transformation of standard document format electronic documents for electronic filing |
US8239504B2 (en) * | 2007-01-07 | 2012-08-07 | Apple Inc. | Synchronization methods and systems |
US7778971B2 (en) * | 2007-01-07 | 2010-08-17 | Apple Inc. | Synchronization methods and systems |
US7805403B2 (en) | 2007-01-07 | 2010-09-28 | Apple Inc. | Synchronization methods and systems |
US7660831B2 (en) * | 2007-01-07 | 2010-02-09 | Apple Inc. | Synchronization methods and systems |
US20080163743A1 (en) * | 2007-01-07 | 2008-07-10 | Freedman Gordon J | Synchronization methods and systems |
US7739410B2 (en) * | 2007-01-07 | 2010-06-15 | Apple Inc. | Synchronization methods and systems |
US8745486B2 (en) * | 2007-01-25 | 2014-06-03 | Microsoft Corporation | Streamable interactive rendering-independent page layout |
US7797743B2 (en) * | 2007-02-26 | 2010-09-14 | Microsoft Corporation | File conversion in restricted process |
US7797742B2 (en) | 2007-02-26 | 2010-09-14 | Microsoft Corporation | File blocking mitigation |
US10825089B2 (en) * | 2007-03-15 | 2020-11-03 | Bgc Partners, Inc. | Error detection and recovery in an electronic trading system |
US20080243823A1 (en) * | 2007-03-28 | 2008-10-02 | Elumindata, Inc. | System and method for automatically generating information within an eletronic document |
US8209540B2 (en) | 2007-06-28 | 2012-06-26 | Apple Inc. | Incremental secure backup and restore of user settings and data |
US20090003603A1 (en) * | 2007-06-29 | 2009-01-01 | Metabeam Corporation | Platform Independent Networked Communications |
US8478245B2 (en) | 2007-08-01 | 2013-07-02 | Phunware, Inc. | Method and system for rendering content on a wireless device |
US20090044144A1 (en) * | 2007-08-06 | 2009-02-12 | Morris Robert P | Methods And Apparatus For Sharing User Interface Widget Annotations |
US8600798B1 (en) | 2007-09-21 | 2013-12-03 | Ellie Mae, Inc. | Loan screening |
US20090100023A1 (en) * | 2007-10-11 | 2009-04-16 | Koichi Inoue | Information processing apparatus and computer readable information recording medium |
US9015692B1 (en) | 2007-10-23 | 2015-04-21 | Phunware, Inc. | Method and system for customizing content on a server for rendering on a wireless device |
US8326814B2 (en) | 2007-12-05 | 2012-12-04 | Box, Inc. | Web-based file management system and service |
US8707166B2 (en) * | 2008-02-29 | 2014-04-22 | Sap Ag | Plain text formatting of data item tables |
US20090235161A1 (en) * | 2008-03-15 | 2009-09-17 | Microsoft Corporation | Lossless Web-Based Editor For Complex Documents |
US9189478B2 (en) * | 2008-04-03 | 2015-11-17 | Elumindata, Inc. | System and method for collecting data from an electronic document and storing the data in a dynamically organized data structure |
US8041695B2 (en) | 2008-04-18 | 2011-10-18 | The Boeing Company | Automatically extracting data from semi-structured documents |
US8176042B2 (en) * | 2008-07-22 | 2012-05-08 | Elumindata, Inc. | System and method for automatically linking data sources for providing data related to a query |
US8037062B2 (en) * | 2008-07-22 | 2011-10-11 | Elumindata, Inc. | System and method for automatically selecting a data source for providing data related to a query |
US20100023501A1 (en) * | 2008-07-22 | 2010-01-28 | Elumindata, Inc. | System and method for automatically selecting a data source for providing data related to a query |
US8041712B2 (en) * | 2008-07-22 | 2011-10-18 | Elumindata Inc. | System and method for automatically selecting a data source for providing data related to a query |
US9274910B2 (en) * | 2008-08-29 | 2016-03-01 | Spirent Communications, Inc. | Automatic test map generation for system verification test |
US8347208B2 (en) * | 2009-03-04 | 2013-01-01 | Microsoft Corporation | Content rendering on a computer |
US10152504B2 (en) | 2009-03-11 | 2018-12-11 | Actian Netherlands B.V. | Column-store database architecture utilizing positional delta tree update system and methods |
AU2010245310A1 (en) * | 2009-05-04 | 2011-11-03 | Aptara, Inc. | Method and system for verifying a citation |
US9256591B2 (en) * | 2009-07-24 | 2016-02-09 | Hewlett-Packard Development Company, L.P. | Document handling method |
US20110179036A1 (en) * | 2009-12-16 | 2011-07-21 | Jason Townes French | Methods and Apparatuses For Abstract Representation of Financial Documents |
US9069731B2 (en) * | 2009-12-29 | 2015-06-30 | Olive Software Inc. | System and method for providing online versions of print-medium publications |
US20110258535A1 (en) * | 2010-04-20 | 2011-10-20 | Scribd, Inc. | Integrated document viewer with automatic sharing of reading-related activities across external social networks |
JP2011249996A (ja) * | 2010-05-25 | 2011-12-08 | Fuji Xerox Co Ltd | 画像処理装置、画像送信装置及びプログラム |
US20120041989A1 (en) * | 2010-08-16 | 2012-02-16 | Tata Consultancy Services Limited | Generating assessment data |
WO2012032537A2 (en) * | 2010-09-06 | 2012-03-15 | Indian Institute Of Technology | A method and system for providing a content adaptive and legibility retentive display of a lecture video on a miniature video device |
US8970873B2 (en) | 2010-09-17 | 2015-03-03 | Printeron Inc. | System and method for managing printer resources on an internal network |
US8570566B2 (en) | 2010-09-17 | 2013-10-29 | Printeron Inc. | System and method that provides user interface on mobile network terminal for releasing print jobs based on location information |
JP5725812B2 (ja) * | 2010-11-25 | 2015-05-27 | キヤノン株式会社 | 文書処理装置、文書処理方法、及びプログラム |
US9251123B2 (en) * | 2010-11-29 | 2016-02-02 | Hewlett-Packard Development Company, L.P. | Systems and methods for converting a PDF file |
US9760329B2 (en) | 2010-11-30 | 2017-09-12 | Printeron Inc. | System for internet enabled printing |
WO2012099617A1 (en) | 2011-01-20 | 2012-07-26 | Box.Net, Inc. | Real time notification of activities that occur in a web-based collaboration environment |
US20130298012A1 (en) * | 2011-01-25 | 2013-11-07 | David Neil Slatter | Document Design Capture and Reuse System |
US9002139B2 (en) | 2011-02-16 | 2015-04-07 | Adobe Systems Incorporated | Methods and systems for automated image slicing |
US8977964B2 (en) * | 2011-05-17 | 2015-03-10 | Next Issue Media | Media content device, system and method |
US9015601B2 (en) | 2011-06-21 | 2015-04-21 | Box, Inc. | Batch uploading of content to a web-based collaboration environment |
US9063912B2 (en) | 2011-06-22 | 2015-06-23 | Box, Inc. | Multimedia content preview rendering in a cloud content management system |
GB2503625A (en) | 2011-07-08 | 2014-01-01 | Box Inc | Collaboration sessions in a workspace on cloud-based content management system |
US9652741B2 (en) | 2011-07-08 | 2017-05-16 | Box, Inc. | Desktop application for access and interaction with workspaces in a cloud-based content management system and synchronization mechanisms thereof |
US9400974B2 (en) * | 2011-09-02 | 2016-07-26 | Jn Projects, Inc. | Systems and methods for annotating and sending electronic documents |
US8910039B2 (en) * | 2011-09-09 | 2014-12-09 | Accenture Global Services Limited | File format conversion by automatically converting to an intermediate form for manual editing in a multi-column graphical user interface |
US9612670B2 (en) * | 2011-09-12 | 2017-04-04 | Microsoft Technology Licensing, Llc | Explicit touch selection and cursor placement |
US9197718B2 (en) | 2011-09-23 | 2015-11-24 | Box, Inc. | Central management and control of user-contributed content in a web-based collaboration environment and management console thereof |
US20130086467A1 (en) * | 2011-10-03 | 2013-04-04 | Google Inc. | System for sending a file for viewing on a mobile device |
US8515902B2 (en) | 2011-10-14 | 2013-08-20 | Box, Inc. | Automatic and semi-automatic tagging features of work items in a shared workspace for metadata tracking in a cloud-based content management system with selective or optional user contribution |
US11210610B2 (en) | 2011-10-26 | 2021-12-28 | Box, Inc. | Enhanced multimedia content preview rendering in a cloud content management system |
US9098474B2 (en) * | 2011-10-26 | 2015-08-04 | Box, Inc. | Preview pre-generation based on heuristics and algorithmic prediction/assessment of predicted user behavior for enhancement of user experience |
US8990307B2 (en) | 2011-11-16 | 2015-03-24 | Box, Inc. | Resource effective incremental updating of a remote client with events which occurred via a cloud-enabled platform |
WO2013082320A1 (en) | 2011-11-29 | 2013-06-06 | Box, Inc. | Mobile platform file and folder selection functionalities for offline access and synchronization |
US9019123B2 (en) | 2011-12-22 | 2015-04-28 | Box, Inc. | Health check services for web-based collaboration environments |
WO2013110288A1 (en) * | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Fixed format document conversion engine |
WO2013110286A1 (en) | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Paragraph property detection and style reconstruction engine |
WO2013110287A1 (en) | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Vector graphics classification engine |
WO2013110289A1 (en) | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Borderless table detection engine |
US11232481B2 (en) | 2012-01-30 | 2022-01-25 | Box, Inc. | Extended applications of multimedia content previews in the cloud-based content management system |
US9965745B2 (en) | 2012-02-24 | 2018-05-08 | Box, Inc. | System and method for promoting enterprise adoption of a web-based collaboration environment |
US9195636B2 (en) | 2012-03-07 | 2015-11-24 | Box, Inc. | Universal file type preview for mobile devices |
US9922090B1 (en) * | 2012-03-27 | 2018-03-20 | Actian Netherlands, B.V. | System and method for automatic vertical decomposition of a table for improving input/output and memory utilization in a database |
US9054919B2 (en) | 2012-04-05 | 2015-06-09 | Box, Inc. | Device pinning capability for enterprise cloud service and storage accounts |
US9575981B2 (en) | 2012-04-11 | 2017-02-21 | Box, Inc. | Cloud service enabled to handle a set of files depicted to a user as a single file in a native operating system |
US8914809B1 (en) | 2012-04-24 | 2014-12-16 | Open Text S.A. | Message broker system and method |
US9413587B2 (en) | 2012-05-02 | 2016-08-09 | Box, Inc. | System and method for a third-party application to access content within a cloud-based platform |
AU2013205612A1 (en) * | 2012-05-03 | 2013-11-21 | Makebook Pty Ltd | A Computerized Method and Software Product for Producing User Interactive Electronic Documents |
US9396216B2 (en) | 2012-05-04 | 2016-07-19 | Box, Inc. | Repository redundancy implementation of a system which incrementally updates clients with events that occurred via a cloud-enabled platform |
US9691051B2 (en) | 2012-05-21 | 2017-06-27 | Box, Inc. | Security enhancement through application access control |
US8914900B2 (en) | 2012-05-23 | 2014-12-16 | Box, Inc. | Methods, architectures and security mechanisms for a third-party application to access content in a cloud-based platform |
US9027108B2 (en) | 2012-05-23 | 2015-05-05 | Box, Inc. | Systems and methods for secure file portability between mobile applications on a mobile device |
US20130339886A1 (en) * | 2012-06-18 | 2013-12-19 | Computer Pundits, Inc. | Tools for dynamic database driven catalog building |
US9021099B2 (en) | 2012-07-03 | 2015-04-28 | Box, Inc. | Load balancing secure FTP connections among multiple FTP servers |
US9792320B2 (en) | 2012-07-06 | 2017-10-17 | Box, Inc. | System and method for performing shard migration to support functions of a cloud-based service |
US9946690B2 (en) | 2012-07-06 | 2018-04-17 | Microsoft Technology Licensing, Llc | Paragraph alignment detection and region-based section reconstruction |
US9712510B2 (en) | 2012-07-06 | 2017-07-18 | Box, Inc. | Systems and methods for securely submitting comments among users via external messaging applications in a cloud-based platform |
GB2505072A (en) | 2012-07-06 | 2014-02-19 | Box Inc | Identifying users and collaborators as search results in a cloud-based system |
US9473532B2 (en) | 2012-07-19 | 2016-10-18 | Box, Inc. | Data loss prevention (DLP) methods by a cloud service including third party integration architectures |
US8868574B2 (en) | 2012-07-30 | 2014-10-21 | Box, Inc. | System and method for advanced search and filtering mechanisms for enterprise administrators in a cloud-based environment |
US9794256B2 (en) | 2012-07-30 | 2017-10-17 | Box, Inc. | System and method for advanced control tools for administrators in a cloud-based service |
US9369520B2 (en) | 2012-08-19 | 2016-06-14 | Box, Inc. | Enhancement of upload and/or download performance based on client and/or server feedback information |
US8745267B2 (en) | 2012-08-19 | 2014-06-03 | Box, Inc. | Enhancement of upload and/or download performance based on client and/or server feedback information |
US9558202B2 (en) | 2012-08-27 | 2017-01-31 | Box, Inc. | Server side techniques for reducing database workload in implementing selective subfolder synchronization in a cloud-based environment |
US9135462B2 (en) | 2012-08-29 | 2015-09-15 | Box, Inc. | Upload and download streaming encryption to/from a cloud-based platform |
US9195519B2 (en) | 2012-09-06 | 2015-11-24 | Box, Inc. | Disabling the self-referential appearance of a mobile application in an intent via a background registration |
US9311071B2 (en) | 2012-09-06 | 2016-04-12 | Box, Inc. | Force upgrade of a mobile application via a server side configuration file |
US9117087B2 (en) | 2012-09-06 | 2015-08-25 | Box, Inc. | System and method for creating a secure channel for inter-application communication based on intents |
US9292833B2 (en) | 2012-09-14 | 2016-03-22 | Box, Inc. | Batching notifications of activities that occur in a web-based collaboration environment |
US10200256B2 (en) | 2012-09-17 | 2019-02-05 | Box, Inc. | System and method of a manipulative handle in an interactive mobile user interface |
US9553758B2 (en) | 2012-09-18 | 2017-01-24 | Box, Inc. | Sandboxing individual applications to specific user folders in a cloud-based service |
US10915492B2 (en) | 2012-09-19 | 2021-02-09 | Box, Inc. | Cloud-based platform enabled with media content indexed for text-based searches and/or metadata extraction |
CN103699520A (zh) * | 2012-09-27 | 2014-04-02 | 茵弗维尔株式会社 | 用于维持电子文档布局的字体处理方法 |
US9323767B2 (en) | 2012-10-01 | 2016-04-26 | Longsand Limited | Performance and scalability in an intelligent data operating layer system |
US9959420B2 (en) | 2012-10-02 | 2018-05-01 | Box, Inc. | System and method for enhanced security and management mechanisms for enterprise administrators in a cloud-based environment |
US9705967B2 (en) | 2012-10-04 | 2017-07-11 | Box, Inc. | Corporate user discovery and identification of recommended collaborators in a cloud platform |
US9495364B2 (en) | 2012-10-04 | 2016-11-15 | Box, Inc. | Enhanced quick search features, low-barrier commenting/interactive features in a collaboration platform |
US9665349B2 (en) | 2012-10-05 | 2017-05-30 | Box, Inc. | System and method for generating embeddable widgets which enable access to a cloud-based collaboration platform |
JP5982343B2 (ja) | 2012-10-17 | 2016-08-31 | ボックス インコーポレイテッドBox, Inc. | クラウドベース環境におけるリモートキー管理 |
US9756022B2 (en) | 2014-08-29 | 2017-09-05 | Box, Inc. | Enhanced remote key management for an enterprise in a cloud-based environment |
US10235383B2 (en) | 2012-12-19 | 2019-03-19 | Box, Inc. | Method and apparatus for synchronization of items with read-only permissions in a cloud-based environment |
US9396245B2 (en) | 2013-01-02 | 2016-07-19 | Box, Inc. | Race condition handling in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform |
US9953036B2 (en) | 2013-01-09 | 2018-04-24 | Box, Inc. | File system monitoring in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform |
EP2755151A3 (en) | 2013-01-11 | 2014-09-24 | Box, Inc. | Functionalities, features and user interface of a synchronization client to a cloud-based environment |
EP2757491A1 (en) | 2013-01-17 | 2014-07-23 | Box, Inc. | Conflict resolution, retry condition management, and handling of problem files for the synchronization client to a cloud-based platform |
US9953008B2 (en) | 2013-01-18 | 2018-04-24 | Microsoft Technology Licensing, Llc | Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally |
US9667740B2 (en) | 2013-01-25 | 2017-05-30 | Sap Se | System and method of formatting data |
US9223756B2 (en) | 2013-03-13 | 2015-12-29 | Adobe Systems Incorporated | Method and apparatus for identifying logical blocks of text in a document |
US11507574B1 (en) | 2013-03-13 | 2022-11-22 | Actian Netherlands B.V. | Adaptive selection of a processing method based on observed performance for improved and robust system efficiency |
US10725968B2 (en) | 2013-05-10 | 2020-07-28 | Box, Inc. | Top down delete or unsynchronization on delete of and depiction of item synchronization with a synchronization client to a cloud-based platform |
US10846074B2 (en) | 2013-05-10 | 2020-11-24 | Box, Inc. | Identification and handling of items to be ignored for synchronization with a cloud-based platform by a synchronization client |
GB2515192B (en) | 2013-06-13 | 2016-12-14 | Box Inc | Systems and methods for synchronization event building and/or collapsing by a synchronization component of a cloud-based platform |
US9805050B2 (en) | 2013-06-21 | 2017-10-31 | Box, Inc. | Maintaining and updating file system shadows on a local device by a synchronization client of a cloud-based platform |
US10110656B2 (en) | 2013-06-25 | 2018-10-23 | Box, Inc. | Systems and methods for providing shell communication in a cloud-based platform |
US10229134B2 (en) | 2013-06-25 | 2019-03-12 | Box, Inc. | Systems and methods for managing upgrades, migration of user data and improving performance of a cloud-based platform |
US9535924B2 (en) | 2013-07-30 | 2017-01-03 | Box, Inc. | Scalability improvement in a system which incrementally updates clients with events that occurred in a cloud-based collaboration platform |
US9535909B2 (en) | 2013-09-13 | 2017-01-03 | Box, Inc. | Configurable event-based automation architecture for cloud-based collaboration platforms |
US9213684B2 (en) | 2013-09-13 | 2015-12-15 | Box, Inc. | System and method for rendering document in web browser or mobile device regardless of third-party plug-in software |
GB2518298A (en) | 2013-09-13 | 2015-03-18 | Box Inc | High-availability architecture for a cloud-based concurrent-access collaboration platform |
US10509527B2 (en) | 2013-09-13 | 2019-12-17 | Box, Inc. | Systems and methods for configuring event-based automation in cloud-based collaboration platforms |
US9704137B2 (en) | 2013-09-13 | 2017-07-11 | Box, Inc. | Simultaneous editing/accessing of content by collaborator invitation through a web-based or mobile application to a cloud-based collaboration platform |
US8892679B1 (en) | 2013-09-13 | 2014-11-18 | Box, Inc. | Mobile device, methods and user interfaces thereof in a mobile device platform featuring multifunctional access and engagement in a collaborative environment provided by a cloud-based platform |
GB2518880A (en) | 2013-10-04 | 2015-04-08 | Glasswall Ip Ltd | Anti-Malware mobile content data management apparatus and method |
US10866931B2 (en) | 2013-10-22 | 2020-12-15 | Box, Inc. | Desktop application for accessing a cloud collaboration platform |
US9940646B2 (en) * | 2013-11-13 | 2018-04-10 | Google Llc | Dynamic insertion of content items into resources |
US9792276B2 (en) | 2013-12-13 | 2017-10-17 | International Business Machines Corporation | Content availability for natural language processing tasks |
US9356882B2 (en) | 2014-02-04 | 2016-05-31 | Printeron Inc. | Streamlined system for the transmission of network resource data |
CN103870543B (zh) * | 2014-02-25 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 一种用于文档文件重构的方法及装置 |
CN105022616B (zh) * | 2014-04-23 | 2019-12-03 | 腾讯科技(北京)有限公司 | 一种生成网页页面的方法及装置 |
US9880989B1 (en) * | 2014-05-09 | 2018-01-30 | Amazon Technologies, Inc. | Document annotation service |
US10530854B2 (en) | 2014-05-30 | 2020-01-07 | Box, Inc. | Synchronization of permissioned content in cloud-based environments |
US9602514B2 (en) | 2014-06-16 | 2017-03-21 | Box, Inc. | Enterprise mobility management and verification of a managed application by a content provider |
US10038731B2 (en) | 2014-08-29 | 2018-07-31 | Box, Inc. | Managing flow-based interactions with cloud-based shared content |
US9894119B2 (en) | 2014-08-29 | 2018-02-13 | Box, Inc. | Configurable metadata-based automation and content classification architecture for cloud-based collaboration platforms |
US10574442B2 (en) | 2014-08-29 | 2020-02-25 | Box, Inc. | Enhanced remote key management for an enterprise in a cloud-based environment |
US9330264B1 (en) | 2014-11-26 | 2016-05-03 | Glasswall (Ip) Limited | Statistical analytic method for the determination of the risk posed by file based content |
US10360294B2 (en) * | 2015-04-26 | 2019-07-23 | Sciome, LLC | Methods and systems for efficient and accurate text extraction from unstructured documents |
JP6308169B2 (ja) * | 2015-05-20 | 2018-04-11 | コニカミノルタ株式会社 | 文書変換プログラム及び文書変換方法 |
WO2017002130A1 (en) | 2015-07-01 | 2017-01-05 | Tnq Books And Journals Private Limited | Transformation of marked-up content to a reversible file format for automated browser based pagination |
US10318614B2 (en) | 2015-07-01 | 2019-06-11 | Tnq Books And Journals Private Limited | Transformation of marked-up content into a file format that enables automated browser based pagination |
US10534843B2 (en) | 2016-05-27 | 2020-01-14 | Open Text Sa Ulc | Document architecture with efficient storage |
US10649985B1 (en) | 2016-11-08 | 2020-05-12 | Premera Blue Cross | Systems and methods for processing natural language queries for healthcare data |
KR20190058005A (ko) * | 2017-11-21 | 2019-05-29 | 그린캣소프트(주) | Svg 포맷의 편집 방법, 시스템 및 컴퓨터 판독 가능한 기록매체 |
CN107943417A (zh) * | 2017-11-21 | 2018-04-20 | 广州市百果园网络科技有限公司 | 图像处理方法、终端、计算机存储介质及计算机程序 |
CN108052490B (zh) * | 2017-12-29 | 2019-04-30 | 北京仁和汇智信息技术有限公司 | 一种xml论文在线撰写方法和装置 |
US11048864B2 (en) * | 2019-04-01 | 2021-06-29 | Adobe Inc. | Digital annotation and digital content linking techniques |
CN110334585B (zh) * | 2019-05-22 | 2023-10-24 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110278265B (zh) * | 2019-06-20 | 2022-06-21 | 宜春宜联科技有限公司 | 用户上传文件的处理方法、装置、存储介质和电子设备 |
US11615244B2 (en) * | 2020-01-30 | 2023-03-28 | Oracle International Corporation | Data extraction and ordering based on document layout analysis |
US11475686B2 (en) | 2020-01-31 | 2022-10-18 | Oracle International Corporation | Extracting data from tables detected in electronic documents |
US11341318B2 (en) | 2020-07-07 | 2022-05-24 | Kudzu Software Llc | Interactive tool for modifying an automatically generated electronic form |
US11403455B2 (en) * | 2020-07-07 | 2022-08-02 | Kudzu Software Llc | Electronic form generation from electronic documents |
AU2022204170A1 (en) * | 2021-07-16 | 2023-02-02 | Roar Software Pty Ltd | System and method for processing an active document from a rich text document |
US11888793B2 (en) | 2022-02-22 | 2024-01-30 | Open Text Holdings, Inc. | Systems and methods for intelligent delivery of communications |
US12032651B2 (en) * | 2022-04-01 | 2024-07-09 | Wipro Limited | Method and system for extracting information from input document comprising multi-format information |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4734858B1 (en) | 1983-12-05 | 1997-02-11 | Portel Services Network Inc | Data terminal and system for placing orders |
US4723209A (en) * | 1984-08-30 | 1988-02-02 | International Business Machines Corp. | Flow attribute for text objects |
US5107419A (en) * | 1987-12-23 | 1992-04-21 | International Business Machines Corporation | Method of assigning retention and deletion criteria to electronic documents stored in an interactive information handling system |
JPH04157563A (ja) * | 1990-10-22 | 1992-05-29 | Hitachi Ltd | 帳票作成方法 |
US5283887A (en) * | 1990-12-19 | 1994-02-01 | Bull Hn Information Systems Inc. | Automatic document format conversion in an electronic mail system based upon user preference |
JPH04284768A (ja) * | 1991-03-13 | 1992-10-09 | Ricoh Co Ltd | ミクストモード文書作成装置 |
JPH05108641A (ja) * | 1991-10-17 | 1993-04-30 | Fuji Xerox Co Ltd | 文書スタイル設計支援装置 |
US5438657A (en) * | 1992-04-24 | 1995-08-01 | Casio Computer Co., Ltd. | Document processing apparatus for extracting a format from one document and using the extracted format to automatically edit another document |
US5485369A (en) | 1993-09-28 | 1996-01-16 | Tandata Corporation | Logistics system for automating tansportation of goods |
US5715314A (en) | 1994-10-24 | 1998-02-03 | Open Market, Inc. | Network sales system |
US5608874A (en) * | 1994-12-02 | 1997-03-04 | Autoentry Online, Inc. | System and method for automatic data file format translation and transmission having advanced features |
US5732400A (en) | 1995-01-04 | 1998-03-24 | Citibank N.A. | System and method for a risk-based purchase of goods |
JP3166555B2 (ja) * | 1995-04-13 | 2001-05-14 | 富士ゼロックス株式会社 | 文書処理装置 |
US5708828A (en) * | 1995-05-25 | 1998-01-13 | Reliant Data Systems | System for converting data from input data environment using first format to output data environment using second format by executing the associations between their fields |
US5781914A (en) * | 1995-06-30 | 1998-07-14 | Ricoh Company, Ltd. | Converting documents, with links to other electronic information, between hardcopy and electronic formats |
US5860073A (en) * | 1995-07-17 | 1999-01-12 | Microsoft Corporation | Style sheets for publishing system |
US5963966A (en) * | 1995-11-08 | 1999-10-05 | Cybernet Systems Corporation | Automated capture of technical documents for electronic review and distribution |
US5956033A (en) * | 1995-11-28 | 1999-09-21 | Microsoft Corporation | Document control interface and method for graphical message document software |
US5778359A (en) * | 1996-04-18 | 1998-07-07 | Davox Corporation | System and method for determining and verifying a file record format based upon file characteristics |
-
1999
- 1999-07-07 US US09/346,786 patent/US6336124B1/en not_active Expired - Fee Related
- 1999-08-20 JP JP2000575041A patent/JP2002526862A/ja not_active Withdrawn
- 1999-08-20 EP EP99945156A patent/EP1153350A2/en not_active Withdrawn
- 1999-08-20 WO PCT/US1999/019253 patent/WO2000020985A1/en not_active Application Discontinuation
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004510253A (ja) * | 2000-09-27 | 2004-04-02 | エイゼル・テクノロジーズ・インコーポレーテッド | 能力が限られたデバイス上で用いるための電子文書の区分処理 |
JP2002229915A (ja) * | 2001-01-30 | 2002-08-16 | Cognitive Research Laboratories Inc | 電子メールへのプログラム配信機能の自動付加システム |
US7890855B2 (en) | 2001-07-27 | 2011-02-15 | Sap Ag | Method and computer system for separating and processing layout information and data of a document |
US8037407B2 (en) | 2001-07-27 | 2011-10-11 | Sap Ag | Method and computer system for creating and processing a browser compliant human interface description |
WO2004053724A1 (ja) * | 2002-12-06 | 2004-06-24 | Sharp Kabushiki Kaisha | データ変換装置、データ変換方法、および、データ変換プログラムを記録した記録媒体 |
JP2014071552A (ja) * | 2012-09-28 | 2014-04-21 | Nec Corp | データ形式変換装置、方法、及び、プログラム |
WO2014073941A1 (ko) * | 2012-11-12 | 2014-05-15 | 한국과학기술정보연구원 | 전자 서식 변환 장치 및 방법 |
WO2024122858A1 (ko) * | 2022-12-05 | 2024-06-13 | 김주명 | 문서 자동변환 및 편집 프로그램 |
US11966685B1 (en) * | 2023-02-24 | 2024-04-23 | Ying Zhang Lu | Webpage edition system and method thereof |
Also Published As
Publication number | Publication date |
---|---|
WO2000020985A9 (en) | 2000-09-08 |
WO2000020985A8 (en) | 2000-07-27 |
WO2000020985A1 (en) | 2000-04-13 |
EP1153350A2 (en) | 2001-11-14 |
US6336124B1 (en) | 2002-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002526862A (ja) | ドキュメントを表わすデータの操作および表示のための他のフォーマットへの変換 | |
US6694053B1 (en) | Method and apparatus for performing document structure analysis | |
US8254681B1 (en) | Display of document image optimized for reading | |
JP3282860B2 (ja) | 文書上のテキストのデジタル画像を処理する装置 | |
US20060271847A1 (en) | Method and apparatus for determining logical document structure | |
US20060285746A1 (en) | Computer assisted document analysis | |
US7712028B2 (en) | Using annotations for summarizing a document image and itemizing the summary based on similar annotations | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
US11615635B2 (en) | Heuristic method for analyzing content of an electronic document | |
JPH10228473A (ja) | 文書画像処理方法、文書画像処理装置および記憶媒体 | |
JPH0713995A (ja) | 自動テキスト特徴決定装置 | |
US20070133067A1 (en) | Forming a master page for an electronic document | |
WO2004090743A2 (en) | Enhanced readability with flowed bitmaps | |
JPH08194697A (ja) | ページ記述言語ファイル内に記載された単語を識別する方法及び装置 | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
JPH08147446A (ja) | 電子ファイリング装置 | |
US20240119218A1 (en) | Device dependent rendering of pdf content | |
US20240104290A1 (en) | Device dependent rendering of pdf content including multiple articles and a table of contents | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
JPH1166196A (ja) | 文書画像認識装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2007310501A (ja) | 情報処理装置、その制御方法、及びプログラム | |
JP4334068B2 (ja) | イメージ文書のキーワード抽出方法及び装置 | |
US20230046344A1 (en) | Systems, Methods, and Devices for a Form Converter | |
JP7252818B2 (ja) | デジタル文書からのデータ抽出システム | |
JP2004287992A (ja) | 文書情報処理装置並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20061107 |