JP2012514792A - 文書再構成の方法及びシステム - Google Patents
文書再構成の方法及びシステム Download PDFInfo
- Publication number
- JP2012514792A JP2012514792A JP2011544617A JP2011544617A JP2012514792A JP 2012514792 A JP2012514792 A JP 2012514792A JP 2011544617 A JP2011544617 A JP 2011544617A JP 2011544617 A JP2011544617 A JP 2011544617A JP 2012514792 A JP2012514792 A JP 2012514792A
- Authority
- JP
- Japan
- Prior art keywords
- document
- storage medium
- instruction set
- readable storage
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 994
- 238000004458 analytical method Methods 0.000 claims abstract description 98
- 238000007621 cluster analysis Methods 0.000 claims abstract description 89
- 230000008569 process Effects 0.000 claims description 771
- 230000015654 memory Effects 0.000 claims description 80
- 238000005192 partition Methods 0.000 claims description 76
- 238000004590 computer program Methods 0.000 claims description 74
- 230000003993 interaction Effects 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 19
- 238000005259 measurement Methods 0.000 claims description 14
- 230000009471 action Effects 0.000 claims description 8
- 238000013519 translation Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 126
- 238000012360 testing method Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 11
- 238000000638 solvent extraction Methods 0.000 description 11
- 230000006978 adaptation Effects 0.000 description 9
- 230000001174 ascending effect Effects 0.000 description 9
- 238000005457 optimization Methods 0.000 description 9
- 238000003672 processing method Methods 0.000 description 9
- 238000003491 array Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 230000002085 persistent effect Effects 0.000 description 6
- 238000012552 review Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 239000003086 colorant Substances 0.000 description 4
- 238000005206 flow analysis Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001125 extrusion Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004424 eye movement Effects 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007373 indentation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000252 konjac Substances 0.000 description 1
- 239000010410 layer Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- HEMHJVSKTPXQMS-UHFFFAOYSA-M sodium hydroxide Substances [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/163—Handling of whitespace
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Processing Or Creating Images (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
Description
本発明のいくつかの実施形態は、非構造化文書から構造化文書を規定する新しい方法を提供する。いくつかの実施形態において、非構造化文書は、形状(例えば、ベクトル図形)、画像(例えば、ビットマップ)及びグリフ(glyph)等の基本要素のみを含むように規定された文書である。いくつかの実施形態において、グリフは、テキスト文字(例えば、英字、数字、句読点又は他のインライン文字)、文字の集合又は文字の一部の視覚表現である。いくつかの実施形態において、グリフは、グリフの輪郭に対するパス定義を含む事前に指定されたスケーラブルベクトル図形の集合であってもよい。いくつかの実施形態において、グリフは種々のサイズに対して最適化された事前に指定されたラスタ画像又はラスタ画像の集合であってもよい。一例として、文字「i」は、ドットの輪郭を示すサブパス及び下部の輪郭を示すサブパスの2つのサブパスを有するパスである単一のグリフにより表現される。別の例として、3つの文字の組み合わせ「ffi」は、順番に現れた場合、個々に現れる文字とは僅かに異なる方法で描かれるリガチャと呼ばれる単一のグリフにより表される場合がある。第3の例として、
等のアクセント符号付き文字は、2つ以上のグリフ(1つは文字を示し、1つはアクセントを示す)により表される場合もあり、単一のグリフ(アクセントを文字と組み合わせる)により表される場合もある。
1ページに複数の情報の記事、小領域又はカテゴリがある場合、それらは線、画像又は形状により視覚的に示されることが多い。ユーザは、グラフィカルキューがページのゾーンへの分割方法を示すことを意図する方法を容易に識別できるが、これは、コンピュータにとっては大きな問題である(特に、一部の図形基本要素がページコンテンツであることを意図し且つ他の図形基本要素がコンテンツゾーンを視覚的に示すことを意図するような図形基本要素の組み合わせが存在する場合)。
図5は、いくつかのゾーンを含む文書のページ500を示す。ページ500は、ゾーン境界505〜509を含む多くのゾーン境界を含む。いくつかの実施形態において、ゾーン境界は、ゾーン境界に寄与するゾーン境界図形により規定された太さを有する水平又は垂直(すなわち、直線)のストリップである。いくつかの実施形態において、ゾーン境界の太さは、ゾーン境界に寄与するゾーン境界図形の直立バウンディングボックスの狭い方の幅である。いくつかの実施形態において、特定の要素又は要素の集合に対する直立バウンディングボックスは、要素又は要素の集合を完全に囲む最小の直立矩形(分析されている座標系における)である。
いくつかの実施形態は、ページのいくつかの回転グループを規定し、各回転グループのコンテンツ及びゾーンを別個に分析する。いくつかの実施形態において、回転グループはいずれのゾーン境界も有さないこと以外はゾーンに類似する。回転グループは、同一角度(又は閲覧者が区別するのが困難である程小さい特定の閾値内になるようなほぼ同一の角度)だけ回転される全てのコンテンツを含むように規定される。図8は、ページ上の回転グループを規定するいくつかの実施形態の処理800を概念的に示す。図示するように、処理800は、文書のページを受信する(805)。そのページは、文書の唯一のページである場合もあり、複数のページのうちの1ページである場合もある。いくつかの実施形態は、ページ毎ではなく複数ページの文書(又は複数ページの小領域)全体に対して回転グループ分析を1度に実行する。
図9は、ゾーン境界及び交点を識別するいくつかの実施形態の処理900を概念的に示す。処理900について図10と共に説明する。図10は、種々の図形及びテキストを含むページ1000を示す。
ゾーン境界及びゾーン境界の交点が識別されると、ゾーンが識別される。図12は、ゾーンを識別するいくつかの実施形態の処理1200を概念的に示す。処理1200については図13及び図14と共に説明する。図13及び図14は、ページ1000のゾーンを識別するための処理1200の適用法を示す。図13及び図14の各々は、シーケンスとして示される。図13は、第1のゾーン境界を識別するためのシーケンス1305〜1330を示す。図13の矢印は方向ベクトルを示し、破線はゾーンを規定するためにゾーン境界区間にわたってとられるパスを示す。図14は、処理1200により識別されたゾーンを示す。
ゾーンが識別されると、ゾーングラフ(ゾーン木)が生成される。いくつかの実施形態において、ゾーン木はゾーン毎に行われる文書再構成において使用される。図15は、ゾーン木を生成するいくつかの実施形態の処理1500を概念的に示す。図示するように、処理はゾーン及びコンテンツオブジェクトを受信する(1505)。いくつかの実施形態において、これらのゾーンは処理1200等の処理により識別されている。処理は面積によりゾーンをソートする(1510)。いくつかの実施形態は、ゾーンをソートする目的で面積が等しい場合に島でないゾーンより大きいものとして島を処理する。
いくつかの実施形態において、上述したゾーン分析処理は、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図17は、文書に対してゾーン分析を実行するいくつかの実施形態のゾーン分析アプリケーション1700のソフトウェアアーキテクチャを概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーション(例えば、文書再構成アプリケーション)に組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。
本発明のいくつかの実施形態は、文書又は文書の一部の境界線(例えば、位置揃えガイド)及び塗りつぶされていない空白(例えば、のどと呼ばれるグリフのグループの間の塗りつぶされていない空白の空隙)等の幾何学的属性を識別する方法を提供する。いくつかの実施形態において、のどは2つの位置揃え点の間(例えば、右揃え点と左揃え点との間)の空間である。いくつかの実施形態において、ガイド及びのどの識別は、カラムの識別及びテキスト行の分割等の次の再構成手順において使用される。いくつかの実施形態は、ゾーン毎又はページ毎にガイド及びのどを識別する。
いくつかの実施形態は、ページ上で同一のx座標又はほぼ同一のx座標で開始又は終了するテキスト行を探索し且つx座標が実際に位置揃え点であるという十分な根拠があるかを判定することにより右揃えガイド及び左揃えガイドを判定する。いくつかの実施形態は、位置揃えガイドを判定するために密度クラスタリングと呼ばれるクラスタ分析の形式を使用する。いくつかの実施形態の密度クラスタリングは、リソースの制限されたデバイス(例えば、iPhone(登録商標))において実行されるように第X節において以下に説明するメモリ及び処理効率化を利用する。
上述したように、いくつかの実施形態は、ページ上で同一のx座標又はほぼ同一のx座標において開始又は終了する関連したグリフの集合(例えば、用語、テキスト行)を探索し且つx座標が実際に位置揃え点であるという十分な根拠があるかを判定することにより右揃えガイド及び左揃えガイドを判定する。いくつかの実施形態は、左揃えガイド及び右揃えガイドを見つけるために、類似するが同一ではない処理を使用する。
ガイドを判定した後、いくつかの実施形態は領域(例えば、ゾーン、ページ等)ののどを判定する。いくつかの実施形態は、領域の関連したグリフの間の塗りつぶされていない空白(例えば、のど)のグループ化を判定するために、ガイド判定処理(例えば、処理2100及び2500)からの情報を使用する。いくつかの実施形態は、領域ののどを判定するためにガイドに加えて他の位置揃え点を使用する。
いくつかの実施形態において、上述したガイド及びのど分析処理は、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図30は、文書におけるガイド及びのどを識別するいくつかの実施形態のガイド及びのど分析アプリケーション3000のソフトウェアアーキテクチャを概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーション(例えば、文書再構成アプリケーション)に組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。
一般に、文書はコンテンツの黙示的構造及びフローを有する。特に、いくつかの例において、順序付けされた文字シーケンス(及びインライングラフィックス)は単語を構成し、順序付けされた単語シーケンスはテキスト行を構成し(又はハイフンによりテキスト行をまたぐ)、順序付けされたテキスト行シーケンスは段落を構成し、順序付けされた段落シーケンスはカラムを構成し(又はカラムをまたぐ)、順序付けされたカラムシーケンスはレイアウトを構成し、順序付けされたレイアウトシーケンスは文書の小領域を構成する。この構造が電子文書のファイル形式で提供されない場合、以前はソフトウェアから構造にアクセスできなかった。文書を単に閲覧することは文書構造を必ずしも必要としないが、文書の編集、インポート、検索、書式設定又は転用を行うアプリケーションは適切に機能するために文書構造及びフローの知識を必要とする。
上述したように、いくつかの実施形態において、テキスト行は識別される必要がある。特定のテキスト行の全ての文字が共通の並び線を必ずしも共有しないため、いくつかの実施形態は、2つの行の文字が同一のテキスト行の一部(例えば、上付き文字及び下付き文字)として読み取られることが意図されるという根拠に基づいて行をマージしようとする。
図36は、差分クラスタ分析を実行するいくつかの実施形態の処理3600を概念的に示す。多くの形態のクラスタ分析は、複数のクラスタリングのレベル/階層が存在する可能性があるため、グループ/クラスタ数の予知を必要とする。例えば天体をグループ化するためにクラスタ分析を使用する場合、クラスタ数の指定により、クラスタ分析が星のレベル、太陽系のレベル、銀河のレベル又は超銀河団のレベルで天体をグループ化するかを判定する。しかし、コンテンツの要素間の構造関係を発見するためにクラスタ分析を使用する場合、例えばグループ数は多くの場合に未知である。例えばテキストのページの場合、所定の最初のテキスト行が2つ以上の段落の部分を含むかもしれないように、文書が2カラム以上のテキストを有してもよいため、グリフが単語を構成し、単語が組み合わされて行を形成し、行のグループが段落を形成すると推定できない。
単語及びセグメント区切り情報が生成された後、いくつかの実施形態はテキスト行を分割する。2つ(又はそれ以上)の小領域のテキストが共に読まれることを意図しない可能性が高いため、テキスト行が分割され、例えば、テキスト行は2つ以上のカラムにまたがる。いくつかの実施形態は、テキスト行を分割するために差分クラスタリング(例えば、セグメント空隙等)からの情報と共に第III節で上述した処理から導出されたガイド及びのど情報を使用する。
いくつかの実施形態において、テキスト行がマージされ且つ分割されると、行は段落にグループ化される。図40は、テキスト行を段落にグループ化するいくつかの実施形態の処理4000を概念的に示す。処理の部分について図41と共に説明する。図41は、文書のページ4100における段落の識別を示す。図40に示すように、処理4000は文書の一部に対するテキスト行を受信する(4005)。いくつかの実施形態において、テキスト行は、処理4000が実行される前にマージされ(例えば、処理3300により)且つ分割されている(例えば、処理3800により)。いくつかの実施形態において、文書の一部は、文書全体、文書の小領域、ページ、ゾーン等である。
いくつかの実施形態は、段落を識別した後、段落をカラム及びレイアウトに配置する。いくつかの実施形態において、カラムは、テキストが上から下に一貫して読まれる垂直方向に順序付けられた段落のグループである。いくつかの実施形態のレイアウトは、重なり合わないカラムの集合であり、いくつかの実施形態の線形レイアウトは、テキストが最も左側のカラムの最上部から最も右側のカラムの最下部に一貫して読まれる水平方向に順序付けされたカラムのグループである。例えばいくつかの実施形態は、1つのカラムを含む単一の線形レイアウトとして、セグメント化されていないテキスト行を含み且つヘッダ又はフッタを有さない単純なページを分類する。
いくつかの実施形態において、上述したレイアウト及びフロー分析処理はコンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図47は、文書のレイアウト及びフローを識別するいくつかの実施形態のレイアウト及びフロー分析アプリケーション4700のソフトウェアアーキテクチャを概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーション(例えば、文書再構成アプリケーション)に組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。
本発明のいくつかの実施形態は、文書中の表を識別する。いくつかの実施形態は、表のセル、行及び列を識別し、テーブルの編集、スプレッドシートへのエクスポート等を可能にする。第II節で説明した処理から得られるゾーン情報並びに第IV節で説明した処理から得られるレイアウト及びフロー情報は、いくつかの実施形態の表識別処理において使用される。いくつかの実施形態は、表が押し出し及び影付け等の効果を含む場合に共通であるが、表が重なり合う形状及び画像に含まれた関連のない図形のグループとして描かれる場合でも表を識別及び再構成できる。
本発明のいくつかの実施形態は、全ての境界が境界図形(例えば、線、細い矩形、細い画像、塗りつぶされた矩形の境界等)のある組合せにより描かれる表を識別する。境界図形を識別し且つゾーンを識別するために境界図形を使用するいくつかの実施形態の処理について、第II節において上述した。
完全な境界の集合を有する表に加えて、いくつかの実施形態は、不完全であるが接続された境界の集合を有する表を識別する。図50は、そのような表5000を示す。いくつかの実施形態は、意図した表の境界である可能性のある黙示的境界を規定するために処理を使用し、実際の表を識別及び再構成するために上述した処理5300等の処理を適用する。
完全な境界の集合又は少なくとも接続された境界の集合を有する表に加えて、いくつかの実施形態は、境界を有さないか又は接続されない境界を有する表を識別する。図51は境界を有さない表5100を示し、図52は接続されない境界を有する表5200を示す。いくつかの実施形態は、意図した表の境界になる可能性のある黙示的境界を規定するために処理を使用し、実際の表を識別及び再構成するために処理5300等の処理を適用する。境界が接続集合を形成しない表の場合、いくつかの実施形態は、ゾーン情報に加えて表を識別するためにレイアウト情報を使用することを必要とする。
いくつかの実施形態において、上述した表の識別は、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図61は、文書の表を識別するいくつかの実施形態の表識別アプリケーション6100のソフトウェアアーキテクチャを概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーション(例えば、文書再構成アプリケーション)に組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。
いくつかの実施形態において、非構造化文書は、単一の要素として処理されることを意図されるが文書においてそのように規定されない基本要素(例えば、形状及び画像)を含む。そのような基本要素は、文書の孤立した小さな領域を占有する場合、境界クラスタリングと呼ばれる新しいクラスタ分析技術を使用して関連付けられる。いくつかの実施形態において、境界クラスタリングの目的は、クラスタの広がりを最小にし、それと同時にクラスタの基本要素の数を最大することである。ここで、広がりはクラスタの基本要素(例えば、形状)の集合の範囲から計算される。いくつかの実施形態において、範囲は形状又は形状の集合に対するバウンディングボックスに基づく。
図64は、結合されるべきグラフを識別するために境界クラスタリングを実行し且つそれらグラフを結合するいくつかの実施形態の処理6400を概念的に示す。いくつかの実施形態において、処理6400は、第X節で以下に説明するメモリ及び処理効率(例えば、間接的にソートされた配列、高速区分等)を利用する。図示するように、処理は文書の一部に対するグラフを受信する(6405)。いくつかの実施形態において、文書の一部は、文書全体、文書の小領域、ページ又はゾーンである。
上述したように、グラフのクラスタが識別された後、いくつかの実施形態は、最終的な結合グラフを識別するため(及び各結合グラフを構成する基本要素を関連付けるため)にサブシーケンスに含めるように各クラスタを処理する。図66は、サブシーケンスに含めるようにクラスタを処理するいくつかの実施形態の処理6600を示す。いくつかの実施形態において、処理6600はクラスタ毎に処理6400の動作6450で実行される。
いくつかの実施形態において、上述したグラフ結合処理は、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図67は、結合されるべきグラフを識別し且つそれらのグラフを1つの図形として関連付けるいくつかの実施形態のグラフ結合アプリケーション6700を概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーション(例えば、文書再構成アプリケーション)に組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。
文書中の構造要素として視覚情報を解釈することは、処理されている文書中のコンテンツの種類に依存する。従って、意味再構成(並びに他のコンテンツ処理技術)は、コンテンツの種類に合わせて分析を適合させることにより改善される。いくつかの実施形態は、処理されるコンテンツの種類を識別し且つ識別されたコンテンツの種類に合わせてコンテンツの処理を適合させる方法を提供する。いくつかの実施形態は、第II節〜第VI節において上述した文書再構成に対してコンテンツの種類の識別に基づくコンテンツ処理の適合を適用する。
いくつかの実施形態は、コンテンツの種類に合わせてコンテンツ処理を適合させるためにプロファイルの階層集合を使用する。図70は、文書再構成のためのいくつかの実施形態のプロファイルの階層集合7000を示す。プロファイルの階層集合7000は2つの文書プロファイル7001及び7002、3つの小領域プロファイル7005〜7007、8つのページプロファイル7010〜7017及び4つのゾーンプロファイル7020〜7023を含む。
いくつかの実施形態は、第II節〜第VI節において上述した意味再構成方法をより効率的に且つ正確に実現するために階層プロファイリングを利用する。いくつかの実施形態において、階層プロファイルは方法を追加、除去、変更又は再実行するために使用される。いくつかの実施形態は、一致するプロファイルがない場合に全ての可能な再構成方法を実現するデフォルトプロファイルを含む。しかし、階層の下位のプロファイルが選択される場合、選択されたプロファイルは特定の方法を実行するか否か及び/又は特定の方法の実現方法に関するデフォルトプロファイルを無効にできる。
上述したように、いくつかの実施形態において、プロファイルは、全てがプロファイルに対して真である必要がある論理的述語の集合である。いくつかの実施形態は、コンテンツ処理結果を受信し、現在の有効なプロファイルに対して次のレベルのプロファイルをテストするのに十分な情報が存在するかを判定し、コンテンツ処理結果をプロファイルに対してテストするプロファイルマッチングエンジンを使用する。いくつかの実施形態は、結果が到着しそうな順序及び一致する可能性が最も高いプロファイルに基づいてプロファイルをテストする特定の順序を指定する。
多くの場合、電子書籍リーダ等の文書閲覧アプリケーションは、文書を最適に表示し且つ文書内を最適にナビゲートする方法を認識する必要がある。これは、文書のページ全体を読みやすいように1度に表示できない小型スクリーンデバイスにおいて特に重要である。例えば場合によっては、文書ビューアは、コンテンツの表のエントリが文書の特定の小領域にリンクしていること、あるいは文書の2つの小領域が関連していること(例えば、コールアウトが特定の記事の一部であること又は1つのカラムが次のカラムに続くこと)を認識できるべきである。
いくつかの実施形態は、意味的に再構成された文書中の関心領域を識別及び選択し、関心領域の選択に基づいて文書の表示を変更する方法を提供する。図78は、いくつかの実施形態において関心位置の識別に基づいて文書を表示する処理7800を概念的に示す。処理7800については図79と共に説明する。図79は、本発明のいくつかの実施形態に従って関心位置が選択され且つ表示が変更される小型スクリーンデバイスにおけるシーケンス7900(7905〜7920)を示す。
いくつかの実施形態は、意味的に再構成された文書の表示及びナビゲーションを最適化する種々の方法を提供する。いくつかの実施形態において、表示及びナビゲーションは小型スクリーンデバイス(例えば、メディアプレーヤ、携帯電話等)に対して最適化される。
文書の表示及びナビゲーションに加えて、テキストを選択する機能は、ユーザにとって非常に重要だろう。複数のレイアウトに分割されることになる複数の異なるテキストフロー(例えば、複数の記事)を含む複雑なページは、順番にテキストをインテリジェント選択しようとするアプリケーションにとって問題となる可能性がある。テキストを選択する(例えば、コピー及び貼り付けをするために)場合、文字、単語、テキスト行等の順序付けが保存されることが重要である。これは、カラム内の選択だけでなく、複数のカラム、レイアウト、ゾーン又はページに及ぶ選択を含む。
上記の種々の節で説明したように、本発明のいくつかの実施形態は、文書再構成を実行するためにクラスタ分析を利用する。例えば、位置揃えガイドは密度クラスタリングを使用して識別され、結合グラフは境界クラスタリングを使用して識別され、文字間の空隙は差分クラスタリングを使用して単語及びセグメント空隙を識別するために使用される。しかし、クラスタ分析はメモリを非常に多く使用する可能性があるため、携帯電話又はメディアプレーヤ等のリソースの制限されたデバイスがクラスタ分析を実行するのは困難である可能性がある。
いくつかの実施形態は、実数(r1,r2,...,rN)のシーケンスに適用されるいくつかの演算子に基づいてクラスタ分析を実行する(差分クラスタリングであるか、密度クラスタリングであるか、境界クラスタリングであるかに関わらず)。いくつかの実施形態は以下の演算子を含む。
・差分演算子D((r1,r2,...,rN))=(r2−r1,r3−r2,...,rN−rN−1)。いくつかの実施形態において、差分演算子Dは要素rNの対毎のグループ化を規定する(すなわち、対{r2,r1}、{r3,r2}等に対する値を規定する)。
・ソート演算子S((r1,r2,...,rN))=(s1,s2,...,sN)。式中、(s1,s2,...,sN)は、s1≦s2≦...≦sNとなるような(r1,r2,...,rN)の順列である。
・区分演算子P(g,(r1,r2,...,rN))=((r1,...,rK1),(rK1+1,...,rK2),...,(rKp+1,...,rKM),(rKM+1,...,rN)。式中、Jが集合{K1,...KM}にある場合、rJ+1−rJ≧gである。いくつかの実施形態において、変数gは空隙最小値と呼ばれ、演算子Pは、2つの連続する値の差分が空隙最小値を上回る全ての場所でシーケンス(r1,r2,...,rN)を重なり合わないサブシーケンスに区分する。
・サブシーケンスの隣接する対を結合して単一のサブシーケンスにするために区分されたシーケンス(演算子Pの出力等)に何度も繰り返し作用する結合演算子C。いくつかの実施形態において、隣接する対を結合する時期を判定するテストは領域に依存しない。
・領域に依存しないテストに基づいて一部のクラスタを除去するために区分されたシーケンスに作用するフィルタリング演算子F。第III節で説明した密度制約はFの使用の一例である。
いくつかの実施形態は、メモリ及び処理の節約を可能にする効率的なデータ構造を使用して効率的なクラスタ分析を実行する。例えばデータに対して新しい配列を生成するのではなくデータをソートする(例えば、演算子Sを入力データに適用する)時、いくつかの実施形態は、参照する値の順序でソートされた指標の配列をソートされていないデータの配列に規定する。これは、いくつかの実施形態において間接的にソートされた配列と呼ばれる。例では配列を使用するが、他のあらゆる適切なデータ構造が使用されてもよいことが当業者には理解されるだろう。
いくつかの実施形態において、上述したクラスタ分析は、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図102は、クラスタ分析を実行するいくつかの実施形態のクラスタ分析アプリケーション10200のソフトウェアアーキテクチャを概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーション(例えば、文書再構成アプリケーション)に組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。
本発明のいくつかの実施形態は、文書のより効率的な構文解析及び分析を可能にする新しい方法及びデータ構造を提供する。いくつかの実施形態は、データが操作された時にデータの冗長なコピーを最小限にするアプリケーションプログラミングインタフェース(API)を提供する。いくつかの実施形態において、APIは、オペレーティングシステム、ライブラリ、サービス又はフレームワークがコンピュータプログラムにより行われた要求をサポートするために提供する関数、プロシージャ、メソッド、クラス又はプロトコルの集合である。いくつかの実施形態において、APIは静的にリンクされるが、他の実施形態において、APIは動的にリンクされる。
いくつかの実施形態は、文書を再構成するために上述したようなAPIを使用する。図103は、文書を効率的に再構成するいくつかの実施形態の処理10300を概念的に示す。処理10300については図104と共に説明する。図104は、文書10400が処理10300に従って構文解析及び分析される際のシーケンスを示す。
いくつかの実施形態において、各ポインタ配列は、配列のポインタの使用を管理する共有メモリオブジェクトを有する。いくつかの実施形態において、特定のポインタ配列に対する共有メモリオブジェクトは、特定の配列を参照するデータオブジェクト(例えば、ストリングオブジェクト)を常時監視する。いくつかの実施形態において、共有メモリオブジェクトは、ポインタ配列が開始するメモリの場所に関しても常時監視する。
いくつかの実施形態において、上述したAPIは、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図106は、第A項及び第B項で説明した効率化技術を使用しつつ文書再構成処理を実行するAPI10600を概念的に示す。
いくつかの実施形態において、上述した処理は、コンピュータ、メディアプレーヤ、携帯電話(例えば、iPhone(登録商標))、あるいは他のハンドヘルド又はリソースの制限されたデバイス等の特定のマシンで実行する(又はコンピュータ可読媒体に格納された)ソフトウェアとして実現される。図107は、文書の再構成及び表示並びに文書との対話を行ういくつかの実施形態のアプリケーション10700のソフトウェアアーキテクチャを概念的に示す。いくつかの実施形態において、アプリケーションは、スタンドアロンアプリケーションであるか又は別のアプリケーションに組み込まれる。その一方で、他の実施形態において、アプリケーションはオペレーティングシステム内に実現されてもよい。更に他の実施形態において、図107に示したモジュールは複数のアプリケーション間で分割される。例えばいくつかの実施形態において、1つのアプリケーションは文書オブジェクトモデルを生成し、別のアプリケーションは文書を表示し且つ文書オブジェクトモデルと対話する(以下の完全な説明を参照)。
上述した特徴及びアプリケーションの多くがコンピュータ読み取り可能な記憶媒体(コンピュータ可読媒体とも呼ばれる)に記録された命令セットとして指定されるソフトウェア処理として実現される。これらの命令は、1つ以上の計算要素(プロセッサ又はASIC及びFPGAのような他の計算要素等)により実行される場合、命令で指示された動作を計算要素に実行させる。コンピュータは広義の意味を有し、プロセッサを有するあらゆる電子デバイスを含むことができる。コンピュータ可読媒体の例は、CD−ROM、フラッシュドライブ、RAMチップ、ハードドライブ、EPROM等を含むが、それらに限定されない。コンピュータ可読媒体は、無線で又は有線接続を介して通過する搬送波及び電子信号を含まない。
Claims (237)
- 少なくとも1つのプロセッサにより実行された時に複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記文書の境界基本要素を識別する命令セットと、
前記境界基本要素に基づいて他の基本要素の集合間の境界線を識別する命令セットと、
前記境界線により限定された前記文書の領域を識別する命令セットと、
前記領域及び前記基本要素に基づいて構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 構造化文書を規定する前記命令セットは、少なくとも2つの識別された領域間の階層関係を識別する命令セットを含む請求項1に記載のコンピュータ読み取り可能な記憶媒体。
- 全体が第2の領域内にある第1の領域は前記第2の領域の子である請求項2に記載のコンピュータ読み取り可能な記憶媒体。
- 2つの識別された領域間の階層関係を識別する前記命令セットは、識別された各領域が階層文書オブジェクトモデルのノードである前記文書オブジェクトモデルを規定する命令セットを含む請求項2に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造化文書を規定する前記命令セットは、前記他の基本要素から規定された少なくとも1つの構造要素を前記文書オブジェクトモデルに読み込む命令セットを含む請求項4に記載のコンピュータ読み取り可能な記憶媒体。
- 境界線は、前記文書の特定の境界基本要素の場所に基づいて識別される請求項1に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の境界基本要素は直線又は直線を近似する形状である請求項6に記載のコンピュータ読み取り可能な記憶媒体。
- 前記領域を識別する前記命令セットは、
前記境界線が他の境界線と交差するかに基づいて実際に領域に境界をつける境界線の集合を選択する命令セットと、
領域を識別するために前記境界線の部分集合を横断する命令セットとを含む請求項1に記載のコンピュータ読み取り可能な記憶媒体。 - 境界基本要素を識別する前記命令セットは、直線又は直線を近似する形状である基本要素及び基本要素のグループを識別する命令セットを含み、他の基本要素の集合間の境界線を識別する前記命令セットは、
前記境界基本要素間の交点を識別する命令セットと、
少なくとも2つの他の境界基本要素と交差しない境界基本要素を除去する命令セットとを含む請求項1に記載のコンピュータ読み取り可能な記憶媒体。 - 前記境界線により限定された領域を識別する前記命令セットは、境界線の閉ループを識別するために前記識別された境界線を横断する命令セットを含み、各閉ループは領域である請求項1に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、前記文書に対する構造要素を規定するために前記識別された領域を使用する命令セットを更に含み、前記構造化文書は前記構造要素に更に基づく請求項1に記載のコンピュータ読み取り可能な記憶媒体。
- 構造要素を規定するために前記識別された領域を使用する前記命令セットは、特定の各領域の基本要素の集合間の関連付けを行うために前記特定の領域を別個に分析する命令セットを含む請求項11に記載のコンピュータ読み取り可能な記憶媒体。
- (i)複数の基本要素を含む文書を分析し、(ii)前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
前記文書の境界基本要素を識別するモジュールを既定することと、
前記境界基本要素に基づいて他の基本要素の集合間の境界線を識別するモジュールを規定することと、
前記境界線により限定された前記文書の領域を識別するモジュールを規定することと、
前記構造要素を指定するために前記識別された境界線及び領域を使用するモジュールを規定することとを含む方法。 - 前記領域、前記基本要素及び前記構造要素に基づいて構造化文書を規定するモジュールを規定することを更に含む請求項13に記載の方法。
- 前記文書は非構造化文書である請求項13に記載の方法。
- 少なくとも1つのプロセッサにより実行された時に複数のグリフ及び複数の図形要素を含む複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記複数の図形要素を潜在的な境界線として識別する命令セットと、
前記潜在的な境界線の一部を実際の境界線として識別する命令セットと、
1つ以上のゾーンを識別するために前記実際の境界線を横断する命令セットと、
前記識別されたゾーンを含む階層文書モデルを規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記複数の図形要素を潜在的な境界線として識別することは、
最大で特定の厚さの垂直線及び水平線である図形要素を識別する命令セットと、
最大で特定の厚さの垂直線及び水平線を近似する図形要素を識別する命令セットと、
直立矩形図形要素の外側エッジを識別する命令セットとを含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。 - 前記潜在的な境界線の一部を実際の境界線として識別する前記命令セットは、
前記潜在的な境界線の間の交点を識別する命令セットと、
全ての残りの潜在的な境界線が少なくとも2つの他の潜在的な境界線と交差するまで少なくとも2つの他の潜在的な境界線と交差しない潜在的な境界線を繰り返し除去する命令セットと、
前記残りの潜在的な境界線を実際の境界線として識別する命令セットとを含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。 - 1つ以上のゾーンを識別するために前記実際の境界線を横断する前記命令セットは、
前記実際の境界線の各々に対して反対方向に位置揃えされた2つの区間を含む方向を位置揃えされた区間の集合を規定する命令セットと、
交点及び前記交点から離れる方向を選択する命令セットと、
前記選択した交点に戻るまで前記選択した交点から開始して前記選択した方向へ前記区間の集合の中の前記区間を横断する命令セットと、
前記横断された区間により囲まれた前記領域をゾーンとして規定する命令セットと、
前記区間の集合から前記横断した区間を除去する命令セットととを含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。 - 前記方向を位置揃えされた区間はベクトルである請求項19に記載のコンピュータ読み取り可能な記憶媒体。
- 1つ以上のゾーンを識別するために前記実際の境界線を横断する前記命令セットは、
前記方向を位置揃えされた区間の集合が空になるまで、
交点及び前記交点からの方向を選択する命令セットと、
前記選択した交点に戻るまで前記選択した交点から開始して前記選択した方向に前記区間の集合の中の前記区間を横断する命令セットと、
前記横断した区間により囲まれた前記領域をゾーンとして規定する命令セットと、
前記区間の集合から前記横断した区間を除去する命令セットとを更に繰り返し含む請求項19に記載のコンピュータ読み取り可能な記憶媒体。 - 特定のゾーンが特定の方向に横断された時に前記特定のゾーンを島として規定することを更に含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
- 第2のゾーンが第1のゾーンの完全に囲まれる場合、前記第1のゾーンは前記第2のゾーンの親である請求項16に記載のコンピュータ読み取り可能な記憶媒体。
- 前記第1のゾーン及び前記第2のゾーンが境界線を共有しない場合、前記第2のゾーンは島である請求項23に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、実際の境界線でない前記図形要素及び前記グリフに基づいて構造要素を規定する命令セットを更に含む請求項16に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、前記階層文書モデルのゾーンに少なくとも1つの構造要素を読み込む命令セットを更に含む請求項25に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、回転ゾーンを識別する命令セットを更に含む請求項25に記載のコンピュータ読み取り可能な記憶媒体。
- 回転ゾーンは、前記回転ゾーンを含むページと位置揃えされないゾーンである請求項27に記載のコンピュータ読み取り可能な記憶媒体。
- ゾーンは、少なくとも特定の角度だけページのエッジからオフセットしている場合に前記ページと位置揃えされない請求項28に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に各々が関連するグリフの集合を含む複数の単語を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であり、各グリフが位置座標を有するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
位置揃えされた単語のグループ中の前記単語の各々における少なくとも1つの個別のグリフの位置座標に基づいて前記位置揃えされた単語のグループを識別する命令セットと、
前記識別された単語のグループに基づいて、前記グリフに対する位置揃え要素を規定する命令セットと、
前記グリフ及び前記規定された位置揃え要素に基づいて構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記コンピュータプログラムは、一対の位置揃え要素の間の少なくとも1つの空白の領域を規定する命令セットを更に含み、前記構造化文書は前記空白の領域に基づいて更に規定される請求項30に記載のコンピュータ読み取り可能な記憶媒体。
- 前記単語のグループを識別する前記命令セットは、1つの軸に沿って前記単語の座標から導出されたデータに対してクラスタ分析を実行する命令セットを含む請求項30に記載のコンピュータ読み取り可能な記憶媒体。
- 前記クラスタ分析は、同様の値を有する大きなデータのグループを識別するために密度クラスタリングを含む請求項32に記載のコンピュータ読み取り可能な記憶媒体。
- 前記境界要素は、グリフに対する右揃えガイド及び左揃えガイドである請求項30に記載のコンピュータ読み取り可能な記憶媒体。
- 前記位置揃え要素を規定する前記命令セットは、
前記識別されたグループ中の前記単語に基づいてある幅を有する第1の軸に沿うストリップを規定する命令セットと、
単語が第2の軸に沿う特定の方向から前記ストリップと交差する前記第1の軸に沿う座標において前記ストリップを削除する命令セットとを含む請求項30に記載のコンピュータ読み取り可能な記憶媒体。 - 構造化文書を規定する前記命令セットは、前記グリフ及び前記規定された位置揃え要素を使用してテキストカラムを識別する命令セットを含む請求項30に記載のコンピュータ読み取り可能な記憶媒体。
- (i)各々が関連するグリフの集合を含む複数の単語を含む文書であり、各グリフが位置座標を有する文書を分析し、(ii)前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
位置揃えされた単語のグループ中の前記単語の各々における少なくとも1つの個別のグリフの位置座標に基づいて前記位置揃えされた単語のグループを識別するモジュールを規定することと、
前記識別された単語のグループに基づいて、前記グリフに対する境界を識別する前記グリフに対する位置揃え要素を規定するモジュールを規定することと、
前記文書の構造要素を指定するために前記識別された位置揃え要素を使用するモジュールを規定することとを含む方法。 - 前記グリフ、前記規定した位置揃え要素及び前記構造要素に基づいて構造化文書を規定するモジュールを規定することを更に含む請求項37に記載の方法。
- 少なくとも1つのプロセッサにより実行された時に各々が複数のグリフを含み且つ特定の位置値を有する複数の単語を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記単語の前記位置値を順序付けする命令セットと、
前記位置値の部分集合への複数の異なるグループ化を識別する命令セットと、
異なるグループ化毎に特定の制約の集合を満足する前記位置値の部分集合の集合を識別する命令セットと、
特定の基準を最適化する前記位置値の部分集合の前記集合のうちの特定の1つを判定する命令セットと、
前記特定の基準を最適化する前記部分集合の特定の集合に基づいて前記グリフに対する境界要素を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記制約の集合は、前記位置値の部分集合が少なくとも特定の数の値を有するという要件を含む請求項39に記載のコンピュータ読み取り可能な記憶媒体。
- 前記制約の集合は、前記部分集合の最大値と最小値との間の差分が特定の閾値を上回らないという要件を含む請求項39に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の位置値は単語の右エッジを表し、前記特定の基準を最適化する前記部分集合の集合は右揃えガイドを識別するために使用される請求項39に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の位置値は単語の左エッジを表し、前記特定の基準を最適化する前記部分集合の集合は左揃えガイドを識別するために使用される請求項39に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時にデータのクラスタを識別するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
クラスタリングされるデータ値の集合を受信する命令セットと、
各々が部分集合への前記データ値の異なるグループ化を指定する前記データ値の複数の区分を識別する命令セットと、
データ値の部分集合のグループ毎に特定の制約の集合を満足する前記部分集合の集合を識別する命令セットと、
特定の基準を最適化する部分集合の集合を判定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記データ値は文書のグリフの位置であり、特定の基準を最適化する前記部分集合の集合は前記文書に対する位置揃えガイドを識別する請求項44に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に各々が関連するグリフの集合を含む複数の単語を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記文書の左揃え点の集合及び右揃え点の集合を識別する命令セットと、
特定の判断基準を満足する左揃え点と右揃え点との間の前記文書中の空白を識別する命令セットと、
前記識別した空白を使用して構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記左揃え点の集合及び前記右揃え点の集合は、単語の密度クラスタリングにより判定された位置揃えガイドを含む請求項46に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書中の空白を識別する前記命令セットは、
前記右揃え点の集合から1つの右揃え点を選択する命令セットと、
前記選択した右揃え点の右側にある前記選択した右揃え点に最近接する左揃え点である前記左揃え点の集合の中の左揃え点を識別する命令セットと、
前記選択した右揃え点と前記識別した左揃え点との間の垂直ストリップを規定する命令セットと、
単語がストリップと交差する座標において前記垂直ストリップを削除する命令セットとを含む請求項46に記載のコンピュータ読み取り可能な記憶媒体。 - 前記識別した空白を使用して構造化文書を規定する前記命令セットは、単語の行を分割する命令セットを含む請求項44に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に複数のグリフを含む文書を解析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、
前記複数のグリフのそれぞれは、前記文書内の位置を有し、
前記コンピュータプログラムは、
前記文書における前記グリフの位置に基づいて、グリフの異なる集合を異なる単語として識別するために、前記グリフ間の関連付けを作成する命令セットと、
単語の異なる集合を異なる段落として識別するために、前記単語間の関連付けを作成する命令セットと、
前記段落について読み順を規定するために、隣接していない少なくとも2つの段落間の関連付けを規定する命令セットと、
を含むコンピュータ読み取り可能な記憶媒体。 - 単語間の関連付けを作成する前記命令セットは、(i)前記単語を形成する前記グリフの垂直間隔の属性と、(ii)前記単語を形成する前記グリフの水平位置揃えの属性と、に基づいて関連付ける単語の集合を識別する命令セットを含む請求項50に記載のコンピュータ読み取り可能な記憶媒体。
- 単語の異なる集合を異なる段落として識別するために、前記単語間の関連付けを作成する前記命令セットは、
単語の集合をテキスト行として識別するために、前記単語間の関連付けを作成する命令セットと、
テキスト行の集合を段落として識別するために、前記テキスト行の間の関連付けを作成する命令セットと、
を含む請求項50に記載のコンピュータ読み取り可能な記憶媒体。 - 単語の集合をテキスト行として識別するために、前記単語間の関連付けを作成する前記命令セットは、
水平に位置揃えされた単語の集合を識別する命令セットと、
少なくとも1つの水平間隙の存在に基づいて、前記水平に位置揃えされた単語の集合を分割する命令セットと、
それぞれの残った集合内の単語間の関連付けを作成する命令セットと、
を含み、
前記水平に位置揃えされた単語の集合内の全ての単語は、互いに所定の閾値内にベースラインを有する請求項52に記載のコンピュータ読み取り可能な記憶媒体。 - 前記水平に位置揃えされた単語の集合を分割する前記命令セットは、
水平に位置揃えされた単語間の少なくとも閾値の幅の間隙として、水平間隙を識別する命令セットと、
垂直に位置揃えされている水平間隙の集合を識別する命令セットと、
特定の基準の集合を満たさない水平間隙の集合を除去する命令セットと、
前記除去されなかった間隙で、前記水平に位置揃えされた単語の集合を分割する命令セットと、
を含む請求項53に記載のコンピュータ読み取り可能な記憶媒体。 - テキスト行の集合を段落として識別するために、前記テキスト行の間の関連付けを作成する前記命令セットは、隣接するテキスト行の垂直間隔の属性を比較する命令セットを含む請求項52に記載のコンピュータ読み取り可能な記憶媒体。
- テキスト行の集合を段落として識別するために、前記テキスト行の間の関連付けを作成する前記命令セットは、隣接するテキスト行の水平位置揃えの属性を比較する命令セットを含む請求項52に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、段落の集合をカラムとして識別するために、前記段落間の関連付けを作成する命令セットをさらに含む請求項50に記載のコンピュータ読み取り可能な記憶媒体。
- 複数のグリフを含む文書を解析するプログラムを規定する方法であって、
前記複数のグリフのそれぞれは、前記文書内の位置を有し、
前記方法は、
前記文書における前記グリフの位置に基づいて、グリフの異なる集合を異なる単語として識別するために、前記グリフ間の関連付けを作成するモジュールを規定する工程と、
単語の異なる集合を異なる段落として識別するために、前記単語間の関連付けを作成するモジュールを規定する工程と、
前記段落について読み順を規定するために、隣接していない少なくとも2つの段落間の関連付けを規定するモジュールを規定する工程と、
を含む方法。 - グリフ間の関連付けを作成するモジュールを規定する前記工程は、前記グリフ間の水平間隔を識別するために、前記グリフの前記位置に対してクラスタ分析を実行するモジュールを規定する工程を含む請求項58に記載の方法。
- 前記クラスタ分析は、単語間の間隔及び単語内の間隔を識別するために、水平間隔サイズのクラスタを識別する請求項59に記載の方法。
- 少なくとも1つのプロセッサにより実行された時に各々が文書における位置を有する複数のグリフを含む前記文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記グリフの前記位置に基づいて種々のグリフの集合を種々の単語として識別する命令セットと、
種々の単語の集合を種々の段落として識別する命令セットと、
前記文書において連続していない少なくとも2つの段落にわたるフローを規定する前記段落の読み取り順序を規定する命令セットと、
前記単語、前記段落、及び前記規定した読み順に基づいて、構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 特定のグリフの集合を単語として識別することは、前記グリフを関連付けることを含む請求項61に記載のコンピュータ読み取り可能な記憶媒体。
- 特定のグリフの集合を単語として識別することは、前記グリフ間の関連付けを行うことを含む請求項61に記載のコンピュータ読み取り可能な記憶媒体。
- 前記連続していない2つの段落は、第1のページの終端の第1の段落及び第2のページの先頭の第2の段落を含み、前記読み順は、前記第1の段落から前記第2の段落への直接の流れを特定する請求項61に記載のコンピュータ読み取り可能な記憶媒体。
- 前記連続していない2つの段落は、第1のページの終端の第1の段落及び第2のページの先頭の第2の段落を含み、前記読み順は、前記第1の段落から前記第2の段落への直接の流れを特定する請求項61に記載のコンピュータ読み取り可能な記憶媒体。
- 前記第1のページ及び前記第2のページは、前記文書において隣接していない請求項65に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に各々が複数の特性を有する複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
前記基本要素の前記特性に基づいて基本要素の集合を構造要素として関連付ける命令セットと、
前記構造要素間の関係を規定する命令セットと、
前記関連付け及び関係に基づいて前記基本要素の全てにわたるフローを指定する命令セットと、
前記基本要素にわたる前記指定したフローを使用して前記文書とのユーザ対話を最適化する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記ユーザ対話は選択動作を含む請求項67に記載のコンピュータ読み取り可能な記憶媒体。
- 前記ユーザ対話は表示動作を含む請求項67に記載のコンピュータ読み取り可能な記憶媒体。
- 前記ユーザ対話はナビゲーション動作を含む請求項67に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
第1の基本要素の集合を含む第1の領域が前記第1の基本要素の集合の部分集合を含む第2の基本要素の集合を含む第2の領域を含むようにネストされ且つ基本要素の集合を含む領域を識別する命令セットと、
他のいずれの領域にも含まれず且つ少なくとも2つの追加の領域を含む特定の領域を識別する命令セットと、
前記特定の領域を表として識別し且つ前記含まれた領域を前記表のセルとして識別する命令セットと、
各々が関連する基本要素の集合を含む複数のセルであり、複数の行及び列で構成された複数のセルを含む前記表に対する表構造要素を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記表構造要素に基づいて構造化文書を規定する命令セットを更に含む請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造化文書を規定する前記命令セットは、前記非構造化文書の階層モデルを規定する命令セットを含む請求項72に記載のコンピュータ読み取り可能な記憶媒体。
- 前記表構造要素の前記セルは前記階層モデルのノードを含む請求項73に記載のコンピュータ読み取り可能な記憶媒体。
- 前記表構造要素は前記階層モデルのノードを含む請求項73に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の領域はより大きな矩形であり、前記追加の領域は前記より大きな矩形内に含まれた複数の矩形である請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書は複数の図形基本要素を含み、前記領域を識別する前記命令セットは、前記基本要素の集合間の境界線を識別する命令セットを含む請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記境界線を識別する前記命令セットは、垂直線又は水平線である図形基本要素並びに垂直線又は水平線を近似する図形基本要素を識別することを含む請求項77に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の領域及び前記含まれた領域は、表を示す特定の特性の集合を満足する請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の領域は、いずれの親領域とのいずれの境界も共有しない請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の領域は前記表の外側境界である請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記基本要素はグリフを含み、前記複数の識別した領域は、前記セルを形成する関連するグリフの集合の位置に基づいて推論される請求項71に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムはグリフの集合を段落として関連付ける命令セットを更に含み、前記境界線は前記段落の位置に基づいて推論される請求項82に記載のコンピュータ読み取り可能な記憶媒体。
- グリフの集合間の境界線を識別する前記命令セットは、垂直又は水平に位置揃えされる少なくとも2つのグリフの集合を識別する命令セットを含む請求項82に記載のコンピュータ読み取り可能な記憶媒体。
- 連続する矩形を形成する識別された境界線の集合を識別する命令セットを含む請求項77に記載のコンピュータ読み取り可能な記憶媒体。
- 前記連続する矩形は前記表構造要素の前記セルである請求項85に記載のコンピュータ読み取り可能な記憶媒体。
- (i)複数の基本要素を含む文書を分析し、(ii)前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
第1の基本要素の集合を含む第1の領域が前記第1の基本要素の集合の部分集合を含む第2の基本要素の集合を含む第2の領域を含むようにネストされ且つ基本要素の集合を含む領域を識別するモジュールを規定することと、
他のいずれの領域にも含まれず且つ少なくとも2つの追加の領域を含む特定の領域を識別するモジュールを規定することと、
前記第1の領域を表として識別し且つ前記含まれた領域を前記表のセルとして識別することと、
各々が関連する基本要素の集合を含む複数のセルであり、複数の行及び列で構成された複数のセルを含む前記表に基づく表構造要素を規定するモジュールを規定することとを含む方法。 - 少なくとも1つのプロセッサにより実行された時に複数の基本要素を含む文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
表を含む第1の基本要素の集合を識別する命令セットと、
前記第1の基本要素の集合に対する表構造要素を規定する命令セットと、
表を含まない第2の基本要素の集合を識別する命令セットと、
前記第2の基本要素の集合に対する表でない構造要素の集合を規定する命令セットと、
前記表構造要素及び前記表でない構造要素の集合を含む構造化文書を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 構造化文書を規定する前記命令セットは、前記構造要素の読み取り順序を規定する命令セットを含み、前記読み取り順序は、前記構造要素の集合の第1の構造要素から前記表構造要素へ、更に前記構造要素の集合の第2の構造要素へ進む請求項88に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、
各々が異なる表を含む種々の基本要素の集合を識別する命令セットと、
前記種々の集合毎に種々の表構造要素を規定する命令セットとを更に含む請求項88に記載のコンピュータ読み取り可能な記憶媒体。 - 前記種々の集合の第1の集合は図形基本要素及びグリフの双方を含み、前記種々の集合の第2の集合はグリフのみを含む請求項90に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
各々が前記文書における単一のオブジェクトとして規定される前記複数の基本図形要素を含む前記文書であり、前記文書が表示された時に複数の基本図形要素が描かれる順序を示す描画順序を有する前記文書を受信する命令セットと、
前記描画順序が連続する基本図形要素間の位置関係を識別する命令セットと、
前記位置関係に基づいて前記基本図形要素のうちの少なくとも2つから単一の構造図形要素を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記文書は複数のグリフを更に含み、前記描画順序は前記グリフが前記ページに描かれる順序を示さない請求項92に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書はベクトル図形文書であり、前記基本図形要素はベクトル図形である請求項92に記載のコンピュータ読み取り可能な記憶媒体。
- 連続する基本図形要素間の位置関係を識別する前記命令セットは、第1の基本図形要素及び前記読み取り順序で前記第1の基本図形要素に続く第2の基本図形要素に対して前記第1の基本図形要素及び前記第2の基本図形要素を含む構造図形要素のサイズを計算する命令セットを含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
- 前記サイズは、前記第1の基本図形要素及び前記第2の基本図形要素を囲む直立バウンディングボックスの領域に比例する請求項95に記載のコンピュータ読み取り可能な記憶媒体。
- 前記サイズは、前記第1の基本図形要素及び前記第2の基本図形要素を囲む直立バウンディングボックスの長さ及び高さの合計に比例する請求項95に記載のコンピュータ読み取り可能な記憶媒体。
- 連続する基本図形要素間の位置関係を識別する前記命令セットは、
前記第2の基本図形要素及び前記読み取り順序で前記第2の基本図形要素に続く第3の基本図形要素に対して前記第2の基本図形要素及び前記第3の基本図形要素を含む構造図形要素のサイズを計算する命令セットと、
前記第1の基本図形要素及び前記第2の基本図形要素を含む前記構造図形要素の前記サイズと前記第2の図形要素及び前記第3の図形要素を含む前記構造図形要素の前記サイズとを比較する命令セットとを更に含む請求項95に記載のコンピュータ読み取り可能な記憶媒体。 - 連続する基本図形要素間の位置関係を識別する前記命令セットは、
前記描画順序が連続する基本図形要素の各対を識別する命令セットと、
基本図形要素の識別された対毎に前記対に対する広がり値を計算する命令セットとを含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。 - 一対の広がり値は、前記対の前記2つの基本図形要素のサイズ及び近接度を記述する請求項99に記載のコンピュータ読み取り可能な記憶媒体。
- 基本図形要素の対から単一の構造図形要素を規定する前記命令セットは、
クラスタ内で互いに近接する基本図形要素の全てが前記描画順序で連続するような前記基本図形要素のクラスタを前記計算した広がり値に基づいて識別する命令セットと、
特定の制約の集合を満足する前記クラスタの連続する基本図形要素のサブグループを識別する命令セットと、
サブグループ毎に、前記サブグループの前記基本図形要素の全てを含む構造図形要素を規定する命令セットとを含む請求項99に記載のコンピュータ読み取り可能な記憶媒体。 - 前記基本図形要素のクラスタを識別する前記命令セットは、1次差分である前記計算した広がり値を有する前記基本図形要素に対して差分クラスタリングを実行する命令セットを含む請求項101に記載のコンピュータ読み取り可能な記憶媒体。
- 前記特定の制約の集合は、前記サブグループの特定の基本要素毎の範囲が前記描画順序で前記特定の基本要素の前の前記サブグループの全ての基本要素に対する共同の範囲と交差するという要件を含む請求項101に記載のコンピュータ読み取り可能な記憶媒体。
- 基本要素毎の前記範囲は、前記基本要素を含む最小の直立バウンディングボックスである請求項103に記載のコンピュータ読み取り可能な記憶媒体。
- 基本要素毎の前記範囲は、前記基本要素を完全に囲む最小領域のパスである請求項103に記載のコンピュータ読み取り可能な記憶媒体。
- 前記複数の基本図形要素から前記単一の構造図形要素を規定する前記命令セットは、前記構造図形要素を規定するために使用される前記基本図形要素の集合の間で少なくとも1つの関連付けを行う命令セットを含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、前記構造図形要素に基づいて構造化文書を規定する命令セットを更に含む請求項92に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造化文書は、複数のノードを含む前記文書の階層モデルを含み、前記ノードの1つには前記構造図形要素が読み込まれる請求項107に記載のコンピュータ読み取り可能な記憶媒体。
- 文書を分析し且つ前記分析に基づいて前記文書の構造を規定する構造要素を生成するプログラムを規定する方法であって、
各々が前記文書の単一のオブジェクトとして規定される複数の基本図形要素を含む前記文書であり、前記文書が表示される時に前記基本図形要素が描かれる順序を示す描画順序を有する文書を受信するモジュールを規定することと、
前記描画順序が連続する基本図形要素間の位置関係を識別するモジュールを規定することと、
前記位置関係に基づいて前記基本図形要素のうちの少なくとも2つから単一の構造図形要素を規定するモジュールを規定することとを含む方法。 - 前記構造図形要素を含む構造化文書を規定するモジュールを規定することを更に含む請求項109に記載の方法。
- 前記構造化文書は、複数のノードを含む前記文書の階層モデルを含み、前記ノードの1つには前記構造図形要素が読み込まれる請求項110に記載の方法。
- 少なくとも1つのプロセッサにより実行された時に文書を分析するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
各々が前記文書の単一のオブジェクトとして規定される複数の基本図形要素を含む前記文書であり、前記文書が表示される時に前記基本図形要素が描かれる順序を示す描画順序を有する文書を受信する命令セットと、
前記描画順序が連続する基本図形要素の対毎に前記対の前記基本図形要素のサイズに関連する値を計算する命令セットと、
前記計算した値に基づいて連続する基本図形要素のクラスタを規定する命令セットと、
特定の制約を満足する前記クラスタの基本図形要素のサブクラスタの集合を識別する命令セットと、
特定の各サブクラスタを前記特定のサブクラスタの前記基本図形要素を含む単一の構造図形要素として規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記計算した値は、前記対の前記基本図形要素の互いに対する近接度に更に関連する請求項112に記載のコンピュータ読み取り可能な記憶媒体。
- 文書を再構成するプログラムを規定する方法であって、
複数の基本要素を含む文書から構造化文書を規定する文書再構成動作のデフォルト集合を規定することと、
中間文書再構成結果がプロファイルに対する潜在的な文書再構成結果と一致する時に各々が(i)潜在的な文書再構成結果の集合及び(ii)前記文書再構成動作を変更する命令を含むプロファイルの階層集合であり、前記階層の下位レベルのプロファイルからの命令が上位レベルのプロファイルからの命令を無効にするプロファイルの階層集合を規定することと、
中間文書再構成結果をプロファイルとマッチングするモジュールを規定することとを含む方法。 - 前記構造化文書は前記文書の階層モデルを含む請求項114に記載の方法。
- 前記プロファイルの階層集合は、文書、小領域、ページ及びゾーンのうち少なくとも2つに対するプロファイルを含む請求項114に記載の方法。
- 各文書プロファイルは可能なページプロファイルの特定の集合を指定し、各ページプロファイルは可能なゾーンプロファイルの特定の集合を指定する請求項116に記載の方法。
- 第1の文書プロファイルに対する前記ページプロファイルの集合は特定のページプロファイルを含み、第2の文書プロファイルに対する前記ページプロファイルの集合は前記特定のページプロファイルを含む請求項117に記載の方法。
- 特定のプロファイルの前記命令は、前記中間文書再構成結果が前記特定のプロファイルに対する前記潜在的な文書再構成結果と一致する時にテストされるべきである前記プロファイルの階層集合の下位レベルのプロファイルの部分集合を含む請求項114に記載の方法。
- 特定のプロファイルの前記命令は、特定の文書再構成動作を実行しない命令を含む請求項114に記載の方法。
- 前記特定のプロファイルはページに対するプロファイルであり、前記特定のプロファイルに対する前記潜在的な文書再構成結果の集合は、前記ページが1つのテキストカラムのみを有するという結果を含み、前記特定のプロファイルに対する前記命令はテキスト行を分割する動作を実行しない命令を含む請求項120に記載の方法。
- 特定のプロファイルの前記命令は、特定の文書再構成動作を実行する方法に関する命令を含む請求項114に記載の方法。
- 特定のプロファイルの前記命令は、結果が前記中間再構成結果から除去される特定の再構成処理を指定する命令を含む請求項114に記載の方法。
- 少なくとも1つのプロセッサにより実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
複数の基本要素を含む文書を受信する命令セットと、
構造化文書を規定するために前記文書を再構成する文書再構成動作のデフォルト集合を識別する命令セットと、
前記デフォルト集合の前記文書再構成動作の1つ以上を実行する命令セットと、
前記実行した文書再構成動作の結果に基づいて前記文書に対するプロファイルを識別する命令セットと、
前記識別したプロファイルに従って前記文書を再構成する前記文書再構成動作の集合を変更する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記コンピュータプログラムは、前記集合を変更した後の前記変更済みの集合の前記文書再構成動作のうちの少なくとも1つを実行する命令セットを更に含む請求項124に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書再構成動作の集合を変更する前記命令セットは、実行される前記再構成動作の集合から特定の再構成動作を除去する命令セットを含む請求項124に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書再構成動作の集合を変更する前記命令セットは、実行される前記再構成動作の集合に特定の再構成動作を追加する命令セットを含む請求項124に記載のコンピュータ読み取り可能な記憶媒体。
- 前記再構成動作のデフォルト集合は、前記再構成動作が実行される順序を指定する請求項124に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書再構成動作の集合を変更する前記命令セットは、前記再構成動作が実行される前記順序を変更する命令セットを含む請求項128に記載のコンピュータ読み取り可能な記憶媒体。
- 前記プロファイルは、前記実行された文書再構成動作の結果に基づいて前記文書に対する文書の種類を識別する文書プロファイルである請求項124に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、
前記集合を変更した後に前記変更済みの集合の前記文書再構成動作のうちの少なくとも1つを実行する命令セットと、
前記実行した文書再構成動作の結果に基づいて前記文書の特定の小領域に対する小領域プロファイルを識別する命令セットと、
前記識別した小領域プロファイルに従って前記文書の前記特定の小領域を再構成する前記文書再構成動作の集合を変更する命令セットとを更に含む請求項130に記載のコンピュータ読み取り可能な記憶媒体。 - 前記特定の小領域は特定のページである請求項131に記載のコンピュータ読み取り可能な記憶媒体。
- 前記小領域プロファイルの命令は、前記特定の小領域を再構成するための前記文書プロファイルの矛盾する命令を無効にする請求項131に記載のコンピュータ読み取り可能な記憶媒体。
- 前記小領域プロファイルの命令と矛盾しない前記文書プロファイルの命令は、前記小領域プロファイルの識別の後も依然として動作している請求項131に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に文書を表示するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
非構造化文書を分析することにより構築された構造要素の階層を含む構造化文書を規定する命令セットと、
前記文書をデバイスに表示する命令セットと、
前記文書中の関心位置の選択を受信する命令セットと、
前記関心位置に基づいて前記階層内の構造要素を関心領域として識別する命令セットと、
前記識別した関心領域を強調表示するように前記文書の前記表示を変更する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記デバイスは小型スクリーンデバイスである請求項135に記載のコンピュータ読み取り可能な記憶媒体。
- 前記デバイスはハンドヘルドデバイスである請求項136に記載のコンピュータ読み取り可能な記憶媒体。
- 前記非構造化文書は関連付けられていない複数の基本要素を含み、前記構造化文書を規定する前記命令セットは、
構造要素を規定するために前記基本要素間の関連付けを行う命令セットと、
前記構造要素の階層を規定する命令セットとを含む請求項136に記載のコンピュータ読み取り可能な記憶媒体。 - 前記構造要素を識別する前記命令セットは、
前記関心位置を含む前記階層の最下位レベルの前記構造要素を識別する命令セットと、
関心領域として適格である構造要素に到達するまで前記階層の前記最下位レベルで識別された前記構造要素を含む前記階層の上位レベルの構造要素を識別する命令セットとを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。 - 前記階層の前記最下位レベルの前記構造要素は単語として関連付けられたグリフの集合であり、関心領域として適格である前記構造要素は前記単語を含む段落である請求項139に記載のコンピュータ読み取り可能な記憶媒体。
- 前記関心位置は図形要素内にあり、前記関心領域は前記図形要素である請求項139に記載のコンピュータ読み取り可能な記憶媒体。
- 関心位置の選択を受信する前記命令セットは、タッチスクリーンデバイスの特定の位置においてダブルタップを受信する命令セットを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書の前記表示を変更する前記命令セットは、前記関心領域を中央に置くために前記文書のズーム、回転及び平行移動の組み合わせに対する命令セットを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書の前記表示を変更する前記命令セットは、
前記関心領域である前記構造要素に基づいて関心矩形を規定する命令セットと、
前記関心矩形全体を表示しつつ、前記関心矩形のサイズを最大にするように前記表示をズームする命令セットとを含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。 - 前記関心矩形は、第1の方向の前記矩形の長さが第1の方向の前記デバイスにおける表示の長さと等しくなるようにズームされ、前記文書の前記表示を変更する前記命令セットは、第2の方向において前記表示の前記関心矩形を中央に置く命令セットを更に含む請求項144に記載のコンピュータ読み取り可能な記憶媒体。
- 前記第1の方向は水平であり、前記第2の方向は垂直である請求項145に記載のコンピュータ読み取り可能な記憶媒体。
- 前記第1の方向は垂直であり、前記第2の方向は水平である請求項145に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、
前記関心領域から移動するための入力を受信する命令セットと、
構造的に関連する関心領域を強調表示するように前記文書の前記表示を変更する命令セットとを更に含む請求項135に記載のコンピュータ読み取り可能な記憶媒体。 - 前記構造的に関連する関心領域は、読み取り順序が前記識別した構造要素の前である構造要素である請求項148に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造的に関連する関心領域は、読み取り順序が前記識別した構造要素の後である構造要素である請求項148に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造的に関連する関心領域は、前記文書において初期の関心領域とは異なるページ上の構造要素であり、前記構造化文書は、前記関心領域と前記構造的に関連する関心領域との間のリンクを含む請求項148に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行するためのハンドヘルド表示装置に対するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
基本要素の集合を関連付けることにより規定された構造要素の階層を含む構造化文書を規定するために関連付けられていない複数の基本要素を含む非構造化文書を分析する命令セットと、
前記表示装置が第1の向きを向いている場合に第1のレイアウトで前記構造化文書の特定の一部を前記ハンドヘルド表示装置に表示する命令セットと、
前記表示装置が第2の向きを向いている場合に前記第1のレイアウトとは異なる第2のレイアウトで前記構造化文書の前記特定の一部を前記ハンドヘルド表示装置に表示する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記第1の向きは水平の向きであり、前記第2の向きは垂直の向きである請求項152に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造化文書の前記一部は1カラムで配置されたテキストを含み、前記第1のレイアウトは前記テキストを3カラムで表示し且つ前記第2のレイアウトは前記テキストを2カラムで表示する請求項153に記載のコンピュータ読み取り可能な記憶媒体。
- 前記ハンドヘルド表示装置は、前記表示装置の前記向きを判定する加速度計を含む請求項152に記載のコンピュータ読み取り可能な記憶媒体。
- 前記ハンドヘルド表示装置はiPhone(登録商標)である請求項152に記載のコンピュータ読み取り可能な記憶媒体。
- 文書を表示するプログラムを規定する方法であって、
非構造化文書を分析することにより構築された構造要素の階層を含む構造化文書を規定するモジュールを規定することと、
前記文書をデバイスに表示するモジュールを規定することと、
前記文書中の関心位置の選択を受信するモジュールを規定することと、
前記関心位置に基づいて前記階層内の構造要素を関心領域として識別するモジュールを規定することと、
前記識別した関心領域を強調表示するように前記文書の前記表示を変更するモジュールを規定することとを含む方法。 - 前記プログラムはハンドヘルドデバイスのファームウェアに対して規定される請求項157に記載の方法。
- 少なくとも1つのプロセッサにより実行された時に文書中のテキストの選択を規定するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
関連付けられていない複数のグリフを含む非構造化文書を受信する命令セットと、
グリフの集合を関連付ける命令セットと、
前記グリフの読み取りフローを指定する読み取り順序を識別する命令セットと、
前記文書を表示する命令セットと、
前記表示された文書内のテキストの選択に対する開始点及び終了点を受信する命令セットと、
前記識別したグリフの集合及び意図した読み取りフローを使用して前記開始点から前記終了点までのテキストの選択を規定する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記関連付けられたグリフの集合は複数の段落を含み、前記読み取り順序は連続しない第1の段落から第2の段落までの読み取りフローを指定する請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 前記関連付けられたグリフの集合は複数のカラムを含み、前記開始点及び前記終了点は異なるカラムにある請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 前記読み取り順序はカラム毎に順序値を指定し、前記テキストの選択は前記開始点を含む前記カラムの前記順序値と前記終了点を含む前記カラムの前記順序値との間の順序値を有する全てのカラムを含む請求項161に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、
前記開始点が前記読み取り順序で前記終了点の後であるかを判定する命令セットと、
前記開始点が前記終了点の後である場合に前記開始点が前記読み取り順序で前記終了点の前になるように前記選択に対する前記開始点及び前記終了点を交換する命令セットとを更に含む請求項159に記載のコンピュータ読み取り可能な記憶媒体。 - 前記テキスト選択に対する前記開始点及び前記終了点は、カーソルコントローラによりクリック及びドラッグ選択により受信される請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 前記開始点は、カーソルコントローラボタンが押下された時のカーソルの場所であり、前記終了点は、前記カーソルが前記開始点から移動された後の前記カーソルの場所である請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 前記テキスト選択に対する前記開始点及び前記終了点は、タッチスクリーンジェスチャにより受信される請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 前記開始点は、ユーザがオブジェクトにより前記タッチスクリーンに最初に触れた場所であり、前記終了点は、前記ユーザが前記オブジェクトをドラッグした先の場所である請求項166に記載のコンピュータ読み取り可能な記憶媒体。
- 前記オブジェクトは前記ユーザの指である請求項167に記載のコンピュータ読み取り可能な記憶媒体。
- 関連付けられたグリフの集合及び読み取り順序を識別する前記命令セットは前記非構造化文書から構造化文書を規定する命令セットを含み、前記関連付けられたグリフの集合は前記構造化文書の構造要素である請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 前記構造化文書は、各々が1つ以上の関連付けられたグリフの集合を含む複数のレイアウトを含む請求項169に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、
前記開始点及び前記終了点が同一レイアウト内にあるかを判定する命令セットと、
前記開始点及び前記終了点が同一レイアウトにない場合に開始点と同一のレイアウトにある新しい終了点を規定する命令セットを更に含む請求項170に記載のコンピュータ読み取り可能な記憶媒体。 - 新しい終了点を規定する命令セットは、
前記開始点から前記終了点までの直線を識別することと、
前記線が前記開始点の前記レイアウトを離れる点を前記新しい終了点として規定することとを含む請求項171に記載のコンピュータ読み取り可能な記憶媒体。 - テキストの選択を規定する前記命令セットは、
前記開始点及び前記終了点が同一のレイアウトにあるかを判定する命令セットと、
前記開始点及び前記終了点が異なるレイアウトにある場合に前記レイアウトの前記開始点の後の前記開始点の前記レイアウト中の全てのテキストを含むように前記選択を規定する命令セットとを含む請求項170に記載のコンピュータ読み取り可能な記憶媒体。 - テキストの選択を規定する前記命令セットは、前記開始点の前記レイアウトと前記終了点の前記レイアウトとの間のあらゆるレイアウトの全てのテキストを含むように前記選択を規定する命令セットを更に含む請求項173に記載のコンピュータ読み取り可能な記憶媒体。
- 前記テキストの選択は第2の文書にコピー及び貼り付けするためのものであり、前記テキストは前記読み取り順序を維持して前記第2の文書に貼り付けられる請求項159に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
複数の構造要素及び前記構造要素の読み取り順序を含む構造化文書を複数の基本要素を含む非構造化文書の階層モデルとして規定するために前記非構造化文書を分析する命令セットと、
前記文書を表示する命令セットと、
前記文書中のテキストの選択に対する開始点及び終了点を受信する命令セットと、
前記構造要素及び前記構造要素の読み取り順序を使用して前記開始点から前記終了点までの文書中のテキストを選択する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記文書は、ハンドヘルド表示装置に表示される請求項176に記載のコンピュータ読み取り可能な記憶媒体。
- 前記開始点は1つの記事内のテキストカラムにあり、前記終了点は前記記事に対するコールアウト内にある請求項176に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、前記終了点を前記記事のテキストカラムに移動する命令セットを更に含む請求項178に記載のコンピュータ読み取り可能な記憶媒体。
- テキストを選択する前記命令セットは、前記記事の前記カラムの全てのテキストを選択する命令セットを含む請求項178に記載のコンピュータ読み取り可能な記憶媒体。
- 文書中のテキストの選択を規定するプログラムを規定する方法であって、
関連付けられていない複数のグリフを含む非構造化文書を受信するモジュールを規定することと、
グリフの集合を関連付けるモジュールを規定することと、
前記グリフの読み取りフローを指定する読み取り順序を識別するモジュールを規定することと、
前記文書を表示するモジュールを規定することと、
前記表示された文書内のテキストの選択に対する開始点及び終了点を受信するモジュールを規定することと、
前記識別したグリフの集合及び意図した読み取りフローを使用して前記開始点から前記終了点までのテキストの選択を規定するモジュールを規定することとを含む方法。 - 少なくとも1つのプロセッサにより実行された時に文書における位置に関して規定される複数の基本要素を含む前記文書に対する構造を規定するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
特定の基本要素の集合に対して最近接する基本要素の対の間の距離を識別する命令セットと、
前記識別した距離をソートする命令セットと、
区分に対する所定の閾値より大きい前記識別した距離を識別する単一の値を格納する命令セットと、
前記文書に対する構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記区分に対する前記所定の閾値は、一対の基本要素の間の最短距離を識別する請求項182に記載のコンピュータ読み取り可能な記憶媒体。
- 前記最短距離より近い基本要素の対は同一の基本要素のクラスタにある請求項183に記載のコンピュータ読み取り可能な記憶媒体。
- 少なくとも1つのプロセッサにより実行された時に文書における位置に関して規定される複数の基本要素を含む前記文書に対する構造を規定するコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
特定の基本要素の集合に対して前記集合の最近接する基本要素の対毎のグループ化を識別する命令セットと、
最近接する対から最も離れた対までの順序に基づいて前記基本要素の対毎のグループ化をソートする命令セットと、
区分を形成するのに十分に離間している前記基本要素の対毎のグループ化を識別する単一の値を格納する命令セットと、
前記文書に対する構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記コンピュータ読み取り可能な記憶媒体はハンドヘルドデバイスのファームウェアである請求項185に記載のコンピュータ読み取り可能な記憶媒体。
- 前記デバイスは携帯電話である請求項186に記載のコンピュータ読み取り可能な記憶媒体。
- 前記デバイスはメディアプレーヤである請求項186に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、前記構造要素及び前記基本要素を含む構造化文書を規定する命令セットを更に含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書は複数のグリフを含み、
前記コンピュータプログラムは、グリフの集合を単語として関連付ける命令セットを更に含み、
前記特定の基本要素の集合は単語の最も左側のグリフであり、
構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する前記命令セットは、位置揃えされた単語の集合に対する左揃えガイドを規定する命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。 - 前記文書は複数のグリフを含み、
前記コンピュータプログラムは、グリフの集合を単語として関連付ける命令セットを更に含み、
前記特定の基本要素の集合は単語の最も右側のグリフであり、
構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する前記命令セットは、位置揃えされた単語の集合に対する右揃えガイドを規定する命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。 - 前記特定の基本要素の集合は基本図形要素であり、構造要素を規定するために前記区分を識別及び分析するのに前記格納した単一の値を使用する前記命令セットは、近傍の基本図形要素を構造図形要素として関連付ける命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
- 前記基本要素はグリフであり、構造要素を規定する前記命令セットは、近傍のグリフの集合を単語として関連付ける命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
- 最近接する基本要素の対毎のグループ化を識別する前記命令セットは、
共通の並び線を含むグリフの集合を識別する命令セットと、
前記グリフの座標に基づいて前記グリフの集合を第1の方向にソートする命令セットと、
前記ソートした集合の連続するグリフの対毎に前記対の前記グリフの間の座標値の差分を計算する命令セットと、
前記計算した差分を第1の配列に格納する命令セットとを含む請求項193に記載のコンピュータ読み取り可能な記憶媒体。 - 最近接する対から最も離れた対までの順序に基づいて前記対毎の基本要素をソートする前記命令セットは、
前記計算した差分値をソートする命令セットと、
前記ソートした差分に対応する前記第1の配列の指標を第2の配列に格納する命令セットとを含む請求項194に記載のコンピュータ読み取り可能な記憶媒体。 - 最小の差分値を格納する前記第1の配列の指標は、前記第2の配列の第1の指標の値として格納される請求項195に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、グリフ間の最小差分を判定する命令セットを更に含み、前記格納した単一の値は、前記最小差分を格納する前記第1の配列の前記指標が格納される前記第2の配列の指標である請求項195に記載のコンピュータ読み取り可能な記憶媒体。
- 前記最小差分は単語間の空隙を表す請求項197に記載のコンピュータ読み取り可能な記憶媒体。
- 前記区分を識別及び分析するのに前記格納した値を使用する命令セットは、前記単一の値として格納された前記指標以降の前記第2の配列の全ての指標において前記第2の配列の値として格納される第3の配列の指標において前記ソートしたx座標値を格納する前記第3の配列を分割する命令セットを含む請求項197に記載のコンピュータ読み取り可能な記憶媒体。
- 前記単一の値を格納する前記命令セットは、各々が前記基本要素に対する種々の区分を識別する複数の単一の値を格納する命令セットを含む請求項185に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、最適な距離尺度を表す理想的な最適な区分を識別するために前記基本要素に対する前記種々の区分を分析することを更に含む請求項200に記載のコンピュータ読み取り可能な記憶媒体。
- 文書に対する構造を規定するプログラムを規定する方法であって、
文書における位置に関して規定される複数の基本要素を含む前記文書において最近接する基本要素の対毎のグループ化を識別するモジュールを規定することと、
最近接する対から最も離れた対までの順序に基づいて前記基本要素の対毎のグループ化をソートするモジュールを規定することと、
区分を形成するのに十分に離間している前記対毎にグループ化された基本要素を識別する単一の値を格納するモジュールを規定することと、
前記文書に対する構造要素を規定するために前記区分を識別及び分析するのに前記格納した値を使用するモジュールを規定することとを含む方法。 - 前記構造要素及び前記基本要素に基づいて構造化文書を規定するモジュールを規定することを更に含む請求項202に記載の方法。
- 前記構造化文書は、前記構造要素がノードである階層構造である請求項203に記載の方法。
- 複数の基本要素を含む文書を分析及び操作する複数の異なる処理を規定することと、
前記基本要素と関連付けられたデータに対する記憶装置を規定することとから成り、前記データの少なくとも一部は前記処理とは別個のメモリ空間に格納され且つ少なくとも2つの異なる処理により共有され、前記処理は前記データに対する参照を使用して前記データにアクセスし、前記データは前記処理により複製されない方法。 - 前記基本要素と関連付けられたデータに対する前記記憶装置は第1の記憶装置であり、前記方法は、(i)前記基本要素を識別するために前記文書を構文解析し、(ii)前記基本要素を第2の記憶装置に格納するパーサを更に含む請求項205に記載の方法。
- 前記基本要素と関連付けられた前記データは、前記第2の記憶装置の前記基本要素に対する参照を含む請求項206に記載の方法。
- 前記パーサは、(i)前記基本要素をランダムな順序で識別するために前記文書を構文解析し、(ii)前記基本要素を前記ランダムな順序で前記第2の記憶装置に格納するためのものである請求項206に記載の方法。
- 前記ランダムな順序は、前記基本要素が前記文書のビットストリーム表現で規定される順序である請求項206に記載の方法。
- (i)特定の計測値に従って前記基本要素をソートし、(ii)前記基本要素と関連付けられた前記データをソート済み順序で前記第1の記憶装置に格納するモジュールを規定することを更に含む請求項206に記載の方法。
- 前記基本要素は前記文書における場所に関する情報を含み、前記特定の計測値は前記基本要素の前記場所に基づく請求項210に記載の方法。
- 前記文書の特定のページ内で、前記特定の計測値は、第1計測値として上から下に前記基本要素をソートし、第2計測値として左か右に前記基本要素をソートする請求項210に記載の方法。
- 前記基本要素は複数のグリフを含む請求項205に記載の方法。
- 前記複数の異なる処理は、
グリフの集合をテキスト行として関連付ける処理と、
グリフの集合を単語として関連付ける処理とを含む請求項213に記載の方法。 - グリフの集合をテキスト行として関連付ける前記処理は、前記基本要素と関連付けられた前記データを参照する第1のストリングとして特定のテキスト行を格納し、
グリフの集合を単語として関連付ける前記処理は、前記基本要素と関連付けられた同一データを参照する第2のストリングとして特定の単語を格納する請求項214に記載の方法。 - 前記同一のデータは、複製されずに双方の処理により使用される請求項215に記載の方法。
- 前記第1のストリング及び前記第2のストリングの各々は、2つの値だけを格納することにより前記データを参照する請求項215に記載の方法。
- 前記2つの値は、第1のデータに対する参照及び前記ストリング中のデータ数のカウントである請求項217に記載の方法。
- 前記第1のストリング及び前記第2のストリングは、同一の第1のデータを参照し、異なるカウントを格納する請求項217に記載の方法。
- 前記基本要素と関連付けられたデータに対する前記記憶装置を管理するための共有メモリデータ構造を規定することを更に含む請求項205に記載の方法。
- 前記共有メモリデータ構造は、前記基本要素と関連付けられた前記データが格納される前記別個のメモリ空間における場所を格納するためのものである請求項220に記載の方法。
- 前記共有メモリデータ構造は、少なくとも2つの他のデータ構造が前記基本要素と関連付けられた前記データを参照する場合に使用するためのものである請求項220に記載の方法。
- 前記少なくとも2つの他のデータ構造は、前記基本要素と関連付けられた前記データの所有権を共有する請求項222に記載の方法。
- 前記共有メモリデータ構造は、前記基本要素と関連付けられた前記データを参照する他のデータ構造の数を格納するためのものである請求項220に記載の方法。
- 少なくとも1つのプロセッサにより実行するためのコンピュータプログラムを格納するコンピュータ読み取り可能な記憶媒体であって、前記コンピュータプログラムは、
複数の基本要素を含む文書を構文解析する命令セットと、
ランダムな順序で前記基本要素を第1の記憶装置に格納する命令セットと、
前記文書における前記基本要素の場所に基づく順序で前記基本要素に対する参照を第2の記憶装置に格納する命令セットと、
文書再構成動作を実行するための命令を受信する命令セットと、
前記基本要素に対するいずれの新しい参照も格納せずに前記受信した命令を実行する命令セットとを含むコンピュータ読み取り可能な記憶媒体。 - 前記コンピュータプログラムは、
第2の文書再構成動作を実行するための第2の命令セットを受信する命令セットと、
前記第2の文書再構成動作を実行することが前記基本要素に対する新しい参照を必要とすることを判定する命令セットと、
前記第2の記憶装置とは異なる順序で前記基本要素に対する新しい参照を第3の記憶装置に格納する命令セットとを更に含む請求項225に記載のコンピュータ読み取り可能な記憶媒体。 - 前記第2の記憶装置及び前記第3の記憶装置は、同一の物理的記憶装置にある請求項226に記載のコンピュータ読み取り可能な記憶媒体。
- (i)複数の基本要素を含む文書を構文解析し、(ii)ランダムな順序で前記基本要素を第1の記憶装置に格納する第1のモジュールを規定することと、
(i)前記ランダムに順序付けされた基本要素に対する参照を格納する第2の記憶装置にメモリを割り当て、(ii)特定の順序で前記参照を前記割り当てられたメモリに格納する第2のモジュールを規定することと、
前記順序付けされた参照の一部を参照し且つ前記順序付けされた参照のうちの第1の参照に対する参照及びカウント値のみを含むデータ構造を格納する第3のモジュールを規定することと、
(i)文書再構成動作を実行するための命令を受信し、(ii)前記第1のモジュール、前記第2のモジュール及び前記第3のモジュールのうちメモリ及び計算の使用量を最小限にしつつ前記文書再構成動作を実行することを要求されるモジュールを識別する第4のモジュールを規定することとを含む方法。 - 前記第3のモジュールのみが特定の文書再構成動作を実行する必要がある場合、前記基本要素のコピー又は前記基本要素に対する新しい参照に対して新しいメモリは割り当てられない請求項228に記載の方法。
- 前記文書は非構造化文書である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書はベクトル図形文書である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記文書はPDF(Portable Document Format)文書である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムはハンドヘルドデバイスに対するアプリケーションである請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、135、152、159、176、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムはオペレーティングシステムの一部である請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、135、152、159、176、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記コンピュータプログラムは、オペレーティングシステム上で実行するアプリケーションである請求項1、22、30、39、44、46、50、61、67、71、88、92、112、124、135、152、159、176、182、185及び225のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記非構造化文書はベクトル図形文書である請求項135、152、159及び176のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
- 前記非構造化文書は、PDF(Portable Document Format)文書である請求項135、152、159及び176のいずれか1項に記載のコンピュータ読み取り可能な記憶媒体。
Applications Claiming Priority (23)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14232909P | 2009-01-02 | 2009-01-02 | |
US61/142,329 | 2009-01-02 | ||
US12/479,848 US8443278B2 (en) | 2009-01-02 | 2009-06-07 | Identification of tables in an unstructured document |
US12/479,844 | 2009-06-07 | ||
US12/479,849 | 2009-06-07 | ||
US12/479,842 US8438472B2 (en) | 2009-01-02 | 2009-06-07 | Efficient data structures for parsing and analyzing a document |
US12/479,847 US8719701B2 (en) | 2009-01-02 | 2009-06-07 | Identification of guides and gutters of a document |
US12/479,844 US8365072B2 (en) | 2009-01-02 | 2009-06-07 | Identification of compound graphic elements in an unstructured document |
US12/455,866 US9063911B2 (en) | 2009-01-02 | 2009-06-07 | Identification of layout and content flow of an unstructured document |
US12/479,847 | 2009-06-07 | ||
US12/479,845 US8352855B2 (en) | 2009-01-02 | 2009-06-07 | Selection of text in an unstructured document |
US12/479,852 US8473467B2 (en) | 2009-01-02 | 2009-06-07 | Content profiling to dynamically configure content processing |
US12/479,848 | 2009-06-07 | ||
US12/479,845 | 2009-06-07 | ||
US12/479,849 US9460063B2 (en) | 2009-01-02 | 2009-06-07 | Identification, selection, and display of a region of interest in a document |
US12/455,866 | 2009-06-07 | ||
US12/479,850 US8832549B2 (en) | 2009-01-02 | 2009-06-07 | Identification of regions of a document |
US12/479,852 | 2009-06-07 | ||
US12/479,843 US8261186B2 (en) | 2009-01-02 | 2009-06-07 | Methods for efficient cluster analysis |
US12/479,843 | 2009-06-07 | ||
US12/479,842 | 2009-06-07 | ||
US12/479,850 | 2009-06-07 | ||
PCT/US2009/069885 WO2010078475A2 (en) | 2009-01-02 | 2009-12-31 | Methods and system for document reconstruction |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015153470A Division JP6141921B2 (ja) | 2009-01-02 | 2015-08-03 | 文書再構成の方法及びシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012514792A true JP2012514792A (ja) | 2012-06-28 |
Family
ID=42312368
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011544617A Pending JP2012514792A (ja) | 2009-01-02 | 2009-12-31 | 文書再構成の方法及びシステム |
JP2015153470A Active JP6141921B2 (ja) | 2009-01-02 | 2015-08-03 | 文書再構成の方法及びシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015153470A Active JP6141921B2 (ja) | 2009-01-02 | 2015-08-03 | 文書再構成の方法及びシステム |
Country Status (7)
Country | Link |
---|---|
US (14) | US8352855B2 (ja) |
EP (1) | EP2374067A2 (ja) |
JP (2) | JP2012514792A (ja) |
KR (3) | KR101463703B1 (ja) |
DE (1) | DE112009004951T5 (ja) |
GB (2) | GB2479479A (ja) |
WO (1) | WO2010078475A2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045566A (ja) * | 2014-08-20 | 2016-04-04 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
JP2017505962A (ja) * | 2014-10-31 | 2017-02-23 | 小米科技有限責任公司Xiaomi Inc. | 情報選択方法及び装置 |
JP2019125353A (ja) * | 2017-12-29 | 2019-07-25 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 電子文書中の文字列塊を推測する方法 |
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
Families Citing this family (277)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7760187B2 (en) | 2004-07-30 | 2010-07-20 | Apple Inc. | Visual expander |
US20040205568A1 (en) * | 2002-03-01 | 2004-10-14 | Breuel Thomas M. | Method and system for document image layout deconstruction and redisplay system |
US7676744B2 (en) * | 2005-08-19 | 2010-03-09 | Vistaprint Technologies Limited | Automated markup language layout |
US7856605B2 (en) | 2006-10-26 | 2010-12-21 | Apple Inc. | Method, system, and graphical user interface for positioning an insertion marker in a touch screen display |
US8570278B2 (en) | 2006-10-26 | 2013-10-29 | Apple Inc. | Portable multifunction device, method, and graphical user interface for adjusting an insertion point marker |
US8763038B2 (en) | 2009-01-26 | 2014-06-24 | Sony Corporation | Capture of stylized TV table data via OCR |
US8316358B2 (en) * | 2007-05-31 | 2012-11-20 | Research In Motion Limited | Method and apparatus for processing XML for display on a mobile device |
US8788523B2 (en) * | 2008-01-15 | 2014-07-22 | Thomson Reuters Global Resources | Systems, methods and software for processing phrases and clauses in legal documents |
US8201109B2 (en) | 2008-03-04 | 2012-06-12 | Apple Inc. | Methods and graphical user interfaces for editing on a portable multifunction device |
US8650507B2 (en) | 2008-03-04 | 2014-02-11 | Apple Inc. | Selecting of text using gestures |
WO2009146039A1 (en) * | 2008-03-31 | 2009-12-03 | Thomson Reuters Global Resources | Systems and methods for tables of contents |
US9639531B2 (en) | 2008-04-09 | 2017-05-02 | The Nielsen Company (Us), Llc | Methods and apparatus to play and control playing of media in a web page |
JP5132416B2 (ja) * | 2008-05-08 | 2013-01-30 | キヤノン株式会社 | 画像処理装置およびその制御方法 |
JP5377481B2 (ja) * | 2008-06-18 | 2013-12-25 | 株式会社アテナテレコムラボ | テーブルの表示と操作のプログラム |
US8352855B2 (en) * | 2009-01-02 | 2013-01-08 | Apple Inc. | Selection of text in an unstructured document |
US20100235734A1 (en) | 2009-03-16 | 2010-09-16 | Bas Ording | Methods and Graphical User Interfaces for Editing on a Multifunction Device with a Touch Screen Display |
US8209607B2 (en) * | 2009-04-14 | 2012-06-26 | Freedom Scientific, Inc. | Document navigation method |
US20110029904A1 (en) * | 2009-07-30 | 2011-02-03 | Adam Miles Smith | Behavior and Appearance of Touch-Optimized User Interface Elements for Controlling Computer Function |
US8656314B2 (en) * | 2009-07-30 | 2014-02-18 | Lenovo (Singapore) Pte. Ltd. | Finger touch gesture for joining and unjoining discrete touch objects |
KR101622196B1 (ko) * | 2009-09-07 | 2016-05-18 | 삼성전자주식회사 | 휴대용 단말기에서 피오아이 정보 제공 방법 및 장치 |
US10552710B2 (en) | 2009-09-28 | 2020-02-04 | Oracle International Corporation | Hierarchical sequential clustering |
US10013641B2 (en) * | 2009-09-28 | 2018-07-03 | Oracle International Corporation | Interactive dendrogram controls |
US20110099498A1 (en) * | 2009-10-26 | 2011-04-28 | Barkol Omer | Graphical user interface hierarchy generation |
CN101707532B (zh) * | 2009-10-30 | 2012-08-15 | 中山大学 | 一种未知应用层协议自动分析方法 |
US8922582B2 (en) * | 2009-11-16 | 2014-12-30 | Martin J. Murrett | Text rendering and display using composite bitmap images |
KR101032446B1 (ko) * | 2009-11-26 | 2011-05-03 | 광주과학기술원 | 영상의 정점 검출 장치 및 방법 |
US8508811B2 (en) * | 2009-12-14 | 2013-08-13 | Samsung Electronics Co., Ltd. | Image forming apparatus and method of copying two-sided card thereof |
US8577887B2 (en) * | 2009-12-16 | 2013-11-05 | Hewlett-Packard Development Company, L.P. | Content grouping systems and methods |
US20110179345A1 (en) * | 2010-01-15 | 2011-07-21 | Apple Inc. | Automatically wrapping text in a document |
US9135223B2 (en) * | 2010-01-15 | 2015-09-15 | Apple Inc. | Automatically configuring white space around an object in a document |
US20110179350A1 (en) * | 2010-01-15 | 2011-07-21 | Apple Inc. | Automatically placing an anchor for an object in a document |
US8756231B2 (en) * | 2010-01-28 | 2014-06-17 | International Business Machines Corporation | Search using proximity for clustering information |
JP5440222B2 (ja) * | 2010-02-03 | 2014-03-12 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
US20110219294A1 (en) * | 2010-03-04 | 2011-09-08 | Skiff, Inc. | System And Method For Automatic Continuation Marks In An Electronic Publication |
US8473842B2 (en) | 2010-05-12 | 2013-06-25 | Microsoft Corporation | Contour based flow layout |
US8434001B2 (en) * | 2010-06-03 | 2013-04-30 | Rhonda Enterprises, Llc | Systems and methods for presenting a content summary of a media item to a user based on a position within the media item |
WO2012015406A1 (en) * | 2010-07-29 | 2012-02-02 | Hewlett-Packard Development Company, L.P. | Inserting content and exclusion zone(s) into a page |
US9326116B2 (en) | 2010-08-24 | 2016-04-26 | Rhonda Enterprises, Llc | Systems and methods for suggesting a pause position within electronic text |
US9218680B2 (en) * | 2010-09-01 | 2015-12-22 | K-Nfb Reading Technology, Inc. | Systems and methods for rendering graphical content and glyphs |
US8566702B2 (en) * | 2010-09-20 | 2013-10-22 | Blackberry Limited | Methods and systems of outputting content of interest |
US8661335B2 (en) * | 2010-09-20 | 2014-02-25 | Blackberry Limited | Methods and systems for identifying content elements |
US9002701B2 (en) | 2010-09-29 | 2015-04-07 | Rhonda Enterprises, Llc | Method, system, and computer readable medium for graphically displaying related text in an electronic document |
US20130205195A1 (en) * | 2010-10-19 | 2013-08-08 | Mohamed Dekhil | Managing Content from Structured and Unstructured Data Sources |
US20120096344A1 (en) * | 2010-10-19 | 2012-04-19 | Google Inc. | Rendering or resizing of text and images for display on mobile / small screen devices |
US20120102394A1 (en) * | 2010-10-25 | 2012-04-26 | Konica Minolta Systems Laboratory Inc. | Application of path-fill algorithm to text layout around objects |
US9697180B2 (en) * | 2010-10-25 | 2017-07-04 | Konica Minolta Laboratory U.S.A., Inc. | System and method for text layout using a path-fill algorithm |
US20120101980A1 (en) * | 2010-10-26 | 2012-04-26 | Microsoft Corporation | Synchronizing online document edits |
US9576068B2 (en) * | 2010-10-26 | 2017-02-21 | Good Technology Holdings Limited | Displaying selected portions of data sets on display devices |
JP5444187B2 (ja) * | 2010-10-26 | 2014-03-19 | 富士フイルム株式会社 | 携帯型表示装置ならびにその動作制御方法およびそのプログラム |
US20130205202A1 (en) * | 2010-10-26 | 2013-08-08 | Jun Xiao | Transformation of a Document into Interactive Media Content |
US8687004B2 (en) * | 2010-11-01 | 2014-04-01 | Apple Inc. | Font file with graphic images |
WO2012068391A2 (en) * | 2010-11-17 | 2012-05-24 | Eloqua, Inc. | Systems and methods for content development and management |
US9251123B2 (en) * | 2010-11-29 | 2016-02-02 | Hewlett-Packard Development Company, L.P. | Systems and methods for converting a PDF file |
US8938685B2 (en) * | 2010-12-31 | 2015-01-20 | Verizon Patent And Licensing Inc. | Automated graphical user interface design and development systems and methods |
US8380753B2 (en) * | 2011-01-18 | 2013-02-19 | Apple Inc. | Reconstruction of lists in a document |
US8442998B2 (en) | 2011-01-18 | 2013-05-14 | Apple Inc. | Storage of a document using multiple representations |
US8963959B2 (en) | 2011-01-18 | 2015-02-24 | Apple Inc. | Adaptive graphic objects |
US8543911B2 (en) | 2011-01-18 | 2013-09-24 | Apple Inc. | Ordering document content based on reading flow |
EP2477122B1 (en) | 2011-01-18 | 2018-10-24 | Apple Inc. | Ordering document content |
US8615511B2 (en) | 2011-01-22 | 2013-12-24 | Operational Transparency LLC | Data visualization interface |
US9170825B2 (en) * | 2011-04-21 | 2015-10-27 | Oracle International Corporation | Interface method resolution for virtual extension methods |
US9069459B2 (en) * | 2011-05-03 | 2015-06-30 | Microsoft Technology Licensing, Llc | Multi-threaded conditional processing of user interactions for gesture processing using rendering thread or gesture processing thread based on threshold latency |
JP5843474B2 (ja) * | 2011-05-09 | 2016-01-13 | キヤノン株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
JP5801598B2 (ja) * | 2011-05-09 | 2015-10-28 | キヤノン株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
US9244605B2 (en) | 2011-05-31 | 2016-01-26 | Apple Inc. | Devices, methods, and graphical user interfaces for document manipulation |
US8560937B2 (en) * | 2011-06-07 | 2013-10-15 | Xerox Corporation | Generate-and-test method for column segmentation |
US8645819B2 (en) * | 2011-06-17 | 2014-02-04 | Xerox Corporation | Detection and extraction of elements constituting images in unstructured document files |
US10572578B2 (en) | 2011-07-11 | 2020-02-25 | Paper Software LLC | System and method for processing document |
US10452764B2 (en) | 2011-07-11 | 2019-10-22 | Paper Software LLC | System and method for searching a document |
AU2012281166B2 (en) * | 2011-07-11 | 2017-08-24 | Paper Software LLC | System and method for processing document |
WO2013009879A1 (en) | 2011-07-11 | 2013-01-17 | Paper Software LLC | System and method for processing document |
US9026519B2 (en) * | 2011-08-09 | 2015-05-05 | Microsoft Technology Licensing, Llc | Clustering web pages on a search engine results page |
US9477650B2 (en) * | 2011-08-30 | 2016-10-25 | Microsoft Technology Licensing, Llc | Underlying grid structure and animation of tables |
US20130067366A1 (en) * | 2011-09-14 | 2013-03-14 | Microsoft Corporation | Establishing content navigation direction based on directional user gestures |
US9411784B2 (en) * | 2011-11-22 | 2016-08-09 | Adobe Systems Incorporated | Method and computer readable medium for controlling pagination of dynamic-length presentations |
JP5862260B2 (ja) * | 2011-12-09 | 2016-02-16 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
US9734132B1 (en) * | 2011-12-20 | 2017-08-15 | Amazon Technologies, Inc. | Alignment and reflow of displayed character images |
US9098471B2 (en) * | 2011-12-29 | 2015-08-04 | Chegg, Inc. | Document content reconstruction |
US8942489B2 (en) | 2012-01-23 | 2015-01-27 | Microsoft Corporation | Vector graphics classification engine |
EP2807608B1 (en) | 2012-01-23 | 2024-04-10 | Microsoft Technology Licensing, LLC | Borderless table detection engine |
US10025979B2 (en) * | 2012-01-23 | 2018-07-17 | Microsoft Technology Licensing, Llc | Paragraph property detection and style reconstruction engine |
EP2807603B1 (en) | 2012-01-23 | 2020-03-18 | Microsoft Technology Licensing, LLC | Formula detection engine |
US20130191732A1 (en) * | 2012-01-23 | 2013-07-25 | Microsoft Corporation | Fixed Format Document Conversion Engine |
US8499263B1 (en) * | 2012-03-29 | 2013-07-30 | Mentor Graphics Corporation | Encrypted profiles for parasitic extraction |
US9292192B2 (en) | 2012-04-30 | 2016-03-22 | Blackberry Limited | Method and apparatus for text selection |
US20130311359A1 (en) * | 2012-05-21 | 2013-11-21 | Ofer ZINGER | Triple-click activation of a monetizing action |
US20130321867A1 (en) * | 2012-05-31 | 2013-12-05 | Xerox Corporation | Typographical block generation |
US9323726B1 (en) * | 2012-06-27 | 2016-04-26 | Amazon Technologies, Inc. | Optimizing a glyph-based file |
WO2014005609A1 (en) | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
US9164673B2 (en) * | 2012-07-16 | 2015-10-20 | Microsoft Technology Licensing, Llc | Location-dependent drag and drop UI |
US9595298B2 (en) | 2012-07-18 | 2017-03-14 | Microsoft Technology Licensing, Llc | Transforming data to create layouts |
US9336302B1 (en) | 2012-07-20 | 2016-05-10 | Zuci Realty Llc | Insight and algorithmic clustering for automated synthesis |
US9558173B2 (en) * | 2012-08-03 | 2017-01-31 | Google Inc. | Method for creating a document model from discontinuous selections of an existing document |
JP5783972B2 (ja) * | 2012-08-17 | 2015-09-24 | 株式会社東芝 | 手書き文書処理装置、方法およびプログラム |
US9785336B2 (en) | 2012-08-17 | 2017-10-10 | Sas Institute Inc. | Macro-enabled, verbally accessible graphical data visualizations for visually impaired users |
KR102110281B1 (ko) * | 2012-09-07 | 2020-05-13 | 아메리칸 케미칼 소사이어티 | 자동화된 작성물 평가기 |
US11468243B2 (en) * | 2012-09-24 | 2022-10-11 | Amazon Technologies, Inc. | Identity-based display of text |
US10013488B1 (en) * | 2012-09-26 | 2018-07-03 | Amazon Technologies, Inc. | Document analysis for region classification |
US9436588B2 (en) * | 2012-09-28 | 2016-09-06 | Identify Software Ltd. (IL) | Efficient method data recording |
KR102084176B1 (ko) * | 2012-10-10 | 2020-03-04 | 삼성전자주식회사 | 휴대용 장치 및 이의 영상 표시 방법 |
US9170714B2 (en) * | 2012-10-31 | 2015-10-27 | Google Technology Holdings LLC | Mixed type text extraction and distribution |
US20140164911A1 (en) * | 2012-12-11 | 2014-06-12 | Microsoft Corporation | Preserving layout of region of content during modification |
US9477382B2 (en) * | 2012-12-14 | 2016-10-25 | Barnes & Noble College Booksellers, Inc. | Multi-page content selection technique |
US9953008B2 (en) | 2013-01-18 | 2018-04-24 | Microsoft Technology Licensing, Llc | Grouping fixed format document elements to preserve graphical data semantics after reflow by manipulating a bounding box vertically and horizontally |
US9008425B2 (en) * | 2013-01-29 | 2015-04-14 | Xerox Corporation | Detection of numbered captions |
US20140258852A1 (en) * | 2013-03-11 | 2014-09-11 | Microsoft Corporation | Detection and Reconstruction of Right-to-Left Text Direction, Ligatures and Diacritics in a Fixed Format Document |
US9330070B2 (en) | 2013-03-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Detection and reconstruction of east asian layout features in a fixed format document |
US9223756B2 (en) * | 2013-03-13 | 2015-12-29 | Adobe Systems Incorporated | Method and apparatus for identifying logical blocks of text in a document |
US8972425B2 (en) * | 2013-03-13 | 2015-03-03 | Palo Alto Research Center Incorporated | Efficient globally optimal interpretation of documents |
US9208257B2 (en) * | 2013-03-15 | 2015-12-08 | Oracle International Corporation | Partitioning a graph by iteratively excluding edges |
US20140281980A1 (en) | 2013-03-15 | 2014-09-18 | Chad A. Hage | Methods and Apparatus to Identify a Type of Media Presented by a Media Player |
US9588675B2 (en) | 2013-03-15 | 2017-03-07 | Google Inc. | Document scale and position optimization |
US10262030B1 (en) * | 2013-04-22 | 2019-04-16 | Domo, Inc. | Automatic dynamic reusable data recipes |
CN104142961B (zh) * | 2013-05-10 | 2017-08-25 | 北大方正集团有限公司 | 版式文档中复合图的逻辑处理装置和逻辑处理方法 |
WO2015003245A1 (en) * | 2013-07-09 | 2015-01-15 | Blueprint Sofware Systems Inc. | Computing device and method for converting unstructured data to structured data |
US9424337B2 (en) | 2013-07-09 | 2016-08-23 | Sas Institute Inc. | Number of clusters estimation |
US9495347B2 (en) * | 2013-07-16 | 2016-11-15 | Recommind, Inc. | Systems and methods for extracting table information from documents |
CN104331391B (zh) * | 2013-07-22 | 2018-02-02 | 北大方正集团有限公司 | 文档格式转换装置和文档格式转换方法 |
US20150039637A1 (en) * | 2013-07-31 | 2015-02-05 | The Nielsen Company (Us), Llc | Systems Apparatus and Methods for Determining Computer Apparatus Usage Via Processed Visual Indicia |
CN104346615B (zh) * | 2013-08-08 | 2019-02-19 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
JP2015035150A (ja) * | 2013-08-09 | 2015-02-19 | 株式会社東芝 | 手書き文書処理装置、手書き文書処理方法及び手書き文書処理プログラム |
US9576071B2 (en) | 2013-09-12 | 2017-02-21 | Dropbox, Inc. | Graph-based data models for partitioned data |
EP3044693A4 (en) * | 2013-09-12 | 2017-05-03 | Wix.com Ltd. | System and method for automated conversion of interactive sites and applications to support mobile and other display environments |
KR102245706B1 (ko) * | 2013-09-17 | 2021-04-28 | 삼성전자주식회사 | 데이터 처리 방법 및 그 전자 장치 |
CN104462048B (zh) * | 2013-09-18 | 2017-10-27 | 北大方正集团有限公司 | 表格排版方法和装置 |
US9740995B2 (en) | 2013-10-28 | 2017-08-22 | Morningstar, Inc. | Coordinate-based document processing and data entry system and method |
US9542391B1 (en) | 2013-11-11 | 2017-01-10 | Amazon Technologies, Inc. | Processing service requests for non-transactional databases |
US10599753B1 (en) | 2013-11-11 | 2020-03-24 | Amazon Technologies, Inc. | Document version control in collaborative environment |
US10540404B1 (en) | 2014-02-07 | 2020-01-21 | Amazon Technologies, Inc. | Forming a document collection in a document management and collaboration system |
US11336648B2 (en) | 2013-11-11 | 2022-05-17 | Amazon Technologies, Inc. | Document management and collaboration system |
US10114800B1 (en) * | 2013-12-05 | 2018-10-30 | Intuit Inc. | Layout reconstruction using spatial and grammatical constraints |
US10691877B1 (en) | 2014-02-07 | 2020-06-23 | Amazon Technologies, Inc. | Homogenous insertion of interactions into documents |
US9202178B2 (en) | 2014-03-11 | 2015-12-01 | Sas Institute Inc. | Computerized cluster analysis framework for decorrelated cluster identification in datasets |
US9355313B2 (en) | 2014-03-11 | 2016-05-31 | Microsoft Technology Licensing, Llc | Detecting and extracting image document components to create flow document |
US9251139B2 (en) * | 2014-04-08 | 2016-02-02 | TitleFlow LLC | Natural language processing for extracting conveyance graphs |
US20150293752A1 (en) * | 2014-04-11 | 2015-10-15 | Pradeep Varma | Unrestricted, Fully-Source-Preserving, Concurrent, Wait-Free, Synchronization-Free, Fully-Error-Handling Frontend With Inline Schedule Of Tasks And Constant-Space Buffers |
US10331764B2 (en) * | 2014-05-05 | 2019-06-25 | Hired, Inc. | Methods and system for automatically obtaining information from a resume to update an online profile |
JP2015215853A (ja) * | 2014-05-13 | 2015-12-03 | 株式会社リコー | システム、画像処理装置、画像処理方法およびプログラム |
BE1021412B1 (nl) * | 2014-06-16 | 2015-11-18 | Itext Group Nv | Computer-geïmplementeerde werkwijze, systeem en computerprogrammaproduct voor het structureren van een ongestructureerd pdf-document |
US20160019192A1 (en) * | 2014-07-21 | 2016-01-21 | General Electric Company | System and method to extract structured semantic model from document |
USD760295S1 (en) * | 2014-09-24 | 2016-06-28 | Lexmark International, Inc. | Portion of a display screen with icon |
US9807073B1 (en) | 2014-09-29 | 2017-10-31 | Amazon Technologies, Inc. | Access to documents in a document management and collaboration system |
US20160092404A1 (en) * | 2014-09-30 | 2016-03-31 | Microsoft Technology Licensing, Llc | Intent Based Feedback |
US10282069B2 (en) | 2014-09-30 | 2019-05-07 | Microsoft Technology Licensing, Llc | Dynamic presentation of suggested content |
US20160110599A1 (en) * | 2014-10-20 | 2016-04-21 | Lexmark International Technology, SA | Document Classification with Prominent Objects |
US20160139783A1 (en) * | 2014-11-13 | 2016-05-19 | Microsoft Technology Licensing, Llc | Detecting sidebar in document |
US9715748B2 (en) * | 2014-12-04 | 2017-07-25 | The United States Of America As Represented By The Secretary Of The Air Force | Method and apparatus for graphical data interaction and vizualization of graphs via paths |
CN107209753A (zh) * | 2015-01-30 | 2017-09-26 | 惠普发展公司,有限责任合伙企业 | 基于相关性测量的断点识别 |
US10891323B1 (en) * | 2015-02-10 | 2021-01-12 | West Corporation | Processing and delivery of private electronic documents |
WO2016141131A1 (en) | 2015-03-03 | 2016-09-09 | Software Robotics Corporation Limited | Software robots for programmatically controlling computer programs to perform tasks |
US9886426B1 (en) * | 2015-03-26 | 2018-02-06 | Accusoft Corporation | Methods and apparatus for generating an efficient SVG file |
US10387563B2 (en) * | 2015-03-30 | 2019-08-20 | International Business Machines Corporation | Parallel parsing of markup language data |
US10719220B2 (en) * | 2015-03-31 | 2020-07-21 | Autodesk, Inc. | Dynamic scrolling |
RU2610585C2 (ru) * | 2015-03-31 | 2017-02-13 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для модификации текста в документе |
USD779523S1 (en) * | 2015-04-06 | 2017-02-21 | Domo, Inc. | Display screen or portion thereof with a graphical user interface for analytics |
US10691323B2 (en) | 2015-04-10 | 2020-06-23 | Apple Inc. | Column fit document traversal for reader application |
CN104834701B (zh) * | 2015-04-28 | 2019-03-26 | 成都品果科技有限公司 | 基于ios系统的智能搜索结果显示方法 |
US20160321226A1 (en) * | 2015-05-01 | 2016-11-03 | Microsoft Technology Licensing, Llc | Insertion of unsaved content via content channel |
US9805025B2 (en) * | 2015-07-13 | 2017-10-31 | Seal Software Limited | Standard exact clause detection |
US9811505B2 (en) * | 2015-07-20 | 2017-11-07 | Sas Institute Inc. | Techniques to provide processing enhancements for a text editor in a computing environment |
US10353986B2 (en) * | 2015-08-02 | 2019-07-16 | Apple Inc. | Automatically dividing text into multiple columns |
US10191970B2 (en) | 2015-08-19 | 2019-01-29 | International Business Machines Corporation | Systems and methods for customized data parsing and paraphrasing |
US10572579B2 (en) * | 2015-08-21 | 2020-02-25 | International Business Machines Corporation | Estimation of document structure |
US9552527B1 (en) * | 2015-08-27 | 2017-01-24 | Lead Technologies, Inc. | Apparatus, method, and computer-readable storage medium for determining a rotation angle of text |
US9881003B2 (en) * | 2015-09-23 | 2018-01-30 | Google Llc | Automatic translation of digital graphic novels |
US9621761B1 (en) * | 2015-10-08 | 2017-04-11 | International Business Machines Corporation | Automatic correction of skewing of digital images |
US20170132484A1 (en) * | 2015-11-05 | 2017-05-11 | Christopher D. Malon | Two Step Mathematical Expression Search |
CN105302626B (zh) * | 2015-11-09 | 2021-07-23 | 深圳市巨鼎医疗股份有限公司 | Xps结构化数据的解析方法 |
US20170220858A1 (en) * | 2016-02-01 | 2017-08-03 | Microsoft Technology Licensing, Llc | Optical recognition of tables |
JP2017167433A (ja) * | 2016-03-17 | 2017-09-21 | 株式会社東芝 | サマリ生成装置、サマリ生成方法及びサマリ生成プログラム |
CN107368465B (zh) * | 2016-05-13 | 2020-03-03 | 北京京东尚科信息技术有限公司 | 一种用于流式文档的截图类笔记处理的系统及方法 |
CN107436895B (zh) * | 2016-05-26 | 2020-12-04 | 中国移动通信集团云南有限公司 | 一种非结构化数据识别的方法和装置 |
JP6105179B1 (ja) * | 2016-06-30 | 2017-03-29 | 楽天株式会社 | 画像処理装置、画像処理方法、および、画像処理プログラム |
US10628519B2 (en) | 2016-07-22 | 2020-04-21 | Dropbox, Inc. | Enhancing documents portrayed in digital images |
KR101931859B1 (ko) * | 2016-09-29 | 2018-12-21 | (주)시지온 | 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템 |
CN106649230B (zh) * | 2016-09-30 | 2019-07-26 | 株洲中车时代电气股份有限公司 | 一种列车网络控制系统逻辑图的图形自动生成方法 |
CN106648332A (zh) * | 2016-11-16 | 2017-05-10 | 惠州Tcl移动通信有限公司 | 一种智能终端快速选择的方法和系统 |
US11205103B2 (en) | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US11157855B2 (en) * | 2017-01-09 | 2021-10-26 | Sutherland Global Services Inc. | Robotics process automation platform |
KR101890831B1 (ko) | 2017-01-11 | 2018-09-28 | 주식회사 펍플 | 전자책 서비스 제공방법 및 그를 위한 컴퓨터 프로그램 |
US10319129B2 (en) * | 2017-01-27 | 2019-06-11 | Adobe Inc. | Snapping line generation |
US10191979B2 (en) | 2017-02-20 | 2019-01-29 | Sas Institute Inc. | Converting graphical data-visualizations into sonified output |
CN108694208A (zh) * | 2017-04-11 | 2018-10-23 | 富士通株式会社 | 用于构造数据库的方法和装置 |
US10223585B2 (en) * | 2017-05-08 | 2019-03-05 | Adobe Systems Incorporated | Page segmentation of vector graphics documents |
US11562143B2 (en) | 2017-06-30 | 2023-01-24 | Accenture Global Solutions Limited | Artificial intelligence (AI) based document processor |
US11003796B2 (en) | 2017-06-30 | 2021-05-11 | Accenture Global Solutions Limited | Artificial intelligence based document processor |
US10489502B2 (en) * | 2017-06-30 | 2019-11-26 | Accenture Global Solutions Limited | Document processing |
GB2567407B (en) * | 2017-07-31 | 2022-03-30 | Sage Uk Ltd | Method and apparatus for determining layout |
US10339212B2 (en) * | 2017-08-14 | 2019-07-02 | Adobe Inc. | Detecting the bounds of borderless tables in fixed-format structured documents using machine learning |
US10417516B2 (en) * | 2017-08-24 | 2019-09-17 | Vastec, Inc. | System and method for preprocessing images to improve OCR efficacy |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
US10726198B2 (en) * | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
KR101980977B1 (ko) * | 2017-11-23 | 2019-05-21 | 성균관대학교산학협력단 | 다중 사용자 환경에서 사용자 기반 어플리케이션 그룹핑 방법 및 이를 수행하는 테이블탑 디스플레이 장치 |
AU2017279613A1 (en) | 2017-12-19 | 2019-07-04 | Canon Kabushiki Kaisha | Method, system and apparatus for processing a page of a document |
FI20176151A1 (en) | 2017-12-22 | 2019-06-23 | Vuolearning Ltd | A heuristic method for analyzing the contents of an electronic document |
KR102462516B1 (ko) | 2018-01-09 | 2022-11-03 | 삼성전자주식회사 | 디스플레이 장치 및 이의 컨텐츠 제공 방법 |
US10296578B1 (en) | 2018-02-20 | 2019-05-21 | Paycor, Inc. | Intelligent extraction and organization of data from unstructured documents |
US11650970B2 (en) | 2018-03-09 | 2023-05-16 | International Business Machines Corporation | Extracting structure and semantics from tabular data |
US10762142B2 (en) | 2018-03-16 | 2020-09-01 | Open Text Holdings, Inc. | User-defined automated document feature extraction and optimization |
US11048762B2 (en) | 2018-03-16 | 2021-06-29 | Open Text Holdings, Inc. | User-defined automated document feature modeling, extraction and optimization |
CN108470021B (zh) * | 2018-03-26 | 2022-06-03 | 阿博茨德(北京)科技有限公司 | Pdf文档中表格的定位方法及装置 |
CN108446264B (zh) * | 2018-03-26 | 2022-02-15 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
US11112927B2 (en) * | 2018-04-25 | 2021-09-07 | Adobe Inc. | Digital content automated layout system |
US11062135B1 (en) * | 2018-05-17 | 2021-07-13 | Amdocs Development Limited | System, method, and computer program for determining and marking on a document what may be of interest to a user |
US11004350B2 (en) * | 2018-05-29 | 2021-05-11 | Walmart Apollo, Llc | Computerized training video system |
US10936864B2 (en) * | 2018-06-11 | 2021-03-02 | Adobe Inc. | Grid layout determination from a document image |
US10685261B2 (en) * | 2018-06-11 | 2020-06-16 | GM Global Technology Operations LLC | Active segmention of scanned images based on deep reinforcement learning for OCR applications |
US11200413B2 (en) | 2018-07-31 | 2021-12-14 | International Business Machines Corporation | Table recognition in portable document format documents |
US11182542B2 (en) * | 2018-10-29 | 2021-11-23 | Microsoft Technology Licensing, Llc | Exposing annotations in a document |
US11232132B2 (en) * | 2018-11-30 | 2022-01-25 | Wipro Limited | Method, device, and system for clustering document objects based on information content |
US11238215B2 (en) | 2018-12-04 | 2022-02-01 | Issuu, Inc. | Systems and methods for generating social assets from electronic publications |
EP3891656A4 (en) * | 2018-12-04 | 2022-08-24 | Leverton Holding LLC | METHODS AND SYSTEMS FOR AUTOMATIC TABLE RECOGNITION IN DOCUMENTS |
US10824899B2 (en) | 2018-12-27 | 2020-11-03 | Microsoft Technology Licensing, Llc | Structural clustering and alignment of OCR results |
US11610277B2 (en) | 2019-01-25 | 2023-03-21 | Open Text Holdings, Inc. | Seamless electronic discovery system with an enterprise data portal |
US10984173B2 (en) * | 2019-02-26 | 2021-04-20 | Adobe Inc. | Vector-based glyph style transfer |
US11176310B2 (en) * | 2019-04-01 | 2021-11-16 | Adobe Inc. | Facilitating dynamic document layout by determining reading order using document content stream cues |
US10614345B1 (en) | 2019-04-12 | 2020-04-07 | Ernst & Young U.S. Llp | Machine learning based extraction of partition objects from electronic documents |
BR112021023313A2 (pt) | 2019-05-21 | 2022-02-01 | Geoquest Systems Bv | Processo para destacar texto com orientação variada |
US11113518B2 (en) | 2019-06-28 | 2021-09-07 | Eygs Llp | Apparatus and methods for extracting data from lineless tables using Delaunay triangulation and excess edge removal |
CN112287654A (zh) * | 2019-07-25 | 2021-01-29 | 珠海金山办公软件有限公司 | 一种文档元素对齐方法及装置 |
US11915465B2 (en) | 2019-08-21 | 2024-02-27 | Eygs Llp | Apparatus and methods for converting lineless tables into lined tables using generative adversarial networks |
KR102244974B1 (ko) * | 2019-08-22 | 2021-04-27 | 주식회사 심플랩 | 전자문서를 생성하는 서버 및 그 방법 |
US10740403B1 (en) | 2019-08-23 | 2020-08-11 | Capital One Services Llc | Systems and methods for identifying ordered sequence data |
US11270065B2 (en) | 2019-09-09 | 2022-03-08 | International Business Machines Corporation | Extracting attributes from embedded table structures |
CA3150535A1 (en) | 2019-09-16 | 2021-03-25 | Andrew BEGUN | WIZARD FOR CREATION AND INTELLIGENT PROCESSING OF CROSS DOCUMENTS |
KR102287149B1 (ko) * | 2019-09-19 | 2021-08-06 | 주식회사 한글과컴퓨터 | Pdf 문서에서 텍스트 라인 정보를 기초로 단락의 구분선을 표시하는 전자 장치 및 그 동작 방법 |
US12001486B2 (en) | 2019-09-26 | 2024-06-04 | International Business Machines Corporation | Identifying reference data in a source data set |
US11380116B2 (en) | 2019-10-22 | 2022-07-05 | International Business Machines Corporation | Automatic delineation and extraction of tabular data using machine learning |
CN110865859B (zh) * | 2019-10-29 | 2021-10-22 | 维沃移动通信有限公司 | 图片显示方法、装置、电子设备及介质 |
RU2737720C1 (ru) * | 2019-11-20 | 2020-12-02 | Общество с ограниченной ответственностью "Аби Продакшн" | Извлечение полей с помощью нейронных сетей без использования шаблонов |
US10810709B1 (en) | 2019-11-21 | 2020-10-20 | Eygs Llp | Systems and methods for improving the quality of text documents using artificial intelligence |
CN110968667B (zh) * | 2019-11-27 | 2023-04-18 | 广西大学 | 一种基于文本状态特征的期刊文献表格抽取方法 |
CN111008657A (zh) * | 2019-11-29 | 2020-04-14 | 广州大学 | 一种街道环境多维度失序的空间分布识别方法 |
US11657101B2 (en) | 2020-01-13 | 2023-05-23 | Goldman Sachs & Co. LLC | Document information extraction system using sequenced comparators |
CA3105227C (en) * | 2020-01-14 | 2023-06-27 | Landmark Graphics Corporation | Techniques for extraction of vectorized content of an oil and gas play within an unstructured file |
US11409416B2 (en) * | 2020-01-31 | 2022-08-09 | Salesforce, Inc. | Custom user interface generation for completing a predicted task |
US11625934B2 (en) | 2020-02-04 | 2023-04-11 | Eygs Llp | Machine learning based end-to-end extraction of tables from electronic documents |
US11423042B2 (en) | 2020-02-07 | 2022-08-23 | International Business Machines Corporation | Extracting information from unstructured documents using natural language processing and conversion of unstructured documents into structured documents |
US11392753B2 (en) * | 2020-02-07 | 2022-07-19 | International Business Machines Corporation | Navigating unstructured documents using structured documents including information extracted from unstructured documents |
US11675970B2 (en) * | 2020-02-14 | 2023-06-13 | Open Text Corporation | Machine learning systems and methods for automatically tagging documents to enable accessibility to impaired individuals |
US11222201B2 (en) | 2020-04-14 | 2022-01-11 | International Business Machines Corporation | Vision-based cell structure recognition using hierarchical neural networks |
US11734576B2 (en) | 2020-04-14 | 2023-08-22 | International Business Machines Corporation | Cooperative neural networks with spatial containment constraints |
US11194953B1 (en) * | 2020-04-29 | 2021-12-07 | Indico | Graphical user interface systems for generating hierarchical data extraction training dataset |
US20210357702A1 (en) * | 2020-05-13 | 2021-11-18 | Trupanion, Inc. | Systems and methods for state identification and classification of text data |
US10970458B1 (en) * | 2020-06-25 | 2021-04-06 | Adobe Inc. | Logical grouping of exported text blocks |
US11176311B1 (en) * | 2020-07-09 | 2021-11-16 | International Business Machines Corporation | Enhanced section detection using a combination of object detection with heuristics |
US11367296B2 (en) * | 2020-07-13 | 2022-06-21 | NextVPU (Shanghai) Co., Ltd. | Layout analysis |
US11514697B2 (en) * | 2020-07-15 | 2022-11-29 | Oracle International Corporation | Probabilistic text index for semi-structured data in columnar analytics storage formats |
CN112001183B (zh) * | 2020-07-26 | 2021-11-19 | 湖南省侍禾教育科技有限公司 | 一种基于段落语义的中小学试题分割提取方法及系统 |
US11514699B2 (en) * | 2020-07-30 | 2022-11-29 | International Business Machines Corporation | Text block recognition based on discrete character recognition and text information connectivity |
US11010543B1 (en) | 2020-08-11 | 2021-05-18 | Fmr Llc | Systems and methods for table extraction in documents |
CN112070142B (zh) * | 2020-09-02 | 2024-05-10 | 平安科技(深圳)有限公司 | 车辆配件的分组方法、装置、电子设备及存储介质 |
KR102442510B1 (ko) * | 2020-10-13 | 2022-09-13 | 주식회사 한글과컴퓨터 | 문서에 대한 저장 파일 형식을 자동으로 지정하는 문서 편집 장치 및 그 동작 방법 |
GB2609768A (en) * | 2020-11-02 | 2023-02-15 | Zhejiang Lab | Multi-task language model-oriented meta-knowledge fine tuning method and platform |
US11688193B2 (en) | 2020-11-13 | 2023-06-27 | International Business Machines Corporation | Interactive structure annotation with artificial intelligence |
US11030387B1 (en) | 2020-11-16 | 2021-06-08 | Issuu, Inc. | Device dependent rendering of PDF content including multiple articles and a table of contents |
US11416671B2 (en) * | 2020-11-16 | 2022-08-16 | Issuu, Inc. | Device dependent rendering of PDF content |
US11681734B2 (en) * | 2020-12-09 | 2023-06-20 | International Business Machines Corporation | Organizing fragments of meaningful text |
US11798210B2 (en) | 2020-12-09 | 2023-10-24 | Salesforce, Inc. | Neural network based detection of image space suitable for overlaying media content |
US11531454B2 (en) * | 2020-12-10 | 2022-12-20 | Microsoft Technology Licensing, Llc | Selecting content in ink documents using a hierarchical data structure |
JP2022092837A (ja) * | 2020-12-11 | 2022-06-23 | 株式会社東海理化電機製作所 | 制御装置およびプログラム |
US11657511B2 (en) * | 2021-01-29 | 2023-05-23 | Salesforce, Inc. | Heuristics-based detection of image space suitable for overlaying media content |
AU2021201352A1 (en) * | 2021-03-02 | 2022-09-22 | Canva Pty Ltd | Systems and methods for extracting text from portable document format data |
US11880425B2 (en) * | 2021-04-02 | 2024-01-23 | Content Square SAS | System and method for identifying and correcting webpage zone target misidentifications |
DE102021109522A1 (de) | 2021-04-15 | 2022-10-20 | J. Schlottmann - Net e. Kfm. | Grafische Benutzeroberflächen |
US20220335240A1 (en) * | 2021-04-15 | 2022-10-20 | Microsoft Technology Licensing, Llc | Inferring Structure Information from Table Images |
CN113343815B (zh) * | 2021-05-31 | 2022-06-07 | 北森云计算有限公司 | 一种pdf等版式文档中识别表格的方法 |
US20240020473A1 (en) * | 2021-11-25 | 2024-01-18 | L&T Technology Services Limited | Domain Based Text Extraction |
US20230229850A1 (en) * | 2022-01-14 | 2023-07-20 | Microsoft Technology Licensing, Llc | Smart tabular paste from a clipboard buffer |
US12008829B2 (en) | 2022-02-16 | 2024-06-11 | Vastec, Inc. | System and method for improved OCR efficacy through image segmentation |
US20230282013A1 (en) * | 2022-03-02 | 2023-09-07 | Alteryx, Inc. | Automated key-value pair extraction |
US20240054280A1 (en) * | 2022-08-09 | 2024-02-15 | Ivalua S.A.S. | Segmenting an Unstructured Set of Data |
US11960818B2 (en) * | 2022-08-23 | 2024-04-16 | Adobe Inc. | Automatic detection and removal of typographic rivers in electronic documents |
US12073238B2 (en) * | 2022-12-29 | 2024-08-27 | United Parcel Service Of America, Inc. | Intelligent user interface and computer functionality for overfly and landing charge auditing |
US11837004B1 (en) * | 2023-02-24 | 2023-12-05 | Oracle Financial Services Software Limited | Searchable table extraction |
KR102563900B1 (ko) * | 2023-03-31 | 2023-08-09 | (주) 바우디움 | 구조화 문서를 취급하는 방법 및 이를 이용한 장치 |
KR102673900B1 (ko) * | 2023-08-28 | 2024-06-11 | 주식회사 오르비스파브리카 | 표 데이터 추출 시스템 및 그 방법 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2001101164A (ja) * | 1999-09-29 | 2001-04-13 | Toshiba Corp | 文書画像処理装置及び文書画像処理方法 |
JP2003288334A (ja) * | 2002-03-28 | 2003-10-10 | Toshiba Corp | 文書処理装置及び文書処理方法 |
JP2004234656A (ja) * | 2003-01-29 | 2004-08-19 | Ricoh Co Ltd | 文書分析情報を使用して文書を再フォーマット化する方法及び製造物 |
US20070250497A1 (en) * | 2006-04-19 | 2007-10-25 | Apple Computer Inc. | Semantic reconstruction |
JP2009110500A (ja) * | 2007-10-29 | 2009-05-21 | Toshiba Corp | ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム |
Family Cites Families (237)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US145720A (en) * | 1873-12-23 | Improvement in nail-separating devices | ||
US12400A (en) * | 1855-02-13 | Head-supporter for railroad-cars | ||
US17941A (en) * | 1857-08-04 | Machine for forging nails | ||
US97699A (en) * | 1869-12-07 | Improvement in flexible pipe-coupling | ||
US284780A (en) * | 1883-09-11 | Island | ||
US76295A (en) * | 1868-04-07 | Improvement in piston-packing | ||
US38927A (en) * | 1863-06-16 | Improvement in sewing-machines | ||
US61384A (en) * | 1867-01-22 | Improved edge plane foe boots and shoes | ||
US227758A (en) * | 1880-05-18 | Samuel b | ||
US194379A (en) * | 1877-08-21 | Improvement in condition-powders for horses and cattle | ||
US4800485A (en) * | 1982-06-01 | 1989-01-24 | American Telephone And Telegraph Company | On-line documentation facility |
US4698625A (en) | 1985-05-30 | 1987-10-06 | International Business Machines Corp. | Graphic highlight adjacent a pointing cursor |
US4757549A (en) * | 1985-12-12 | 1988-07-12 | International Business Machines Corp. | Freehand drawing containing invisible lines |
JPH0685128B2 (ja) * | 1987-03-12 | 1994-10-26 | フアナツク株式会社 | 自動プログラミングシステム |
US5111398A (en) | 1988-11-21 | 1992-05-05 | Xerox Corporation | Processing natural language text using autonomous punctuational structure |
CA2027253C (en) * | 1989-12-29 | 1997-12-16 | Steven C. Bagley | Editing text in an image |
JP2855797B2 (ja) | 1990-06-15 | 1999-02-10 | 富士ゼロックス株式会社 | 文書処理装置 |
US5544317A (en) * | 1990-11-20 | 1996-08-06 | Berg; David A. | Method for continuing transmission of commands for interactive graphics presentation in a computer network |
US5172422A (en) * | 1991-05-13 | 1992-12-15 | Eastman Kodak Company | Fast character segmentation of skewed text lines for optical character recognition |
JPH0594433A (ja) | 1991-10-02 | 1993-04-16 | Fuji Xerox Co Ltd | 文書処理装置 |
US5390259A (en) * | 1991-11-19 | 1995-02-14 | Xerox Corporation | Methods and apparatus for selecting semantically significant images in a document image without decoding image content |
US5335290A (en) | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
JPH05298358A (ja) | 1992-04-21 | 1993-11-12 | Toshiba Corp | 文書構造解析装置及び文書構造解析方法 |
US5680479A (en) * | 1992-04-24 | 1997-10-21 | Canon Kabushiki Kaisha | Method and apparatus for character recognition |
US5523775A (en) | 1992-05-26 | 1996-06-04 | Apple Computer, Inc. | Method for selecting objects on a computer display |
JP2789971B2 (ja) | 1992-10-27 | 1998-08-27 | 富士ゼロックス株式会社 | 表認識装置 |
JPH06214983A (ja) | 1993-01-20 | 1994-08-05 | Kokusai Denshin Denwa Co Ltd <Kdd> | 文書画像の論理構造化文書への変換方法および装置 |
US5848184A (en) | 1993-03-15 | 1998-12-08 | Unisys Corporation | Document page analyzer and method |
JP3302147B2 (ja) | 1993-05-12 | 2002-07-15 | 株式会社リコー | 文書画像処理方法 |
NL9301004A (nl) * | 1993-06-11 | 1995-01-02 | Oce Nederland Bv | Inrichting voor het bewerken en reproduceren van digitale beeldinformatie. |
US5553217A (en) * | 1993-09-23 | 1996-09-03 | Ricoh Company, Ltd. | Document layout using tiling |
JP3349787B2 (ja) * | 1993-10-15 | 2002-11-25 | 株式会社ソニー・コンピュータエンタテインメント | 描画データ作成装置及び描画データ作成方法 |
JP2618832B2 (ja) | 1994-06-16 | 1997-06-11 | 日本アイ・ビー・エム株式会社 | 文書の論理構造の解析方法及びシステム |
AUPM704394A0 (en) * | 1994-07-25 | 1994-08-18 | Canon Information Systems Research Australia Pty Ltd | Optimization method for the efficient production of images |
US5537628A (en) | 1994-08-29 | 1996-07-16 | Microsoft Corporation | Method for handling different code pages in text |
US5555556A (en) | 1994-09-30 | 1996-09-10 | Xerox Corporation | Method and apparatus for document segmentation by background analysis |
US5883588A (en) * | 1994-10-04 | 1999-03-16 | Nec Corporation | Data compression system and data compression device for improving data compression rate and coding speed |
US5987171A (en) * | 1994-11-10 | 1999-11-16 | Canon Kabushiki Kaisha | Page analysis system |
US5778356A (en) * | 1994-11-10 | 1998-07-07 | Cadis, Inc. | Dynamically selectable language display system for object oriented database management system |
EP0723247B1 (en) * | 1995-01-17 | 1998-07-29 | Eastman Kodak Company | Document image assessment system and method |
US5805911A (en) * | 1995-02-01 | 1998-09-08 | Microsoft Corporation | Word prediction system |
JP3545824B2 (ja) | 1995-02-21 | 2004-07-21 | 富士通株式会社 | データ検索装置 |
US5689585A (en) | 1995-04-28 | 1997-11-18 | Xerox Corporation | Method for aligning a text image to a transcription of the image |
US5680511A (en) * | 1995-06-07 | 1997-10-21 | Dragon Systems, Inc. | Systems and methods for word recognition |
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
JPH0969101A (ja) | 1995-08-31 | 1997-03-11 | Hitachi Ltd | 構造化文書生成方法および装置 |
US6141462A (en) * | 1995-10-11 | 2000-10-31 | Dainippon Screen Mfg. Co., Ltd. | Image processing using adjoining relationships between image parts |
US5892842A (en) | 1995-12-14 | 1999-04-06 | Xerox Corporation | Automatic method of identifying sentence boundaries in a document image |
US5841900A (en) * | 1996-01-11 | 1998-11-24 | Xerox Corporation | Method for graph-based table recognition |
US5798487A (en) * | 1996-01-18 | 1998-08-25 | Tedea Huntleigh Intl. Ltd. | Weighing device for rotary filling machines |
JP3061765B2 (ja) * | 1996-05-23 | 2000-07-10 | ゼロックス コーポレイション | コンピュータベースの文書処理方法 |
US5784487A (en) | 1996-05-23 | 1998-07-21 | Xerox Corporation | System for document layout analysis |
US6119120A (en) * | 1996-06-28 | 2000-09-12 | Microsoft Corporation | Computer implemented methods for constructing a compressed data structure from a data string and for using the data structure to find data patterns in the data string |
JP3772401B2 (ja) | 1996-07-11 | 2006-05-10 | 富士ゼロックス株式会社 | 文書分類装置 |
US5956737A (en) | 1996-09-09 | 1999-09-21 | Design Intelligence, Inc. | Design engine for fitting content to a medium |
JP3099756B2 (ja) | 1996-10-31 | 2000-10-16 | 富士ゼロックス株式会社 | 文書処理装置、単語抽出装置及び単語抽出方法 |
US6512848B2 (en) * | 1996-11-18 | 2003-01-28 | Canon Kabushiki Kaisha | Page analysis system |
GB9625284D0 (en) * | 1996-12-04 | 1997-01-22 | Canon Kk | A data processing method and apparatus for identifying a classification to which data belongs |
US6240430B1 (en) | 1996-12-13 | 2001-05-29 | International Business Machines Corporation | Method of multiple text selection and manipulation |
US6226402B1 (en) * | 1996-12-20 | 2001-05-01 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
US6374200B1 (en) | 1997-02-03 | 2002-04-16 | Fujitsu Limited | Layout apparatus for laying out objects in space and method thereof |
US6252597B1 (en) * | 1997-02-14 | 2001-06-26 | Netscape Communications Corporation | Scalable user interface for graphically representing hierarchical data |
US6175844B1 (en) * | 1997-05-29 | 2001-01-16 | Adobe Systems Incorporated | Ordering groups of text in an image |
JP3143079B2 (ja) | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
US6298357B1 (en) * | 1997-06-03 | 2001-10-02 | Adobe Systems Incorporated | Structure extraction on electronic documents |
US6687404B1 (en) | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
US7237193B1 (en) * | 1997-07-29 | 2007-06-26 | Symantec Corporation | Unified program for simultaneously displaying graphically-editable graphics presentation and linguistically-editable linguistic definition of the graphics presentation and for synchronizing the graphics presentation and the linguistic definition to one another |
US5991756A (en) * | 1997-11-03 | 1999-11-23 | Yahoo, Inc. | Information retrieval from hierarchical compound documents |
US6562077B2 (en) * | 1997-11-14 | 2003-05-13 | Xerox Corporation | Sorting image segments into clusters based on a distance measurement |
US6173073B1 (en) | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US7760187B2 (en) | 2004-07-30 | 2010-07-20 | Apple Inc. | Visual expander |
US6092092A (en) * | 1998-03-13 | 2000-07-18 | International Business Machines Corporation | Gap-based style-run array mechanism |
US6211856B1 (en) | 1998-04-17 | 2001-04-03 | Sung M. Choi | Graphical user interface touch screen with an auto zoom feature |
US6377704B1 (en) * | 1998-04-30 | 2002-04-23 | Xerox Corporation | Method for inset detection in document layout analysis |
JP4235286B2 (ja) * | 1998-09-11 | 2009-03-11 | キヤノン株式会社 | 表認識方法及び装置 |
US6263122B1 (en) * | 1998-09-23 | 2001-07-17 | Hewlett Packard Company | System and method for manipulating regions in a scanned image |
JP2000285140A (ja) | 1998-12-24 | 2000-10-13 | Ricoh Co Ltd | 文書処理装置、文書分類装置、文書処理方法、文書分類方法およびそれらの方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 |
US20070065838A1 (en) * | 1999-01-19 | 2007-03-22 | Maxygen, Inc. | Oligonucleotide mediated nucleic acid recombination |
US6377285B1 (en) * | 1999-01-29 | 2002-04-23 | Sony Corporation | Zooming space-grid for graphical user interface |
US6345279B1 (en) | 1999-04-23 | 2002-02-05 | International Business Machines Corporation | Methods and apparatus for adapting multimedia content for client devices |
US6504544B1 (en) * | 1999-07-30 | 2003-01-07 | Curl Corporation | Processing layout of text graphical objects |
US6542635B1 (en) | 1999-09-08 | 2003-04-01 | Lucent Technologies Inc. | Method for document comparison and classification using document image layout |
US7249318B1 (en) * | 1999-11-08 | 2007-07-24 | Adobe Systems Incorporated | Style sheet generation |
US6826727B1 (en) | 1999-11-24 | 2004-11-30 | Bitstream Inc. | Apparatus, methods, programming for automatically laying out documents |
US6664990B1 (en) | 1999-12-07 | 2003-12-16 | International Business Machines Corporation | Computer display pointer with alternate hot spots |
US6910182B2 (en) * | 2000-01-31 | 2005-06-21 | Xmlcities, Inc. | Method and apparatus for generating structured documents for various presentations and the uses thereof |
US6757870B1 (en) | 2000-03-22 | 2004-06-29 | Hewlett-Packard Development Company, L.P. | Automatic table detection method and system |
US20030090473A1 (en) * | 2000-03-24 | 2003-05-15 | Joshi Vikas B. | Multiple screen automatic programming interface |
US7210099B2 (en) * | 2000-06-12 | 2007-04-24 | Softview Llc | Resolution independent vector display of internet content |
TW466415B (en) | 2000-08-28 | 2001-12-01 | Compal Electronics Inc | Hand-held device with zooming display function |
US6938204B1 (en) | 2000-08-31 | 2005-08-30 | International Business Machines Corporation | Array-based extensible document storage format |
AUPR063400A0 (en) * | 2000-10-06 | 2000-11-02 | Canon Kabushiki Kaisha | Xml encoding scheme |
US7260777B2 (en) | 2001-08-17 | 2007-08-21 | Desknet Inc. | Apparatus, method and system for transforming data |
US8230323B2 (en) * | 2000-12-06 | 2012-07-24 | Sra International, Inc. | Content distribution system and method |
US7178100B2 (en) | 2000-12-15 | 2007-02-13 | Call Charles G | Methods and apparatus for storing and manipulating variable length and fixed length data elements as a sequence of fixed length integers |
US20020118885A1 (en) * | 2001-02-27 | 2002-08-29 | Bernard Smeets | Font compression and retrieval |
US7080318B2 (en) | 2001-02-28 | 2006-07-18 | Koninklijke Philips Electronics N.V. | Schema, syntactic analysis method and method of generating a bit stream based on a schema |
CA2340531C (en) * | 2001-03-12 | 2006-10-10 | Ibm Canada Limited-Ibm Canada Limitee | Document retrieval system and search method using word set and character look-up tables |
US7565605B2 (en) * | 2001-05-08 | 2009-07-21 | Nokia, Inc. | Reorganizing content of an electronic document |
US6643653B1 (en) * | 2001-06-01 | 2003-11-04 | Oracle International Corporation | Method and apparatus for identifying a data sequence related to a given data sequence |
US20030014442A1 (en) | 2001-07-16 | 2003-01-16 | Shiigi Clyde K. | Web site application development method using object model for managing web-based content |
KR100474724B1 (ko) * | 2001-08-04 | 2005-03-08 | 삼성전자주식회사 | 터치스크린을 가지는 장치 및 그 장치에 외부디스플레이기기를 연결하여 사용하는 방법 |
US7046848B1 (en) * | 2001-08-22 | 2006-05-16 | Olcott Peter L | Method and system for recognizing machine generated character glyphs and icons in graphic images |
US7483938B2 (en) * | 2001-09-27 | 2009-01-27 | International Business Machines Corporation | System for character validation and method therefor |
US6801673B2 (en) | 2001-10-09 | 2004-10-05 | Hewlett-Packard Development Company, L.P. | Section extraction tool for PDF documents |
US7031910B2 (en) * | 2001-10-16 | 2006-04-18 | Xerox Corporation | Method and system for encoding and accessing linguistic frequency data |
NO316480B1 (no) * | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
AUPR962001A0 (en) * | 2001-12-19 | 2002-01-24 | Redbank Manor Pty Ltd | Document display system and method |
EP1504369B1 (en) * | 2002-04-24 | 2013-07-17 | Intel Corporation | System and method for processing of xml documents represented as an event stream |
US7164797B2 (en) * | 2002-04-25 | 2007-01-16 | Microsoft Corporation | Clustering |
US7142728B2 (en) * | 2002-05-17 | 2006-11-28 | Science Applications International Corporation | Method and system for extracting information from a document |
US6904170B2 (en) | 2002-05-17 | 2005-06-07 | Hewlett-Packard Development Company, L.P. | Method and system for document segmentation |
JP2005526314A (ja) | 2002-05-20 | 2005-09-02 | タタ インフォテック リミティド | 文書構造識別器 |
JP2004038321A (ja) | 2002-06-28 | 2004-02-05 | Fujitsu Ltd | 文書レイアウト解析プログラム、文書レイアウト解析装置および文書レイアウト解析方法 |
US7523394B2 (en) * | 2002-06-28 | 2009-04-21 | Microsoft Corporation | Word-processing document stored in a single XML file that may be manipulated by applications that understand XML |
US20040003349A1 (en) | 2002-06-28 | 2004-01-01 | Microsoft Corporation | Content segments |
US7324120B2 (en) * | 2002-07-01 | 2008-01-29 | Xerox Corporation | Segmentation method and system for scanned documents |
US7027071B2 (en) * | 2002-07-02 | 2006-04-11 | Hewlett-Packard Development Company, L.P. | Selecting elements from an electronic document |
US7254270B2 (en) * | 2002-07-09 | 2007-08-07 | Hewlett-Packard Development Company, L.P. | System and method for bounding and classifying regions within a graphical image |
US20050216836A1 (en) * | 2002-08-09 | 2005-09-29 | Triplearc Uk Limited | Electronic document processing |
US20060104511A1 (en) | 2002-08-20 | 2006-05-18 | Guo Jinhong K | Method, system and apparatus for generating structured document files |
US7365758B2 (en) * | 2002-10-21 | 2008-04-29 | Microsoft Corporation | System and method for scaling data according to an optimal width for display on a mobile device |
US6965388B2 (en) * | 2002-10-21 | 2005-11-15 | Microsoft Corporation | System and method for block scaling data to fit a screen on a mobile device |
US7295711B1 (en) * | 2002-10-23 | 2007-11-13 | Altera Corporation | Method and apparatus for merging related image segments |
US20040083268A1 (en) * | 2002-10-28 | 2004-04-29 | Arti Shukla | Methods and apparatuses for interfacing portable devices with digital sender devices |
US7019713B2 (en) * | 2002-10-30 | 2006-03-28 | The University Of Chicago | Methods and measurement engine for aligning multi-projector display systems |
WO2004042507A2 (en) * | 2002-10-31 | 2004-05-21 | Arizan Corporation | Methods and apparatus for summarizing document content for mobile communication devices |
JP3974511B2 (ja) | 2002-12-19 | 2007-09-12 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報検索のためのデータ構造を生成するコンピュータ・システム、そのための方法、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラム、情報検索のためのデータ構造を生成するコンピュータ実行可能なプログラムを記憶したコンピュータ可読な記憶媒体、情報検索システム、およびグラフィカル・ユーザ・インタフェイス・システム |
AU2003900865A0 (en) * | 2003-02-26 | 2003-03-13 | Silverbrook Research Pty Ltd | Methods, systems and apparatus (NPW010) |
US7313754B2 (en) | 2003-03-14 | 2007-12-25 | Texterity, Inc. | Method and expert system for deducing document structure in document conversion |
US7064829B2 (en) * | 2003-03-20 | 2006-06-20 | Timbre Technologies, Inc. | Generic interface for an optical metrology system |
US7305612B2 (en) * | 2003-03-31 | 2007-12-04 | Siemens Corporate Research, Inc. | Systems and methods for automatic form segmentation for raster-based passive electronic documents |
US8056001B2 (en) | 2003-04-10 | 2011-11-08 | Hewlett-Packard Development Company, L.P. | Method and apparatus for classifying elements of a document |
US7890852B2 (en) * | 2003-06-26 | 2011-02-15 | International Business Machines Corporation | Rich text handling for a web application |
JP2005043990A (ja) * | 2003-07-23 | 2005-02-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
US7428700B2 (en) | 2003-07-28 | 2008-09-23 | Microsoft Corporation | Vision-based document segmentation |
US7171618B2 (en) | 2003-07-30 | 2007-01-30 | Xerox Corporation | Multi-versioned documents and method for creation and use thereof |
GB0320278D0 (en) | 2003-08-29 | 2003-10-01 | Hewlett Packard Development Co | Constrained document layout |
US7360157B1 (en) * | 2003-09-19 | 2008-04-15 | Microsoft Corporation | Aligning content in an electronic document |
JP2005108230A (ja) | 2003-09-25 | 2005-04-21 | Ricoh Co Ltd | オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム |
US7424672B2 (en) | 2003-10-03 | 2008-09-09 | Hewlett-Packard Development Company, L.P. | System and method of specifying image document layout definition |
US7554689B2 (en) * | 2003-10-15 | 2009-06-30 | Canon Kabushiki Kaisha | Document layout method |
JP2005149269A (ja) | 2003-11-18 | 2005-06-09 | Hitachi Systems & Services Ltd | 構造化文書の処理システム |
JP4012140B2 (ja) * | 2003-11-20 | 2007-11-21 | キヤノン株式会社 | 画像処理装置、情報処理装置及びそれらの制御方法、プログラム |
US7814419B2 (en) * | 2003-11-26 | 2010-10-12 | Nokia Corporation | Changing an orientation of a user interface via a course of motion |
US7085590B2 (en) | 2003-12-31 | 2006-08-01 | Sony Ericsson Mobile Communications Ab | Mobile terminal with ergonomic imaging functions |
US7441186B2 (en) | 2004-01-23 | 2008-10-21 | Microsoft Corporation | System and method for automatically grouping items |
US7441204B2 (en) | 2004-02-06 | 2008-10-21 | Microsoft Corporation | Method and system for automatically displaying content of a window on a display that has changed orientation |
US7386789B2 (en) * | 2004-02-27 | 2008-06-10 | Hewlett-Packard Development Company, L.P. | Method for determining logical components of a document |
US7441207B2 (en) | 2004-03-18 | 2008-10-21 | Microsoft Corporation | Method and system for improved viewing and navigation of content |
US7697756B2 (en) * | 2004-04-09 | 2010-04-13 | Siemens Medical Solutions Usa, Inc. | GPU accelerated multi-label image segmentation (MLS) |
US7499588B2 (en) | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
US7769756B2 (en) * | 2004-06-07 | 2010-08-03 | Sling Media, Inc. | Selection and presentation of context-relevant supplemental content and advertising |
KR100747879B1 (ko) | 2004-06-10 | 2007-08-08 | 캐논 가부시끼가이샤 | 화상 처리 장치, 제어 방법 및 기록 매체 |
US20050283739A1 (en) | 2004-06-18 | 2005-12-22 | Julia Mohr | Method and system to improve usability of a web application by providing a zoom function |
WO2006002328A2 (en) | 2004-06-23 | 2006-01-05 | Plain Sight Systems, Inc. | System and method for document analysis, processing and information extraction |
US7284192B2 (en) | 2004-06-24 | 2007-10-16 | Avaya Technology Corp. | Architecture for ink annotations on web documents |
US7584422B2 (en) * | 2004-07-12 | 2009-09-01 | Informatica Corporation | System and method for data format transformation |
US7343369B2 (en) * | 2004-11-18 | 2008-03-11 | International Business Machines Corporation | Method and apparatus for predicting selectivity of database query join conditions using hypothetical query predicates having skewed value constants |
CN100568221C (zh) | 2004-11-22 | 2009-12-09 | 北京北大方正技术研究院有限公司 | 一种对报纸版面进行文字阅读顺序恢复的方法 |
JP4550882B2 (ja) | 2004-11-25 | 2010-09-22 | シャープ株式会社 | 情報分類装置、情報分類方法、情報分類プログラム、情報分類システム |
US7676743B2 (en) * | 2004-11-30 | 2010-03-09 | Adobe Systems, Incorporated | Applying type fitting across grouped text frames in a page layout application |
US7693848B2 (en) * | 2005-01-10 | 2010-04-06 | Xerox Corporation | Method and apparatus for structuring documents based on layout, content and collection |
US8245131B2 (en) * | 2005-02-10 | 2012-08-14 | Hewlett-Packard Development Company, L.P. | Constraining layout variations for accommodating variable content in electronic documents |
JP4314204B2 (ja) | 2005-03-11 | 2009-08-12 | 株式会社東芝 | 文書管理方法、システム及びプログラム |
US7924285B2 (en) | 2005-04-06 | 2011-04-12 | Microsoft Corporation | Exposing various levels of text granularity for animation and other effects |
US7543229B2 (en) | 2005-04-14 | 2009-06-02 | Hewlett-Packard Development Company, L.P. | Analysis of graphic design material |
US7386558B2 (en) * | 2005-04-22 | 2008-06-10 | Microsoft Corporation | Methods and systems for filtering an Extensible Application Markup Language (XAML) file to facilitate indexing of the logical content contained therein |
US8302002B2 (en) | 2005-04-27 | 2012-10-30 | Xerox Corporation | Structuring document based on table of contents |
WO2006126467A1 (ja) * | 2005-05-24 | 2006-11-30 | Turbo Data Laboratories Inc. | マルチプロセッサシステム及びその情報処理方法 |
US7392473B2 (en) | 2005-05-26 | 2008-06-24 | Xerox Corporation | Method and apparatus for determining logical document structure |
ATE375561T1 (de) * | 2005-06-09 | 2007-10-15 | Pdflib Gmbh | Verfahren zur identifizierung von redundantem text in elektronischen dokumenten |
US7697757B2 (en) | 2005-06-15 | 2010-04-13 | Hewlett-Packard Development Company, L.P. | Computer assisted document modification |
JP2006350867A (ja) | 2005-06-17 | 2006-12-28 | Ricoh Co Ltd | 文書処理装置、文書処理方法、プログラム及び情報記録媒体 |
US7555711B2 (en) | 2005-06-24 | 2009-06-30 | Hewlett-Packard Development Company, L.P. | Generating a text layout boundary from a text block in an electronic document |
ATE373274T1 (de) | 2005-07-01 | 2007-09-15 | Pdflib Gmbh | Verfahren zur identifizierung von wörtern in einem elektronischen dokument |
US8249344B2 (en) | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
GB2428114A (en) | 2005-07-08 | 2007-01-17 | William Alan Hollingsworth | Data Format Conversion System |
US7559033B2 (en) | 2005-07-21 | 2009-07-07 | International Business Machines Corporation | Method and system for improving selection capability for user interface |
US7613996B2 (en) * | 2005-08-15 | 2009-11-03 | Microsoft Corporation | Enabling selection of an inferred schema part |
US7734554B2 (en) * | 2005-10-27 | 2010-06-08 | Hewlett-Packard Development Company, L.P. | Deploying a document classification system |
JP4666155B2 (ja) | 2005-11-18 | 2011-04-06 | ソニー株式会社 | リチウムイオン二次電池 |
US8307275B2 (en) | 2005-12-08 | 2012-11-06 | International Business Machines Corporation | Document-based information and uniform resource locator (URL) management |
JP5238105B2 (ja) | 2005-12-09 | 2013-07-17 | 富士通株式会社 | プログラム、及びデータ抽出方法 |
US7853869B2 (en) | 2005-12-14 | 2010-12-14 | Microsoft Corporation | Creation of semantic objects for providing logical structure to markup language representations of documents |
US7877685B2 (en) * | 2005-12-29 | 2011-01-25 | Sap Ag | Persistent adjustable text selector |
US7730422B2 (en) * | 2006-01-25 | 2010-06-01 | Microsoft Corporation | Smart icon placement across desktop size changes |
US7676741B2 (en) * | 2006-01-31 | 2010-03-09 | Microsoft Corporation | Structural context for fixed layout markup documents |
US7623710B2 (en) | 2006-02-14 | 2009-11-24 | Microsoft Corporation | Document content and structure conversion |
US7461349B1 (en) * | 2006-02-28 | 2008-12-02 | Adobe Systems Incorporated | Methods and apparatus for applying functions to content |
EP1841073A1 (en) * | 2006-03-29 | 2007-10-03 | STMicroelectronics N.V. | Fast convergence LDPC decoding using BCJR algorithm at the check nodes |
CN101055577A (zh) * | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 可扩展标记语言集中器 |
CN101055578A (zh) | 2006-04-12 | 2007-10-17 | 龙搜(北京)科技有限公司 | 基于规则的文档内容挖掘器 |
US7756333B2 (en) * | 2006-04-26 | 2010-07-13 | Microsoft Corporation | Document layout verification |
JP5049515B2 (ja) * | 2006-06-06 | 2012-10-17 | キヤノン株式会社 | 情報処理装置および情報処理方法および情報処理プログラム |
US20070294646A1 (en) | 2006-06-14 | 2007-12-20 | Sybase, Inc. | System and Method for Delivering Mobile RSS Content |
US7805289B2 (en) | 2006-07-10 | 2010-09-28 | Microsoft Corporation | Aligning hierarchal and sequential document trees to identify parallel data |
DE102006046703A1 (de) * | 2006-10-02 | 2008-04-17 | Siemens Audiologische Technik Gmbh | Hörvorrichtung mit gesteuerten Eingangskanälen und entsprechendes Verfahren |
US20080120309A1 (en) * | 2006-11-17 | 2008-05-22 | Microsoft Corporation | Storing, maintaining and locating information |
US7911481B1 (en) * | 2006-12-14 | 2011-03-22 | Disney Enterprises, Inc. | Method and apparatus of graphical object selection |
US8689132B2 (en) * | 2007-01-07 | 2014-04-01 | Apple Inc. | Portable electronic device, method, and graphical user interface for displaying electronic documents and lists |
WO2008090516A1 (en) * | 2007-01-22 | 2008-07-31 | Nokia Corporation | System and method for screen orientation in a rich media environment |
US20080183657A1 (en) | 2007-01-26 | 2008-07-31 | Yuan-Chi Chang | Method and apparatus for providing direct access to unique hierarchical data items |
US7778953B2 (en) | 2007-02-19 | 2010-08-17 | Kabushiki Kaisha Toshiba | Document management apparatus and document management method |
US20080235564A1 (en) * | 2007-03-21 | 2008-09-25 | Ricoh Co., Ltd. | Methods for converting electronic content descriptions |
US20080231643A1 (en) * | 2007-03-21 | 2008-09-25 | Nick Fletcher | Method and apparatus for controlling the size or opacity of map elements rendered in an interactive map view |
US8504553B2 (en) | 2007-04-19 | 2013-08-06 | Barnesandnoble.Com Llc | Unstructured and semistructured document processing and searching |
TW200846942A (en) | 2007-05-21 | 2008-12-01 | Univ Nat Taiwan Science Tech | Clustering TRIZ analysis model |
US20080307308A1 (en) | 2007-06-08 | 2008-12-11 | Apple Inc. | Creating Web Clips |
US8201096B2 (en) | 2007-06-09 | 2012-06-12 | Apple Inc. | Browsing or searching user interfaces and other aspects |
US9529438B2 (en) * | 2007-06-27 | 2016-12-27 | Hewlett-Packard Development Company, L.P. | Printing structured documents |
JP4590433B2 (ja) * | 2007-06-29 | 2010-12-01 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
JP4402138B2 (ja) * | 2007-06-29 | 2010-01-20 | キヤノン株式会社 | 画像処理装置、画像処理方法、コンピュータプログラム |
WO2009026508A1 (en) | 2007-08-22 | 2009-02-26 | The Trustees Of Columbia University In The City Of New York | Methods, systems, and media for providing content-aware scrolling |
EP2193520A4 (en) * | 2007-09-28 | 2010-12-01 | Research In Motion Ltd | METHOD AND DEVICE FOR PROVIDING ZOOM FUNCTIONALITY IN A DISPLAY OF A PORTABLE DEVICE |
US20090089448A1 (en) | 2007-09-28 | 2009-04-02 | David Sze | Mobile browser with zoom operations using progressive image download |
US20090091564A1 (en) | 2007-10-03 | 2009-04-09 | Raju Thevan | System and method for rendering electronic documents having overlapping primitives |
US8125691B2 (en) | 2007-10-11 | 2012-02-28 | Canon Kabushiki Kaisha | Information processing apparatus and method, computer program and computer-readable recording medium for embedding watermark information |
US20090109243A1 (en) * | 2007-10-25 | 2009-04-30 | Nokia Corporation | Apparatus and method for zooming objects on a display |
US8015168B2 (en) * | 2007-11-12 | 2011-09-06 | Sap Ag | String pooling |
RU2007141666A (ru) | 2007-11-13 | 2009-05-20 | Николай Игоревич Докучаев (RU) | Способ сбора, обработки и каталогизации целевой информации из неструктурированных источников |
US8909654B2 (en) | 2007-11-19 | 2014-12-09 | Nippon Telegraph And Telephone Corporation | Information search method, apparatus, program and computer readable recording medium |
US8136402B2 (en) * | 2007-11-28 | 2012-03-20 | International Business Machines Corporation | Accelerometer module for use with a touch sensitive device |
US8504945B2 (en) * | 2008-02-01 | 2013-08-06 | Gabriel Jakobson | Method and system for associating content with map zoom function |
US8217964B2 (en) * | 2008-02-14 | 2012-07-10 | Nokia Corporation | Information presentation based on display screen orientation |
WO2010000020A1 (en) | 2008-06-30 | 2010-01-07 | Cathrx Ltd | A catheter |
US7809195B1 (en) * | 2008-09-18 | 2010-10-05 | Ernest Greene | Encoding system providing discrimination, classification, and recognition of shapes and patterns |
US8539342B1 (en) | 2008-10-16 | 2013-09-17 | Adobe Systems Incorporated | Read-order inference via content sorting |
US20100145720A1 (en) | 2008-12-05 | 2010-06-10 | Bruce Reiner | Method of extracting real-time structured data and performing data analysis and decision support in medical reporting |
US8352855B2 (en) | 2009-01-02 | 2013-01-08 | Apple Inc. | Selection of text in an unstructured document |
US20100185651A1 (en) * | 2009-01-16 | 2010-07-22 | Google Inc. | Retrieving and displaying information from an unstructured electronic document collection |
WO2010096193A2 (en) * | 2009-02-18 | 2010-08-26 | Exbiblio B.V. | Identifying a document by performing spectral analysis on the contents of the document |
TW201224718A (en) * | 2010-12-03 | 2012-06-16 | Hon Hai Prec Ind Co Ltd | Wind guiding cover and computer system with same |
US8543911B2 (en) | 2011-01-18 | 2013-09-24 | Apple Inc. | Ordering document content based on reading flow |
EP2477122B1 (en) | 2011-01-18 | 2018-10-24 | Apple Inc. | Ordering document content |
US20130007004A1 (en) * | 2011-06-30 | 2013-01-03 | Landon Ip, Inc. | Method and apparatus for creating a search index for a composite document and searching same |
WO2015066399A1 (en) * | 2013-10-31 | 2015-05-07 | Evernote Corporation | Multi-touch navigation of multidimensional object hierarchies |
-
2009
- 2009-06-07 US US12/479,845 patent/US8352855B2/en active Active
- 2009-06-07 US US12/479,843 patent/US8261186B2/en active Active
- 2009-06-07 US US12/479,848 patent/US8443278B2/en active Active
- 2009-06-07 US US12/479,844 patent/US8365072B2/en active Active
- 2009-06-07 US US12/479,842 patent/US8438472B2/en active Active
- 2009-06-07 US US12/479,850 patent/US8832549B2/en active Active
- 2009-06-07 US US12/455,866 patent/US9063911B2/en active Active
- 2009-06-07 US US12/479,847 patent/US8719701B2/en active Active
- 2009-06-07 US US12/479,852 patent/US8473467B2/en active Active
- 2009-06-07 US US12/479,849 patent/US9460063B2/en active Active
- 2009-12-31 KR KR1020137010411A patent/KR101463703B1/ko active IP Right Grant
- 2009-12-31 KR KR1020137025900A patent/KR20130116958A/ko not_active Application Discontinuation
- 2009-12-31 EP EP09833899A patent/EP2374067A2/en not_active Ceased
- 2009-12-31 DE DE112009004951T patent/DE112009004951T5/de active Pending
- 2009-12-31 KR KR1020117018126A patent/KR101324799B1/ko active IP Right Grant
- 2009-12-31 GB GB1111173A patent/GB2479479A/en not_active Withdrawn
- 2009-12-31 WO PCT/US2009/069885 patent/WO2010078475A2/en active Application Filing
- 2009-12-31 GB GB1305919.1A patent/GB2498137A/en not_active Withdrawn
- 2009-12-31 JP JP2011544617A patent/JP2012514792A/ja active Pending
-
2012
- 2012-07-20 US US13/555,053 patent/US8892992B2/en active Active
- 2012-12-27 US US13/729,015 patent/US9959259B2/en active Active
-
2013
- 2013-04-19 US US13/866,493 patent/US9575945B2/en active Active
-
2015
- 2015-05-12 US US14/710,525 patent/US20150324338A1/en not_active Abandoned
- 2015-08-03 JP JP2015153470A patent/JP6141921B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11250041A (ja) * | 1998-02-27 | 1999-09-17 | Toshiba Corp | 文書処理装置および文書処理方法 |
JP2001101164A (ja) * | 1999-09-29 | 2001-04-13 | Toshiba Corp | 文書画像処理装置及び文書画像処理方法 |
JP2003288334A (ja) * | 2002-03-28 | 2003-10-10 | Toshiba Corp | 文書処理装置及び文書処理方法 |
JP2004234656A (ja) * | 2003-01-29 | 2004-08-19 | Ricoh Co Ltd | 文書分析情報を使用して文書を再フォーマット化する方法及び製造物 |
US20070250497A1 (en) * | 2006-04-19 | 2007-10-25 | Apple Computer Inc. | Semantic reconstruction |
JP2009110500A (ja) * | 2007-10-29 | 2009-05-21 | Toshiba Corp | ドキュメント処理装置、ドキュメント処理方法、ドキュメント処理装置のプログラム |
Non-Patent Citations (3)
Title |
---|
村上 玄生 外1名: "CenterBandを用いた数式構造解析の安定化", 電子情報通信学会技術研究報告, vol. 第101巻 第712号, JPN6013012065, 7 March 2002 (2002-03-07), JP, pages 203 - 210, ISSN: 0002481364 * |
金堀 利洋 外1名: "PDF中のテキスト情報を利用した視覚障害者のための英文PDF科学技術文書読取りシステム", 電子情報通信学会論文誌, vol. 第J90-D巻 第3号, JPN6013012066, 1 March 2007 (2007-03-01), JP, pages 706 - 714, ISSN: 0002481365 * |
駱 琴 外2名: "ルールベースの適用による日本語新聞紙紙面の構造認識", 電子情報通信学会論文誌 (J75−D−II), vol. 第J75-D-II巻第9巻, JPN6014013065, 25 September 1992 (1992-09-25), pages 1514 - 1525, ISSN: 0002779673 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016045566A (ja) * | 2014-08-20 | 2016-04-04 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
JP2017505962A (ja) * | 2014-10-31 | 2017-02-23 | 小米科技有限責任公司Xiaomi Inc. | 情報選択方法及び装置 |
US10423706B2 (en) | 2014-10-31 | 2019-09-24 | Xiaomi Inc. | Method and device for selecting information |
JP2019125353A (ja) * | 2017-12-29 | 2019-07-25 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 電子文書中の文字列塊を推測する方法 |
JP7186075B2 (ja) | 2017-12-29 | 2022-12-08 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 電子文書中の文字列塊を推測する方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6141921B2 (ja) | 文書再構成の方法及びシステム | |
US8959116B2 (en) | Storage of a document using multiple representations | |
US8166037B2 (en) | Semantic reconstruction | |
TWI472933B (zh) | 用於文件中之列表重建的方法及電腦程式產品 | |
JP2012155714A (ja) | 文書コンテンツの順序付け |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130315 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130617 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130624 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140331 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140630 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140707 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140731 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140807 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20140901 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20140908 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140930 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150403 |