JP5031741B2 - 文書視覚構造の文法的な解析 - Google Patents
文書視覚構造の文法的な解析 Download PDFInfo
- Publication number
- JP5031741B2 JP5031741B2 JP2008520352A JP2008520352A JP5031741B2 JP 5031741 B2 JP5031741 B2 JP 5031741B2 JP 2008520352 A JP2008520352 A JP 2008520352A JP 2008520352 A JP2008520352 A JP 2008520352A JP 5031741 B2 JP5031741 B2 JP 5031741B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- grammatical
- analysis
- input
- visual structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Description
多くの競合する解析アルゴリズムが存在するが、1つのシンプルだが一般的なフレームワークは「チャート解析(chart parsing)」と呼ばれている(M. Kay, 「Algorithm schemata and data structures in syntactic processing」, pp.35-70, 1986 参照)。チャート解析は、チャートC(A,R)のエントリを入力しようとする。各エントリには、非終端(non−terminal)Aの最高スコアが終端Rの部分列(sub−sequence)の解釈(interpretation)として格納される。任意の非終端のコストは、次の再帰によって表現できる。
文書レイアウト分析の1つの目的は、スキャンされた文書を、LaTeXおよび/またはワードプロセッサなどの文書作成(preparation)プログラム用の完全に編集可能な入力ファイルに変換するために必要な情報を決定することである。スキャンされたファイルに含まれるテキストはOCRを使用して容易に抽出できるが、こうした情報は容易に編集できるファイルを作成するために十分ではない。段落の境界、段組、行揃え、より重要な読み取りの流れ(reading flow)などの付加的な情報も必要である。こうした文書構造の情報は、多くの場合にPDF(portable document files)やPostscriptファイルからも失われる。スキャン、PDF、および/またはPostscriptであれ何であれ、文書構造の情報を追加することにより、ページ番号の再割り当て、書式の再設定、および/または編集などが可能な生きた文書が得られる。したがって、こうした機能によって文書の有用性は大幅に向上する。
学術研究団体では、ほとんどすべての新しい論文がPDFとPostscriptのいずれかで入力可能になっている。このような書式は、印刷には便利であるが、容易な再利用または書式の再設定には対応していない。1つの明白な例は、数式が含まれている文書である。数式は、容易に抽出、編集、または検索することができない。それ以外の例には、表、脚注、参考文献(bibliographies)などがある。科学関係の出版物の実質的な標準はLaTeXである。この理由の一部として、LaTeXは強力かつ高品質の数学のレイアウトを提供することがある。PDF文書もPostscript文書も、オリジナルを生成するために使用したLaTeXの式を再構築するために必要な情報を提供しない。
プロダクションスコアリング関数の学習に使用するフィーチャは、一般にさまざまなタスクに適用でき、有効である。幾何学的な境界ボックスフィーチャのセットは、コンポーネントの位置合わせ(alignment)の測定に有効なことが証明されている。第1のタイプは、集合R0、R1、およびR2の境界ボックスに関連する。これは、ページ座標内でボックスの角の位置Xi、Yi、およびサイズW、Hを測定する。合計360の測定フィーチャがあり、{mj(R)}で表される。第2のフィーチャセットは組み合わせであり、ボックス測定フィーチャのすべてのペアを関連付ける。つまり、g(mj(Ra),mj(Rb))である。ここで、aとbは{0,1,2}であり、関数gは加算、減算、乗算、除算、最小値、最大値のいずれでもよい。第3のフィーチャセットは、この領域に含まれる終端の境界ボックスのプロパティを測定する。これには、すべての領域の終端について評価された、いくつかの測定フィーチャの最小値、最大値、平均、標準偏差(standard deviation)、および中央値(median)が含まれる。
前述のフィーチャを使用して、2セットの試験が実行されている。文法パラメータ学習の全体的なプロセスは、以下の表3で説明されている。学習の各ラウンドで、意思決定スタンプ(decision stumps)に関するAdaBoostが使用されている。これは、複雑性を制御するための非常にシンプルなメカニズムを提供する(早期中止)。また、ブースティングの各ラウンドで単一のフィーチャに関連付けられた単一のスタンプを選択するので、フィーチャ選択のメカニズムも提供する。
Claims (16)
- 文書レイアウト構造の認識を促進するシステムであって、
前記システムは、コンピュータ実行可能コンポーネントを実行するプロセッサを備え、
前記コンポーネントは、
文書の視覚構造に関連する入力を受信する受信コンポーネントと、
少なくとも部分的に前記文書の視覚構造の識別的文法的階層構造モデルを利用して、複数の文法規則を前記文書の視覚構造において識別される複数の記号のタイプに関連付けることによって前記入力の文法的な解析を促進する文法コンポーネントであって、前記文法規則は、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含み、前記識別的文法的階層構造モデルは、前記文書のページ、セクション、段組、段落、行、著者、タイトル、脚注、または単語のうちの少なくとも一つに関連付けられる階層情報を含み、前記入力の文法的な解析は、少なくとも部分的には文法的コスト関数に基づいて行われ、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、文法コンポーネントと
を備え、
前記入力の文法的な解析は、
前記文書の視覚構造を複数の一体化イメージとして表すことと、
前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させることであって、前記複数のコンステレーションは、少なくとも一つの空白の矩形についての文書フィーチャを含む、ことと、
前記複数の一体化イメージをスコアリングして前記最適な解析ツリーの決定において前記文法的コスト関数を促進することと
を含むことを特徴とするシステム。 - 前記文法コンポーネントは、ローカルフィーチャまたはグローバルフィーチャの少なくとも一つを利用して前記文書に関連するレイアウト構造を抽出する文書構造抽出コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
- 前記文書構造抽出コンポーネントは、イメージスコアリング、解析学習ブースティング、または高速フィーチャの少なくとも一つを利用して前記文書レイアウト構造の抽出を促進することを特徴とする請求項2に記載のシステム。
- 前記文法コンポーネントは、少なくとも1つの分類器を使用してグローバル検索からの最適な解析ツリーの決定を促進する解析コンポーネントをさらに備えることを特徴とする請求項3に記載のシステム。
- 前記解析コンポーネントは、前記分類器を使用して文法的コスト関数の決定を促進することを特徴とする請求項4に記載のシステム。
- 前記分類器は、従来の機械学習技術を介してトレーニングされた分類器を備えることを特徴とする請求項5に記載のシステム。
- 前記機械学習技術は、少なくとも部分的にパーセプトロンベースの技術を備えることを特徴とする請求項6に記載のシステム。
- 前記文法コンポーネントは、少なくとも部分的に動的プログラミングを使用して前記入力についてのグローバルに最適な解析ツリーを決定することを特徴とする請求項1に記載のシステム。
- 文書レイアウト構造の認識を促進する方法を行うためのコンピュータ実行可能命令を格納するコンピュータ読み取り可能な記録媒体であって、
前記コンピュータ実行可能命令は、コンピュータによって実行されると、コンピュータに、
文書の視覚構造に関連する入力を受信するステップと、
文法的な解析プロセスを前記文書の視覚構造の推定に適用するステップであって、前記文書の視覚構造の推定は、前記文書の推定されたページ、セクション、段組、段落、行、または単語のうちの少なくとも一つを含み、文法規則に基づく前記文法的な解析プロセスは、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含む、ステップと
を備える方法を実行させ、
前記文法的な解析プロセスは、
少なくとも部分的に文法的コスト関数に基づいて前記入力を解析することであって、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、ことと、
前記文書の視覚構造を複数の一体化イメージとして表すことと、
前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させることであって、前記複数のコンステレーションは、少なくとも一つの空白の矩形についての文書フィーチャを含む、ことと、
前記複数の一体化イメージをスコアリングして前記最適な解析ツリーの決定において前記文法的コスト関数を促進することと
を含むことを特徴とするコンピュータ読み取り可能な記録媒体。 - 少なくとも部分的に前記文書の視覚構造の文法的階層構造モデルを使用して前記文書の視覚構造入力の文法的な解析を促進するステップであって、前記文法的階層構造モデルは、前記文書のページ、セクション、段組、段落、行、または単語のうちの少なくとも一つに関連付けられる階層情報を含む、ステップをさらに備えることを特徴とする請求項9に記載のコンピュータ読み取り可能な記録媒体。
- 前記文法的な解析プロセスは、識別的文法モデルに基づくことを特徴とする請求項9に記載のコンピュータ読み取り可能な記録媒体。
- 少なくとも1つの文書フィーチャの少なくとも1つの一体化イメージを計算するステップ、または複数の一体化イメージの少なくとも1つのコンステレーションを計算して、前記入力の解析を促進するステップをさらに備えることを特徴とする請求項9に記載のコンピュータ読み取り可能な記録媒体。
- AdaBoostを利用して前記入力の解析を促進するステップをさらに備えることを特徴とする請求項9に記載のコンピュータ読み取り可能な記録媒体。
- 文書レイアウト構造の認識のためのコンピュータ実行方法であって、
プロセッサおよびメモリに結合される入力装置から、前記メモリに格納されている文書の視覚構造に関連する入力を受信するステップと、
前記メモリに格納されている文書の視覚構造の文法的モデルを使用して、前記視覚構造の入力の文法的な解析を促進するステップであって、前記文法的モデルは、前記文書のページ、セクション、段組、段落、行、または単語のうちの少なくとも一つに関連付けられる階層情報を含み、文法規則は、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含み、前記文書の視覚構造の入力を文法的に解析することは、少なくとも部分的には文法的コスト関数に基づいて行われ、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、ステップと
前記文書の視覚構造を複数の一体化イメージとして表すステップと、
前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させるステップであって、前記複数のコンステレーションは、少なくとも一つの空白についての文書フィーチャを含む、ステップと
を含むことを特徴とする方法。 - 機械学習技術を介してトレーニングされた少なくとも1つの分類器を利用して前記視覚構造の入力を解析するステップをさらに含むことを特徴とする請求項14に記載の方法。
- 文書レイアウト構造の認識を促進するシステムであって、
前記システムは、
プロセッサと、
前記プロセッサに通信可能なように結合され、文書レイアウト構造の認識システムを実行するように構成されるコンピュータ実行可能命令を格納するメモリと
を備え、
前記コンピュータ実行可能命令は、プロセッサによって実行されると前記システムに、
文書の視覚構造に関連する入力を受信する受信コンポーネントであって、前記視覚構造は、前記文書の書式、間隔、テキストの向き、著者、数式、セクション、段組、段落、または画像のうちの少なくとも一つに関連付けられる、受信コンポーネントと、
少なくとも部分的に前記文書の視覚構造の識別的文法的階層構造モデルを利用して、複数の文法規則を前記文書の視覚構造において識別される複数の記号のタイプに関連付けることによって前記入力の文法的な解析を促進する文法コンポーネントであって、各記号のタイプは、終端を記述する関連する文法規則を含み、前記終端は、テキストの文字、数字、または記号を含み、前記文法規則は、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含み、前記識別的文法的階層構造モデルは、前記文書のページ、セクション、段組、段落、行、または単語のうちの少なくとも一つに関連付けられる階層情報を含み、前記入力の文法的な解析は、少なくとも部分的には文法的コスト関数に基づいて行われ、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、文法コンポーネントと、
ローカルフィーチャまたはグローバルフィーチャの少なくとも一つを利用して前記文書に関連するレイアウト構造を抽出する文書構造抽出コンポーネントであって、前記機械学習を利用して前記文書レイアウト構造の抽出を促進する、文書構造抽出コンポーネントと、
前記文書の視覚構造の要素に対応する複数の一体化イメージを計算し、および前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させる高速フィーチャメカニズムであって、前記複数のコンステレーションは、前記文書における空白についての少なくとも一つの文書フィーチャを含む、高速フィーチャメカニズムと
を実現させることを特徴とするシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/173,280 US8249344B2 (en) | 2005-07-01 | 2005-07-01 | Grammatical parsing of document visual structures |
US11/173,280 | 2005-07-01 | ||
PCT/US2006/026140 WO2007005937A2 (en) | 2005-07-01 | 2006-06-30 | Grammatical parsing of document visual structures |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009500755A JP2009500755A (ja) | 2009-01-08 |
JP5031741B2 true JP5031741B2 (ja) | 2012-09-26 |
Family
ID=37589602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008520352A Active JP5031741B2 (ja) | 2005-07-01 | 2006-06-30 | 文書視覚構造の文法的な解析 |
Country Status (12)
Country | Link |
---|---|
US (1) | US8249344B2 (ja) |
EP (1) | EP1894144A4 (ja) |
JP (1) | JP5031741B2 (ja) |
KR (1) | KR101376863B1 (ja) |
CN (1) | CN101253514B (ja) |
BR (1) | BRPI0613103A8 (ja) |
CA (1) | CA2614177A1 (ja) |
MX (1) | MX2008000180A (ja) |
NO (1) | NO20080090L (ja) |
RU (1) | RU2421810C2 (ja) |
WO (1) | WO2007005937A2 (ja) |
ZA (1) | ZA200800041B (ja) |
Families Citing this family (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9384619B2 (en) | 2006-07-31 | 2016-07-05 | Ricoh Co., Ltd. | Searching media content for objects specified using identifiers |
US8600989B2 (en) | 2004-10-01 | 2013-12-03 | Ricoh Co., Ltd. | Method and system for image matching in a mixed media environment |
US9405751B2 (en) | 2005-08-23 | 2016-08-02 | Ricoh Co., Ltd. | Database for mixed media document system |
US8868555B2 (en) | 2006-07-31 | 2014-10-21 | Ricoh Co., Ltd. | Computation of a recongnizability score (quality predictor) for image retrieval |
US9530050B1 (en) | 2007-07-11 | 2016-12-27 | Ricoh Co., Ltd. | Document annotation sharing |
US8856108B2 (en) | 2006-07-31 | 2014-10-07 | Ricoh Co., Ltd. | Combining results of image retrieval processes |
US8335789B2 (en) * | 2004-10-01 | 2012-12-18 | Ricoh Co., Ltd. | Method and system for document fingerprint matching in a mixed media environment |
US8176054B2 (en) | 2007-07-12 | 2012-05-08 | Ricoh Co. Ltd | Retrieving electronic documents by converting them to synthetic text |
US8510283B2 (en) | 2006-07-31 | 2013-08-13 | Ricoh Co., Ltd. | Automatic adaption of an image recognition system to image capture devices |
US8156115B1 (en) | 2007-07-11 | 2012-04-10 | Ricoh Co. Ltd. | Document-based networking with mixed media reality |
US9171202B2 (en) | 2005-08-23 | 2015-10-27 | Ricoh Co., Ltd. | Data organization and access for mixed media document system |
US8825682B2 (en) | 2006-07-31 | 2014-09-02 | Ricoh Co., Ltd. | Architecture for mixed media reality retrieval of locations and registration of images |
US8838591B2 (en) | 2005-08-23 | 2014-09-16 | Ricoh Co., Ltd. | Embedding hot spots in electronic documents |
US7702673B2 (en) | 2004-10-01 | 2010-04-20 | Ricoh Co., Ltd. | System and methods for creation and use of a mixed media environment |
US8521737B2 (en) | 2004-10-01 | 2013-08-27 | Ricoh Co., Ltd. | Method and system for multi-tier image matching in a mixed media environment |
US8385589B2 (en) | 2008-05-15 | 2013-02-26 | Berna Erol | Web-based content detection in images, extraction and recognition |
US8156116B2 (en) | 2006-07-31 | 2012-04-10 | Ricoh Co., Ltd | Dynamic presentation of targeted information in a mixed media reality recognition system |
US9373029B2 (en) | 2007-07-11 | 2016-06-21 | Ricoh Co., Ltd. | Invisible junction feature recognition for document security or annotation |
US8276088B2 (en) | 2007-07-11 | 2012-09-25 | Ricoh Co., Ltd. | User interface for three-dimensional navigation |
US8369655B2 (en) | 2006-07-31 | 2013-02-05 | Ricoh Co., Ltd. | Mixed media reality recognition using multiple specialized indexes |
US8332401B2 (en) | 2004-10-01 | 2012-12-11 | Ricoh Co., Ltd | Method and system for position-based image matching in a mixed media environment |
US7970171B2 (en) * | 2007-01-18 | 2011-06-28 | Ricoh Co., Ltd. | Synthetic image and video generation from ground truth data |
US8949287B2 (en) | 2005-08-23 | 2015-02-03 | Ricoh Co., Ltd. | Embedding hot spots in imaged documents |
US20060245654A1 (en) * | 2005-04-29 | 2006-11-02 | Microsoft Corporation | Utilizing grammatical parsing for structured layout analysis |
US8249344B2 (en) | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
KR100755678B1 (ko) * | 2005-10-28 | 2007-09-05 | 삼성전자주식회사 | 개체명 검출 장치 및 방법 |
US7577633B2 (en) * | 2005-12-08 | 2009-08-18 | Intellitactics Inc. | Self learning event parser |
US8509563B2 (en) * | 2006-02-02 | 2013-08-13 | Microsoft Corporation | Generation of documents from images |
US8676810B2 (en) | 2006-07-31 | 2014-03-18 | Ricoh Co., Ltd. | Multiple index mixed media reality recognition using unequal priority indexes |
US8489987B2 (en) | 2006-07-31 | 2013-07-16 | Ricoh Co., Ltd. | Monitoring and analyzing creation and usage of visual content using image and hotspot interaction |
US9176984B2 (en) | 2006-07-31 | 2015-11-03 | Ricoh Co., Ltd | Mixed media reality retrieval of differentially-weighted links |
US9020966B2 (en) | 2006-07-31 | 2015-04-28 | Ricoh Co., Ltd. | Client device for interacting with a mixed media reality recognition system |
US9063952B2 (en) | 2006-07-31 | 2015-06-23 | Ricoh Co., Ltd. | Mixed media reality recognition with image tracking |
US7949173B2 (en) * | 2006-10-06 | 2011-05-24 | Siemens Corporation | Method and system for regression-based object detection in medical images |
US8009915B2 (en) * | 2007-04-19 | 2011-08-30 | Microsoft Corporation | Recognition of mathematical expressions |
US8103109B2 (en) * | 2007-06-19 | 2012-01-24 | Microsoft Corporation | Recognizing hand poses and/or object classes |
US8594384B2 (en) * | 2007-11-30 | 2013-11-26 | Hewlett-Packard Development Company, L.P. | Method and system for measuring text-rendering quality |
US8540158B2 (en) * | 2007-12-12 | 2013-09-24 | Yiwu Lei | Document verification using dynamic document identification framework |
US8194933B2 (en) * | 2007-12-12 | 2012-06-05 | 3M Innovative Properties Company | Identification and verification of an unknown document according to an eigen image process |
US8473467B2 (en) | 2009-01-02 | 2013-06-25 | Apple Inc. | Content profiling to dynamically configure content processing |
GB0901351D0 (en) * | 2009-01-28 | 2009-03-11 | Univ Dundee | System and method for arranging items for display |
JP5412903B2 (ja) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
JP5256099B2 (ja) * | 2009-03-31 | 2013-08-07 | 株式会社日立ソリューションズ | 認識パラメータチューニング方法 |
US8385660B2 (en) | 2009-06-24 | 2013-02-26 | Ricoh Co., Ltd. | Mixed media reality indexing and retrieval for repeated content |
US9058331B2 (en) | 2011-07-27 | 2015-06-16 | Ricoh Co., Ltd. | Generating a conversation in a social network based on visual search results |
US8489585B2 (en) * | 2011-12-20 | 2013-07-16 | Xerox Corporation | Efficient document processing system and method |
US9294125B2 (en) * | 2011-12-30 | 2016-03-22 | International Business Machines Corporation | Leveraging language structure to dynamically compress a short message service (SMS) message |
US10025979B2 (en) * | 2012-01-23 | 2018-07-17 | Microsoft Technology Licensing, Llc | Paragraph property detection and style reconstruction engine |
MX2014008560A (es) | 2012-01-23 | 2014-09-26 | Microsoft Corp | Procesador de deteccion de formula. |
WO2014005609A1 (en) | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
US9740768B2 (en) | 2013-01-15 | 2017-08-22 | Tata Consultancy Services Limited | Intelligent system and method for processing data to provide recognition and extraction of an informative segment |
US9031894B2 (en) * | 2013-02-19 | 2015-05-12 | Microsoft Technology Licensing, Llc | Parsing and rendering structured images |
US9330070B2 (en) | 2013-03-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Detection and reconstruction of east asian layout features in a fixed format document |
US9223756B2 (en) | 2013-03-13 | 2015-12-29 | Adobe Systems Incorporated | Method and apparatus for identifying logical blocks of text in a document |
US9898523B2 (en) | 2013-04-22 | 2018-02-20 | Abb Research Ltd. | Tabular data parsing in document(s) |
WO2014204339A1 (en) * | 2013-06-18 | 2014-12-24 | Abbyy Development Llc | Methods and systems that generate feature symbols with associated parameters in order to convert document images to electronic documents |
CN104346615B (zh) * | 2013-08-08 | 2019-02-19 | 北大方正集团有限公司 | 版式文档中复合图的提取装置和提取方法 |
RU2597163C2 (ru) * | 2014-11-06 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Сравнение документов с использованием достоверного источника |
RU2647671C2 (ru) * | 2014-01-15 | 2018-03-16 | Общество с ограниченной ответственностью "Аби Девелопмент" | Сегментация многостолбцового документа |
RU2587406C2 (ru) * | 2014-05-29 | 2016-06-20 | Общество С Ограниченной Ответственностью "Яндекс" | Способ обработки визуального объекта и электронное устройство, используемое в нем |
RU2596600C2 (ru) * | 2014-09-02 | 2016-09-10 | Общество с ограниченной ответственностью "Аби Девелопмент" | Способы и системы обработки изображений математических выражений |
US10360294B2 (en) * | 2015-04-26 | 2019-07-23 | Sciome, LLC | Methods and systems for efficient and accurate text extraction from unstructured documents |
US10509834B2 (en) | 2015-06-05 | 2019-12-17 | Apple Inc. | Federated search results scoring |
US10592572B2 (en) | 2015-06-05 | 2020-03-17 | Apple Inc. | Application view index and search |
US10509833B2 (en) | 2015-06-05 | 2019-12-17 | Apple Inc. | Proximity search scoring |
US10755032B2 (en) | 2015-06-05 | 2020-08-25 | Apple Inc. | Indexing web pages with deep links |
US10621189B2 (en) | 2015-06-05 | 2020-04-14 | Apple Inc. | In-application history search |
RU2613734C1 (ru) * | 2015-10-22 | 2017-03-21 | Общество с ограниченной ответственностью "Аби Девелопмент" | Захват видео в сценарии ввода данных |
US10108856B2 (en) | 2016-05-13 | 2018-10-23 | Abbyy Development Llc | Data entry from series of images of a patterned document |
RU2619712C1 (ru) * | 2016-05-13 | 2017-05-17 | Общество с ограниченной ответственностью "Аби Девелопмент" | Оптическое распознавание символов серии изображений |
US10467464B2 (en) * | 2016-06-07 | 2019-11-05 | The Neat Company, Inc. | Document field detection and parsing |
US11823798B2 (en) | 2016-09-28 | 2023-11-21 | Merative Us L.P. | Container-based knowledge graphs for determining entity relations in non-narrative text |
CN107918782B (zh) * | 2016-12-29 | 2020-01-21 | 中国科学院计算技术研究所 | 一种生成描述图像内容的自然语言的方法与系统 |
US11151472B2 (en) | 2017-03-31 | 2021-10-19 | At&T Intellectual Property I, L.P. | Dynamic updating of machine learning models |
DE202017104380U1 (de) | 2017-07-21 | 2018-10-23 | Big Dutchman International Gmbh | Vorrichtung und Anlage zur Reststoff-Verwertung in der Nutztierhaltung |
US10482162B2 (en) * | 2017-11-30 | 2019-11-19 | International Business Machines Corporation | Automatic equation transformation from text |
US11709854B2 (en) | 2018-01-02 | 2023-07-25 | Bank Of America Corporation | Artificial intelligence based smart data engine |
CN109359286A (zh) * | 2018-09-06 | 2019-02-19 | 华南理工大学 | 一种毕业论文LaTeX模板自动排版的生成方法 |
CN109740434A (zh) * | 2018-11-30 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种文档类文件复杂度判定方法及平台 |
US10824788B2 (en) | 2019-02-08 | 2020-11-03 | International Business Machines Corporation | Collecting training data from TeX files |
US11263209B2 (en) * | 2019-04-25 | 2022-03-01 | Chevron U.S.A. Inc. | Context-sensitive feature score generation |
US11328025B1 (en) | 2019-04-26 | 2022-05-10 | Bank Of America Corporation | Validating mappings between documents using machine learning |
US11783005B2 (en) | 2019-04-26 | 2023-10-10 | Bank Of America Corporation | Classifying and mapping sentences using machine learning |
US11556711B2 (en) | 2019-08-27 | 2023-01-17 | Bank Of America Corporation | Analyzing documents using machine learning |
US11526804B2 (en) | 2019-08-27 | 2022-12-13 | Bank Of America Corporation | Machine learning model training for reviewing documents |
US11423231B2 (en) | 2019-08-27 | 2022-08-23 | Bank Of America Corporation | Removing outliers from training data for machine learning |
US11449559B2 (en) | 2019-08-27 | 2022-09-20 | Bank Of America Corporation | Identifying similar sentences for machine learning |
US11188748B2 (en) | 2019-09-16 | 2021-11-30 | International Business Machines Corporation | Scalable structure learning via context-free recursive document decomposition |
CN114616572A (zh) | 2019-09-16 | 2022-06-10 | 多库加米公司 | 跨文档智能写作和处理助手 |
US11494425B2 (en) * | 2020-02-03 | 2022-11-08 | S&P Global Inc. | Schema-informed extraction for unstructured data |
US11568276B1 (en) | 2021-08-25 | 2023-01-31 | International Business Machines Corporation | Adaptive document understanding |
US20230394221A1 (en) * | 2022-06-06 | 2023-12-07 | Microsoft Technology Licensing, Llc | Converting a portable document format to a latex format |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5235650A (en) | 1989-02-02 | 1993-08-10 | Samsung Electronics Co. Ltd. | Pattern classifier for character recognition |
US5442715A (en) | 1992-04-06 | 1995-08-15 | Eastman Kodak Company | Method and apparatus for cursive script recognition |
JP3013618B2 (ja) | 1992-08-07 | 2000-02-28 | 株式会社デンソー | サイン認識装置 |
JPH06215184A (ja) | 1992-09-17 | 1994-08-05 | Fuji Facom Corp | 抽出領域のラベリング装置 |
WO1994010635A2 (en) | 1992-11-02 | 1994-05-11 | Boston University | Neural networks with subdivision |
US5373566A (en) | 1992-12-24 | 1994-12-13 | Motorola, Inc. | Neural network-based diacritical marker recognition system and method |
US5475768A (en) | 1993-04-29 | 1995-12-12 | Canon Inc. | High accuracy optical character recognition using neural networks with centroid dithering |
DE69431393T2 (de) | 1994-01-13 | 2003-01-23 | St Microelectronics Srl | Anlage zur Bilderkennung alphanumerischen Zeichen |
US5479523A (en) | 1994-03-16 | 1995-12-26 | Eastman Kodak Company | Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets |
US5787194A (en) | 1994-11-08 | 1998-07-28 | International Business Machines Corporation | System and method for image processing using segmentation of images and classification and merging of image segments using a cost function |
US5987171A (en) * | 1994-11-10 | 1999-11-16 | Canon Kabushiki Kaisha | Page analysis system |
US5749066A (en) | 1995-04-24 | 1998-05-05 | Ericsson Messaging Systems Inc. | Method and apparatus for developing a neural network for phoneme recognition |
US5841900A (en) * | 1996-01-11 | 1998-11-24 | Xerox Corporation | Method for graph-based table recognition |
SG49804A1 (en) | 1996-03-20 | 1998-06-15 | Government Of Singapore Repres | Parsing and translating natural language sentences automatically |
JP2996926B2 (ja) | 1997-03-11 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音素シンボルの事後確率演算装置及び音声認識装置 |
US6687404B1 (en) * | 1997-06-20 | 2004-02-03 | Xerox Corporation | Automatic training of layout parameters in a 2D image model |
US6178398B1 (en) | 1997-11-18 | 2001-01-23 | Motorola, Inc. | Method, device and system for noise-tolerant language understanding |
US6633819B2 (en) | 1999-04-15 | 2003-10-14 | The Trustees Of Columbia University In The City Of New York | Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins |
US6542635B1 (en) | 1999-09-08 | 2003-04-01 | Lucent Technologies Inc. | Method for document comparison and classification using document image layout |
US6678415B1 (en) | 2000-05-12 | 2004-01-13 | Xerox Corporation | Document image decoding using an integrated stochastic language model |
US6766320B1 (en) | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
JP2002133389A (ja) | 2000-10-26 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体 |
US7013309B2 (en) | 2000-12-18 | 2006-03-14 | Siemens Corporate Research | Method and apparatus for extracting anchorable information units from complex PDF documents |
US6766316B2 (en) | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
JP4181310B2 (ja) | 2001-03-07 | 2008-11-12 | 昌和 鈴木 | 数式認識装置および数式認識方法 |
WO2002091355A1 (en) | 2001-05-08 | 2002-11-14 | Intel Corporation | High-order entropy error functions for neural classifiers |
EP1262844A1 (en) | 2001-06-01 | 2002-12-04 | Sony International (Europe) GmbH | Method for controlling a man-machine-interface unit |
US20030010992A1 (en) | 2001-07-16 | 2003-01-16 | Motorola, Inc. | Semiconductor structure and method for implementing cross-point switch functionality |
US6996295B2 (en) * | 2002-01-10 | 2006-02-07 | Siemens Corporate Research, Inc. | Automatic document reading system for technical drawings |
US7295966B2 (en) | 2002-01-14 | 2007-11-13 | Microsoft Corporation | System for normalizing a discourse representation structure and normalized data structure |
CA2375355A1 (en) | 2002-03-11 | 2003-09-11 | Neo Systems Inc. | Character recognition system and method |
US7107207B2 (en) | 2002-06-19 | 2006-09-12 | Microsoft Corporation | Training machine learning by sequential conditional generalized iterative scaling |
RU2234126C2 (ru) | 2002-09-09 | 2004-08-10 | Аби Софтвер Лтд. | Способ распознавания текста с применением настраиваемого классификатора |
US7362919B2 (en) | 2002-12-12 | 2008-04-22 | Eastman Kodak Company | Method for generating customized photo album pages and prints based on people and gender profiles |
RU2234734C1 (ru) | 2002-12-17 | 2004-08-20 | Аби Софтвер Лтд. | Способ многоэтапного анализа информации растрового изображения |
EP1450350A1 (en) | 2003-02-20 | 2004-08-25 | Sony International (Europe) GmbH | Method for Recognizing Speech with attributes |
US7197497B2 (en) * | 2003-04-25 | 2007-03-27 | Overture Services, Inc. | Method and apparatus for machine learning a document relevance function |
EP1665128A4 (en) * | 2003-08-21 | 2007-10-17 | Microsoft Corp | ELECTRONIC INK PROCESSING |
US7499588B2 (en) | 2004-05-20 | 2009-03-03 | Microsoft Corporation | Low resolution OCR for camera acquired documents |
US7729538B2 (en) | 2004-08-26 | 2010-06-01 | Microsoft Corporation | Spatial recognition and grouping of text and graphics |
US7698124B2 (en) | 2004-11-04 | 2010-04-13 | Microsoft Corporaiton | Machine translation system incorporating syntactic dependency treelets into a statistical framework |
US20060245654A1 (en) * | 2005-04-29 | 2006-11-02 | Microsoft Corporation | Utilizing grammatical parsing for structured layout analysis |
US20060245641A1 (en) | 2005-04-29 | 2006-11-02 | Microsoft Corporation | Extracting data from semi-structured information utilizing a discriminative context free grammar |
US7639881B2 (en) | 2005-06-13 | 2009-12-29 | Microsoft Corporation | Application of grammatical parsing to visual recognition tasks |
US8249344B2 (en) | 2005-07-01 | 2012-08-21 | Microsoft Corporation | Grammatical parsing of document visual structures |
-
2005
- 2005-07-01 US US11/173,280 patent/US8249344B2/en not_active Expired - Fee Related
-
2006
- 2006-06-30 ZA ZA200800041A patent/ZA200800041B/xx unknown
- 2006-06-30 EP EP06786329A patent/EP1894144A4/en not_active Ceased
- 2006-06-30 CN CN200680031501XA patent/CN101253514B/zh active Active
- 2006-06-30 RU RU2007149074/08A patent/RU2421810C2/ru not_active IP Right Cessation
- 2006-06-30 MX MX2008000180A patent/MX2008000180A/es not_active Application Discontinuation
- 2006-06-30 JP JP2008520352A patent/JP5031741B2/ja active Active
- 2006-06-30 CA CA002614177A patent/CA2614177A1/en not_active Withdrawn
- 2006-06-30 WO PCT/US2006/026140 patent/WO2007005937A2/en active Application Filing
- 2006-06-30 BR BRPI0613103A patent/BRPI0613103A8/pt not_active Application Discontinuation
-
2007
- 2007-12-28 KR KR1020077030734A patent/KR101376863B1/ko active IP Right Grant
-
2008
- 2008-01-07 NO NO20080090A patent/NO20080090L/no not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
MX2008000180A (es) | 2008-04-02 |
US20070003147A1 (en) | 2007-01-04 |
EP1894144A2 (en) | 2008-03-05 |
WO2007005937A2 (en) | 2007-01-11 |
CA2614177A1 (en) | 2007-01-11 |
BRPI0613103A2 (pt) | 2012-01-03 |
RU2421810C2 (ru) | 2011-06-20 |
EP1894144A4 (en) | 2012-12-26 |
WO2007005937A3 (en) | 2007-09-13 |
KR20080026128A (ko) | 2008-03-24 |
JP2009500755A (ja) | 2009-01-08 |
US8249344B2 (en) | 2012-08-21 |
CN101253514B (zh) | 2012-06-13 |
KR101376863B1 (ko) | 2014-03-20 |
ZA200800041B (en) | 2009-08-26 |
NO20080090L (no) | 2008-01-29 |
CN101253514A (zh) | 2008-08-27 |
BRPI0613103A8 (pt) | 2017-01-17 |
RU2007149074A (ru) | 2009-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5031741B2 (ja) | 文書視覚構造の文法的な解析 | |
Ingle et al. | A scalable handwritten text recognition system | |
JP5036152B2 (ja) | フリーフォームデジタルインク注釈認識 | |
Singh | Optical character recognition techniques: a survey | |
US11610084B1 (en) | Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data | |
US11954139B2 (en) | Deep document processing with self-supervised learning | |
Naz et al. | Segmentation techniques for recognition of Arabic-like scripts: A comprehensive survey | |
JP2006073000A (ja) | テキストおよびグラフィクスの空間認識およびグループ化 | |
Malik et al. | An efficient segmentation technique for Urdu optical character recognizer (OCR) | |
US20220292258A1 (en) | Document entity extraction using document region detection | |
Nayak et al. | Odia running text recognition using moment-based feature extraction and mean distance classification technique | |
Sanjrani et al. | Handwritten optical character recognition system for Sindhi numerals | |
Zhang et al. | A symbol dominance based formulae recognition approach for pdf documents | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
Tomovic et al. | Aligning document layouts extracted with different OCR engines with clustering approach | |
Feild | Improving text recognition in images of natural scenes | |
Nieddu et al. | In Codice Ratio: A crowd-enabled solution for low resource machine transcription of the Vatican Registers | |
Ganai et al. | A novel holistic unconstrained handwritten urdu recognition system using convolutional neural networks | |
Carton et al. | Eyes Wide Open: an interactive learning method for the design of rule-based systems | |
Ueki et al. | Survey on deep learning-based Kuzushiji recognition | |
Duth et al. | Recognition of hand written and printed text of cursive writing utilizing optical character recognition | |
Rai et al. | MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices | |
Balasooriya | Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine | |
Islam et al. | An enhanced MSER pruning algorithm for detection and localization of bangla texts from scene images. | |
Bhatia et al. | Word Segmentation for Gujarati Handwritten Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090525 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120301 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120627 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5031741 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150706 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |