JP5031741B2 - 文書視覚構造の文法的な解析 - Google Patents

文書視覚構造の文法的な解析 Download PDF

Info

Publication number
JP5031741B2
JP5031741B2 JP2008520352A JP2008520352A JP5031741B2 JP 5031741 B2 JP5031741 B2 JP 5031741B2 JP 2008520352 A JP2008520352 A JP 2008520352A JP 2008520352 A JP2008520352 A JP 2008520352A JP 5031741 B2 JP5031741 B2 JP 5031741B2
Authority
JP
Japan
Prior art keywords
document
grammatical
analysis
input
visual structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008520352A
Other languages
English (en)
Other versions
JP2009500755A (ja
Inventor
エー.ビオラ ポール
シルマン マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009500755A publication Critical patent/JP2009500755A/ja
Application granted granted Critical
Publication of JP5031741B2 publication Critical patent/JP5031741B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Description

本発明は、文書視覚構造の文法的な解析に関する。
時が経つにつれて、人々は仕事とレジャーの両方の活動でますますコンピュータに依存するようになっている。しかしながら、コンピュータはデジタルドメインで動作しており、情報を処理するためには離散的な状態(discrete states)が識別される必要がある。これは、完全な黒か白かでなく、グレーの階調の間に存在する、明らかなアナログ方式で活動する人間とは正反対である。このように、デジタルとアナログとの重要な相違点は、デジタルは時間的に分離した不連続の状態(たとえば明らかなレベル)を必要とするのに対して、アナログは時間的に連続である。人間は生来アナログ方式で活動するので、コンピューティング技術は前述の時間的分離によってもたらされる人間とコンピュータとのインターフェイス(たとえばデジタルコンピューティングインターフェイス)に関連する困難を軽減するように発展してきた。
技術的には、最初に既存のタイプライターで打った情報または活字の情報をコンピュータに入力する試みに注目が集まった。初めは、スキャナまたは光学的結像器を使用して画像を「デジタル化」した(たとえばイメージをコンピューティングシステムに入力した)。一度イメージをデジタル化してコンピューティングシステムに入力すれば、印刷された資料または活字の資料もデジタル化できるはずである。しかしながら、スキャナで読み込まれたページのイメージは、コンピューティングシステムに持ち込まれた後に、テキストまたは記号として操作することはできない。何故ならば、ページはシステムでは「認識」されない、つまりシステムはページを理解できないからである。文字およびワードは「画像」であり、実際に編集可能なテキストまたは記号ではない。このようなテキストに関する限界を克服するために、スキャン技術を利用してテキストを編集可能なページとしてデジタル化する光学式文字認識(OCR:optical character recognition)技術が開発された。この技術は、スキャナで読み込まれたイメージをOCRソフトウェアが編集可能なテキストに変換できる特定のテキストフォントを使用した場合には、かなり有効に機能する。
テキストはコンピューティングシステムによって「認識」されても、重要な追加の情報はこのプロセスによって失われていた。このような情報には、テキストの書式、テキストの間隔、テキストの向き、および全般的なページレイアウトなどが含まれる。したがって、ページが2段組みで右上に画像がある場合に、OCRがスキャンしたページはワードプロセッサにおけるテキストのグループ分けとなり、2段組みやイメージをグループ分けしない。または、画像が含まれている場合に、画像は通常はテキストの間のランダムな位置に埋め込まれる結果になっていた。このことは、さまざまな文書構成標準が利用されている場合はさらに問題である。典型的なOCR技術では、一般的に他の文書標準からの構造を「変換」することも、こうした構造を正しく認識することもできない。代わりに、認識の結果では認識された部分をその関連標準に限定しようとし、または強制しようとしている。このような場合に、OCRプロセスは通常は認識された部分に「不明(unknown)」を表すマーカー(疑問符など)を入力し、文書のこうしたコンポーネントを処理できないことを示す。
主題となるいくつかの実施形態の態様について基本的な理解が得られるように、本主題の概要について以下で簡単に説明する。以下の説明は、本主題の概要を広範囲にわたって示すものではない。また、本実施形態の重要/不可欠な要素を特定したり、本主題の範囲を線引きするものでもない。その唯一の目的は、後述の実施形態に関する説明の準備として、本主題に関するいくつかの概念を簡略化した形で示すことである。
文法的な解析を使用して文書構造の認識を促進するシステムおよび方法を提供する。文書の2次元的表現を利用して、文書に関する認識を促進する階層構造を抽出する。文書の視覚構造は、統計解析アルゴリズムの2次元の適応(adaptation)を利用して文法的に解析される。このことにより、レイアウト構造(たとえば、段組、著者、タイトル、脚注など)およびその同類の認識が可能になるので、文書の構造コンポーネントを正確に解釈できる。文書のレイアウト認識を促進するために、さらに追加の技術を利用してもよい。たとえば、機械学習を利用する文法的な解析技術、イメージ表現に基づく解析スコアリング、ブースティング技術、および/または「高速フィーチャ(fast features)」などを利用して文書の認識を促進することができる。これにより、精度が大幅に向上した文書の効率的な認識が可能になる。
前述の目的と関連する目的を達成するために、本明細書では実施形態のいくつかの例示的な態様について、以下に示す実施形態と添付の図面に関連付けながら説明する。ただし、このような態様は例を示すものであり、本主題の原理を使用できるさまざまな方法の一部にすぎず、本主題はこうした態様やその同等物をすべて含むことを意図するものである。本主題のその他の利点と新しい機能は、以下に示す実施形態の説明と添付の図面を関連付けて考察することで明らかになるであろう。
ここで、本主題について添付の図面に関連付けながら説明するが、全体を通して同種の要素には同種の参照番号が使用されている。以下の説明において、本主題に関する理解を深めるために、説明を目的として多くの具体的な要素について詳細に説明する。ただし、本主題の実施形態は、以下に示す個々の詳細な要素がなくても実施できることは明らかであろう。他の場合は、本主題の説明を促進するために、周知の構造とデバイスがブロック図の形で示されている。
本出願で使用する限り、「コンポーネント」という用語は、コンピュータ関連の実体を表すものとし、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、実行中のソフトウェアのいずれでもよい。たとえば、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行するスレッド、プログラム、および/またはコンピュータのいずれでもよいが、これらに限定はされない。たとえば、サーバー上で動作するアプリケーションとサーバーはいずれもコンピュータのコンポーネントと言える。実行するプロセスおよび/またはスレッド内に1つまたは複数のコンポーネントが存在してもよい。また、コンポーネントは1台、および/または2台またはそれ以上のコンピューに分散してもよい。「スレッド」は、オペレーティングシステムのカーネルが実行に関してスケジュールするプロセス内のエンティティである。当業者には周知のように、各スレッドはそのスレッドの実行に関連付けられた一時的なデータである関連した「コンテキスト(context)」を有する。スレッドのコンテキストには、そのスレッドのプロセスに属するシステムレジスタの内容および仮想アドレスが含まれる。このように、スレッドのコンテキストを備える実際のデータは、スレッドが実行するにつれて変化する。
視覚構造を利用して文書の認識を促進するシステムおよび方法を提供する。文書に固有の階層構造(たとえば、文書→ページ→セクション→段組→段落など)は、文法に基づく技術を使用する2次元の解析メカニズムを利用して認識される。文法的な解析メカニズムと共に機械学習プロセスをさらに利用することによって、文書認識の効率を大幅に向上でき、なおかつ高い精度も提供できる。さらにイメージスコアリング(Image scoring)技術を利用すると、解析の速度と効率を向上できる。文書の高速フィーチャの選択とブースティング技術による解析学習を利用すると、本システムおよび方法の生産性を向上することもできる。
文法的な解析は、コンピュータ言語と自然言語の処理に利用される。コンピュータ言語の場合は、文法が一義的であり、入力考えると唯一の有効な解析である。自然言語の場合は、文法はあいまいであり、入力シーケンスを考えると、非常に多くの潜在的な解析がある。自然言語の統計的な解析で望ましいのは、機械学習を使用して的確な解析に最高のスコアを割り当てるスコアリング関数(scoring function)を産出することである。本明細書で説明するシステムおよび方法では、視覚構造レイアウトが文法としてモデル化され、文法的コスト関数(grammatical cost function)に基づいて最適な解析のグローバル検索が実行される。機械学習を利用すると、さまざまな視覚構造レイアウトに合わせて、フィーチャを識別して選択し、文法的な解析プロセスのすべてのパラメータを設定できる。
図1は、一実施形態の態様による文書の視覚構造分析システム100を示すブロック図を示す。文書の視覚構造分析システム100は、入力104を受信し、出力106を提供する文書の視覚構造分析コンポーネント102を備えている。文書の視覚構造分析コンポーネント102は、文書の視覚構造レイアウトに関する非生成的(non−generative)な文法モデルを利用して、視覚構造レイアウトに関する最適な解析ツリーの決定を促進する。入力104には、たとえば、文書のページの視覚レイアウトが含まれる。文書の視覚構造分析コンポーネント102は、文書の視覚構造を解析する文法的な解析プロセスを利用して入力104を解析し、出力106を提供する。出力106には、たとえば、文書の視覚構造レイアウトに関する最適な解析ツリーを含めることができる。また、グローバルに学習された「参照(reference)」文法を確立し、追加の文法学習を行う必要なしに、さまざまなタスクの解析ソリューションを提供することもできる。
図2を参照すると、一実施形態の態様による文書の視覚構造分析システム200を示す別のブロック図が示されている。文書の視覚構造分析システム200は、視覚構造入力204を受信し、最適な解析ツリー206を提供する文書の視覚構造分析コンポーネント202を備えている。文書の視覚構造分析コンポーネント202は、文書の視覚構造レイアウトの識別的文法モデル(discriminative grammatical model)を利用する。文書の視覚構造分析コンポーネント202は、受信コンポーネント208と文法コンポーネント210を含む。受信コンポーネント208は、視覚構造入力204を受信し、この204を文法コンポーネント210に中継する。他の例では、受信コンポーネント208の機能を文法コンポーネント210に含ませて、視覚構造入力204を文法コンポーネント210が直接受信できるようにしてもよい。また、文法コンポーネント210は基本的な構造レイアウト文法212も受信する。基本的な構造レイアウト文法212は、文書レイアウトに関する初期的な視覚構造文法フレームワークを提供する。文法コンポーネント210は、視覚構造入力204を解析し、最適な解析ツリー206を取得する。文法コンポーネント210は、文書の視覚構造を解析する文法的な解析プロセスを利用してこれを実現する。文法コンポーネント210は、動的なプログラミングプロセスを使用して最適な解析ツリーをグローバルに決定する。これで、最適な解析ツリー206のローカルに限定された評価が回避され、より優れたグローバルな結果が得られる。
図3を参照すると、一実施形態の態様による文書の視覚構造分析システム300を示すさらに別のブロック図が示されている。文書の視覚構造分析システム300は、視覚構造入力304を受信し、最適な解析ツリー306を提供する文書の視覚構造分析コンポーネント302を備えている。文書の視覚構造分析コンポーネント302は、解析する文書の視覚構造レイアウトの識別的文法モデルを利用する。文書の視覚構造分析コンポーネント302は、受信コンポーネント308と文法コンポーネント310を備えている。文法コンポーネント310は、解析コンポーネント312と文書構造抽出コンポーネント314を備えている。解析コンポーネント312は、視覚構造文法モデル316および文法的コスト関数318を備えている。視覚構造入力304には、たとえば文書ページの視覚レイアウトが含まれる。受信コンポーネント308は、視覚構造入力304を受信し、この304を解析コンポーネント312に中継する。他の例では、受信コンポーネント308の機能を解析コンポーネント312に含ませて、視覚構造入力304を解析コンポーネント312が直接受信できるようにしてもよい。解析コンポーネント312は、最初に視覚構造レイアウト文法320に基づいて視覚構造入力304から文書の視覚構造を解析する。解析コンポーネント312は、文書構造抽出コンポーネント314と対話することにより、特に視覚構造入力304から視覚構造情報を抽出する操作を促進する。
文書構造抽出コンポーネント314は、複雑なローカルおよび/またはグローバルなフィーチャを利用して、解析コンポーネント312が視覚構造入力304を解析することを促進する。文書構造抽出コンポーネント314は、さまざまなオプションのメカニズムを利用して、機械学習322、解析ブースティング324、高速フィーチャ326、イメージスコアリング328、および/またはその他330などを含むがこれに限定はされない解析コンポーネント312による視覚構造レイアウト解析を強化できる。その他330は、解析コンポーネント312を迅速、および/または強化を促進するさまざまな視覚指向のメカニズムおよび/または追加的な効率を表す。
たとえば、機械学習322は文書構造抽出コンポーネント314によって提供されることができ、解析コンポーネント312によるチャートの生成を促進できる。解析コンポーネント312は、チャートを、その後のラベル付きの例のセット(subsequent set of labeled examples)に変換し、分類プロセスに中継される。分類プロセスは、その後のラベル付きの例のセットを機械学習と共に利用して分類器(classifiers)のセットをトレーニングする。ここで、分類プロセスは正の例と負の例の間でプロパティを識別することを決定する。プロパティの識別により、分類器が的確な解析および/または不的確な解析に適正なコストを割り当てることを促進できる。さらに、解析コンポーネント312は視覚構造文法モデル316の文法的コスト関数318の分類器のセットを利用して、その後のラベル付きの例のセットのサブ解析(sub−parses)をスコアリングすることを促進する。このようにして、最適な解析ツリー306が得られるまで(つまり、よりスコアの高い解析ツリーが取得されなくなるまで、またはよりコストの低い解析ツリーが取得されなくなるまで)、プロセスは繰り返し続行される。
同様に、解析ブースティングメカニズム324が解析コンポーネント312に提供されて、的確な解析をより効率的に学習することを促進できる。高速フィーチャメカニズム326が提供され、文書フィーチャの一体化イメージ(integral images)の計算および/または一体化イメージのコンステレーション(constellations)の利用によって解析イメージを計算し、解析の効率を向上することができる。イメージスコアリングメカニズム328は、文法的コスト関数318に関する解析されたイメージのスコアを提供することによって解析を促進できる。こうしたメカニズム322〜330はオプションであり、視覚構造入力304を解析するために必要というわけではない。
文書のページ全体に関する単一の一体化イメージでなく、一体化イメージのコンステレーションを利用する場合には、ページの各要素(たとえば、文字、ワード、および/または行など適宜)について一体化イメージが計算される。重要な文字のみをフィーチャ計算(feature computation)に含めることによって、注目を集めることができる。本明細書で説明するシステムおよび方法では、文書のフィーチャの計算された一体化イメージを利用することも同様にできる。たとえば、大きな空白の矩形、垂直整列の境界ボックス(vertical alignments of bounding boxes)、および/または水平整列のテキスト行(horizontal alignments of text lines)などのような文書のフィーチャを利用できる。
このように、一体化イメージを利用することによって、イメージ矩形内の白と黒のピクセル数を迅速に計算できる。あるイメージに関する一体化イメージの計算は費用がかかるが、いったん計算されると矩形の合計を迅速に計算できる。オブジェクト(イメージの内部でも外部でもよい)のセットが与えられた場合は、イメージからレンダリングできる指数関数的な数のイメージ(累乗集合(power set)P(N))が存在する。これらのイメージをレンダリングし、レンダリングされた各イメージについて矩形の合計を計算するには莫大な費用がかかる。したがって、代わりに、個々のオブジェクトについて一体化イメージがレンダリングされ、「一体化イメージのコンステレーション」として表される。このように、イメージの任意の部分集合に関する矩形の合計は、コンステレーションからの矩形の合計である。
<2次元の解析>
多くの競合する解析アルゴリズムが存在するが、1つのシンプルだが一般的なフレームワークは「チャート解析(chart parsing)」と呼ばれている(M. Kay, 「Algorithm schemata and data structures in syntactic processing」, pp.35-70, 1986 参照)。チャート解析は、チャートC(A,R)のエントリを入力しようとする。各エントリには、非終端(non−terminal)Aの最高スコアが終端Rの部分列(sub−sequence)の解釈(interpretation)として格納される。任意の非終端のコストは、次の再帰によって表現できる。
Figure 0005031741
ここで、{BC}はAに関するすべてのプロダクション(production)全体にわたって変動し、Rは終端の部分列(「領域(region)」として表される)、およびRとRは互いに素な(disjoint)部分列であり、その結合(union)はRである(つまり「パーティション(partition)」を構成する)。本質的に、再帰は終端の2つの互いに素なセットへの低コストの分解(decomposition)を検出することによってAに関するスコアが計算されることを表している。各プロダクションには、表内のコスト(もしくは損失または負の対数確率(log probability)) l(A→BC)が割り当てられる。チャート内のエントリ(エッジ(edges)と呼ばれることもある)には、上から下または下から上に任意の順序で入力できる。解析プロセスの複雑性は、入力が必要なチャートエントリの数と、各エントリに入力するために必要な作業とによって発生する。P個の非終端を含む文法を使用してN個の終端による線形的配列(linear sequence)を解析するときに構成されたチャートには、O(PN)個のエントリが含まれる(
Figure 0005031741
個の隣接する部分列、{i,j}が存在する。ここで0≦i<j、かつj<N)。各エントリの入力に必要な作業はO(N)なので、全体的な複雑性はO(PN)である。
残念ながら、終端の2次元の配列に対するチャート解析の直接的なアプリケーションには、指数関数的な時間を必要とする。重要な問題は、終端が線形的配列順序(linear sequential order)を有していないことである。式(1)に戻ると、ここで領域Rは部分集合である。そして、RとRは互いに素であり、その結合がRとなる(つまり、パーティションを構成する)部分集合である。チャートのサイズは分析できる。つまり、O(P|P(N)|)である。ここで、P(N)はN個の終端のすべての部分集合の集合である。指数関数的な数の部分集合が存在するので、このアルゴリズムは指数関数的である。
Hullは、コストの幾何学的コンポーネントが非常に高い場合に検索を取り除く幾何学的な基準を導入した(J. F. Hull, 「Recognition of mathematics using a two-dimensional trainable context-free grammar」, Master's thesis, MIT, June 1996 参照)。MillerとViolaは、chull(R)∩R=φ または chull(R)∩R=φ に反する領域R、Rを拒否する凸包に基づく発見的な方法を導入した(E. G. Miller and P. A. Viola, 「Ambiguity and constraint in mathematical expression recognition」, in Proceedings of the National Conference of Artificial Intelligence, American Association of Artificial Intelligence, 1998 参照)。各集合はページの凸領域内にあるため、このような集合を領域と呼ぶのは適切である。注目されるのは、終端が行に沿って存在する(したがって、厳密な線形の順序がある)場合には、凸包の基準によってO(N)個の領域が生成される。これは、従来の解析で使用された線形的配列と同等である。
凸包の制約をその他の幾何学的な制約と同様に利用することにより、解析実行中に考慮された部分集合の集合を大幅に縮小できる。これらの制約を組み合わせることにより、印刷された文書のほとんどのタイプについて、O(N)の複雑性が得られる。
<文書のレイアウト分析>
文書レイアウト分析の1つの目的は、スキャンされた文書を、LaTeXおよび/またはワードプロセッサなどの文書作成(preparation)プログラム用の完全に編集可能な入力ファイルに変換するために必要な情報を決定することである。スキャンされたファイルに含まれるテキストはOCRを使用して容易に抽出できるが、こうした情報は容易に編集できるファイルを作成するために十分ではない。段落の境界、段組、行揃え、より重要な読み取りの流れ(reading flow)などの付加的な情報も必要である。こうした文書構造の情報は、多くの場合にPDF(portable document files)やPostscriptファイルからも失われる。スキャン、PDF、および/またはPostscriptであれ何であれ、文書構造の情報を追加することにより、ページ番号の再割り当て、書式の再設定、および/または編集などが可能な生きた文書が得られる。したがって、こうした機能によって文書の有用性は大幅に向上する。
文書作成プログラムでは、多くの場合に印刷されたページをセクションに分割する。各セクションにはいくつかの段組が含まれ、各段組にはいくつかの段落が含まれる。こうした再帰的な構造は、以下の表1に文法として示されている。こうした構造に関する知識は、スキャンされた文書から編集可能なファイルを正確に作成するために十分である。
Figure 0005031741
UWIII文書イメージデータベースを使用して試験が実施されている(I. Philips, S, Chen, and R. Haraliek, 「Cd-rom document database standard」, in Proceedings of 2nd International Conference on Document Analysis and Recognition, 1993 参照)。このデータベースは、スキャンされた文書を、行、段落、領域、および読み取り順序に関する属性情報(ground truth)と共に格納している。図4には、UWIIIデータベースのページの例400が示されている。解析アルゴリズムへの入力は、行の境界ボックス(bounding boxes)(たとえば、段落の境界ボックス402および行の境界ボックス404)である。出力は、セクション/段組/段落への階層的な分解である。多くの文書では、属性情報のラベルは前述の文法に容易に変換される。トレーニングと評価は、研究論文、書籍、および雑誌のページを含む60の文書を使って実施された。
<印刷された数学の解釈>
学術研究団体では、ほとんどすべての新しい論文がPDFとPostscriptのいずれかで入力可能になっている。このような書式は、印刷には便利であるが、容易な再利用または書式の再設定には対応していない。1つの明白な例は、数式が含まれている文書である。数式は、容易に抽出、編集、または検索することができない。それ以外の例には、表、脚注、参考文献(bibliographies)などがある。科学関係の出版物の実質的な標準はLaTeXである。この理由の一部として、LaTeXは強力かつ高品質の数学のレイアウトを提供することがある。PDF文書もPostscript文書も、オリジナルを生成するために使用したLaTeXの式を再構築するために必要な情報を提供しない。
LaTeX文書のトレーニングのセットが与えられた場合は、LaTeXマクロのセットを使用して、文書のレンダリングプロセスを「ツール(instrument)」にできる。その結果は、ツール化されたデバイスに依存しない(DVI:device independent)ファイルのセットであり、これを処理することによって、ページ上の文字の境界ボックスと、対応するLaTeXの式とを抽出できる。ArXivプレプリント(pre−print)サーバーから利用可能なLaTeXファイルのセットにこのようなマクロが適用されている(図5.数式の認識をトレーニングするための式の例500を参照)。
後処理が終わると、トレーニングデータは式の集まりであり、各式は適切に構成された終端の構文ツリーである。このようなツリーは、文法のプロダクションを入力ツリーから直接確認できるので、文法を直接誘導する(induce)機会を提供する(こうした文法は、多くの場合に「ツリーバンク(tree−bank)」文法と呼ばれる)。誘導された文法は、以下の表2に示されている。文法の終端は含まれておらず、非終端RawItemによって表されていることに留意されたい。RawItemのセットは、数式を構成する文字、数字、および記号である。文法の終端は、黒インクの基本的な接続コンポーネントである。
Figure 0005031741
数学的な解析に関する他の作業とは異なり、解釈を開始する前に終端がセグメントに分割され、認識されていることは想定されない。終端の認識は、解析プロセスの一体化された要素である。個々の記号のタイプには、終端のプロダクションを説明する文法規則が関連付けられている。たとえば、(Rawltem→EQUALS)と(EQUALS→CCI CC2)は、「等号(equals sign)」が接続コンポーネントのペアで構成されることを表している。EQUALSプロダクションに関連するコスト関数は、外観が"="である接続コンポーネントのペアに低いコストを割り当てるように学習する必要がある。この問題の全体的な設定は、機械的にシンプルである。文法はLaTeXファイルの例から作成され、フィーチャは以下に定義する一般的に価値のある大規模なフィーチャのセットから自動的に選択される。
<フィーチャ>
プロダクションスコアリング関数の学習に使用するフィーチャは、一般にさまざまなタスクに適用でき、有効である。幾何学的な境界ボックスフィーチャのセットは、コンポーネントの位置合わせ(alignment)の測定に有効なことが証明されている。第1のタイプは、集合R、R、およびRの境界ボックスに関連する。これは、ページ座標内でボックスの角の位置X、Y、およびサイズW、Hを測定する。合計360の測定フィーチャがあり、{m(R)}で表される。第2のフィーチャセットは組み合わせであり、ボックス測定フィーチャのすべてのペアを関連付ける。つまり、g(m(R),m(R))である。ここで、aとbは{0,1,2}であり、関数gは加算、減算、乗算、除算、最小値、最大値のいずれでもよい。第3のフィーチャセットは、この領域に含まれる終端の境界ボックスのプロパティを測定する。これには、すべての領域の終端について評価された、いくつかの測定フィーチャの最小値、最大値、平均、標準偏差(standard deviation)、および中央値(median)が含まれる。
さらに、外観に基づいて領域を識別するように設計された大規模なパターン認識フィーチャのセットがある。このようなフィーチャは、領域内の終端のレンダリングイメージに作用する。図6には、数式602のイラスト600が示されている。解析中に、式Z 604が検出されて解釈が必要になる。プロダクションスコアリングプロセスへの入力として使用される4つのレンダリングイメージ606が図示されている。終端自体を外観に基づいて認識しなければならない場合には、視覚的フィーチャが必要である。ViolaとJonesによって提案された矩形のフィーチャが使用されている(P. Viola and M. Jones, 「Rapid object detection using a boosted cascade of simple features」, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2001 参照)。これは計算の効率がよく、さまざまなタスクに有効であることが証明されている。個々の入力イメージは、位置とスケールにおいて均一にサンプリングされた121個の単一矩形フィーチャで表現されている。より難解なイメージ認識タスクにははるかに大規模な集合が使用されているが、このようなタスクにはこれで十分であることがわかる。
幾何学的正規化(Geometric normalization)は、イメージ分類関数を構築する場合の重要な問題である。この場合は、Rのサイズと位置を正規化する参照フレームが選択される。目標は、Rが視覚イメージの80%を満たすことである。RとRの終端は、この座標フレーム内でレンダリングされている。これで、RとRの相対的な位置に関する情報を含む入力イメージがイメージフィーチャに提供される。したがって、たとえばRが添え字の場合は、そのレンダリングされたコンポーネントの位置は参照フレームの下の方になる。最終的に、文書全体の終端はRの参照フレーム内でレンダリングされるが、スケールははるかに小さい。このイメージは文書の「コンテキスト」をコード化し、これを使用して特定のタイプのローカルなあいまい性の除去を実行できる。
解析実行中に、各潜在的な領域と部分領域はイメージのセットとしてコード化される。多くの領域がある場合は、イメージの再スケーリングを含むイメージのコード化プロセスは、真に膨大な計算になる。こうした計算を回避するために、ViolaとJonesが導入した一体化イメージの表現を採用し、コストを増加せずに任意のスケールで矩形のフィルタを計算する。
<例>
前述のフィーチャを使用して、2セットの試験が実行されている。文法パラメータ学習の全体的なプロセスは、以下の表3で説明されている。学習の各ラウンドで、意思決定スタンプ(decision stumps)に関するAdaBoostが使用されている。これは、複雑性を制御するための非常にシンプルなメカニズムを提供する(早期中止)。また、ブースティングの各ラウンドで単一のフィーチャに関連付けられた単一のスタンプを選択するので、フィーチャ選択のメカニズムも提供する。
Figure 0005031741
トレーニングの早期のラウンドでは、最終的な分布(distribution)を表さない例が検出される可能性が高いので、AdaBoostは予定どおりに実行され、複雑性が増す。ブースティングの最初のラウンドで、2つの弱い分類器が選択される。第2ラウンドでは4つ、第3ラウンドでは8つの分類器がそれぞれ選択される。その後、解析の各ラウンドで8つの分類器(したがって8つのフィーチャ)が選択される。
解析結果の評価は、重要な技術である。完ぺきなシステムは存在しないので、ほとんど適切な解析の品質を定量化する基準を定義することが重要である。1つのスキーマは、各タイプのプロダクションの再現率(recall)と精度(precision)を測定することである。属性情報には、各プロダクションの多くの例が含まれる。各プロダクションが正確に識別されるときのパーセンテージは再現率である。学習された文法によって、入力例のそれぞれについて解析が得られる。このようなプロダクションが適切な解析に対応する件数のパーセンテージが精度である。
UWIII文書のデータベースには、相互検証の3つのラウンドで80〜20に分割される57個のファイルが含まれる(表4を参照。つまり、平均はすべてのプロダクションに関する平均パフォーマンスである。重み付きの平均は、検出された例の数に基づいて平均に重みを割り当てる)。トレーニングセットに関するパフォーマンスはほとんど完ぺきであるのに対して、テストセットに関するパフォーマンスは十分ではあるが完ぺきにはほど遠い。より大規模なトレーニングセットおよび/またはフィーチャ表現の変更によって、一般化を改善できる。文書ドメインと数式ドメインの両方について、80の終端を伴う一般的な入力を、1GBのRAMを備える1.7GHz Pentium(登録商標)4で解析した場合に、約30秒かかる。
Figure 0005031741
数式データベースには、180の式と51の種々の数学記号(λやδなど)を使用した文法が含まれている。結果は以下の表5に示されている。
Figure 0005031741
本システムおよび方法の事例は、印刷された文書のコンポーネントを同時に分割し認識することを学習できる分析のフレームワークを提供する。このフレームワークはきわめて一般的であり、その中で解析プロセスのすべてのパラメータはトレーニングの例のデータベースを使用して設定される。本フレームワークの有効性と一般性は、2つのアプリケーション、すなわちページレイアウト構造抽出および数式認識を提示することによって例証されている。第1のケースでは、このアルゴリズムへの入力はページの行の集まりであり、出力はセクション、段組、および段落構造である。第2のケースでは、入力はページ上の接続コンポーネントの集まりであり、出力は入力の再生に必要な認識された数学記号とLaTeXコードのセットである。最終的なシステムは全く異なるが、正確な認識システムを構築するために必要な学習および解析プロセスへの変更は非常に少ない。
以上に示し、説明した例示的なシステムの観点で、本実施形態によって実装できる方法は、図7と8の流れ図を参照することでより適切に評価されるであろう。説明を簡単にするために、本方法は一連のブロックとして図示され、説明されているが、本実施形態がこのブロックの順序に限定されないことを理解されたい。たとえば、いくつかのブロックは、1つの実施形態によれば、異なる順序で実行することも、かつ/またはここで図示され、説明される他の動作と同時に実行することもできる。また、本実施形態による方法を実装するために、図示されたすべてのブロックが必要なわけではない。
本実施形態については、1つまたは複数のコンポーネントで実行されるコンピュータ実行可能命令(たとえばプログラムモジュール)の一般的なコンテキストで説明できる。一般に、プログラムモジュールには、ルーチン、プログラム、オブジェクト、データ構造などがあり、特定のタスクを実行するものや、特定の抽象データ型を実装するものも含まれる。一般に、プログラムモジュールの機能は必要に応じてさまざまな実施形態の事例で結合したり分散したりすることができる。
図7には、1つの実施形態の態様による文書の視覚構造分析を促進する方法700の流れ図が示されている。方法700が開始されると(702)、文書の視覚構造に関連する入力を受信する(704)。それから、文書の視覚構造の推定に文法的な解析プロセスが適用され(706)、流れ図は終了する(708)。文法的な解析プロセスには、機械学習などを利用して文法的コスト関数を促進する分類器を構築するプロセスを含めてもよいが、これに限定はされない。機械学習には、従来の機械学習の技術(たとえば、パーセプトロンベースの技術など)を含めてもよいが、これに限定はされない。
図8を参照すると、1つの実施形態の態様による文書の視覚構造分析を促進する方法の別の流れ図が示されている。方法800が開始されると(802)、文書の視覚構造に関連する入力を受信する(804)。それから、複雑なローカルフィーチャおよび/またはグローバルフィーチャを利用して、入力から文書の視覚構造が抽出され(806)、流れ図は終了する(808)。機械学習、解析ブースティング、高速フィーチャ、および/またはイメージスコアリングなどを含むがこれに限定はされないさまざまなオプションのメカニズムを利用して、視覚構造の抽出を強化できる。たとえば、機械学習は解析によるチャートの生成を促進できる。そして、チャートはその後のラベル付きの例のセットに変換でき、これが分類プロセスに中継される。分類プロセスは、その後のラベル付きの例のセットを機械学習と共に利用して分類のセットをトレーニングできる。そして、分類プロセスは正の例と負の例との間でプロパティの識別を決定できる。プロパティの識別により、分類器は適切な解析および/または不適切な解析に適切なコストを割り当てる操作を促進できる。
同様に、解析プロセスに解析ブースティングが提供され、適切な解析をより効率的に学習する操作を促進できる。高速フィーチャプロセスが提供され、文書のフィーチャの一体化イメージを計算することおよび/または解析の効率を向上する一体化イメージのコンステレーション(constellations)を利用することによって解析イメージを計算できる。イメージスコアリングプロセスは、解析に使用されるコスト関数に関する解析されたイメージのスコアを提供することによって、解析を促進できる。
本実施形態のさまざまな態様を実装するための付加的なコンテキストを示すために、図9と以下の説明は、本実施形態のさまざまな態様を実装できる適切なコンピューティング環境900について簡単かつ一般的に説明することを目的としている。本実施形態について、ローカルコンピュータおよび/またはリモートコンピュータで実行するコンピュータプログラムのコンピュータで実行可能な命令の一般的なコンテキストで説明してきたが、本実施形態を他のプログラムモジュールと組み合わせても実装できることを当業者は理解されたい。一般に、プログラムモジュールには、ルーチン、プログラム、コンポーネント、データ構造など、特定のタスクを実行するものおよび/または特定の抽象データ型を実装するものがある。さらに、本発明による方法が、シングルプロセッサまたはマルチプロセッサによるコンピュータシステム、ミニコンピュータ、メインフレームコンピュータ、ならびにパーソナルコンピュータ、ハンドヘルドコンピューティングデバイス、マイクロプロセッサベースの家電製品および/またはプログラム可能な家電製品など、それぞれが1台または複数台の関連デバイスと通信して動作できる他のコンピュータシステム構成でも実施できることは、当業者には理解されるであろう。本実施形態の図示された態様は、通信ネットワークを介してリンクするリモートプロセッシングデバイスで特定のタスクを実行する分散コンピューティング環境でも実施できる。ただし、本実施形態のすべてではないがいくつかの態様は、スタンドアロンコンピュータで実施できる。分散コンピューティング環境では、プログラムモジュールをローカルおよび/またはリモートのメモリストレージデバイス内に配置してもよい。
本出願で使用する限り、「コンポーネント」という用語は、コンピュータ関連の実体を表すものとし、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、実行中のソフトウェア(software in execution)のいずれでもよい。たとえば、コンポーネントは、プロセッサで実行するプロセス、プロセッサ、オブジェクト、実行可能ファイル、実行中のスレッド、プログラム、およびコンピュータのいずれでもよいが、これらに限定はされない。たとえば、サーバー上で動作するアプリケーションおよび/またはサーバーはいずれもコンポーネントと言える。さらに、コンポーネントには1つまたは複数のサブコンポーネントを含めてもよい。
図9を参照すると、本実施形態のさまざまな態様を実施するための例示的なシステム環境900には、プロセッシングユニット904、システムメモリ906、およびシステムメモリからプロセッシングユニット904までのさまざまなシステムコンポーネントを接続するシステムバス908を含む従来のコンピュータ902の形をとる汎用コンピューティングデバイスが含まれる。プロセッシングユニット904は、市販のさまざまなプロセッサまたは自社開発のプロセッサのいずれでもよい。さらに、プロセッシングユニットは複数のプロセッサ(たとえば、パラレルに接続されてもよい)で構成されるマルチプロセッサとして実装されてもよい。
システムバス908は、たとえば、PCI、VESA、Microchannel、ISA、EISAなど市販のさまざまなバスアーキテクチャの任意の1つを使用したメモリバスまたはメモリコントローラ、周辺バス、ローカルバスを含む各種バス構造のいずれでもよい。システムメモリ906には、読み取り専用メモリ(ROM:read only memory)910とランダムアクセスメモリ(RAM:random access memory)912が含まれる。起動時などにコンピュータ902内のエレメント間の情報転送を支援する基本ルーチンを含む基本入出力システム(BIOS:basic input/output system)914は、ROM 910に格納される。
コンピュータ902には、たとえば、ハードディスクドライブ916、取り外し可能なディスク920に対する読み出しまたは書き込みを行う磁気ディスクドライブ918、CD−ROMディスク924または他の光媒体に対する読み出しまたは書き込みを行う光ディスクドライブ922がさらに含まれていてもよい。ハードディスクドライブ916、磁気ディスクドライブ918、および光ディスクドライブ922は、それぞれハードディスクドライブインターフェイス926、磁気ディスクドライブインターフェイス928、および光ディスクドライブインターフェイス930を介してシステムバス908に接続する。ドライブ916〜922とこれに関連付けられたコンピュータ可読媒体は、データ、データ構造、コンピュータ902のコンピュータ実行可能命令を格納する不揮発性ストレージとして利用できる。前述のコンピュータ可読媒体の説明は、ハードディスク、取り外し可能な磁気ディスク、およびCDを表しているが、例示的な動作環境900では、磁気カセット、フラッシュメモリカード、デジタルビデオディスク(DVD:digital video disk)、Bernoulli(ベルヌーイ)カートリッジなど、その他のコンピュータ可読媒体も利用でき、さらにこうした任意の媒体に本実施形態の方法を実行するためのコンピュータ実行可能命令を格納できることを当業者は理解されたい。
オペレーティングシステム932、1つまたは複数のアプリケーションプログラム934、その他のプログラムモジュール936、およびプログラムデータ938を含む多くのプログラムモジュールは、ドライブ916〜922およびRAM 912に格納できる。オペレーティングシステム932は、適切なオペレーティングシステムのいずれかでもよい。または、オペレーティングシステムの組み合わせでもよい。例として、アプリケーションプログラム934およびプログラムモジュール936には、1つの実施形態の態様による認識スキーマを含めてもよい。
ユーザーは、キーボード940やポインティングデバイス(たとえばマウス942)などの1つまたは複数のユーザー入力デバイスを使用してコンピュータ902にコマンドや情報を入力できる。他の入力デバイス(図示せず)には、マイクロフォン、ジョイスティック、ゲームパッド、サテライトディッシュ、無線リモート(wireless remote)、スキャナなどを含めてもよい。これらの入力デバイスおよび他の入力デバイスは、多くの場合、システムバス908に接続するシリアルポートインターフェイス944を介してプロセッシングユニット904に接続するが、パラレルポート、ゲームポート、USB(universal serial bus)のような他のインターフェイスで接続してもよい。モニター946または他のタイプの表示デバイスも、ビデオアダプタ948のようなインターフェイスを介してシステムバス908に接続される。コンピュータ902には、モニター946以外にスピーカーやプリンタなどの周辺出力デバイス(図示せず)が接続されていてもよい。
コンピュータ902は、1台または複数台のリモートコンピュータ960への論理接続を使用してネットワーク環境で動作できることを理解されたい。リモートコンピュータ960は、ワークステーション、サーバーコンピュータ、ルーター、ピアデバイス、または他の一般的なネットワークノードのいずれでもよい。通常は、コンピュータ902に関連して上で説明したエレメントの多くまたはすべてが含まれるが、簡単にするために、図9にはメモリストレージデバイス962のみを示す。図9に示す論理接続には、ローカルエリアネットワーク(LAN:local area network)964とワイドエリアネットワーク(WAN:wide area network)966を含めてもよい。このようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネット、およびインターネットではきわめて一般的である。
LANネットワーキング環境で使用する場合に、たとえばコンピュータ902はローカルネットワーク964にネットワークインターフェイスまたはアダプタ968を介して接続する。WANネットワーキング環境で使用する場合は、一般的にコンピュータ902はモデム(たとえば、電話、DSL、ケーブルなど)970を備えているか、LAN上の通信サーバーに接続する。あるいは、インターネットなどのWAN 966を介して通信を確立するその他の手段を備えている。モデム970(コンピュータ902に内蔵でも外付けでもよい)は、シリアルポートインターフェイス944を介してシステムバス908に接続される。ネットワーク環境では、プログラムモジュール(アプリケーションプログラム934を含む)および/またはプログラムデータ938は、リモートメモリストレージデバイス962に格納できる。図示されたネットワーク接続は例示的なものであり、1つの実施形態の態様を実施する場合に、コンピュータ902および960間の通信リンクを確立する他の手段(たとえば有線または無線)を使用してもよいことは理解されるであろう。
本実施形態について、コンピュータプログラミング業者の実施に従って、他に指定がない限り、コンピュータ902またはリモートコンピュータ960のようなコンピュータが実行する動作(acts)およびオペレーションのシンボリック表現(symbolic representations of operations)に関して説明してきた。このような動作やオペレーションは、コンピュータで実行されると表現されることもある。動作およびオペレーションのシンボリック表現には、結果として電子信号表現の変換または還元(reduction)を得るデータビットを表す電子信号のプロセッシングユニット904による操作、およびコンピュータシステムのオペレーションを再構成または変更するメモリシステム(システムメモリ906、ハードドライブ916、フロッピー(登録商標)ディスク920、CD−ROM 924、およびリモートメモリ962を含む)におけるメモリロケーションのデータビットの保守、およびその他の信号処理が含まれることは理解されるであろう。こうしたデータビットが保持されるメモリロケーションは、データビットに対応する特定の電子的、磁気的、光学的な特性を有する物理ロケーションである。
図10は、いくつか実施形態が対話できるコンピューティング環境の例1000を示す別のブロック図である。システム1000は、1台または複数台のクライアント1002を含むシステムをさらに示している。クライアント1002は、ハードウェアおよび/またはソフトウェア(たとえばスレッド、プロセス、コンピューティングデバイス)でよい。システム1000には、1または2以上のサーバー1004も含まれる。サーバー1004も、ハードウェアおよび/またはソフトウェア(たとえばスレッド、プロセス、コンピューティングデバイス)でよい。クライアント1002とサーバー1004の間で可能な1つの通信の例は、2つ以上のコンピュータプロセス間で送信できるデータパケットの形をとってもよい。システム1000は、クライアント1002とサーバー1004の間の通信を促進するために使用できる通信フレームワーク1008を備えている。クライアント1002は、クライアント1002のローカルな情報を格納するために使用できる1つまたは複数のデータストレージ1010に接続する。同様に、サーバー1004はサーバー1004のローカルな情報を格納するために使用できる1つまたは複数のデータストレージ1006に接続して機能する。
本実施形態のシステムおよび/または方法は、認識を促進するコンピュータコンポーネントでも、コンピュータ以外の関連コンポーネントでも同様に利用できることを理解されたい。さらに、本実施形態のシステムおよび/または方法は、コンピュータ、サーバー、および/またはハンドヘルド電子デバイスなどを含むさまざまな電子関連技術に利用できることを当業者は理解するであろう。
以上の説明には、本実施形態の例が含まれる。本実施形態について説明するために、コンポーネントまたは方法のあらゆる組み合わせについて説明するのはもちろん不可能であるが、他にも本実施形態の多くの組み合わせや置き換えが可能であることは当業者には理解できるであろう。したがって、本主題には添付の特許請求の精神と範囲を逸脱しない代替、変更、変形のすべてが含まれるものとする。さらに、発明の実施の形態と特許請求の範囲のいずれかで使用する「含む」という用語およびその変形の範囲は、「備える」が特許請求の範囲で暫定的な用語として使用された場合に解釈される用語「備える」と同様に包括的な意味を表す。
一実施形態の態様による文書の視覚構造分析システムを示すブロック図である。 一実施形態の態様による文書の視覚構造分析システムを示す別のブロック図である。 一実施形態の態様による文書の視覚構造分析システムを示すさらに別のブロック図である。 一実施形態の態様によるUWIIIデータベースからのページの一例を示す図である。 一実施形態の態様による数式認識システム(mathematical expression recognizer)のトレーニングに使用される式の一例を示す図である。 一実施形態の態様による1つの数式を示す図である。 一実施形態の態様による文書の視覚構造分析を促進する方法を示す流れ図である。 一実施形態の態様による文書の視覚構造分析を促進する方法を示す別の流れ図である。 一実施形態が機能できる動作環境の一例を示す図である。 一実施形態が機能できる動作環境の別の例を示す図である。

Claims (16)

  1. 文書レイアウト構造の認識を促進するシステムであって、
    前記システムは、コンピュータ実行可能コンポーネントを実行するプロセッサを備え、
    前記コンポーネントは、
    文書の視覚構造に関連する入力を受信する受信コンポーネントと、
    少なくとも部分的に前記文書の視覚構造の識別的文法的階層構造モデルを利用して、複数の文法規則を前記文書の視覚構造において識別される複数の記号のタイプに関連付けることによって前記入力の文法的な解析を促進する文法コンポーネントであって、前記文法規則は、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含み、前記識別的文法的階層構造モデルは、前記文書のページ、セクション、段組、段落、行、著者、タイトル、脚注、または単語のうちの少なくとも一つに関連付けられる階層情報を含み、前記入力の文法的な解析は、少なくとも部分的には文法的コスト関数に基づいて行われ、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、文法コンポーネント
    を備え
    前記入力の文法的な解析は、
    前記文書の視覚構造を複数の一体化イメージとして表すことと、
    前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させることであって、前記複数のコンステレーションは、少なくとも一つの空白の矩形についての文書フィーチャを含む、ことと、
    前記複数の一体化イメージをスコアリングして前記最適な解析ツリーの決定において前記文法的コスト関数を促進することと
    を含むことを特徴とするシステム。
  2. 前記文法コンポーネントは、ローカルフィーチャまたはグローバルフィーチャの少なくとも一つを利用して前記文書に関連するレイアウト構造を抽出する文書構造抽出コンポーネントをさらに備えることを特徴とする請求項1に記載のシステム。
  3. 前記文書構造抽出コンポーネントはイメージスコアリング、解析学習ブースティング、または高速フィーチャの少なくとも一つを利用して前記文書レイアウト構造の抽出を促進することを特徴とする請求項2に記載のシステム。
  4. 前記文法コンポーネントは、少なくとも1つの分類器を使用してグローバル検索からの最適な解析ツリーの決定を促進する解析コンポーネントをさらに備えることを特徴とする請求項に記載のシステム。
  5. 前記解析コンポーネントは、前記分類器を使用して文法的コスト関数の決定を促進することを特徴とする請求項4に記載のシステム。
  6. 前記分類器は、従来の機械学習技術を介してトレーニングされた分類器を備えることを特徴とする請求項5に記載のシステム。
  7. 前記機械学習技術は、少なくとも部分的にパーセプトロンベースの技術を備えることを特徴とする請求項6に記載のシステム。
  8. 前記文法コンポーネントは、少なくとも部分的に動的プログラミングを使用して前記入力についてのグローバルに最適な解析ツリーを決定することを特徴とする請求項1に記載のシステム。
  9. 文書レイアウト構造の認識を促進する方法を行うためのコンピュータ実行可能命令を格納するコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータ実行可能命令は、コンピュータによって実行されると、コンピュータに、
    文書の視覚構造に関連する入力を受信するステップと、
    文法的な解析プロセスを前記文書の視覚構造の推定に適用するステップであって、前記文書の視覚構造の推定は、前記文書の推定されたページ、セクション、段組、段落、行、または単語のうちの少なくとも一つを含み、文法規則に基づく前記文法的な解析プロセスは、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含む、ステップ
    を備える方法を実行させ、
    前記文法的な解析プロセスは、
    少なくとも部分的に文法的コスト関数に基づいて前記入力を解析することであって、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、ことと、
    前記文書の視覚構造を複数の一体化イメージとして表すことと、
    前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させることであって、前記複数のコンステレーションは、少なくとも一つの空白の矩形についての文書フィーチャを含む、ことと、
    前記複数の一体化イメージをスコアリングして前記最適な解析ツリーの決定において前記文法的コスト関数を促進することと
    を含むことを特徴とするコンピュータ読み取り可能な記録媒体
  10. 少なくとも部分的に前記文書視覚構造の文法的階層構造モデルを使用して前記文書の視覚構造入力の文法的な解析を促進するステップであって、前記文法的階層構造モデルは、前記文書のページ、セクション、段組、段落、行、または単語のうちの少なくとも一つに関連付けられる階層情報を含む、ステップをさらに備えることを特徴とする請求項に記載のコンピュータ読み取り可能な記録媒体
  11. 前記文法的な解析プロセスは、識別的文法モデルに基づくことを特徴とする請求項に記載のコンピュータ読み取り可能な記録媒体
  12. 少なくとも1つの文書フィーチャの少なくとも1つの一体化イメージを計算するステップ、または複数の一体化イメージの少なくとも1つのコンステレーションを計算して、前記入力の解析を促進するステップをさらに備えることを特徴とする請求項に記載のコンピュータ読み取り可能な記録媒体
  13. AdaBoostを利用して前記入力の解析を促進するステップをさらに備えることを特徴とする請求項に記載のコンピュータ読み取り可能な記録媒体
  14. 文書レイアウト構造の認識のためのコンピュータ実行方法であって、
    プロセッサおよびメモリに結合される入力装置から、前記メモリに格納されている文書の視覚構造に関連する入力を受信するステップと、
    前記メモリに格納されている文書の視覚構造の文法的モデルを使用して、前記視覚構造の入力の文法的な解析を促進するステップであって、前記文法的モデルは、前記文書のページ、セクション、段組、段落、行、または単語のうちの少なくとも一つに関連付けられる階層情報を含み、文法規則は、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含み、前記文書の視覚構造の入力を文法的に解析することは、少なくとも部分的には文法的コスト関数に基づいて行われ、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、ステップと
    前記文書の視覚構造を複数の一体化イメージとして表すステップと、
    前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させるステップであって、前記複数のコンステレーションは、少なくとも一つの空白についての文書フィーチャを含む、ステップと
    を含むことを特徴とする方法。
  15. 機械学習技術を介してトレーニングされた少なくとも1つの分類器を利用して前記視覚構造の入力を解析するステップをさらに含むことを特徴とする請求項14に記載の方法
  16. 文書レイアウト構造の認識を促進するシステムであって、
    前記システムは、
    プロセッサと、
    前記プロセッサに通信可能なように結合され、文書レイアウト構造の認識システムを実行するように構成されるコンピュータ実行可能命令を格納するメモリと
    を備え、
    前記コンピュータ実行可能命令は、プロセッサによって実行されると前記システムに、
    文書の視覚構造に関連する入力を受信する受信コンポーネントであって、前記視覚構造は、前記文書の書式、間隔、テキストの向き、著者、数式、セクション、段組、段落、または画像のうちの少なくとも一つに関連付けられる、受信コンポーネントと、
    少なくとも部分的に前記文書の視覚構造の識別的文法的階層構造モデルを利用して、複数の文法規則を前記文書の視覚構造において識別される複数の記号のタイプに関連付けることによって前記入力の文法的な解析を促進する文法コンポーネントであって、各記号のタイプは、終端を記述する関連する文法規則を含み、前記終端は、テキストの文字、数字、または記号を含み、前記文法規則は、自然言語の段落と前記段落の一部分との間の関係、および数式と前記数式の一部分との間の関係を含み、前記識別的文法的階層構造モデルは、前記文書のページ、セクション、段組、段落、行、または単語のうちの少なくとも一つに関連付けられる階層情報を含み、前記入力の文法的な解析は、少なくとも部分的には文法的コスト関数に基づいて行われ、前記文法的コスト関数は、前記文書のグローバル検索から前記文書の最適な解析ツリーの決定を促進する機械学習の技術を介して少なくとも部分的に導かれる、文法コンポーネントと、
    ローカルフィーチャまたはグローバルフィーチャの少なくとも一つを利用して前記文書に関連するレイアウト構造を抽出する文書構造抽出コンポーネントであって、前記機械学習を利用して前記文書レイアウト構造の抽出を促進する、文書構造抽出コンポーネントと、
    前記文書の視覚構造の要素に対応する複数の一体化イメージを計算し、および前記複数の一体化イメージの複数のコンステレーションを使用して前記最適な解析ツリーの決定の解析の効率を向上させる高速フィーチャメカニズムであって、前記複数のコンステレーションは、前記文書における空白についての少なくとも一つの文書フィーチャを含む、高速フィーチャメカニズムと
    を実現させることを特徴とするシステム。
JP2008520352A 2005-07-01 2006-06-30 文書視覚構造の文法的な解析 Active JP5031741B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/173,280 US8249344B2 (en) 2005-07-01 2005-07-01 Grammatical parsing of document visual structures
US11/173,280 2005-07-01
PCT/US2006/026140 WO2007005937A2 (en) 2005-07-01 2006-06-30 Grammatical parsing of document visual structures

Publications (2)

Publication Number Publication Date
JP2009500755A JP2009500755A (ja) 2009-01-08
JP5031741B2 true JP5031741B2 (ja) 2012-09-26

Family

ID=37589602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008520352A Active JP5031741B2 (ja) 2005-07-01 2006-06-30 文書視覚構造の文法的な解析

Country Status (12)

Country Link
US (1) US8249344B2 (ja)
EP (1) EP1894144A4 (ja)
JP (1) JP5031741B2 (ja)
KR (1) KR101376863B1 (ja)
CN (1) CN101253514B (ja)
BR (1) BRPI0613103A8 (ja)
CA (1) CA2614177A1 (ja)
MX (1) MX2008000180A (ja)
NO (1) NO20080090L (ja)
RU (1) RU2421810C2 (ja)
WO (1) WO2007005937A2 (ja)
ZA (1) ZA200800041B (ja)

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8335789B2 (en) * 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8156115B1 (en) 2007-07-11 2012-04-10 Ricoh Co. Ltd. Document-based networking with mixed media reality
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8276088B2 (en) 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US20060245654A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Utilizing grammatical parsing for structured layout analysis
US8249344B2 (en) 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
US7577633B2 (en) * 2005-12-08 2009-08-18 Intellitactics Inc. Self learning event parser
US8509563B2 (en) * 2006-02-02 2013-08-13 Microsoft Corporation Generation of documents from images
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US7949173B2 (en) * 2006-10-06 2011-05-24 Siemens Corporation Method and system for regression-based object detection in medical images
US8009915B2 (en) * 2007-04-19 2011-08-30 Microsoft Corporation Recognition of mathematical expressions
US8103109B2 (en) * 2007-06-19 2012-01-24 Microsoft Corporation Recognizing hand poses and/or object classes
US8594384B2 (en) * 2007-11-30 2013-11-26 Hewlett-Packard Development Company, L.P. Method and system for measuring text-rendering quality
US8540158B2 (en) * 2007-12-12 2013-09-24 Yiwu Lei Document verification using dynamic document identification framework
US8194933B2 (en) * 2007-12-12 2012-06-05 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
US8473467B2 (en) 2009-01-02 2013-06-25 Apple Inc. Content profiling to dynamically configure content processing
GB0901351D0 (en) * 2009-01-28 2009-03-11 Univ Dundee System and method for arranging items for display
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
JP5256099B2 (ja) * 2009-03-31 2013-08-07 株式会社日立ソリューションズ 認識パラメータチューニング方法
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US8489585B2 (en) * 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
US9294125B2 (en) * 2011-12-30 2016-03-22 International Business Machines Corporation Leveraging language structure to dynamically compress a short message service (SMS) message
US10025979B2 (en) * 2012-01-23 2018-07-17 Microsoft Technology Licensing, Llc Paragraph property detection and style reconstruction engine
MX2014008560A (es) 2012-01-23 2014-09-26 Microsoft Corp Procesador de deteccion de formula.
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction
US9740768B2 (en) 2013-01-15 2017-08-22 Tata Consultancy Services Limited Intelligent system and method for processing data to provide recognition and extraction of an informative segment
US9031894B2 (en) * 2013-02-19 2015-05-12 Microsoft Technology Licensing, Llc Parsing and rendering structured images
US9330070B2 (en) 2013-03-11 2016-05-03 Microsoft Technology Licensing, Llc Detection and reconstruction of east asian layout features in a fixed format document
US9223756B2 (en) 2013-03-13 2015-12-29 Adobe Systems Incorporated Method and apparatus for identifying logical blocks of text in a document
US9898523B2 (en) 2013-04-22 2018-02-20 Abb Research Ltd. Tabular data parsing in document(s)
WO2014204339A1 (en) * 2013-06-18 2014-12-24 Abbyy Development Llc Methods and systems that generate feature symbols with associated parameters in order to convert document images to electronic documents
CN104346615B (zh) * 2013-08-08 2019-02-19 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
RU2597163C2 (ru) * 2014-11-06 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Сравнение документов с использованием достоверного источника
RU2647671C2 (ru) * 2014-01-15 2018-03-16 Общество с ограниченной ответственностью "Аби Девелопмент" Сегментация многостолбцового документа
RU2587406C2 (ru) * 2014-05-29 2016-06-20 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки визуального объекта и электронное устройство, используемое в нем
RU2596600C2 (ru) * 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
US10360294B2 (en) * 2015-04-26 2019-07-23 Sciome, LLC Methods and systems for efficient and accurate text extraction from unstructured documents
US10509834B2 (en) 2015-06-05 2019-12-17 Apple Inc. Federated search results scoring
US10592572B2 (en) 2015-06-05 2020-03-17 Apple Inc. Application view index and search
US10509833B2 (en) 2015-06-05 2019-12-17 Apple Inc. Proximity search scoring
US10755032B2 (en) 2015-06-05 2020-08-25 Apple Inc. Indexing web pages with deep links
US10621189B2 (en) 2015-06-05 2020-04-14 Apple Inc. In-application history search
RU2613734C1 (ru) * 2015-10-22 2017-03-21 Общество с ограниченной ответственностью "Аби Девелопмент" Захват видео в сценарии ввода данных
US10108856B2 (en) 2016-05-13 2018-10-23 Abbyy Development Llc Data entry from series of images of a patterned document
RU2619712C1 (ru) * 2016-05-13 2017-05-17 Общество с ограниченной ответственностью "Аби Девелопмент" Оптическое распознавание символов серии изображений
US10467464B2 (en) * 2016-06-07 2019-11-05 The Neat Company, Inc. Document field detection and parsing
US11823798B2 (en) 2016-09-28 2023-11-21 Merative Us L.P. Container-based knowledge graphs for determining entity relations in non-narrative text
CN107918782B (zh) * 2016-12-29 2020-01-21 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与系统
US11151472B2 (en) 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models
DE202017104380U1 (de) 2017-07-21 2018-10-23 Big Dutchman International Gmbh Vorrichtung und Anlage zur Reststoff-Verwertung in der Nutztierhaltung
US10482162B2 (en) * 2017-11-30 2019-11-19 International Business Machines Corporation Automatic equation transformation from text
US11709854B2 (en) 2018-01-02 2023-07-25 Bank Of America Corporation Artificial intelligence based smart data engine
CN109359286A (zh) * 2018-09-06 2019-02-19 华南理工大学 一种毕业论文LaTeX模板自动排版的生成方法
CN109740434A (zh) * 2018-11-30 2019-05-10 四川译讯信息科技有限公司 一种文档类文件复杂度判定方法及平台
US10824788B2 (en) 2019-02-08 2020-11-03 International Business Machines Corporation Collecting training data from TeX files
US11263209B2 (en) * 2019-04-25 2022-03-01 Chevron U.S.A. Inc. Context-sensitive feature score generation
US11328025B1 (en) 2019-04-26 2022-05-10 Bank Of America Corporation Validating mappings between documents using machine learning
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11556711B2 (en) 2019-08-27 2023-01-17 Bank Of America Corporation Analyzing documents using machine learning
US11526804B2 (en) 2019-08-27 2022-12-13 Bank Of America Corporation Machine learning model training for reviewing documents
US11423231B2 (en) 2019-08-27 2022-08-23 Bank Of America Corporation Removing outliers from training data for machine learning
US11449559B2 (en) 2019-08-27 2022-09-20 Bank Of America Corporation Identifying similar sentences for machine learning
US11188748B2 (en) 2019-09-16 2021-11-30 International Business Machines Corporation Scalable structure learning via context-free recursive document decomposition
CN114616572A (zh) 2019-09-16 2022-06-10 多库加米公司 跨文档智能写作和处理助手
US11494425B2 (en) * 2020-02-03 2022-11-08 S&P Global Inc. Schema-informed extraction for unstructured data
US11568276B1 (en) 2021-08-25 2023-01-31 International Business Machines Corporation Adaptive document understanding
US20230394221A1 (en) * 2022-06-06 2023-12-07 Microsoft Technology Licensing, Llc Converting a portable document format to a latex format

Family Cites Families (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5235650A (en) 1989-02-02 1993-08-10 Samsung Electronics Co. Ltd. Pattern classifier for character recognition
US5442715A (en) 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
JP3013618B2 (ja) 1992-08-07 2000-02-28 株式会社デンソー サイン認識装置
JPH06215184A (ja) 1992-09-17 1994-08-05 Fuji Facom Corp 抽出領域のラベリング装置
WO1994010635A2 (en) 1992-11-02 1994-05-11 Boston University Neural networks with subdivision
US5373566A (en) 1992-12-24 1994-12-13 Motorola, Inc. Neural network-based diacritical marker recognition system and method
US5475768A (en) 1993-04-29 1995-12-12 Canon Inc. High accuracy optical character recognition using neural networks with centroid dithering
DE69431393T2 (de) 1994-01-13 2003-01-23 St Microelectronics Srl Anlage zur Bilderkennung alphanumerischen Zeichen
US5479523A (en) 1994-03-16 1995-12-26 Eastman Kodak Company Constructing classification weights matrices for pattern recognition systems using reduced element feature subsets
US5787194A (en) 1994-11-08 1998-07-28 International Business Machines Corporation System and method for image processing using segmentation of images and classification and merging of image segments using a cost function
US5987171A (en) * 1994-11-10 1999-11-16 Canon Kabushiki Kaisha Page analysis system
US5749066A (en) 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5841900A (en) * 1996-01-11 1998-11-24 Xerox Corporation Method for graph-based table recognition
SG49804A1 (en) 1996-03-20 1998-06-15 Government Of Singapore Repres Parsing and translating natural language sentences automatically
JP2996926B2 (ja) 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US6687404B1 (en) * 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US6178398B1 (en) 1997-11-18 2001-01-23 Motorola, Inc. Method, device and system for noise-tolerant language understanding
US6633819B2 (en) 1999-04-15 2003-10-14 The Trustees Of Columbia University In The City Of New York Gene discovery through comparisons of networks of structural and functional relationships among known genes and proteins
US6542635B1 (en) 1999-09-08 2003-04-01 Lucent Technologies Inc. Method for document comparison and classification using document image layout
US6678415B1 (en) 2000-05-12 2004-01-13 Xerox Corporation Document image decoding using an integrated stochastic language model
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
JP2002133389A (ja) 2000-10-26 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体
US7013309B2 (en) 2000-12-18 2006-03-14 Siemens Corporate Research Method and apparatus for extracting anchorable information units from complex PDF documents
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
JP4181310B2 (ja) 2001-03-07 2008-11-12 昌和 鈴木 数式認識装置および数式認識方法
WO2002091355A1 (en) 2001-05-08 2002-11-14 Intel Corporation High-order entropy error functions for neural classifiers
EP1262844A1 (en) 2001-06-01 2002-12-04 Sony International (Europe) GmbH Method for controlling a man-machine-interface unit
US20030010992A1 (en) 2001-07-16 2003-01-16 Motorola, Inc. Semiconductor structure and method for implementing cross-point switch functionality
US6996295B2 (en) * 2002-01-10 2006-02-07 Siemens Corporate Research, Inc. Automatic document reading system for technical drawings
US7295966B2 (en) 2002-01-14 2007-11-13 Microsoft Corporation System for normalizing a discourse representation structure and normalized data structure
CA2375355A1 (en) 2002-03-11 2003-09-11 Neo Systems Inc. Character recognition system and method
US7107207B2 (en) 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
RU2234126C2 (ru) 2002-09-09 2004-08-10 Аби Софтвер Лтд. Способ распознавания текста с применением настраиваемого классификатора
US7362919B2 (en) 2002-12-12 2008-04-22 Eastman Kodak Company Method for generating customized photo album pages and prints based on people and gender profiles
RU2234734C1 (ru) 2002-12-17 2004-08-20 Аби Софтвер Лтд. Способ многоэтапного анализа информации растрового изображения
EP1450350A1 (en) 2003-02-20 2004-08-25 Sony International (Europe) GmbH Method for Recognizing Speech with attributes
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
EP1665128A4 (en) * 2003-08-21 2007-10-17 Microsoft Corp ELECTRONIC INK PROCESSING
US7499588B2 (en) 2004-05-20 2009-03-03 Microsoft Corporation Low resolution OCR for camera acquired documents
US7729538B2 (en) 2004-08-26 2010-06-01 Microsoft Corporation Spatial recognition and grouping of text and graphics
US7698124B2 (en) 2004-11-04 2010-04-13 Microsoft Corporaiton Machine translation system incorporating syntactic dependency treelets into a statistical framework
US20060245654A1 (en) * 2005-04-29 2006-11-02 Microsoft Corporation Utilizing grammatical parsing for structured layout analysis
US20060245641A1 (en) 2005-04-29 2006-11-02 Microsoft Corporation Extracting data from semi-structured information utilizing a discriminative context free grammar
US7639881B2 (en) 2005-06-13 2009-12-29 Microsoft Corporation Application of grammatical parsing to visual recognition tasks
US8249344B2 (en) 2005-07-01 2012-08-21 Microsoft Corporation Grammatical parsing of document visual structures

Also Published As

Publication number Publication date
MX2008000180A (es) 2008-04-02
US20070003147A1 (en) 2007-01-04
EP1894144A2 (en) 2008-03-05
WO2007005937A2 (en) 2007-01-11
CA2614177A1 (en) 2007-01-11
BRPI0613103A2 (pt) 2012-01-03
RU2421810C2 (ru) 2011-06-20
EP1894144A4 (en) 2012-12-26
WO2007005937A3 (en) 2007-09-13
KR20080026128A (ko) 2008-03-24
JP2009500755A (ja) 2009-01-08
US8249344B2 (en) 2012-08-21
CN101253514B (zh) 2012-06-13
KR101376863B1 (ko) 2014-03-20
ZA200800041B (en) 2009-08-26
NO20080090L (no) 2008-01-29
CN101253514A (zh) 2008-08-27
BRPI0613103A8 (pt) 2017-01-17
RU2007149074A (ru) 2009-07-10

Similar Documents

Publication Publication Date Title
JP5031741B2 (ja) 文書視覚構造の文法的な解析
Ingle et al. A scalable handwritten text recognition system
JP5036152B2 (ja) フリーフォームデジタルインク注釈認識
Singh Optical character recognition techniques: a survey
US11610084B1 (en) Apparatuses, methods, and systems for 3-channel dynamic contextual script recognition using neural network image analytics and 4-tuple machine learning with enhanced templates and context data
US11954139B2 (en) Deep document processing with self-supervised learning
Naz et al. Segmentation techniques for recognition of Arabic-like scripts: A comprehensive survey
JP2006073000A (ja) テキストおよびグラフィクスの空間認識およびグループ化
Malik et al. An efficient segmentation technique for Urdu optical character recognizer (OCR)
US20220292258A1 (en) Document entity extraction using document region detection
Nayak et al. Odia running text recognition using moment-based feature extraction and mean distance classification technique
Sanjrani et al. Handwritten optical character recognition system for Sindhi numerals
Zhang et al. A symbol dominance based formulae recognition approach for pdf documents
Al Ghamdi A novel approach to printed Arabic optical character recognition
Tomovic et al. Aligning document layouts extracted with different OCR engines with clustering approach
Feild Improving text recognition in images of natural scenes
Nieddu et al. In Codice Ratio: A crowd-enabled solution for low resource machine transcription of the Vatican Registers
Ganai et al. A novel holistic unconstrained handwritten urdu recognition system using convolutional neural networks
Carton et al. Eyes Wide Open: an interactive learning method for the design of rule-based systems
Ueki et al. Survey on deep learning-based Kuzushiji recognition
Duth et al. Recognition of hand written and printed text of cursive writing utilizing optical character recognition
Rai et al. MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices
Balasooriya Improving and Measuring OCR Accuracy for Sinhala with Tesseract OCR Engine
Islam et al. An enhanced MSER pruning algorithm for detection and localization of bangla texts from scene images.
Bhatia et al. Word Segmentation for Gujarati Handwritten Documents

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090525

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120627

R150 Certificate of patent or registration of utility model

Ref document number: 5031741

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150706

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250