JP5134628B2 - 連続する記事部分の媒体資料解析 - Google Patents
連続する記事部分の媒体資料解析 Download PDFInfo
- Publication number
- JP5134628B2 JP5134628B2 JP2009535346A JP2009535346A JP5134628B2 JP 5134628 B2 JP5134628 B2 JP 5134628B2 JP 2009535346 A JP2009535346 A JP 2009535346A JP 2009535346 A JP2009535346 A JP 2009535346A JP 5134628 B2 JP5134628 B2 JP 5134628B2
- Authority
- JP
- Japan
- Prior art keywords
- media material
- analyzer
- article
- block
- layout
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims description 176
- 238000004458 analytical method Methods 0.000 title description 30
- 230000007704 transition Effects 0.000 claims description 176
- 238000000034 method Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 49
- 238000003066 decision tree Methods 0.000 claims description 26
- 238000012015 optical character recognition Methods 0.000 claims description 17
- 238000010586 diagram Methods 0.000 description 19
- 238000004891 communication Methods 0.000 description 16
- 230000011218 segmentation Effects 0.000 description 13
- 238000004590 computer program Methods 0.000 description 10
- 238000007619 statistical method Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Description
本発明は、媒体資料のコンピュータ補助による解析に関する。
(関連技術)
文書および印刷された資料の解析を行うか、または補助するために、コンピュータがますます使用されている。レイアウト解析技術およびシステムは、文書中のテキストおよび画像の位置および相対的な配列を解析するために使用されてきた。このような文書レイアウト解析は、多くの文書画像化用途において重要であり得る。例えば、文書レイアウト解析は、レイアウトベースの文書検索、光学文字認識を用いたテキスト抽出、および文書画像の電子形式への変換の一部として、使用され得る。文書レイアウト解析は、概して、単純な文書(例えば、ビジネスレターまたは一列の報告書)において最良に機能し、かつレイアウトが複雑であるか、または可変であるときには、困難であり得るかまたは機能不可能でさえあり得る。例えば、自動の文書レイアウト解析または半自動の文書レイアウト解析は、しばしば、複雑なレイアウトに分類され、かつ再ソートがレイアウトの手動解析に対してなされなければならない。
本発明は、レイアウトを有する資料媒体を解析するシステムおよび方法に関する。
例えば、本発明は以下の項目を提供する。
(項目1)
レイアウトを有し、かつ複数のページにわたって広がる1つ以上の連続する記事を含む媒体資料を表すデータを解析する媒体資料アナライザであって、
(a)該媒体資料のページ内のコラム状の本文テキストと関連するブロックセグメントを識別するセグメンタと、
(b)言語統計情報および連続移行情報に基づいて、該識別されたブロックセグメントのいずれが該媒体資料内の複数のページにわたって広がる連続する記事に属するかを決定する記事コンポーザと
を備えている、媒体資料アナライザ。
(項目2)
上記記事コンポーザは、連続レイアウト移行アナライザを含み、該連続レイアウト移行アナライザは、第1のページ内の候補となる連続する記事部分に関連する最後のブロックセグメントを識別し、該最後のブロックセグメントの下の1つ以上の項目を識別し、該識別された1つ以上の項目の少なくとも1つの特徴に基づいて、該最後のブロックセグメントを分類し、そして、決定ツリーを適用して、該最後のブロックセグメントが連続する記事内にある確率を示す1つ以上の連続移行特徴を選び出す、項目1に記載の媒体資料アナライザ。
(項目3)
上記記事コンポーザは、連続言語統計アナライザを含み、該連続言語統計アナライザは、上記連続する記事の上記第1のページから連続するページにおける記事部分に対して、言語統計情報を計算し、そして該計算された連続する言語統計情報に基づいて、上記候補となる連続する記事部分内の最後のブロックセグメントが、連続する記事部分を有する確率を決定する、項目2に記載の媒体資料アナライザ。
(項目4)
上記連続レイアウト移行アナライザは、さらに、連続するページ内の候補となる連続する記事と関連する第1のブロックセグメントを識別し、該第1のブロックセグメントの上の1つ以上の項目を識別し、該1つ以上の識別された項目の少なくとも1つの特徴に基づいて、該第1のブロックセグメントを分類し、そして決定ツリーを適用して、該第1のブロックセグメントが連続する記事内にある確率を示す1つ以上の連続移行特徴を選び出し、該適用された決定ツリーに基づいて、該第1のブロックセグメントが連続する記事である確率を決定する、項目3に記載の媒体資料アナライザ。
(項目5)
上記連続言語統計アナライザは、さらに、上記第1のブロックセグメントを有するページよりも前のページ内の記事部分に対して、言語統計情報を計算し、該計算された、より前のページの言語統計情報に基づいて、上記候補となる連続する記事部分内の該第1のブロックセグメントが連続する記事部分を有する確率を決定する、項目4に記載の媒体資料アナライザ。
(項目6)
上記連続レイアウト移行アナライザは、さらに、候補となる一対の最後および第1のブロックセグメントに対する連続移行特徴を識別し、該一対の最後および第1のブロックセグメントに対して一組の連続移行特徴を決定し、そして決定ツリーを適用して、該一組の決定された連続移行特徴に基づいて、該候補となる一対の最後および第1のブロックセグメントが、上記媒体資料内の複数のページにわたる同一の連続する記事に属する確率を決定する、項目5に記載の媒体資料アナライザ。
(項目7)
上記言語統計情報は、単語頻度情報を備え、上記連続言語統計アナライザは、上記最後のブロックセグメント内のテキストおよび連続するページ上の上記記事部分内のテキストにおける単語頻度に基づいて、マッチスコアを計算する、項目3に記載の媒体資料アナライザ。
(項目8)
上記言語統計情報は、単語頻度情報を備え、上記連続言語統計アナライザは、上記第1のブロックセグメント内のテキストおよびより前のページ上の上記記事部分内のテキストにおける単語頻度に基づいて、マッチスコアを計算する、項目5に記載の媒体資料アナライザ。
(項目9)
レイアウトを有し、かつ複数のページにわたって広がる1つ以上の連続する記事を含む媒体資料を表すデータを解析するコンピュータ実装された方法であって、
(a)該媒体資料のページ内のコラム状の本文テキストに関連するブロックセグメントを識別することと、
(b)言語統計情報および連続移行情報に基づいて、該識別されたブロックセグメントのいずれが該媒体資料内の複数のページにわたって広がる連続する記事に属するかを決定することと
を包含する、方法。
(項目10)
上記記事決定ステップは、
候補となる連続する記事部分内のブロックセグメントに対する連続レイアウト移行情報を解析することと、
該候補となる連続する記事部分内のテキストに対する言語統計を解析することと
を含む、項目9に記載の方法。
(項目11)
上記連続レイアウト移行情報を解析するステップは、
第1のページ内の候補となる連続記事部分に関連する最後のブロックセグメントを識別することと、
該最後のブロックセグメントより下の1つ以上の項目を識別することと、
該識別された1つ以上の項目の少なくとも1つの特徴に基づいて、該最後のブロックセグメントを分類することと、
決定ツリーを適用して、該最後のブロックセグメントが連続する記事内に存在する確率を示す1つ以上の連続移行特徴を選ぶことと
を包含する、項目10に記載の方法。
(項目12)
上記言語統計解析ステップは、
上記連続する記事の第1のページから連続するページ上の記事部分に対する、言語統計情報を計算することと、
該計算された連続する言語統計情報に基づいて、上記候補となる連続する記事部分内の上記最後のブロックセグメントが連続する記事部分を有する確率を決定することと
を包含する、項目11に記載の方法。
(項目13)
上記連続レイアウト移行情報を解析するステップは、
連続するページ内の候補となる連続する記事に関連する第1のブロックセグメントを識別することと、
該第1のブロックセグメントより上の1つ以上の項目を識別することと、
該1つ以上の識別された項目の少なくとも1つの特徴に基づいて、該第1のブロックセグメントを分類することと、
決定ツリーを適用して、該第1のブロックセグメントが連続する記事内に存在する確率を示す1つ以上の連続移行特徴を選び出し、そして該適用された決定ツリーに基づいて、該第1のブロックセグメントが連続する記事内に存在する確率を決定することと
をさらに包含する、項目12に記載の方法。
(項目14)
上記言語統計解析ステップは、
上記第1のブロックセグメントを有するページよりも前のページ内の記事部分に対して、言語統計情報を計算することと、
該計算されたより前のページの言語統計情報に基づいて、上記候補となる連続する記事部分内の該第1のブロックセグメントが連続する記事部分を有する確率を決定することと
をさらに包含する、項目13に記載の方法。
(項目15)
上記連続レイアウト移行解析ステップは、
候補となる一対の最後および第1のブロックセグメントを識別することと、
該一対の最後および第1のブロックセグメントに対する一組の連続移行特徴を決定することと、
決定ツリーを適用して、該一組の決定された連続移行特徴に基づいて、該候補となる一対の最後および第1のブロックセグメントが、上記媒体資料内の複数のページにわたる同一の連続する記事に属する確率を決定することと
をさらに含む、項目12に記載の方法。
(項目16)
上記言語統計情報は、単語頻度情報を備え、上記連続言語統計解析ステップは、上記最後のブロックセグメント内のテキストおよび連続するページの上記記事部分内のテキストにおける単語頻度に基づいて、マッチスコアを計算することを含む、項目12に記載の方法。
(項目17)
上記言語統計情報は、単語頻度情報を備え、上記連続言語統計解析ステップは、上記第1のブロックセグメント内のテキストおよび以前のページの上記記事部分内のテキストにおける単語頻度に基づいて、マッチスコアを計算することを含む、項目14に記載の方法。
(項目18)
レイアウトを有する媒体資料内の複数のページにわたって広がる連続する記事を構成する記事コンポーザであって、
連続レイアウト移行アナライザと、
連続言語統計アナライザと
を備え、該連続レイアウト移行アナライザは、異なるページ上の候補となる記事の最後のブロックセグメントおよび第1のブロックセグメントが同じ連続する記事内に存在する確率を示す1つ以上の連続移行特徴を選び出すために、決定ツリーを適用し、
該連続言語統計アナライザは、異なるページ上の異なる記事部分に対する言語統計情報を計算し、該計算された言語統計情報に基づいて、候補となる記事部分の第1および最後のブロックセグメントが連続する記事部分を有する確率を決定し、それにより、該記事コンポーザは、解析された連続レイアウト移行特徴および該計算された言語統計に従って、該第1および最後のブロックセグメントが同じ連続する記事に属する確率に基づいて、複数のページにわたる連続する記事を構成することが可能である、記事コンポーザ。
本発明は、特定の用途に対する例示的な実施形態を参照して本明細書に記載されるが、本発明がそれらの実施形態に限定されないことが理解されるべきである。本明細書において提供される教示を利用する機会を有する当業者は、本発明の範囲内のさらなる修正、用途および実施形態、ならびに本発明が大いに有効であるさらなる分野を認識するだろう。
本発明は、レイアウトを有する媒体資料を解析するシステムおよび方法に関する。例として、本文テキストのコラムを伴うレイアウトを有する媒体資料を含むが、それに限定はされない。このような例は、新聞、雑誌、カタログ、小冊子、パンフレットおよび他のタイプの印刷資料を含むがこれらに限定はされない。
図1は、本発明の実施形態に従う媒体資料アナライザ100を示す。媒体資料アナライザ100は、コントローラ102と、セグメンタ110と、記事コンポーザ120とを含む。記事コンポーザ120は、純粋な言語統計モード、純粋なレイアウト移行モードまたは二つの組み合わせにおいて動作し得る。
さらなる実施形態に従って、媒体資料からのデータを解析する方法200が提供される(図2)。簡潔さのために、方法200は、媒体資料アナライザ100を参照して記載されるが、必ずしも媒体資料アナライザ100の構造に限定されることを意図されない。
ステップ210において、特徴に従って、媒体資料内のコラム状の本文テキストと関連するブロックセグメントが識別される。図3は、ステップ210のブロックセグメント化を実行する例示的なルーチンをさらに詳細に示す(ステップ305〜ステップ320)。明確さのために、ブロックセグメント化ルーチンは、図4に示されるように、新聞のページの例示的な画像410に関して記載される。この例において、データ105は、画像410を表す画素データを含む。画素データは、特定のピクチャ要素(画素)位置における画像の強度を表す画素値からなる。画素値は、グレイスケール、カラー、バイナリまたは他のタイプの画素データを含むが、これらに限定されない任意のタイプの画素値であり得る。
ステップ220において、特徴に従って、記事コンポーザ120は、言語統計情報およびレイアウト移行情報に基づいて、いずれの候補となるブロックセグメントが同一の記事に属するかを決定する。この言語統計およびレイアウト移行の組み合わせは、片方のみで達成し得る精度を超えて、精度を向上させ得る。
一実施形態において、ステップ220はルーチン600(ステップ610〜ステップ630)を含む。言語統計アナライザ130は、ルーチン600を実行する。ルーチン600は、セグメンタ110によって出力された複数の対の候補となるブロックセグメントに対するマッチスコアを計算する。マッチスコアは、スコア関数に従って計算される。特定のブロックのテキスト(好ましくは30を超える単語を有する)に対して、各単語が、全体の言語資料(corpus)に対してブロック内にどの程度あるかを計算する。単語が記事内のXパーセントの単語と、言語資料内のYパーセントの単語とを形成する場合、用いられる正しい式はlog((X/Y)+1)である。各ブロックに対して、値のベクトルが得られる。複数の対のブロック間のコサイン距離を得るために、これらのベクトルを用いることは、1(正しいマッチ)〜0(単語にオーバーラップしない)の範囲のスコアを与える。
特徴に従って、レイアウト移行解析が、訓練モードにおいて、または実行モードにおいて実行され得る。一実施形態において、ステップ220は、訓練モードルーチン700および実行モードルーチン900を含む。レイアウト移行アナライザ140は、訓練モードまたは実行モードにおいて動作する。訓練モードにおいて、レイアウト移行アナライザ140は、媒体資料の複数のサンプルからの収集されたデータに対して動作し、レイアウト移行分類子145を構築する。実行モードにおいて、レイアウト移行アナライザ140は、レイアウト移行分類子145を、解析される媒体資料レイアウト内のデータに適用する。
レイアウト移行アナライザ140は、訓練モードルーチン700を実行する。レイアウト移行アナライザ140は、垂直方向の移行(図7A、ステップ710〜760)および水平方向の移行(図7B、ステップ770〜796)について媒体資料のレイアウトを解析する。
ステップ710において、レイアウト移行アナライザ140は、1つのブロックがもう1つのブロックよりも上にあり、垂直方向に整列されたブロックの間に本文テキストのブロックがないように垂直方向に整列された、複数の対の本文テキストのブロックセグメントを発見する(図7A)。これらの垂直方向に整列された複数の対のブロックセグメントは、セグメンタ110から出力されたブロックセグメント内に発見され得る。例えば、図8に示される新聞のページにおいて、一対のブロックセグメント810、830は、垂直方向に整列されているものとして識別され得る。
ステップ770において、レイアウト移行アナライザ140は、複数の対の水平方向に整列された本文テキストのブロックセグメントを発見し、1つのブロックはその他のブロックの近くにあり、本文テキストのブロックは、水平方向に整列されたブロックの間には存在しない(図7B)。これらの複数の対の水平方向に整列されたブロックセグメントは、セグメンタ110によって出力されたブロックセグメント内に発見される。例えば、図8に示されている新聞のページにおいて、一対のブロックセグメント840、850は、水平方向に整列されているとして識別され得る。
実行モードは、図7に関連して上述された訓練モードに類似している。レイアウト移行アナライザ140は、実行モードルーチン900を実行する。レイアウト移行アナライザ140は、垂直方向の移行(図9A、ステップ710〜740および910)と水平方向の移行(図9B、ステップ770〜792および920)とについて、媒体資料のレイアウトを解析する。
図10A〜10Dは、本発明の実施形態にしたがって解析される新聞のページを含む、例示的な媒体資料を示す。
本発明のさらなる実施形態にしたがうと、ワールドワイドウェブを介して、レイアウトを有する媒体資料をサーチするシステムが提供される(図11)。図11に示されているように、媒体資料をサーチするシステム1100は、クライアント1110と、ウェブサーバ1130と、サーバ1140と、データベース1145とを含む。クライアント1110は、ネットワーク1120を介して、ウェブサーバ130に結合されている。ネットワーク1120は、ローカルエリアネットワーク、中規模エリアネットワーク、またはワイドエリアネットワークを含むがそれらには限定されない任意のタイプの1つ以上の任意のネットワーク、例えばインターネットであり得る。一例において、クライアント1110は、ネットワーク1120を介して通信するブラウザを含み得る。任意のタイプのブラウザが用いられ得る。ウェブサーバ1130は、サーバ1140に結合されている。
特に、スキャンされた(または電子的に生成された)新聞ならびに関連する資料(例えば、雑誌、カタログ等)のレイアウトをセグメント化および解析するための新規なアプローチが提供される。高度な形態学関連アルゴリズム(morphology−related algorithm)は、ページを物理的なブロックに分解する。テキスト情報(ページ内に存在する、または、OCRから抽出される)は、テキストブロックをどのようにして記事に構成すべきか、および、どのようにしてテキストが流れるかを、決定するために用いられ得る。加えて、多数のページのテキスト解析を通して収集された情報が、レイアウト解析のために、集合に特有(collection−specific)の幾何学的規則を推察するために用いられ得る。
コラムの規則を発見するために多くのページにわたる集合体内で言語統計を用いる技術が、いくつかのその他の問題を解決するために用いられ得る。一実施形態にしたがうと、新聞のページ間で連続する記事内のブロックセグメントを決定するために、さらなる解析が実行され得る。異なるページ上の記事部分が同一の連続する記事内に属するかどうかの解析は、言語統計と、連続レイアウト移行情報とを用いて行われる。
(1)所定のブロックは連続している(continued)か?
(2)所定のブロックは連続(continuation)か?
(3)これらの2つのタイプのブロックの対が与えられたとき、それらは同一の記事か?
これを同時に行うことを試みることは、分類子1345が、(3)を理解する必要があるのみならず、(1)および(2)を2つの部分に組み込む必要があり得ることを意味する。単一の分類子のアプローチが可能であるが、上記のものは、より安全であり、テストがより容易である。
本発明の様々な局面は、ソフトウェア、ファームウェア、またはそれらの組み合わせによって実装され得る。図15は、例示的なコンピュータシステム1500を示しており、このコンピュータシステムにおいては、本発明またはその一部分が、コンピュータ読み取り可能なコードとして実行され得る。例えば、図2の方法200を実行する媒体資料アナライザ100、図14の方法1400を実行する媒体資料アナライザ1300が、システム1300内に実装され得る。本発明の様々な実施形態が、この例のコンピュータシステム1500の観点で記載される。この記載を読んだ後、当業者は、その他のコンピュータシステムおよび/またはコンピュータアーキテクチャを用いて、本発明をどのように実装するかを明白に理解し得る。
本発明の例示的な実施形態が提示されてきた。本発明は、これらの例に限定されるものではない。これらの例は、本明細書中では、例示を目的として示されており、限定目的として示されてはいない。当業者は、本明細書中に含まれる教示に基づくことにより、代替案(本明細書中に記載されているものの均等、拡張、変形、逸脱(deviation)等)を明白に理解し得る。そのような代替案は、本発明の範囲および精神に含まれる。
Claims (14)
- レイアウトを有する媒体資料を表すデータを解析する媒体資料アナライザであって、
該媒体資料内のコラム状の本文テキストと関連するブロックセグメントを識別するセグメンタと、
該セグメンタによって出力された候補となるブロックセグメントに対する言語統計を計算し、言語統計情報内のオーバーラップに基づいて、候補となるブロックセグメントが同一の記事に属する確率を決定する言語統計アナライザと、
ユーザインターフェースであって、該ユーザインターフェースは、特定の記事に対する候補となるブロックセグメントのリストを表示し、かつ、該候補となるブロックセグメントのリストから正しい候補となるブロックセグメントを選択するユーザ入力を受け取り、該媒体資料アナライザは、該ユーザ入力に基づいて、該確率を更新する、ユーザインターフェースと
を備えている、媒体資料アナライザ。 - 言語統計情報およびレイアウト移行情報に基づいて、前記識別されたブロックセグメントのうちのいずれが前記媒体資料内の1つ以上の記事に属するかを決定する記事コンポーザをさらに備えている、請求項1に記載の媒体資料アナライザ。
- 前記記事コンポーザは、連続レイアウト移行アナライザを含み、該連続レイアウト移行アナライザは、第1のページ内の候補となる連続する記事部分に関連する前記識別されたブロックセグメントのうちの最後のブロックセグメントを識別し、該最後のブロックセグメントの下の1つ以上の項目を識別し、該識別された1つ以上の項目の少なくとも1つの特徴に基づいて、該最後のブロックセグメントを分類し、そして、決定ツリーを適用して、該最後のブロックセグメントが連続する記事にある確率を示す1つ以上のレイアウト移行特徴を選び出し、該識別されたブロックセグメントは、1つ以上の記事に属し、該1つ以上の記事は、該媒体資料内の複数のページにわたって連続し、かつ広がる、請求項2に記載の媒体資料アナライザ。
- 前記言語統計情報は、単語頻度情報を備え、前記言語統計アナライザは、言語資料全体に対する各ブロックセグメントにおける単語頻度と、一対の候補となるブロックセグメント間のコサイン距離類似性とに基づいて、該一対の候補となるブロックセグメントに対するマッチスコアを計算する、請求項2に記載の媒体資料アナライザ。
- 前記言語統計アナライザは、前記計算されたマッチスコアと、同一の記事に属するブロックセグメントの所定のポジティブな例と同一の記事に属さないブロックセグメントの所定のネガティブな例とを有するサンプルデータと、に基づいて、一対の候補となるブロックセグメントが前記媒体資料内の同一の記事に属する確率を決定する、請求項4に記載の媒体資料アナライザ。
- 前記言語統計アナライザは、訓練データセット内の記事の集合から、前記ポジティブなデータ例とネガティブなデータ例とを自動的に選択する、請求項5に記載の媒体資料アナライザ。
- 前記所定のポジティブなデータ例とネガティブなデータ例とは、前記媒体資料の画像からの光学文字認識を介して抽出されたテキストデータの表示から、ユーザによって、ユーザインタフェースにおいて選択される、請求項5に記載の媒体資料アナライザ。
- レイアウトを有する媒体資料を表すデータを解析するコンピュータ実装された方法であって、
該媒体資料内のコラム状の本文テキストに関連するブロックセグメントを識別することと、
言語統計情報およびレイアウト情報に基づいて、該識別されたブロックセグメントのいずれが該媒体資料内の1つ以上の記事に属するかを決定することと
を包含し、
該決定することは、
候補となるブロックセグメントに対する言語統計を計算することと、
言語統計情報におけるオーバーラップに基づいて、比較されるブロックセグメントが同一の記事に属する確率を決定することと
を含み、
該方法は、
特定の記事に対する候補となるブロックセグメントのリストからの正しい候補となるブロックセグメントのユーザ選択に基づいて、該確率を更新することをさらに含む、方法。 - 前記識別されたブロックセグメントは、1つ以上の記事に属し、該1つ以上の記事は前記媒体資料内の複数のページにわたって連続し、かつ広がる、請求項8に記載の方法。
- 前記同一の記事内に存在することが決定された1つ以上のブロックセグメントからテキストを表示することをさらに含む、請求項8に記載の方法。
- 前記言語統計情報は、単語頻度情報を備え、前記計算することは、言語資料全体に対する各ブロックセグメントにおける単語頻度と、一対の候補となるブロックセグメント間のコサイン距離類似性とに基づいて、該一対の候補となるブロックセグメントに対するマッチスコアを計算することを含む、請求項8に記載の方法。
- 前記確率を決定するステップは、前記計算されたマッチスコアと、同一の記事に属するブロックセグメントの所定のポジティブな例と同一の記事に属さないブロックセグメントの所定のネガティブな例とを有するサンプルデータと、に基づいて、前記一対の候補となるブロックセグメントが前記媒体資料内の同一の記事に属する確率を決定することを含む、請求項11に記載の方法。
- ユーザが、前記ポジティブなデータ例とネガティブなデータ例とを、前記媒体資料の画像からの光学文字認識を介して抽出されたテキストデータの表示から選択することを可能にすることをさらに含む、請求項12に記載の方法。
- 前記決定することは、言語統計情報における前記オーバーラップに基づいて決定された確率に基づいて、前記候補となるブロックセグメントが、前記媒体資料内の同一の記事に属するかどうかを識別することをさらに含む、請求項8に記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/592,268 | 2006-11-03 | ||
US11/592,268 US7801358B2 (en) | 2006-11-03 | 2006-11-03 | Methods and systems for analyzing data in media material having layout |
US11/644,009 | 2006-12-22 | ||
US11/644,009 US7899249B2 (en) | 2006-11-03 | 2006-12-22 | Media material analysis of continuing article portions |
PCT/US2007/023233 WO2008057473A2 (en) | 2006-11-03 | 2007-11-05 | Media material analysis of continuing article portions |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012069249A Division JP2012123845A (ja) | 2006-11-03 | 2012-03-26 | 連続する記事部分の媒体資料解析 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010509656A JP2010509656A (ja) | 2010-03-25 |
JP5134628B2 true JP5134628B2 (ja) | 2013-01-30 |
Family
ID=39359793
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009535346A Active JP5134628B2 (ja) | 2006-11-03 | 2007-11-05 | 連続する記事部分の媒体資料解析 |
JP2012069249A Withdrawn JP2012123845A (ja) | 2006-11-03 | 2012-03-26 | 連続する記事部分の媒体資料解析 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012069249A Withdrawn JP2012123845A (ja) | 2006-11-03 | 2012-03-26 | 連続する記事部分の媒体資料解析 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7801358B2 (ja) |
EP (1) | EP2080113B1 (ja) |
JP (2) | JP5134628B2 (ja) |
CN (1) | CN101573705B (ja) |
AU (1) | AU2007317938B2 (ja) |
CA (1) | CA2668413C (ja) |
IL (1) | IL198507A (ja) |
WO (1) | WO2008057474A2 (ja) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7676744B2 (en) * | 2005-08-19 | 2010-03-09 | Vistaprint Technologies Limited | Automated markup language layout |
US7584424B2 (en) * | 2005-08-19 | 2009-09-01 | Vista Print Technologies Limited | Automated product layout |
JP4977452B2 (ja) * | 2006-01-24 | 2012-07-18 | 株式会社リコー | 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム |
US7966557B2 (en) | 2006-03-29 | 2011-06-21 | Amazon Technologies, Inc. | Generating image-based reflowable files for rendering on various sized displays |
US7810026B1 (en) * | 2006-09-29 | 2010-10-05 | Amazon Technologies, Inc. | Optimizing typographical content for transmission and display |
US7801358B2 (en) * | 2006-11-03 | 2010-09-21 | Google Inc. | Methods and systems for analyzing data in media material having layout |
US8234277B2 (en) | 2006-12-29 | 2012-07-31 | Intel Corporation | Image-based retrieval for high quality visual or acoustic rendering |
US8250469B2 (en) * | 2007-12-03 | 2012-08-21 | Microsoft Corporation | Document layout extraction |
US8392816B2 (en) * | 2007-12-03 | 2013-03-05 | Microsoft Corporation | Page classifier engine |
US8126881B1 (en) | 2007-12-12 | 2012-02-28 | Vast.com, Inc. | Predictive conversion systems and methods |
US8782516B1 (en) | 2007-12-21 | 2014-07-15 | Amazon Technologies, Inc. | Content style detection |
US8422787B2 (en) * | 2007-12-27 | 2013-04-16 | Nec Corporation | Apparatus, method and program for text segmentation |
US8572480B1 (en) | 2008-05-30 | 2013-10-29 | Amazon Technologies, Inc. | Editing the sequential flow of a page |
US8218913B1 (en) * | 2008-08-12 | 2012-07-10 | Google Inc. | Identifying a front page in media material |
US8290268B2 (en) * | 2008-08-13 | 2012-10-16 | Google Inc. | Segmenting printed media pages into articles |
US9229911B1 (en) * | 2008-09-30 | 2016-01-05 | Amazon Technologies, Inc. | Detecting continuation of flow of a page |
EP2449521A4 (en) * | 2009-06-30 | 2013-07-03 | Hewlett Packard Development Co | SELECTIVE EXTRACTION OF CONTENT |
US8499236B1 (en) | 2010-01-21 | 2013-07-30 | Amazon Technologies, Inc. | Systems and methods for presenting reflowable content on a display |
US8345978B2 (en) * | 2010-03-30 | 2013-01-01 | Microsoft Corporation | Detecting position of word breaks in a textual line image |
US8385652B2 (en) * | 2010-03-31 | 2013-02-26 | Microsoft Corporation | Segmentation of textual lines in an image that include western characters and hieroglyphic characters |
US8625897B2 (en) * | 2010-05-28 | 2014-01-07 | Microsoft Corporation | Foreground and background image segmentation |
US8682075B2 (en) * | 2010-12-28 | 2014-03-25 | Hewlett-Packard Development Company, L.P. | Removing character from text in non-image form where location of character in image of text falls outside of valid content boundary |
CN102841900B (zh) * | 2011-06-23 | 2016-01-20 | 腾讯科技(深圳)有限公司 | 页面处理方法和装置 |
US9177199B2 (en) | 2011-08-03 | 2015-11-03 | Eastman Kodak Company | Semantic magazine pages |
WO2013110286A1 (en) * | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Paragraph property detection and style reconstruction engine |
US9372841B2 (en) * | 2012-02-27 | 2016-06-21 | Bert A. Silich | 4-dimensional geometric reading |
DE102012102797B4 (de) * | 2012-03-30 | 2017-08-10 | Beyo Gmbh | Kamerabasiertes Mobilfunkgerät zur Konvertierung eines Dokuments anhand von aufgenommenen Bildern in ein Format zur optimierten Anzeige auf dem kamerabasierten Mobilfunkgerät |
WO2014005609A1 (en) | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
US9852215B1 (en) * | 2012-09-21 | 2017-12-26 | Amazon Technologies, Inc. | Identifying text predicted to be of interest |
USD754162S1 (en) * | 2013-01-04 | 2016-04-19 | Level 3 Communications, Llc | Display screen or portion thereof with graphical user interface |
USD768659S1 (en) * | 2013-01-04 | 2016-10-11 | Level 3 Communications, Llc | Display screen or portion thereof with graphical user interface |
US10007946B1 (en) | 2013-03-07 | 2018-06-26 | Vast.com, Inc. | Systems, methods, and devices for measuring similarity of and generating recommendations for unique items |
US9465873B1 (en) | 2013-03-07 | 2016-10-11 | Vast.com, Inc. | Systems, methods, and devices for identifying and presenting identifications of significant attributes of unique items |
US9104718B1 (en) | 2013-03-07 | 2015-08-11 | Vast.com, Inc. | Systems, methods, and devices for measuring similarity of and generating recommendations for unique items |
US9830635B1 (en) | 2013-03-13 | 2017-11-28 | Vast.com, Inc. | Systems, methods, and devices for determining and displaying market relative position of unique items |
US9195782B2 (en) | 2013-06-26 | 2015-11-24 | Siemens Product Lifecycle Management Software Inc. | System and method for combining input tools into a composite layout |
US10296570B2 (en) * | 2013-10-25 | 2019-05-21 | Palo Alto Research Center Incorporated | Reflow narrative text objects in a document having text objects and graphical objects, wherein text object are classified as either narrative text object or annotative text object based on the distance from a left edge of a canvas of display |
US10127596B1 (en) | 2013-12-10 | 2018-11-13 | Vast.com, Inc. | Systems, methods, and devices for generating recommendations of unique items |
US11080777B2 (en) | 2014-03-31 | 2021-08-03 | Monticello Enterprises LLC | System and method for providing a social media shopping experience |
WO2015193905A1 (en) * | 2014-06-16 | 2015-12-23 | Hewlett-Packard Development Company, L.P. | Pagination point identification |
US10474702B1 (en) | 2014-08-18 | 2019-11-12 | Street Diligence, Inc. | Computer-implemented apparatus and method for providing information concerning a financial instrument |
US11144994B1 (en) | 2014-08-18 | 2021-10-12 | Street Diligence, Inc. | Computer-implemented apparatus and method for providing information concerning a financial instrument |
WO2016122556A1 (en) * | 2015-01-30 | 2016-08-04 | Hewlett-Packard Development Company, L.P. | Identification of a breakpoint based on a correlation measurement |
US10229314B1 (en) * | 2015-09-30 | 2019-03-12 | Groupon, Inc. | Optical receipt processing |
US10417516B2 (en) | 2017-08-24 | 2019-09-17 | Vastec, Inc. | System and method for preprocessing images to improve OCR efficacy |
US10268704B1 (en) | 2017-10-12 | 2019-04-23 | Vast.com, Inc. | Partitioned distributed database systems, devices, and methods |
FI20176151A1 (en) | 2017-12-22 | 2019-06-23 | Vuolearning Ltd | A heuristic method for analyzing the contents of an electronic document |
CN108959254A (zh) * | 2018-06-29 | 2018-12-07 | 中教汇据(北京)科技有限公司 | 一种用于期刊pdf文件中文章内容的解析方法 |
US11308268B2 (en) * | 2019-10-10 | 2022-04-19 | International Business Machines Corporation | Semantic header detection using pre-trained embeddings |
US11556610B2 (en) | 2019-11-08 | 2023-01-17 | Accenture Global Solutions Limited | Content alignment |
US20220335240A1 (en) * | 2021-04-15 | 2022-10-20 | Microsoft Technology Licensing, Llc | Inferring Structure Information from Table Images |
US20230274081A1 (en) * | 2022-02-07 | 2023-08-31 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for annotating line charts in the wild |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2902097B2 (ja) * | 1990-10-29 | 1999-06-07 | 沖電気工業株式会社 | 情報処理装置及び文字認識装置 |
US5335290A (en) * | 1992-04-06 | 1994-08-02 | Ricoh Corporation | Segmentation of text, picture and lines of a document image |
JPH06203020A (ja) * | 1992-12-29 | 1994-07-22 | Hitachi Ltd | テキストフォーマット認識生成方法および装置 |
US5848184A (en) * | 1993-03-15 | 1998-12-08 | Unisys Corporation | Document page analyzer and method |
JP3302147B2 (ja) * | 1993-05-12 | 2002-07-15 | 株式会社リコー | 文書画像処理方法 |
JPH08180131A (ja) * | 1994-12-21 | 1996-07-12 | Canon Inc | 画像処理方法 |
US5805731A (en) * | 1995-08-08 | 1998-09-08 | Apple Computer, Inc. | Adaptive statistical classifier which provides reliable estimates or output classes having low probabilities |
US5848186A (en) * | 1995-08-11 | 1998-12-08 | Canon Kabushiki Kaisha | Feature extraction system for identifying text within a table image |
US7437351B2 (en) * | 1997-01-10 | 2008-10-14 | Google Inc. | Method for searching media |
JP4170441B2 (ja) * | 1997-11-28 | 2008-10-22 | 富士通株式会社 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
US6173073B1 (en) * | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US6941321B2 (en) * | 1999-01-26 | 2005-09-06 | Xerox Corporation | System and method for identifying similarities among objects in a collection |
EP1181525B1 (de) * | 1999-11-04 | 2003-07-16 | Meltec Multi-Epitope-Ligand-Technologies GmbH | Verfahren zur automatischen analyse von mikroskopaufnahmen |
JP4608740B2 (ja) * | 2000-02-21 | 2011-01-12 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム格納媒体 |
US7447771B1 (en) * | 2000-05-26 | 2008-11-04 | Newsstand, Inc. | Method and system for forming a hyperlink reference and embedding the hyperlink reference within an electronic version of a paper |
US6735335B1 (en) * | 2000-05-30 | 2004-05-11 | Microsoft Corporation | Method and apparatus for discriminating between documents in batch scanned document files |
WO2002033584A1 (en) * | 2000-10-19 | 2002-04-25 | Copernic.Com | Text extraction method for html pages |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
US7756871B2 (en) * | 2004-10-13 | 2010-07-13 | Hewlett-Packard Development Company, L.P. | Article extraction |
US8156114B2 (en) * | 2005-08-26 | 2012-04-10 | At&T Intellectual Property Ii, L.P. | System and method for searching and analyzing media content |
US7624093B2 (en) * | 2006-01-25 | 2009-11-24 | Fameball, Inc. | Method and system for automatic summarization and digest of celebrity news |
US7864365B2 (en) * | 2006-06-15 | 2011-01-04 | Sharp Laboratories Of America, Inc. | Methods and systems for segmenting a digital image into regions |
US7792353B2 (en) * | 2006-10-31 | 2010-09-07 | Hewlett-Packard Development Company, L.P. | Retraining a machine-learning classifier using re-labeled training samples |
US7702680B2 (en) * | 2006-11-02 | 2010-04-20 | Microsoft Corporation | Document summarization by maximizing informative content words |
US7801358B2 (en) * | 2006-11-03 | 2010-09-21 | Google Inc. | Methods and systems for analyzing data in media material having layout |
-
2006
- 2006-11-03 US US11/592,268 patent/US7801358B2/en not_active Expired - Fee Related
- 2006-12-22 US US11/644,009 patent/US7899249B2/en active Active
-
2007
- 2007-11-05 EP EP07861696.8A patent/EP2080113B1/en active Active
- 2007-11-05 JP JP2009535346A patent/JP5134628B2/ja active Active
- 2007-11-05 WO PCT/US2007/023234 patent/WO2008057474A2/en active Application Filing
- 2007-11-05 CN CN2007800489054A patent/CN101573705B/zh active Active
- 2007-11-05 AU AU2007317938A patent/AU2007317938B2/en active Active
- 2007-11-05 CA CA2668413A patent/CA2668413C/en active Active
-
2009
- 2009-05-03 IL IL198507A patent/IL198507A/en active IP Right Grant
-
2012
- 2012-03-26 JP JP2012069249A patent/JP2012123845A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
EP2080113A4 (en) | 2016-08-10 |
CA2668413A1 (en) | 2008-05-15 |
JP2012123845A (ja) | 2012-06-28 |
IL198507A (en) | 2014-06-30 |
WO2008057474A2 (en) | 2008-05-15 |
US20080107338A1 (en) | 2008-05-08 |
WO2008057474A3 (en) | 2008-09-12 |
US20080107337A1 (en) | 2008-05-08 |
EP2080113B1 (en) | 2018-09-19 |
US7801358B2 (en) | 2010-09-21 |
AU2007317938A1 (en) | 2008-05-15 |
JP2010509656A (ja) | 2010-03-25 |
US7899249B2 (en) | 2011-03-01 |
CA2668413C (en) | 2015-06-23 |
EP2080113A2 (en) | 2009-07-22 |
IL198507A0 (en) | 2010-02-17 |
AU2007317938B2 (en) | 2011-04-28 |
CN101573705A (zh) | 2009-11-04 |
CN101573705B (zh) | 2011-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5134628B2 (ja) | 連続する記事部分の媒体資料解析 | |
Malakar et al. | A GA based hierarchical feature selection approach for handwritten word recognition | |
Jaderberg et al. | Reading text in the wild with convolutional neural networks | |
Siegel et al. | Figureseer: Parsing result-figures in research papers | |
US9886669B2 (en) | Interactive visualization of machine-learning performance | |
Dong et al. | Tablesense: Spreadsheet table detection with convolutional neural networks | |
Shahab et al. | An open approach towards the benchmarking of table structure recognition systems | |
JP2022541199A (ja) | データテーブルの画像表現に基づいて構造化されたデータベースにデータ挿入するためのシステムおよび方法。 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
KR20180107764A (ko) | 인공 지능 기술 기반의 머신 러닝을 사용하는 특허 도면 이미지에 도면 부호의 설명이 표시되도록 처리하는 방법 및 장치 | |
JP7396568B2 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
Davila et al. | Tangent-V: Math formula image search using line-of-sight graphs | |
KR101118628B1 (ko) | 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법 | |
Bhattacharya et al. | Understanding contents of filled-in Bangla form images | |
Namysł et al. | Flexible Hybrid Table Recognition and Semantic Interpretation System | |
Diem et al. | Semi-automated document image clustering and retrieval | |
US20230134218A1 (en) | Continuous learning for document processing and analysis | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
Dey et al. | Evaluation of word spotting under improper segmentation scenario | |
Cheikh Rouhou et al. | A HMM-based Arabic/Latin handwritten/printed identification system | |
Tavoli et al. | A Novel Word-Spotting Method for Handwritten Documents Using an Optimization-Based Classifier | |
WO2008057473A2 (en) | Media material analysis of continuing article portions | |
CN117312588A (zh) | 一种面向叙述性媒体数据结构化内容处理方法、系统 | |
Lenc et al. | Text Line Segmentation in Historical Newspapers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111216 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120315 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120326 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120727 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120827 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120918 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121011 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121109 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151116 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5134628 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |