JP3943638B2 - Ocrを利用しない文書画像中のドロップワードの自動認識方法 - Google Patents

Ocrを利用しない文書画像中のドロップワードの自動認識方法 Download PDF

Info

Publication number
JP3943638B2
JP3943638B2 JP32051896A JP32051896A JP3943638B2 JP 3943638 B2 JP3943638 B2 JP 3943638B2 JP 32051896 A JP32051896 A JP 32051896A JP 32051896 A JP32051896 A JP 32051896A JP 3943638 B2 JP3943638 B2 JP 3943638B2
Authority
JP
Japan
Prior art keywords
processor
word
connected component
words
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP32051896A
Other languages
English (en)
Other versions
JPH09179942A (ja
Inventor
フタンシーヌ・アール・チェン
ジョン・ダブリュー・チューキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH09179942A publication Critical patent/JPH09179942A/ja
Application granted granted Critical
Publication of JP3943638B2 publication Critical patent/JP3943638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)

Description

【0001】
【課題を解決するための手段】
OCRを実行せずに文書画像中のドロップワードを自動的に識別する技術について述べる。第1に、文書画像を分析され、等価クラスワードが識別される。それぞれの等価クラスワードは、文書中に含まれる多数個のワードのうちの少なくとも1個のワードを表す。第2に、それぞれの等価クラスワードについて、等価クラスワードがドロップワードではない可能性が求められる。第3に、文書の長さが分析され、文書が短いか否か判断される。
【0002】
【発明実施の形態】
図1に、命令44を実行することによって本方法を実施するコンピュータシステム10をブロック図の形で示す。命令44はコンピュータシステム10のオペレーションを変更し、コンピュータシステムが最初に光学式文字認識(OCR)を行わずに文書画像中のドロップワードを識別できるようにし、文書画像から文書の主題総括を作ることができるようする。
【0003】
コンピュータシステム10は、コンピュータユーザの目に見えるように情報を表示するモニタ12を備えている。コンピュータシステム10は、プリンタ13を介してコンピュータユーザに情報を出力したりもする。キーボード14により、コンピュータユーザは打鍵によってコンピュータシステム10にデータを入力することができる。コンピュータユーザは、マウス16を動かすことによって、モニタ12に表示されたポインタを移動することができる。コンピュータユーザは、スタイラスまたはペンを利用して電子タブレット18上に書くことによって、コンピュータシステム10に情報を入力することもできる。あるいは、コンピュータユーザは、ディスクをフロッピーディスクドライブ22に挿入することによって、フロッピーディスクのような磁気媒体に記憶されたデータを入力することができる。また、コンピュータユーザは、スキャナ24により、文書26の画像のハードコピーの電子バイナリ表現を入力することができる。
【0004】
プロセッサ11は、メモリ28またはディスクドライブ22内フロッピーディスク上に電子的に記憶された命令を実行することによって、各ユーザコマンドに応じた適切な動作を決定し、これを実行する。
【0005】
図2に、最初にOCRを実行せずに文書画像から文書の主題総括を作成する命令29を、フロー図の形で示す。
【0006】
プロセッサ11は、スキャナ24からの文書のページ画像と主題総括要求を受信すると、命令29の実行を開始する。最初に、プロセッサ11は、文書画像のテキストが単一配置方向に向いていると仮定し、その後、ブルームバーグ(Bloomberg)、コペック(Kopec)、デイサリ(Dasari)共著の「文書画像の傾斜と配置方向の測定(Measuring document image skew and orientation)」SPIE Conf.2422, Document Recognition II, SanJose, CA, Feb. 6ー7, 1995, pp.278−292に記述されているような既知の方法を利用して、その配置方向を判断する。プロセッサ11が有意な配置方向を見出さない場合は、文書画像には恐らくそのままで分析できるか、スキップできる程度の極く僅かなテキストしか含まれていない。その後、プロセッサ11は、文書画像の傾斜を取り除く。これにより、後のセグメンテーション分析が単純化され、後続のベースライン分析が向上される。プロセッサ11は、「文書画像の傾斜と配置方向」(同誌)で論じられている技術を利用して約0.1°以内の傾斜角度を求め、その後、2つまたは3つの直交するシアーを利用して文書画像を回転する。
【0007】
ステップ32にて、プロセッサ11は、文書画像内のテキストブロックを識別することによって、文書画像の下降型分割を開始する。第1に、プロセッサ11は、文書画像中の中間調ならびに「画像」部分を取り除く。第2に、プロセッサ11は、文書画像中のテキストブロックを識別する。最後に、プロセッサ11は、残ったどのようなラインアート成分も取り除く。
【0008】
中間調ならびに「画像」部分を取り除く好適な方法は、D.S.ブルームバーグ(Bloomberg)の「多重レゾリューション文書画像の形態解析(Multiresolution morphological analysisof document images)」SPIE Conf. 1818, Visual Communications and Image Processing ’92, Boston, MA, Nov.18−20,1992, pp.648−662に記述されている。第1に、プロセッサ11は、文書画像の中間調部分のみの画素を含むシード画像を形成する。第2に、プロセッサ11は、全部の画素をカバーするマスク画像を形成する。マスクの連結性は、中間調シードと、中間調領域をカバーする他の画素とをつなぐのに十分なものである。即ち最後に、プロセッサ11は、シードからマスクに、バイナリ復元、即ち充填、を施し、それによって中間調「マスク」を作る。次にプロセッサ11は、このマスクを利用して文書画像から「画像」部分を除去し、結果文書画像のテキストとラインアートのみを残す。
【0009】
次にプロセッサ11は、ステップ32で、隣接コラムのテキストブロックを結合しないように注意しながら、テキストブロックの識別に戻る。プロセッサ11は、文書画像の縦方向の白色スペースのマスクをマスキングすることから始める。このマスクは、文書画像を反転させてから、大きな垂直構造化素子を用いてそれをオープンすることによって作られる。次いで、プロセッサ11は、適度な大きさに構成された水平ならびに垂直構造化素子を利用してテキストブロックをクローズして、それぞれのテキストブロックから単一連結成分を作る。その後、プロセッサ11は、白色スペースマスクを除き、隣接するテキストブロックが確実に分離されるようにする。
【0010】
プロセッサ11は、ステップ32の最後のタスクに進み、直前のタスクによって生成された、テキストブロックを表さない連結成分を取り除く。プロセッサ11は、これらの成分を除くために2種類のテクニックを利用する。水平ルールのような幾つかの成分は、高さがごく低いことによって識別されうる。更に精巧な直線グラフィクスを伴う成分の識別には別のテクニックを要する。これらの成分は、テキストブロック中に特徴的に存在する内部テキストライン構造の欠如によって識別されうる。プロセッサ11は、ブロックの基礎をなす画像中のキャラクタを水平方向に連結し、存在するであろうテキストラインを一体化することによって、有効なテキストブロックとこれらの成分を区別する。次にプロセッサ11は、結果として得られた「テキストライン」成分を統計的に分析して、その平均幅と平均高、あるいは、メジアン幅とメジアン高を求める。プロセッサ11は、高さ−幅の比が十分に大きな幅を備え、且つテキストブロックの推定幅の何分の一かに相当する平均幅を備えた「テキストライン」成分を有するブロックを、テキストブロックとして標識する。プロセッサ11は、その後、高さ−幅の比が不十分な、或いは、平均幅が不十分な「テキストライン」成分を有する全ての他のブロックを無視する。
【0011】
ステップ34で、プロセッサ11はテキストブロック内のテキスト本体を識別する。プロセッサ11が総括のために主題センテンスを後から選択するのは、テキスト本体からである。プロセッサ11は、テキストの他のタイプからテキスト本体を区別する。プロセッサ11は、メジアンフォントサイズ(主要フォントサイズ)に基づいてテキストブロックを2クラスに分ける。これらのクラスは、
(1)テキストのフォントサイズが文書のメジアンサイズに近いテキストブロックを表す適合と、
(2)テキストのフォントサイズが文書のメジアンサイズからかなり大きいまたは小さいテキストブロックを表す不適合、
である。
【0012】
プロセッサ11は、ステップ36で適合テキストブロックを選択し、それらの読取り順序を判断する。プロセッサ11は、文書画像に含まれている配置情報だけに基づいてこの判断を行う。このため、正しい読み取り順が常に発見できるとは限らないが、階層的下降型分解を使用して、また、垂直な重なりを有する領域、水平な重なりを有する領域、重なりがない領域を区別することにより得ることができる。
【0013】
プロセッサ11は、垂直座標が互いに重なり合うこれらブロックセットを識別することから下降型分解を開始する。プロセッサ11は、適合テキストブロックの長方形境界ボックスの水平投影プロファイルを利用して、そのように行う。次に、これらの投影プロファイルは、ライン上のランレングスのセットとみなされ、それぞれのランレングスに関連付けられた適合テキストブロックセットは、その投影プロファイルから容易に判断される。プロセッサ11は、読取りに際して上から下に読まれるようにそれらのセットを配列する。
【0014】
次に、プロセッサ11は、それぞれのセット内のブロックの読取り順序を判断する。プロセッサ11は、適合テキストブロック内の一対のブロックを選択することから始める。通常、2ブロックが互いに重なり合うことはない。これらのケースの場合、2ブロック間に次の3種類の可能関係が存在する:
1. 一方のブロックが他方のブロックの上にあり、2ブロック間に水平方向の重なりが存在する。
2. 一方のブロックが他方のブロックの左側にあり、2ブロック間に垂直方向の重なりが存在する。
3. 2ブロック間に垂直方向の重なりも、水平方向の重なりも存在しない。
【0015】
プロセッサ11は、1対のテキストブロックが前述のいずれの関係に適合しているかに基づいて、この1対のテキストブロックの関連読取り順序を判断する。この1対のブロックが互いに重なっている場合、プロセッサ11は、ブロックに合った次の2種類の可能関係に基づいて、別々の順序付け規則を利用する:
1. 一方の重なりブロックの左上端が、他方のブロックの左上端の上方にある場合、高い方のブロックは、低い方のブロックより先に読取られる。
2. 一方の重なりブロックの左上端が、他方のブロックの左上端と同じ高さにあって、他方のブロックの左側にある場合、最も左側のブロックが、その右側のブロックより前に読取られる。
【0016】
これらの順序付け規則、ならびに、非重なりブロックについて論じられる順序付け規則は変わることは無い。
【0017】
プロセッサ11は、ステップ38にて、適合テキストブロックをテキストラインとワードに分割する。プロセッサ11は、フォントサイズを探したのと同様なオペレーションを利用して、テキストラインの場所を突きとめる。それぞれの適合テキストブロック内で、プロセッサ11は、各テキストラインを1個の連結成分に結合するのに十分な大きさの水平構造化素子による形態クロージングオペレーションを利用する。プロセッサ11は、サイズに基づいて、真のテキストラインの連結成分と、テキストのラインを表さない連結成分とを区別し、更に考察を行って、偽のテキストラインを取り除く。その後、真のテキストラインの連結成分の境界ボックスを見つける。
【0018】
次に、プロセッサ11は、各テキストライン内で連結成分の境界ボックスを見つけることによって、これらのテキストライン内のワードを見つけようとする。これを行なうために、プロセッサ11は、テキストラインについての境界ボックスを構築するために使用されたものと同様なテクニックを使用する。プロセッサ11は最初に小さな水平クロージングを利用して、各ワードのほとんどの文字を連結する。次に、プロセッサ11は、見つかったばかりの連結成分のワード境界ボックスを探す。プロセッサ11は、これらのワード境界ボックスを、各テキストライン内で水平にリストにソート処理する。プロセッサ11は、直前のオペレーションによって連結されなかったワードのほとんどを、ワード境界ボックスに関する併合オペレーションを実施することによって連結する。そのようにする際、プロセッサ11は最大水平間隙をスケーリングして、テキストラインの高さに近くする。ステップ38で利用された方法の結果、句読点は常にワードに連結されないので、プロセッサ11は、これらの小成分を配列ワードリストから除去する。
【0019】
テキストの主体の中のワード画像を識別することにより、かくしてプロセッサ11は、ステップ40にて、OCRを利用することなく同一ワードにどのワード画像が対応するかを識別することに注意を向けることが出来る。プロセッサ11は、十分に同じような形をした全部のワードを、同一ワード等価クラスに置く。そうする際、プロセッサ11は、厳格過ぎもせず、寛大過ぎもしない整合パラメータを利用しなくてはならない。過剰に厳格な整合パラメータを使用すると、同一ワードの二つの画像を異なったワード等価クラスに置く危険性を引き起こす。もし過剰に寛大な整合パラメータが使用されると、プロセッサ11は、異なったワードを同一ワード等価クラスに置く危険性に直面する。
【0020】
プロセッサ11は、ブラー・ヒットミス変換(BHMT)またはハウスドルフ変換の改変を利用して、ワード等価クラスを識別する。ステップ40にて、プロセッサ11は、選択された変換の閉込め制約条件を改変して、遠く離れたいくつかの画素が、画像のフォアグラウンドに含まれるようにする。
【0021】
ステップ40で、ワード画像内の画素数の一部分である、遠く離れた画素に関しての許容度を使用する。プロセッサ11は、テンプレートとワード画像境界ボックスの間のアライメントの一例を検証するに過ぎない。この一例は、テンプレートとワード画像境界ボックスの左上隅の一致である。
【0022】
プロセッサ11は、単一パスを利用して、ワード等価クラスを特定する。プロセッサ11は、適合ブロックの各ワード画像を分析して、既存のワード等価クラスの見本と最も整合するものを見つける。プロセッサ11が整合するものを見出すと、そのワード画像は、ワード等価クラスの例示リストに追加される。整合するものが見出されない場合、プロセッサ11は、ワード画像を利用して見本として新しいワード等価クラスを形成する。
【0023】
プロセッサ11は、ワード等価リストと、後で有用となる多数の情報とを関連付ける。これらの情報には、それぞれのワード等価クラスについて、ワード等価クラスが出現する各センテンスのセンテンスI.D.、画素単位によるワード幅、ならびに、センテンスの最初の短くないワードとしてワードが出現する回数が含まれる。あるワードが、何らかの短い冠詞または前置詞を取り除くために考慮の末に選択された所定値よりも大きな幅を備えたセンテンス内の最初のワードであった場合には、そのワードは、センテンスの最初の短くないワードと見なされる。
【0024】
ステップ42で、プロセッサ11は、適合テキストのブロック内のセンテンス境界を識別ならびに標識して、後から主題センテンスを選択できるようにする。プロセッサ11は、テキストラインのベースライン近くのピリオドを探してから、これらのピリオドの最も近くにある関連ワードを見つけることによってセンテンスを識別する。センテンスを終結するピリオドを識別するために、プロセッサ11は、ベースライン付近の胡椒をふったようなノイズ、コンマやセミコロン、省略記号のドット、コロンの下側のドット、センテンス内の略語を終わらせるドットから、ピリオドを区別しなくてはならない。また、プロセッサ11は、感嘆符や疑問符の一部を形成するドットを識別しなくてはならない。プロセッサ11は、センテンスを終わらせるピリオドの後にくる引用符を識別しなくてはならない。プロセッサ11は、測定距離に基づいて、ピリオドと、それ以外のタイプの句読点とを区別する。従って、文書画像を走査する解像度とは無関係な、検証対象フォントサイズに基づいた比較基準を利用することが重要である。望ましくは、使用される尺度は、テキストブロック内の文字の連結成分についての境界ボックスの測定されたメジアン高さである。典型的には、これは主要フォントの「x−高さ」である。
【0025】
ステップ44に入ると、プロセッサ11は直前の画像処理で生成された情報を得て、主題総括を抜き出すためのセンテンス識別を開始するばかりとなる。プロセッサ11は、ドロップワードを識別することから始める。「ドロップワード」は、主題の意味を伝えない自然言語テキストにごく頻繁に出現するワードのことである。ほとんどの代名詞、前置詞、限定詞、ならびにbe動詞が、ドロップワードに分類される。
【0026】
ある単語がドロップワードである可能性を判断する場合、多くの要因を考慮しなくてはならない。ドロップワードは文書中にごく頻繁に出現する傾向があるが、論題内容を示す他の多くの単語についてもそうである。従って、ドロップワードを識別するのに、頻繁性だけを利用することが出来ない。多くのドロップワードは短い傾向があるが、論題内容を示す多くの単語もそうである。従って、ドロップワードを識別するのに、ワード等価クラスの幅だけでは不十分である。多くのドロップワードは、センテンスの最初に出現する傾向があるが、他の論題内容ワードもそうである。そこでプロセッサ11は、画素単位によるワード幅、文書内でのその出現回数、センテンス内の最初の「幅広」ワードとして出現する回数などの要因を組み合わせたものに基づいて、或る単語がドロップワードではないという可能性を判断する。
【0027】
次にプロセッサ11は、ワード等価クラスのリストから、最もドロップワードでありそうなワード等価クラスを排除する。どのくらい多くの等価クラスをドロップワードとして排除するかは、処理される文書の長さによって異なる。
【0028】
プロセッサ11は、ステップ44で作られた縮小ワードリストを利用して主題ワードを識別する。プロセッサ11は残存ワードのうち最も頻繁に出現するものを文書内容を示すもののように見なすので、そのようなワードを主題ワードと呼ぶ。次にプロセッサ11は、主題ワードを利用して、適合テキストのブロック中の各センテンスのスコアを付ける。各センテンスのスコアを付けた後、プロセッサ11は、最もスコアの高いセンテンスを選択して抜き出す。
【0029】
プロセッサ11は、それらを、総括しようとする文書に出現する順序でコンピュータユーザに提示する。
【0030】
図3に、テキスト本体のブロックを識別する命令34をフロー図で示す。テキストの各ブロックのメジアンライン高は、ステップ32で先に求められているので、プロセッサ11は、この判断を比較的容易に行うことができる。プロセッサ11は、これらのブロックのメジアンライン高を利用して、文書全体のメジアンライン高を見つける。
【0031】
プロセッサ11は、ステップ72にて、主要フォントサイズのテキストブロックを識別し、これにフラグを付ける。主要フォントサイズと異なるフォントサイズが僅かながら存在するテキストのブロックは、適合テキストブロックとしてフラグが付けられる。
【0032】
図4、図5に、適合テキストブロックの読取り順序を判断する命令36をフロー図の形で示す。プロセッサ11は、ブロック間の垂直座標の重なりに基づいて適合テキストブロックセットを識別することから始める。プロセッサ11は、適合テキストブロックの境界ボックスの水平投影プロファイルを見つけることによって、この判定を行うことができる。それぞれの投影プロファイルは、ラインに関するランレングスセットと見なされ、それにより、プロセッサ11は垂直座標が重なるブロックを容易に識別できる。これがなされると、プロセッサ11は、上から下に適合テキストブロックのセットを配列する。
【0033】
プロセッサ11は、ステップ84にて、適合テキストブロックの各セット内のブロックの読取り順序を判断するプロセスを開始する。最初にプロセッサ11は、処理するブロックセットを選択する。次に、ステップ86にて、プロセッサ11は、選択ブロックセット内の一対のブロックを選択する。
【0034】
プロセッサ11は、選択された一対のテキストブロックが互いに交わるか否かを判断することにより、ステップ88にて利用する順序付け規則が2セットの順序付け規則のいずれか判断する。プロセッサ11は、選択された一対のテキストブロックの境界ボックスの座標を利用してこの判断を行う。もし、2つのブロックが互いに交わらなければ、プロセッサ11は、ステップ96にて、このペアのうち、最初に読取るべきブロックは左上隅が最も高いところにあるブロックであることを指示する。
【0035】
選択された一対のブロックが互いに交わらない場合、プロセッサ11はステップ90に分岐する。プロセッサ11は選択された一対のテキストブロックの相互の、ページ画像上の相対位置を求める作業を開始する。プロセッサ11は、ページ上で、この対の一方のブロックが、他方の上方にあるか否かを判断することから始める。もし一方のブロックが他方の上方にある場合、プロセッサ11はステップ92に進む。プロセッサ11は、選択された一対のテキストブロックの水平投影プロファイルに重なりがあるか否か判断する。選択された一対のブロックの水平座標が重なっている場合、プロセッサ11はステップ94に進む。このとき、プロセッサ11は、対のうちの、低い方のブロックより高い方のブロックを先に読まなくてはならないことを指示する。
【0036】
プロセッサ11が、選択された一対のブロックの間に所期の相対位置を見出せない場合、プロセッサ11はステップ110に進む。プロセッサ11は再び選択された一対のブロックの相対位置をチェックし、別のパターンに該当しないかを調べる。最初にステップ110でプロセッサ11は、この対の一方のブロックが、他方のブロックの左側にあるか否かを判断する。そうであれば、プロセッサ11はステップ112に進み、この一対のブロックの垂直座標が重なっているか否かが判断される。垂直座標が重なっている場合には、この一対のブロックは検証対象パターンに一致しており、プロセッサ11はステップ114に進む。ステップ114で、プロセッサ11は、最も左側のブロックが、対の他方のブロックより先に読取られなくてはならないと指示する。
【0037】
一対のブロックの間の所期の相対位置が見つからない場合、プロセッサ11はステップ116に進む。プロセッサ11は最初に、一対のブロックの水平座標が重なっているか否かを判断する。そうであれば、ステップ118にて、プロセッサ11は、この対の高い方のブロックを低い方のものより先に読取らなくてはならないことを指示する。一方、水平座標が重ならない場合は、ステップ120にて、プロセッサ11は、対の最も左側のブロックを他方のブロックより先に読取らなくてはならないことを指示する。
【0038】
選択された一対のブロックの間の相対的読取り順序が示されると、プロセッサ11はステップ98に達する。プロセッサ11は、選択セット内の他の一対のブロックを検証しなくてはならないか否かを明らかにする。選択されたブロックセット内のすべてのブロック対について検討がなされていない場合、プロセッサ11はステップ86に戻って、選択セット内の別の一対のブロックを選択し、前述のようにそれらを順序付けるする。一方、選択されたブロックセット内のすべてのブロック対が順序付けられている場合には、プロセッサ11はステップ100に進む。このとき、プロセッサ11は、他のブロックセットを順序付ける必要があるか否か判断する。そうであれば、プロセッサ11はステップ84に戻り、他のブロックセットを選択し、前述の方法で順序付けを行う。一方、プロセッサ11が既に全部のセットの全部のブロックの相対読取り順序を決定している場合には、プロセッサ11はステップ102に進む。プロセッサ11は、その相対読取り順序に基づいて、各セットの各ブロック内の読取り順序を決定する。
【0039】
図6に、適合テキストのブロック内のセンテンス境界を識別するための命令42の概要図を示す。
【0040】
プロセッサ11は、ステップ138にて連結成分を選択することから、命令42の実行を開始する。その後、ステップ140にて、プロセッサ11は、選択された連結成分がピリオドであるか否かを判断する。どのようにプロセッサ11がこれらの決定を行なうかについては、図6に関して詳細に説明される。これらの特性が、選択された連結成分がピリオドかもしれないことを示す場合には、プロセッサ11は、ステップ142に進む。
【0041】
ステップ142にて、プロセッサ11は、選択された連結成分がドットの形をしていてベースラインに近接している場合でさえ、ピリオドでないか否かを判断する多ステッププロセスを開始する。そうするために、プロセッサ11は、1)選択された連結成分がコロンの一部である可能性、2)選択された連結成分のドット列の一部である可能性、という2つの可能性を排除する。プロセッサ11は、最初に、選択された連結成分の、その隣接物に対する相対位置を求めることによって、選択連結成分がコロンの一部であるか否かを検証する。選択された連結成分とその隣接物の相対位置から、選択された連結成分がコロンの一部でないことが判明した場合、選択された連結成分はセンテンスの境界をマーキングする句読点の一部である可能性がある。
【0042】
ステップ144にて、プロセッサ11は、選択された連結成分とそれに続く隣接物の相対位置を比較することによって、選択された連結成分が省略記号の一部か否かを判断する。省略記号の一部でない場合、選択された連結成分はセンテンスの最後をマーキングする。
【0043】
ステップ146にて、プロセッサ11は、選択された連結成分が感嘆符または疑問符の一部であるか否かを判断する。そうであるならば、選択された連結成分はセンテンスを終結する句読点の一部である。従って、プロセッサ11はステップ148に進み、選択された連結成分をセンテンス境界としてマーキングする。
【0044】
選択された連結成分が感嘆符または疑問符の一部でない場合でも、依然としてセンテンスの最後をマーキングする場合がある。これに応じて、プロセッサ11はステップ150に分岐する。プロセッサ11は、選択された連結成分の後ろに引用符が続いているか否かを判断する。選択された連結成分の後ろに引用符がある場合、選択された成分はセンテンスの終止句読点であるが、センテンス境界の特性を表してはいない。
【0045】
プロセッサ11がステップ150の検証を行わなくとも、選択された連結成分は、依然としてセンテンスを終結するピリオドである可能性がある。この可能性を反証否定するために、可能であるならば、プロセッサ11はステップ152にて、選択された連結成分がセンテンス内の略語の一部であるか否か判断する。選択された連結成分はセンテンス内略語の一部でないとプロセッサ11が判断した場合には、プロセッサ11は、選択された連結成分はセンテンスの境界をマーキングするピリオドであるとみなす。従って、ステップ148にて、プロセッサ11は、選択された連結成分をそのようにマーキングする。
【0046】
プロセッサ11は、ステップ140、142、144の検証のいずれかに失敗した後、あるいは、センテンス境界を標識した後に、ステップ156に進む。こうしてプロセッサ11は、他の連結成分を検証し残しているか否か判断する。そうであれば、プロセッサ11はステップ138に戻り、全部の連結成分が検証されるまで命令42を実行する。全部のセンテンスの境界が標識されると、プロセッサ11は次にステップ44に分岐する。
【0047】
図7に、選択された連結成分がピリオドであるか否かを判断する命令140をフロー図の形で示す。
【0048】
最初に、ステップ170にて、プロセッサ11は選択された連結成分が胡椒をふったようなノイズであるか否かを判断する。プロセッサ11は、選択された連結成分の境界ボックスのサイズに基づいて、この点で判定を行う。境界ボックスのサイズが最小サイズより大きい場合、選択された連結成分はピリオドであろう。選択された連結成分が最小サイズより大きい場合、プロセッサ11はステップ172に進む。
【0049】
プロセッサ11は、ステップ172にて、選択された連結成分がピリオドであるか否かを判断する2番目の検証を実施する。プロセッサ11は、2つの特徴をチェックすることによって、選択された成分がドットのような形であるか否かを判断する。考慮される最初の特徴は、選択された連結成分の境界ボックスの各ディメンションのサイズである。各ディメンションは、高さxの第1分数より小さくなくてはならない。プロセッサ11が考慮する第2の特徴は、選択された連結成分の境界ボックスの2つのディメンションの間のサイズの差である。2つのディメンション間の差は、メジアン高xの第二分数より小さくなくてはならない。選択された連結成分の境界ボックスが、要求される特徴を両方とも備えている場合には、選択された連結成分は、コンマ、またはセミコロンの下側に連結された成分ではなさそうであり、ピリオドであろう。
【0050】
ステップ174にて、プロセッサ11は、選択された連結成分の位置を調べ、それがテキストラインのベースライン付近にあるか否かを確認する。先に行われたベースライン測定に何らかの小エラーがあるかも知れないので、ベースラインから何個かの画素範囲内であれば、プロセッサ11は、その選択連結成分をベースライン上にあるものとみなす。選択された連結成分が十分にベースラインに近ければ、プロセッサ11はステップ142に進む。
【0051】
選択された連結成分が所要の特徴のいずれも備えていないとプロセッサ11が判断した場合、プロセッサ11はステップ156に戻る。
【0052】
図8に、選択された連結成分がコロンであるか否かを判断する命令142をフロー図の形で示す。プロセッサ11は、選択された連結成分と、その隣接する連結成分との間の関係を考慮して、この決定を行なう。
【0053】
プロセッサ11は、その作業をステップ180から開始する。ステップ180にて、プロセッサ11は、選択された連結成分に隣接する両方の連結成分の形を吟味する。これらのいずれもがドット形でない場合、プロセッサ11は選択された連結成分がコロンの一部であるという可能性を排除する。その場合、プロセッサ11はステップ144に進む。一方、隣接する連結成分のいずれかがドット形の場合、選択された連結成分はコロンであろう。
【0054】
ステップ182で、プロセッサ11は、選択された連結成分ならびにそのドット形の隣接物が、コロンのドットのように、一方が他方の上に配置されていないか判断する。これら2個の連結成分がコロンを表示するのであれば、それらの境界ボックスは垂直に位置合わせされ、いくらかの量だけ互いに水平に重なるであろう。どのくらいの重なりであるかは重要ではない。2つの境界ボックスの間に重なりが全く無いということは、選択された連結成分がコロンの一部でないことを示し、それによりプロセッサ11はステップ182からステップ144に分岐する。選択された連結成分とそのドット形の隣接物の境界ボックス間の重なりは、選択された連結成分がコロンの一部であろうことを示すものである。
【0055】
ステップ184にて、プロセッサ11は、その最後の検証を実施して、選択された連結成分がコロンの一部であるか否かを判断する。プロセッサ11は、2つの関連連結成分の境界ボックスの上部の間の距離を調べて、隣接連結成分が、実際には、選択された連結成分以外の別のテキストラインの一部であるという可能性を排除する。これは、2つの境界ボックスの上部の間の距離が、高さxの第3分数を越える場合に最もありそうなケースである。該距離がこの分数を越える場合、選択された連結成分はコロンの一部ではなく、センテンス境界の特性を表す。プロセッサ11はステップ144に進み、この可能性を究明する。一方、2つの境界ボックスの上部の間の距離が、第3分数より小さい場合、選択された連結成分はコロンのようであり、センテンス境界をマーキングしない。その場合、プロセッサ11はステップ156に戻る。
【0056】
図9に、選択された連結成分が省略記号の一部であるか否かを判断する命令144をフロー図の形で示す。
【0057】
プロセッサ11は、ステップ190にて、選択された連結成分の次に続く連結成分が、やはりドット形であるか否かを判断することから始める。後続連結成分がドット形でない場合、選択された連結成分は省略記号の一部でない、あるいは、省略記号の最後のドットであろう。これは2つの答えが存在する曖昧な状況である。まず、省略記号が見つかった場合と同じことを行って、必ずセンテンスを終結するか、絶対に終結しないか、を検討する。次に、選択された連結成分の後の連結成分を分析して、後続連結成分が新しいセンテンスを開始しているか確認する。これが命令144で取られる方法である。選択された連結成分が省略記号の最後のドットであるかも知れない場合、プロセッサ11はステップ146に進んで、選択された連結成分がセンテンス境界の特性を表すか否かに関する他の手掛かりを探し続ける。
【0058】
後続連結成分がドット形であるので、選択された連結成分が省略記号の一部かも知れない場合、プロセッサ11はステップ192に進む。プロセッサ11は、後続連結成分がベースラインにどのくらい近接しているかを調べる。検証により、後続連結成分がベースラインに十分に近接していることが分かった場合、プロセッサ11は、選択された連結成分は省略記号の一部であると見なす。従って、プロセッサ11は、ステップ156に進む。一方、後続連結成分が、あまりベースラインに近接していない場合、選択された連結成分は省略記号の一部とはみなされず、センテンス境界をマーキングするであろう。
【0059】
図10に、選択された連結成分の次に1個または2個の引用符が続いているか否かを判断する命令150をフロー図の形で示す。
【0060】
ステップ200にて、プロセッサ11は、後続の2つの連結成分が引用符のような形であるか否かを判定する。プロセッサ11は、引用されるべき後続の二つの連結成分が三つの条件を満足するかどうかを考慮する。第1に、それぞれの引用符形の連結成分の境界ボックスの幅は、高さxの第6分数より狭くなくてはならない。第2に、引用符形の後続連結成分のそれぞれの境界ボックスの高さは、高さxの第7分数より低くなくてはならない。第3に、それぞれの引用符形の後続連結成分の境界ボックスの高さと幅の差は、高さxの第8分数より小さくなくてはならない。2つの後続連結成分の両方が、これら3つの制限のすべてを満足しない場合、選択された連結成分の後ろに引用符はなく、プロセッサ11はステップ152に進む。一方、後続連結成分の1個または両方が、3個全部の制限を満足する場合は、プロセッサ11はステップ154に進む。
【0061】
プロセッサ11は、ステップ202にて、選択された連結成分の位置に対する後続連結成分の位置を検証する。後続連結成分は、引用符となるに十分なほど、選択連結成分の上方にあるのだろうか。プロセッサは、高さxの第4分数を利用して、この疑問に答える。後続連結成分が、選択された連結成分の上部よりも十分に上方にない場合、選択された連結成分の後に引用符はない。プロセッサ11は、ステップ152に進むことによって、これに応じる。プロセッサ11が、これとは逆のことを見出した場合、つまり、後続連結成分境界ボックスの上部が、選択された成分n境界ボックスの上部から少なくとも第4分数だけ上方にある場合、プロセッサ11はステップ204に分岐する。
【0062】
ステップ204にて、プロセッサ11は、少なくとも1回、最後の検証を行って、2つの後続連結成分のうちの一方が引用符であるか否かを判断する。後続連結成分のうちの一方または両方が引用符の形をしていて、選択された連結成分の十分上方に離れた位置にあるとしても、それが選択された連結成分に水平方向に十分に近くなければ、依然として引用符ではない。プロセッサ11は、両方の連結成分の左側間の距離を水平方向に測定することによって、これを判断する。この距離は、高さxの第5分数より狭くなくてはならない。この2つの連結成分がそれほど近接していない場合、プロセッサ11は、ステップ152に進む。一方、後続連結成分が、引用符であるに十分なほど、選択された連結成分に近く続いている場合、プロセッサ11はステップ204からステップ148に進む。
【0063】
図11に、選択された連結成分がセンテンス内の略語の一部であるか否かを判断する命令152をフロー図の形で示す。後続連結成分の相対位置が、選択された連結成分に対して正しい場合、或いは、後続連結成分が大文字である場合には、選択された連結成分は、センテンス内略語の一部のようには見えない。後続連結成分がこれらの要求のいずれも満足しない場合には、選択された連結成分はセンテンス内略語の一部と見なされ、センテンス境界をマークしない。
【0064】
ステップ210にて、プロセッサ11は、選択された連結成分に対する後続連結成分の位置が、センテンスを終結するものと矛盾しないものであるか否かを判定する作業を開始する。最初に、ステップ210で、プロセッサ11は、後続連結成分が、選択された連結成分と同じテキストラインの一部であるか否かを判定する。プロセッサ11はそのようにすることにより、隣接するテキストライン間の垂直方向の離間が非常に小さいという理由で、選択連結成分の下のラインと関連のある連結成分が、テキストライン境界ボックスの一部としてとらえられる可能性を排除する。この判定を行うために、プロセッサ11は、選択された連結成分と後続の連結成分の境界ボックスの上部の間の垂直方向距離を測定する。2つの連結成分間の垂直方向距離が、高さxの第9分数を越えている場合、この2つの連結成分は同一テキストラインに属さない。
【0065】
2つの連結成分が同一テキストラインに属さないことが判明すると、プロセッサ11はステップ210からステップ212に分岐する。プロセッサ11は、次に、この後続連結成分の右側にある隣接物を、新しい後続連結成分とする。その後、プロセッサ11は、ステップ210に戻る。
【0066】
結局、プロセッサ11は、同一テキストラインに含まれている選択連結成分の後に続く連結成分が、テキストラインの最後に達する前の選択連結成分であると判断するであろう。これが発生した場合、プロセッサ11はステップ214に分岐する。かくしてプロセッサ11は、選択された連結成分と後続連結成分の相対位置が、別のセンテンスを開始する大文字となる後続連結成分であることに矛盾しないか否かを判断する作業を開始する。ステップ214で、プロセッサ11は、後続連結成分が、選択された連結成分の左側に十分に離れているか否かを判断する。後続連結成分は、その境界ボックスの左端が、選択された連結成分の境界ボックスの左端から、高さxの第10分数だけ離れていれば、十分に離れていると見なされる。2つの連結成分が互いにそれほど離れていない場合、プロセッサ11は、選択された連結成分をセンテンス内の略語の一部と見なし、ステップ156に分岐する。他方、2つの連結成分間の距離が十分に大きい場合、後続連結成分は、別のセンテンスの最初であるかも知れない。
【0067】
ステップ216にて、プロセッサ11は、後続連結成分が大文字であるに十分なほど大きいか否かを判断する。プロセッサ11は、後続連結成分の高さを、高さxの第11分数と比較することによって、この判定を行う。この高さが第11分数を越えない場合、プロセッサ11は、後続連結成分を大文字と見なさないし、選択された連結成分をセンテンスを終結するピリオドとも見なさない。その代わり、プロセッサ11はステップ156に分岐する。一方、後続連結成分の高さが第11分数を越える場合、後続連結成分は大文字であろう。
【0068】
プロセッサ11は、後続連結成分がベースラインにどのくらい近接しているかを調べることによって、後続連結成分が、新センテンスを開始する大文字であるという仮説を検証し続ける。大文字は、ベースラインに乗るので、後続連結成分の下部は、それが大文字であるならば、ベースラインに近接するはずである。プロセッサ11は、ベースラインと後続連結成分の境界ボックスの下部の距離が数画素を越えなければ、後続連結成分はベースラインに近いと見なす。後続連結成分の下部が、ベースラインから相当に離れている場合、プロセッサ11はステップ156に進み、選択された連結成分をセンテンス内の略語とみなす。逆に、後続連結成分の下部がベースラインに十分に近接している場合、後続連結成分は大文字であり、新センテンスの文頭であろう。
【0069】
プロセッサ11は、ステップ220にて、後続連結成分が新センテンスの最初か否かを判断する最後の検証を実施する。プロセッサ11は、後続連結成分を、その右側の隣接物の高さと比較する。この連結成分を、右隣接物と呼ぶ。大文字よりも高い文字はほとんどないので、後続連結成分の高さと比較して右隣接物の高さが非常に大きい場合、後続連結成分は恐らく新センテンスを開始しなであろう。プロセッサ11は、2つの連結成分の高さの差を第12分数と比較することによって、この判断を行う。右隣接物の高さが、後続連結成分の高さより、第12分数を越えて大きい場合、プロセッサ11はステップ156に分岐し、選択された連結成分をセンテンス内の略語と見なす。逆に、2つの連結成分間の高さの差が第12分数より小さい場合、プロセッサ11は、選択された連結成分を、センテンスを終結するピリオドと見なして、ステップ148に分岐する。
【0070】
図12に、ワードリストからドロップワードを識別して削除する命令44をフロー図の形で示す。命令44の実行は、ステップ230で開始される。
【0071】
プロセッサ11は、各ワードごとに、そのワードがドロップワードではない可能性を推測することから始める。この可能性を判断するために、画素単位でのワード幅、適合テキストブロック内でのワードの出現回数、文書内のワード総数、センテンス内の最初の短くないワードとしてそのワードが出現する回数、といった多数の要因が利用される。短くないワードというのは、「the」のような、所定の短ワードよりも十分に大きいワードのことである。
【0072】
一般に「the」は、文書中で最も頻繁に出現するワードであるので、プロセッサ11は通常、ワード等価クラスからそれを識別することができる。「the」を表すワード等価クラスを識別するために、プロセッサ11は最初に、出現頻度に基づいてワード等価クラスを順序付ける。「the」の場所を確実に突きとめるために、プロセッサ11は、最も頻繁に出現するワード等価クラスの幅と、最も狭い頻繁出現ワード等価クラスの幅を比較する。プロセッサ11は、20〜50の最も頻繁に出現するワード等価クラスを探索することによって、最も狭い頻繁出現ワードを識別する。プロセッサ11は、最も頻繁に出現するワード等価クラスの幅が最も狭い頻繁出現ワード等価クラスの幅の少なくとも4倍である場合に「the」を識別した、と仮定する。プロセッサ11が「the」を識別すると、それは選択された短ワードとして利用される。他方、プロセッサ11が「the」を識別しなかった場合、最も狭い頻繁出現ワード等価クラスが、選択短ワードとして利用される。
【0073】
短くないワードは、デザイン上の選択であるので、ワード等価クラスが、選択短ワードよりどのくらい広いかは指定されなくてはならない。一実施例において、選択短ワードが「the」の場合、短くないワードは、選択短ワード幅の1.2倍である。選択短ワードが最も狭い頻繁出現ワード等価クラスの場合、短くないワードは、選択短ワードの何倍かの広さでなくてはならない。
【0074】
各センテンスの最初の短くないワードを識別した後、プロセッサ11は、各ワードがドロップワードではないという可能性を推測する。好ましくは、プロセッサ11は、次の式により、この可能性の指標を計算する。
【0075】
L=(ωi/ωthe)*(1+bi/fi)+(c*W/fi
式中、
Lは、ワードがドロップワードでない可能性の指標、
ωiは、ワードiの画素単位幅、
ωtheは、「the」というワードの画素単位幅、
iは、適合テキストブロックの一つにおいて、センテンスの最初の短くないワードとしてワードiが出現した回数、
iは、適合テキストブロックにおけるワードiの出現回数、
cは、2項の間の一定重み付け係数、
Wは、文書中のワード総数、である。
【0076】
式の最初の項である(ωi/ωthe)*(1+bi/fi)は、内容ワードとしてセンテンスの最初に出現する傾向のある長いワードに好都合に作用し、次の項(c*W/fi)は、内容ワードとしてセンテンスに比較的少なく出現する傾向のあるワードに好都合に作用する。
【0077】
その類似の指標が、各ワード等価クラスがドロップワードでないと決定された場合には、プロセッサ11は、ドロップワードではないという可能性に基づいて、ワード等価クラスを順序付ける。その後、この順序は逆順にされて、ドロップワードであるという可能性に基づいたワード等価クラスの順序付けを生じる。
【0078】
プロセッサ11はステップ232に進み、文書が短いか長いかを判定する。これは単純に、ワード等価クラス総数を、いくつかの閾値と比較することにより行われる。文書が短いものであれば、プロセッサ11はステップ234に分岐し、ドロップワードである可能性が最も高いX個のワードをドロップワードとして削除する。但し、Xは文書の長さに比例する。他方、文書が長いものである場合、プロセッサ11はステップ232からステップ236に進む。この場合、プロセッサ11は、ドロップワードである可能性が最も高いY個のワードを、ドロップワードとして削除する。但し、Yは定数である。
【0079】
図13に、主題センテンスを抜き出す命令46をフロー図の形で示す。プロセッサ11は、デフォルトの長さからSで示される主題総括の長さを変更する機会をコンピュータユーザに与えることにより開始することが望ましい。主題総括のデフォルトの長さは、文書内のセンテンス数より少ない任意のセンテンス数とすることができる。
【0080】
ステップ248にて、プロセッサ11は、主題センテンスの選択に利用する主題ワード数を求める。主題ワード数はKで示されている。一般に、Kは、Sより小さく、1より大きい。KがSより小さいことを要求することにより、選択主題センテンス間の主題の共通性が保証される。
【0081】
ステップ150で、プロセッサ11は、主題ワードを選択するプロセスを開始する。プロセッサ11は、ワードリストを分析して、文書中に各ワード等価クラスが出現する回数を求める。これは、単に、各ワードと関連のあるセンテンスI.D.の数を数えることによって行われる。その後、プロセッサ11は、計数、すなわち、文書内の各ワード等価クラスの総発生回数に基づいてワードをソート処理する。同計数を有する2個のワードの引分け関係は、ワード画像の幅の広いほうに有利に破られる。その後、プロセッサ11はステップ252に進む。次にプロセッサ11は、ソート処理されたワードリストから、最も計数の高かったK個のワードを選択する。これが済むと、プロセッサ11はステップ254に進む。
【0082】
ステップ254で、プロセッサ11は、文書中のK個の主題ワードの総出現回数を計算する。Nで示されるこの数字は、K個の主題ワードの計数を合計することによって算出される。プロセッサ11は、ステップ256に分岐する。
【0083】
ステップ256、258、260、262にて、プロセッサ11は、K個の主題ワードの少なくとも1個を含んでいるセンテンスだけを検討する。プロセッサ11は、記憶されたワードリストのうちで、最もスコアの高かったK個のワードを調べることによって、そのように行う。ステップ256にて、tsで示される1個のワードを選択した後、プロセッサ11は、選択ワードtsと関係のある各センテンスI.D.を調べる。選択ワードtsと関係のある各センテンスI.D.に対し、プロセッサ11は、ステップ258で、そのセンテンスのスコアを増分する。
【0084】
センテンスのスコアは、ステップ258にてセンテンススコアリストを作成することによって追跡できる。プロセッサ11がセンテンスI.D.を選択するたびに、センテンススコアリストは、それにセンテンスI.D.が含まれているか否か、調べられる。含まれていない場合には、センテンススコアリストにセンテンスI.D.が加えられ、そのスコアが適宜に増加される。他方、センテンススコアリストに既に特定のセンテンスI.D.が含まれている場合、既にセンテンスに関連付けられているスコアは、増分される。
【0085】
選択ワードtsに関連付けられた全部のセンテンスのスコアを増分した後、プロセッサ11はステップ260に分岐する。プロセッサ11は、主題ワードの評価が済んだか否かを判断する。評価が済んでいない場合には、プロセッサ11はステップ256に戻り、選択ワードとして別の主題ワードを選択する。プロセッサ11は、全部の主題ワードの検証がなされるまで、先に述べた様にステップ256、258、260を経て分岐する。全てが評価済みという事象が発生すると、プロセッサ11はステップ262に分岐する。
【0086】
ステップ262で、プロセッサ11は、最もスコアの高いS個のセンテンスを主題総括として選択する。プロセッサ11は、スコアに基づいてセンテンススコアリストをソート処理することによって、これを行う。主題センテンスを選択した後、プロセッサ11は、ユーザに主題総括を提示する場合もある。
【図面の簡単な説明】
【図1】 命令を実行することによって本方法を実施するコンピュータシステムのブロック図である。
【図2】 最初にOCRを実行せずに文書画像から文書の主題総括を作る命令のフロー図である。
【図3】 テキスト本体のブロックを識別する命令のフロー図である。
【図4】 適合テキストブロックの読取り順序を判断する命令のフロー図の第1の部分である。
【図5】 適合テキストブロックの読取り順序を判断する命令のフロー図の第2の部分である。
【図6】 適合テキストのブロック内のセンテンス境界を識別するためにプロセッサ11が実行する命令の概要図である。
【図7】 選択された連結成分がピリオドであるか否かを判断する命令のフロー図である。
【図8】 選択された連結成分がコロンであるか否かを判断する命令のフロー図である。
【図9】 選択された連結成分が省略記号の一部であるか否かを判断する命令のフロー図である。
【図10】 選択された連結成分の次に1個または2個の引用符が続いているか否かを判断する命令のフロー図である。
【図11】 選択された連結成分がセンテンス内の略語の一部であるか否かを判断する命令のフロー図である。
【図12】 ワードリストからドロップワードを識別して削除する命令のフロー図である。
【図13】 主題センテンスを抜き出す命令のフロー図である。
【符号の説明】
10 コンピュータシステム
11 プロセッサ
12 モニタ
13 プリンタ
14 キーボード
16 マウス
18 電子タブレット
22 フロッピーディスクドライブ
24 スキャナ
26 文書
28 半導体メモリ

Claims (3)

  1. 第1の多数のセンテンスと、各々がフォントサイズを備えた第2の多数の出現ワードを含む文書画像中のドロップワードを光学式文字認識を実施せずに識別する方法であって、プロセッサに結合されたメモリに電子形式で記憶された命令を実行することによってプロセッサが実施する方法であり、
    a) 文書画像中の主要フォントサイズを識別するためにプロセッサによって命令を実行するステップと、
    b) 文書画像中の主要フォントサイズのセンテンスのセンテンス境界を識別するためにプロセッサによって命令を実行するステップと、
    c) 文書画像を分析して、主要フォントサイズの等価クラスワードであって、第2の多数の出現ワードのうちの少なくとも1個の出現ワードをそれぞれが含む等価クラスワードを識別するためにプロセッサによって命令を実行するステップと、
    d) 各等価クラスワードについて、各等価クラスワードの幅、等価クラスワードの出現回数、等価クラスワードがセンテンスの最初の短くないワードとして出現する回数に基づいて、等価クラスワードがドロップワードではない可能性を求めるためにプロセッサによって命令を実行するステップと、
    e) 等価クラスワードがドロップワードである可能性に基づいて、ドロップワードとしての等価クラスワードの数を指定するためにプロセッサによって命令を実行するステップと
    を含む前記方法。
  2. 請求項1に記載の方法において、ステップd)が、
    式: L=(ωi/ωthe)*(1+bi/fi)+(c*W/fi)
    式中、
    Lは、ワードがドロップワードでない可能性の指標、
    ωiは、ワードiの画素単位幅、
    ωtheは、theというワードの画素単位幅、
    biは、適合テキストブロックの一つにおいて、センテンスの最初の短くないワードとしてワードiが出現した回数、
    fiは、適合テキストブロックにおけるワードiの出現回数、
    cは、2項の間の一定重み付け係数、
    Wは、文書中のワード総数、
    を利用して、等価クラスワードがドロップワードでない可能性を求めるためにプロセッサによって命令を実行するステップを含むことを特徴とする前記方法。
  3. a) メモリと、
    b) メモリとやり取りするプロセッサと、
    c) 第1の多数のセンテンスと各々がフォントサイズを備えた第2の多数の出現ワードを含む文書画像中のドロップワードを光学式文字認識を実施せずに識別する方法をプロセッサに実施させるのための、メモリ内に記憶された実行可能な命令とを含む製造品であって、前記方法が
    1) 文書画像中の主要フォントサイズを識別するためにプロセッサによって命令を実行するステップと、
    2) 文書画像中の主要フォントサイズのセンテンスのセンテンス境界を識別するためにプロセッサによって命令を実行するステップと、
    3) 文書画像を分析して、主要フォントサイズの等価クラスワードであって、第2の多数の出現ワードのうちの少なくとも1個の出現ワードをそれぞれが含む等価クラスワードを識別するためにプロセッサによって命令を実行するステップと、
    4) 各等価クラスワードについて、各等価クラスワードの幅、等価クラスワードの出現回数、等価クラスワードがセンテンスの最初の短くないワードとして出現する回数に基づいて、等価クラスワードがドロップワードではない可能性を求めるためにプロセッサによって命令を実行するステップと、
    5) 等価クラスワードがドロップワードである可能性に基づいて、ドロップワードとしての等価クラスワードの数を指定するためにプロセッサによって命令を実行するステップと
    を含む製造品。
JP32051896A 1995-12-14 1996-11-29 Ocrを利用しない文書画像中のドロップワードの自動認識方法 Expired - Fee Related JP3943638B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US572847 1995-12-14
US08/572,847 US5850476A (en) 1995-12-14 1995-12-14 Automatic method of identifying drop words in a document image without performing character recognition

Publications (2)

Publication Number Publication Date
JPH09179942A JPH09179942A (ja) 1997-07-11
JP3943638B2 true JP3943638B2 (ja) 2007-07-11

Family

ID=24289608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32051896A Expired - Fee Related JP3943638B2 (ja) 1995-12-14 1996-11-29 Ocrを利用しない文書画像中のドロップワードの自動認識方法

Country Status (4)

Country Link
US (1) US5850476A (ja)
EP (1) EP0779592B1 (ja)
JP (1) JP3943638B2 (ja)
DE (1) DE69616246T2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6289121B1 (en) * 1996-12-30 2001-09-11 Ricoh Company, Ltd. Method and system for automatically inputting text image
RU2145115C1 (ru) * 1998-08-10 2000-01-27 Закрытое акционерное общество "Аби Программное обеспечение" Групповой способ аби (abbyy) верификации компьютерных кодов с соответствующими им оригиналами
RU2165641C2 (ru) * 1999-03-10 2001-04-20 Закрытое акционерное общество "Аби Программное обеспечение" Способ взаимосвязанного активирования компьютерных кодов в виде символов и соответствующих им фрагментов изображения
RU2166209C2 (ru) * 1999-03-15 2001-04-27 Закрытое акционерное общество "Аби Программное обеспечение" Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения
US6466211B1 (en) * 1999-10-22 2002-10-15 Battelle Memorial Institute Data visualization apparatuses, computer-readable mediums, computer data signals embodied in a transmission medium, data visualization methods, and digital computer data visualization methods
US7010478B2 (en) * 2001-02-12 2006-03-07 Microsoft Corporation Compressing messages on a per semantic component basis while maintaining a degree of human readability
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
US8233722B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties
US8548193B2 (en) * 2009-09-03 2013-10-01 Palo Alto Research Center Incorporated Method and apparatus for navigating an electronic magnifier over a target document
US8086039B2 (en) * 2010-02-05 2011-12-27 Palo Alto Research Center Incorporated Fine-grained visual document fingerprinting for accurate document comparison and retrieval
US9514103B2 (en) * 2010-02-05 2016-12-06 Palo Alto Research Center Incorporated Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US8750624B2 (en) 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
US8554021B2 (en) 2010-10-19 2013-10-08 Palo Alto Research Center Incorporated Finding similar content in a mixed collection of presentation and rich document content using two-dimensional visual fingerprints
CN103400057A (zh) * 2010-12-31 2013-11-20 北京安码科技有限公司 网页文字防拷贝的方法及其装置
US8831350B2 (en) * 2011-08-29 2014-09-09 Dst Technologies, Inc. Generation of document fingerprints for identification of electronic document types
US9111140B2 (en) 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
CN104361081A (zh) * 2014-11-13 2015-02-18 河海大学 一种基于web文档的自动摘要方法
US9411547B1 (en) 2015-07-28 2016-08-09 Dst Technologies, Inc. Compensation for print shift in standardized forms to facilitate extraction of data therefrom

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3930237A (en) * 1974-03-07 1975-12-30 Computervision Corp Method for automating the production of engineering documentation utilizing an integrated digital data base representation of the documentation
US4194221A (en) * 1978-12-26 1980-03-18 Xerox Corporation Automatic multimode continuous halftone line copy reproduction
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4907283A (en) * 1987-03-13 1990-03-06 Canon Kabushiki Kaisha Image processing apparatus
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5131049A (en) * 1989-12-08 1992-07-14 Xerox Corporation Identification, characterization, and segmentation of halftone or stippled regions of binary images by growing a seed to a clipping mask
US5202933A (en) * 1989-12-08 1993-04-13 Xerox Corporation Segmentation of text and graphics
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5495349A (en) * 1990-01-13 1996-02-27 Canon Kabushiki Kaisha Color image processing apparatus that stores processing parameters by character data
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
JP2829937B2 (ja) * 1990-08-06 1998-12-02 キヤノン株式会社 画像検索方法及び装置
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word
JP2925359B2 (ja) * 1991-06-19 1999-07-28 キヤノン株式会社 文字処理方法及び装置
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5390259A (en) * 1991-11-19 1995-02-14 Xerox Corporation Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
US5488719A (en) * 1991-12-30 1996-01-30 Xerox Corporation System for categorizing character strings using acceptability and category information contained in ending substrings
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
JPH0696288A (ja) * 1992-09-09 1994-04-08 Toshiba Corp 文字認識装置及び機械翻訳装置
NL9300310A (nl) * 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US5396566A (en) * 1993-03-04 1995-03-07 International Business Machines Corporation Estimation of baseline, line spacing and character height for handwriting recognition
US5384864A (en) * 1993-04-19 1995-01-24 Xerox Corporation Method and apparatus for automatic determination of text line, word and character cell spatial features
US5444797A (en) * 1993-04-19 1995-08-22 Xerox Corporation Method and apparatus for automatic character script determination
US5638543A (en) * 1993-06-03 1997-06-10 Xerox Corporation Method and apparatus for automatic document summarization
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置

Also Published As

Publication number Publication date
JPH09179942A (ja) 1997-07-11
EP0779592A3 (en) 1998-01-14
EP0779592B1 (en) 2001-10-24
US5850476A (en) 1998-12-15
DE69616246T2 (de) 2002-05-29
DE69616246D1 (de) 2001-11-29
EP0779592A2 (en) 1997-06-18

Similar Documents

Publication Publication Date Title
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
US5848191A (en) Automatic method of generating thematic summaries from a document image without performing character recognition
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US10417489B2 (en) Aligning grid lines of a table in an image of a filled-out paper form with grid lines of a reference table in an image of a template of the filled-out paper form
JP5240047B2 (ja) キーワード識別方法及装置
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH05217019A (ja) ビジネスフォーム識別システム及び画像処理システム
CN107330430B (zh) 藏文字符识别装置与方法
KR20170101125A (ko) 정보 처리장치, 정보 처리방법, 및 기억매체
US6496600B1 (en) Font type identification
JP2019016350A (ja) 電子文書における強調テキストの識別
US7146047B2 (en) Image processing apparatus and method generating binary image from a multilevel image
Hesham et al. Arabic document layout analysis
JP2008028716A (ja) 画像処理方法及び装置
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JPH07220023A (ja) 表認識方法及びその装置
JP4418726B2 (ja) 文字列探索装置、探索方法およびこの方法のプログラム
JP2020047138A (ja) 情報処理装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP4159071B2 (ja) 画像処理方法,画像処理装置および該処理方法を実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
Correll Improving Visual Statistics

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees