JP3943638B2

JP3943638B2 - Ｏｃｒを利用しない文書画像中のドロップワードの自動認識方法

Info

Publication number: JP3943638B2
Application number: JP32051896A
Authority: JP
Inventors: フタンシーヌ・アール・チェン; ジョン・ダブリュー・チューキ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-12-14
Filing date: 1996-11-29
Publication date: 2007-07-11
Anticipated expiration: 2016-11-29
Also published as: JPH09179942A; EP0779592A3; EP0779592B1; US5850476A; DE69616246T2; DE69616246D1; EP0779592A2

Description

【０００１】
【課題を解決するための手段】
ＯＣＲを実行せずに文書画像中のドロップワードを自動的に識別する技術について述べる。第１に、文書画像を分析され、等価クラスワードが識別される。それぞれの等価クラスワードは、文書中に含まれる多数個のワードのうちの少なくとも１個のワードを表す。第２に、それぞれの等価クラスワードについて、等価クラスワードがドロップワードではない可能性が求められる。第３に、文書の長さが分析され、文書が短いか否か判断される。
【０００２】
【発明実施の形態】
図１に、命令４４を実行することによって本方法を実施するコンピュータシステム１０をブロック図の形で示す。命令４４はコンピュータシステム１０のオペレーションを変更し、コンピュータシステムが最初に光学式文字認識（ＯＣＲ）を行わずに文書画像中のドロップワードを識別できるようにし、文書画像から文書の主題総括を作ることができるようする。
【０００３】
コンピュータシステム１０は、コンピュータユーザの目に見えるように情報を表示するモニタ１２を備えている。コンピュータシステム１０は、プリンタ１３を介してコンピュータユーザに情報を出力したりもする。キーボード１４により、コンピュータユーザは打鍵によってコンピュータシステム１０にデータを入力することができる。コンピュータユーザは、マウス１６を動かすことによって、モニタ１２に表示されたポインタを移動することができる。コンピュータユーザは、スタイラスまたはペンを利用して電子タブレット１８上に書くことによって、コンピュータシステム１０に情報を入力することもできる。あるいは、コンピュータユーザは、ディスクをフロッピーディスクドライブ２２に挿入することによって、フロッピーディスクのような磁気媒体に記憶されたデータを入力することができる。また、コンピュータユーザは、スキャナ２４により、文書２６の画像のハードコピーの電子バイナリ表現を入力することができる。
【０００４】
プロセッサ１１は、メモリ２８またはディスクドライブ２２内フロッピーディスク上に電子的に記憶された命令を実行することによって、各ユーザコマンドに応じた適切な動作を決定し、これを実行する。
【０００５】
図２に、最初にＯＣＲを実行せずに文書画像から文書の主題総括を作成する命令２９を、フロー図の形で示す。
【０００６】
プロセッサ１１は、スキャナ２４からの文書のページ画像と主題総括要求を受信すると、命令２９の実行を開始する。最初に、プロセッサ１１は、文書画像のテキストが単一配置方向に向いていると仮定し、その後、ブルームバーグ（Ｂｌｏｏｍｂｅｒｇ）、コペック（Ｋｏｐｅｃ）、デイサリ（Ｄａｓａｒｉ）共著の「文書画像の傾斜と配置方向の測定（Ｍｅａｓｕｒｉｎｇｄｏｃｕｍｅｎｔｉｍａｇｅｓｋｅｗａｎｄｏｒｉｅｎｔａｔｉｏｎ）」ＳＰＩＥＣｏｎｆ．２４２２，ＤｏｃｕｍｅｎｔＲｅｃｏｇｎｉｔｉｏｎＩＩ，ＳａｎＪｏｓｅ，ＣＡ，Ｆｅｂ．６ー７，１９９５，ｐｐ．２７８−２９２に記述されているような既知の方法を利用して、その配置方向を判断する。プロセッサ１１が有意な配置方向を見出さない場合は、文書画像には恐らくそのままで分析できるか、スキップできる程度の極く僅かなテキストしか含まれていない。その後、プロセッサ１１は、文書画像の傾斜を取り除く。これにより、後のセグメンテーション分析が単純化され、後続のベースライン分析が向上される。プロセッサ１１は、「文書画像の傾斜と配置方向」（同誌）で論じられている技術を利用して約０．１°以内の傾斜角度を求め、その後、２つまたは３つの直交するシアーを利用して文書画像を回転する。
【０００７】
ステップ３２にて、プロセッサ１１は、文書画像内のテキストブロックを識別することによって、文書画像の下降型分割を開始する。第１に、プロセッサ１１は、文書画像中の中間調ならびに「画像」部分を取り除く。第２に、プロセッサ１１は、文書画像中のテキストブロックを識別する。最後に、プロセッサ１１は、残ったどのようなラインアート成分も取り除く。
【０００８】
中間調ならびに「画像」部分を取り除く好適な方法は、Ｄ．Ｓ．ブルームバーグ（Ｂｌｏｏｍｂｅｒｇ）の「多重レゾリューション文書画像の形態解析（Ｍｕｌｔｉｒｅｓｏｌｕｔｉｏｎｍｏｒｐｈｏｌｏｇｉｃａｌａｎａｌｙｓｉｓｏｆｄｏｃｕｍｅｎｔｉｍａｇｅｓ）」ＳＰＩＥＣｏｎｆ．１８１８，ＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ ’９２，Ｂｏｓｔｏｎ，ＭＡ，Ｎｏｖ．１８−２０，１９９２，ｐｐ．６４８−６６２に記述されている。第１に、プロセッサ１１は、文書画像の中間調部分のみの画素を含むシード画像を形成する。第２に、プロセッサ１１は、全部の画素をカバーするマスク画像を形成する。マスクの連結性は、中間調シードと、中間調領域をカバーする他の画素とをつなぐのに十分なものである。即ち最後に、プロセッサ１１は、シードからマスクに、バイナリ復元、即ち充填、を施し、それによって中間調「マスク」を作る。次にプロセッサ１１は、このマスクを利用して文書画像から「画像」部分を除去し、結果文書画像のテキストとラインアートのみを残す。
【０００９】
次にプロセッサ１１は、ステップ３２で、隣接コラムのテキストブロックを結合しないように注意しながら、テキストブロックの識別に戻る。プロセッサ１１は、文書画像の縦方向の白色スペースのマスクをマスキングすることから始める。このマスクは、文書画像を反転させてから、大きな垂直構造化素子を用いてそれをオープンすることによって作られる。次いで、プロセッサ１１は、適度な大きさに構成された水平ならびに垂直構造化素子を利用してテキストブロックをクローズして、それぞれのテキストブロックから単一連結成分を作る。その後、プロセッサ１１は、白色スペースマスクを除き、隣接するテキストブロックが確実に分離されるようにする。
【００１０】
プロセッサ１１は、ステップ３２の最後のタスクに進み、直前のタスクによって生成された、テキストブロックを表さない連結成分を取り除く。プロセッサ１１は、これらの成分を除くために２種類のテクニックを利用する。水平ルールのような幾つかの成分は、高さがごく低いことによって識別されうる。更に精巧な直線グラフィクスを伴う成分の識別には別のテクニックを要する。これらの成分は、テキストブロック中に特徴的に存在する内部テキストライン構造の欠如によって識別されうる。プロセッサ１１は、ブロックの基礎をなす画像中のキャラクタを水平方向に連結し、存在するであろうテキストラインを一体化することによって、有効なテキストブロックとこれらの成分を区別する。次にプロセッサ１１は、結果として得られた「テキストライン」成分を統計的に分析して、その平均幅と平均高、あるいは、メジアン幅とメジアン高を求める。プロセッサ１１は、高さ−幅の比が十分に大きな幅を備え、且つテキストブロックの推定幅の何分の一かに相当する平均幅を備えた「テキストライン」成分を有するブロックを、テキストブロックとして標識する。プロセッサ１１は、その後、高さ−幅の比が不十分な、或いは、平均幅が不十分な「テキストライン」成分を有する全ての他のブロックを無視する。
【００１１】
ステップ３４で、プロセッサ１１はテキストブロック内のテキスト本体を識別する。プロセッサ１１が総括のために主題センテンスを後から選択するのは、テキスト本体からである。プロセッサ１１は、テキストの他のタイプからテキスト本体を区別する。プロセッサ１１は、メジアンフォントサイズ（主要フォントサイズ）に基づいてテキストブロックを２クラスに分ける。これらのクラスは、
（１）テキストのフォントサイズが文書のメジアンサイズに近いテキストブロックを表す適合と、
（２）テキストのフォントサイズが文書のメジアンサイズからかなり大きいまたは小さいテキストブロックを表す不適合、
である。
【００１２】
プロセッサ１１は、ステップ３６で適合テキストブロックを選択し、それらの読取り順序を判断する。プロセッサ１１は、文書画像に含まれている配置情報だけに基づいてこの判断を行う。このため、正しい読み取り順が常に発見できるとは限らないが、階層的下降型分解を使用して、また、垂直な重なりを有する領域、水平な重なりを有する領域、重なりがない領域を区別することにより得ることができる。
【００１３】
プロセッサ１１は、垂直座標が互いに重なり合うこれらブロックセットを識別することから下降型分解を開始する。プロセッサ１１は、適合テキストブロックの長方形境界ボックスの水平投影プロファイルを利用して、そのように行う。次に、これらの投影プロファイルは、ライン上のランレングスのセットとみなされ、それぞれのランレングスに関連付けられた適合テキストブロックセットは、その投影プロファイルから容易に判断される。プロセッサ１１は、読取りに際して上から下に読まれるようにそれらのセットを配列する。
【００１４】
次に、プロセッサ１１は、それぞれのセット内のブロックの読取り順序を判断する。プロセッサ１１は、適合テキストブロック内の一対のブロックを選択することから始める。通常、２ブロックが互いに重なり合うことはない。これらのケースの場合、２ブロック間に次の３種類の可能関係が存在する：
１．一方のブロックが他方のブロックの上にあり、２ブロック間に水平方向の重なりが存在する。
２．一方のブロックが他方のブロックの左側にあり、２ブロック間に垂直方向の重なりが存在する。
３．２ブロック間に垂直方向の重なりも、水平方向の重なりも存在しない。
【００１５】
プロセッサ１１は、１対のテキストブロックが前述のいずれの関係に適合しているかに基づいて、この１対のテキストブロックの関連読取り順序を判断する。この１対のブロックが互いに重なっている場合、プロセッサ１１は、ブロックに合った次の２種類の可能関係に基づいて、別々の順序付け規則を利用する：
１．一方の重なりブロックの左上端が、他方のブロックの左上端の上方にある場合、高い方のブロックは、低い方のブロックより先に読取られる。
２．一方の重なりブロックの左上端が、他方のブロックの左上端と同じ高さにあって、他方のブロックの左側にある場合、最も左側のブロックが、その右側のブロックより前に読取られる。
【００１６】
これらの順序付け規則、ならびに、非重なりブロックについて論じられる順序付け規則は変わることは無い。
【００１７】
プロセッサ１１は、ステップ３８にて、適合テキストブロックをテキストラインとワードに分割する。プロセッサ１１は、フォントサイズを探したのと同様なオペレーションを利用して、テキストラインの場所を突きとめる。それぞれの適合テキストブロック内で、プロセッサ１１は、各テキストラインを１個の連結成分に結合するのに十分な大きさの水平構造化素子による形態クロージングオペレーションを利用する。プロセッサ１１は、サイズに基づいて、真のテキストラインの連結成分と、テキストのラインを表さない連結成分とを区別し、更に考察を行って、偽のテキストラインを取り除く。その後、真のテキストラインの連結成分の境界ボックスを見つける。
【００１８】
次に、プロセッサ１１は、各テキストライン内で連結成分の境界ボックスを見つけることによって、これらのテキストライン内のワードを見つけようとする。これを行なうために、プロセッサ１１は、テキストラインについての境界ボックスを構築するために使用されたものと同様なテクニックを使用する。プロセッサ１１は最初に小さな水平クロージングを利用して、各ワードのほとんどの文字を連結する。次に、プロセッサ１１は、見つかったばかりの連結成分のワード境界ボックスを探す。プロセッサ１１は、これらのワード境界ボックスを、各テキストライン内で水平にリストにソート処理する。プロセッサ１１は、直前のオペレーションによって連結されなかったワードのほとんどを、ワード境界ボックスに関する併合オペレーションを実施することによって連結する。そのようにする際、プロセッサ１１は最大水平間隙をスケーリングして、テキストラインの高さに近くする。ステップ３８で利用された方法の結果、句読点は常にワードに連結されないので、プロセッサ１１は、これらの小成分を配列ワードリストから除去する。
【００１９】
テキストの主体の中のワード画像を識別することにより、かくしてプロセッサ１１は、ステップ４０にて、ＯＣＲを利用することなく同一ワードにどのワード画像が対応するかを識別することに注意を向けることが出来る。プロセッサ１１は、十分に同じような形をした全部のワードを、同一ワード等価クラスに置く。そうする際、プロセッサ１１は、厳格過ぎもせず、寛大過ぎもしない整合パラメータを利用しなくてはならない。過剰に厳格な整合パラメータを使用すると、同一ワードの二つの画像を異なったワード等価クラスに置く危険性を引き起こす。もし過剰に寛大な整合パラメータが使用されると、プロセッサ１１は、異なったワードを同一ワード等価クラスに置く危険性に直面する。
【００２０】
プロセッサ１１は、ブラー・ヒットミス変換（ＢＨＭＴ）またはハウスドルフ変換の改変を利用して、ワード等価クラスを識別する。ステップ４０にて、プロセッサ１１は、選択された変換の閉込め制約条件を改変して、遠く離れたいくつかの画素が、画像のフォアグラウンドに含まれるようにする。
【００２１】
ステップ４０で、ワード画像内の画素数の一部分である、遠く離れた画素に関しての許容度を使用する。プロセッサ１１は、テンプレートとワード画像境界ボックスの間のアライメントの一例を検証するに過ぎない。この一例は、テンプレートとワード画像境界ボックスの左上隅の一致である。
【００２２】
プロセッサ１１は、単一パスを利用して、ワード等価クラスを特定する。プロセッサ１１は、適合ブロックの各ワード画像を分析して、既存のワード等価クラスの見本と最も整合するものを見つける。プロセッサ１１が整合するものを見出すと、そのワード画像は、ワード等価クラスの例示リストに追加される。整合するものが見出されない場合、プロセッサ１１は、ワード画像を利用して見本として新しいワード等価クラスを形成する。
【００２３】
プロセッサ１１は、ワード等価リストと、後で有用となる多数の情報とを関連付ける。これらの情報には、それぞれのワード等価クラスについて、ワード等価クラスが出現する各センテンスのセンテンスＩ．Ｄ．、画素単位によるワード幅、ならびに、センテンスの最初の短くないワードとしてワードが出現する回数が含まれる。あるワードが、何らかの短い冠詞または前置詞を取り除くために考慮の末に選択された所定値よりも大きな幅を備えたセンテンス内の最初のワードであった場合には、そのワードは、センテンスの最初の短くないワードと見なされる。
【００２４】
ステップ４２で、プロセッサ１１は、適合テキストのブロック内のセンテンス境界を識別ならびに標識して、後から主題センテンスを選択できるようにする。プロセッサ１１は、テキストラインのベースライン近くのピリオドを探してから、これらのピリオドの最も近くにある関連ワードを見つけることによってセンテンスを識別する。センテンスを終結するピリオドを識別するために、プロセッサ１１は、ベースライン付近の胡椒をふったようなノイズ、コンマやセミコロン、省略記号のドット、コロンの下側のドット、センテンス内の略語を終わらせるドットから、ピリオドを区別しなくてはならない。また、プロセッサ１１は、感嘆符や疑問符の一部を形成するドットを識別しなくてはならない。プロセッサ１１は、センテンスを終わらせるピリオドの後にくる引用符を識別しなくてはならない。プロセッサ１１は、測定距離に基づいて、ピリオドと、それ以外のタイプの句読点とを区別する。従って、文書画像を走査する解像度とは無関係な、検証対象フォントサイズに基づいた比較基準を利用することが重要である。望ましくは、使用される尺度は、テキストブロック内の文字の連結成分についての境界ボックスの測定されたメジアン高さである。典型的には、これは主要フォントの「ｘ−高さ」である。
【００２５】
ステップ４４に入ると、プロセッサ１１は直前の画像処理で生成された情報を得て、主題総括を抜き出すためのセンテンス識別を開始するばかりとなる。プロセッサ１１は、ドロップワードを識別することから始める。「ドロップワード」は、主題の意味を伝えない自然言語テキストにごく頻繁に出現するワードのことである。ほとんどの代名詞、前置詞、限定詞、ならびにｂｅ動詞が、ドロップワードに分類される。
【００２６】
ある単語がドロップワードである可能性を判断する場合、多くの要因を考慮しなくてはならない。ドロップワードは文書中にごく頻繁に出現する傾向があるが、論題内容を示す他の多くの単語についてもそうである。従って、ドロップワードを識別するのに、頻繁性だけを利用することが出来ない。多くのドロップワードは短い傾向があるが、論題内容を示す多くの単語もそうである。従って、ドロップワードを識別するのに、ワード等価クラスの幅だけでは不十分である。多くのドロップワードは、センテンスの最初に出現する傾向があるが、他の論題内容ワードもそうである。そこでプロセッサ１１は、画素単位によるワード幅、文書内でのその出現回数、センテンス内の最初の「幅広」ワードとして出現する回数などの要因を組み合わせたものに基づいて、或る単語がドロップワードではないという可能性を判断する。
【００２７】
次にプロセッサ１１は、ワード等価クラスのリストから、最もドロップワードでありそうなワード等価クラスを排除する。どのくらい多くの等価クラスをドロップワードとして排除するかは、処理される文書の長さによって異なる。
【００２８】
プロセッサ１１は、ステップ４４で作られた縮小ワードリストを利用して主題ワードを識別する。プロセッサ１１は残存ワードのうち最も頻繁に出現するものを文書内容を示すもののように見なすので、そのようなワードを主題ワードと呼ぶ。次にプロセッサ１１は、主題ワードを利用して、適合テキストのブロック中の各センテンスのスコアを付ける。各センテンスのスコアを付けた後、プロセッサ１１は、最もスコアの高いセンテンスを選択して抜き出す。
【００２９】
プロセッサ１１は、それらを、総括しようとする文書に出現する順序でコンピュータユーザに提示する。
【００３０】
図３に、テキスト本体のブロックを識別する命令３４をフロー図で示す。テキストの各ブロックのメジアンライン高は、ステップ３２で先に求められているので、プロセッサ１１は、この判断を比較的容易に行うことができる。プロセッサ１１は、これらのブロックのメジアンライン高を利用して、文書全体のメジアンライン高を見つける。
【００３１】
プロセッサ１１は、ステップ７２にて、主要フォントサイズのテキストブロックを識別し、これにフラグを付ける。主要フォントサイズと異なるフォントサイズが僅かながら存在するテキストのブロックは、適合テキストブロックとしてフラグが付けられる。
【００３２】
図４、図５に、適合テキストブロックの読取り順序を判断する命令３６をフロー図の形で示す。プロセッサ１１は、ブロック間の垂直座標の重なりに基づいて適合テキストブロックセットを識別することから始める。プロセッサ１１は、適合テキストブロックの境界ボックスの水平投影プロファイルを見つけることによって、この判定を行うことができる。それぞれの投影プロファイルは、ラインに関するランレングスセットと見なされ、それにより、プロセッサ１１は垂直座標が重なるブロックを容易に識別できる。これがなされると、プロセッサ１１は、上から下に適合テキストブロックのセットを配列する。
【００３３】
プロセッサ１１は、ステップ８４にて、適合テキストブロックの各セット内のブロックの読取り順序を判断するプロセスを開始する。最初にプロセッサ１１は、処理するブロックセットを選択する。次に、ステップ８６にて、プロセッサ１１は、選択ブロックセット内の一対のブロックを選択する。
【００３４】
プロセッサ１１は、選択された一対のテキストブロックが互いに交わるか否かを判断することにより、ステップ８８にて利用する順序付け規則が２セットの順序付け規則のいずれか判断する。プロセッサ１１は、選択された一対のテキストブロックの境界ボックスの座標を利用してこの判断を行う。もし、２つのブロックが互いに交わらなければ、プロセッサ１１は、ステップ９６にて、このペアのうち、最初に読取るべきブロックは左上隅が最も高いところにあるブロックであることを指示する。
【００３５】
選択された一対のブロックが互いに交わらない場合、プロセッサ１１はステップ９０に分岐する。プロセッサ１１は選択された一対のテキストブロックの相互の、ページ画像上の相対位置を求める作業を開始する。プロセッサ１１は、ページ上で、この対の一方のブロックが、他方の上方にあるか否かを判断することから始める。もし一方のブロックが他方の上方にある場合、プロセッサ１１はステップ９２に進む。プロセッサ１１は、選択された一対のテキストブロックの水平投影プロファイルに重なりがあるか否か判断する。選択された一対のブロックの水平座標が重なっている場合、プロセッサ１１はステップ９４に進む。このとき、プロセッサ１１は、対のうちの、低い方のブロックより高い方のブロックを先に読まなくてはならないことを指示する。
【００３６】
プロセッサ１１が、選択された一対のブロックの間に所期の相対位置を見出せない場合、プロセッサ１１はステップ１１０に進む。プロセッサ１１は再び選択された一対のブロックの相対位置をチェックし、別のパターンに該当しないかを調べる。最初にステップ１１０でプロセッサ１１は、この対の一方のブロックが、他方のブロックの左側にあるか否かを判断する。そうであれば、プロセッサ１１はステップ１１２に進み、この一対のブロックの垂直座標が重なっているか否かが判断される。垂直座標が重なっている場合には、この一対のブロックは検証対象パターンに一致しており、プロセッサ１１はステップ１１４に進む。ステップ１１４で、プロセッサ１１は、最も左側のブロックが、対の他方のブロックより先に読取られなくてはならないと指示する。
【００３７】
一対のブロックの間の所期の相対位置が見つからない場合、プロセッサ１１はステップ１１６に進む。プロセッサ１１は最初に、一対のブロックの水平座標が重なっているか否かを判断する。そうであれば、ステップ１１８にて、プロセッサ１１は、この対の高い方のブロックを低い方のものより先に読取らなくてはならないことを指示する。一方、水平座標が重ならない場合は、ステップ１２０にて、プロセッサ１１は、対の最も左側のブロックを他方のブロックより先に読取らなくてはならないことを指示する。
【００３８】
選択された一対のブロックの間の相対的読取り順序が示されると、プロセッサ１１はステップ９８に達する。プロセッサ１１は、選択セット内の他の一対のブロックを検証しなくてはならないか否かを明らかにする。選択されたブロックセット内のすべてのブロック対について検討がなされていない場合、プロセッサ１１はステップ８６に戻って、選択セット内の別の一対のブロックを選択し、前述のようにそれらを順序付けるする。一方、選択されたブロックセット内のすべてのブロック対が順序付けられている場合には、プロセッサ１１はステップ１００に進む。このとき、プロセッサ１１は、他のブロックセットを順序付ける必要があるか否か判断する。そうであれば、プロセッサ１１はステップ８４に戻り、他のブロックセットを選択し、前述の方法で順序付けを行う。一方、プロセッサ１１が既に全部のセットの全部のブロックの相対読取り順序を決定している場合には、プロセッサ１１はステップ１０２に進む。プロセッサ１１は、その相対読取り順序に基づいて、各セットの各ブロック内の読取り順序を決定する。
【００３９】
図６に、適合テキストのブロック内のセンテンス境界を識別するための命令４２の概要図を示す。
【００４０】
プロセッサ１１は、ステップ１３８にて連結成分を選択することから、命令４２の実行を開始する。その後、ステップ１４０にて、プロセッサ１１は、選択された連結成分がピリオドであるか否かを判断する。どのようにプロセッサ１１がこれらの決定を行なうかについては、図６に関して詳細に説明される。これらの特性が、選択された連結成分がピリオドかもしれないことを示す場合には、プロセッサ１１は、ステップ１４２に進む。
【００４１】
ステップ１４２にて、プロセッサ１１は、選択された連結成分がドットの形をしていてベースラインに近接している場合でさえ、ピリオドでないか否かを判断する多ステッププロセスを開始する。そうするために、プロセッサ１１は、１）選択された連結成分がコロンの一部である可能性、２）選択された連結成分のドット列の一部である可能性、という２つの可能性を排除する。プロセッサ１１は、最初に、選択された連結成分の、その隣接物に対する相対位置を求めることによって、選択連結成分がコロンの一部であるか否かを検証する。選択された連結成分とその隣接物の相対位置から、選択された連結成分がコロンの一部でないことが判明した場合、選択された連結成分はセンテンスの境界をマーキングする句読点の一部である可能性がある。
【００４２】
ステップ１４４にて、プロセッサ１１は、選択された連結成分とそれに続く隣接物の相対位置を比較することによって、選択された連結成分が省略記号の一部か否かを判断する。省略記号の一部でない場合、選択された連結成分はセンテンスの最後をマーキングする。
【００４３】
ステップ１４６にて、プロセッサ１１は、選択された連結成分が感嘆符または疑問符の一部であるか否かを判断する。そうであるならば、選択された連結成分はセンテンスを終結する句読点の一部である。従って、プロセッサ１１はステップ１４８に進み、選択された連結成分をセンテンス境界としてマーキングする。
【００４４】
選択された連結成分が感嘆符または疑問符の一部でない場合でも、依然としてセンテンスの最後をマーキングする場合がある。これに応じて、プロセッサ１１はステップ１５０に分岐する。プロセッサ１１は、選択された連結成分の後ろに引用符が続いているか否かを判断する。選択された連結成分の後ろに引用符がある場合、選択された成分はセンテンスの終止句読点であるが、センテンス境界の特性を表してはいない。
【００４５】
プロセッサ１１がステップ１５０の検証を行わなくとも、選択された連結成分は、依然としてセンテンスを終結するピリオドである可能性がある。この可能性を反証否定するために、可能であるならば、プロセッサ１１はステップ１５２にて、選択された連結成分がセンテンス内の略語の一部であるか否か判断する。選択された連結成分はセンテンス内略語の一部でないとプロセッサ１１が判断した場合には、プロセッサ１１は、選択された連結成分はセンテンスの境界をマーキングするピリオドであるとみなす。従って、ステップ１４８にて、プロセッサ１１は、選択された連結成分をそのようにマーキングする。
【００４６】
プロセッサ１１は、ステップ１４０、１４２、１４４の検証のいずれかに失敗した後、あるいは、センテンス境界を標識した後に、ステップ１５６に進む。こうしてプロセッサ１１は、他の連結成分を検証し残しているか否か判断する。そうであれば、プロセッサ１１はステップ１３８に戻り、全部の連結成分が検証されるまで命令４２を実行する。全部のセンテンスの境界が標識されると、プロセッサ１１は次にステップ４４に分岐する。
【００４７】
図７に、選択された連結成分がピリオドであるか否かを判断する命令１４０をフロー図の形で示す。
【００４８】
最初に、ステップ１７０にて、プロセッサ１１は選択された連結成分が胡椒をふったようなノイズであるか否かを判断する。プロセッサ１１は、選択された連結成分の境界ボックスのサイズに基づいて、この点で判定を行う。境界ボックスのサイズが最小サイズより大きい場合、選択された連結成分はピリオドであろう。選択された連結成分が最小サイズより大きい場合、プロセッサ１１はステップ１７２に進む。
【００４９】
プロセッサ１１は、ステップ１７２にて、選択された連結成分がピリオドであるか否かを判断する２番目の検証を実施する。プロセッサ１１は、２つの特徴をチェックすることによって、選択された成分がドットのような形であるか否かを判断する。考慮される最初の特徴は、選択された連結成分の境界ボックスの各ディメンションのサイズである。各ディメンションは、高さｘの第１分数より小さくなくてはならない。プロセッサ１１が考慮する第２の特徴は、選択された連結成分の境界ボックスの２つのディメンションの間のサイズの差である。２つのディメンション間の差は、メジアン高ｘの第二分数より小さくなくてはならない。選択された連結成分の境界ボックスが、要求される特徴を両方とも備えている場合には、選択された連結成分は、コンマ、またはセミコロンの下側に連結された成分ではなさそうであり、ピリオドであろう。
【００５０】
ステップ１７４にて、プロセッサ１１は、選択された連結成分の位置を調べ、それがテキストラインのベースライン付近にあるか否かを確認する。先に行われたベースライン測定に何らかの小エラーがあるかも知れないので、ベースラインから何個かの画素範囲内であれば、プロセッサ１１は、その選択連結成分をベースライン上にあるものとみなす。選択された連結成分が十分にベースラインに近ければ、プロセッサ１１はステップ１４２に進む。
【００５１】
選択された連結成分が所要の特徴のいずれも備えていないとプロセッサ１１が判断した場合、プロセッサ１１はステップ１５６に戻る。
【００５２】
図８に、選択された連結成分がコロンであるか否かを判断する命令１４２をフロー図の形で示す。プロセッサ１１は、選択された連結成分と、その隣接する連結成分との間の関係を考慮して、この決定を行なう。
【００５３】
プロセッサ１１は、その作業をステップ１８０から開始する。ステップ１８０にて、プロセッサ１１は、選択された連結成分に隣接する両方の連結成分の形を吟味する。これらのいずれもがドット形でない場合、プロセッサ１１は選択された連結成分がコロンの一部であるという可能性を排除する。その場合、プロセッサ１１はステップ１４４に進む。一方、隣接する連結成分のいずれかがドット形の場合、選択された連結成分はコロンであろう。
【００５４】
ステップ１８２で、プロセッサ１１は、選択された連結成分ならびにそのドット形の隣接物が、コロンのドットのように、一方が他方の上に配置されていないか判断する。これら２個の連結成分がコロンを表示するのであれば、それらの境界ボックスは垂直に位置合わせされ、いくらかの量だけ互いに水平に重なるであろう。どのくらいの重なりであるかは重要ではない。２つの境界ボックスの間に重なりが全く無いということは、選択された連結成分がコロンの一部でないことを示し、それによりプロセッサ１１はステップ１８２からステップ１４４に分岐する。選択された連結成分とそのドット形の隣接物の境界ボックス間の重なりは、選択された連結成分がコロンの一部であろうことを示すものである。
【００５５】
ステップ１８４にて、プロセッサ１１は、その最後の検証を実施して、選択された連結成分がコロンの一部であるか否かを判断する。プロセッサ１１は、２つの関連連結成分の境界ボックスの上部の間の距離を調べて、隣接連結成分が、実際には、選択された連結成分以外の別のテキストラインの一部であるという可能性を排除する。これは、２つの境界ボックスの上部の間の距離が、高さｘの第３分数を越える場合に最もありそうなケースである。該距離がこの分数を越える場合、選択された連結成分はコロンの一部ではなく、センテンス境界の特性を表す。プロセッサ１１はステップ１４４に進み、この可能性を究明する。一方、２つの境界ボックスの上部の間の距離が、第３分数より小さい場合、選択された連結成分はコロンのようであり、センテンス境界をマーキングしない。その場合、プロセッサ１１はステップ１５６に戻る。
【００５６】
図９に、選択された連結成分が省略記号の一部であるか否かを判断する命令１４４をフロー図の形で示す。
【００５７】
プロセッサ１１は、ステップ１９０にて、選択された連結成分の次に続く連結成分が、やはりドット形であるか否かを判断することから始める。後続連結成分がドット形でない場合、選択された連結成分は省略記号の一部でない、あるいは、省略記号の最後のドットであろう。これは２つの答えが存在する曖昧な状況である。まず、省略記号が見つかった場合と同じことを行って、必ずセンテンスを終結するか、絶対に終結しないか、を検討する。次に、選択された連結成分の後の連結成分を分析して、後続連結成分が新しいセンテンスを開始しているか確認する。これが命令１４４で取られる方法である。選択された連結成分が省略記号の最後のドットであるかも知れない場合、プロセッサ１１はステップ１４６に進んで、選択された連結成分がセンテンス境界の特性を表すか否かに関する他の手掛かりを探し続ける。
【００５８】
後続連結成分がドット形であるので、選択された連結成分が省略記号の一部かも知れない場合、プロセッサ１１はステップ１９２に進む。プロセッサ１１は、後続連結成分がベースラインにどのくらい近接しているかを調べる。検証により、後続連結成分がベースラインに十分に近接していることが分かった場合、プロセッサ１１は、選択された連結成分は省略記号の一部であると見なす。従って、プロセッサ１１は、ステップ１５６に進む。一方、後続連結成分が、あまりベースラインに近接していない場合、選択された連結成分は省略記号の一部とはみなされず、センテンス境界をマーキングするであろう。
【００５９】
図１０に、選択された連結成分の次に１個または２個の引用符が続いているか否かを判断する命令１５０をフロー図の形で示す。
【００６０】
ステップ２００にて、プロセッサ１１は、後続の２つの連結成分が引用符のような形であるか否かを判定する。プロセッサ１１は、引用されるべき後続の二つの連結成分が三つの条件を満足するかどうかを考慮する。第１に、それぞれの引用符形の連結成分の境界ボックスの幅は、高さｘの第６分数より狭くなくてはならない。第２に、引用符形の後続連結成分のそれぞれの境界ボックスの高さは、高さｘの第７分数より低くなくてはならない。第３に、それぞれの引用符形の後続連結成分の境界ボックスの高さと幅の差は、高さｘの第８分数より小さくなくてはならない。２つの後続連結成分の両方が、これら３つの制限のすべてを満足しない場合、選択された連結成分の後ろに引用符はなく、プロセッサ１１はステップ１５２に進む。一方、後続連結成分の１個または両方が、３個全部の制限を満足する場合は、プロセッサ１１はステップ１５４に進む。
【００６１】
プロセッサ１１は、ステップ２０２にて、選択された連結成分の位置に対する後続連結成分の位置を検証する。後続連結成分は、引用符となるに十分なほど、選択連結成分の上方にあるのだろうか。プロセッサは、高さｘの第４分数を利用して、この疑問に答える。後続連結成分が、選択された連結成分の上部よりも十分に上方にない場合、選択された連結成分の後に引用符はない。プロセッサ１１は、ステップ１５２に進むことによって、これに応じる。プロセッサ１１が、これとは逆のことを見出した場合、つまり、後続連結成分境界ボックスの上部が、選択された成分ｎ境界ボックスの上部から少なくとも第４分数だけ上方にある場合、プロセッサ１１はステップ２０４に分岐する。
【００６２】
ステップ２０４にて、プロセッサ１１は、少なくとも１回、最後の検証を行って、２つの後続連結成分のうちの一方が引用符であるか否かを判断する。後続連結成分のうちの一方または両方が引用符の形をしていて、選択された連結成分の十分上方に離れた位置にあるとしても、それが選択された連結成分に水平方向に十分に近くなければ、依然として引用符ではない。プロセッサ１１は、両方の連結成分の左側間の距離を水平方向に測定することによって、これを判断する。この距離は、高さｘの第５分数より狭くなくてはならない。この２つの連結成分がそれほど近接していない場合、プロセッサ１１は、ステップ１５２に進む。一方、後続連結成分が、引用符であるに十分なほど、選択された連結成分に近く続いている場合、プロセッサ１１はステップ２０４からステップ１４８に進む。
【００６３】
図１１に、選択された連結成分がセンテンス内の略語の一部であるか否かを判断する命令１５２をフロー図の形で示す。後続連結成分の相対位置が、選択された連結成分に対して正しい場合、或いは、後続連結成分が大文字である場合には、選択された連結成分は、センテンス内略語の一部のようには見えない。後続連結成分がこれらの要求のいずれも満足しない場合には、選択された連結成分はセンテンス内略語の一部と見なされ、センテンス境界をマークしない。
【００６４】
ステップ２１０にて、プロセッサ１１は、選択された連結成分に対する後続連結成分の位置が、センテンスを終結するものと矛盾しないものであるか否かを判定する作業を開始する。最初に、ステップ２１０で、プロセッサ１１は、後続連結成分が、選択された連結成分と同じテキストラインの一部であるか否かを判定する。プロセッサ１１はそのようにすることにより、隣接するテキストライン間の垂直方向の離間が非常に小さいという理由で、選択連結成分の下のラインと関連のある連結成分が、テキストライン境界ボックスの一部としてとらえられる可能性を排除する。この判定を行うために、プロセッサ１１は、選択された連結成分と後続の連結成分の境界ボックスの上部の間の垂直方向距離を測定する。２つの連結成分間の垂直方向距離が、高さｘの第９分数を越えている場合、この２つの連結成分は同一テキストラインに属さない。
【００６５】
２つの連結成分が同一テキストラインに属さないことが判明すると、プロセッサ１１はステップ２１０からステップ２１２に分岐する。プロセッサ１１は、次に、この後続連結成分の右側にある隣接物を、新しい後続連結成分とする。その後、プロセッサ１１は、ステップ２１０に戻る。
【００６６】
結局、プロセッサ１１は、同一テキストラインに含まれている選択連結成分の後に続く連結成分が、テキストラインの最後に達する前の選択連結成分であると判断するであろう。これが発生した場合、プロセッサ１１はステップ２１４に分岐する。かくしてプロセッサ１１は、選択された連結成分と後続連結成分の相対位置が、別のセンテンスを開始する大文字となる後続連結成分であることに矛盾しないか否かを判断する作業を開始する。ステップ２１４で、プロセッサ１１は、後続連結成分が、選択された連結成分の左側に十分に離れているか否かを判断する。後続連結成分は、その境界ボックスの左端が、選択された連結成分の境界ボックスの左端から、高さｘの第１０分数だけ離れていれば、十分に離れていると見なされる。２つの連結成分が互いにそれほど離れていない場合、プロセッサ１１は、選択された連結成分をセンテンス内の略語の一部と見なし、ステップ１５６に分岐する。他方、２つの連結成分間の距離が十分に大きい場合、後続連結成分は、別のセンテンスの最初であるかも知れない。
【００６７】
ステップ２１６にて、プロセッサ１１は、後続連結成分が大文字であるに十分なほど大きいか否かを判断する。プロセッサ１１は、後続連結成分の高さを、高さｘの第１１分数と比較することによって、この判定を行う。この高さが第１１分数を越えない場合、プロセッサ１１は、後続連結成分を大文字と見なさないし、選択された連結成分をセンテンスを終結するピリオドとも見なさない。その代わり、プロセッサ１１はステップ１５６に分岐する。一方、後続連結成分の高さが第１１分数を越える場合、後続連結成分は大文字であろう。
【００６８】
プロセッサ１１は、後続連結成分がベースラインにどのくらい近接しているかを調べることによって、後続連結成分が、新センテンスを開始する大文字であるという仮説を検証し続ける。大文字は、ベースラインに乗るので、後続連結成分の下部は、それが大文字であるならば、ベースラインに近接するはずである。プロセッサ１１は、ベースラインと後続連結成分の境界ボックスの下部の距離が数画素を越えなければ、後続連結成分はベースラインに近いと見なす。後続連結成分の下部が、ベースラインから相当に離れている場合、プロセッサ１１はステップ１５６に進み、選択された連結成分をセンテンス内の略語とみなす。逆に、後続連結成分の下部がベースラインに十分に近接している場合、後続連結成分は大文字であり、新センテンスの文頭であろう。
【００６９】
プロセッサ１１は、ステップ２２０にて、後続連結成分が新センテンスの最初か否かを判断する最後の検証を実施する。プロセッサ１１は、後続連結成分を、その右側の隣接物の高さと比較する。この連結成分を、右隣接物と呼ぶ。大文字よりも高い文字はほとんどないので、後続連結成分の高さと比較して右隣接物の高さが非常に大きい場合、後続連結成分は恐らく新センテンスを開始しなであろう。プロセッサ１１は、２つの連結成分の高さの差を第１２分数と比較することによって、この判断を行う。右隣接物の高さが、後続連結成分の高さより、第１２分数を越えて大きい場合、プロセッサ１１はステップ１５６に分岐し、選択された連結成分をセンテンス内の略語と見なす。逆に、２つの連結成分間の高さの差が第１２分数より小さい場合、プロセッサ１１は、選択された連結成分を、センテンスを終結するピリオドと見なして、ステップ１４８に分岐する。
【００７０】
図１２に、ワードリストからドロップワードを識別して削除する命令４４をフロー図の形で示す。命令４４の実行は、ステップ２３０で開始される。
【００７１】
プロセッサ１１は、各ワードごとに、そのワードがドロップワードではない可能性を推測することから始める。この可能性を判断するために、画素単位でのワード幅、適合テキストブロック内でのワードの出現回数、文書内のワード総数、センテンス内の最初の短くないワードとしてそのワードが出現する回数、といった多数の要因が利用される。短くないワードというのは、「ｔｈｅ」のような、所定の短ワードよりも十分に大きいワードのことである。
【００７２】
一般に「ｔｈｅ」は、文書中で最も頻繁に出現するワードであるので、プロセッサ１１は通常、ワード等価クラスからそれを識別することができる。「ｔｈｅ」を表すワード等価クラスを識別するために、プロセッサ１１は最初に、出現頻度に基づいてワード等価クラスを順序付ける。「ｔｈｅ」の場所を確実に突きとめるために、プロセッサ１１は、最も頻繁に出現するワード等価クラスの幅と、最も狭い頻繁出現ワード等価クラスの幅を比較する。プロセッサ１１は、２０〜５０の最も頻繁に出現するワード等価クラスを探索することによって、最も狭い頻繁出現ワードを識別する。プロセッサ１１は、最も頻繁に出現するワード等価クラスの幅が最も狭い頻繁出現ワード等価クラスの幅の少なくとも４倍である場合に「ｔｈｅ」を識別した、と仮定する。プロセッサ１１が「ｔｈｅ」を識別すると、それは選択された短ワードとして利用される。他方、プロセッサ１１が「ｔｈｅ」を識別しなかった場合、最も狭い頻繁出現ワード等価クラスが、選択短ワードとして利用される。
【００７３】
短くないワードは、デザイン上の選択であるので、ワード等価クラスが、選択短ワードよりどのくらい広いかは指定されなくてはならない。一実施例において、選択短ワードが「ｔｈｅ」の場合、短くないワードは、選択短ワード幅の１．２倍である。選択短ワードが最も狭い頻繁出現ワード等価クラスの場合、短くないワードは、選択短ワードの何倍かの広さでなくてはならない。
【００７４】
各センテンスの最初の短くないワードを識別した後、プロセッサ１１は、各ワードがドロップワードではないという可能性を推測する。好ましくは、プロセッサ１１は、次の式により、この可能性の指標を計算する。
【００７５】
Ｌ＝（ω_i／ω_the）＊（１＋ｂ_i／ｆ_i）＋（ｃ＊Ｗ／ｆ_i）
式中、
Ｌは、ワードがドロップワードでない可能性の指標、
ω_iは、ワードｉの画素単位幅、
ω_theは、「ｔｈｅ」というワードの画素単位幅、
ｂ_iは、適合テキストブロックの一つにおいて、センテンスの最初の短くないワードとしてワードｉが出現した回数、
ｆ_iは、適合テキストブロックにおけるワードｉの出現回数、
ｃは、２項の間の一定重み付け係数、
Ｗは、文書中のワード総数、である。
【００７６】
式の最初の項である（ω_i／ω_the）＊（１＋ｂ_i／ｆ_i）は、内容ワードとしてセンテンスの最初に出現する傾向のある長いワードに好都合に作用し、次の項（ｃ＊Ｗ／ｆ_i）は、内容ワードとしてセンテンスに比較的少なく出現する傾向のあるワードに好都合に作用する。
【００７７】
その類似の指標が、各ワード等価クラスがドロップワードでないと決定された場合には、プロセッサ１１は、ドロップワードではないという可能性に基づいて、ワード等価クラスを順序付ける。その後、この順序は逆順にされて、ドロップワードであるという可能性に基づいたワード等価クラスの順序付けを生じる。
【００７８】
プロセッサ１１はステップ２３２に進み、文書が短いか長いかを判定する。これは単純に、ワード等価クラス総数を、いくつかの閾値と比較することにより行われる。文書が短いものであれば、プロセッサ１１はステップ２３４に分岐し、ドロップワードである可能性が最も高いＸ個のワードをドロップワードとして削除する。但し、Ｘは文書の長さに比例する。他方、文書が長いものである場合、プロセッサ１１はステップ２３２からステップ２３６に進む。この場合、プロセッサ１１は、ドロップワードである可能性が最も高いＹ個のワードを、ドロップワードとして削除する。但し、Ｙは定数である。
【００７９】
図１３に、主題センテンスを抜き出す命令４６をフロー図の形で示す。プロセッサ１１は、デフォルトの長さからＳで示される主題総括の長さを変更する機会をコンピュータユーザに与えることにより開始することが望ましい。主題総括のデフォルトの長さは、文書内のセンテンス数より少ない任意のセンテンス数とすることができる。
【００８０】
ステップ２４８にて、プロセッサ１１は、主題センテンスの選択に利用する主題ワード数を求める。主題ワード数はＫで示されている。一般に、Ｋは、Ｓより小さく、１より大きい。ＫがＳより小さいことを要求することにより、選択主題センテンス間の主題の共通性が保証される。
【００８１】
ステップ１５０で、プロセッサ１１は、主題ワードを選択するプロセスを開始する。プロセッサ１１は、ワードリストを分析して、文書中に各ワード等価クラスが出現する回数を求める。これは、単に、各ワードと関連のあるセンテンスＩ．Ｄ．の数を数えることによって行われる。その後、プロセッサ１１は、計数、すなわち、文書内の各ワード等価クラスの総発生回数に基づいてワードをソート処理する。同計数を有する２個のワードの引分け関係は、ワード画像の幅の広いほうに有利に破られる。その後、プロセッサ１１はステップ２５２に進む。次にプロセッサ１１は、ソート処理されたワードリストから、最も計数の高かったＫ個のワードを選択する。これが済むと、プロセッサ１１はステップ２５４に進む。
【００８２】
ステップ２５４で、プロセッサ１１は、文書中のＫ個の主題ワードの総出現回数を計算する。Ｎで示されるこの数字は、Ｋ個の主題ワードの計数を合計することによって算出される。プロセッサ１１は、ステップ２５６に分岐する。
【００８３】
ステップ２５６、２５８、２６０、２６２にて、プロセッサ１１は、Ｋ個の主題ワードの少なくとも１個を含んでいるセンテンスだけを検討する。プロセッサ１１は、記憶されたワードリストのうちで、最もスコアの高かったＫ個のワードを調べることによって、そのように行う。ステップ２５６にて、ｔ_sで示される１個のワードを選択した後、プロセッサ１１は、選択ワードｔ_sと関係のある各センテンスＩ．Ｄ．を調べる。選択ワードｔ_sと関係のある各センテンスＩ．Ｄ．に対し、プロセッサ１１は、ステップ２５８で、そのセンテンスのスコアを増分する。
【００８４】
センテンスのスコアは、ステップ２５８にてセンテンススコアリストを作成することによって追跡できる。プロセッサ１１がセンテンスＩ．Ｄ．を選択するたびに、センテンススコアリストは、それにセンテンスＩ．Ｄ．が含まれているか否か、調べられる。含まれていない場合には、センテンススコアリストにセンテンスＩ．Ｄ．が加えられ、そのスコアが適宜に増加される。他方、センテンススコアリストに既に特定のセンテンスＩ．Ｄ．が含まれている場合、既にセンテンスに関連付けられているスコアは、増分される。
【００８５】
選択ワードｔ_sに関連付けられた全部のセンテンスのスコアを増分した後、プロセッサ１１はステップ２６０に分岐する。プロセッサ１１は、主題ワードの評価が済んだか否かを判断する。評価が済んでいない場合には、プロセッサ１１はステップ２５６に戻り、選択ワードとして別の主題ワードを選択する。プロセッサ１１は、全部の主題ワードの検証がなされるまで、先に述べた様にステップ２５６、２５８、２６０を経て分岐する。全てが評価済みという事象が発生すると、プロセッサ１１はステップ２６２に分岐する。
【００８６】
ステップ２６２で、プロセッサ１１は、最もスコアの高いＳ個のセンテンスを主題総括として選択する。プロセッサ１１は、スコアに基づいてセンテンススコアリストをソート処理することによって、これを行う。主題センテンスを選択した後、プロセッサ１１は、ユーザに主題総括を提示する場合もある。
【図面の簡単な説明】
【図１】命令を実行することによって本方法を実施するコンピュータシステムのブロック図である。
【図２】最初にＯＣＲを実行せずに文書画像から文書の主題総括を作る命令のフロー図である。
【図３】テキスト本体のブロックを識別する命令のフロー図である。
【図４】適合テキストブロックの読取り順序を判断する命令のフロー図の第１の部分である。
【図５】適合テキストブロックの読取り順序を判断する命令のフロー図の第２の部分である。
【図６】適合テキストのブロック内のセンテンス境界を識別するためにプロセッサ１１が実行する命令の概要図である。
【図７】選択された連結成分がピリオドであるか否かを判断する命令のフロー図である。
【図８】選択された連結成分がコロンであるか否かを判断する命令のフロー図である。
【図９】選択された連結成分が省略記号の一部であるか否かを判断する命令のフロー図である。
【図１０】選択された連結成分の次に１個または２個の引用符が続いているか否かを判断する命令のフロー図である。
【図１１】選択された連結成分がセンテンス内の略語の一部であるか否かを判断する命令のフロー図である。
【図１２】ワードリストからドロップワードを識別して削除する命令のフロー図である。
【図１３】主題センテンスを抜き出す命令のフロー図である。
【符号の説明】
１０コンピュータシステム
１１プロセッサ
１２モニタ
１３プリンタ
１４キーボード
１６マウス
１８電子タブレット
２２フロッピーディスクドライブ
２４スキャナ
２６文書
２８半導体メモリ

Claims

第１の多数のセンテンスと、各々がフォントサイズを備えた第２の多数の出現ワードを含む文書画像中のドロップワードを光学式文字認識を実施せずに識別する方法であって、プロセッサに結合されたメモリに電子形式で記憶された命令を実行することによってプロセッサが実施する方法であり、
ａ）文書画像中の主要フォントサイズを識別するためにプロセッサによって命令を実行するステップと、
ｂ）文書画像中の主要フォントサイズのセンテンスのセンテンス境界を識別するためにプロセッサによって命令を実行するステップと、
ｃ）文書画像を分析して、主要フォントサイズの等価クラスワードであって、第２の多数の出現ワードのうちの少なくとも１個の出現ワードをそれぞれが含む等価クラスワードを識別するためにプロセッサによって命令を実行するステップと、
ｄ）各等価クラスワードについて、各等価クラスワードの幅、等価クラスワードの出現回数、等価クラスワードがセンテンスの最初の短くないワードとして出現する回数に基づいて、等価クラスワードがドロップワードではない可能性を求めるためにプロセッサによって命令を実行するステップと、
ｅ）等価クラスワードがドロップワードである可能性に基づいて、ドロップワードとしての等価クラスワードの数を指定するためにプロセッサによって命令を実行するステップと
を含む前記方法。
請求項１に記載の方法において、ステップｄ）が、
式：Ｌ＝（ωi／ωthe）＊（１＋ｂi／ｆi）＋（ｃ＊Ｗ／ｆi）
式中、
Ｌは、ワードがドロップワードでない可能性の指標、
ωiは、ワードｉの画素単位幅、
ωtheは、ｔｈｅというワードの画素単位幅、
ｂiは、適合テキストブロックの一つにおいて、センテンスの最初の短くないワードとしてワードｉが出現した回数、
ｆiは、適合テキストブロックにおけるワードｉの出現回数、
ｃは、２項の間の一定重み付け係数、
Ｗは、文書中のワード総数、
を利用して、等価クラスワードがドロップワードでない可能性を求めるためにプロセッサによって命令を実行するステップを含むことを特徴とする前記方法。
ａ）メモリと、
ｂ）メモリとやり取りするプロセッサと、
ｃ）第１の多数のセンテンスと各々がフォントサイズを備えた第２の多数の出現ワードを含む文書画像中のドロップワードを光学式文字認識を実施せずに識別する方法をプロセッサに実施させるのための、メモリ内に記憶された実行可能な命令とを含む製造品であって、前記方法が
１）文書画像中の主要フォントサイズを識別するためにプロセッサによって命令を実行するステップと、
２）文書画像中の主要フォントサイズのセンテンスのセンテンス境界を識別するためにプロセッサによって命令を実行するステップと、
３）文書画像を分析して、主要フォントサイズの等価クラスワードであって、第２の多数の出現ワードのうちの少なくとも１個の出現ワードをそれぞれが含む等価クラスワードを識別するためにプロセッサによって命令を実行するステップと、
４）各等価クラスワードについて、各等価クラスワードの幅、等価クラスワードの出現回数、等価クラスワードがセンテンスの最初の短くないワードとして出現する回数に基づいて、等価クラスワードがドロップワードではない可能性を求めるためにプロセッサによって命令を実行するステップと、
５）等価クラスワードがドロップワードである可能性に基づいて、ドロップワードとしての等価クラスワードの数を指定するためにプロセッサによって命令を実行するステップと
を含む製造品。