JPH09179942A

JPH09179942A - Ｏｃｒを利用しない文書画像中のドロップワードの自動認識方法

Info

Publication number: JPH09179942A
Application number: JP8320518A
Authority: JP
Inventors: R Cheng Fantasiene; フタンシーヌ・アール・チェン; John W Tukey; ジョン・ダブリュー・チューキ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1995-12-14
Filing date: 1996-11-29
Publication date: 1997-07-11
Anticipated expiration: 2016-11-29
Also published as: JP3943638B2; US5850476A; EP0779592B1; EP0779592A3; DE69616246D1; DE69616246T2; EP0779592A2

Abstract

(57)【要約】【課題】ＯＣＲを実行せずに文書画像中のドロップワ
ードを自動的に識別すること。【解決手段】第１に、文書画像を分析され、等価クラ
スワードが識別される。それぞれの等価クラスワード
は、文書中に含まれる多数個のワードのうちの少なくと
も１個のワードを表す。第２に、それぞれの等価クラス
ワードについて、等価クラスワードがドロップワードで
はない可能性が求められる。第３に、文書の長さが分析
され、文書が短いか否か判断される。

Description

【発明の詳細な説明】

【０００１】

【課題を解決するための手段】ＯＣＲを実行せずに文書
画像中のドロップワードを自動的に識別する技術につい
て述べる。第１に、文書画像を分析され、等価クラスワ
ードが識別される。それぞれの等価クラスワードは、文
書中に含まれる多数個のワードのうちの少なくとも１個
のワードを表す。第２に、それぞれの等価クラスワード
について、等価クラスワードがドロップワードではない
可能性が求められる。第３に、文書の長さが分析され、
文書が短いか否か判断される。

【０００２】

【発明実施の形態】図１に、命令４４を実行することに
よって本方法を実施するコンピュータシステム１０をブ
ロック図の形で示す。命令４４はコンピュータシステム
１０のオペレーションを変更し、コンピュータシステム
が最初に光学式文字認識（ＯＣＲ）を行わずに文書画像
中のドロップワードを識別できるようにし、文書画像か
ら文書の主題総括を作ることができるようする。

【０００３】コンピュータシステム１０は、コンピュー
タユーザの目に見えるように情報を表示するモニタ１２
を備えている。コンピュータシステム１０は、プリンタ
１３を介してコンピュータユーザに情報を出力したりも
する。キーボード１４により、コンピュータユーザは打
鍵によってコンピュータシステム１０にデータを入力す
ることができる。コンピュータユーザは、マウス１６を
動かすことによって、モニタ１２に表示されたポインタ
を移動することができる。コンピュータユーザは、スタ
イラスまたはペンを利用して電子タブレット１８上に書
くことによって、コンピュータシステム１０に情報を入
力することもできる。あるいは、コンピュータユーザ
は、ディスクをフロッピーディスクドライブ２２に挿入
することによって、フロッピーディスクのような磁気媒
体に記憶されたデータを入力することができる。また、
コンピュータユーザは、スキャナ２４により、文書２６
の画像のハードコピーの電子バイナリ表現を入力するこ
とができる。

【０００４】プロセッサ１１は、メモリ２８またはディ
スクドライブ２２内フロッピーディスク上に電子的に記
憶された命令を実行することによって、各ユーザコマン
ドに応じた適切な動作を決定し、これを実行する。

【０００５】図２に、最初にＯＣＲを実行せずに文書画
像から文書の主題総括を作成する命令２９を、フロー図
の形で示す。

【０００６】プロセッサ１１は、スキャナ２４からの文
書のページ画像と主題総括要求を受信すると、命令２９
の実行を開始する。最初に、プロセッサ１１は、文書画
像のテキストが単一配置方向に向いていると仮定し、そ
の後、ブルームバーグ（Ｂｌｏｏｍｂｅｒｇ）、コペッ
ク（Ｋｏｐｅｃ）、デイサリ（Ｄａｓａｒｉ）共著の
「文書画像の傾斜と配置方向の測定（Ｍｅａｓｕｒｉｎ
ｇｄｏｃｕｍｅｎｔｉｍａｇｅｓｋｅｗａｎｄ
ｏｒｉｅｎｔａｔｉｏｎ）」ＳＰＩＥＣｏｎｆ．２４
２２，ＤｏｃｕｍｅｎｔＲｅｃｏｇｎｉｔｉｏｎ
ＩＩ，ＳａｎＪｏｓｅ，ＣＡ，Ｆｅｂ．６ー
７，１９９５，ｐｐ．２７８−２９２に記述されて
いるような既知の方法を利用して、その配置方向を判断
する。プロセッサ１１が有意な配置方向を見出さない場
合は、文書画像には恐らくそのままで分析できるか、ス
キップできる程度の極く僅かなテキストしか含まれてい
ない。その後、プロセッサ１１は、文書画像の傾斜を取
り除く。これにより、後のセグメンテーション分析が単
純化され、後続のベースライン分析が向上される。プロ
セッサ１１は、「文書画像の傾斜と配置方向」（同誌）
で論じられている技術を利用して約０．１°以内の傾斜
角度を求め、その後、２つまたは３つの直交するシアー
を利用して文書画像を回転する。

【０００７】ステップ３２にて、プロセッサ１１は、文
書画像内のテキストブロックを識別することによって、
文書画像の下降型分割を開始する。第１に、プロセッサ
１１は、文書画像中の中間調ならびに「画像」部分を取
り除く。第２に、プロセッサ１１は、文書画像中のテキ
ストブロックを識別する。最後に、プロセッサ１１は、
残ったどのようなラインアート成分も取り除く。

【０００８】中間調ならびに「画像」部分を取り除く好
適な方法は、Ｄ．Ｓ．ブルームバーグ（Ｂｌｏｏｍｂｅ
ｒｇ）の「多重レゾリューション文書画像の形態解析
（Ｍｕｌｔｉｒｅｓｏｌｕｔｉｏｎｍｏｒｐｈｏｌｏ
ｇｉｃａｌａｎａｌｙｓｉｓｏｆｄｏｃｕｍｅｎｔ
ｉｍａｇｅｓ）」ＳＰＩＥＣｏｎｆ．１８１８，
ＶｉｓｕａｌＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎ
ｄＩｍａｇｅＰｒｏｃｅｓｓｉｎｇ ’９２，Ｂ
ｏｓｔｏｎ，ＭＡ，Ｎｏｖ．１８−２０，１９９
２，ｐｐ．６４８−６６２に記述されている。第１
に、プロセッサ１１は、文書画像の中間調部分のみの画
素を含むシード画像を形成する。第２に、プロセッサ１
１は、全部の画素をカバーするマスク画像を形成する。
マスクの連結性は、中間調シードと、中間調領域をカバ
ーする他の画素とをつなぐのに十分なものである。即ち
最後に、プロセッサ１１は、シードからマスクに、バイ
ナリ復元、即ち充填、を施し、それによって中間調「マ
スク」を作る。次にプロセッサ１１は、このマスクを利
用して文書画像から「画像」部分を除去し、結果文書画
像のテキストとラインアートのみを残す。

【０００９】次にプロセッサ１１は、ステップ３２で、
隣接コラムのテキストブロックを結合しないように注意
しながら、テキストブロックの識別に戻る。プロセッサ
１１は、文書画像の縦方向の白色スペースのマスクをマ
スキングすることから始める。このマスクは、文書画像
を反転させてから、大きな垂直構造化素子を用いてそれ
をオープンすることによって作られる。次いで、プロセ
ッサ１１は、適度な大きさに構成された水平ならびに垂
直構造化素子を利用してテキストブロックをクローズし
て、それぞれのテキストブロックから単一連結成分を作
る。その後、プロセッサ１１は、白色スペースマスクを
除き、隣接するテキストブロックが確実に分離されるよ
うにする。

【００１０】プロセッサ１１は、ステップ３２の最後の
タスクに進み、直前のタスクによって生成された、テキ
ストブロックを表さない連結成分を取り除く。プロセッ
サ１１は、これらの成分を除くために２種類のテクニッ
クを利用する。水平ルールのような幾つかの成分は、高
さがごく低いことによって識別されうる。更に精巧な直
線グラフィクスを伴う成分の識別には別のテクニックを
要する。これらの成分は、テキストブロック中に特徴的
に存在する内部テキストライン構造の欠如によって識別
されうる。プロセッサ１１は、ブロックの基礎をなす画
像中のキャラクタを水平方向に連結し、存在するであろ
うテキストラインを一体化することによって、有効なテ
キストブロックとこれらの成分を区別する。次にプロセ
ッサ１１は、結果として得られた「テキストライン」成
分を統計的に分析して、その平均幅と平均高、あるい
は、メジアン幅とメジアン高を求める。プロセッサ１１
は、高さ−幅の比が十分に大きな幅を備え、且つテキス
トブロックの推定幅の何分の一かに相当する平均幅を備
えた「テキストライン」成分を有するブロックを、テキ
ストブロックとして標識する。プロセッサ１１は、その
後、高さ−幅の比が不十分な、或いは、平均幅が不十分
な「テキストライン」成分を有する全ての他のブロック
を無視する。

【００１１】ステップ３４で、プロセッサ１１はテキス
トブロック内のテキスト本体を識別する。プロセッサ１
１が総括のために主題センテンスを後から選択するの
は、テキスト本体からである。プロセッサ１１は、テキ
ストの他のタイプからテキスト本体を区別する。プロセ
ッサ１１は、メジアンフォントサイズに基づいてテキス
トブロックを２クラスに分ける。これらのクラスは、
（１）テキストのフォントサイズが文書のメジアンサイ
ズに近いテキストブロックを表す適合と、（２）テキス
トのフォントサイズが文書のメジアンサイズからかなり
大きいまたは小さいテキストブロックを表す不適合、で
ある。

【００１２】プロセッサ１１は、ステップ３６で適合テ
キストブロックを選択し、それらの読取り順序を判断す
る。プロセッサ１１は、文書画像に含まれている配置情
報だけに基づいてこの判断を行う。このため、正しい読
み取り順が常に発見できるとは限らないが、階層的下降
型分解を使用して、また、垂直な重なりを有する領域、
水平な重なりを有する領域、重なりがない領域を区別す
ることにより得ることができる。

【００１３】プロセッサ１１は、垂直座標が互いに重な
り合うこれらブロックセットを識別することから下降型
分解を開始する。プロセッサ１１は、適合テキストブロ
ックの長方形境界ボックスの水平投影プロファイルを利
用して、そのように行う。次に、これらの投影プロファ
イルは、ライン上のランレングスのセットとみなされ、
それぞれのランレングスに関連付けられた適合テキスト
ブロックセットは、その投影プロファイルから容易に判
断される。プロセッサ１１は、読取りに際して上から下
に読まれるようにそれらのセットを配列する。

【００１４】次に、プロセッサ１１は、それぞれのセッ
ト内のブロックの読取り順序を判断する。プロセッサ１
１は、適合テキストブロック内の一対のブロックを選択
することから始める。通常、２ブロックが互いに重なり
合うことはない。これらのケースの場合、２ブロック間
に次の３種類の可能関係が存在する：１．一方のブロックが他方のブロックの上にあり、２
ブロック間に水平方向の重なりが存在する。２．一方のブロックが他方のブロックの左側にあり、
２ブロック間に垂直方向の重なりが存在する。３．２ブロック間に垂直方向の重なりも、水平方向の
重なりも存在しない。

【００１５】プロセッサ１１は、１対のテキストブロッ
クが前述のいずれの関係に適合しているかに基づいて、
この１対のテキストブロックの関連読取り順序を判断す
る。この１対のブロックが互いに重なっている場合、プ
ロセッサ１１は、ブロックに合った次の２種類の可能関
係に基づいて、別々の順序付け規則を利用する：１．一方の重なりブロックの左上端が、他方のブロッ
クの左上端の上方にある場合、高い方のブロックは、低
い方のブロックより先に読取られる。２．一方の重なりブロックの左上端が、他方のブロッ
クの左上端と同じ高さにあって、他方のブロックの左側
にある場合、最も左側のブロックが、その右側のブロッ
クより前に読取られる。

【００１６】これらの順序付け規則、ならびに、非重な
りブロックについて論じられる順序付け規則は変わるこ
とは無い。

【００１７】プロセッサ１１は、ステップ３８にて、適
合テキストブロックをテキストラインとワードに分割す
る。プロセッサ１１は、フォントサイズを探したのと同
様なオペレーションを利用して、テキストラインの場所
を突きとめる。それぞれの適合テキストブロック内で、
プロセッサ１１は、各テキストラインを１個の連結成分
に結合するのに十分な大きさの水平構造化素子による形
態クロージングオペレーションを利用する。プロセッサ
１１は、サイズに基づいて、真のテキストラインの連結
成分と、テキストのラインを表さない連結成分とを区別
し、更に考察を行って、偽のテキストラインを取り除
く。その後、真のテキストラインの連結成分の境界ボッ
クスを見つける。

【００１８】次に、プロセッサ１１は、各テキストライ
ン内で連結成分の境界ボックスを見つけることによっ
て、これらのテキストライン内のワードを見つけようと
する。これを行なうために、プロセッサ１１は、テキス
トラインについての境界ボックスを構築するために使用
されたものと同様なテクニックを使用する。プロセッサ
１１は最初に小さな水平クロージングを利用して、各ワ
ードのほとんどの文字を連結する。次に、プロセッサ１
１は、見つかったばかりの連結成分のワード境界ボック
スを探す。プロセッサ１１は、これらのワード境界ボッ
クスを、各テキストライン内で水平にリストにソート処
理する。プロセッサ１１は、直前のオペレーションによ
って連結されなかったワードのほとんどを、ワード境界
ボックスに関する併合オペレーションを実施することに
よって連結する。そのようにする際、プロセッサ１１は
最大水平間隙をスケーリングして、テキストラインの高
さに近くする。ステップ３８で利用された方法の結果、
句読点は常にワードに連結されないので、プロセッサ１
１は、これらの小成分を配列ワードリストから除去す
る。

【００１９】テキストの主体の中のワード画像を識別す
ることにより、かくしてプロセッサ１１は、ステップ４
０にて、ＯＣＲを利用することなく同一ワードにどのワ
ード画像が対応するかを識別することに注意を向けるこ
とが出来る。プロセッサ１１は、十分に同じような形を
した全部のワードを、同一ワード等価クラスに置く。そ
うする際、プロセッサ１１は、厳格過ぎもせず、寛大過
ぎもしない整合パラメータを利用しなくてはならない。
過剰に厳格な整合パラメータを使用すると、同一ワード
の二つの画像を異なったワード等価クラスに置く危険性
を引き起こす。もし過剰に寛大な整合パラメータが使用
されると、プロセッサ１１は、異なったワードを同一ワ
ード等価クラスに置く危険性に直面する。

【００２０】プロセッサ１１は、ブラー・ヒットミス変
換（ＢＨＭＴ）またはハウスドルフ変換の改変を利用し
て、ワード等価クラスを識別する。ステップ４０にて、
プロセッサ１１は、選択された変換の閉込め制約条件を
改変して、遠く離れたいくつかの画素が、画像のフォア
グラウンドに含まれるようにする。

【００２１】ステップ４０で、ワード画像内の画素数の
一部分である、遠く離れた画素に関しての許容度を使用
する。プロセッサ１１は、テンプレートとワード画像境
界ボックスの間のアライメントの一例を検証するに過ぎ
ない。この一例は、テンプレートとワード画像境界ボッ
クスの左上隅の一致である。

【００２２】プロセッサ１１は、単一パスを利用して、
ワード等価クラスを特定する。プロセッサ１１は、適合
ブロックの各ワード画像を分析して、既存のワード等価
クラスの見本と最も整合するものを見つける。プロセッ
サ１１が整合するものを見出すと、そのワード画像は、
ワード等価クラスの例示リストに追加される。整合する
ものが見出されない場合、プロセッサ１１は、ワード画
像を利用して見本として新しいワード等価クラスを形成
する。

【００２３】プロセッサ１１は、ワード等価リストと、
後で有用となる多数の情報とを関連付ける。これらの情
報には、それぞれのワード等価クラスについて、ワード
等価クラスが出現する各センテンスのセンテンスＩ．
Ｄ．、画素単位によるワード幅、ならびに、センテンス
の最初の短くないワードとしてワードが出現する回数が
含まれる。あるワードが、何らかの短い冠詞または前置
詞を取り除くために考慮の末に選択された所定値よりも
大きな幅を備えたセンテンス内の最初のワードであった
場合には、そのワードは、センテンスの最初の短くない
ワードと見なされる。

【００２４】ステップ４２で、プロセッサ１１は、適合
テキストのブロック内のセンテンス境界を識別ならびに
標識して、後から主題センテンスを選択できるようにす
る。プロセッサ１１は、テキストラインのベースライン
近くのピリオドを探してから、これらのピリオドの最も
近くにある関連ワードを見つけることによってセンテン
スを識別する。センテンスを終結するピリオドを識別す
るために、プロセッサ１１は、ベースライン付近の胡椒
をふったようなノイズ、コンマやセミコロン、省略記号
のドット、コロンの下側のドット、センテンス内の略語
を終わらせるドットから、ピリオドを区別しなくてはな
らない。また、プロセッサ１１は、感嘆符や疑問符の一
部を形成するドットを識別しなくてはならない。プロセ
ッサ１１は、センテンスを終わらせるピリオドの後にく
る引用符を識別しなくてはならない。プロセッサ１１
は、測定距離に基づいて、ピリオドと、それ以外のタイ
プの句読点とを区別する。従って、文書画像を走査する
解像度とは無関係な、検証対象フォントサイズに基づい
た比較基準を利用することが重要である。望ましくは、
使用される尺度は、テキストブロック内の文字の連結成
分についての境界ボックスの測定されたメジアン高さで
ある。典型的には、これは優勢フォントの「ｘ−高さ」
である。

【００２５】ステップ４４に入ると、プロセッサ１１は
直前の画像処理で生成された情報を得て、主題総括を抜
き出すためのセンテンス識別を開始するばかりとなる。
プロセッサ１１は、ドロップワードを識別することから
始める。「ドロップワード」は、主題の意味を伝えない
自然言語テキストにごく頻繁に出現するワードのことで
ある。ほとんどの代名詞、前置詞、限定詞、ならびにｂ
ｅ動詞が、ドロップワードに分類される。

【００２６】ある単語がドロップワードである可能性を
判断する場合、多くの要因を考慮しなくてはならない。
ドロップワードは文書中にごく頻繁に出現する傾向があ
るが、論題内容を示す他の多くの単語についてもそうで
ある。従って、ドロップワードを識別するのに、頻繁性
だけを利用することが出来ない。多くのドロップワード
は短い傾向があるが、論題内容を示す多くの単語もそう
である。従って、ドロップワードを識別するのに、ワー
ド等価クラスの幅だけでは不十分である。多くのドロッ
プワードは、センテンスの最初に出現する傾向がある
が、他の論題内容ワードもそうである。そこでプロセッ
サ１１は、画素単位によるワード幅、文書内でのその出
現回数、センテンス内の最初の「幅広」ワードとして出
現する回数などの要因を組み合わせたものに基づいて、
或る単語がドロップワードではないという可能性を判断
する。

【００２７】次にプロセッサ１１は、ワード等価クラス
のリストから、最もドロップワードでありそうなワード
等価クラスを排除する。どのくらい多くの等価クラスを
ドロップワードとして排除するかは、処理される文書の
長さによって異なる。

【００２８】プロセッサ１１は、ステップ４４で作られ
た縮小ワードリストを利用して主題ワードを識別する。
プロセッサ１１は残存ワードのうち最も頻繁に出現する
ものを文書内容を示すもののように見なすので、そのよ
うなワードを主題ワードと呼ぶ。次にプロセッサ１１
は、主題ワードを利用して、適合テキストのブロック中
の各センテンスのスコアを付ける。各センテンスのスコ
アを付けた後、プロセッサ１１は、最もスコアの高いセ
ンテンスを選択して抜き出す。

【００２９】プロセッサ１１は、それらを、総括しよう
とする文書に出現する順序でコンピュータユーザに提示
する。

【００３０】図３に、テキスト本体のブロックを識別す
る命令３４をフロー図で示す。テキストの各ブロックの
メジアンライン高は、ステップ３２で先に求められてい
るので、プロセッサ１１は、この判断を比較的容易に行
うことができる。プロセッサ１１は、これらのブロック
のメジアンライン高を利用して、文書全体のメジアンラ
イン高を見つける。

【００３１】プロセッサ１１は、ステップ７２にて、優
勢フォントサイズのテキストブロックを識別し、これに
フラグを付ける。優勢フォントサイズと異なるフォント
サイズが僅かながら存在するテキストのブロックは、適
合テキストブロックとしてフラグが付けられる。

【００３２】図４、図５に、適合テキストブロックの読
取り順序を判断する命令３６をフロー図の形で示す。プ
ロセッサ１１は、ブロック間の垂直座標の重なりに基づ
いて適合テキストブロックセットを識別することから始
める。プロセッサ１１は、適合テキストブロックの境界
ボックスの水平投影プロファイルを見つけることによっ
て、この判定を行うことができる。それぞれの投影プロ
ファイルは、ラインに関するランレングスセットと見な
され、それにより、プロセッサ１１は垂直座標が重なる
ブロックを容易に識別できる。これがなされると、プロ
セッサ１１は、上から下に適合テキストブロックのセッ
トを配列する。

【００３３】プロセッサ１１は、ステップ８４にて、適
合テキストブロックの各セット内のブロックの読取り順
序を判断するプロセスを開始する。最初にプロセッサ１
１は、処理するブロックセットを選択する。次に、ステ
ップ８６にて、プロセッサ１１は、選択ブロックセット
内の一対のブロックを選択する。

【００３４】プロセッサ１１は、選択された一対のテキ
ストブロックが互いに交わるか否かを判断することによ
り、ステップ８８にて利用する順序付け規則が２セット
の順序付け規則のいずれか判断する。プロセッサ１１
は、選択された一対のテキストブロックの境界ボックス
の座標を利用してこの判断を行う。もし、２つのブロッ
クが互いに交わらなければ、プロセッサ１１は、ステッ
プ９６にて、このペアのうち、最初に読取るべきブロッ
クは左上隅が最も高いところにあるブロックであること
を指示する。

【００３５】選択された一対のブロックが互いに交わら
ない場合、プロセッサ１１はステップ９０に分岐する。
プロセッサ１１は選択された一対のテキストブロックの
相互の、ページ画像上の相対位置を求める作業を開始す
る。プロセッサ１１は、ページ上で、この対の一方のブ
ロックが、他方の上方にあるか否かを判断することから
始める。もし一方のブロックが他方の上方にある場合、
プロセッサ１１はステップ９２に進む。プロセッサ１１
は、選択された一対のテキストブロックの水平投影プロ
ファイルに重なりがあるか否か判断する。選択された一
対のブロックの水平座標が重なっている場合、プロセッ
サ１１はステップ９４に進む。このとき、プロセッサ１
１は、対のうちの、低い方のブロックより高い方のブロ
ックを先に読まなくてはならないことを指示する。

【００３６】プロセッサ１１が、選択された一対のブロ
ックの間に所期の相対位置を見出せない場合、プロセッ
サ１１はステップ１１０に進む。プロセッサ１１は再び
選択された一対のブロックの相対位置をチェックし、別
のパターンに該当しないかを調べる。最初にステップ１
１０でプロセッサ１１は、この対の一方のブロックが、
他方のブロックの左側にあるか否かを判断する。そうで
あれば、プロセッサ１１はステップ１１２に進み、この
一対のブロックの垂直座標が重なっているか否かが判断
される。垂直座標が重なっている場合には、この一対の
ブロックは検証対象パターンに一致しており、プロセッ
サ１１はステップ１１４に進む。ステップ１１４で、プ
ロセッサ１１は、最も左側のブロックが、対の他方のブ
ロックより先に読取られなくてはならないと指示する。

【００３７】一対のブロックの間の所期の相対位置が見
つからない場合、プロセッサ１１はステップ１１６に進
む。プロセッサ１１は最初に、一対のブロックの水平座
標が重なっているか否かを判断する。そうであれば、ス
テップ１１８にて、プロセッサ１１は、この対の高い方
のブロックを低い方のものより先に読取らなくてはなら
ないことを指示する。一方、水平座標が重ならない場合
は、ステップ１２０にて、プロセッサ１１は、対の最も
左側のブロックを他方のブロックより先に読取らなくて
はならないことを指示する。

【００３８】選択された一対のブロックの間の相対的読
取り順序が示されると、プロセッサ１１はステップ９８
に達する。プロセッサ１１は、選択セット内の他の一対
のブロックを検証しなくてはならないか否かを明らかに
する。選択されたブロックセット内のすべてのブロック
対について検討がなされていない場合、プロセッサ１１
はステップ８６に戻って、選択セット内の別の一対のブ
ロックを選択し、前述のようにそれらを順序付けるす
る。一方、選択されたブロックセット内のすべてのブロ
ック対が順序付けられている場合には、プロセッサ１１
はステップ１００に進む。このとき、プロセッサ１１
は、他のブロックセットを順序付ける必要があるか否か
判断する。そうであれば、プロセッサ１１はステップ８
４に戻り、他のブロックセットを選択し、前述の方法で
順序付けを行う。一方、プロセッサ１１が既に全部のセ
ットの全部のブロックの相対読取り順序を決定している
場合には、プロセッサ１１はステップ１０２に進む。プ
ロセッサ１１は、その相対読取り順序に基づいて、各セ
ットの各ブロック内の読取り順序を決定する。

【００３９】図６に、適合テキストのブロック内のセン
テンス境界を識別するための命令４２の概要図を示す。

【００４０】プロセッサ１１は、ステップ１３８にて連
結成分を選択することから、命令４２の実行を開始す
る。その後、ステップ１４０にて、プロセッサ１１は、
選択された連結成分がピリオドであるか否かを判断す
る。どのようにプロセッサ１１がこれらの決定を行なう
かについては、図６に関して詳細に説明される。これら
の特性が、選択された連結成分がピリオドかもしれない
ことを示す場合には、プロセッサ１１は、ステップ１４
２に進む。

【００４１】ステップ１４２にて、プロセッサ１１は、
選択された連結成分がドットの形をしていてベースライ
ンに近接している場合でさえ、ピリオドでないか否かを
判断する多ステッププロセスを開始する。そうするため
に、プロセッサ１１は、１）選択された連結成分がコロ
ンの一部である可能性、２）選択された連結成分のドッ
ト列の一部である可能性、という２つの可能性を排除す
る。プロセッサ１１は、最初に、選択された連結成分
の、その隣接物に対する相対位置を求めることによっ
て、選択連結成分がコロンの一部であるか否かを検証す
る。選択された連結成分とその隣接物の相対位置から、
選択された連結成分がコロンの一部でないことが判明し
た場合、選択された連結成分はセンテンスの境界をマー
キングする句読点の一部である可能性がある。

【００４２】ステップ１４４にて、プロセッサ１１は、
選択された連結成分とそれに続く隣接物の相対位置を比
較することによって、選択された連結成分が省略記号の
一部か否かを判断する。省略記号の一部でない場合、選
択された連結成分はセンテンスの最後をマーキングす
る。

【００４３】ステップ１４６にて、プロセッサ１１は、
選択された連結成分が感嘆符または疑問符の一部である
か否かを判断する。そうであるならば、選択された連結
成分はセンテンスを終結する句読点の一部である。従っ
て、プロセッサ１１はステップ１４８に進み、選択され
た連結成分をセンテンス境界としてマーキングする。

【００４４】選択された連結成分が感嘆符または疑問符
の一部でない場合でも、依然としてセンテンスの最後を
マーキングする場合がある。これに応じて、プロセッサ
１１はステップ１５０に分岐する。プロセッサ１１は、
選択された連結成分の後ろに引用符が続いているか否か
を判断する。選択された連結成分の後ろに引用符がある
場合、選択された成分はセンテンスの終止句読点である
が、センテンス境界の特性を表してはいない。

【００４５】プロセッサ１１がステップ１５０の検証を
行わなくとも、選択された連結成分は、依然としてセン
テンスを終結するピリオドである可能性がある。この可
能性を反証否定するために、可能であるならば、プロセ
ッサ１１はステップ１５２にて、選択された連結成分が
センテンス内の略語の一部であるか否か判断する。選択
された連結成分はセンテンス内略語の一部でないとプロ
セッサ１１が判断した場合には、プロセッサ１１は、選
択された連結成分はセンテンスの境界をマーキングする
ピリオドであるとみなす。従って、ステップ１４８に
て、プロセッサ１１は、選択された連結成分をそのよう
にマーキングする。

【００４６】プロセッサ１１は、ステップ１４０、１４
２、１４４の検証のいずれかに失敗した後、あるいは、
センテンス境界を標識した後に、ステップ１５６に進
む。こうしてプロセッサ１１は、他の連結成分を検証し
残しているか否か判断する。そうであれば、プロセッサ
１１はステップ１３８に戻り、全部の連結成分が検証さ
れるまで命令４２を実行する。全部のセンテンスの境界
が標識されると、プロセッサ１１は次にステップ４４に
分岐する。

【００４７】図７に、選択された連結成分がピリオドで
あるか否かを判断する命令１４０をフロー図の形で示
す。

【００４８】最初に、ステップ１７０にて、プロセッサ
１１は選択された連結成分が胡椒をふったようなノイズ
であるか否かを判断する。プロセッサ１１は、選択され
た連結成分の境界ボックスのサイズに基づいて、この点
で判定を行う。境界ボックスのサイズが最小サイズより
大きい場合、選択された連結成分はピリオドであろう。
選択された連結成分が最小サイズより大きい場合、プロ
セッサ１１はステップ１７２に進む。

【００４９】プロセッサ１１は、ステップ１７２にて、
選択された連結成分がピリオドであるか否かを判断する
２番目の検証を実施する。プロセッサ１１は、２つの特
徴をチェックすることによって、選択された成分がドッ
トのような形であるか否かを判断する。考慮される最初
の特徴は、選択された連結成分の境界ボックスの各ディ
メンションのサイズである。各ディメンションは、高さ
ｘの第１分数より小さくなくてはならない。プロセッサ
１１が考慮する第２の特徴は、選択された連結成分の境
界ボックスの２つのディメンションの間のサイズの差で
ある。２つのディメンション間の差は、メジアン高ｘの
第二分数より小さくなくてはならない。選択された連結
成分の境界ボックスが、要求される特徴を両方とも備え
ている場合には、選択された連結成分は、コンマ、また
はセミコロンの下側に連結された成分ではなさそうであ
り、ピリオドであろう。

【００５０】ステップ１７４にて、プロセッサ１１は、
選択された連結成分の位置を調べ、それがテキストライ
ンのベースライン付近にあるか否かを確認する。先に行
われたベースライン測定に何らかの小エラーがあるかも
知れないので、ベースラインから何個かの画素範囲内で
あれば、プロセッサ１１は、その選択連結成分をベース
ライン上にあるものとみなす。選択された連結成分が十
分にベースラインに近ければ、プロセッサ１１はステッ
プ１４２に進む。

【００５１】選択された連結成分が所要の特徴のいずれ
も備えていないとプロセッサ１１が判断した場合、プロ
セッサ１１はステップ１５６に戻る。

【００５２】図８に、選択された連結成分がコロンであ
るか否かを判断する命令１４２をフロー図の形で示す。
プロセッサ１１は、選択された連結成分と、その隣接す
る連結成分との間の関係を考慮して、この決定を行な
う。

【００５３】プロセッサ１１は、その作業をステップ１
８０から開始する。ステップ１８０にて、プロセッサ１
１は、選択された連結成分に隣接する両方の連結成分の
形を吟味する。これらのいずれもがドット形でない場
合、プロセッサ１１は選択された連結成分がコロンの一
部であるという可能性を排除する。その場合、プロセッ
サ１１はステップ１４４に進む。一方、隣接する連結成
分のいずれかがドット形の場合、選択された連結成分は
コロンであろう。

【００５４】ステップ１８２で、プロセッサ１１は、選
択された連結成分ならびにそのドット形の隣接物が、コ
ロンのドットのように、一方が他方の上に配置されてい
ないか判断する。これら２個の連結成分がコロンを表示
するのであれば、それらの境界ボックスは垂直に位置合
わせされ、いくらかの量だけ互いに水平に重なるであろ
う。どのくらいの重なりであるかは重要ではない。２つ
の境界ボックスの間に重なりが全く無いということは、
選択された連結成分がコロンの一部でないことを示し、
それによりプロセッサ１１はステップ１８２からステッ
プ１４４に分岐する。選択された連結成分とそのドット
形の隣接物の境界ボックス間の重なりは、選択された連
結成分がコロンの一部であろうことを示すものである。

【００５５】ステップ１８４にて、プロセッサ１１は、
その最後の検証を実施して、選択された連結成分がコロ
ンの一部であるか否かを判断する。プロセッサ１１は、
２つの関連連結成分の境界ボックスの上部の間の距離を
調べて、隣接連結成分が、実際には、選択された連結成
分以外の別のテキストラインの一部であるという可能性
を排除する。これは、２つの境界ボックスの上部の間の
距離が、高さｘの第３分数を越える場合に最もありそう
なケースである。該距離がこの分数を越える場合、選択
された連結成分はコロンの一部ではなく、センテンス境
界の特性を表す。プロセッサ１１はステップ１４４に進
み、この可能性を究明する。一方、２つの境界ボックス
の上部の間の距離が、第３分数より小さい場合、選択さ
れた連結成分はコロンのようであり、センテンス境界を
マーキングしない。その場合、プロセッサ１１はステッ
プ１５６に戻る。

【００５６】図９に、選択された連結成分が省略記号の
一部であるか否かを判断する命令１４４をフロー図の形
で示す。

【００５７】プロセッサ１１は、ステップ１９０にて、
選択された連結成分の次に続く連結成分が、やはりドッ
ト形であるか否かを判断することから始める。後続連結
成分がドット形でない場合、選択された連結成分は省略
記号の一部でない、あるいは、省略記号の最後のドット
であろう。これは２つの答えが存在する曖昧な状況であ
る。まず、省略記号が見つかった場合と同じことを行っ
て、必ずセンテンスを終結するか、絶対に終結しない
か、を検討する。次に、選択された連結成分の後の連結
成分を分析して、後続連結成分が新しいセンテンスを開
始しているか確認する。これが命令１４４で取られる方
法である。選択された連結成分が省略記号の最後のドッ
トであるかも知れない場合、プロセッサ１１はステップ
１４６に進んで、選択された連結成分がセンテンス境界
の特性を表すか否かに関する他の手掛かりを探し続け
る。

【００５８】後続連結成分がドット形であるので、選択
された連結成分が省略記号の一部かも知れない場合、プ
ロセッサ１１はステップ１９２に進む。プロセッサ１１
は、後続連結成分がベースラインにどのくらい近接して
いるかを調べる。検証により、後続連結成分がベースラ
インに十分に近接していることが分かった場合、プロセ
ッサ１１は、選択された連結成分は省略記号の一部であ
ると見なす。従って、プロセッサ１１は、ステップ１５
６に進む。一方、後続連結成分が、あまりベースライン
に近接していない場合、選択された連結成分は省略記号
の一部とはみなされず、センテンス境界をマーキングす
るであろう。

【００５９】図１０に、選択された連結成分の次に１個
または２個の引用符が続いているか否かを判断する命令
１５０をフロー図の形で示す。

【００６０】ステップ２００にて、プロセッサ１１は、
後続の２つの連結成分が引用符のような形であるか否か
を判定する。プロセッサ１１は、引用されるべき後続の
二つの連結成分が三つの条件を満足するかどうかを考慮
する。第１に、それぞれの引用符形の連結成分の境界ボ
ックスの幅は、高さｘの第６分数より狭くなくてはなら
ない。第２に、引用符形の後続連結成分のそれぞれの境
界ボックスの高さは、高さｘの第７分数より低くなくて
はならない。第３に、それぞれの引用符形の後続連結成
分の境界ボックスの高さと幅の差は、高さｘの第８分数
より小さくなくてはならない。２つの後続連結成分の両
方が、これら３つの制限のすべてを満足しない場合、選
択された連結成分の後ろに引用符はなく、プロセッサ１
１はステップ１５２に進む。一方、後続連結成分の１個
または両方が、３個全部の制限を満足する場合は、プロ
セッサ１１はステップ１５４に進む。

【００６１】プロセッサ１１は、ステップ２０２にて、
選択された連結成分の位置に対する後続連結成分の位置
を検証する。後続連結成分は、引用符となるに十分なほ
ど、選択連結成分の上方にあるのだろうか。プロセッサ
は、高さｘの第４分数を利用して、この疑問に答える。
後続連結成分が、選択された連結成分の上部よりも十分
に上方にない場合、選択された連結成分の後に引用符は
ない。プロセッサ１１は、ステップ１５２に進むことに
よって、これに応じる。プロセッサ１１が、これとは逆
のことを見出した場合、つまり、後続連結成分境界ボッ
クスの上部が、選択された成分ｎ境界ボックスの上部か
ら少なくとも第４分数だけ上方にある場合、プロセッサ
１１はステップ２０４に分岐する。

【００６２】ステップ２０４にて、プロセッサ１１は、
少なくとも１回、最後の検証を行って、２つの後続連結
成分のうちの一方が引用符であるか否かを判断する。後
続連結成分のうちの一方または両方が引用符の形をして
いて、選択された連結成分の十分上方に離れた位置にあ
るとしても、それが選択された連結成分に水平方向に十
分に近くなければ、依然として引用符ではない。プロセ
ッサ１１は、両方の連結成分の左側間の距離を水平方向
に測定することによって、これを判断する。この距離
は、高さｘの第５分数より狭くなくてはならない。この
２つの連結成分がそれほど近接していない場合、プロセ
ッサ１１は、ステップ１５２に進む。一方、後続連結成
分が、引用符であるに十分なほど、選択された連結成分
に近く続いている場合、プロセッサ１１はステップ２０
４からステップ１４８に進む。

【００６３】図１１に、選択された連結成分がセンテン
ス内の略語の一部であるか否かを判断する命令１５２を
フロー図の形で示す。後続連結成分の相対位置が、選択
された連結成分に対して正しい場合、或いは、後続連結
成分が大文字である場合には、選択された連結成分は、
センテンス内略語の一部のようには見えない。後続連結
成分がこれらの要求のいずれも満足しない場合には、選
択された連結成分はセンテンス内略語の一部と見なさ
れ、センテンス境界をマークしない。

【００６４】ステップ２１０にて、プロセッサ１１は、
選択された連結成分に対する後続連結成分の位置が、セ
ンテンスを終結するものと矛盾しないものであるか否か
を判定する作業を開始する。最初に、ステップ２１０
で、プロセッサ１１は、後続連結成分が、選択された連
結成分と同じテキストラインの一部であるか否かを判定
する。プロセッサ１１はそのようにすることにより、隣
接するテキストライン間の垂直方向の離間が非常に小さ
いという理由で、選択連結成分の下のラインと関連のあ
る連結成分が、テキストライン境界ボックスの一部とし
てとらえられる可能性を排除する。この判定を行うため
に、プロセッサ１１は、選択された連結成分と後続の連
結成分の境界ボックスの上部の間の垂直方向距離を測定
する。２つの連結成分間の垂直方向距離が、高さｘの第
９分数を越えている場合、この２つの連結成分は同一テ
キストラインに属さない。

【００６５】２つの連結成分が同一テキストラインに属
さないことが判明すると、プロセッサ１１はステップ２
１０からステップ２１２に分岐する。プロセッサ１１
は、次に、この後続連結成分の右側にある隣接物を、新
しい後続連結成分とする。その後、プロセッサ１１は、
ステップ２１０に戻る。

【００６６】結局、プロセッサ１１は、同一テキストラ
インに含まれている選択連結成分の後に続く連結成分
が、テキストラインの最後に達する前の選択連結成分で
あると判断するであろう。これが発生した場合、プロセ
ッサ１１はステップ２１４に分岐する。かくしてプロセ
ッサ１１は、選択された連結成分と後続連結成分の相対
位置が、別のセンテンスを開始する大文字となる後続連
結成分であることに矛盾しないか否かを判断する作業を
開始する。ステップ２１４で、プロセッサ１１は、後続
連結成分が、選択された連結成分の左側に十分に離れて
いるか否かを判断する。後続連結成分は、その境界ボッ
クスの左端が、選択された連結成分の境界ボックスの左
端から、高さｘの第１０分数だけ離れていれば、十分に
離れていると見なされる。２つの連結成分が互いにそれ
ほど離れていない場合、プロセッサ１１は、選択された
連結成分をセンテンス内の略語の一部と見なし、ステッ
プ１５６に分岐する。他方、２つの連結成分間の距離が
十分に大きい場合、後続連結成分は、別のセンテンスの
最初であるかも知れない。

【００６７】ステップ２１６にて、プロセッサ１１は、
後続連結成分が大文字であるに十分なほど大きいか否か
を判断する。プロセッサ１１は、後続連結成分の高さ
を、高さｘの第１１分数と比較することによって、この
判定を行う。この高さが第１１分数を越えない場合、プ
ロセッサ１１は、後続連結成分を大文字と見なさない
し、選択された連結成分をセンテンスを終結するピリオ
ドとも見なさない。その代わり、プロセッサ１１はステ
ップ１５６に分岐する。一方、後続連結成分の高さが第
１１分数を越える場合、後続連結成分は大文字であろ
う。

【００６８】プロセッサ１１は、後続連結成分がベース
ラインにどのくらい近接しているかを調べることによっ
て、後続連結成分が、新センテンスを開始する大文字で
あるという仮説を検証し続ける。大文字は、ベースライ
ンに乗るので、後続連結成分の下部は、それが大文字で
あるならば、ベースラインに近接するはずである。プロ
セッサ１１は、ベースラインと後続連結成分の境界ボッ
クスの下部の距離が数画素を越えなければ、後続連結成
分はベースラインに近いと見なす。後続連結成分の下部
が、ベースラインから相当に離れている場合、プロセッ
サ１１はステップ１５６に進み、選択された連結成分を
センテンス内の略語とみなす。逆に、後続連結成分の下
部がベースラインに十分に近接している場合、後続連結
成分は大文字であり、新センテンスの文頭であろう。

【００６９】プロセッサ１１は、ステップ２２０にて、
後続連結成分が新センテンスの最初か否かを判断する最
後の検証を実施する。プロセッサ１１は、後続連結成分
を、その右側の隣接物の高さと比較する。この連結成分
を、右隣接物と呼ぶ。大文字よりも高い文字はほとんど
ないので、後続連結成分の高さと比較して右隣接物の高
さが非常に大きい場合、後続連結成分は恐らく新センテ
ンスを開始しなであろう。プロセッサ１１は、２つの連
結成分の高さの差を第１２分数と比較することによっ
て、この判断を行う。右隣接物の高さが、後続連結成分
の高さより、第１２分数を越えて大きい場合、プロセッ
サ１１はステップ１５６に分岐し、選択された連結成分
をセンテンス内の略語と見なす。逆に、２つの連結成分
間の高さの差が第１２分数より小さい場合、プロセッサ
１１は、選択された連結成分を、センテンスを終結する
ピリオドと見なして、ステップ１４８に分岐する。

【００７０】図１２に、ワードリストからドロップワー
ドを識別して削除する命令４４をフロー図の形で示す。
命令４４の実行は、ステップ２３０で開始される。

【００７１】プロセッサ１１は、各ワードごとに、その
ワードがドロップワードではない可能性を推測すること
から始める。この可能性を判断するために、画素単位で
のワード幅、適合テキストブロック内でのワードの出現
回数、文書内のワード総数、センテンス内の最初の短く
ないワードとしてそのワードが出現する回数、といった
多数の要因が利用される。短くないワードというのは、
「ｔｈｅ」のような、所定の短ワードよりも十分に大き
いワードのことである。

【００７２】一般に「ｔｈｅ」は、文書中で最も頻繁に
出現するワードであるので、プロセッサ１１は通常、ワ
ード等価クラスからそれを識別することができる。「ｔ
ｈｅ」を表すワード等価クラスを識別するために、プロ
セッサ１１は最初に、出現頻度に基づいてワード等価ク
ラスを順序付ける。「ｔｈｅ」の場所を確実に突きとめ
るために、プロセッサ１１は、最も頻繁に出現するワー
ド等価クラスの幅と、最も狭い頻繁出現ワード等価クラ
スの幅を比較する。プロセッサ１１は、２０〜５０の最
も頻繁に出現するワード等価クラスを探索することによ
って、最も狭い頻繁出現ワードを識別する。プロセッサ
１１は、最も頻繁に出現するワード等価クラスの幅が最
も狭い頻繁出現ワード等価クラスの幅の少なくとも４倍
である場合に「ｔｈｅ」を識別した、と仮定する。プロ
セッサ１１が「ｔｈｅ」を識別すると、それは選択され
た短ワードとして利用される。他方、プロセッサ１１が
「ｔｈｅ」を識別しなかった場合、最も狭い頻繁出現ワ
ード等価クラスが、選択短ワードとして利用される。

【００７３】短くないワードは、デザイン上の選択であ
るので、ワード等価クラスが、選択短ワードよりどのく
らい広いかは指定されなくてはならない。一実施例にお
いて、選択短ワードが「ｔｈｅ」の場合、短くないワー
ドは、選択短ワード幅の１．２倍である。選択短ワード
が最も狭い頻繁出現ワード等価クラスの場合、短くない
ワードは、選択短ワードの何倍かの広さでなくてはなら
ない。

【００７４】各センテンスの最初の短くないワードを識
別した後、プロセッサ１１は、各ワードがドロップワー
ドではないという可能性を推測する。好ましくは、プロ
セッサ１１は、次の式により、この可能性の指標を計算
する。

【００７５】Ｌ＝（ω_i／ω_the）＊（１＋ｂ_i／ｆ_i）＋
（ｃ＊Ｗ／ｆ_i）式中、Ｌは、ワードがドロップワードでない可能性の指
標、ω_iは、ワードｉの画素単位幅、ω_theは、「ｔｈ
ｅ」というワードの画素単位幅、ｂ_iは、適合テキスト
ブロックの一つにおいて、センテンスの最初の短くない
ワードとしてワードｉが出現した回数、ｆ_iは、適合テ
キストブロックにおけるワードｉの出現回数、ｃは、２
項の間の一定重み付け係数、Ｗは、文書中のワード総
数、である。

【００７６】式の最初の項である（ω_i／ω_the）＊（１
＋ｂ_i／ｆ_i）は、内容ワードとしてセンテンスの最初に
出現する傾向のある長いワードに好都合に作用し、次の
項（ｃ＊Ｗ／ｆ_i）は、内容ワードとしてセンテンスに
比較的少なく出現する傾向のあるワードに好都合に作用
する。

【００７７】その類似の指標が、各ワード等価クラスが
ドロップワードでないと決定された場合には、プロセッ
サ１１は、ドロップワードではないという可能性に基づ
いて、ワード等価クラスを順序付ける。その後、この順
序は逆順にされて、ドロップワードであるという可能性
に基づいたワード等価クラスの順序付けを生じる。

【００７８】プロセッサ１１はステップ２３２に進み、
文書が短いか長いかを判定する。これは単純に、ワード
等価クラス総数を、いくつかの閾値と比較することによ
り行われる。文書が短いものであれば、プロセッサ１１
はステップ２３４に分岐し、ドロップワードである可能
性が最も高いＸ個のワードをドロップワードとして削除
する。但し、Ｘは文書の長さに比例する。他方、文書が
長いものである場合、プロセッサ１１はステップ２３２
からステップ２３６に進む。この場合、プロセッサ１１
は、ドロップワードである可能性が最も高いＹ個のワー
ドを、ドロップワードとして削除する。但し、Ｙは定数
である。

【００７９】図１３に、主題センテンスを抜き出す命令
４６をフロー図の形で示す。プロセッサ１１は、デフォ
ルトの長さからＳで示される主題総括の長さを変更する
機会をコンピュータユーザに与えることにより開始する
ことが望ましい。主題総括のデフォルトの長さは、文書
内のセンテンス数より少ない任意のセンテンス数とする
ことができる。

【００８０】ステップ２４８にて、プロセッサ１１は、
主題センテンスの選択に利用する主題ワード数を求め
る。主題ワード数はＫで示されている。一般に、Ｋは、
Ｓより小さく、１より大きい。ＫがＳより小さいことを
要求することにより、選択主題センテンス間の主題の共
通性が保証される。

【００８１】ステップ１５０で、プロセッサ１１は、主
題ワードを選択するプロセスを開始する。プロセッサ１
１は、ワードリストを分析して、文書中に各ワード等価
クラスが出現する回数を求める。これは、単に、各ワー
ドと関連のあるセンテンスＩ．Ｄ．の数を数えることに
よって行われる。その後、プロセッサ１１は、計数、す
なわち、文書内の各ワード等価クラスの総発生回数に基
づいてワードをソート処理する。同計数を有する２個の
ワードの引分け関係は、ワード画像の幅の広いほうに有
利に破られる。その後、プロセッサ１１はステップ２５
２に進む。次にプロセッサ１１は、ソート処理されたワ
ードリストから、最も計数の高かったＫ個のワードを選
択する。これが済むと、プロセッサ１１はステップ２５
４に進む。

【００８２】ステップ２５４で、プロセッサ１１は、文
書中のＫ個の主題ワードの総出現回数を計算する。Ｎで
示されるこの数字は、Ｋ個の主題ワードの計数を合計す
ることによって算出される。プロセッサ１１は、ステッ
プ２５６に分岐する。

【００８３】ステップ２５６、２５８、２６０、２６２
にて、プロセッサ１１は、Ｋ個の主題ワードの少なくと
も１個を含んでいるセンテンスだけを検討する。プロセ
ッサ１１は、記憶されたワードリストのうちで、最もス
コアの高かったＫ個のワードを調べることによって、そ
のように行う。ステップ２５６にて、ｔ_sで示される１
個のワードを選択した後、プロセッサ１１は、選択ワー
ドｔ_sと関係のある各センテンスＩ．Ｄ．を調べる。選
択ワードｔ_sと関係のある各センテンスＩ．Ｄ．に対
し、プロセッサ１１は、ステップ２５８で、そのセンテ
ンスのスコアを増分する。

【００８４】センテンスのスコアは、ステップ２５８に
てセンテンススコアリストを作成することによって追跡
できる。プロセッサ１１がセンテンスＩ．Ｄ．を選択す
るたびに、センテンススコアリストは、それにセンテン
スＩ．Ｄ．が含まれているか否か、調べられる。含まれ
ていない場合には、センテンススコアリストにセンテン
スＩ．Ｄ．が加えられ、そのスコアが適宜に増加され
る。他方、センテンススコアリストに既に特定のセンテ
ンスＩ．Ｄ．が含まれている場合、既にセンテンスに関
連付けられているスコアは、増分される。

【００８５】選択ワードｔ_sに関連付けられた全部のセ
ンテンスのスコアを増分した後、プロセッサ１１はステ
ップ２６０に分岐する。プロセッサ１１は、主題ワード
の評価が済んだか否かを判断する。評価が済んでいない
場合には、プロセッサ１１はステップ２５６に戻り、選
択ワードとして別の主題ワードを選択する。プロセッサ
１１は、全部の主題ワードの検証がなされるまで、先に
述べた様にステップ２５６、２５８、２６０を経て分岐
する。全てが評価済みという事象が発生すると、プロセ
ッサ１１はステップ２６２に分岐する。

【００８６】ステップ２６２で、プロセッサ１１は、最
もスコアの高いＳ個のセンテンスを主題総括として選択
する。プロセッサ１１は、スコアに基づいてセンテンス
スコアリストをソート処理することによって、これを行
う。主題センテンスを選択した後、プロセッサ１１は、
ユーザに主題総括を提示する場合もある。

【図面の簡単な説明】

【図１】命令を実行することによって本方法を実施す
るコンピュータシステムのブロック図である。

【図２】最初にＯＣＲを実行せずに文書画像から文書
の主題総括を作る命令のフロー図である。

【図３】テキスト本体のブロックを識別する命令のフ
ロー図である。

【図４】適合テキストブロックの読取り順序を判断す
る命令のフロー図の第１の部分である。

【図５】適合テキストブロックの読取り順序を判断す
る命令のフロー図の第２の部分である。

【図６】適合テキストのブロック内のセンテンス境界
を識別するためにプロセッサ１１が実行する命令の概要
図である。

【図７】選択された連結成分がピリオドであるか否か
を判断する命令のフロー図である。

【図８】選択された連結成分がコロンであるか否かを
判断する命令のフロー図である。

【図９】選択された連結成分が省略記号の一部である
か否かを判断する命令のフロー図である。

【図１０】選択された連結成分の次に１個または２個
の引用符が続いているか否かを判断する命令のフロー図
である。

【図１１】選択された連結成分がセンテンス内の略語
の一部であるか否かを判断する命令のフロー図である。

【図１２】ワードリストからドロップワードを識別し
て削除する命令のフロー図である。

【図１３】主題センテンスを抜き出す命令のフロー図
である。

【符号の説明】

１０コンピュータシステム１１プロセッサ１２モニタ１３プリンタ１４キーボード１６マウス１８電子タブレット２２フロッピーディスクドライブ２４スキャナ２６文書２８半導体メモリ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジョン・ダブリュー・チューキアメリカ合衆国ニュージャージー州 08540−2043 プリンストンピー・オー・ボックス2043 アレトンロード 115

Claims

【特許請求の範囲】

【請求項１】第１の多数のセンテンスと、各々がフォ
ントサイズを備えた第２の多数の出現ワードを含む文書
画像中のドロップワードを光学式文字認識を実施せずに
識別する方法であって、プロセッサに結合されたメモリ
に電子形式で記憶された命令を実行することによってプ
ロセッサが実施する方法であり、ａ）文書画像中の優勢フォントサイズを識別するステ
ップと、ｂ）文書画像中の優勢フォントサイズのセンテンスの
センテンス境界を識別するステップと、ｃ）文書画像を分析して、優勢フォントサイズの等価
クラスワードであって、第２の多数の出現ワードのうち
の少なくとも１個の出現ワードをそれぞれが含む等価ク
ラスワードを識別するステップと、ｄ）各等価クラスワードについて、各等価クラスワー
ドの幅、等価クラスワードの出現回数、等価クラスワー
ドがセンテンスの最初の短くないワードとして出現する
回数に基づいて、等価クラスワードがドロップワードで
はない可能性を求めるステップと、ｅ）等価クラスワードがドロップワードである可能性
に基づいて、ドロップワードとしての等価クラスワード
の数を指定するステップとを含む前記方法。
【請求項２】請求項１に記載の方法において、ステッ
プｄ）が、式：Ｌ＝（ω_i／ω_the）＊（１＋ｂ_i／ｆ_i）＋（ｃ＊
Ｗ／ｆ_i）式中、Ｌは、ワードがドロップワードでない可能性の指標、 ω_iは、ワードｉの画素単位幅、 ω_theは、ｔｈｅというワードの画素単位幅、ｂ_iは、適合テキストブロックの一つにおいて、センテ
ンスの最初の短くないワードとしてワードｉが出現した
回数、ｆ_iは、適合テキストブロックにおけるワードｉの出現
回数、ｃは、２項の間の一定重み付け係数、Ｗは、文書中のワード総数、を利用して、等価クラスワ
ードがドロップワードでない可能性を求めるステップを
含むことを特徴とする前記方法。
【請求項３】ａ）メモリと、ｂ）第１の多数のセンテンスと第２の多数の出現ワー
ドを含む文書画像中のドロップワードを光学式文字認識
を実施せずに識別する方法のためのメモリ内に記憶され
た命令とを含む製造品であって、前記方法が１）文書画像を分析して、第２の多数の出現ワードの
うちの少なくとも１個の出現ワードをそれぞれが含む等
価クラスワードを識別するステップと、２）各等価クラスワードについて、その等価クラスワ
ードがドロップワードではない可能性を求めるステップ
と、３）等価クラスワードがドロップワードである可能性
に基づいて、ドロップワードとしての等価クラスワード
の数を指定するステップとを含む製造品。