JPH09179942A - Ocrを利用しない文書画像中のドロップワードの自動認識方法 - Google Patents

Ocrを利用しない文書画像中のドロップワードの自動認識方法

Info

Publication number
JPH09179942A
JPH09179942A JP8320518A JP32051896A JPH09179942A JP H09179942 A JPH09179942 A JP H09179942A JP 8320518 A JP8320518 A JP 8320518A JP 32051896 A JP32051896 A JP 32051896A JP H09179942 A JPH09179942 A JP H09179942A
Authority
JP
Japan
Prior art keywords
word
processor
connected component
equivalence class
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8320518A
Other languages
English (en)
Other versions
JP3943638B2 (ja
Inventor
R Cheng Fantasiene
フタンシーヌ・アール・チェン
John W Tukey
ジョン・ダブリュー・チューキ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH09179942A publication Critical patent/JPH09179942A/ja
Application granted granted Critical
Publication of JP3943638B2 publication Critical patent/JP3943638B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing

Abstract

(57)【要約】 【課題】 OCRを実行せずに文書画像中のドロップワ
ードを自動的に識別すること。 【解決手段】 第1に、文書画像を分析され、等価クラ
スワードが識別される。それぞれの等価クラスワード
は、文書中に含まれる多数個のワードのうちの少なくと
も1個のワードを表す。第2に、それぞれの等価クラス
ワードについて、等価クラスワードがドロップワードで
はない可能性が求められる。第3に、文書の長さが分析
され、文書が短いか否か判断される。

Description

【発明の詳細な説明】
【0001】
【課題を解決するための手段】OCRを実行せずに文書
画像中のドロップワードを自動的に識別する技術につい
て述べる。第1に、文書画像を分析され、等価クラスワ
ードが識別される。それぞれの等価クラスワードは、文
書中に含まれる多数個のワードのうちの少なくとも1個
のワードを表す。第2に、それぞれの等価クラスワード
について、等価クラスワードがドロップワードではない
可能性が求められる。第3に、文書の長さが分析され、
文書が短いか否か判断される。
【0002】
【発明実施の形態】図1に、命令44を実行することに
よって本方法を実施するコンピュータシステム10をブ
ロック図の形で示す。命令44はコンピュータシステム
10のオペレーションを変更し、コンピュータシステム
が最初に光学式文字認識(OCR)を行わずに文書画像
中のドロップワードを識別できるようにし、文書画像か
ら文書の主題総括を作ることができるようする。
【0003】コンピュータシステム10は、コンピュー
タユーザの目に見えるように情報を表示するモニタ12
を備えている。コンピュータシステム10は、プリンタ
13を介してコンピュータユーザに情報を出力したりも
する。キーボード14により、コンピュータユーザは打
鍵によってコンピュータシステム10にデータを入力す
ることができる。コンピュータユーザは、マウス16を
動かすことによって、モニタ12に表示されたポインタ
を移動することができる。コンピュータユーザは、スタ
イラスまたはペンを利用して電子タブレット18上に書
くことによって、コンピュータシステム10に情報を入
力することもできる。あるいは、コンピュータユーザ
は、ディスクをフロッピーディスクドライブ22に挿入
することによって、フロッピーディスクのような磁気媒
体に記憶されたデータを入力することができる。また、
コンピュータユーザは、スキャナ24により、文書26
の画像のハードコピーの電子バイナリ表現を入力するこ
とができる。
【0004】プロセッサ11は、メモリ28またはディ
スクドライブ22内フロッピーディスク上に電子的に記
憶された命令を実行することによって、各ユーザコマン
ドに応じた適切な動作を決定し、これを実行する。
【0005】図2に、最初にOCRを実行せずに文書画
像から文書の主題総括を作成する命令29を、フロー図
の形で示す。
【0006】プロセッサ11は、スキャナ24からの文
書のページ画像と主題総括要求を受信すると、命令29
の実行を開始する。最初に、プロセッサ11は、文書画
像のテキストが単一配置方向に向いていると仮定し、そ
の後、ブルームバーグ(Bloomberg)、コペッ
ク(Kopec)、デイサリ(Dasari)共著の
「文書画像の傾斜と配置方向の測定(Measurin
g documentimage skew and
orientation)」SPIE Conf.24
22, Document Recognition
II, SanJose, CA, Feb. 6ー
7, 1995, pp.278−292に記述されて
いるような既知の方法を利用して、その配置方向を判断
する。プロセッサ11が有意な配置方向を見出さない場
合は、文書画像には恐らくそのままで分析できるか、ス
キップできる程度の極く僅かなテキストしか含まれてい
ない。その後、プロセッサ11は、文書画像の傾斜を取
り除く。これにより、後のセグメンテーション分析が単
純化され、後続のベースライン分析が向上される。プロ
セッサ11は、「文書画像の傾斜と配置方向」(同誌)
で論じられている技術を利用して約0.1°以内の傾斜
角度を求め、その後、2つまたは3つの直交するシアー
を利用して文書画像を回転する。
【0007】ステップ32にて、プロセッサ11は、文
書画像内のテキストブロックを識別することによって、
文書画像の下降型分割を開始する。第1に、プロセッサ
11は、文書画像中の中間調ならびに「画像」部分を取
り除く。第2に、プロセッサ11は、文書画像中のテキ
ストブロックを識別する。最後に、プロセッサ11は、
残ったどのようなラインアート成分も取り除く。
【0008】中間調ならびに「画像」部分を取り除く好
適な方法は、D.S.ブルームバーグ(Bloombe
rg)の「多重レゾリューション文書画像の形態解析
(Multiresolution morpholo
gical analysisof document
images)」SPIE Conf. 1818,
Visual Communications an
d Image Processing ’92, B
oston, MA, Nov.18−20,199
2, pp.648−662に記述されている。第1
に、プロセッサ11は、文書画像の中間調部分のみの画
素を含むシード画像を形成する。第2に、プロセッサ1
1は、全部の画素をカバーするマスク画像を形成する。
マスクの連結性は、中間調シードと、中間調領域をカバ
ーする他の画素とをつなぐのに十分なものである。即ち
最後に、プロセッサ11は、シードからマスクに、バイ
ナリ復元、即ち充填、を施し、それによって中間調「マ
スク」を作る。次にプロセッサ11は、このマスクを利
用して文書画像から「画像」部分を除去し、結果文書画
像のテキストとラインアートのみを残す。
【0009】次にプロセッサ11は、ステップ32で、
隣接コラムのテキストブロックを結合しないように注意
しながら、テキストブロックの識別に戻る。プロセッサ
11は、文書画像の縦方向の白色スペースのマスクをマ
スキングすることから始める。このマスクは、文書画像
を反転させてから、大きな垂直構造化素子を用いてそれ
をオープンすることによって作られる。次いで、プロセ
ッサ11は、適度な大きさに構成された水平ならびに垂
直構造化素子を利用してテキストブロックをクローズし
て、それぞれのテキストブロックから単一連結成分を作
る。その後、プロセッサ11は、白色スペースマスクを
除き、隣接するテキストブロックが確実に分離されるよ
うにする。
【0010】プロセッサ11は、ステップ32の最後の
タスクに進み、直前のタスクによって生成された、テキ
ストブロックを表さない連結成分を取り除く。プロセッ
サ11は、これらの成分を除くために2種類のテクニッ
クを利用する。水平ルールのような幾つかの成分は、高
さがごく低いことによって識別されうる。更に精巧な直
線グラフィクスを伴う成分の識別には別のテクニックを
要する。これらの成分は、テキストブロック中に特徴的
に存在する内部テキストライン構造の欠如によって識別
されうる。プロセッサ11は、ブロックの基礎をなす画
像中のキャラクタを水平方向に連結し、存在するであろ
うテキストラインを一体化することによって、有効なテ
キストブロックとこれらの成分を区別する。次にプロセ
ッサ11は、結果として得られた「テキストライン」成
分を統計的に分析して、その平均幅と平均高、あるい
は、メジアン幅とメジアン高を求める。プロセッサ11
は、高さ−幅の比が十分に大きな幅を備え、且つテキス
トブロックの推定幅の何分の一かに相当する平均幅を備
えた「テキストライン」成分を有するブロックを、テキ
ストブロックとして標識する。プロセッサ11は、その
後、高さ−幅の比が不十分な、或いは、平均幅が不十分
な「テキストライン」成分を有する全ての他のブロック
を無視する。
【0011】ステップ34で、プロセッサ11はテキス
トブロック内のテキスト本体を識別する。プロセッサ1
1が総括のために主題センテンスを後から選択するの
は、テキスト本体からである。プロセッサ11は、テキ
ストの他のタイプからテキスト本体を区別する。プロセ
ッサ11は、メジアンフォントサイズに基づいてテキス
トブロックを2クラスに分ける。これらのクラスは、
(1)テキストのフォントサイズが文書のメジアンサイ
ズに近いテキストブロックを表す適合と、(2)テキス
トのフォントサイズが文書のメジアンサイズからかなり
大きいまたは小さいテキストブロックを表す不適合、で
ある。
【0012】プロセッサ11は、ステップ36で適合テ
キストブロックを選択し、それらの読取り順序を判断す
る。プロセッサ11は、文書画像に含まれている配置情
報だけに基づいてこの判断を行う。このため、正しい読
み取り順が常に発見できるとは限らないが、階層的下降
型分解を使用して、また、垂直な重なりを有する領域、
水平な重なりを有する領域、重なりがない領域を区別す
ることにより得ることができる。
【0013】プロセッサ11は、垂直座標が互いに重な
り合うこれらブロックセットを識別することから下降型
分解を開始する。プロセッサ11は、適合テキストブロ
ックの長方形境界ボックスの水平投影プロファイルを利
用して、そのように行う。次に、これらの投影プロファ
イルは、ライン上のランレングスのセットとみなされ、
それぞれのランレングスに関連付けられた適合テキスト
ブロックセットは、その投影プロファイルから容易に判
断される。プロセッサ11は、読取りに際して上から下
に読まれるようにそれらのセットを配列する。
【0014】次に、プロセッサ11は、それぞれのセッ
ト内のブロックの読取り順序を判断する。プロセッサ1
1は、適合テキストブロック内の一対のブロックを選択
することから始める。通常、2ブロックが互いに重なり
合うことはない。これらのケースの場合、2ブロック間
に次の3種類の可能関係が存在する: 1. 一方のブロックが他方のブロックの上にあり、2
ブロック間に水平方向の重なりが存在する。 2. 一方のブロックが他方のブロックの左側にあり、
2ブロック間に垂直方向の重なりが存在する。 3. 2ブロック間に垂直方向の重なりも、水平方向の
重なりも存在しない。
【0015】プロセッサ11は、1対のテキストブロッ
クが前述のいずれの関係に適合しているかに基づいて、
この1対のテキストブロックの関連読取り順序を判断す
る。この1対のブロックが互いに重なっている場合、プ
ロセッサ11は、ブロックに合った次の2種類の可能関
係に基づいて、別々の順序付け規則を利用する: 1. 一方の重なりブロックの左上端が、他方のブロッ
クの左上端の上方にある場合、高い方のブロックは、低
い方のブロックより先に読取られる。 2. 一方の重なりブロックの左上端が、他方のブロッ
クの左上端と同じ高さにあって、他方のブロックの左側
にある場合、最も左側のブロックが、その右側のブロッ
クより前に読取られる。
【0016】これらの順序付け規則、ならびに、非重な
りブロックについて論じられる順序付け規則は変わるこ
とは無い。
【0017】プロセッサ11は、ステップ38にて、適
合テキストブロックをテキストラインとワードに分割す
る。プロセッサ11は、フォントサイズを探したのと同
様なオペレーションを利用して、テキストラインの場所
を突きとめる。それぞれの適合テキストブロック内で、
プロセッサ11は、各テキストラインを1個の連結成分
に結合するのに十分な大きさの水平構造化素子による形
態クロージングオペレーションを利用する。プロセッサ
11は、サイズに基づいて、真のテキストラインの連結
成分と、テキストのラインを表さない連結成分とを区別
し、更に考察を行って、偽のテキストラインを取り除
く。その後、真のテキストラインの連結成分の境界ボッ
クスを見つける。
【0018】次に、プロセッサ11は、各テキストライ
ン内で連結成分の境界ボックスを見つけることによっ
て、これらのテキストライン内のワードを見つけようと
する。これを行なうために、プロセッサ11は、テキス
トラインについての境界ボックスを構築するために使用
されたものと同様なテクニックを使用する。プロセッサ
11は最初に小さな水平クロージングを利用して、各ワ
ードのほとんどの文字を連結する。次に、プロセッサ1
1は、見つかったばかりの連結成分のワード境界ボック
スを探す。プロセッサ11は、これらのワード境界ボッ
クスを、各テキストライン内で水平にリストにソート処
理する。プロセッサ11は、直前のオペレーションによ
って連結されなかったワードのほとんどを、ワード境界
ボックスに関する併合オペレーションを実施することに
よって連結する。そのようにする際、プロセッサ11は
最大水平間隙をスケーリングして、テキストラインの高
さに近くする。ステップ38で利用された方法の結果、
句読点は常にワードに連結されないので、プロセッサ1
1は、これらの小成分を配列ワードリストから除去す
る。
【0019】テキストの主体の中のワード画像を識別す
ることにより、かくしてプロセッサ11は、ステップ4
0にて、OCRを利用することなく同一ワードにどのワ
ード画像が対応するかを識別することに注意を向けるこ
とが出来る。プロセッサ11は、十分に同じような形を
した全部のワードを、同一ワード等価クラスに置く。そ
うする際、プロセッサ11は、厳格過ぎもせず、寛大過
ぎもしない整合パラメータを利用しなくてはならない。
過剰に厳格な整合パラメータを使用すると、同一ワード
の二つの画像を異なったワード等価クラスに置く危険性
を引き起こす。もし過剰に寛大な整合パラメータが使用
されると、プロセッサ11は、異なったワードを同一ワ
ード等価クラスに置く危険性に直面する。
【0020】プロセッサ11は、ブラー・ヒットミス変
換(BHMT)またはハウスドルフ変換の改変を利用し
て、ワード等価クラスを識別する。ステップ40にて、
プロセッサ11は、選択された変換の閉込め制約条件を
改変して、遠く離れたいくつかの画素が、画像のフォア
グラウンドに含まれるようにする。
【0021】ステップ40で、ワード画像内の画素数の
一部分である、遠く離れた画素に関しての許容度を使用
する。プロセッサ11は、テンプレートとワード画像境
界ボックスの間のアライメントの一例を検証するに過ぎ
ない。この一例は、テンプレートとワード画像境界ボッ
クスの左上隅の一致である。
【0022】プロセッサ11は、単一パスを利用して、
ワード等価クラスを特定する。プロセッサ11は、適合
ブロックの各ワード画像を分析して、既存のワード等価
クラスの見本と最も整合するものを見つける。プロセッ
サ11が整合するものを見出すと、そのワード画像は、
ワード等価クラスの例示リストに追加される。整合する
ものが見出されない場合、プロセッサ11は、ワード画
像を利用して見本として新しいワード等価クラスを形成
する。
【0023】プロセッサ11は、ワード等価リストと、
後で有用となる多数の情報とを関連付ける。これらの情
報には、それぞれのワード等価クラスについて、ワード
等価クラスが出現する各センテンスのセンテンスI.
D.、画素単位によるワード幅、ならびに、センテンス
の最初の短くないワードとしてワードが出現する回数が
含まれる。あるワードが、何らかの短い冠詞または前置
詞を取り除くために考慮の末に選択された所定値よりも
大きな幅を備えたセンテンス内の最初のワードであった
場合には、そのワードは、センテンスの最初の短くない
ワードと見なされる。
【0024】ステップ42で、プロセッサ11は、適合
テキストのブロック内のセンテンス境界を識別ならびに
標識して、後から主題センテンスを選択できるようにす
る。プロセッサ11は、テキストラインのベースライン
近くのピリオドを探してから、これらのピリオドの最も
近くにある関連ワードを見つけることによってセンテン
スを識別する。センテンスを終結するピリオドを識別す
るために、プロセッサ11は、ベースライン付近の胡椒
をふったようなノイズ、コンマやセミコロン、省略記号
のドット、コロンの下側のドット、センテンス内の略語
を終わらせるドットから、ピリオドを区別しなくてはな
らない。また、プロセッサ11は、感嘆符や疑問符の一
部を形成するドットを識別しなくてはならない。プロセ
ッサ11は、センテンスを終わらせるピリオドの後にく
る引用符を識別しなくてはならない。プロセッサ11
は、測定距離に基づいて、ピリオドと、それ以外のタイ
プの句読点とを区別する。従って、文書画像を走査する
解像度とは無関係な、検証対象フォントサイズに基づい
た比較基準を利用することが重要である。望ましくは、
使用される尺度は、テキストブロック内の文字の連結成
分についての境界ボックスの測定されたメジアン高さで
ある。典型的には、これは優勢フォントの「x−高さ」
である。
【0025】ステップ44に入ると、プロセッサ11は
直前の画像処理で生成された情報を得て、主題総括を抜
き出すためのセンテンス識別を開始するばかりとなる。
プロセッサ11は、ドロップワードを識別することから
始める。「ドロップワード」は、主題の意味を伝えない
自然言語テキストにごく頻繁に出現するワードのことで
ある。ほとんどの代名詞、前置詞、限定詞、ならびにb
e動詞が、ドロップワードに分類される。
【0026】ある単語がドロップワードである可能性を
判断する場合、多くの要因を考慮しなくてはならない。
ドロップワードは文書中にごく頻繁に出現する傾向があ
るが、論題内容を示す他の多くの単語についてもそうで
ある。従って、ドロップワードを識別するのに、頻繁性
だけを利用することが出来ない。多くのドロップワード
は短い傾向があるが、論題内容を示す多くの単語もそう
である。従って、ドロップワードを識別するのに、ワー
ド等価クラスの幅だけでは不十分である。多くのドロッ
プワードは、センテンスの最初に出現する傾向がある
が、他の論題内容ワードもそうである。そこでプロセッ
サ11は、画素単位によるワード幅、文書内でのその出
現回数、センテンス内の最初の「幅広」ワードとして出
現する回数などの要因を組み合わせたものに基づいて、
或る単語がドロップワードではないという可能性を判断
する。
【0027】次にプロセッサ11は、ワード等価クラス
のリストから、最もドロップワードでありそうなワード
等価クラスを排除する。どのくらい多くの等価クラスを
ドロップワードとして排除するかは、処理される文書の
長さによって異なる。
【0028】プロセッサ11は、ステップ44で作られ
た縮小ワードリストを利用して主題ワードを識別する。
プロセッサ11は残存ワードのうち最も頻繁に出現する
ものを文書内容を示すもののように見なすので、そのよ
うなワードを主題ワードと呼ぶ。次にプロセッサ11
は、主題ワードを利用して、適合テキストのブロック中
の各センテンスのスコアを付ける。各センテンスのスコ
アを付けた後、プロセッサ11は、最もスコアの高いセ
ンテンスを選択して抜き出す。
【0029】プロセッサ11は、それらを、総括しよう
とする文書に出現する順序でコンピュータユーザに提示
する。
【0030】図3に、テキスト本体のブロックを識別す
る命令34をフロー図で示す。テキストの各ブロックの
メジアンライン高は、ステップ32で先に求められてい
るので、プロセッサ11は、この判断を比較的容易に行
うことができる。プロセッサ11は、これらのブロック
のメジアンライン高を利用して、文書全体のメジアンラ
イン高を見つける。
【0031】プロセッサ11は、ステップ72にて、優
勢フォントサイズのテキストブロックを識別し、これに
フラグを付ける。優勢フォントサイズと異なるフォント
サイズが僅かながら存在するテキストのブロックは、適
合テキストブロックとしてフラグが付けられる。
【0032】図4、図5に、適合テキストブロックの読
取り順序を判断する命令36をフロー図の形で示す。プ
ロセッサ11は、ブロック間の垂直座標の重なりに基づ
いて適合テキストブロックセットを識別することから始
める。プロセッサ11は、適合テキストブロックの境界
ボックスの水平投影プロファイルを見つけることによっ
て、この判定を行うことができる。それぞれの投影プロ
ファイルは、ラインに関するランレングスセットと見な
され、それにより、プロセッサ11は垂直座標が重なる
ブロックを容易に識別できる。これがなされると、プロ
セッサ11は、上から下に適合テキストブロックのセッ
トを配列する。
【0033】プロセッサ11は、ステップ84にて、適
合テキストブロックの各セット内のブロックの読取り順
序を判断するプロセスを開始する。最初にプロセッサ1
1は、処理するブロックセットを選択する。次に、ステ
ップ86にて、プロセッサ11は、選択ブロックセット
内の一対のブロックを選択する。
【0034】プロセッサ11は、選択された一対のテキ
ストブロックが互いに交わるか否かを判断することによ
り、ステップ88にて利用する順序付け規則が2セット
の順序付け規則のいずれか判断する。プロセッサ11
は、選択された一対のテキストブロックの境界ボックス
の座標を利用してこの判断を行う。もし、2つのブロッ
クが互いに交わらなければ、プロセッサ11は、ステッ
プ96にて、このペアのうち、最初に読取るべきブロッ
クは左上隅が最も高いところにあるブロックであること
を指示する。
【0035】選択された一対のブロックが互いに交わら
ない場合、プロセッサ11はステップ90に分岐する。
プロセッサ11は選択された一対のテキストブロックの
相互の、ページ画像上の相対位置を求める作業を開始す
る。プロセッサ11は、ページ上で、この対の一方のブ
ロックが、他方の上方にあるか否かを判断することから
始める。もし一方のブロックが他方の上方にある場合、
プロセッサ11はステップ92に進む。プロセッサ11
は、選択された一対のテキストブロックの水平投影プロ
ファイルに重なりがあるか否か判断する。選択された一
対のブロックの水平座標が重なっている場合、プロセッ
サ11はステップ94に進む。このとき、プロセッサ1
1は、対のうちの、低い方のブロックより高い方のブロ
ックを先に読まなくてはならないことを指示する。
【0036】プロセッサ11が、選択された一対のブロ
ックの間に所期の相対位置を見出せない場合、プロセッ
サ11はステップ110に進む。プロセッサ11は再び
選択された一対のブロックの相対位置をチェックし、別
のパターンに該当しないかを調べる。最初にステップ1
10でプロセッサ11は、この対の一方のブロックが、
他方のブロックの左側にあるか否かを判断する。そうで
あれば、プロセッサ11はステップ112に進み、この
一対のブロックの垂直座標が重なっているか否かが判断
される。垂直座標が重なっている場合には、この一対の
ブロックは検証対象パターンに一致しており、プロセッ
サ11はステップ114に進む。ステップ114で、プ
ロセッサ11は、最も左側のブロックが、対の他方のブ
ロックより先に読取られなくてはならないと指示する。
【0037】一対のブロックの間の所期の相対位置が見
つからない場合、プロセッサ11はステップ116に進
む。プロセッサ11は最初に、一対のブロックの水平座
標が重なっているか否かを判断する。そうであれば、ス
テップ118にて、プロセッサ11は、この対の高い方
のブロックを低い方のものより先に読取らなくてはなら
ないことを指示する。一方、水平座標が重ならない場合
は、ステップ120にて、プロセッサ11は、対の最も
左側のブロックを他方のブロックより先に読取らなくて
はならないことを指示する。
【0038】選択された一対のブロックの間の相対的読
取り順序が示されると、プロセッサ11はステップ98
に達する。プロセッサ11は、選択セット内の他の一対
のブロックを検証しなくてはならないか否かを明らかに
する。選択されたブロックセット内のすべてのブロック
対について検討がなされていない場合、プロセッサ11
はステップ86に戻って、選択セット内の別の一対のブ
ロックを選択し、前述のようにそれらを順序付けるす
る。一方、選択されたブロックセット内のすべてのブロ
ック対が順序付けられている場合には、プロセッサ11
はステップ100に進む。このとき、プロセッサ11
は、他のブロックセットを順序付ける必要があるか否か
判断する。そうであれば、プロセッサ11はステップ8
4に戻り、他のブロックセットを選択し、前述の方法で
順序付けを行う。一方、プロセッサ11が既に全部のセ
ットの全部のブロックの相対読取り順序を決定している
場合には、プロセッサ11はステップ102に進む。プ
ロセッサ11は、その相対読取り順序に基づいて、各セ
ットの各ブロック内の読取り順序を決定する。
【0039】図6に、適合テキストのブロック内のセン
テンス境界を識別するための命令42の概要図を示す。
【0040】プロセッサ11は、ステップ138にて連
結成分を選択することから、命令42の実行を開始す
る。その後、ステップ140にて、プロセッサ11は、
選択された連結成分がピリオドであるか否かを判断す
る。どのようにプロセッサ11がこれらの決定を行なう
かについては、図6に関して詳細に説明される。これら
の特性が、選択された連結成分がピリオドかもしれない
ことを示す場合には、プロセッサ11は、ステップ14
2に進む。
【0041】ステップ142にて、プロセッサ11は、
選択された連結成分がドットの形をしていてベースライ
ンに近接している場合でさえ、ピリオドでないか否かを
判断する多ステッププロセスを開始する。そうするため
に、プロセッサ11は、1)選択された連結成分がコロ
ンの一部である可能性、2)選択された連結成分のドッ
ト列の一部である可能性、という2つの可能性を排除す
る。プロセッサ11は、最初に、選択された連結成分
の、その隣接物に対する相対位置を求めることによっ
て、選択連結成分がコロンの一部であるか否かを検証す
る。選択された連結成分とその隣接物の相対位置から、
選択された連結成分がコロンの一部でないことが判明し
た場合、選択された連結成分はセンテンスの境界をマー
キングする句読点の一部である可能性がある。
【0042】ステップ144にて、プロセッサ11は、
選択された連結成分とそれに続く隣接物の相対位置を比
較することによって、選択された連結成分が省略記号の
一部か否かを判断する。省略記号の一部でない場合、選
択された連結成分はセンテンスの最後をマーキングす
る。
【0043】ステップ146にて、プロセッサ11は、
選択された連結成分が感嘆符または疑問符の一部である
か否かを判断する。そうであるならば、選択された連結
成分はセンテンスを終結する句読点の一部である。従っ
て、プロセッサ11はステップ148に進み、選択され
た連結成分をセンテンス境界としてマーキングする。
【0044】選択された連結成分が感嘆符または疑問符
の一部でない場合でも、依然としてセンテンスの最後を
マーキングする場合がある。これに応じて、プロセッサ
11はステップ150に分岐する。プロセッサ11は、
選択された連結成分の後ろに引用符が続いているか否か
を判断する。選択された連結成分の後ろに引用符がある
場合、選択された成分はセンテンスの終止句読点である
が、センテンス境界の特性を表してはいない。
【0045】プロセッサ11がステップ150の検証を
行わなくとも、選択された連結成分は、依然としてセン
テンスを終結するピリオドである可能性がある。この可
能性を反証否定するために、可能であるならば、プロセ
ッサ11はステップ152にて、選択された連結成分が
センテンス内の略語の一部であるか否か判断する。選択
された連結成分はセンテンス内略語の一部でないとプロ
セッサ11が判断した場合には、プロセッサ11は、選
択された連結成分はセンテンスの境界をマーキングする
ピリオドであるとみなす。従って、ステップ148に
て、プロセッサ11は、選択された連結成分をそのよう
にマーキングする。
【0046】プロセッサ11は、ステップ140、14
2、144の検証のいずれかに失敗した後、あるいは、
センテンス境界を標識した後に、ステップ156に進
む。こうしてプロセッサ11は、他の連結成分を検証し
残しているか否か判断する。そうであれば、プロセッサ
11はステップ138に戻り、全部の連結成分が検証さ
れるまで命令42を実行する。全部のセンテンスの境界
が標識されると、プロセッサ11は次にステップ44に
分岐する。
【0047】図7に、選択された連結成分がピリオドで
あるか否かを判断する命令140をフロー図の形で示
す。
【0048】最初に、ステップ170にて、プロセッサ
11は選択された連結成分が胡椒をふったようなノイズ
であるか否かを判断する。プロセッサ11は、選択され
た連結成分の境界ボックスのサイズに基づいて、この点
で判定を行う。境界ボックスのサイズが最小サイズより
大きい場合、選択された連結成分はピリオドであろう。
選択された連結成分が最小サイズより大きい場合、プロ
セッサ11はステップ172に進む。
【0049】プロセッサ11は、ステップ172にて、
選択された連結成分がピリオドであるか否かを判断する
2番目の検証を実施する。プロセッサ11は、2つの特
徴をチェックすることによって、選択された成分がドッ
トのような形であるか否かを判断する。考慮される最初
の特徴は、選択された連結成分の境界ボックスの各ディ
メンションのサイズである。各ディメンションは、高さ
xの第1分数より小さくなくてはならない。プロセッサ
11が考慮する第2の特徴は、選択された連結成分の境
界ボックスの2つのディメンションの間のサイズの差で
ある。2つのディメンション間の差は、メジアン高xの
第二分数より小さくなくてはならない。選択された連結
成分の境界ボックスが、要求される特徴を両方とも備え
ている場合には、選択された連結成分は、コンマ、また
はセミコロンの下側に連結された成分ではなさそうであ
り、ピリオドであろう。
【0050】ステップ174にて、プロセッサ11は、
選択された連結成分の位置を調べ、それがテキストライ
ンのベースライン付近にあるか否かを確認する。先に行
われたベースライン測定に何らかの小エラーがあるかも
知れないので、ベースラインから何個かの画素範囲内で
あれば、プロセッサ11は、その選択連結成分をベース
ライン上にあるものとみなす。選択された連結成分が十
分にベースラインに近ければ、プロセッサ11はステッ
プ142に進む。
【0051】選択された連結成分が所要の特徴のいずれ
も備えていないとプロセッサ11が判断した場合、プロ
セッサ11はステップ156に戻る。
【0052】図8に、選択された連結成分がコロンであ
るか否かを判断する命令142をフロー図の形で示す。
プロセッサ11は、選択された連結成分と、その隣接す
る連結成分との間の関係を考慮して、この決定を行な
う。
【0053】プロセッサ11は、その作業をステップ1
80から開始する。ステップ180にて、プロセッサ1
1は、選択された連結成分に隣接する両方の連結成分の
形を吟味する。これらのいずれもがドット形でない場
合、プロセッサ11は選択された連結成分がコロンの一
部であるという可能性を排除する。その場合、プロセッ
サ11はステップ144に進む。一方、隣接する連結成
分のいずれかがドット形の場合、選択された連結成分は
コロンであろう。
【0054】ステップ182で、プロセッサ11は、選
択された連結成分ならびにそのドット形の隣接物が、コ
ロンのドットのように、一方が他方の上に配置されてい
ないか判断する。これら2個の連結成分がコロンを表示
するのであれば、それらの境界ボックスは垂直に位置合
わせされ、いくらかの量だけ互いに水平に重なるであろ
う。どのくらいの重なりであるかは重要ではない。2つ
の境界ボックスの間に重なりが全く無いということは、
選択された連結成分がコロンの一部でないことを示し、
それによりプロセッサ11はステップ182からステッ
プ144に分岐する。選択された連結成分とそのドット
形の隣接物の境界ボックス間の重なりは、選択された連
結成分がコロンの一部であろうことを示すものである。
【0055】ステップ184にて、プロセッサ11は、
その最後の検証を実施して、選択された連結成分がコロ
ンの一部であるか否かを判断する。プロセッサ11は、
2つの関連連結成分の境界ボックスの上部の間の距離を
調べて、隣接連結成分が、実際には、選択された連結成
分以外の別のテキストラインの一部であるという可能性
を排除する。これは、2つの境界ボックスの上部の間の
距離が、高さxの第3分数を越える場合に最もありそう
なケースである。該距離がこの分数を越える場合、選択
された連結成分はコロンの一部ではなく、センテンス境
界の特性を表す。プロセッサ11はステップ144に進
み、この可能性を究明する。一方、2つの境界ボックス
の上部の間の距離が、第3分数より小さい場合、選択さ
れた連結成分はコロンのようであり、センテンス境界を
マーキングしない。その場合、プロセッサ11はステッ
プ156に戻る。
【0056】図9に、選択された連結成分が省略記号の
一部であるか否かを判断する命令144をフロー図の形
で示す。
【0057】プロセッサ11は、ステップ190にて、
選択された連結成分の次に続く連結成分が、やはりドッ
ト形であるか否かを判断することから始める。後続連結
成分がドット形でない場合、選択された連結成分は省略
記号の一部でない、あるいは、省略記号の最後のドット
であろう。これは2つの答えが存在する曖昧な状況であ
る。まず、省略記号が見つかった場合と同じことを行っ
て、必ずセンテンスを終結するか、絶対に終結しない
か、を検討する。次に、選択された連結成分の後の連結
成分を分析して、後続連結成分が新しいセンテンスを開
始しているか確認する。これが命令144で取られる方
法である。選択された連結成分が省略記号の最後のドッ
トであるかも知れない場合、プロセッサ11はステップ
146に進んで、選択された連結成分がセンテンス境界
の特性を表すか否かに関する他の手掛かりを探し続け
る。
【0058】後続連結成分がドット形であるので、選択
された連結成分が省略記号の一部かも知れない場合、プ
ロセッサ11はステップ192に進む。プロセッサ11
は、後続連結成分がベースラインにどのくらい近接して
いるかを調べる。検証により、後続連結成分がベースラ
インに十分に近接していることが分かった場合、プロセ
ッサ11は、選択された連結成分は省略記号の一部であ
ると見なす。従って、プロセッサ11は、ステップ15
6に進む。一方、後続連結成分が、あまりベースライン
に近接していない場合、選択された連結成分は省略記号
の一部とはみなされず、センテンス境界をマーキングす
るであろう。
【0059】図10に、選択された連結成分の次に1個
または2個の引用符が続いているか否かを判断する命令
150をフロー図の形で示す。
【0060】ステップ200にて、プロセッサ11は、
後続の2つの連結成分が引用符のような形であるか否か
を判定する。プロセッサ11は、引用されるべき後続の
二つの連結成分が三つの条件を満足するかどうかを考慮
する。第1に、それぞれの引用符形の連結成分の境界ボ
ックスの幅は、高さxの第6分数より狭くなくてはなら
ない。第2に、引用符形の後続連結成分のそれぞれの境
界ボックスの高さは、高さxの第7分数より低くなくて
はならない。第3に、それぞれの引用符形の後続連結成
分の境界ボックスの高さと幅の差は、高さxの第8分数
より小さくなくてはならない。2つの後続連結成分の両
方が、これら3つの制限のすべてを満足しない場合、選
択された連結成分の後ろに引用符はなく、プロセッサ1
1はステップ152に進む。一方、後続連結成分の1個
または両方が、3個全部の制限を満足する場合は、プロ
セッサ11はステップ154に進む。
【0061】プロセッサ11は、ステップ202にて、
選択された連結成分の位置に対する後続連結成分の位置
を検証する。後続連結成分は、引用符となるに十分なほ
ど、選択連結成分の上方にあるのだろうか。プロセッサ
は、高さxの第4分数を利用して、この疑問に答える。
後続連結成分が、選択された連結成分の上部よりも十分
に上方にない場合、選択された連結成分の後に引用符は
ない。プロセッサ11は、ステップ152に進むことに
よって、これに応じる。プロセッサ11が、これとは逆
のことを見出した場合、つまり、後続連結成分境界ボッ
クスの上部が、選択された成分n境界ボックスの上部か
ら少なくとも第4分数だけ上方にある場合、プロセッサ
11はステップ204に分岐する。
【0062】ステップ204にて、プロセッサ11は、
少なくとも1回、最後の検証を行って、2つの後続連結
成分のうちの一方が引用符であるか否かを判断する。後
続連結成分のうちの一方または両方が引用符の形をして
いて、選択された連結成分の十分上方に離れた位置にあ
るとしても、それが選択された連結成分に水平方向に十
分に近くなければ、依然として引用符ではない。プロセ
ッサ11は、両方の連結成分の左側間の距離を水平方向
に測定することによって、これを判断する。この距離
は、高さxの第5分数より狭くなくてはならない。この
2つの連結成分がそれほど近接していない場合、プロセ
ッサ11は、ステップ152に進む。一方、後続連結成
分が、引用符であるに十分なほど、選択された連結成分
に近く続いている場合、プロセッサ11はステップ20
4からステップ148に進む。
【0063】図11に、選択された連結成分がセンテン
ス内の略語の一部であるか否かを判断する命令152を
フロー図の形で示す。後続連結成分の相対位置が、選択
された連結成分に対して正しい場合、或いは、後続連結
成分が大文字である場合には、選択された連結成分は、
センテンス内略語の一部のようには見えない。後続連結
成分がこれらの要求のいずれも満足しない場合には、選
択された連結成分はセンテンス内略語の一部と見なさ
れ、センテンス境界をマークしない。
【0064】ステップ210にて、プロセッサ11は、
選択された連結成分に対する後続連結成分の位置が、セ
ンテンスを終結するものと矛盾しないものであるか否か
を判定する作業を開始する。最初に、ステップ210
で、プロセッサ11は、後続連結成分が、選択された連
結成分と同じテキストラインの一部であるか否かを判定
する。プロセッサ11はそのようにすることにより、隣
接するテキストライン間の垂直方向の離間が非常に小さ
いという理由で、選択連結成分の下のラインと関連のあ
る連結成分が、テキストライン境界ボックスの一部とし
てとらえられる可能性を排除する。この判定を行うため
に、プロセッサ11は、選択された連結成分と後続の連
結成分の境界ボックスの上部の間の垂直方向距離を測定
する。2つの連結成分間の垂直方向距離が、高さxの第
9分数を越えている場合、この2つの連結成分は同一テ
キストラインに属さない。
【0065】2つの連結成分が同一テキストラインに属
さないことが判明すると、プロセッサ11はステップ2
10からステップ212に分岐する。プロセッサ11
は、次に、この後続連結成分の右側にある隣接物を、新
しい後続連結成分とする。その後、プロセッサ11は、
ステップ210に戻る。
【0066】結局、プロセッサ11は、同一テキストラ
インに含まれている選択連結成分の後に続く連結成分
が、テキストラインの最後に達する前の選択連結成分で
あると判断するであろう。これが発生した場合、プロセ
ッサ11はステップ214に分岐する。かくしてプロセ
ッサ11は、選択された連結成分と後続連結成分の相対
位置が、別のセンテンスを開始する大文字となる後続連
結成分であることに矛盾しないか否かを判断する作業を
開始する。ステップ214で、プロセッサ11は、後続
連結成分が、選択された連結成分の左側に十分に離れて
いるか否かを判断する。後続連結成分は、その境界ボッ
クスの左端が、選択された連結成分の境界ボックスの左
端から、高さxの第10分数だけ離れていれば、十分に
離れていると見なされる。2つの連結成分が互いにそれ
ほど離れていない場合、プロセッサ11は、選択された
連結成分をセンテンス内の略語の一部と見なし、ステッ
プ156に分岐する。他方、2つの連結成分間の距離が
十分に大きい場合、後続連結成分は、別のセンテンスの
最初であるかも知れない。
【0067】ステップ216にて、プロセッサ11は、
後続連結成分が大文字であるに十分なほど大きいか否か
を判断する。プロセッサ11は、後続連結成分の高さ
を、高さxの第11分数と比較することによって、この
判定を行う。この高さが第11分数を越えない場合、プ
ロセッサ11は、後続連結成分を大文字と見なさない
し、選択された連結成分をセンテンスを終結するピリオ
ドとも見なさない。その代わり、プロセッサ11はステ
ップ156に分岐する。一方、後続連結成分の高さが第
11分数を越える場合、後続連結成分は大文字であろ
う。
【0068】プロセッサ11は、後続連結成分がベース
ラインにどのくらい近接しているかを調べることによっ
て、後続連結成分が、新センテンスを開始する大文字で
あるという仮説を検証し続ける。大文字は、ベースライ
ンに乗るので、後続連結成分の下部は、それが大文字で
あるならば、ベースラインに近接するはずである。プロ
セッサ11は、ベースラインと後続連結成分の境界ボッ
クスの下部の距離が数画素を越えなければ、後続連結成
分はベースラインに近いと見なす。後続連結成分の下部
が、ベースラインから相当に離れている場合、プロセッ
サ11はステップ156に進み、選択された連結成分を
センテンス内の略語とみなす。逆に、後続連結成分の下
部がベースラインに十分に近接している場合、後続連結
成分は大文字であり、新センテンスの文頭であろう。
【0069】プロセッサ11は、ステップ220にて、
後続連結成分が新センテンスの最初か否かを判断する最
後の検証を実施する。プロセッサ11は、後続連結成分
を、その右側の隣接物の高さと比較する。この連結成分
を、右隣接物と呼ぶ。大文字よりも高い文字はほとんど
ないので、後続連結成分の高さと比較して右隣接物の高
さが非常に大きい場合、後続連結成分は恐らく新センテ
ンスを開始しなであろう。プロセッサ11は、2つの連
結成分の高さの差を第12分数と比較することによっ
て、この判断を行う。右隣接物の高さが、後続連結成分
の高さより、第12分数を越えて大きい場合、プロセッ
サ11はステップ156に分岐し、選択された連結成分
をセンテンス内の略語と見なす。逆に、2つの連結成分
間の高さの差が第12分数より小さい場合、プロセッサ
11は、選択された連結成分を、センテンスを終結する
ピリオドと見なして、ステップ148に分岐する。
【0070】図12に、ワードリストからドロップワー
ドを識別して削除する命令44をフロー図の形で示す。
命令44の実行は、ステップ230で開始される。
【0071】プロセッサ11は、各ワードごとに、その
ワードがドロップワードではない可能性を推測すること
から始める。この可能性を判断するために、画素単位で
のワード幅、適合テキストブロック内でのワードの出現
回数、文書内のワード総数、センテンス内の最初の短く
ないワードとしてそのワードが出現する回数、といった
多数の要因が利用される。短くないワードというのは、
「the」のような、所定の短ワードよりも十分に大き
いワードのことである。
【0072】一般に「the」は、文書中で最も頻繁に
出現するワードであるので、プロセッサ11は通常、ワ
ード等価クラスからそれを識別することができる。「t
he」を表すワード等価クラスを識別するために、プロ
セッサ11は最初に、出現頻度に基づいてワード等価ク
ラスを順序付ける。「the」の場所を確実に突きとめ
るために、プロセッサ11は、最も頻繁に出現するワー
ド等価クラスの幅と、最も狭い頻繁出現ワード等価クラ
スの幅を比較する。プロセッサ11は、20〜50の最
も頻繁に出現するワード等価クラスを探索することによ
って、最も狭い頻繁出現ワードを識別する。プロセッサ
11は、最も頻繁に出現するワード等価クラスの幅が最
も狭い頻繁出現ワード等価クラスの幅の少なくとも4倍
である場合に「the」を識別した、と仮定する。プロ
セッサ11が「the」を識別すると、それは選択され
た短ワードとして利用される。他方、プロセッサ11が
「the」を識別しなかった場合、最も狭い頻繁出現ワ
ード等価クラスが、選択短ワードとして利用される。
【0073】短くないワードは、デザイン上の選択であ
るので、ワード等価クラスが、選択短ワードよりどのく
らい広いかは指定されなくてはならない。一実施例にお
いて、選択短ワードが「the」の場合、短くないワー
ドは、選択短ワード幅の1.2倍である。選択短ワード
が最も狭い頻繁出現ワード等価クラスの場合、短くない
ワードは、選択短ワードの何倍かの広さでなくてはなら
ない。
【0074】各センテンスの最初の短くないワードを識
別した後、プロセッサ11は、各ワードがドロップワー
ドではないという可能性を推測する。好ましくは、プロ
セッサ11は、次の式により、この可能性の指標を計算
する。
【0075】L=(ωi/ωthe)*(1+bi/fi)+
(c*W/fi) 式中、Lは、ワードがドロップワードでない可能性の指
標、ωiは、ワードiの画素単位幅、ωtheは、「th
e」というワードの画素単位幅、biは、適合テキスト
ブロックの一つにおいて、センテンスの最初の短くない
ワードとしてワードiが出現した回数、fiは、適合テ
キストブロックにおけるワードiの出現回数、cは、2
項の間の一定重み付け係数、Wは、文書中のワード総
数、である。
【0076】式の最初の項である(ωi/ωthe)*(1
+bi/fi)は、内容ワードとしてセンテンスの最初に
出現する傾向のある長いワードに好都合に作用し、次の
項(c*W/fi)は、内容ワードとしてセンテンスに
比較的少なく出現する傾向のあるワードに好都合に作用
する。
【0077】その類似の指標が、各ワード等価クラスが
ドロップワードでないと決定された場合には、プロセッ
サ11は、ドロップワードではないという可能性に基づ
いて、ワード等価クラスを順序付ける。その後、この順
序は逆順にされて、ドロップワードであるという可能性
に基づいたワード等価クラスの順序付けを生じる。
【0078】プロセッサ11はステップ232に進み、
文書が短いか長いかを判定する。これは単純に、ワード
等価クラス総数を、いくつかの閾値と比較することによ
り行われる。文書が短いものであれば、プロセッサ11
はステップ234に分岐し、ドロップワードである可能
性が最も高いX個のワードをドロップワードとして削除
する。但し、Xは文書の長さに比例する。他方、文書が
長いものである場合、プロセッサ11はステップ232
からステップ236に進む。この場合、プロセッサ11
は、ドロップワードである可能性が最も高いY個のワー
ドを、ドロップワードとして削除する。但し、Yは定数
である。
【0079】図13に、主題センテンスを抜き出す命令
46をフロー図の形で示す。プロセッサ11は、デフォ
ルトの長さからSで示される主題総括の長さを変更する
機会をコンピュータユーザに与えることにより開始する
ことが望ましい。主題総括のデフォルトの長さは、文書
内のセンテンス数より少ない任意のセンテンス数とする
ことができる。
【0080】ステップ248にて、プロセッサ11は、
主題センテンスの選択に利用する主題ワード数を求め
る。主題ワード数はKで示されている。一般に、Kは、
Sより小さく、1より大きい。KがSより小さいことを
要求することにより、選択主題センテンス間の主題の共
通性が保証される。
【0081】ステップ150で、プロセッサ11は、主
題ワードを選択するプロセスを開始する。プロセッサ1
1は、ワードリストを分析して、文書中に各ワード等価
クラスが出現する回数を求める。これは、単に、各ワー
ドと関連のあるセンテンスI.D.の数を数えることに
よって行われる。その後、プロセッサ11は、計数、す
なわち、文書内の各ワード等価クラスの総発生回数に基
づいてワードをソート処理する。同計数を有する2個の
ワードの引分け関係は、ワード画像の幅の広いほうに有
利に破られる。その後、プロセッサ11はステップ25
2に進む。次にプロセッサ11は、ソート処理されたワ
ードリストから、最も計数の高かったK個のワードを選
択する。これが済むと、プロセッサ11はステップ25
4に進む。
【0082】ステップ254で、プロセッサ11は、文
書中のK個の主題ワードの総出現回数を計算する。Nで
示されるこの数字は、K個の主題ワードの計数を合計す
ることによって算出される。プロセッサ11は、ステッ
プ256に分岐する。
【0083】ステップ256、258、260、262
にて、プロセッサ11は、K個の主題ワードの少なくと
も1個を含んでいるセンテンスだけを検討する。プロセ
ッサ11は、記憶されたワードリストのうちで、最もス
コアの高かったK個のワードを調べることによって、そ
のように行う。ステップ256にて、tsで示される1
個のワードを選択した後、プロセッサ11は、選択ワー
ドtsと関係のある各センテンスI.D.を調べる。選
択ワードtsと関係のある各センテンスI.D.に対
し、プロセッサ11は、ステップ258で、そのセンテ
ンスのスコアを増分する。
【0084】センテンスのスコアは、ステップ258に
てセンテンススコアリストを作成することによって追跡
できる。プロセッサ11がセンテンスI.D.を選択す
るたびに、センテンススコアリストは、それにセンテン
スI.D.が含まれているか否か、調べられる。含まれ
ていない場合には、センテンススコアリストにセンテン
スI.D.が加えられ、そのスコアが適宜に増加され
る。他方、センテンススコアリストに既に特定のセンテ
ンスI.D.が含まれている場合、既にセンテンスに関
連付けられているスコアは、増分される。
【0085】選択ワードtsに関連付けられた全部のセ
ンテンスのスコアを増分した後、プロセッサ11はステ
ップ260に分岐する。プロセッサ11は、主題ワード
の評価が済んだか否かを判断する。評価が済んでいない
場合には、プロセッサ11はステップ256に戻り、選
択ワードとして別の主題ワードを選択する。プロセッサ
11は、全部の主題ワードの検証がなされるまで、先に
述べた様にステップ256、258、260を経て分岐
する。全てが評価済みという事象が発生すると、プロセ
ッサ11はステップ262に分岐する。
【0086】ステップ262で、プロセッサ11は、最
もスコアの高いS個のセンテンスを主題総括として選択
する。プロセッサ11は、スコアに基づいてセンテンス
スコアリストをソート処理することによって、これを行
う。主題センテンスを選択した後、プロセッサ11は、
ユーザに主題総括を提示する場合もある。
【図面の簡単な説明】
【図1】 命令を実行することによって本方法を実施す
るコンピュータシステムのブロック図である。
【図2】 最初にOCRを実行せずに文書画像から文書
の主題総括を作る命令のフロー図である。
【図3】 テキスト本体のブロックを識別する命令のフ
ロー図である。
【図4】 適合テキストブロックの読取り順序を判断す
る命令のフロー図の第1の部分である。
【図5】 適合テキストブロックの読取り順序を判断す
る命令のフロー図の第2の部分である。
【図6】 適合テキストのブロック内のセンテンス境界
を識別するためにプロセッサ11が実行する命令の概要
図である。
【図7】 選択された連結成分がピリオドであるか否か
を判断する命令のフロー図である。
【図8】 選択された連結成分がコロンであるか否かを
判断する命令のフロー図である。
【図9】 選択された連結成分が省略記号の一部である
か否かを判断する命令のフロー図である。
【図10】 選択された連結成分の次に1個または2個
の引用符が続いているか否かを判断する命令のフロー図
である。
【図11】 選択された連結成分がセンテンス内の略語
の一部であるか否かを判断する命令のフロー図である。
【図12】 ワードリストからドロップワードを識別し
て削除する命令のフロー図である。
【図13】 主題センテンスを抜き出す命令のフロー図
である。
【符号の説明】
10 コンピュータシステム 11 プロセッサ 12 モニタ 13 プリンタ 14 キーボード 16 マウス 18 電子タブレット 22 フロッピーディスクドライブ 24 スキャナ 26 文書 28 半導体メモリ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ジョン・ダブリュー・チューキ アメリカ合衆国 ニュージャージー州 08540−2043 プリンストン ピー・オ ー・ボックス2043 アレトンロード 115

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 第1の多数のセンテンスと、各々がフォ
    ントサイズを備えた第2の多数の出現ワードを含む文書
    画像中のドロップワードを光学式文字認識を実施せずに
    識別する方法であって、プロセッサに結合されたメモリ
    に電子形式で記憶された命令を実行することによってプ
    ロセッサが実施する方法であり、 a) 文書画像中の優勢フォントサイズを識別するステ
    ップと、 b) 文書画像中の優勢フォントサイズのセンテンスの
    センテンス境界を識別するステップと、 c) 文書画像を分析して、優勢フォントサイズの等価
    クラスワードであって、第2の多数の出現ワードのうち
    の少なくとも1個の出現ワードをそれぞれが含む等価ク
    ラスワードを識別するステップと、 d) 各等価クラスワードについて、各等価クラスワー
    ドの幅、等価クラスワードの出現回数、等価クラスワー
    ドがセンテンスの最初の短くないワードとして出現する
    回数に基づいて、等価クラスワードがドロップワードで
    はない可能性を求めるステップと、 e) 等価クラスワードがドロップワードである可能性
    に基づいて、ドロップワードとしての等価クラスワード
    の数を指定するステップとを含む前記方法。
  2. 【請求項2】 請求項1に記載の方法において、ステッ
    プd)が、 式: L=(ωi/ωthe)*(1+bi/fi)+(c*
    W/fi) 式中、 Lは、ワードがドロップワードでない可能性の指標、 ωiは、ワードiの画素単位幅、 ωtheは、theというワードの画素単位幅、 biは、適合テキストブロックの一つにおいて、センテ
    ンスの最初の短くないワードとしてワードiが出現した
    回数、 fiは、適合テキストブロックにおけるワードiの出現
    回数、 cは、2項の間の一定重み付け係数、 Wは、文書中のワード総数、を利用して、等価クラスワ
    ードがドロップワードでない可能性を求めるステップを
    含むことを特徴とする前記方法。
  3. 【請求項3】 a) メモリと、 b) 第1の多数のセンテンスと第2の多数の出現ワー
    ドを含む文書画像中のドロップワードを光学式文字認識
    を実施せずに識別する方法のためのメモリ内に記憶され
    た命令とを含む製造品であって、前記方法が 1) 文書画像を分析して、第2の多数の出現ワードの
    うちの少なくとも1個の出現ワードをそれぞれが含む等
    価クラスワードを識別するステップと、 2) 各等価クラスワードについて、その等価クラスワ
    ードがドロップワードではない可能性を求めるステップ
    と、 3) 等価クラスワードがドロップワードである可能性
    に基づいて、ドロップワードとしての等価クラスワード
    の数を指定するステップとを含む製造品。
JP32051896A 1995-12-14 1996-11-29 Ocrを利用しない文書画像中のドロップワードの自動認識方法 Expired - Fee Related JP3943638B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/572,847 US5850476A (en) 1995-12-14 1995-12-14 Automatic method of identifying drop words in a document image without performing character recognition
US572847 1995-12-14

Publications (2)

Publication Number Publication Date
JPH09179942A true JPH09179942A (ja) 1997-07-11
JP3943638B2 JP3943638B2 (ja) 2007-07-11

Family

ID=24289608

Family Applications (1)

Application Number Title Priority Date Filing Date
JP32051896A Expired - Fee Related JP3943638B2 (ja) 1995-12-14 1996-11-29 Ocrを利用しない文書画像中のドロップワードの自動認識方法

Country Status (4)

Country Link
US (1) US5850476A (ja)
EP (1) EP0779592B1 (ja)
JP (1) JP3943638B2 (ja)
DE (1) DE69616246T2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6289121B1 (en) * 1996-12-30 2001-09-11 Ricoh Company, Ltd. Method and system for automatically inputting text image
RU2145115C1 (ru) * 1998-08-10 2000-01-27 Закрытое акционерное общество "Аби Программное обеспечение" Групповой способ аби (abbyy) верификации компьютерных кодов с соответствующими им оригиналами
RU2165641C2 (ru) * 1999-03-10 2001-04-20 Закрытое акционерное общество "Аби Программное обеспечение" Способ взаимосвязанного активирования компьютерных кодов в виде символов и соответствующих им фрагментов изображения
RU2166209C2 (ru) * 1999-03-15 2001-04-27 Закрытое акционерное общество "Аби Программное обеспечение" Способ построения динамических растровых эталонов компьютерных кодов, выполненных в виде символов, в процессе распознавания соответствующих им фрагментов изображения
US6466211B1 (en) * 1999-10-22 2002-10-15 Battelle Memorial Institute Data visualization apparatuses, computer-readable mediums, computer data signals embodied in a transmission medium, data visualization methods, and digital computer data visualization methods
US7010478B2 (en) * 2001-02-12 2006-03-07 Microsoft Corporation Compressing messages on a per semantic component basis while maintaining a degree of human readability
US6826305B2 (en) * 2001-03-27 2004-11-30 Ncr Corporation Methods and apparatus for locating and identifying text labels in digital images
CN101571921B (zh) * 2008-04-28 2012-07-25 富士通株式会社 关键字识别方法和装置
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties
US8233722B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8548193B2 (en) * 2009-09-03 2013-10-01 Palo Alto Research Center Incorporated Method and apparatus for navigating an electronic magnifier over a target document
US8086039B2 (en) * 2010-02-05 2011-12-27 Palo Alto Research Center Incorporated Fine-grained visual document fingerprinting for accurate document comparison and retrieval
US9514103B2 (en) * 2010-02-05 2016-12-06 Palo Alto Research Center Incorporated Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
US8554021B2 (en) 2010-10-19 2013-10-08 Palo Alto Research Center Incorporated Finding similar content in a mixed collection of presentation and rich document content using two-dimensional visual fingerprints
US8750624B2 (en) 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
CN103400057A (zh) * 2010-12-31 2013-11-20 北京安码科技有限公司 网页文字防拷贝的方法及其装置
US8831350B2 (en) * 2011-08-29 2014-09-09 Dst Technologies, Inc. Generation of document fingerprints for identification of electronic document types
US9111140B2 (en) 2012-01-10 2015-08-18 Dst Technologies, Inc. Identification and separation of form and feature elements from handwritten and other user supplied elements
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
CN104361081A (zh) * 2014-11-13 2015-02-18 河海大学 一种基于web文档的自动摘要方法
US9411547B1 (en) 2015-07-28 2016-08-09 Dst Technologies, Inc. Compensation for print shift in standardized forms to facilitate extraction of data therefrom

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3930237A (en) * 1974-03-07 1975-12-30 Computervision Corp Method for automating the production of engineering documentation utilizing an integrated digital data base representation of the documentation
US4194221A (en) * 1978-12-26 1980-03-18 Xerox Corporation Automatic multimode continuous halftone line copy reproduction
US4741045A (en) * 1983-09-23 1988-04-26 Dest Corporation Optical character isolation system, apparatus and method
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US4907283A (en) * 1987-03-13 1990-03-06 Canon Kabushiki Kaisha Image processing apparatus
JP2822189B2 (ja) * 1988-05-19 1998-11-11 ソニー株式会社 文字認識装置及び方法
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5131049A (en) * 1989-12-08 1992-07-14 Xerox Corporation Identification, characterization, and segmentation of halftone or stippled regions of binary images by growing a seed to a clipping mask
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5202933A (en) * 1989-12-08 1993-04-13 Xerox Corporation Segmentation of text and graphics
US5495349A (en) * 1990-01-13 1996-02-27 Canon Kabushiki Kaisha Color image processing apparatus that stores processing parameters by character data
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP3691844B2 (ja) * 1990-05-21 2005-09-07 株式会社東芝 文書処理方法
JP2829937B2 (ja) * 1990-08-06 1998-12-02 キヤノン株式会社 画像検索方法及び装置
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word
JP2925359B2 (ja) * 1991-06-19 1999-07-28 キヤノン株式会社 文字処理方法及び装置
US5390259A (en) * 1991-11-19 1995-02-14 Xerox Corporation Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
US5488719A (en) * 1991-12-30 1996-01-30 Xerox Corporation System for categorizing character strings using acceptability and category information contained in ending substrings
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
JPH0696288A (ja) * 1992-09-09 1994-04-08 Toshiba Corp 文字認識装置及び機械翻訳装置
NL9300310A (nl) * 1993-02-19 1994-09-16 Oce Nederland Bv Inrichting en werkwijze voor syntactische signaal-analyse.
US5396566A (en) * 1993-03-04 1995-03-07 International Business Machines Corporation Estimation of baseline, line spacing and character height for handwriting recognition
US5444797A (en) * 1993-04-19 1995-08-22 Xerox Corporation Method and apparatus for automatic character script determination
US5384864A (en) * 1993-04-19 1995-01-24 Xerox Corporation Method and apparatus for automatic determination of text line, word and character cell spatial features
US5638543A (en) * 1993-06-03 1997-06-10 Xerox Corporation Method and apparatus for automatic document summarization
US5410611A (en) * 1993-12-17 1995-04-25 Xerox Corporation Method for identifying word bounding boxes in text
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置

Also Published As

Publication number Publication date
JP3943638B2 (ja) 2007-07-11
US5850476A (en) 1998-12-15
EP0779592B1 (en) 2001-10-24
EP0779592A3 (en) 1998-01-14
DE69616246D1 (de) 2001-11-29
DE69616246T2 (de) 2002-05-29
EP0779592A2 (en) 1997-06-18

Similar Documents

Publication Publication Date Title
JPH09179937A (ja) 文書画像のセンテンスの境界の自動識別方法
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
US5848191A (en) Automatic method of generating thematic summaries from a document image without performing character recognition
US5539841A (en) Method for comparing image sections to determine similarity therebetween
JP3343864B2 (ja) 語体の分離方法
US7580571B2 (en) Method and apparatus for detecting an orientation of characters in a document image
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
US6496600B1 (en) Font type identification
JP2000315247A (ja) 文字認識装置
JP5414631B2 (ja) 文字列探索方法、文字列探索装置、記録媒体
JP2003058556A (ja) 文書画像のタイトル抽出方法、抽出プログラム、及びタイトル抽出装置
JPH07220023A (ja) 表認識方法及びその装置
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JPH07220081A (ja) 画像認識装置の図形の切出し方法
JP2002170079A (ja) 文書書式識別装置および識別方法
JP4328511B2 (ja) パターン認識装置、パターン認識方法、プログラムおよび記憶媒体
US20210303842A1 (en) Information processing device and non-transitory computer readable medium
JPH11191135A (ja) 文書画像の日本語英語判定方法、文書認識方法および記録媒体
JP3190794B2 (ja) 文字切り出し装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
Saragiotis et al. Skew correction in documents with several differently skewed text areas
JPH05114048A (ja) 文字認識方法及びその装置
JP3039427B2 (ja) 文字切り出し方式及び方法
JP3033904B2 (ja) 文字認識後処理方法
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070309

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070406

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110413

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120413

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130413

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140413

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees