JPH05282488A - 文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法 - Google Patents

文書画像の復号なしに文書の意味的に重要な部分の自動変更のための方法

Info

Publication number
JPH05282488A
JPH05282488A JP4302723A JP30272392A JPH05282488A JP H05282488 A JPH05282488 A JP H05282488A JP 4302723 A JP4302723 A JP 4302723A JP 30272392 A JP30272392 A JP 30272392A JP H05282488 A JPH05282488 A JP H05282488A
Authority
JP
Japan
Prior art keywords
image
document
units
word
bitmap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4302723A
Other languages
English (en)
Other versions
JP3232143B2 (ja
Inventor
Daniel P Huttenlocher
ダニエル・ピー・ヒュッテンロッヒャー
M Kaplan Ronald
ロナルド・エム・カプラン
M Margaret Withgott
エム・マーガレット・ウイズゴット
Todd A Cass
トッド・エイ・カス
Per-Kristian Halvorsen
パー−クリスチャン・ハルボルセン
Dan S Bloomberg
ダン・エス・ブルームバーグ
Ramana B Rao
ラマーナ・ビー・ラオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH05282488A publication Critical patent/JPH05282488A/ja
Application granted granted Critical
Publication of JP3232143B2 publication Critical patent/JP3232143B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Image Input (AREA)
  • Character Discrimination (AREA)
  • Image Processing (AREA)

Abstract

(57)【要約】 (修正有) 【目的】デジタルコンピュータ内で復号していない文書
画像を処理して、第1に文書画像を文字コードへ変換す
ることなく、意味的に重要な部分を強調するように文書
画像を変更するための方法ならびに装置の改良を提供す
る。 【構成】文書画像は段階20で画像単位に分割され、段
階40で上記画像単位の形態的画像特性が評価されて強
調する重要な画像単位を識別する。ひとつの好適実施例
において、重要な画像単位は、上記重要な画像単位に対
応する画像単位ビットマップ全体に適用する均一な形態
的ビットマップ操作の少なくともひとつを用いて、少な
くとも上記重要な画像単位のひとつの形状特性を変更す
ることにより、強調されている(段階50)。

Description

【発明の詳細な説明】
【0001】本発明は文書画像処理のための方法ならび
に装置の改良に関するもので、より特定すれば、文書画
像の意味的に重要な部分を識別し、また該文書画像を変
更して、その文書を第1に復号することなくまたはそれ
以外でその情報内容を理解することなく識別した部分を
強調するための方法ならびに装置に関する。
【0002】コンピュータを使用した従前の文書処理の
目標は、文書を表わす電子的に符号化されたデータ中に
含まれる情報の識別、アクセス、および抽出が簡単かつ
高信頼度で可能となることと、電子的に格納された文書
または文書の本体に含まれる情報を要約し特徴付けるこ
とだった。例えば、文書または文書本体の情報内容の参
照ならびに評価を容易にして特定の利用者の要求に合わ
せた該文書の検索能力を決定するには、文書の意味的に
もっとも重要な部分をこれが含む情報として識別し得る
ことと、文書内容を利用者が識別し評価しやすい形態で
これらの部分を提示しうることが望ましい。しかし文書
内の意味のある部分の識別の問題は文書のコード表現
(すなわち、ASCIIコードに符号化した文章表現な
ど)ではなくこれの画像(ビットマップ画像データ)を
取り扱う場合特に困難である。ASCIIテキストファ
イルでは注目しているテキスト部分の所在を求めるため
にブール代数式キーワード検索などの操作を利用者が実
行しうるのに対し、原稿文書の操作によって生成され、
生成された文書画像の復号を行なっていない電子化文書
は、それぞれの文書画像の徹底的な観察なしには、また
は検索目的で当該文書の要約を手作業により作成しない
限り、評価は困難である。当然文書の観察または文書の
要約の作成には相当量の人間の努力が必要となる。
【0003】一方、現存する文書識別法、中でもテキス
トを取り扱うものは一般に画像を断片に分割して個別の
文字を分析し、これらを数値化または復号することで文
字ライブラリ内の文字に適合させている。こうした方法
の一般的クラスのひとつには光学的文字認識技術(OC
R)が含まれている。通常、OCR技術である単語を識
別することは、その単語の個々の文字のそれぞれが復号
され、またライブラリ内から対応する単語の画像が取り
込まれた後でのみ行われている。
【0004】さらに、光学的文字認識技術の復号操作は
一般に高度な計算能力を必要とし、一般に認識エラーで
普遍的ではない段階を有し、さらには画像処理時間が相
当大量に必要とされ、中でも単語の認識に関してしばし
ば時間がかかる。ひとつの文字のそれぞれのビットマッ
プは隣接する文字から識別されねばならず、その形状が
分析され、また所定の文字の組み合わせの中の明確な文
字として決定処理において識別される必要がある。さら
に、走査画像の生成中に持ち越された原稿文書の画像品
質ならびに雑音が、ある文字のビットマップの実際の形
状に関する不確実性に関与してくる。大半の文字識別処
理では、ひとつの文字が接続した画素の独立したひとつ
の組であると仮定している。走査画像の品質が元でこの
過程が崩れると、識別も失敗することになる。
【0005】また、走査した文書画像の選択部分を利用
者に提示するひとつの方法は文書画像中において何らか
の方法でこれらの部分を強調することである。しかしそ
のためには、相対的に関連する手順でテキスト画像の表
現の実質的な変更とされてきた。
【0006】ハッセルメイヤー(Hasselmeier)の米国特
許第4,581,710号では文字または画像表現にお
けるドットパターンデータの編集方法が開示されてい
る。データを編集するには、ページの上部から底部まで
鋸となる部分を想定してこれらの部分の編集が可能ない
わゆる「窓保存」が提供される。
【0007】ワタナベ(Watanabe) らの米国特許第5,
018,083号では画像データを入力し編集する画像
処理システムが開示されている。このシステムは画像デ
ータを編集するために出力パラメータを付加するパラメ
ータ付加装置と、パラメータ付加装置によって付加され
たパラメータをもととして画像データの少なくとも一部
を見出しとして編集可能な編集制御ユニットを含む。
【0008】フジサワ(Fujisawa)の米国特許第5,0
29,224号ではマーク付けした領域の認識装置が開
示されている。この装置はひとつの行についてマーク検
出回路の検出結果を保存するための保存手段と、それぞ
れの行についてマーク付けした領域が延在する主走査方
向での座標を保存するための座標保存手段と、二つのメ
モリ手段内に保存された直前の行のマーク付けした領域
の状態からマークした領域を識別するための識別手段が
含まれる。この装置は、マーク付けした領域を表わすマ
ークの存在または不在を示す文書画像の任意のマーク付
け領域を電子的マーク付け信号から識別する。本装置で
は実現のためにマーク付け領域識別回路が必要である。
【0009】サカノ(Sakano)の米国特許第4,90
8,716号では画像処理装置が開示され、ここでは文
書の領域が文書内に入力されたマーク付けによって指定
され、マーク付けによって包囲された部分が切り取りま
たは隠蔽処理の対象となるマーク領域として処理され
る。カラーフエルトペンまたは同様の筆記具を用いて文
書の目的領域を枠で囲む。この後マーク検出回路が画像
の色調を検出することによってマーク付けを検出するこ
とができる。マーカーペンの反射率または色調の差によ
ってマーク付けした領域の検出が可能となる。この事か
らマーク付けした領域を消去または所望するように取り
扱うことができる。
【0010】したがって、本発明の目的は文書画像の内
容を復号することなしに非復号文書画像の意味的に重要
な部分を自動的に強調するための方法ならびに装置の改
良を提供することである。
【0011】本発明の別の目的はデータ駆動型処理を実
行するためにデータ処理システムを用いて実現しうると
表現される形式でメモリ手段内に含まれる所定の様式で
プログラム命令を実行することにより機能を実現するた
めの実行処理手段を含む方法ならびに装置を提供するこ
とである。
【0012】本発明のさらなる目的は、文書内の選択さ
れた画像単位の表現が均一な形態的ビットマップ操作を
用いて改変し得ると表現される形式の単純化された方法
並びにその装置を提供することである。
【0013】本発明のさらなる目的は、文書画像の選択
した部分を変更または強調するためにデジタル式文書複
写装置と共に使用可能と表現される形式の方法ならびに
その装置を提供することである。
【0014】本発明の第1の態様では、文書画像の意味
的に重要な部分を自動的に強調する方法が提示され、こ
こにおいて文書画像は文書が図の復号を行なうことなく
画像単位に断片化され、また重要な画像単位はその画像
単位の形態的(構造的)画像特性を基盤とする所定の重
要性の基準の少なくともひとつに従って識別される。文
書画像は識別された重要な単語単位を強調するように改
変される。文書画像は例えば文書を走査しまた文書の画
像の電子的複写を生成するための手段を有する電子写真
式複写装置を用いて原稿の印刷された文書を走査するこ
とにより、都合よく生成される。
【0015】しかし本発明は文書走査を用いるシステム
に制限されるものではない。むしろ、ビットマップ式の
ワークステーション(例えばビットマップ式ディスプレ
イを装備しているワークステーション)またはビットマ
ップと走査の双方を使用するシステムなど他のシステム
でも本論で詳述する方法ならびに装置の実現のために等
しく良好に動作し得るであろう。また上述したような電
子写真式複写装置の使用も、利用可能な何らかの手段に
よって文書画像が走査されまたはビットマップ画像とし
て処理される点から見て同様に典型的である。
【0016】重要な画像単位を識別するために使用され
る形態的画像特性には、画像単位の形状寸法、字体、字
種、文書画像内の位置、画像単位の出現頻度が含まれ
る。ひとつの実施例において、重要な画像単位は、利用
者の注目する単語単位に隣接して利用者によって文書上
に配置されたマーク付け、例えば枠で囲む、下線を付け
る、または他の形状で目立たせるかまたは強調すること
などに従って識別される。
【0017】重要な画像単位は、例えば、それぞれの重
要な画像単位の下に下線を生成することにより、または
その画像単位の少なくともひとつの形状特性を変更する
ことにより、多くの方法で強調することができる。本発
明のひとつの態様では、強調すべき重要な画像単位が識
別されれば、ひとつの画像単位について画像単位全体の
ビットマップが少なくともひとつの形態的操作を用いて
改変されることによりその重要な画像単位のひとつの形
状特性を変更しうる。
【0018】本発明のさらなる態様では、単語単位の文
章を含む第1の文書を自動的に処理して第2の文書を生
成し、第1の文書に含まれる目的内容を表わす意味的に
重要な単語を強調するための装置が提示される。本装置
は文書画像を処理しまた復号していない文書画像の電子
的表現を文書の文章から生成するための手段と、データ
駆動型処理を実行し、メモリ手段内に格納された所定の
方法でプログラム命令を実行することにより機能を実行
するための実行処理手段を含むデータ処理システムを含
む。プログラム命令は実行処理手段を作動させて文書画
像を画像単位に断片化し、また画像単位の形態的画像特
性に基づく所定の重要性基準にしたがって意味的に重要
な画像単位を識別させ、文書画像の復号は行なわない。
プログラム命令はさらにデータ処理システムを作動させ
て、変更されたビットマップを生成するように識別した
重要な画像のビットマップを変更して、これが識別した
重要な画像単位の少なくともひとつの形状特性を変更す
るものである。
【0019】本発明にかかる上述のおよびその他の目
的、特徴、および利点は、添付の図面および請求の範囲
を参照しつつ、本発明の後述する詳細な説明を読み進む
にしたがって当業者には明白なものとなろう。
【0020】本発明の好適実施例は添付の図面に図示さ
れている。
【0021】図1は第1に文書の内容を復号するかまた
は文字コードへ文書内容を変換することなく、文書画像
を処理して文書画像の選択した部分を強調するための本
発明の好適実施例の方法の流れ図である。
【0022】図2は図1の方法を実行するための本発明
による装置の好適実施例のブロック図である。
【0023】図3は本発明の好適実施例におけるビット
マップ操作により処理するため11個の単語が部分的に
下線を引かれた状態の入力文書画像を示す。
【0024】図4から図15はそれぞれに出力文書画像
の例を示し、本発明の好適実施例にしたがってひとつま
たはそれ以上のビットマップ操作により選択された重要
な単語が強調されている。
【0025】従来技術とは対照的に本発明は、画像ファ
イルと文字コードファイルが画像処理特にデータ取り込
で重大な差を呈する認識の大域的測定に基づいている。
本発明は言語的術語の存在または頻度(例えば「重要
な」、「意味のある」、「重大な」またはその他の単
語)など、文章の作者によって特定の文または文章の領
域、字体、字種の情報、様式、などに注意を引かせるた
めに用いられている紙上の文書に含まれる文章の視覚的
属性を利用している。
【0026】より特定すれば、本発明は文書画像のデー
タまたは文章内の選択された情報を自動的に強調するた
めの方法ならびに装置を提供する。強調される情報は、
本発明が使用される特定の用途によって変化する所定の
選択基準によって選択された単語群または文節となすこ
とができる。当業者には理解されようが、本発明の強調
技術は電子写真式複写装置または印刷装置を用いるなど
の用途で実行されるのに特に好適であり、また、例えば
以下に詳細を解説する方法で強調された文書内の重要な
単語群または文を有する出力文書の製作を結果として得
るために実行することができる。
【0027】本発明の方法の好適実施例は図1の流れ図
に図示してあり、図1の方法を実現するための装置が図
2に図示してある。明確にする目的で、本発明は単一の
文書の処理を参照して解説する。しかし、本発明は複数
の文書を含む文書全体の処理に応用可能であることは理
解されよう。
【0028】第1に図2を参照すると、一枚またはそれ
以上のシートまたは紙片のページ10またはその他の物
質的な形状に含まれる文書の線7、表題、図面、図8、
または類似のものを含むことができる原稿文書5の電子
的画像について実行される。処理すべき電子的文書画像
は何らかの在来の方法、例えば図示したような光学的ス
キャナ12および検出装置13、複写装置のスキャナ、
点字読み取り機スキャナ、電子ビームスキャナまたは同
様のものなどの走査手段により生成される。このような
走査手段は従来技術において周知であり、よって本論で
は詳細の説明は行なわない(ビットマップワークステー
ションまたはビットマップと走査の双方を使用するシス
テムも有効に実現しうる)。
【0029】スキャナ検出装置13から発生する出力は
デジタル化されて文書の各ページについて文書画像を表
現するビットマップ化された画像データを生成し、この
データは例えば専用または汎用のデジタル式コンピュー
タ16のメモリ15に保存される。デジタルコンピュー
タ16はデータ処理システムにおけるデータ駆動処理を
実行する形式で、所定の順序でプログラム命令を実行す
ることにより機能を実現するための順次実行処理手段を
含むことができ、このようなコンピュータは現在の従来
技術で周知となっている。コンピュータ16からの出力
は出力装置、例えば、メモリまたはその他の様式の記憶
装置、または図示したような出力ディスプレイ装置17
などへ出力され、これらの出力装置は例えば複写装置、
CRTディスプレイ装置、印刷装置、ファクシミリ装
置、またはその他の装置となすことができる。
【0030】ここで図1を参照すると、本発明の画像処
理技術の第1の様相は低レベルでの文書画像分析に関与
し、ここで各ページについての文書画像は、従来の画像
分析技術を用いて画像単位を含む非復号情報に断片化さ
れ(段階20)、または、文章文書の場合には、例えば
ヒュッテンロッヒャー(Huttennlocher)とホップクロフ
ト(Hopcroft)により本出願と共に現在申請されてい
る、「文章中の単語の境界を決定するための方法ならび
にその装置(Method and Apparatus for Determining B
oundaries of Words in Text)」と題する同時出願中の
米国特許出願第07/794,392号に開示された境
界ボックス法を使用する。
【0031】単語のボックスを発見するためのもうひと
つの方法は、文字間を連結するが単語間を連結しない水
平方向のSEで画像を近接させ、接続した画像成分(こ
の場合には単語となす)の境界ボックスをラベル付けす
る操作が続く。この処理は画像を収縮しまた文字間の間
隔を近接させる双方の効果を有するひとつまたはそれ以
上の閾値収縮(閾値1とする)を用いることによって大
幅に高速化し得るものである。閾値縮小は小さい水平方
向のSEによる近接が後続するのが常である。接続され
た部分のラベル付け動作は縮小した寸法でも実施され、
結果は完全な寸法に拡大される。縮小した寸法で操作す
る欠点は、単語の境界ボックスが近似的でしかないこと
であるが、多くの用途において正確度は十分である。上
述の方法は任意の文章の字体である程度良好に動作する
が、極端な場合、例えば大きな文字間の分離を有する巨
大な固定幅字体または小さな単語間の分離を有する可変
文字幅の小さな字体などでは誤りが発生する場合があ
る。最も強靭な方法は特定の画像特性の測定に基づいて
近接させるためのSEを選択する。これには次の2段階
を追加する必要がある。 (1)原稿または縮小した(しかし近接させていない)
画像の画像成分を行の順番に左から右へ、また上部から
底部へ整列する。 (2)水平方向の要素間の間隔のヒストグラムを作成す
る。このヒストグラムは本質的に小さな文字間の間隔と
大きな単語間の間隔に分割することになる。次にこれら
のピークの間の谷を用いてSEの寸法を決定し、単語を
結合しないが画像を近接させることで文字を並べ変え
る。
【0032】境界ボックスまたは単語ボックスを発見し
た後、あるページの画像単位の位置およびこれらの空間
的関連性が調べられる(段階25)。例えば、英語の文
書画像は単語内の文字間の間隔と単語間の間隔の相対的
な差に基づいて単語の画像単位に断片化することができ
る。文節および文の境界も同様に確定することができ
る。さらなる領域断片化画像の分析を実行して、ページ
の画像を図、表、脚注、その他の補助的な文書画像に対
応するラベル付けした領域に分割するような物理的文書
構造の記述子を生成することができる。図面領域は例え
ば領域内の行に配置された画像単位の相対的な欠如に基
づいて文章領域と区別することができる。この断片化を
用いることで、どのように文書が処理されるかの知識が
構成される(すなわち、左から右へ、上部から底部へな
ど)のと、任意で他の入力情報、例えば文書の様式、単
語画像について「読み取り指定」順序なども生成するこ
とができる。であるから、術語「画像単位」は本論にお
いて数字、文字、表意文字、シンボル、単語、文または
その他の確実に抽出しうる単位を表現するために使用し
ている。便利なことに、文書の参照および評価の目的
で、文書画像はサイン、シンボル、または単語などのほ
かの要素の組みに断片化され、これらが集まって理解の
一単位を形成している。これらの理解単位は単位を構成
する素子を分割する間隔より大きな間隔によって分割さ
れるという画像内での特徴をしばしば有している。単一
の理解単位を表わすこれらの画像単位は今後「単語単
位」と称することにする。
【0033】都合よく、弁別段階30が次に実行され、
処理中の文書の主題内容の評価において有用な情報内容
を不十分に有している画像単位を識別する。こうした画
像単位は停止または機能語すなわち前置詞、冠詞、およ
び広汎に文法的役割を演じるその他の単語を含み、内容
の情報を担う名詞及び動詞に対向する。ひとつの好適な
方法はブルームベルグ(Bloomberg)らにより現在申請中
の「走査した文書を文字コードに変換しない機能語の検
出(Detecting Function Words Without Converting A
Scanned Document to Character Codes )」と題した出
願中の米国特許出願第07/794,190号に開示さ
れた形態的機能語検出技術を使用することである。
【0034】次に、段階40で、選択された画像単位、
例えば段階30において弁別されなかった画像単位は画
像単位の所定の形態的(構造的)画像特性の評価に基づ
いて、分類中の画像単位の復号を行わずまたは復号した
画像データの参照を行なわずに評価される。評価には、
形態的画像特性の弁別(段階41)と、他の画像単位で
求められた形態的画像特性に対してまたは所定の形態的
画像特性または利用者によって選択された形態的画像特
性に対して、 それぞれの画像単位について求められた
形態的画像特性の比較(段階42)が必須である。
【0035】評価すべき画像単位の形態的画像特性を定
義するための好適な方法は、ヒュッテンロッヒャー(Hu
ttenlocher)とホップクロフト(Hopcroft)が現在申請
中で「連続比較のために単語の形状を導出するための方
法(A Method for DerivingWordshapes for Subsequent
Comparison)」と題する出願中の米国特許出願第07
/794,391号に開示された単語の形状を導出する
技術を使用することである。上記出願に詳述されている
ように、単語単位の形状を特徴付ける少なくともひとつ
の一次元信号が導出されてその単語単位を包囲する境界
を決定し、画像関数は境界内で検出された文字列の端部
を表わす端部関数がその単語単位を構成する文字または
文字列を個別に検出および/または識別することなく近
接した境界内の単一の独立変数によってその全領域にわ
たり定義されるように増加される。この処理の一部とし
て、あるページの文字列の基線が決定される(基線は文
字列の行の上でデセンダを有さない文字の下に延在する
仮想線である)。基線に沿った単語単位の順列および各
文書の画像ページ上の基線の順列が文書画像中の単語単
位の読み取り順序を提供することは理解されよう。本発
明において文書中の非復号語を比較しており、非復号語
を例えば辞書ファイル内の単語と比較すべき必要がない
ことは特筆すべきであろう。
【0036】それぞれの選択した画像単位から求まった
形態的画像特性、例えば導出した画像単位の形状表現が
上述のように(段階42)、選択したその他の画像単位
から求まった画像単位の形態的画像特性/導出した画像
単位の形状表現と(段階42A)、または所定の/利用
者の選択した形態的画像特性と比較されて画像単位の特
定の形式を位置付ける(段階42B)。選択された画像
単位で求められた形態的画像特性は、画像単位の等価な
クラスを識別する目的でそれぞれの等価なクラスが文書
内の所定の画像単位の出現率の大半または全てを包含す
るように、また、カス(Cass) らにより現在申請中の
「文書画像の復号による文書内の単語の出現頻度を求め
るための方法ならびにその装置(Method and Apparatus
for Determining the Frequency of Words in a Docum
ent with Document Image Decoding)」と題する現在出
願中の米国特許出願第07/795,173号により詳
細に記載されているように、画像単位が文書中に出現す
る相対頻度を求められるように有利に比較される。画像
単位はこの後これらの出現頻度ならびに画像単位のその
他の特性例えばその長さにしたがって重要性が分類また
は識別されうる。例えば、英語で書かれた商業通信文に
ついての選択基準の有用な組合わせは、単語単位のもっ
とも頻繁に出現する中央出現率、例えば3文字以上でお
よそ8文字以下に対応する長さを有する単語単位などを
選択することである。
【0037】文書画像の表題、見出し、脚注、言語学的
基準またはその他の重要性を示す特徴の仕様が、所定の
また利用者により選択されて「重要な」画像単位を定義
する選択基準を決定し得るものであることは理解されよ
う。選択基準に付随する画像特性と適合させるために文
書画像の選択された画像単位の画像特性を比較すること
で、重要な画像単位が何ら文書を復号することなく容易
に識別されうる。
【0038】多数の異なる比較方法のどれでも使用する
ことができる。例えば使用可能なひとつの技術は、決定
ネットワークを使用して抽出した画像単位のラスタ画像
を相関することによるもので、こうした技術は本明細書
で参考文献に含めているケーシー(Casey)らの「パター
ン分類のための決定ネットワークの監督されない構造
(Unsupervised Construction of Decision Networks f
or Pattern Classification)」、IBM研究報告、19
84年、と題する研究報告に特徴が詳述されている。
【0039】単語単位の等価なクラスを識別するために
使用しうる好適な技術は、それぞれヒュッテンロッヒャ
ー(Huttenlocher)およびホップクロフト(Hopcroft)
と、ヒュッテンロッヒャー、ホップクロフト、ウェイナ
ー(Huttenlocher, Hopcroft, and Wayer )により現在
申請中の、それぞれ「単語の形状の検証による光学的単
語識別(Optical Word Recognition By Examination of
Word Shape )」および「単語の形状を比較するための
方法(Method for Comparing Word Shapes)」と題する
出願中の米国特許出願第07/796,119号および
第17/795,169号に開示された単語形状比較技
術である。
【0040】特定の用途および処理速度に対する正確度
により異なるが、例えば異なる精密度の評価の相対的重
要性が実行可能である。例えば、有用な評価は、画像単
位の長さ、幅(高さ)または何らかのその他の測定寸法
(または導出した画像単位の形状表現、例えば文書画像
で最大の図面)や、文書中の画像単位の位置または領域
(文書画像の選択された図面または文章を含む、例えば
表題、冒頭の図面、ひとつまたはそれ以上の文章または
図面など)、字体、字種、断面(断面はひとつの画像単
位中の同様な状態の画素の続きである)や、アセンダの
数や、デセンダの数や、平均画素密度や、凸部および凹
部を含む上部線の輪郭の長さや、凸部および凹部を含む
基線輪郭の長さや、上述の分類要素の組み合わせを基準
にとることができる。ウィズゴット(Withgott) らによ
り現在申請中の「文書画像の復号なしに走査画像の文の
出現率を求めるための方法ならびにその装置(Method a
ndApparatus for Determining the Frequency of Phras
es in a Scanned Document Without Document Image De
coding )」と題する出願中の米国特許出願第07/7
94,555号に詳述されているように、文の出現頻度
を決定する目的の充分な比較が導出された画像単位の形
状表現の長さと高さだけの比較によるものであることが
解っている。こうした比較は取り分け高速で、高効率の
文章出現頻度が得られ、多くの文章文書用途において高
信頼性で重要な文を抽出するのに充分強力であることが
証明されている。
【0041】複数ページにわたる文書が処理される場合
について、それぞれのページが処理され、上述のように
データはメモリ15(図1参照)に保持される。データ
の全体性はこの後で処理することができる。
【0042】本発明の双方の方法の実施例に従う文書分
析の第2の様相は、走査した文書画像のさらなる処理
(段階50)を行なって識別した画像単位を強調するこ
とに関連する。強調は多くの方法で提供可能である。典
型的なひとつの方法は、文書画像を持ち上げて識別した
重要な画像単位に下線を引き、色付けして目立たせ、ま
たは印字開始位置の注釈として提示するようになすこと
である。
【0043】別の典型的な方法は、重要な画像単位の形
状および/またはその他の表現属性それ自体を変更し
て、文書画像中のほかの画像単位と相対的にこれらを強
調するような方法である。表現の変更は何らかの従来の
画像変更技術または、以下に延べる形態的ビットマップ
変更技術を有利に使用することで実現されうる。
【0044】本発明では、ひとつまたはそれ以上の選択
された形態的操作は選択された画像単位についてビット
マップ全体にわたり均一に実行されて、これの少なくと
もひとつの形状特性を変更するものである。ビットマッ
プ操作の選択は自動的にまたは対話的に実行しうること
が理解されよう。
【0045】上述の表現の変化が実現されうる方法の例
は次のようなものである。字種の形状を保った文は「拡
大」または接続性保存(CP)拡幅操作を用いて「太
字」化できる。これはまた「侵食」またはCP細字化操
作を用いて「細字」化できる。(当業者には理解される
ように、拡大および侵食は形態的操作で、供給元の画像
を同等寸法の目的画像へ構成要素(SE)と呼ばれる画
素パターンによって定義された規則に従って割り当てる
ものである。SEはそれぞれが定義された値(ONまた
はOFF)を有する画素の位置の数と中央位置によって
定義される。SEを定義する画素は相互に隣接する必要
がない。中央位置はパターンの幾何学的中心に位置する
必要はない。実際には、パターンの内部にすら位置しな
くともよい。拡大において、ONとなっている供給元の
画像の所定の画素によりSEは目的画像の対応する位置
にSE中心をとり目的画像に書き込まれる。拡大に使用
されるSEは通常OFF画素を有さない。侵食におい
て、目的画像の所定の画素は、供給元画像の対応する画
素位置にSE中心を上書きする結果でSEの全てのON
およびOFF画素と供給元画像の下敷きとなる画素の間
の適合が得られる場合のみONとなる)
【0046】こうした拡大/拡幅および侵食/細字化操
作は等方性(縦方向に対して横方向が等しい)または非
等方性(すなわち縦方向と横方向で異なる)のいずれか
で有り得る。
【0047】例えば、選択された単語単位をイタリック
体に変換するためには光学的文字認識(OCR)技術が
必要とされるが、同様な形状の強調は斜体の字体に到達
するために水平方向の変形を行なう形態的操作を通して
達成可能である。斜体はローマ字の字体の変種であっ
て、水平方向に約12°の変形を用いるローマ字から作
成される(これはイタリック体の文字に近似した斜体角
度である。)。変形した画像は前向き、後ろ向き、また
は上向きにでも所望すれば傾けることができる。文章は
強調のためにビット反転(黒を白に、またその反対も)
することができ、または単語が拡大または縮小によって
それぞれ強調または非強調されることができる。寸法変
更の場合、単純な寸法変更に加えて画像単位内の線の太
さを変更することも望ましい。
【0048】よって、こうした形態的ビットマップ変更
処理を用いることにより、下線を引く、傍線を引く、円
で囲む、目立たせる、およびその他などの手作業のマー
クが画像から抽出でき、原稿のビットマップからXOR
操作(排他的論理和)によって除去することができる。
色のついた強調マークの除去にはグレースケール(また
はカラーの)走査画像の取り込が必要である。一旦取り
込んでしまえば、適切な閾値化を用いて除去は比較的簡
単である。得られた画像は強調マークのついていない画
像の品質に類似する。強調された単語は既知の種成長法
を用いて強調マスクおよび単語ボックスから識別しう
る。これらの単語の表現は自在に変更可能である。
【0049】より特定すれば、図3に図示した入力文書
画像において、11単語が部分的に手書きで下線を付け
られており、下線部は強調すべき単語を識別するための
所望の選択基準を表わしている。文書画像について実行
される操作は上述の技術を使用して用手的な介助なしに
自動的に実行することができる。よって、例えば上述の
形態的操作技術により識別された画像単位を処理するこ
とにより、3×3の拡大操作がそれぞれの画像単位につ
いて実行されて画像単位の内容の太字が生成され、出力
文書画像が図4に示すように形成できるようになる。
【0050】当然、その他の形態的操作を用いて文書画
像の単語単位の強調または拡張を提供することができ
る。例えば、図5に示すように、水平方向に約0.3ラ
ジアンの変形を用いて所望する画像単位が傾斜した出力
文書画像を生成することができる。実施される傾斜が文
書画像中にも出現しているイタリック体の単語の傾斜と
同様だが判別可能であることは観察されよう。所望すれ
ば、後ろ向きの水平方向の変形を用いて図6に示すよう
な出力文書画像を得ることもできる。
【0051】図5の例において、選択した単語について
係数約0.8の縦方向の圧縮が実行されている。ビット
マップの尺度は水平方向で変更されておらず、得られた
ビットマップは対応する原稿の単語単位について求めた
境界ボックス内で中心に置かれている。選択した単語単
位はまた水平方向にも圧縮することができ、図8に示す
ように、強調した単語単位は選択した単語単位について
係数0.8で圧縮されている。ビットマップ尺度は縦方
向で変更されていない。得られたビットマップはさらに
対応する原稿の単語単位から求めた境界ボックス内で中
心に置かれている。図9に示すように、選択した単語単
位は水平および垂直の両方向に圧縮することもできる。
図9に図示した特定の出力文書画像においては、強調し
た単語単位は水平および垂直の両方向で係数0.8で圧
縮されており、また、得られたビットマップは対応する
原稿の単語単位の境界ボックス内で中心に置かれてい
る。
【0052】ビットマップの操作は組み合わせて使用す
ることができる。従って、図10に示すように、ビット
マップは係数約0.8で垂直および水平の両方向に再度
伸縮され、またそののち水平方向に約0.3ラジアンの
変形が実施されている。また、得られたビットマップは
原稿の単語単位の対応する境界ボックス内で中心に置か
れている。
【0053】他の形状の強調も同様に簡単に得ることが
できる。例えば、図11に示すように、縦方向に0.0
5ラジアンの変形をそれぞれの選択した単語単位のビッ
トマップに適用している。得られたビットマップは対応
する原稿の単語単位の境界ボックス内で中心に置かれて
いる。強調操作のさらなる例を図12に示し、ここでは
選択した単語単位は4接続バージョン1型の水平方向の
接続保存太字化の2回反復を用いて強調されている。図
13および図14は水平および垂直の両方向での同一の
接続保存太字化操作のそれぞれ2回反復と3回反復の効
果を示す。操作がCPであるから、少なくともひとつの
OFF画素が隣接する文字を隔離している。その結果、
文字は相互に融合して見えることはない。図12から図
14までの例で用いた操作は強調した単語単位に対して
「ゴシック」表現を付与している。
【0054】最後に、図15に示すように、選択した単
語は上述したように傾斜させることによって強調するこ
とができ、また関連する境界ボックス内部の画素がビッ
ト反転されて選択した単語単位の境界ボックス内で負の
画像が得られている。
【0055】画像の変更のための形態的ビットマップ操
作が、これの画像特性に基づく重要な画像単位を識別す
るために上述したような自動的な方法を含むのみではな
く、下線、傍線、強調、「円で囲む」などの表記を基盤
として原稿文書上または対応する走査文書画像上いずれ
かになされた対話的な方法を用いることも含め、何ら化
の方法で選択した画像単位上に実行しうることが理解さ
れよう。同様に変更されたビットマップが印刷文書を走
査することによって生成されなくとも良いことも理解さ
れよう。これらはページ記述言語(PDL)からまたは
対話型ペン入力から直接翻訳することで行なうことがで
きる。
【0056】従って、強調する単語の識別のために事実
上あらゆる利用者のマーク付け手段が使用しうることが
理解されよう。例えば、丸で囲む、下線を引く、または
強調する(適切なグレーまたはカラースケールの閾値化
手段を使用する)などの編集動作を他のマークに変換す
ることができる。例えば、ひとつの単語単位の周囲の円
を除去してこれをその単語の下に延在する機械的な線に
置換することが可能である。または「削除」を指示する
円を除去してその単語を貫通して横断する直線に置き換
えることもできる。
【0057】一方、領域を編集する用途も実行できる。
対話的な編集ディスプレイアプリケーションでは、選択
した領域内のビットマップ(または、これに代わって描
画キャンバス全体)を改変できる。例えば、全てのマー
クを均一に拡大してもっと暗くするようになすこともで
きる。これらはまた画像接続性保存操作を用いて太字ま
たは細字になすこともできる。こうした接続性保存操作
は個々の要素例えば線などを除去したりまたは結合した
りしないことが保証される。
【0058】本発明はある程度の精密さで詳述し図示し
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
本発明の後述の請求の範囲を逸脱することなく当業者に
よってもたらされうることは理解されよう。
【図面の簡単な説明】
【図1】 第1に文書の内容を復号するかまたは文字コ
ードへ文書内容を変換することなく、文書画像を処理し
て文書画像の選択した部分を強調するための本発明の好
適実施例の方法の流れ図である。
【図2】 図1の方法を実行するための本発明による装
置の好適実施例のブロック図である。
【図3】 本発明の好適実施例におけるビットマップ操
作により処理するため11個の単語が部分的に下線を引
かれた状態の入力文書画像を示す。
【図4】 出力文書画像の例を示し、本発明の好適実施
例にしたがってひとつまたはそれ以上のビットマップ操
作により選択された重要な単語が強調されている。
【図5】 出力文書画像の例を示し、本発明の好適実施
例にしたがってひとつまたはそれ以上のビットマップ操
作により選択された重要な単語が強調されている。
【図6】 出力文書画像の例を示し、本発明の好適実施
例にしたがってひとつまたはそれ以上のビットマップ操
作により選択された重要な単語が強調されている。
【図7】 出力文書画像の例を示し、本発明の好適実施
例にしたがってひとつまたはそれ以上のビットマップ操
作により選択された重要な単語が強調されている。
【図8】 出力文書画像の例を示し、本発明の好適実施
例にしたがってひとつまたはそれ以上のビットマップ操
作により選択された重要な単語が強調されている。
【図9】 出力文書画像の例を示し、本発明の好適実施
例にしたがってひとつまたはそれ以上のビットマップ操
作により選択された重要な単語が強調されている。
【図10】 出力文書画像の例を示し、本発明の好適実
施例にしたがってひとつまたはそれ以上のビットマップ
操作により選択された重要な単語が強調されている。
【図11】 出力文書画像の例を示し、本発明の好適実
施例にしたがってひとつまたはそれ以上のビットマップ
操作により選択された重要な単語が強調されている。
【図12】 出力文書画像の例を示し、本発明の好適実
施例にしたがってひとつまたはそれ以上のビットマップ
操作により選択された重要な単語が強調されている。
【図13】 出力文書画像の例を示し、本発明の好適実
施例にしたがってひとつまたはそれ以上のビットマップ
操作により選択された重要な単語が強調されている。
【図14】 出力文書画像の例を示し、本発明の好適実
施例にしたがってひとつまたはそれ以上のビットマップ
操作により選択された重要な単語が強調されている。
【図15】 出力文書画像の例を示し、本発明の好適実
施例にしたがってひとつまたはそれ以上のビットマップ
操作により選択された重要な単語が強調されている。
【符号の説明】
5 原稿文書、7 線、8 表題,図面,図、10 ペ
ージ、12 スキャナ、13 検出装置、15 メモ
リ、16 デジタルコンピュータ、17 出力ディスプ
レイ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ロナルド・エム・カプラン アメリカ合衆国 カリフォルニア州 94306 パロアルト オームストリート 4015 (72)発明者 エム・マーガレット・ウイズゴット アメリカ合衆国 カリフォルニア州 94022 ロスアルトス キャリッジコート 11 (72)発明者 トッド・エイ・カス アメリカ合衆国 マサチューセッツ州 02138ケンブリッジ ハモンドストリート 107 (72)発明者 パー−クリスチャン・ハルボルセン アメリカ合衆国 カリフォルニア州 94022 ロスアルトス キャリッジコート 11 (72)発明者 ダン・エス・ブルームバーグ アメリカ合衆国 カリフォルニア州 94306 パロアルト パラダイスレーン 1013 (72)発明者 ラマーナ・ビー・ラオ アメリカ合衆国 カリフォルニア州 94112 サンフランシスコ イナコート 50

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 復号していない電子化文書画像を電子的
    に処理するための方法であって、 上記文書画像を上記文書画像の復号なしに情報内容を有
    する画像単位に断片化することと、 上記画像単位の重要なものを選択した形態的画像特性に
    したがって識別することと、 上記文書画像を識別した重要な画像単位を強調するよう
    に変更することを含むことを特徴とする方法。
  2. 【請求項2】 上記重要な画像単位を識別する段階が出
    現頻度に従って上記画像単位を分類することを含むこと
    を特徴とする請求項1に記載の方法。
  3. 【請求項3】 上記重要な画像単位を識別する段階が上
    記文書画像内の位置に従って上記画像単位を分類するこ
    とを含むことを特徴とする請求項1に記載の方法。
  4. 【請求項4】 上記選択した形態的画像特性は上記画像
    単位の少なくともひとつの画像単位形状寸法、字種、字
    体、アセンダ要素の数、デセンダ要素の数、画素密度、
    画素断面特性、隣接する画像単位に対する画像単位の位
    置、縦方向の位置、横方向の画像単位間の間隔、および
    輪郭特性を含むことを特徴とする請求項1に記載の方
    法。
JP30272392A 1991-11-19 1992-11-12 復号していない文書画像の修正版を自動的に作成するための装置 Expired - Lifetime JP3232143B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US795174 1991-11-19
US07/795,174 US5384863A (en) 1991-11-19 1991-11-19 Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding

Publications (2)

Publication Number Publication Date
JPH05282488A true JPH05282488A (ja) 1993-10-29
JP3232143B2 JP3232143B2 (ja) 2001-11-26

Family

ID=25164906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30272392A Expired - Lifetime JP3232143B2 (ja) 1991-11-19 1992-11-12 復号していない文書画像の修正版を自動的に作成するための装置

Country Status (5)

Country Link
US (1) US5384863A (ja)
EP (1) EP0543598B1 (ja)
JP (1) JP3232143B2 (ja)
CA (1) CA2077565C (ja)
DE (1) DE69226609T2 (ja)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
DE69333664T2 (de) * 1992-06-19 2005-11-17 United Parcel Service Of America, Inc. Verfahren und Gerät zur Einstellung eines Neurons
EP0587450B1 (en) * 1992-09-11 2004-11-17 Canon Kabushiki Kaisha Image processing method and apparatus
US5857038A (en) * 1993-06-29 1999-01-05 Canon Kabushiki Kaisha Image processing apparatus and method for synthesizing first and second image data
EP0677817B1 (en) * 1994-04-15 2000-11-08 Canon Kabushiki Kaisha Page segmentation and character recognition system
JP3647518B2 (ja) * 1994-10-06 2005-05-11 ゼロックス コーポレイション コード化したワードトークンを使用して文書画像をハイライトで強調する装置
US5642440A (en) * 1994-12-08 1997-06-24 Grumman Aerospace Corporation System using ergodic ensemble for image restoration
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
JP3291989B2 (ja) * 1995-07-25 2002-06-17 富士ゼロックス株式会社 文書処理装置
US6282324B1 (en) * 1995-08-31 2001-08-28 Northrop Grumman Corporation Text image deblurring by high-probability word selection
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
US6094484A (en) * 1996-10-16 2000-07-25 Convey Corporation Isomorphic pattern recognition
WO1998016897A1 (en) * 1996-10-16 1998-04-23 Convey Corporation Isomorphic pattern recoginition
US6275610B1 (en) 1996-10-16 2001-08-14 Convey Corporation File structure for scanned documents
US6687404B1 (en) 1997-06-20 2004-02-03 Xerox Corporation Automatic training of layout parameters in a 2D image model
US5875428A (en) * 1997-06-27 1999-02-23 Kurzweil Educational Systems, Inc. Reading system displaying scanned images with dual highlights
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
JP3795238B2 (ja) * 1998-10-01 2006-07-12 シャープ株式会社 文書画像処理装置及び文書画像処理方法
US7346841B2 (en) * 2000-12-19 2008-03-18 Xerox Corporation Method and apparatus for collaborative annotation of a document
US7056161B2 (en) * 2001-02-20 2006-06-06 Newfrey Llc Grounding stud
US7337396B2 (en) 2001-08-08 2008-02-26 Xerox Corporation Methods and systems for transitioning between thumbnails and documents based upon thumbnail appearance
US6993726B2 (en) * 2001-08-08 2006-01-31 Xerox Corporation Methods and systems for document navigation using enhanced thumbnails
US7069506B2 (en) * 2001-08-08 2006-06-27 Xerox Corporation Methods and systems for generating enhanced thumbnails
US6883138B2 (en) * 2001-08-08 2005-04-19 Xerox Corporation Methods and systems for generating enhanced thumbnails usable for document navigation
US7712028B2 (en) * 2001-10-19 2010-05-04 Xerox Corporation Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US20040034832A1 (en) * 2001-10-19 2004-02-19 Xerox Corporation Method and apparatus for foward annotating documents
US6996268B2 (en) * 2001-12-28 2006-02-07 International Business Machines Corporation System and method for gathering, indexing, and supplying publicly available data charts
US7283685B2 (en) * 2003-09-23 2007-10-16 Microtek International Inc. Device that appends a recognition point for image joining to the extracted image and a recognition element thereof
US8793249B2 (en) * 2008-09-24 2014-07-29 Yahoo! Inc. Optimization filters for user generated content searches
US8929686B2 (en) * 2009-04-21 2015-01-06 Xerox Corporation Method and system for deterministic document quality assurance
EP2383970B1 (en) 2010-04-30 2013-07-10 beyo GmbH Camera based method for text input and keyword detection
EP2637128B1 (en) 2012-03-06 2018-01-17 beyo GmbH Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3272696D1 (en) * 1982-05-24 1986-09-25 Ibm Deutschland Process for preparing dot screen data for character and/or picture representations
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
DE3588192T2 (de) * 1984-11-14 1999-01-21 Canon Kk Bildverarbeitungssystem
JPS62137974A (ja) * 1985-12-12 1987-06-20 Ricoh Co Ltd 画像処理方式
US4985930A (en) * 1987-09-24 1991-01-15 Hitachi, Ltd. Image data filing system and image data correcting method
US4908716A (en) * 1987-12-08 1990-03-13 Ricoh Company, Ltd. Image processing apparatus
US4998285A (en) * 1988-03-11 1991-03-05 Kabushiki Kaisha Toshiba Character recognition apparatus
US5018217A (en) * 1988-09-26 1991-05-21 Brother Kogyo Kabushiki Kaisha Data converting apparatus having means for changing ornamental stroke end data of character outline
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
JP2828645B2 (ja) * 1989-01-27 1998-11-25 株式会社リコー マーク領域判定装置
NL8900519A (nl) * 1989-03-02 1990-10-01 Oce Nederland Bv Documentopmaaksysteem.
US5138465A (en) * 1989-09-14 1992-08-11 Eastman Kodak Company Method and apparatus for highlighting nested information areas for selective editing
US5048096A (en) * 1989-12-01 1991-09-10 Eastman Kodak Company Bi-tonal image non-text matter removal with run length and connected component analysis
US5048109A (en) * 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
US5289169A (en) * 1991-01-31 1994-02-22 Frame Technology Corporation Composite underlining functions for text processors

Also Published As

Publication number Publication date
DE69226609T2 (de) 1999-02-04
US5384863A (en) 1995-01-24
CA2077565A1 (en) 1993-05-20
EP0543598A2 (en) 1993-05-26
EP0543598B1 (en) 1998-08-12
JP3232143B2 (ja) 2001-11-26
EP0543598A3 (en) 1993-12-29
DE69226609D1 (de) 1998-09-17
CA2077565C (en) 1999-08-17

Similar Documents

Publication Publication Date Title
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP3183577B2 (ja) 画像内容を復号することなく文書画像中の意味的に重要な画像を選択するための方法
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP2973944B2 (ja) 文書処理装置および文書処理方法
JP3452774B2 (ja) 文字認識方法
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
US11615635B2 (en) Heuristic method for analyzing content of an electronic document
US20030156754A1 (en) Method and system for extracting title from document image
US5455871A (en) Detecting function words without converting a scanned document to character codes
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JPH103483A (ja) 情報検索装置
Setlur et al. Creation of data resources and design of an evaluation test bed for Devanagari script recognition
JP2887823B2 (ja) 文書認識装置
JPH0589279A (ja) 文字認識装置
JPH04346189A (ja) 文字列種類識別装置
Setlur et al. Creation of Multi-Lingual data resources and evaluation tool for
JPH08249425A (ja) 文字属性情報を出力する文書読み取り方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010810

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 12