JPH05242142A - 文書画像の復号なしに文書を要約するための方法 - Google Patents

文書画像の復号なしに文書を要約するための方法

Info

Publication number
JPH05242142A
JPH05242142A JP4302726A JP30272692A JPH05242142A JP H05242142 A JPH05242142 A JP H05242142A JP 4302726 A JP4302726 A JP 4302726A JP 30272692 A JP30272692 A JP 30272692A JP H05242142 A JPH05242142 A JP H05242142A
Authority
JP
Japan
Prior art keywords
image
document
picture
units
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4302726A
Other languages
English (en)
Other versions
JP3292388B2 (ja
Inventor
M Margaret Withgott
エム・マーガレット・ウイズゴット
Steven C Bagley
スティーブン・シー・バグレイ
Dan S Bloomberg
ダン・エス・ブルームバーグ
Per-Kristian Halvorsen
パー−クリスチャン・ハルボルセン
Daniel P Huttenlocher
ダニエル・ピー・ヒュッテンロッヒャー
Todd A Cass
トッド・エイ・カス
M Kaplan Ronald
ロナルド・エム・カプラン
Ramana B Rao
ラマーナ・ビー・ラオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH05242142A publication Critical patent/JPH05242142A/ja
Application granted granted Critical
Publication of JP3292388B2 publication Critical patent/JP3292388B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 (修正有) 【目的】 文書画像を光学的文字符号に変換することな
く復号されていない文書画像を縮約しまた要約するため
の方法と装置を提供する。 【構成】 段階20で各ページについて文書画像は断片
化され、段階25でページの画像単位の位置およびこれ
らの空間的関連性が調べられる。段階40で、段階30
で弁別されなかった画像単位は所定の形態的画像特性の
評価に基いて、分類中の画像単位の復号を行わずまたは
復号した画像データの参照を行なわずに評価される。評
価には、形態的画像特性の弁別段階41と、他の画像単
位で求められた、又は選択された形態的画像特性に対し
て、それぞれの画像単位について特性の比較が段階42
でされる。段階50で、識別した重要な画像単位を処理
して、供給元文書画像の内容を反映する副次的又は補助
的文書画像を生成する。

Description

【発明の詳細な説明】
【0001】本発明は自動文書処理のための方法ならび
にその装置に関するもので、より特定すれば、文書画像
を第1に復号することなく文書画像中の意味的に重要な
単語、文字、画像または画像断片を識別して文書内容の
要約版を自動的に作成するための方法並びにその装置の
改良に関する。
【0002】コンピュータを使用した従前の文書処理の
目標は、文書を表わす電子的に符号化されたデータ中に
含まれる情報の識別、アクセス、および抽出が簡単かつ
高信頼度で可能となることと、電子的に格納された文書
または文書の本体に含まれる情報を要約し特徴付けるこ
とだった。例えば、文書または文書本体の情報内容の参
照ならびに評価を容易にして特定の利用者の要求に合わ
せた該文書の検索能力を決定するには、文書の意味的に
もっとも重要な部分をこれが含む情報として識別し得る
ことと、文書内容を利用者が識別し評価しやすい形態で
これらの部分を提示しうることが望ましい。しかし文書
内の意味のある部分の識別の問題は文書のコード表現
(すなわち、ASCIIコードに符号化した文章表現な
ど)ではなくこれの画像(ビットマップ画像データ)を
取り扱う場合特に困難である。ASCIIテキストファ
イルでは注目しているテキスト部分の所在を求めるため
にブール代数式キーワード検索などの操作を利用者が実
行しうるのに対し、原稿文書の操作によって生成され、
生成された文書画像の復号を行なっていない電子化文書
は、それぞれの文書画像の徹底的な観察なしには、また
は検索目的で当該文書の要約を手作業により作成しない
限り、評価は困難である。当然文書の観察または文書の
要約の作成には相当量の人間の努力が必要となる。
【0003】一方、現存する文書識別法、中でもテキス
トを取り扱うものは一般に画像を断片に分割して個別の
文字を分析し、これらを数値化または復号することで文
字ライブラリ内の文字に適合させている。こうした方法
の一般的クラスのひとつには光学的文字認識技術(OC
R)が含まれている。通常、OCR技術である単語を識
別することは、その単語の個々の文字のそれぞれが復号
され、またライブラリ内から対応する単語の画像が取り
込まれた後でのみ行われている。
【0004】さらに、光学的文字認識技術の復号操作は
一般に高度な計算能力を必要とし、一般に認識エラーで
普遍的ではない段階を有し、さらには画像処理時間が相
当大量に必要とされ、中でも単語の認識に関してしばし
ば時間がかかる。ひとつの文字のそれぞれのビットマッ
プは隣接する文字から識別されねばならず、その形状が
分析され、また所定の文字の組み合わせの中の明確な文
字として決定処理において識別される必要がある。さら
に、走査画像の生成中に持ち越された原稿文書の画像品
質ならびに雑音が、ある文字のビットマップの実際の形
状に関する不確実性に関与してくる。大半の文字識別処
理では、ひとつの文字が接続した画素の独立したひとつ
の組であると仮定している。走査画像の品質が元でこの
過程が崩れると、識別も失敗することになる。
【0005】ドイ(Doi )の欧州特許出願第0−361
−464号では、文書内容を正確に反映する意味の正確
な文書の要約を生成するための方法ならびにその装置を
開示している。この方法には文書内容を反映しうる重要
な文節の存在を示すような予め選択しておいた単語から
なるヒント単語を一覧すること、文書内のヒント単語を
全て検索すること、検索により一覧したヒント単語のい
ずれかひとつが発見された文書のセンテンスを抽出する
こと、および抽出したセンテンスを並置することにより
文書の要約を作成することが含まれる。ヒント単語の数
が長い引用を生成するところでは抽出したセンテンスの
形態的言語分析が実行されて不要な文節を抹消し、ヒン
ト単語を含む辞書にしたがって発言の肝心な部分である
としてヒント単語を使用する文節に注目する。
【0006】1958年10月のIBM ジャーナル誌の、
ルーン(Luhn)による「ビジネス・インテリジェンス・
システム(A Business Intelligence System)」では、
一部に、最も頻繁に出現する単語(重要単語)を決定す
ることによって文書の自動抄録を行ない、またこうした
単語を含む文章中のすべてのセンテンスを分析するシス
テムが開示されている。センテンスの重要性の相対値は
センテンス内に含まれる重要な単語の数とセンテンス内
でそれらの単語の相互間の類似性を反映する公式によっ
て構築される。重要性の値で最高位に評価される幾つか
のセンテンスがこのあと文章から抽出されて自動抄録を
構成することになる。
【0007】したがって、本発明の目的は文書画像の内
容を復号することなくまたはそれ以外でも理解すること
なく文書を自動的に引用し要約するための方法ならびに
その装置を提供することである。
【0008】本発明の別の目的は主文書画像全体の内容
を反映する副文書画像を自動的に生成するための方法な
らびにその装置を提供することである。
【0009】本発明の別の目的は部材の要約を自動的に
抽出し要約から原稿文書へ戻るリンクを提供するためと
称する形式の方法ならびにその装置を提供することであ
る。
【0010】本発明の別の目的は点字文書の要約または
文書の発言から合成した要約を生成するためと称する形
式の方法ならびにその装置を提供することである。
【0011】本発明の別の目的は画像の要旨の発見を通
して文書の閲覧を可能にするためまたは語意の要旨の使
用を通して文書の分類のために有用であると称される形
式の方法ならびにその装置を提供することである。
【0012】本発明のさらなる目的は広範囲で予め分析
した文書資料の統計的属性に依存しないと称される形式
の方法ならびにその装置を提供することである。
【0013】本発明は復号していない文書画像を復号し
ていない画像単位に断片化し、文書画像を復号すること
なくまたは復号した画像データを参照することなく画像
単位の所定の画像特性の評価に基づいて意味的に重要な
画像単位を識別し、識別した重要な画像単位を用いて原
稿の文書画像の主題内容を反映する省略した情報内容の
副文書画像を生成するための方法ならびにその装置を提
供する。本発明のひとつの態様では、副文書画像は閲覧
を容易になす原稿文書画像の縮約または要約である。本
発明の別の態様では、識別した重要な画像単位は復号さ
れた形態をなしてもよいキーワードのインデックスとし
て提示されて文書の分類を可能にしている。
【0014】したがって、本発明のひとつの態様では、
単語画像単位を含む文書画像から上方を要約するような
方法が提示される。本発明では、文書画像は単語の画像
単位(単語単位)に断片化され、単語単位はその単語単
位の形態的画像特性、例えば単語の形状などにしたがっ
て評価される。重要な単語単位はこの後でひとつまたは
それ以上の所定のまたは利用者の選択した重要度基準に
したがって識別され、識別された重要な単語単位が出力
される。
【0015】本発明の別の態様では、単語単位の文を含
む文書から情報を要約するための装置が提供される。本
装置は文書を入力し文書の電子的表現である文書画像を
生成するための入力手段と、メモリ手段内に含まれる所
定の様式のプログラム命令を実行することにより機能を
実現するための実行処理手段を含むデータ駆動型処理を
実行するためのデータ処理システムを含む。プログラム
命令は実行処理手段を作動させて単語単位の形態的属性
から所定の重要度基準にしたがって重要な単語単位を識
別させ、また識別した重要な単語単位の選択したものを
出力させる。選択した重要な単語単位の出力は電子写真
式複写装置、音声合成手段、点字印刷装置、ビットマッ
プディスプレイ、またはその他の適切な出力手段へのも
のでありうる。
【0016】本発明にかかる上述のおよびその他の目
的、特徴、利点は添付の図面と請求の範囲を参照しつつ
以下の詳細な説明に開示されまたこれを読み進むことに
よって当業者には明らかとなる。
【0017】本発明の好適実施例は添付の図面に図示さ
れる。
【0018】図1は本発明の方法の流れ図である。
【0019】図2は図1の方法を実行するための本発明
による装置のブロック図である。
【0020】上述したような従来技術とは対照的に、本
発明は、走査した画像ファイルと文字符号ファイルが画
像処理、特にデータ取り込みについて重要な差を呈する
ことの認識に基づいている。本発明の好適実施例の方法
は、例えば言語的術語の存在または頻度(例えば「重要
な」、「意味のある」、「重大な」またはその他の単
語)など、文章の作者によって特定の文または文章の領
域、字体、字種の情報、様式、などに注意を引かせるた
めに用いられている紙上の文書に含まれる文章の視覚的
属性や、項目の表題およびページの頭書の文書画像内の
構造的配置、およびグラフィックスの配置、および同様
のことを利用している。本発明の方法の好適実施例は図
1の流れ図に図示してあり、本法を実現するための装置
が図2に図示してある。明確にする目的で、本発明は単
一の文書の処理を参照して解説する。しかし、本発明は
複数の文書を含む文書全体の処理に応用可能であること
は理解されよう。より特定すれば、文書画像内に含まれ
る理解の単位に対応する画像単位のある種の形態的(構
造的)画像特性に基づいて文書のデータまたは文章から
意味的に重要な情報を自動的に要約するための方法およ
びその装置を提供する。要約した情報は、殊のほか文書
のインデックスまたは要約を自動的に作成するために使
用することが出来る。要約のための画像単位の選択は出
現頻度、または所定のまたは利用者の選択した選択基準
に基づくことができ、本発明の方法およびその装置が使
用される特定用途によって変化することがある。
【0021】本発明は文書の走査を用いるシステムに限
定されるものではない。むしろ、ビットマップ式のワー
クステーション(例えばビットマップ式ディスプレイを
装備しているワークステーション)またはビットマップ
と走査の双方を使用するシステムなど他のシステムでも
本論で詳述する方法ならびに装置の実現のために等しく
良好に動作し得るであろう。
【0022】第1に図2を参照すると、この方法は一枚
またはそれ以上のシートまたは紙片のページ10または
その他の物質的な形状に含まれる文書の行7、表題、図
面、図8、または類似のものを含むことができる原稿文
書5の電子的画像について実行される。処理すべき電子
的文書画像は何らかの在来の方法、例えば文書複写装置
内に組み込まれたものまたはファクシミリ装置、点字読
取り装置などの従来の走査手段によって、または電子ビ
ームスキャナまたは同様なものによって生成される。こ
のような走査手段は従来技術において周知であり、よっ
て本論では詳細の説明は行なわない。走査から発生する
出力はデジタル化されて文書の各ページについて文書画
像を表現するビットマップ化された画像データを生成
し、このデータは例えば専用または汎用のデジタル式コ
ンピュータのデータ処理システム13のメモリ15に保
存される。データ処理システム13はメモリ15などの
メモリ内に含まれる所定の順序の処理手段を順次実行す
ることにより機能を実行するための順次実行される処理
手段16を含むデータ駆動型処理システムのことがあ
る。データ処理システム13からの出力は出力装置1
7、例えば、メモリまたはその他の様式の記憶装置、ま
たは図示したようなたとえばCRTディスプレイのこと
がある出力ディスプレイ装置17A、文書複写装置また
は点字印刷装置または標準的な形態の印刷装置に組み込
まれうる図示したような印刷装置17B、ファクシミリ
装置、音声合成装置または同様な装置へ供給される。
【0023】図2に図示したような装置の使用により、
識別された単語単位は第1に走査した文書画像を文字符
号に変換することなく画像単位内に継承されている重要
な形態的画像特性に基づいて検出される。
【0024】このような画像単位識別を実行しうる方法
は図1を参照して解説される。本発明の画像処理技術の
第1の様相は低レベルでの文書画像分析に関与し、ここ
で各ページについての文書画像は、従来の画像分析技術
を用いて画像単位を含む非復号情報に断片化され(段階
20)、または、文章文書の場合には、例えばヒュッテ
ンロッヒャー(Huttennlocher )とホップクロフト(Ho
pcroft)により本出願と共に現在申請されている、「文
章中の単語の境界を決定するための方法ならびにその装
置(Method and Apparatus for Determining Boundarie
s of Words inText)」と題する同時出願中の米国特許
出願第07/794,392号に開示された境界ボック
ス法を使用することが望ましい。次にあるページの画像
単位の位置およびこれらの空間的関連性が調べられる
(段階25)。例えば、英語の文書画像は単語内の文字
間の間隔と単語間の間隔の相対的な差に基づいて単語の
画像単位に断片化することができる。文節および文の境
界も同様に確定することができる。さらなる領域断片化
画像の分析を実行して、ページの画像を図、表、脚注、
その他の補助的な文書画像に対応するラベル付けした領
域に分割するような物理的文書構造の記述子を生成する
ことができる。図面領域は例えば領域内の行に配置され
た画像単位の相対的な欠如に基づいて文章領域と区別す
ることができる。この断片化を用いることで、どのよう
に文書が処理されるかの知識が構成される(すなわち、
左から右へ、上部から底部へなど)のと、任意で他の入
力情報、例えば文書の様式、単語画像について「読み取
り指定」順序なども生成することができる。であるか
ら、術語「画像単位」は本論において数字、文字、表意
文字、シンボル、単語、文またはその他の確実に抽出し
うる単位を表現するために使用している。便利なこと
に、文書の参照および評価の目的で、文書画像はサイ
ン、シンボル、またはほかの要素の組みに断片化され、
これらが集まって理解の一単位を形成している。これら
の理解単位は単位を構成する要素を分割する間隔より大
きな間隔によって、または何らかの所定のグラフィック
強調、たとえば、ひとつまたはそれ以上の画像単位を走
査した文書画像中のほかの画像単位から区分する箱で囲
った画像またはその他のグラフィカルなセパレータによ
って分割されるという画像内での特徴を一般に有してい
る。単一の理解単位を表わすこれらの画像単位は今後
「単語単位」と称することにする。
【0025】都合よく、弁別段階30が次に実行され、
処理中の文書の主題内容の評価において有用であるため
には不十分な情報内容を有している画像単位を識別す
る。ひとつの好適な方法はブルームバーグ(Bloomberg)
らにより現在申請中の「走査した文書を文字符号に変換
しない機能語の検出(Detecting Function Words Witho
ut Converting A Scanned Document to Character Code
s )」と題した出願中の米国特許出願第07/794,
190号に開示された形態的機能語または停止語検出技
術を使用することである。
【0026】次に、段階40で、段階30において弁別
されなかった画像単位は画像単位の所定の形態的(構造
的)画像特性の評価に基づいて、分類中の画像単位の復
号を行わずまたは復号した画像データの参照を行なわず
に評価される。評価には、形態的画像特性の弁別(段階
41)と、他の画像単位で求められた形態的画像特性に
対してまたは所定の形態的画像特性または利用者によっ
て選択された形態的画像特性に対して、 それぞれの画
像単位について求められた形態的画像特性の比較(段階
42)が必須である。
【0027】評価すべき画像単位の形態的画像特性を定
義するための好適な方法は、ヒュッテンロッヒャー(Hu
ttenlocher)とホップクロフト(Hopcroft)が現在申請
中で「連続比較のために単語の形状を導出するための方
法(A Method for DerivingWordshapes for Subsequent
Comparison)」と題する出願中の米国特許出願第07
/794,391号に開示された単語の形状を導出する
技術を使用することである。上記出願に詳述されている
ように、単語単位の形状を特徴付ける少なくともひとつ
の一次元信号が導出され、またはその単語単位を包囲す
る境界を決定する画像関数が誘導され、画像関数は境界
内で検出された文字列の端部を表わす端部関数がその単
語単位を構成する文字または文字列を個別に検出および
/または識別することなく近接した境界内の単一の独立
変数によってその全領域にわたり定義されるように増加
される。
【0028】それぞれの選択した画像単位から求まった
形態的画像特性または導出した画像単位の形状表現は、
上述のように(段階42)、選択したその他の画像単位
から求まった画像単位の形態的画像特性または導出した
画像単位の形状表現と(段階42A)、または所定の/
利用者の選択した形態的画像特性のいずれかと比較され
て画像単位の特定の形式を位置付ける(段階42B)。
選択された画像単位で求められた形態的画像特性は、画
像単位の等価なクラスを識別する目的でそれぞれの等価
なクラスが文書内の所定の画像単位の出現率の大半また
は全てを包含するように、また、カス(Cass) らにより
現在申請中の「文書画像の復号による文書内の単語の出
現頻度を求めるための方法ならびにその装置(Method a
nd Apparatus for Determining the Frequency of Word
s in a Document with DocumentImage Decoding)」と
題する現在出願中の米国特許出願第07/795,17
3号により詳細に記載されているように、画像単位が文
書中に出現する相対頻度を求められるように有利に比較
される。画像単位はこの後これらの出現頻度ならびに画
像単位のその他の特性例えばその長さにしたがって重要
性が分類または識別されうる。例えば、英語で書かれた
商業通信文についての選択基準の有用な組合わせは、単
語単位のもっとも頻繁に出現する中央出現率を有する単
語単位を選択することである。
【0029】選択処理は識別された重要な画像単位およ
び読取り順序の順列に相互にリンクされた隣接する画像
単位を含む文節に拡張しうることは理解されよう。こう
した文節の出現頻度もまた、要約のために選択されてい
る供給元文書の部分が所定の出現頻度閾値たとえば5回
の出現を超過する文節に対応するように決定することが
出来る。画像分析により文節の出現頻度を調べるための
好適な方法は、ウィズゴット(Withgott) らにより現在
申請中で「文書画像の復号なしに文書中の文の出現頻度
を調べるための方法ならびにその装置(Method and App
aratus for Determining the Frequency of Phrases in
a Document Without Document Image Decoding)」と題
する米国特許出願第07/794,555号に開示され
ている。
【0030】文書画像の表題、見出し、脚注、言語学的
基準またはその他の重要性を示す特徴の仕様が、所定の
また利用者により選択されて「重要な」画像単位を定義
する選択基準を決定し得るものであることは理解されよ
う。たとえば、表題は太字またはイタリック体で名前ま
たは段落上で離れているかまたは主文章より大きな字体
でかかれている。表題に関連する慣例は主題または頭書
などの情報についてページ上での特別な位置の使用であ
る。選択基準に付随した画像特性と照合するために文書
画像の選択した画像単位の画像特性を比較すること、ま
たはこれ以外で特定された画像特性を有するこれらの画
像単位を識別することで、重要な画像単位が何らかの文
書の復号なしで容易に識別できるようになる。
【0031】多数の異なる比較方法のどれでも使用する
ことができる。例えば使用可能なひとつの技術は、決定
ネットワークを使用して抽出した画像単位のラスタ画像
を相関することによるもので、こうした技術は本明細書
で参考文献に含めているケーシー(Casey)らの「パター
ン分類のための決定ネットワークの監督されない構造
(Unsupervised Construction of Decision Networks f
or Pattern Classification )」、IBM研究報告、1
984年、と題する研究報告に特徴が詳述されている。
【0032】単語単位の等価なクラスを識別するために
使用しうる好適な技術は、それぞれヒュッテンロッヒャ
ー(Huttenlocher)およびホップクロフト(Hopcroft)
と、ヒューテンロッヒャー、ホップクロフト、ウェイナ
ー(Huttenlocher, Hopcroft, and Wayer )により現在
申請中の、それぞれ「単語の形状の検証による光学的単
語識別(Optical Word Recognition By Examination of
Word Shape )」および「単語の形状を比較するための
方法(Method for Comparing Word Shapes)」と題する
出願中の米国特許出願第07/796,119号および
第17/795,169号に開示された単語形状比較技
術である。
【0033】特定の用途および処理速度に対する正確度
により異なるが、例えば異なる精密度の評価の相対的重
要性が実行可能である。例えば、有用な評価は、画像単
位の長さ、幅(高さ)または何らかのその他の測定寸法
(または導出した画像単位の形状表現、例えば文書画像
で最大の図面)や、文書中の画像単位の位置または領域
(文書画像の選択された図面または文章を含む、例えば
表題、冒頭の図面、ひとつまたはそれ以上の文章または
図面など)、字体、字種、断面(断面はひとつの画像単
位中の同様な状態の画素の続きである)や、アセンダの
数や、デセンダの数や、平均画素密度や、凸部および凹
部を含む上部線の輪郭の長さや、凸部および凹部を含む
基線輪郭の長さや、隣接する画像単位に対する画像単位
の位置や、垂直方向の位置や、水平方向の画像単位間の
間隔や、上述の分類要素の組み合わせを基準にとること
ができる。よって、たとえば文書内の表題から文書の要
約を生成するように選択基準が選択された場合、文書内
の表題情報のみが上述の画像分析処理によって取り込ま
れればよい。一方、文書内容のさらに詳細な評価が所望
された場合、さらに詳細な識別技術を使用する必要が出
てくる。
【0034】さらに、形態的画像認識技術たとえばヒュ
ッテンロッヒャー(Huttennlocher)らにより現在申請中
で「文書画像の復号なしに選択された意味的に重要な画
像断片の自動的変更のための方法ならびにその装置(Me
thod and Apparatus for Automatic Modification of S
elected Semantically Significant Image SegmentsWit
hin a Document Without Document Image Decoding)」
と題する米国特許出願第07/795,174号におい
て詳述されているような技術を用いて、文書画像内の特
殊な字体および字種を識別することが可能である。
【0035】本発明の技術により提供される顕著な特徴
は、画像単位の内容が復号されるまたは文書画像の情報
内容がこれ以外で解読される付帯要件なしに重要な画像
単位の当初の処理ならびに識別が完了することである。
より特定すれば、処理のこの段階で、単語単位の実際の
内容は特に決定されている必要がない。よって、たとえ
ば、複写装置または電子印刷装置などひとつの文書から
別の文書へとASCIIまたはその他の符号化/復号化
の要件を考慮することなく、直接画像を印刷または複製
しうるような用途において、画像単位はその画像単位の
ひとつまたはそれ以上の形態的画像特性または属性を使
用して識別されまた処理されることができる。よって未
知の内容の画像単位は光学的にまたは電子的にさらなる
処理がなされることができる。処理のこの段階で画像単
位の内容を復号する必要のないこのような画像単位処理
を実行する能力から得られる利点のひとつは、画像を取
り扱い操作する全体的速度が大幅に向上しうることであ
る。
【0036】本発明の文書分析の第2の様相は識別した
重要な画像単位を処理して(段階50)、供給元文書画
像の内容を反映する副次的または補助的文書画像を生成
することである。識別された重要な画像単位が提示され
る様式は所望するように変化しうることが理解されよ
う。よって、識別された重要な画像単位は読み取りの順
番で提示されてひとつまたはそれ以上の文節を形成する
か、または相対的出現頻度の順番の一覧に提示されるこ
とができる。同様に、副文書画像は識別された重要な画
像単位だけに制限されるべきものではない。所望される
場合、識別した重要な画像単位は、上述の段階20およ
び25の文書断片化および構造決定の段階の間に求まっ
た文書位置情報から決定されるように、読み取り順序の
順列で提示された隣接する画像単位を含む文節の形態で
提示し得るものである。これ以外では、上述のような文
節出現頻度分析は提示された文節を最も頻繁に出現する
文節だけに限定するように実施することができる。
【0037】本発明は同様に副文書画像の形態に対して
制限されるものではない。本発明の情報取り込み技術が
特に適合している用途のひとつは、盲人用読み取り装置
における使用である。ひとつの実施例では、文書中の注
目している適切な位置を指定するために、たとえばキー
ワード一覧上のキーワードの使用者による指定を支持し
ている。利用者の指定したキーワードを使用して単語の
出現を注目している文書中に発見することが可能であ
り、またキーワードの前方および下方の文章領域を上述
の技術を使用して取込また処理することができる。また
は、上述のように、重要なキーワードを予め記述してあ
る選択基準、たとえば出現頻度またはその他の同様な基
準にしたがい、上述の形態的画像認識技術を使用して、
自動的に選択することができ、また文書を決定した単語
を用いて自動的に要約することができる。
【0038】別の好適実施例は別の所定の選択基準、た
とえば、表題など高度な情報的価値を有することが考え
られる文書断片、、イタリック体および太字など特別な
自体を含む領域、または言語学的強調を受ける文節など
にしたがって文書の重要な断片の自動特定を支持してい
る。文書の重要な単語または断片の位置特定は上述の形
態的画像認識技術を用いて実行することができる。よっ
て重要な単語または単語単位として識別された単語は、
たとえば、点字またはその他の盲人の利用者が理解可能
な形態で盲人の利用者と通信するため光学的文字認識技
術を使用して復号することができる。たとえば、上述の
技術により識別されたかまたは選択された単語はプラス
チック基材のインクを使用する印刷装置など適切な点字
様式の印刷装置を使用して点字様式に印刷するか、また
は音声合成装置出力装置を使用して利用者に音声として
通信するかのいずれかが可能である。
【0039】縮約された文書が一旦通信されれば、利用
者は原稿文書に戻って文章内容全体を印刷または聴取す
ることを希望することがありうる。これは多数の方法で
実現し得るものである。ひとつの方法は付随する音声合
成装置または点字印刷装置によって原稿の情報、たとえ
ば「2ページの上部は記事でその表題は...」などを
提供することである。利用者はしかるのち注目する点に
戻ることになる。
【0040】縮約文書が通信されている間に利用者との
対話の可能性を提供することで装置の二つのクラスがこ
の能力を拡大する。ひとつの形式の装置は単純なインデ
ックスマーク付け装置である。これは、たとえば、利用
者は興味ある表題を聴取した場合いつでも押せるような
ボタンのついた手持装置のことがあり、またはたとえ
ば、命令のもっと大きな変化を登録するためのマウス1
9(図2)内のN方向動作検出装置となすことができ
る。読み取り装置はこうした注目のマークを記録し、完
全な要約が通信された後原稿文書に復帰する。
【0041】別の形式の装置は接触検出型画面の技術を
使用する。こうした装置は利用者に水平のディスプレイ
装置上の点字要約シート41を敷くように要求すること
で動作する。利用者は完全な印刷出力または合成読み上
げのいずれかを起動する目的で画面42上の注目する領
域に触れる。利用者は新しいページをいつ処理すべきか
モニターに指示する。
【0042】盲人用読み上げ装置に応用するなどの本発
明の方法は、評価のために利用者に提示される部材の量
を減少し、またこれによって盲人用の現行の読み上げ技
術の使用において継承されている多くの問題およびその
他の、たとえば合成音声を使用する文書資料の効果的な
閲覧に付随する問題や点字用紙の翻訳を生成する量と費
用によってもたらされる問題、およびこうしたコピーを
読むために利用者が必要な時間と努力を回避する能力を
有することが理解されよう。
【0043】本発明は(画像の要点)閲覧のための省略
した文書画像を生成する上で有用である。文書の縮小表
現は文書内の重要な術語のビットマップ画像を用いて生
成される。これによって、利用者は走査した文書のライ
ブラリを電子的にまたは紙などの媒体上に要約カードが
印刷された場合は用手的に迅速な閲覧が可能となる。本
発明は(言語的要点の)文書分類にも有用である。この
場合、鍵となる術語は文書に自動的に付随しうる。利用
者は鍵となる術語を通して閲覧でき、またはたとえば光
学的文字認識を使用する復号によるなどで術語がさらに
処理されることもある。
【0044】本発明はある程度の精密さで詳述し図示し
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
本発明の後述の請求の範囲を逸脱することなく当業者に
よってもたらされうることは理解されよう。
【図面の簡単な説明】
【図1】 本発明の方法の流れ図である。
【図2】 図1の方法を実行するための本発明による装
置のブロック図である。
【符号の説明】
10 ページ、12 複写装置、13 データ処理シス
テム、15 メモリ、16 実行処理手段、17 出力
装置、17A 出力ディスプレイ装置、17B印刷装
置、19 マウス
───────────────────────────────────────────────────── フロントページの続き (72)発明者 スティーブン・シー・バグレイ アメリカ合衆国 カリフォルニア州 94301 パロアルト フルトンストリート 1212 (72)発明者 ダン・エス・ブルームバーグ アメリカ合衆国 カリフォルニア州 94306 パロアルト パラダイスレーン 1013 (72)発明者 パー−クリスチャン・ハルボルセン アメリカ合衆国 カリフォルニア州 94022 ロスアルトス キャリッジコート 11 (72)発明者 ダニエル・ピー・ヒュッテンロッヒャー アメリカ合衆国 ニューヨーク州 14850 イサカ コムストックロード 314 (72)発明者 トッド・エイ・カス アメリカ合衆国 マサチューセッツ州 02138ケンブリッジ ハモンドストリート 107 (72)発明者 ロナルド・エム・カプラン アメリカ合衆国 カリフォルニア州 94306 パロアルト オームストリート 4015 (72)発明者 ラマーナ・ビー・ラオ アメリカ合衆国 カリフォルニア州 94112 サンフランシスコ イナコート 50

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 電子的文書画像を電子的に処理するため
    の方法であって、 上記文書画像を復号することなく上記文書画像を画像単
    位に断片化することと、 選択した形態的画像特性にしたがって上記画像単位の重
    要なものを識別することと、 上記識別した重要な画像単位に基づいて省略した文書画
    像を生成することを含む方法。
  2. 【請求項2】 上記重要な画像単位を識別する段階は出
    現頻度にしたがって上記画像単位を分類することを含む
    請求項1に記載の方法。
  3. 【請求項3】 上記重要な画像単位を識別する段階は文
    書画像内の位置にしたがって上記画像単位を分類するこ
    とを含む請求項1に記載の方法。
  4. 【請求項4】 上記選択した形態的画像特性は所定の言
    語的基準を有する画像単位を定義する画像特性を含む請
    求項1に記載の方法。
  5. 【請求項5】 上記選択した形態的画像特性は、少なく
    ともひとつの画像単位の形状寸法と、字体と、字種と、
    アセンダ要素の数と、デセンダ要素の数と、画素密度
    と、画素の断面特性と、隣接する画像単位に対する画像
    単位の位置と、縦方向の位置と、水平方向の画像単位間
    の間隔と、上記画像単位の輪郭特性を含む請求項1に記
    載の方法。
JP30272692A 1991-11-19 1992-11-12 文書画像の復号なしに文書を要約するための方法と装置 Expired - Lifetime JP3292388B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79454391A 1991-11-19 1991-11-19
US794543 1991-11-19

Publications (2)

Publication Number Publication Date
JPH05242142A true JPH05242142A (ja) 1993-09-21
JP3292388B2 JP3292388B2 (ja) 2002-06-17

Family

ID=25162943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30272692A Expired - Lifetime JP3292388B2 (ja) 1991-11-19 1992-11-12 文書画像の復号なしに文書を要約するための方法と装置

Country Status (5)

Country Link
US (1) US5491760A (ja)
EP (1) EP0544432B1 (ja)
JP (1) JP3292388B2 (ja)
CA (1) CA2077274C (ja)
DE (1) DE69229537T2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016184367A (ja) * 2015-03-27 2016-10-20 日本電気株式会社 画像処理装置、画像処理方法、プログラム

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5590317A (en) * 1992-05-27 1996-12-31 Hitachi, Ltd. Document information compression and retrieval system and document information registration and retrieval method
US5701500A (en) * 1992-06-02 1997-12-23 Fuji Xerox Co., Ltd. Document processor
DE69333811T2 (de) * 1992-06-19 2006-05-11 United Parcel Service Of America, Inc. Verfahren und Gerät zur Erzeugung und Einstellung eines Neurones
US5850490A (en) * 1993-12-22 1998-12-15 Xerox Corporation Analyzing an image of a document using alternative positionings of a class of segments
DE69519323T2 (de) * 1994-04-15 2001-04-12 Canon Kk System zur Seitensegmentierung und Zeichenerkennung
EP0702322B1 (en) * 1994-09-12 2002-02-13 Adobe Systems Inc. Method and apparatus for identifying words described in a portable electronic document
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
IL113204A (en) * 1995-03-30 1999-03-12 Advanced Recognition Tech Pattern recognition system
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US6078915A (en) * 1995-11-22 2000-06-20 Fujitsu Limited Information processing system
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US7051024B2 (en) * 1999-04-08 2006-05-23 Microsoft Corporation Document summarizer for word processors
JP3530308B2 (ja) 1996-05-27 2004-05-24 富士通株式会社 放送番組送信装置とそれに接続される端末装置
JPH09322089A (ja) 1996-05-27 1997-12-12 Fujitsu Ltd 放送番組送信装置と情報送信装置と文書作成機能を持つ装置と端末装置
JP3875310B2 (ja) * 1996-05-27 2007-01-31 富士通株式会社 放送番組情報送信装置
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
GB9808712D0 (en) 1997-11-05 1998-06-24 British Aerospace Automatic target recognition apparatus and process
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6533822B2 (en) * 1998-01-30 2003-03-18 Xerox Corporation Creating summaries along with indicators, and automatically positioned tabs
JPH11306197A (ja) * 1998-04-24 1999-11-05 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
US6317708B1 (en) 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
US6337924B1 (en) * 1999-02-26 2002-01-08 Hewlett-Packard Company System and method for accurately recognizing text font in a document processing system
US7475334B1 (en) 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
ES2208164T3 (es) * 2000-02-23 2004-06-16 Ser Solutions, Inc Metodo y aparato para procesar documentos electronicos.
US6581057B1 (en) 2000-05-09 2003-06-17 Justsystem Corporation Method and apparatus for rapidly producing document summaries and document browsing aids
US6941513B2 (en) 2000-06-15 2005-09-06 Cognisphere, Inc. System and method for text structuring and text generation
US7302637B1 (en) * 2000-07-24 2007-11-27 Research In Motion Limited System and method for abbreviating information sent to a viewing device
US7386790B2 (en) * 2000-09-12 2008-06-10 Canon Kabushiki Kaisha Image processing apparatus, server apparatus, image processing method and memory medium
US7221810B2 (en) * 2000-11-13 2007-05-22 Anoto Group Ab Method and device for recording of information
US7574045B2 (en) * 2001-07-27 2009-08-11 Matrox Electronic Systems Ltd. Model-based recognition of objects using a calibrated image system
US6708894B2 (en) 2001-06-26 2004-03-23 Xerox Corporation Method for invisible embedded data using yellow glyphs
US7712028B2 (en) * 2001-10-19 2010-05-04 Xerox Corporation Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US20040034832A1 (en) * 2001-10-19 2004-02-19 Xerox Corporation Method and apparatus for foward annotating documents
JP2003196270A (ja) * 2001-12-27 2003-07-11 Sharp Corp 文書情報処理方法、文書情報処理装置、通信システム、コンピュータプログラム、及び記録媒体
US7139004B2 (en) * 2002-01-25 2006-11-21 Xerox Corporation Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
US7136082B2 (en) * 2002-01-25 2006-11-14 Xerox Corporation Method and apparatus to convert digital ink images for use in a structured text/graphics editor
US7590932B2 (en) 2002-03-16 2009-09-15 Siemens Medical Solutions Usa, Inc. Electronic healthcare management form creation
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
WO2005043415A1 (en) * 2003-10-29 2005-05-12 Trainum Michael W System and method for managing documents
WO2007024216A1 (en) * 2005-08-23 2007-03-01 The Mazer Corporation Test scoring system and method
US7454063B1 (en) * 2005-09-22 2008-11-18 The United States Of America As Represented By The Director National Security Agency Method of optical character recognition using feature recognition and baseline estimation
JP2007304864A (ja) * 2006-05-11 2007-11-22 Fuji Xerox Co Ltd 文字認識処理システムおよび文字認識処理プログラム
US7706613B2 (en) * 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US7711192B1 (en) * 2007-08-23 2010-05-04 Kaspersky Lab, Zao System and method for identifying text-based SPAM in images using grey-scale transformation
JP5132416B2 (ja) * 2008-05-08 2013-01-30 キヤノン株式会社 画像処理装置およびその制御方法
US8144947B2 (en) * 2008-06-27 2012-03-27 Palo Alto Research Center Incorporated System and method for finding a picture image in an image collection using localized two-dimensional visual fingerprints
US8233722B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated Method and system for finding a document image in a document collection using localized two-dimensional visual fingerprints
US8233716B2 (en) * 2008-06-27 2012-07-31 Palo Alto Research Center Incorporated System and method for finding stable keypoints in a picture image using localized scale space properties
WO2011001439A2 (en) * 2009-07-02 2011-01-06 Hewlett-Packard Development Company, L.P. Skew detection
US8548193B2 (en) * 2009-09-03 2013-10-01 Palo Alto Research Center Incorporated Method and apparatus for navigating an electronic magnifier over a target document
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
US8086039B2 (en) * 2010-02-05 2011-12-27 Palo Alto Research Center Incorporated Fine-grained visual document fingerprinting for accurate document comparison and retrieval
US9514103B2 (en) * 2010-02-05 2016-12-06 Palo Alto Research Center Incorporated Effective system and method for visual document comparison using localized two-dimensional visual fingerprints
EP2383970B1 (en) 2010-04-30 2013-07-10 beyo GmbH Camera based method for text input and keyword detection
US8787673B2 (en) * 2010-07-12 2014-07-22 Google Inc. System and method of determining building numbers
US8554021B2 (en) 2010-10-19 2013-10-08 Palo Alto Research Center Incorporated Finding similar content in a mixed collection of presentation and rich document content using two-dimensional visual fingerprints
US8750624B2 (en) 2010-10-19 2014-06-10 Doron Kletter Detection of duplicate document content using two-dimensional visual fingerprinting
US9058352B2 (en) 2011-09-22 2015-06-16 Cerner Innovation, Inc. System for dynamically and quickly generating a report and request for quotation
JP5884560B2 (ja) * 2012-03-05 2016-03-15 オムロン株式会社 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
EP2637128B1 (en) 2012-03-06 2018-01-17 beyo GmbH Multimodal text input by a keyboard/camera text input module replacing a conventional keyboard text input module on a mobile device
US11176364B2 (en) * 2019-03-19 2021-11-16 Hyland Software, Inc. Computing system for extraction of textual elements from a document
US11308492B2 (en) * 2019-07-03 2022-04-19 Sap Se Anomaly and fraud detection with fake event detection using pixel intensity testing

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS59135576A (ja) * 1983-01-21 1984-08-03 Nippon Telegr & Teleph Corp <Ntt> ドキユメント情報登録検索装置
JPS60114967A (ja) * 1983-11-28 1985-06-21 Hitachi Ltd 画像フアイル装置
JPS63191271A (ja) * 1986-09-26 1988-08-08 Hitachi Ltd 画像情報記憶検索方法
JPS63223964A (ja) * 1987-03-13 1988-09-19 Canon Inc 検索装置
JPH01150973A (ja) * 1987-12-08 1989-06-13 Fuji Photo Film Co Ltd 画像情報の記録・検索方法および装置
JPH0371380A (ja) * 1989-08-11 1991-03-27 Seiko Epson Corp 文字認識装置
JPH03218569A (ja) * 1989-11-28 1991-09-26 Oki Electric Ind Co Ltd インデックス抽出装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3659354A (en) * 1970-10-21 1972-05-02 Mitre Corp Braille display device
FR2453451B1 (fr) * 1979-04-04 1985-11-08 Lopez Krahe Jaime Machine a lire pour aveugles
US4685135A (en) * 1981-03-05 1987-08-04 Texas Instruments Incorporated Text-to-speech synthesis system
JPS5998283A (ja) * 1982-11-27 1984-06-06 Hitachi Ltd パターン切出しおよび認識方法、ならびにそのシステム
US4972349A (en) * 1986-12-04 1990-11-20 Kleinberger Paul J Information retrieval system and method
US4752772A (en) * 1987-03-30 1988-06-21 Digital Equipment Corporation Key-embedded Braille display system
US4994987A (en) * 1987-11-20 1991-02-19 Minnesota Mining And Manufacturing Company Image access system providing easier access to images
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5048109A (en) * 1989-12-08 1991-09-10 Xerox Corporation Detection of highlighted regions
US5131049A (en) * 1989-12-08 1992-07-14 Xerox Corporation Identification, characterization, and segmentation of halftone or stippled regions of binary images by growing a seed to a clipping mask
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
US5202933A (en) * 1989-12-08 1993-04-13 Xerox Corporation Segmentation of text and graphics
US5216725A (en) * 1990-10-31 1993-06-01 Environmental Research Institute Of Michigan Apparatus and method for separating handwritten characters by line and word
CA2077604C (en) * 1991-11-19 1999-07-06 Todd A. Cass Method and apparatus for determining the frequency of words in a document without document image decoding
US5384863A (en) * 1991-11-19 1995-01-24 Xerox Corporation Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57199066A (en) * 1981-06-02 1982-12-06 Toshiyuki Sakai File forming system for cutting of newspaper and magazine
JPS59135576A (ja) * 1983-01-21 1984-08-03 Nippon Telegr & Teleph Corp <Ntt> ドキユメント情報登録検索装置
JPS60114967A (ja) * 1983-11-28 1985-06-21 Hitachi Ltd 画像フアイル装置
JPS63191271A (ja) * 1986-09-26 1988-08-08 Hitachi Ltd 画像情報記憶検索方法
JPS63223964A (ja) * 1987-03-13 1988-09-19 Canon Inc 検索装置
JPH01150973A (ja) * 1987-12-08 1989-06-13 Fuji Photo Film Co Ltd 画像情報の記録・検索方法および装置
JPH0371380A (ja) * 1989-08-11 1991-03-27 Seiko Epson Corp 文字認識装置
JPH03218569A (ja) * 1989-11-28 1991-09-26 Oki Electric Ind Co Ltd インデックス抽出装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016184367A (ja) * 2015-03-27 2016-10-20 日本電気株式会社 画像処理装置、画像処理方法、プログラム

Also Published As

Publication number Publication date
DE69229537D1 (de) 1999-08-12
DE69229537T2 (de) 1999-11-25
JP3292388B2 (ja) 2002-06-17
EP0544432A2 (en) 1993-06-02
CA2077274A1 (en) 1993-05-20
US5491760A (en) 1996-02-13
EP0544432B1 (en) 1999-07-07
CA2077274C (en) 1997-07-15
EP0544432A3 (en) 1993-12-22

Similar Documents

Publication Publication Date Title
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP3183577B2 (ja) 画像内容を復号することなく文書画像中の意味的に重要な画像を選択するための方法
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
Mao et al. Document structure analysis algorithms: a literature survey
JP3664550B2 (ja) 文書検索方法及び装置
EP2166488A2 (en) Handwritten word spotter using synthesized typed queries
JPH08166970A (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する方法
JP2007122403A (ja) 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
Chen et al. Summarization of imaged documents without OCR
WO2007070010A1 (en) Improvements in electronic document analysis
Setlur et al. Creation of data resources and design of an evaluation test bed for Devanagari script recognition
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
JPH0887528A (ja) 文書ファイリングシステム
Setlur et al. Creation of Multi-Lingual data resources and evaluation tool for
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
JPH08249425A (ja) 文字属性情報を出力する文書読み取り方法
JPH11120201A (ja) 検索可能な画像データの作成方法及び装置、画像データの検索方法及び装置、検索可能な画像データの作成プログラム及び画像データの検索プログラムを記録した記憶媒体、及び検索可能な画像データを記録した記憶媒体

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020215

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080329

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090329

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100329

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110329

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110329

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120329

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130329

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130329

Year of fee payment: 11