JP3282860B2 - 文書上のテキストのデジタル画像を処理する装置 - Google Patents

文書上のテキストのデジタル画像を処理する装置

Info

Publication number
JP3282860B2
JP3282860B2 JP30272192A JP30272192A JP3282860B2 JP 3282860 B2 JP3282860 B2 JP 3282860B2 JP 30272192 A JP30272192 A JP 30272192A JP 30272192 A JP30272192 A JP 30272192A JP 3282860 B2 JP3282860 B2 JP 3282860B2
Authority
JP
Japan
Prior art keywords
image
word
document
units
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP30272192A
Other languages
English (en)
Other versions
JPH05282423A (ja
Inventor
トッド・エイ・カス
パー−クリスチャン・ハルボルセン
ダニエル・ピー・ヒュッテンロッヒャー
ロナルド・エム・カプラン
エム・マーガレット・ウイズゴット
ラマーナ・ビー・ラオ
Original Assignee
ゼロックス・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ゼロックス・コーポレーション filed Critical ゼロックス・コーポレーション
Publication of JPH05282423A publication Critical patent/JPH05282423A/ja
Application granted granted Critical
Publication of JP3282860B2 publication Critical patent/JP3282860B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)
  • Image Input (AREA)
  • Processing Or Creating Images (AREA)

Description

【発明の詳細な説明】
【0001】本発明は文書画像処理のための装、よ
り特定すれば、単語または画像を第1に復号する(first
decoding)ことなくまたは外部の参考辞書を参照する
ことなく、文書中の単語または画像の出現頻度を認識
、決定する文書上のテキストのデジタル画像を処理す
る装置に関する。
【0002】コンピュータを使用した従前の文書処理に
おいて、処理する文書の属性でオペレータがしばしば知
ることを所望しているのは単語の一部または全部の出現
する頻度である。例えば、ソルトンとマクギル(Salton
and McGill)の「現代情報収集入門 (Introduction to
Modern Information Retrieval) 」(マグロウヒル出版
(McGraw-Hill) 、1983年)、第2章、30ページ、
36ページでは情報収集の内容には所定の術語の使用頻
度が文書の情報内容に相対するその術語の重要性と相関
しうることが示されている。単語の頻度情報はそのため
文書の自動要約および/または注釈に有用でありうる。
単語の頻度情報はまた位置の特定、目次作成、ファイル
作成、並べ変え、または文書取り込みに有用でもある。
【0003】単語の出現頻度の知識の別の用途は文章の
編集である。例えば、ひとつの文章編集装置は文書内で
頻繁に出現する単語を分類し表示することによって文章
中に同一単語を頻繁に使用することを防止するように提
示している。選択した単語のリストとそれぞれの単語の
出現頻度数が文章の一部内で所定の文章位置について公
式化され、指定された単語とその位置がCRT画面上に
表示される。
【0004】これまでに単語頻度の決定は、内容を機械
が読み取り可能な形式へ変換する、例えば何らかの形態
の光学的文字認識(OCR)を使用して復号することに
よるなどして、ビットマップ化された単語単位の画像ま
たは場合によっては単語単位画像内の多数の文字が解読
され外部の文字ライブラリを参照する画像の符号表現へ
変換することによる電子化文章について実施されてき
た。復号された単語または文字列はこのあと付属する辞
書内部にある辞書の術語と比較される。こうした光学的
文字認識技術の欠点は、中間的な光学式文字認識段階で
計算エラーの大きな可能性が導入されることと実質的な
処理時間が必要となることで、単語単位の識別処理全体
の速度が低下することである。
【0005】サカイ(Sakai)らの欧州特許出願第0−4
02−064号では、文章内の単語の出現を計数し反復
する単語の一覧をCRT上に表示するためのコンピュー
タシステム内の文章処理装置を開示している。一覧は選
択した単語と合わせてそれらの出現回数および文章内の
それらの位置を含む。単語の反復が望ましくない場合、
オペレータは検索、表示、および編集動作を用いること
により同義語への置き換えまたはそれ以外で文章を改変
することができる。
【0006】ホーリー(Hawley)の欧州特許出願第0−
364−179号では機械が読み取り可能な形式で保存
された文章からキーワードを抽出するための方法ならび
にその装置が開示されている。ひとつのファイル内のそ
れぞれの単語の出現頻度は、そのファイル内のほかの単
語の出現頻度と比較されることで計算される。計算した
頻度が所定の閾値によりそのファイルに適当な基準領域
内のその同一単語の出現頻度を超過した場合、その単語
はそのファイルにおけるキーワードとして選択される。
【0007】ホーリー(Hawley)の欧州特許出願第0−
364−180号では自動的に目次を作成しファイルを
ひとつの大きなコンピュータファイル内に取り込むため
の方法ならびにその装置が開示されている。キーワード
はファイル群から自動的に抽出されて目次が作成されま
た目次ファイル内のエントリーとして使用される。キー
ワードとして目次エントリーの内のひとつを有するそれ
ぞれのファイルはそのキーワードで目次と関連する。あ
るファイルを取り込まなければならず名前と所在は判ら
ないが内容が既知の場合、キーワードを入力すると識別
情報が表示される(そのキーワードを有するほかのファ
イルも同時に表示される)ので、取り込みが容易にな
る。
【0008】よって、本発明の目的は、主として走査し
た文書の視覚的属性に基づき、また外部の参考辞書を頼
ることなく、文書中の単語の出現頻度を調べるための方
法ならびにその装置を提供することである。
【0009】本発明の別の目的は単語自体が決定されま
たは復号される必要がないと称する形式の方法ならびに
その装置を提供することである。
【0010】本発明のさらに別の目的は文書を光学的文
字またはASCII符号に第1に変換することがないと
称される形式の方法ならびにその装置を提供することで
ある。
【0011】本発明のさらに別の目的はキーワード認識
を補佐するために使用可能と称される様式の方法ならび
にその装置を提供することである。
【0012】本発明のひとつの態様において、文書中の
単語を第1に復号することなくまたは文書を光学的文字
符号に変換することなく文書内の単語の出現頻度を調べ
るための方法ならびにその装置が提供される。本発明は
画像単位の形態的画像属性、たとえば長さ、高さ、また
はその他の特性に基づき非内容的画像単位認識を使用す
る。また、本発明は文書走査を使用するシステムに制限
されない。むしろビットマップ式のワークステーション
(例えばビットマップ式ディスプレイを装備しているワ
ークステーション)またはビットマップと走査の双方を
使用するシステムなど他のシステムでも本論で詳述する
方法ならびに装置の実現のために等しく良好に動作し得
るであろう。
【0013】本発明の方法の実施例において、文書は第
一に入力されまた画像単位に断片化される。画像単位の
重要な形態的画像特性の少なくともひとつが調べられ、
画像単位の等価クラスが識別されてこれに同様な形態的
画像特性を有する画像単位が集約される。等価クラス内
の画像範囲数は画像単位の出現頻度を決定する。
【0014】画像単位は文章文書内の単語単位のことが
あり、また単語単位は単語単位の形状を特徴付ける少な
くともひとつの1次元信号または単語単位を包囲する境
界を定義する画像関数であって境界内で検出された文字
列の端部を表わす端部関数が閉じた境界内の単一の独立
変数によってこれの全体領域にわたり定義されその単語
単位を構成する文字または文字列を個別に検出および/
または識別がなされないように増加された画像関数のい
ずれかであるような、単語単位の単語形状表現を導出す
ることによって評価されるのが望ましい。
【0015】より特定すれば、文書画像内の単語をAS
CII符号またはその他の符号化文章などの文字符号に
変換することによるなど文書画像の復号を行なうことな
く、文書中の単語の出現頻度を文書の保存してあるビッ
トマップ式画像から直接求めるための方法ならびにその
装置が提供される。従って本技術は基本的に言語には依
存せず、また実際に図形パターン、符号化したおよび意
味のない単語も容易に含めまた処理することができ、光
学的文字認識(OCR)などの中間的解釈処理に起因す
る不必要なエラーが導入される可能性を排除しうる。本
法はまた印刷した文章を通じて使用される単語単位画像
が本質的に断片化可能である性質の利点も利用できる。
【0016】等価クラスは選択した形態的特性または特
性の組み合わせ、または導出した画像単位の形状の表現
を相互に比較することで決定されるのが望ましい。形態
的特性は画像単位の長さ、幅、字体、字種、断面特性、
アセンダの数、デセンダの数、または同様なものを含む
ことが出来る。それぞれの等価クラス内の画像単位は相
互にリンクされ、また割り当てられてそれぞれの頻度が
決定できるようになしてある。
【0017】本発明の別の態様において、所定の方法で
プログラム命令を実行することにより機能を実行するた
めの実行処理手段と、複数の処理プログラムモジュール
を含むメモリ手段を含むデータ処理システムにおけるデ
ータ駆動型処理を実行するための方法が示される。本法
は文章画像中の単語単位を識別することと、単語単位の
少なくともひとつの形態的画像特性を決定することを含
む。同様な形態的画像特性を有する単語単位はこの後で
集約され、集約された単語単位は量子化される。
【0018】本発明のさらに別の態様において、文書上
の文章のデジタル化画像を処理して文章中の単語の頻度
を求めるための装置が示される。本装置は内容に基づか
ない単語単位の形態的画像特性を使用することにより単
語単位の頻度を計算するための単語頻度決定手段と出力
装置を含む。単語頻度決定手段はプログラムされたデジ
タル式コンピュータとなすことができる。
【0019】本発明の上記のおよびその他の目的、特
徴、利点は添付の図面ならびに請求の範囲を参照しつつ
以下の詳細な説明を読み進にしたがって当業者には明ら
かになろう。
【0020】本発明は添付の図面に図示されている。
【0021】図1は本発明の好適実施例によって第1に
文書を文字符号に変換することなく文書内の画像単位ま
たは単語頻度を求めるための方法の流れ図を示す。
【0022】図2は本発明の好適実施例によって第1に
画像単位または単語を復号することなくまたは文書内の
画像単位または単語を文字コードに変換することなく文
書内の画像単位または単語の頻度を求めるための装置を
示す。
【0023】本発明の方法の好適実施例は図1の流れ図
に図示してあり、図1の方法を実行するための装置を図
2に示す。明確になすため、本発明は単一の文書の処理
を参照して詳述することとする。しかし、本発明は複数
の文書を含む文書の複合体の処理に適用可能であること
は理解されよう。
【0024】第1に図2を参照すると、一枚またはそれ
以上のシートまたは紙のページ10またはその他の触知
可能な形態に含まれる文章の行7、表題、図面、図8、
または同様のものを含むことがある原稿文書5の電子化
画像上で本法が実行される。処理すべき電子化文書画像
は何らかの在来の方法、例えば、図示した光学式スキャ
ナ12および検出装置13、複写装置のスキャナ、点字
読み取り装置のスキャナ、ビットマップワークステーシ
ョン、電子ビームスキャナまたは同様なものなどの入力
手段によって生成される。このような手段は従来技術に
おいて公知であるからここでは詳細な説明を行なわな
い。例えばスキャナの検出装置13に由来する出力はデ
ジタル化されて文書の各ページについての文書画像を表
わすビットマップ画像データを生成し、このデータは例
えば専用または汎用のデジタル式コンピュータ16のメ
モリ15内に保存される。デジタルコンピュータ16は
プログラム命令を所定の手順で実行することにより機能
を実現するための実行処理手段を含む、例えば現在では
従来技術において公知のコンピュータなど、データ処理
システム内においてデータ駆動型処理を実行する形式の
ことがある。コンピュータ16からの出力は、例えばメ
モリまたは他の形態の保存装置や、または図示したよう
な出力ディスプレイ17など、例えば複写装置、CRT
ディスプレイ装置、印刷装置、ファクシミリ装置、また
は同様のものでありうる出力装置へ供給される。
【0025】ここで図1を参照すると、本発明の画像処
理技術の第1の様相は低レベルでの文書画像分析に関与
し、ここで各ページについての文書画像は、従来の画像
分析技術を用いて画像単位を含む非復号情報に断片化さ
れ(段階20)、または、文章文書の場合には、例えば
ハッテンロッヒャーとホップクロフト(Huttennlocher
and Hopcroft)により本出願と共に現在申請され、本出
願においても参照している、「文章中の単語の境界を決
定するための方法ならびにその装置(Method and Appar
atus for Determining Boundaries of Words in Tex
t)」と題する同時出願中の米国特許出願第07/79
4,392号に開示された境界ボックス法を使用する。
あるページの画像単位の位置およびこれらの空間的関連
性が調べられる。
【0026】単語ボックスを発見するための別の方法は
文字間を連結するが単語間を連結しない水平方向のSE
で画像を近接させ、接続した画像成分(この場合には単
語となす)の境界ボックスをラベル付けする操作を次に
行なうことである。この処理は画像を収縮しまた文字間
の間隔を近接させる双方の効果を有するひとつまたはそ
れ以上の閾値収縮(閾値値1とする)を用いることによ
って大幅に高速化し得るものである。閾値縮小は小さい
水平方向のSEによる近接が後続するのが常である。接
続された部分のラベル付け動作は縮小した寸法でも実施
され、結果は完全な寸法に拡大される。縮小した寸法で
操作する欠点は、単語の境界ボックスが近似的でしかな
いことであるが、多くの用途において正確度は十分であ
る。上述の方法は任意の文章の字体である程度良好に動
作するが、極端な場合、例えば大きな文字間の分離を有
する巨大な固定幅字体または小さな単語間の分離を有す
る可変文字幅の小さな字体などでは誤りが発生する場合
がある。最も強靭な方法は特定の画像特性の測定に基づ
いて近接させるためのSEを選択する。これには次の2
段階を追加する必要がある。 (1)原稿または縮小した(しかし近接させていない)
画像の画像成分を行の順番に左から右へ、また上部から
底部へ整列する。 (2)水平方向の要素間の間隔のヒストグラムを作成す
る。このヒストグラムは本質的に小さな文字間の間隔と
大きな単語間の間隔に分割することになる。次にこれら
のピークの間の谷を用いてSEの寸法を決定し、単語を
結合しないが画像を近接させることで文字を並べ変え
る。
【0027】境界ボックスまたは単語ボックスを発見し
た後、あるページの画像単位の位置およびこれらの空間
的関連性が調べられる(段階25)。例えば、英語の文
書画像は単語内の文字間の間隔と単語間の間隔の相対的
な差に基づいて単語の画像単位に断片化することができ
る。文節および文の境界も同様に確定することができ
る。さらなる領域断片化画像の分析を実行して、ページ
の画像を図、表、脚注、その他の補助的な文書画像に対
応するラベル付けした領域に分割するような物理的文書
構造の記述子を生成することができる。図面領域は例え
ば領域内の行に配置された画像単位の相対的な欠如に基
づいて文章領域と区別することができる。この断片化を
用いることで、どのように文書が処理されるかの知識が
構成される(すなわち、左から右へ、上部から底部へな
ど)のと、任意で他の入力情報、例えば文書の様式、単
語画像について「読み取り指定」順序なども生成するこ
とができる。であるから、術語「画像単位」は本論にお
いて数字、文字、表意文字、シンボル、単語、文または
その他の確実に抽出しうる単位を表現するために使用し
ている。便利なことに、文書の参照および評価の目的
で、文書画像はサイン、シンボル、または単語などのほ
かの要素の組みに断片化され、これらが集まって理解の
一単位を形成している。これらの理解単位は単位を構成
する素子を分割する間隔より大きな間隔によって、また
は、たとえば包囲するボックス画像またはその他の図形
識別子など文書画像内のほかの画像単位からひとつまた
はそれ以上の画像単位を識別する何らかの所定の図形の
強調によって分割されているという画像内での特徴をし
ばしば有している。単一の理解単位を表わすこれらの画
像単位は今後「単語単位」と称することにする。
【0028】都合よく、弁別段階30が次に実行され、
処理中の文書の主題内容の評価において有用であるため
には不十分な情報内容を有している画像単位を識別す
る。ひとつの好適な方法はブルームバーグ(Bloomberg)
らにより現在申請中の「走査した文書を文字コードに変
換しない機能語の検出(Detecting Function Words Wit
hout Converting A Scanned Document to Character Co
des )」と題した出願中の米国特許出願第07/79
4,190号に開示された形態的機能語検出技術を使用
することである。
【0029】次に、段階40で、選択された画像単位、
例えば段階30において弁別されなかった画像単位は画
像単位の所定の形態的(構造的)画像特性の評価に基づ
いて、分類中の画像単位の復号を行わずまたは復号した
画像データの参照を行なわずに評価される。評価には、
形態的画像特性の弁別(段階41)と、他の画像単位で
求められた形態的画像特性に対してまたは所定の形態的
画像特性または利用者によって選択された形態的画像特
性に対して、 それぞれの画像単位について求められた
形態的画像特性の比較(段階42)が必須である。
【0030】評価すべき画像単位の形態的画像特性を定
義するための好適な方法は、ハッテンロッヒャーとホッ
プクロフト(Huttenlocher and Hopcroft)が現在申請中
で「連続比較のために単語の形状を導出するための方法
(A Method for Deriving Wordshapes for Subsequent
Comparison)」と題する出願中の米国特許出願第07/
794,391号に開示された単語の形状を導出する技
術を使用することである。上記出願に詳述されているよ
うに、単語単位の形状を特徴付ける少なくともひとつの
一次元信号が導出されてその単語単位を包囲する境界を
決定し、画像関数は境界内で検出された文字列の端部を
表わす端部関数がその単語単位を構成する文字または文
字列を個別に検出および/または識別することなく近接
した境界内の単一の独立変数によってその全領域にわた
り定義されるように増加される。
【0031】画像単位の等価クラスを識別する目的で
(段階50)、それぞれの等価クラスが文書中の所定の
単語の例の大半または全てを含むように、求まった画像
特性、例えばそれぞれの選択した画像単位から導いた画
像単位の形状表現は、上述のように(段階41)、求ま
った画像特性/他の選択した画像単位から導いた画像単
位の形状表現と比較される。等価クラスは画像単位識別
子の類似性に基づいて文書中の画像単位を集合させるこ
とにより、例えば単語画像を文字符号へ変換するかまた
は他のもっと高いレベルでの解釈によるなどの画像単位
の内容の実際の復号を行なうことなく、形成される。多
数の異なる比較方法のどれであっても使用することが出
来る。使用可能な技術のひとつは、たとえば、決断ネッ
トワークを使用して抽出した画像単位のラスタ画像を相
関することによるもので、こうした技術は本明細書で参
考文献に含めているケーシー(Casey)らの「パターン分
類のための決定ネットワークの監督されない構造(Unsu
pervised Construction of Decision Networks for Pat
tern Classification )」、IBM 研究報告、1984
年、と題する研究報告に特徴が詳述されている。
【0032】単語単位の等価なクラスを識別するために
使用しうる好適な技術は、それぞれハッテンロッヒャー
とホップクロフト(Huttenlocher and Hopcroft )と、
ハッテンロッヒャー、ホップクロフト、ウェイナー(Hu
ttenlocher, Hopcroft, andWayer )により現在申請中
の、それぞれ「単語の形状の検証による光学的単語識別
(Optical Word Recognition By Examination of Word
Shape )」および「単語の形状を比較するための方法
(Method for Comparing Word Shapes)」と題する出願
中の米国特許出願第07/796,119号および第1
7/795,169号に開示された単語形状比較技術で
ある。
【0033】特定の用途および処理速度に対する正確度
により異なるが、例えば異なる精密度の比較が実行可能
である。例えば、有用な比較は、画像単位の長さ、幅ま
たは何らかのその他の測定寸法(または導出した画像単
位の形状表現、例えば文書画像で最大の図面)や、文書
中の画像単位の位置または領域(文書画像の選択された
図面または文章を含む、例えば表題、冒頭の図面、ひと
つまたはそれ以上の文章または図面など)、字体、字
種、断面(断面はひとつの画像単位中の同様な状態の画
素の続きである)や、アセンダの数や、デセンダの数
や、平均画素密度や、凸部および凹部を含む上部線の輪
郭の長さや、凸部および凹部を含む基線輪郭の長さや、
上述の分類要素の組み合わせを基準にとることができ
る。
【0034】複数ページにわたる文書が処理される場合
について、それぞれのページが処理され、上述のように
データはメモリ15(図1参照)に保持される。データ
の全体性はこの後で処理することができる。
【0035】画像単位を便利に比較しまた等価クラスへ
分類しうるひとつの方法は、直前に処理した画像単位/
形状表現と形成される場合にそれぞれの画像単位または
画像単位の形状表現を比較することによるもので、適合
が得られた場合、関連する画像単位が適合等価クラスで
識別される。これは、例えば、適合を示し適合等価クラ
スに付随するカウンターまたはレジスタを増加させる信
号を提供することで実行しうる。現在の画像単位がそれ
までに処理したどの画像単位とも適合しない場合、現在
の画像単位について新しい等価クラスが生成される。
【0036】これ以外に、図示したように(段階5
0)、それぞれの等価クラス内の画像単位を相互に連結
でき、またそれぞれの等価クラスについて求める等価ク
ラスのラベルに割り当てることが出来る。それぞれの等
価クラスについてのエントリーの数を単に計数すること
ができる。
【0037】つまり、文書画像全体または注目している
部分が処理された後で、同様な形態的特性または識別子
を有する画像単位が識別された回数を示す関連した数字
をそれぞれが有する等価クラスの数が識別されることに
なり、画像単位の頻度が求まることになる。
【0038】本発明の技術により提供される顕著な特徴
は、出力のためであっても画像単位の内容が復号される
付帯要件のない画像単位の処理、識別、比較、または操
作である。より特定すれば、画像単位は復号することな
く測定、処理され、また出力へ提供されて、基本的に実
際の画像単位の内容を調べる必要がない。よって、例え
ば、複写装置または電子印刷装置などひとつの文書から
別の文書へとASCIIまたはその他の符号化/復号化
の要件を考慮することなく、直接画像を印刷または複製
しうるような用途において、画像単位が識別でき、ひと
つまたはそれ以上のその画像単位の形態的画像特性を使
用して処理することができる。上述した比較処理におい
ては、例えば、未定義の内容で、注目する文書画像領域
内にあるそれぞれの画像単位が未定義の内容のこれも同
一の文書内にある別の画像単位と比較されている。これ
も未知の内容の選択された画像単位は光学的にまたは電
子的に、例えば複写装置、電子的メモリ、視覚的ディス
プレイ、または類似の装置の画像複製装置への出力へ供
給され、たとえば文書画像中の出現頻度の順番で重要な
「単語」または画像単位の一覧を生成することができ
る。
【0039】上述の技術は、特定の画像単位の出現頻度
の選択基準に基づいて、文書の画像単位の重要性を決定
するために使用することができる。よって、たとえばあ
る画像単位がそれぞれの等価クラス内に出現する回数を
用いて単語の階層を構成することが可能であり、こうし
た階層は多くの目的、たとえば文書の要約および注釈を
生成することなどにおいて有用である。しかし画像単位
の内容を実際に復号することなく識別子が決定されてお
り、画像単位自体の選択された識別子だけが使用されて
いることは特筆される。本法は当然のことながら上述し
たのと同様の方法において複数のページ長の文書にも適
用し得るものである。
【0040】本発明はある程度の精密さで詳述し図示し
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
後述の請求の範囲に示す本発明の範囲と精神を逸脱する
ことなく当業者によってもたらされうることは理解され
よう。
【図面の簡単な説明】
【図1】 本発明の好適実施例によって第1に文書を文
字符号に変換することなく文書内の画像単位または単語
頻度を求めるための方法の流れ図を示す。
【図2】 本発明の好適実施例によって第1に画像単位
または単語を復号することなくまたは文書内の画像単位
または単語を文字コードに変換することなく文書内の画
像単位または単語の頻度を求めるための装置を示す。
【符号の説明】
5 原稿文書、7 行、8 表題,図面,図、12 光
学式スキャナ、13 検出装置、15 メモリ、16
デジタルコンピュータ、17 出力ディスプレイ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ダニエル・ピー・ヒュッテンロッヒャー アメリカ合衆国 ニューヨーク州 14850 イサカ コムストックロード 314 (72)発明者 ロナルド・エム・カプラン アメリカ合衆国 カリフォルニア州 94306 パロアルト オームストリート 4015 (72)発明者 エム・マーガレット・ウイズゴット アメリカ合衆国 カリフォルニア州 94022 ロスアルトス キャリッジコー ト 11 (72)発明者 ラマーナ・ビー・ラオ アメリカ合衆国 カリフォルニア州 94112 サンフランシスコ イナコート 50 (56)参考文献 特開 平3−278290(JP,A) 特開 平1−113887(JP,A) 特開 昭57−139866(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06T 1/00 - 1/60 G06T 11/60 - 17/50 H04N 1/38 - 1/393 G06K 9/18 - 9/44 G06K 9/54 - 9/60 G06F 17/20 - 17/26

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 テキスト中の単語の頻度を求めるために
    文書上のテキストのデジタル画像を処理する装置であっ
    て、 テキストのデジタル画像を復号することなく、デジタル
    画像を、デジタル画像内の単語に対応する単語単位に断
    片化する手段と、 選択した単語単位に対応する単語からなる文字を検出し
    たり、あるいは、識別したりせずに、選択した単語単位
    少なくとも一つの形態的画像特性を導き出す手段と、 相当する単語単位を識別するために、前記選択した単語
    単位のそれぞれの少なくとも一つの形態的画像特性を比
    較する手段と、 同等であると識別した単語単位の相対的出現頻度の回答
    を出力する出力装置とを含む文書上のテキストのデジタ
    ル画像を処理する装置。
JP30272192A 1991-11-19 1992-11-12 文書上のテキストのデジタル画像を処理する装置 Expired - Lifetime JP3282860B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US79517391A 1991-11-19 1991-11-19
US795173 1991-11-19

Publications (2)

Publication Number Publication Date
JPH05282423A JPH05282423A (ja) 1993-10-29
JP3282860B2 true JP3282860B2 (ja) 2002-05-20

Family

ID=25164902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30272192A Expired - Lifetime JP3282860B2 (ja) 1991-11-19 1992-11-12 文書上のテキストのデジタル画像を処理する装置

Country Status (5)

Country Link
US (1) US5325444A (ja)
EP (1) EP0544430B1 (ja)
JP (1) JP3282860B2 (ja)
CA (1) CA2077604C (ja)
DE (1) DE69229468T2 (ja)

Families Citing this family (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2077274C (en) * 1991-11-19 1997-07-15 M. Margaret Withgott Method and apparatus for summarizing a document without document image decoding
DE69333811T2 (de) * 1992-06-19 2006-05-11 United Parcel Service Of America, Inc. Verfahren und Gerät zur Erzeugung und Einstellung eines Neurones
US6212299B1 (en) 1992-12-11 2001-04-03 Matsushita Electric Industrial Co., Ltd. Method and apparatus for recognizing a character
JP3272842B2 (ja) * 1992-12-17 2002-04-08 ゼロックス・コーポレーション プロセッサベースの判定方法
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
US5438630A (en) * 1992-12-17 1995-08-01 Xerox Corporation Word spotting in bitmap images using word bounding boxes and hidden Markov models
US5485566A (en) * 1993-10-29 1996-01-16 Xerox Corporation Method of finding columns in tabular documents
US6463176B1 (en) * 1994-02-02 2002-10-08 Canon Kabushiki Kaisha Image recognition/reproduction method and apparatus
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
EP0723247B1 (en) 1995-01-17 1998-07-29 Eastman Kodak Company Document image assessment system and method
US5774588A (en) * 1995-06-07 1998-06-30 United Parcel Service Of America, Inc. Method and system for comparing strings with entries of a lexicon
US5764799A (en) * 1995-06-26 1998-06-09 Research Foundation Of State Of State Of New York OCR method and apparatus using image equivalents
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US6041137A (en) * 1995-08-25 2000-03-21 Microsoft Corporation Radical definition and dictionary creation for a handwriting recognition system
US6078915A (en) * 1995-11-22 2000-06-20 Fujitsu Limited Information processing system
US5850476A (en) * 1995-12-14 1998-12-15 Xerox Corporation Automatic method of identifying drop words in a document image without performing character recognition
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US7152031B1 (en) * 2000-02-25 2006-12-19 Novell, Inc. Construction, manipulation, and comparison of a multi-dimensional semantic space
US6337924B1 (en) * 1999-02-26 2002-01-08 Hewlett-Packard Company System and method for accurately recognizing text font in a document processing system
US6459809B1 (en) * 1999-07-12 2002-10-01 Novell, Inc. Searching and filtering content streams using contour transformations
US7672952B2 (en) * 2000-07-13 2010-03-02 Novell, Inc. System and method of semantic correlation of rich content
US7653530B2 (en) * 2000-07-13 2010-01-26 Novell, Inc. Method and mechanism for the creation, maintenance, and comparison of semantic abstracts
US7286977B1 (en) 2000-09-05 2007-10-23 Novell, Inc. Intentional-stance characterization of a general content stream or repository
US20100122312A1 (en) * 2008-11-07 2010-05-13 Novell, Inc. Predictive service systems
US20090234718A1 (en) * 2000-09-05 2009-09-17 Novell, Inc. Predictive service systems using emotion detection
WO2002033584A1 (en) * 2000-10-19 2002-04-25 Copernic.Com Text extraction method for html pages
US8682077B1 (en) 2000-11-28 2014-03-25 Hand Held Products, Inc. Method for omnidirectional processing of 2D images including recognizable characters
US6985908B2 (en) * 2001-11-01 2006-01-10 Matsushita Electric Industrial Co., Ltd. Text classification apparatus
US7106905B2 (en) * 2002-08-23 2006-09-12 Hewlett-Packard Development Company, L.P. Systems and methods for processing text-based electronic documents
US7734627B1 (en) * 2003-06-17 2010-06-08 Google Inc. Document similarity detection
GB2403558A (en) * 2003-07-02 2005-01-05 Sony Uk Ltd Document searching and method for presenting the results
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
US8340476B2 (en) * 2005-03-18 2012-12-25 The Invention Science Fund I, Llc Electronic acquisition of a hand formed expression and a context of the expression
US7873243B2 (en) 2005-03-18 2011-01-18 The Invention Science Fund I, Llc Decoding digital information included in a hand-formed expression
US8749480B2 (en) 2005-03-18 2014-06-10 The Invention Science Fund I, Llc Article having a writing portion and preformed identifiers
US8640959B2 (en) 2005-03-18 2014-02-04 The Invention Science Fund I, Llc Acquisition of a user expression and a context of the expression
US8599174B2 (en) 2005-03-18 2013-12-03 The Invention Science Fund I, Llc Verifying a written expression
US7809215B2 (en) 2006-10-11 2010-10-05 The Invention Science Fund I, Llc Contextual information encoded in a formed expression
US20060212430A1 (en) 2005-03-18 2006-09-21 Searete Llc, A Limited Liability Corporation Of The State Of Delaware Outputting a saved hand-formed expression
US8229252B2 (en) 2005-03-18 2012-07-24 The Invention Science Fund I, Llc Electronic association of a user expression and a context of the expression
US8175394B2 (en) * 2006-09-08 2012-05-08 Google Inc. Shape clustering in post optical character recognition processing
US20100321708A1 (en) * 2006-10-20 2010-12-23 Stefan Lynggaard Printing of coding patterns
US8301622B2 (en) * 2008-12-30 2012-10-30 Novell, Inc. Identity analysis and correlation
US8386475B2 (en) * 2008-12-30 2013-02-26 Novell, Inc. Attribution analysis and correlation
US8296297B2 (en) * 2008-12-30 2012-10-23 Novell, Inc. Content analysis and correlation
US20100250479A1 (en) * 2009-03-31 2010-09-30 Novell, Inc. Intellectual property discovery and mapping systems and methods
US20130024459A1 (en) * 2011-07-20 2013-01-24 Microsoft Corporation Combining Full-Text Search and Queryable Fields in the Same Data Structure
RU2571545C1 (ru) * 2014-09-30 2015-12-20 Общество с ограниченной ответственностью "Аби Девелопмент" Классификация изображений документов на основании контента

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0120334B1 (en) * 1983-03-01 1989-12-06 Nec Corporation Letter pitch detection system
JPS607582A (ja) * 1983-06-27 1985-01-16 Fujitsu Ltd 文字読取り装置
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
US4791675A (en) * 1985-12-31 1988-12-13 Schlumberger Systems And Services, Inc. VSP Connectivity pattern recognition system
US5050218A (en) * 1986-08-26 1991-09-17 Nec Corporation Apparatus for recognizing address appearing on mail article
JPS63158678A (ja) * 1986-12-23 1988-07-01 Sharp Corp 単語間スペ−ス検出方法
ATE75552T1 (de) * 1987-10-16 1992-05-15 Computer Ges Konstanz Verfahren zur automatischen zeichenerkennung.
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
CA1318403C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for extracting keywords from text
CA1318404C (en) * 1988-10-11 1993-05-25 Michael J. Hawley Method and apparatus for indexing files in a computer system
JP2597006B2 (ja) * 1989-04-18 1997-04-02 シャープ株式会社 矩形座標抽出方法
JPH036659A (ja) * 1989-06-03 1991-01-14 Brother Ind Ltd 文書処理装置
US5065437A (en) * 1989-12-08 1991-11-12 Xerox Corporation Identification and segmentation of finely textured and solid regions of binary images

Also Published As

Publication number Publication date
DE69229468D1 (de) 1999-07-29
EP0544430B1 (en) 1999-06-23
CA2077604C (en) 1999-07-06
JPH05282423A (ja) 1993-10-29
EP0544430A2 (en) 1993-06-02
EP0544430A3 (en) 1993-12-22
DE69229468T2 (de) 1999-10-28
CA2077604A1 (en) 1993-05-20
US5325444A (en) 1994-06-28

Similar Documents

Publication Publication Date Title
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP3292388B2 (ja) 文書画像の復号なしに文書を要約するための方法と装置
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US6694053B1 (en) Method and apparatus for performing document structure analysis
Lu et al. Information retrieval in document image databases
WO2007070010A1 (en) Improvements in electronic document analysis
JPH08180068A (ja) 電子ファイリング装置
JPS60114967A (ja) 画像フアイル装置
JP4334068B2 (ja) イメージ文書のキーワード抽出方法及び装置
Nazemi et al. Mathematical information retrieval (MIR) from scanned pdf documents and MathML conversion
JPH10198705A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
NL1006757C2 (nl) Retrospectieve conversie.
JPH0589279A (ja) 文字認識装置
Rait et al. Automatic Language-Independent Indexing of Documents Using Image Processing
Setlur et al. Creation of Multi-Lingual data resources and evaluation tool for
JPH11120201A (ja) 検索可能な画像データの作成方法及び装置、画像データの検索方法及び装置、検索可能な画像データの作成プログラム及び画像データの検索プログラムを記録した記憶媒体、及び検索可能な画像データを記録した記憶媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20020118

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080301

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090301

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100301

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110301

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130301

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130301

Year of fee payment: 11