JPH05307595A - 文書画像の復号なしに文書中の文の出現頻度を調べるための方法およびその装置 - Google Patents

文書画像の復号なしに文書中の文の出現頻度を調べるための方法およびその装置

Info

Publication number
JPH05307595A
JPH05307595A JP4302724A JP30272492A JPH05307595A JP H05307595 A JPH05307595 A JP H05307595A JP 4302724 A JP4302724 A JP 4302724A JP 30272492 A JP30272492 A JP 30272492A JP H05307595 A JPH05307595 A JP H05307595A
Authority
JP
Japan
Prior art keywords
word
image
document
units
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP4302724A
Other languages
English (en)
Other versions
JP3232144B2 (ja
Inventor
M Margaret Withgott
エム・マーガレット・ウイズゴット
Ramana B Rao
ラマーナ・ビー・ラオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JPH05307595A publication Critical patent/JPH05307595A/ja
Application granted granted Critical
Publication of JP3232144B2 publication Critical patent/JP3232144B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Processing Or Creating Images (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 (修正有) 【目的】復号されていない文書画像中の同様の文の出現
頻度を文書画像を復号することなく調べるための方法及
び装置を提供。 【構成】一枚またはそれ以上のシートのページ10また
はその他の触知可能な形態に含まれる文章の行7、表
題、図8または同様のものを含む原本文書5の電子化画
像上で本法が実施される。画像処理技術の第1の様相
は、各ページについて文書画像が在来の分析技術を用い
るか文字文書の場合には境界ボックス法が望ましく画像
単位を含む複号されていない情報に断片化20される。
ページ上の画像単位の位置・文書構造の決定25。不十
分な情報内容のものを識別30。選択された画像単位3
0で弁別されなかった画像単位が、画像単位の所定の画
像特性の評価に基づき決定されたものと比較42。これ
以外にどれとも適合しない等価クラスを識別50。対応
する等価クラスの順列が分析されて文の頻度が決定され
る。

Description

【発明の詳細な説明】
【0001】本発明は文書画像処理のための方法ならび
に装置の改良に関するもので、より特定すれば、単語ま
たは画像を第1に復号することなくまたは外部の参考辞
書を参照することなく、文書中の文の出現頻度を識別し
調べるための改良に関する。
【0002】コンピュータを使用した従前の文書処理に
おいて、処理する文書の属性でオペレータがしばしば知
ることを所望しているのは単語の一部または全部の出現
する頻度である。例えば、ソルトンとマクギル(Salton
and McGill )の「現代情報収集入門 (Introduction t
o Modern Information Retrieval) 」(マグロウヒル出
版(McGraw-Hill) 、1983年)、第2章、30ペー
ジ、36ページでは情報収集の内容には所定の術語の使
用頻度が文書の情報内容に相対するその術語の重要性と
相関しうることが示されている。単語の頻度情報はその
ため文書の自動要約および/または注釈に有用でありう
る。単語の頻度情報はまた位置の特定、目次作成、ファ
イル作成、並べ変え、または文書取り込みに有用でもあ
る。
【0003】単語の出現頻度の知識の別の用途は文章の
編集である。例えば、ひとつの文章編集装置は文書内で
頻繁に出現する単語を分類し表示することによって文章
中に同一単語を頻繁に使用することを防止するように提
示している。選択した単語のリストとそれぞれの単語の
出現頻度数が文章の一部内で所定の文章位置について公
式化され、指定された単語とその位置がCRT画面上に
表示される。
【0004】この議論の延長は文書中の読み取りの順序
での単語列すなわち文の頻度の知見が、自動文書要約に
も有用であると言う事である。文の頻度情報はまた文書
の位置特定、目次作成、ファイル作成、並べ変え、また
は取り込みに使用することができる。
【0005】これまでに単語頻度の決定は、内容を機械
が読み取り可能な形式へ変換する、例えば何らかの形態
の光学的文字認識(OCR)を使用して復号することに
よるなどして、ビットマップ化された単語単位の画像ま
たは場合によっては単語単位画像内の多数の文字が解読
され外部の文字ライブラリを参照する画像の符号表現へ
変換することによる電子化文章について実施されてき
た。復号された単語または文字列はこのあと付属する辞
書内部にある辞書の術語と比較される。こうした光学的
文字認識技術の欠点は、中間的な光学式文字認識段階で
計算エラーの大きな可能性が導入されることと実質的な
処理時間が必要となることで、単語単位の識別処理全体
の速度が低下することである。
【0006】よって、本発明の目的は復号されていない
文書画像中の同様の文の出現頻度を文書画像を復号する
ことなく調べるための方法およびその装置を提供するこ
とである。
【0007】本発明の別の目的は中間的な解釈処理によ
り導入される可能性がある不必要なエラーを減少または
排除し、光学的文字認識アルゴリズムまたはビットマッ
プ相関法より効率的であると記述される形式の方法およ
びその装置を提供することである。
【0008】本発明の別の目的は線形時間において実行
しうる、また並列化が可能と記述される形式の方法およ
びその装置を提供することである。
【0009】本発明のひとつの態様では、復号していな
い文書画像中の文の出現頻度を調べるための方法が提示
される。本法によれば、文書画像は復号されていない情
報内容を有する画像単位内に入力されまた断片化され
る。画像単位のうちの選択したもののそれぞれについて
少なくともひとつの重要な形態的構造の画像特性が求め
られ、選択した画像単位と等価なクラスが同様な形態的
画像特性を有する画像単位を集合することにより識別さ
れる。選択した画像単位が文書画像中に出現する順序で
配置された選択された単位で考えうる全ての順序に対応
する等価クラスのラベルの順序が調べられ、また等価ク
ラスのラベルの順列がそのあと評価されて反復する下位
の順列の数が識別され、これによって等価クラスのラベ
ルの順列それぞれの頻度が決定される。
【0010】本発明の別の態様では、画像単位は文字を
含む文書中の単語単位のことがあり、単語単位は、その
単語単位の形状の特徴を表わすような少なくともひとつ
の1次元信号、または、その単語単位を包囲する境界を
定義する画像関数であって境界内で検出された文字列の
端部を表わす端部関数が閉じた境界内の単一の独立変数
によってこれの全体領域にわたり定義されその単語単位
を構成する文字または文字列を個別に検出および/また
は識別がなされないように増加された画像関数のいずれ
かであるような、単語単位の単語形状表現を導出するこ
とによって評価されるのが望ましい。
【0011】等価クラスは選択した形態的特性または特
性の組み合わせ、または導出した画像単位の形状の表現
を相互に比較することで決定されるのが望ましい。形態
的特性は画像単位の長さ、幅、字体、字種、字体の断
面、アセンダの数、デセンダの数、または同様なものを
含むことが出来る。本発明による特に有効な比較におい
て、上述の単語形状の表現の高さおよび幅の寸法だけが
比較される。それぞれの等価クラス内の単語単位は相互
にリンクされ、それぞれの出現頻度が決定されうるよう
に割り当てられる。
【0012】本発明のさらに別の態様において、復号さ
れていない走査文書画像を処理して文書画像中の文章の
頻度を調べるための装置が提示される。本装置は単語単
位の内容に基づかない形態的画像特性を用いることで文
章の頻度を計算するための文章頻度測定手段と、出力装
置を含む。単語および文章頻度測定手段はプログラム可
能なデジタル式コンピュータのこともある。
【0013】本発明は第1に文書を光学的文字符号に変
換することなしに、保存した文書画像から直接文書中の
文章の頻度を測定するための方法ならびにその装置を提
供する。本発明では、ビットマップを相関する必要のな
い、単語の画像単位の形態的画像特性を比較する内容に
依存しない画像認識技術を使用する。
【0014】本発明は文書走査を使用するシステムに限
定されるものではない。むしろ、例えばビットマップ・
ワークステーション(すなわちビットマップ式ディスプ
レイを装備したワークステーション)またはビットマッ
プおよび走査の双方を使用するシステムにおいて本開示
に詳述する方法ならびに装置の実現が等しく良好に動作
するものである。
【0015】本発明の請求の主要な利点には、並列化が
可能であること、線形時間内の実行が可能であること、
およびASCIIコードなどの文字符号に文書を第一に
変換することなく単語のシーケンスの出現頻度情報を抽
出するために提供することが含まれる。また、本発明は
中間的な解釈処理、例えば光学的文字認識などによる潜
在的なエラーの導入を排除する。本法はOCRアルゴリ
ズムまたはビットマップ相関に基づく方法に比べ時間お
よび経費の点で有効である。
【0016】本発明の上記のおよびその他の目的、特
徴、利点は添付の図面ならびに請求の範囲を参照しつつ
以下の詳細な説明を読み進にしたがって当業者には明ら
かになろう。
【0017】本発明は添付の図面に図示されている。
【0018】図1は本発明の好適実施例による、第1に
文書の文字を文字符号に変換することなく、文書の文字
中の文節の出現頻度を調べるための方法の流れ図であ
る。
【0019】図2は本発明の好適実施例による、第1に
画像単位または文字を復号することなくまたは文書中の
画像単位または文字を文字符号に変換することなく文書
の文字中の文節の出現頻度を調べるための装置を示す。
【0020】本発明の方法の好適実施例は図1の流れ図
に図示してあり、図1の方法を実行するための装置を図
2に示す。明確になすため、本発明は単一の文書の処理
を参照して詳述することとする。しかし、本発明は複数
の文書を含む文書の複合体の処理に適用可能であること
は理解されよう。
【0021】第1に図2を参照すると、一枚またはそれ
以上のシートまたは紙のページ10またはその他の触知
可能な形態に含まれる文章の行7、表題、図面、図8、
または同様のものを含むことがある原本文書5の電子化
画像上で本法が実行される。処理すべき電子化文書画像
は何らかの在来の方法、例えば、図示した光学式スキャ
ナ12および検出装置13、複写装置のスキャナ、点字
読み取り装置のスキャナ、ビットマップワークステーシ
ョン、電子ビームスキャナまたは同様なものなどの入力
手段によって生成される。このような手段は従来技術に
おいて公知であるからここでは詳細な説明を行なわな
い。例えばスキャナの検出装置13に由来する出力はデ
ジタル化されて文書の各ページについての文書画像を表
わすビットマップ画像データを生成し、このデータは例
えば専用または汎用のデジタル式コンピュータ16のメ
モリ15内に保存される。デジタルコンピュータ16は
プログラム命令を所定の手順で実行することにより機能
を実現するための実行処理手段を含む、例えば現在では
従来技術において公知のコンピュータなど、データ処理
システム内においてデータ駆動型処理を実行する形式の
ことがある。コンピュータ16からの出力は、例えばメ
モリまたは他の形態の保存装置、または図示したような
出力ディスプレイ17などの、例えば複写装置、CRT
ディスプレイ装置、印刷装置、ファクシミリ装置、また
は同様のものでありうる出力装置へ供給される。
【0022】本発明では、選択した画像単位の頻度は、
第1に、参考にここでも含めている上述したカス(Cas
s) らの同時出願中の特許出願に述べられているように
調べられる。よって図1をここで参照すると、本発明の
画像処理技術の第1の様相は、各ページについて文書画
像が在来の画像分析技術を用いるかまたは文字文書の場
合には境界ボックス法を使用することが望ましい画像単
位を含む復号されていない情報に分割される(段階2
0)低レベルの文書画像分析よりなる。あるページ上の
画像単位の位置およびこれらの間の空間的関連性が次に
調べられる(段階25)。例えば、英語の文書画像は単
語内の文字間の間隔と単語間の間隔の相対的な差に基づ
いて単語画像単位に分割される。文章と段落の境界も同
様に確定できる。さらなる領域分割画像分析を実施し
て、ページの画像を図、表、脚注および同様なものなど
の補助的な文書の要素に対応するラベルのついた領域に
分割する物理的文書構造記述子を生成することが出来
る。図面の領域は例えば領域内の行に配置された画像単
位の相対的な欠如に基づいて文章領域と区別することが
出来る。この分割方法を使用することで、処理している
文書がどのように構成されているかの知識(例えば左か
ら右へ、上から下へ)および任意で、文書の様式、単語
画像について「読み取る順番」の順列などその他の入力
された情報も生成することが出来る。術語「画像単位」
は数字、文字、表意記号、シンボル、単語、文節または
その他の単位など確実に抽出できるものの画像から識別
可能な断片を定義するものとしてここでは使用すること
とする。有利なことに、文書の参照および評価の目的
で、文書画像が文字、シンボル、またはその他の要素例
えば単語などの意味上の最小単位を形成する組に分割さ
れる。こうした意味をなす単一の単位はひとつの単位を
構成する要素を分割する間隔よりも広い間隔で分割され
ていることが画像上の特徴をなしている。こうした意味
上の単一の単位を表わす画像単位は本論では今後「単語
単位」と称することにする。
【0023】有利なことに、識別段階30が次ぎに実行
されて、処理している文書の主たる内容の評価に有用で
あるためには不十分な情報内容を有する画像単位を識別
する。こうした画像単位には停止または機能語、すなわ
ち前置詞、冠詞、およびその他の広く文法規則上の役割
を演じ、情報の主題を担う名詞および動詞に対向する単
語が含まれる。好適な方法のひとつは形態的機能語検出
技術を使用することである。
【0024】次に、段階40では、選択された画像単
位、例えば段階30において弁別されなかった画像単位
が、分類している画像単位を復号することなくまたは復
号した画像データを参照することなく、画像単位の所定
の画像特性の評価に基づいて評価される。評価は画像特
性の決定(段階41)および他の画像単位の決定された
画像特性とそれぞれの画像単位について決定された画像
特性の比較(段階42)が必須である。
【0025】評価する画像単位の画像特性を決定するた
めの好適な方法のひとつは、単語形状導出技術を使用す
ることである。少なくともひとつの、単語単位の形状の
特徴を示す1次元信号が誘導されるか、または単語単位
を包囲する境界を定義する画像関数が導出されて、単語
単位を構成する文字または文字列を個別に検出および/
または識別することなく閉じた境界内で単一の独立変数
により領域全体にわたって境界内で検出された文字列の
端部を表わす端部関数が定義されるように先の画像関数
が増加される。この処理の一環として、ページ上の文章
の基線(基線は文章行の上のデセンダを有さない文字の
下に延在する線である)が求められる。基線に沿った単
語単位の順位付けおよびそれぞれの文書画像のページ上
の基線の順位付けが文書画像中の単語単位の読み取り順
序を提供することは理解されよう。
【0026】画像単位の等価クラスを識別する目的で
(段階50)、それぞれの等価クラスが文書中の所定の
単語の例の大半または全てを含むように、それぞれの選
択した画像単位で求められた形態的特性または導出した
画像単位の形状表現が、上述したように(段階41)、
他の選択した画像単位の所定の形態的特性または導出し
た画像単位の形状表現と比較される。等価クラスは画像
単位識別子の類似性に基づいて文書中の画像単位を集合
させることにより、例えば単語画像を文字符号へ変換す
るかまたは他のもっと高いレベルでの解釈によるなどの
画像単位の内容の実際の復号を行なうことなく、形成さ
れる。多数の異なる比較方法のどれであっても使用する
ことが出来る。使用可能な技術のひとつは決断ネットワ
ークを使用して抽出した画像単位のラスタ画像を相関す
ることによるもので、こうした技術は本明細書で参考文
献に含めているケーシーら(Casey et al.)の「パター
ン分類のための決定ネットワークの監督されない構造
(Unsupervised Construction of Decision Networks for Pattern Classification
)」、IBM研究報告、1984年、と題する研究報
告に特徴が詳述されている。
【0027】単語単位の等価なクラスを識別するために
使用しうる好適な技術は、単語形状比較技術である。
【0028】特定の用途および処理速度に対する正確度
により異なるが、例えば異なる精密度の評価の相対的重
要性が実行可能である。例えば、有用な評価は、画像単
位の長さ、幅(高さ)または何らかのその他の測定寸法
(または導出した画像単位の形状表現、例えば文書画像
で最大の図面)や、文書中の画像単位の位置(文書画像
の選択された図面または文章を含む、例えば表題、冒頭
の図面、ひとつまたはそれ以上の文章または図面な
ど)、字体、字種、ひとつの画像単位中の同様な状態の
画素の続きである断面や、アセンダの数や、デセンダの
数や、平均画素密度や、凸部および凹部を含む上部線の
輪郭の長さや、凸部および凹部を含む基線輪郭の長さ
や、上述の分類要素の組み合わせを基準にとることがで
きる。文の出現頻度を決定する目的の充分な比較が導出
された画像単位の形状表現の長さと高さだけの比較によ
るものであることが解っている。こうした比較はとりわ
け高速で、高効率の文章出現頻度が得られ、多くの文章
文書用途において高信頼性で重要な文を抽出するのに充
分強力であることが証明されている。
【0029】複数ページにわたる文書が処理される場合
について、それぞれのページが処理され、上述のように
データはメモリ15(図1参照)に保持される。データ
の全体性はこの後で処理することができる。
【0030】画像単位を便利に比較しまた等価クラスへ
分類しうるひとつの方法は、直前に処理した画像単位/
形状表現と形成される場合にそれぞれの画像単位または
画像単位の形状表現を比較することによるもので、適合
が得られた場合、関連する画像単位が適合等価クラスで
識別される。これは、例えば、適合を示し適合等価クラ
スに付随するカウンターまたはレジスタを増加させる信
号を提供することで実行しうる。現在の画像単位がそれ
までに処理したどの画像単位とも適合しない場合、現在
の画像単位について新しい等価クラスが生成される。
【0031】これ意外に、図示したように(段階5
0)、それぞれの等価クラス内の画像単位を相互に連結
でき、また夫々の等価クラスについて求める等価クラス
のラベルに割り当てることが出来る。それぞれの等価ク
ラスの寸法はそのクラス内の画像単位が文書画像中に出
現する頻度を表わす。
【0032】次に(段階60)、読み取り順序に割り当
てた画像単位(文節)の可能な順列のすべてに対応する
等価クラスのラベルの順列が分析され、特定の等価クラ
スのラベルの順列が出現する頻度、したがって対応する
単語単位の文節が文書中に出現する頻度が求められる。
ここで用いているように、文節は文書中の読み取り順序
で評価された隣接する単語単位の何らかの順列である
(文節頻度の分析を導入する以前に停止または機能語が
弁別される必要はない)。したがって、文節には文書画
像(または分析のために選択されたこれの部分)中に含
まれる単語単位全体の順列よりなる主文節と主文節内に
含まれる副文節のすべてを含む。
【0033】シンボル列または順序を並べ変えることと
反復する下位順列を求めるための従来の方法はどれも等
価ラベルの順序を評価するために使用可能である。代表
的な方法はクヌース(Knuth)による「コンピュータ・プ
ログラミング技法(The Art of Computer Programming)
」、第3巻に詳述されている。有利にも、文節内の単
語単位の出現頻度は、その文節の出現頻度と少なくとも
同じ大きさの出現頻度を有することになり、等価ラベル
順列の有用な予備的並べ換えは一度または二度しか出現
しない単語単位を含むあらゆる順列を排除することにな
る。同様に、当初の並べ換えは順列中の単語単位のそれ
ぞれが高い頻度の単語であるような順列を有利に検索す
る。
【0034】さらなる文書処理の目的で、例えば文書の
要約または分類などで意味的に重要な文節をどの頻繁な
文節から識別するかの決定は、例えば文書の長さおよび
様式などの変数と主題の種別(例えば技術文献対物語)
によって変化する。特定状況で存在する変数のすべてに
依存することで、比較的高い出現頻度を有する長さの短
い文節を選択するためまたは低い出現頻度を有する長さ
の長い文節を選択するためのいずれかに有利となること
がある。例えば、技術文献では、2または3語の文節で
少なくとも5回出現するものは文書の主題を表わす技術
的文節の傾向にあると求められた。最も有利な組合わせ
で頻繁な文節を選定するパラメータの選択が所定の用途
について経験的に有利に求められ、また選択パラメータ
は異なる用途のために調整しうるように設定可能となさ
れることは理解されよう。
【0035】本発明の技術により提供される顕著な特徴
は、出力のためであっても画像単位の内容が復号される
付帯要件のない画像単位の順列の処理、識別、比較、ま
たは操作である。より特定すれば、文節は復号すること
なく測定、処理され、また出力へ提供されて、基本的に
実際の画像単位の内容または文節の識別内容が決定され
る必要がない。よって、例えば、複写装置または電子印
刷装置などひとつの文書から別の文書へとASCIIま
たはその他の符号化/復号化の要件を考慮することな
く、直接画像を印刷または複製しうるような用途におい
て、画像単位文節が識別され、ひとつまたはそれ以上の
その画像単位の形態的画像特性を使用して処理される。
上述した比較処理においては、例えば、未定義の内容
で、注目する文書画像領域内にある選択された画像単位
が未定義の内容のこれも同一の文書内にある別の画像単
位と比較されている。これも内容を調べていない文節全
体が、例えば文書画像内の出現頻度の順番に重要な文節
のリストを生成することにおいて、光学的にまたは電子
的に、例えば複写装置の画像複製装置、電子的メモリ、
視覚的ディスプレイ、または同様なものなどへ出力とし
て供給されうる。
【0036】上述の技術は特定の文の出現頻度の基準に
基づいて文書中の文の重要性を調べるために使用でき
る。よって、ある文節が出現する回数を用いて文節の階
層を構築でき、こうした階層は多くの用途で有用であ
る。しかし記述子は画像単位の内容を実際に復号するこ
となく求められていること、画像単位自体の選択された
画像記述子だけが使用されていることは特筆しうるもの
である。本法は当然のこととして上述の方法と同様の方
法で複数のページ長さの文書にも適用し得るものであ
る。
【0037】本発明はある程度の精密さで詳述し図示し
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
本発明の後述の請求の範囲を逸脱することなく当業者に
よってもたらされうることは理解されよう。
【図面の簡単な説明】
【図1】 本発明の好適実施例による、第1に文書の文
字を文字符号に変換することなく、文書文字中の文章の
出現頻度を調べるための方法の流れ図である。
【図2】 本発明の好適実施例による、第1に画像単位
または文字を復号することなくまたは文書中の画像単位
または文字を文字符号に変換することなく文書の文字中
の文節の出現頻度を調べるための装置を示す。
【符号の説明】
5 原稿文書、7 線、8 表題,図面,図、10 ペ
ージ、12 スキャナ、13 検出装置、15 メモ
リ、16 デジタルコンピュータ、17 出力ディスプ
レイ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ラマーナ・ビー・ラオ アメリカ合衆国 カリフォルニア州 94112 サンフランシスコ イナコート 50

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 復号していない電子化文書の文章画像中
    の重要な単語順列の出現頻度を求めるための方法であっ
    て、 上記文書画像の内容を復号することなく上記文書画像を
    単語単位に断片化する段階と、 上記文書画像中の選択した単語単位の重要な形態的画像
    特性を少なくとも一つ求める段階と、 上記文書画像中の上記選択した単語単位の等価クラス
    を、同様な形態的画像特性を有する上記選択した画像単
    位の等価クラスに集約してそれぞれの等価クラスがラベ
    ルを割り当てられるように識別する段階と、 上記選択した単語単位が上記文書画像中に出現する順序
    に配置した上記選択した単語単位のすべての順列に対応
    する等価クラスラベルの順列を求める段階と、 上記等価クラスラベルの順列を評価してそれぞれの等価
    クラスラベルの順列の頻度を求める段階を含んでなる方
    法。
  2. 【請求項2】 上記単語単位の等価クラスを識別する段
    階が決定ネットワークを使用して単語単位の形態的画像
    特性を相関させることを含む請求項1に記載の方法。
  3. 【請求項3】 上記等価クラス識別段階が上記単語単位
    の単語単位形状表現を比較することを含む請求項1に記
    載の方法。
  4. 【請求項4】 上記単語単位の形状表現が単語単位の形
    状を特徴付ける少なくともひとつの1次元信号を生成す
    ることによって決定される請求項3に記載の方法。
  5. 【請求項5】 上記単語単位の形状表現は、上記単語単
    位を包囲する境界を定義する画像関数を生成すること
    で、また上記単語単位を構成する文字または文字列を個
    別に検出および/または識別することなしに上記境界内
    で検出された文字列の端部を表現する端部関数が上記閉
    じた境界内の単一の独立変数によって全体領域について
    決定されるように上記画像関数を増加させることによっ
    て、決定される請求項3に記載の方法。
  6. 【請求項6】 上記単語単位の少なくともひとつの重要
    な形態的画像特性を求める上記段階は、上記選択した画
    像単位の少なくともひとつの寸法、字体、字種、アセン
    ダ要素の数、デセンダ要素の数、画素密度、画素断面特
    性、および輪郭の特性を求めることを含む請求項1に記
    載の方法。
  7. 【請求項7】 上記単語形状表現の上記比較は上記単語
    形状表現の長さおよび高さ寸法のみを比較する請求項3
    に記載の方法。
  8. 【請求項8】 文書上の文章のデジタル画像を処理し
    て、上記文章中の単語文節の出現頻度を求めるための装
    置であって、 上記デジタル画像を復号することなく上記デジタル画像
    を単語単位に断片化するための手段と、上記単語単位か
    ら選択した単語単位の形態的画像特性を少なくとも一つ
    求めるための手段と、 上記文書画像中の上記選択した単語単位の等価クラス
    を、同様な形態的画像特性を有する上記選択した画像単
    位の等価クラスに集約してそれぞれの等価クラスがラベ
    ルを割り当てられるように識別するための手段と、 上記選択した単語単位が上記文書画像中に出現する順序
    に配置した上記選択した単語単位のすべての順列に対応
    する等価クラスラベルの順列を求めるための手段と、 上記等価クラスラベルの順列を評価してそれぞれの等価
    クラスラベルの順列の頻度を求めるための手段と、 上記選択した等価クラスラベルの順列の相対的出現頻度
    に応じた出力を生成するための出力装置を含む装置。
  9. 【請求項9】 上記形態的画像特性を求める手段が単語
    単位の形状を特徴付ける1次元の信号を少なくとも一つ
    生成するための手段を含む請求項8に記載の装置。
  10. 【請求項10】 上記形態的画像特性を調べる手段が、
    上記単語単位を包囲する境界を定義する画像単位を生成
    し、上記単語単位を構成する文字または文字列を個別に
    検出および/または識別することなしに上記境界内で検
    出された文字列の端部を表現する端部関数が上記閉じた
    境界内の単一の独立変数によって全体領域について決定
    されるように上記画像関数を増加させるための手段を含
    む請求項8に記載の装置。
JP30272492A 1991-11-19 1992-11-12 文章中の単語文節の出現頻度を求めるための装置 Expired - Lifetime JP3232144B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US794555 1991-11-19
US07/794,555 US5369714A (en) 1991-11-19 1991-11-19 Method and apparatus for determining the frequency of phrases in a document without document image decoding

Publications (2)

Publication Number Publication Date
JPH05307595A true JPH05307595A (ja) 1993-11-19
JP3232144B2 JP3232144B2 (ja) 2001-11-26

Family

ID=25162983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30272492A Expired - Lifetime JP3232144B2 (ja) 1991-11-19 1992-11-12 文章中の単語文節の出現頻度を求めるための装置

Country Status (4)

Country Link
US (1) US5369714A (ja)
EP (1) EP0544433B1 (ja)
JP (1) JP3232144B2 (ja)
DE (1) DE69225678T2 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69525401T2 (de) * 1994-09-12 2002-11-21 Adobe Systems, Inc. Verfahren und Gerät zur Identifikation von Wörtern, die in einem portablen elektronischen Dokument beschrieben sind
CA2154952A1 (en) * 1994-09-12 1996-03-13 Robert M. Ayers Method and apparatus for identifying words described in a page description language file
US5887081A (en) * 1995-12-07 1999-03-23 Ncr Corporation Method for fast image identification and categorization of multimedia data
KR100209411B1 (ko) * 1996-05-10 1999-07-15 전주범 윤곽선 정보를 이용한 영상신호 처리 방법
US5956468A (en) * 1996-07-12 1999-09-21 Seiko Epson Corporation Document segmentation system
JP3427692B2 (ja) * 1996-11-20 2003-07-22 松下電器産業株式会社 文字認識方法および文字認識装置
JP3008908B2 (ja) * 1997-11-10 2000-02-14 日本電気株式会社 文字切り出し装置および文字切り出し方式
US6665841B1 (en) 1997-11-14 2003-12-16 Xerox Corporation Transmission of subsets of layout objects at different resolutions
US6562077B2 (en) 1997-11-14 2003-05-13 Xerox Corporation Sorting image segments into clusters based on a distance measurement
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US7027976B1 (en) * 2001-01-29 2006-04-11 Adobe Systems Incorporated Document based character ambiguity resolution
WO2002099739A1 (en) * 2001-06-05 2002-12-12 Matrox Electronic Systems Ltd. Model-based recognition of objects using a calibrated image system
WO2003063067A1 (en) * 2002-01-24 2003-07-31 Chatterbox Systems, Inc. Method and system for locating positions in printed texts and delivering multimedia information
US7561734B1 (en) * 2002-03-02 2009-07-14 Science Applications International Corporation Machine learning of document templates for data extraction
US20040133560A1 (en) * 2003-01-07 2004-07-08 Simske Steven J. Methods and systems for organizing electronic documents
US7734627B1 (en) 2003-06-17 2010-06-08 Google Inc. Document similarity detection
US8620083B2 (en) * 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US7207004B1 (en) * 2004-07-23 2007-04-17 Harrity Paul A Correction of misspelled words
US8229252B2 (en) 2005-03-18 2012-07-24 The Invention Science Fund I, Llc Electronic association of a user expression and a context of the expression
US7826687B2 (en) 2005-03-18 2010-11-02 The Invention Science Fund I, Llc Including contextual information with a formed expression
US8823636B2 (en) 2005-03-18 2014-09-02 The Invention Science Fund I, Llc Including environmental information in a manual expression
US7672512B2 (en) 2005-03-18 2010-03-02 Searete Llc Forms for completion with an electronic writing device
US7809215B2 (en) 2006-10-11 2010-10-05 The Invention Science Fund I, Llc Contextual information encoded in a formed expression
US8640959B2 (en) 2005-03-18 2014-02-04 The Invention Science Fund I, Llc Acquisition of a user expression and a context of the expression
US8102383B2 (en) 2005-03-18 2012-01-24 The Invention Science Fund I, Llc Performing an action with respect to a hand-formed expression
US8340476B2 (en) * 2005-03-18 2012-12-25 The Invention Science Fund I, Llc Electronic acquisition of a hand formed expression and a context of the expression
AU2005201758B2 (en) * 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US20080311551A1 (en) * 2005-08-23 2008-12-18 Mazer Corporation, The Testing Scoring System and Method
US7609891B2 (en) * 2005-08-31 2009-10-27 Sony Corporation Evaluation of element distribution within a collection of images based on pixel scatterness
JP4305431B2 (ja) * 2005-09-06 2009-07-29 ソニー株式会社 画像処理装置、マスク作成方法及びプログラム
US7706613B2 (en) * 2007-08-23 2010-04-27 Kaspersky Lab, Zao System and method for identifying text-based SPAM in rasterized images
US7711192B1 (en) * 2007-08-23 2010-05-04 Kaspersky Lab, Zao System and method for identifying text-based SPAM in images using grey-scale transformation
US8111918B2 (en) * 2008-10-20 2012-02-07 Xerox Corporation Segmentation for three-layer mixed raster content images
US8649600B2 (en) 2009-07-10 2014-02-11 Palo Alto Research Center Incorporated System and method for segmenting text lines in documents
US8452086B2 (en) * 2009-07-10 2013-05-28 Palo Alto Research Center Incorporated System and user interface for machine-assisted human labeling of pixels in an image
US8442319B2 (en) * 2009-07-10 2013-05-14 Palo Alto Research Center Incorporated System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
US9003531B2 (en) * 2009-10-01 2015-04-07 Kaspersky Lab Zao Comprehensive password management arrangment facilitating security
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
JP5884560B2 (ja) * 2012-03-05 2016-03-15 オムロン株式会社 文字認識のための画像処理方法、およびこの方法を用いた文字認識装置およびプログラム
US9472037B2 (en) * 2014-01-31 2016-10-18 Ncr Corporation Media item re-orientation
US11200412B2 (en) * 2017-01-14 2021-12-14 Innoplexus Ag Method and system for generating parsed document from digital document
RU2685044C1 (ru) * 2018-07-03 2019-04-16 Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) Способ определения контекста слова и текстового файла

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2905927A (en) * 1956-11-14 1959-09-22 Stanley F Reed Method and apparatus for recognizing words
EP0120334B1 (en) * 1983-03-01 1989-12-06 Nec Corporation Letter pitch detection system
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
JPH0816918B2 (ja) * 1989-04-18 1996-02-21 シャープ株式会社 行抽出方法
JPH036659A (ja) * 1989-06-03 1991-01-14 Brother Ind Ltd 文書処理装置
US5253307A (en) * 1991-07-30 1993-10-12 Xerox Corporation Image analysis to obtain typeface information

Also Published As

Publication number Publication date
US5369714A (en) 1994-11-29
EP0544433A2 (en) 1993-06-02
DE69225678T2 (de) 1998-12-03
EP0544433A3 (en) 1993-12-22
EP0544433B1 (en) 1998-05-27
DE69225678D1 (de) 1998-07-02
JP3232144B2 (ja) 2001-11-26

Similar Documents

Publication Publication Date Title
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
EP0544431B1 (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JP3289968B2 (ja) 電子的文書処理のための装置および方法
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
JP2973944B2 (ja) 文書処理装置および文書処理方法
JPH08166970A (ja) コード化したワードトークンを使用して文書画像をハイライトで強調する方法
JPH07200745A (ja) 少なくとも二つのイメージセクションの比較方法
US5455871A (en) Detecting function words without converting a scanned document to character codes
JPH08180068A (ja) 電子ファイリング装置
JP2559356B2 (ja) 文書画像処理方法
JP3384634B2 (ja) 文字種識別方法
Andreev et al. Hausdorff distances for searching in binary text images
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JPH10198705A (ja) 文書画像処理装置および文書画像処理方法および情報記録媒体
JP3243389B2 (ja) 文書識別方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20010810

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080914

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090914

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 12