JPH05307595A

JPH05307595A - 文書画像の復号なしに文書中の文の出現頻度を調べるための方法およびその装置

Info

Publication number: JPH05307595A
Application number: JP4302724A
Authority: JP
Inventors: M Margaret Withgott; エム・マーガレット・ウイズゴット; Ramana B Rao; ラマーナ・ビー・ラオ
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 1991-11-19
Filing date: 1992-11-12
Publication date: 1993-11-19
Anticipated expiration: 2016-11-26
Also published as: US5369714A; EP0544433A2; DE69225678T2; EP0544433A3; EP0544433B1; DE69225678D1; JP3232144B2

Abstract

(57)【要約】（修正有）【目的】復号されていない文書画像中の同様の文の出現
頻度を文書画像を復号することなく調べるための方法及
び装置を提供。【構成】一枚またはそれ以上のシートのページ１０また
はその他の触知可能な形態に含まれる文章の行７、表
題、図８または同様のものを含む原本文書５の電子化画
像上で本法が実施される。画像処理技術の第１の様相
は、各ページについて文書画像が在来の分析技術を用い
るか文字文書の場合には境界ボックス法が望ましく画像
単位を含む複号されていない情報に断片化２０される。
ページ上の画像単位の位置・文書構造の決定２５。不十
分な情報内容のものを識別３０。選択された画像単位３
０で弁別されなかった画像単位が、画像単位の所定の画
像特性の評価に基づき決定されたものと比較４２。これ
以外にどれとも適合しない等価クラスを識別５０。対応
する等価クラスの順列が分析されて文の頻度が決定され
る。

Description

【発明の詳細な説明】

【０００１】本発明は文書画像処理のための方法ならび
に装置の改良に関するもので、より特定すれば、単語ま
たは画像を第１に復号することなくまたは外部の参考辞
書を参照することなく、文書中の文の出現頻度を識別し
調べるための改良に関する。

【０００２】コンピュータを使用した従前の文書処理に
おいて、処理する文書の属性でオペレータがしばしば知
ることを所望しているのは単語の一部または全部の出現
する頻度である。例えば、ソルトンとマクギル（Salton
and McGill ）の「現代情報収集入門 (Introduction t
o Modern Information Retrieval) 」（マグロウヒル出
版(McGraw-Hill) 、１９８３年）、第２章、３０ペー
ジ、３６ページでは情報収集の内容には所定の術語の使
用頻度が文書の情報内容に相対するその術語の重要性と
相関しうることが示されている。単語の頻度情報はその
ため文書の自動要約および／または注釈に有用でありう
る。単語の頻度情報はまた位置の特定、目次作成、ファ
イル作成、並べ変え、または文書取り込みに有用でもあ
る。

【０００３】単語の出現頻度の知識の別の用途は文章の
編集である。例えば、ひとつの文章編集装置は文書内で
頻繁に出現する単語を分類し表示することによって文章
中に同一単語を頻繁に使用することを防止するように提
示している。選択した単語のリストとそれぞれの単語の
出現頻度数が文章の一部内で所定の文章位置について公
式化され、指定された単語とその位置がＣＲＴ画面上に
表示される。

【０００４】この議論の延長は文書中の読み取りの順序
での単語列すなわち文の頻度の知見が、自動文書要約に
も有用であると言う事である。文の頻度情報はまた文書
の位置特定、目次作成、ファイル作成、並べ変え、また
は取り込みに使用することができる。

【０００５】これまでに単語頻度の決定は、内容を機械
が読み取り可能な形式へ変換する、例えば何らかの形態
の光学的文字認識（ＯＣＲ）を使用して復号することに
よるなどして、ビットマップ化された単語単位の画像ま
たは場合によっては単語単位画像内の多数の文字が解読
され外部の文字ライブラリを参照する画像の符号表現へ
変換することによる電子化文章について実施されてき
た。復号された単語または文字列はこのあと付属する辞
書内部にある辞書の術語と比較される。こうした光学的
文字認識技術の欠点は、中間的な光学式文字認識段階で
計算エラーの大きな可能性が導入されることと実質的な
処理時間が必要となることで、単語単位の識別処理全体
の速度が低下することである。

【０００６】よって、本発明の目的は復号されていない
文書画像中の同様の文の出現頻度を文書画像を復号する
ことなく調べるための方法およびその装置を提供するこ
とである。

【０００７】本発明の別の目的は中間的な解釈処理によ
り導入される可能性がある不必要なエラーを減少または
排除し、光学的文字認識アルゴリズムまたはビットマッ
プ相関法より効率的であると記述される形式の方法およ
びその装置を提供することである。

【０００８】本発明の別の目的は線形時間において実行
しうる、また並列化が可能と記述される形式の方法およ
びその装置を提供することである。

【０００９】本発明のひとつの態様では、復号していな
い文書画像中の文の出現頻度を調べるための方法が提示
される。本法によれば、文書画像は復号されていない情
報内容を有する画像単位内に入力されまた断片化され
る。画像単位のうちの選択したもののそれぞれについて
少なくともひとつの重要な形態的構造の画像特性が求め
られ、選択した画像単位と等価なクラスが同様な形態的
画像特性を有する画像単位を集合することにより識別さ
れる。選択した画像単位が文書画像中に出現する順序で
配置された選択された単位で考えうる全ての順序に対応
する等価クラスのラベルの順序が調べられ、また等価ク
ラスのラベルの順列がそのあと評価されて反復する下位
の順列の数が識別され、これによって等価クラスのラベ
ルの順列それぞれの頻度が決定される。

【００１０】本発明の別の態様では、画像単位は文字を
含む文書中の単語単位のことがあり、単語単位は、その
単語単位の形状の特徴を表わすような少なくともひとつ
の１次元信号、または、その単語単位を包囲する境界を
定義する画像関数であって境界内で検出された文字列の
端部を表わす端部関数が閉じた境界内の単一の独立変数
によってこれの全体領域にわたり定義されその単語単位
を構成する文字または文字列を個別に検出および／また
は識別がなされないように増加された画像関数のいずれ
かであるような、単語単位の単語形状表現を導出するこ
とによって評価されるのが望ましい。

【００１１】等価クラスは選択した形態的特性または特
性の組み合わせ、または導出した画像単位の形状の表現
を相互に比較することで決定されるのが望ましい。形態
的特性は画像単位の長さ、幅、字体、字種、字体の断
面、アセンダの数、デセンダの数、または同様なものを
含むことが出来る。本発明による特に有効な比較におい
て、上述の単語形状の表現の高さおよび幅の寸法だけが
比較される。それぞれの等価クラス内の単語単位は相互
にリンクされ、それぞれの出現頻度が決定されうるよう
に割り当てられる。

【００１２】本発明のさらに別の態様において、復号さ
れていない走査文書画像を処理して文書画像中の文章の
頻度を調べるための装置が提示される。本装置は単語単
位の内容に基づかない形態的画像特性を用いることで文
章の頻度を計算するための文章頻度測定手段と、出力装
置を含む。単語および文章頻度測定手段はプログラム可
能なデジタル式コンピュータのこともある。

【００１３】本発明は第１に文書を光学的文字符号に変
換することなしに、保存した文書画像から直接文書中の
文章の頻度を測定するための方法ならびにその装置を提
供する。本発明では、ビットマップを相関する必要のな
い、単語の画像単位の形態的画像特性を比較する内容に
依存しない画像認識技術を使用する。

【００１４】本発明は文書走査を使用するシステムに限
定されるものではない。むしろ、例えばビットマップ・
ワークステーション（すなわちビットマップ式ディスプ
レイを装備したワークステーション）またはビットマッ
プおよび走査の双方を使用するシステムにおいて本開示
に詳述する方法ならびに装置の実現が等しく良好に動作
するものである。

【００１５】本発明の請求の主要な利点には、並列化が
可能であること、線形時間内の実行が可能であること、
およびＡＳＣＩＩコードなどの文字符号に文書を第一に
変換することなく単語のシーケンスの出現頻度情報を抽
出するために提供することが含まれる。また、本発明は
中間的な解釈処理、例えば光学的文字認識などによる潜
在的なエラーの導入を排除する。本法はＯＣＲアルゴリ
ズムまたはビットマップ相関に基づく方法に比べ時間お
よび経費の点で有効である。

【００１６】本発明の上記のおよびその他の目的、特
徴、利点は添付の図面ならびに請求の範囲を参照しつつ
以下の詳細な説明を読み進にしたがって当業者には明ら
かになろう。

【００１７】本発明は添付の図面に図示されている。

【００１８】図１は本発明の好適実施例による、第１に
文書の文字を文字符号に変換することなく、文書の文字
中の文節の出現頻度を調べるための方法の流れ図であ
る。

【００１９】図２は本発明の好適実施例による、第１に
画像単位または文字を復号することなくまたは文書中の
画像単位または文字を文字符号に変換することなく文書
の文字中の文節の出現頻度を調べるための装置を示す。

【００２０】本発明の方法の好適実施例は図１の流れ図
に図示してあり、図１の方法を実行するための装置を図
２に示す。明確になすため、本発明は単一の文書の処理
を参照して詳述することとする。しかし、本発明は複数
の文書を含む文書の複合体の処理に適用可能であること
は理解されよう。

【００２１】第１に図２を参照すると、一枚またはそれ
以上のシートまたは紙のページ１０またはその他の触知
可能な形態に含まれる文章の行７、表題、図面、図８、
または同様のものを含むことがある原本文書５の電子化
画像上で本法が実行される。処理すべき電子化文書画像
は何らかの在来の方法、例えば、図示した光学式スキャ
ナ１２および検出装置１３、複写装置のスキャナ、点字
読み取り装置のスキャナ、ビットマップワークステーシ
ョン、電子ビームスキャナまたは同様なものなどの入力
手段によって生成される。このような手段は従来技術に
おいて公知であるからここでは詳細な説明を行なわな
い。例えばスキャナの検出装置１３に由来する出力はデ
ジタル化されて文書の各ページについての文書画像を表
わすビットマップ画像データを生成し、このデータは例
えば専用または汎用のデジタル式コンピュータ１６のメ
モリ１５内に保存される。デジタルコンピュータ１６は
プログラム命令を所定の手順で実行することにより機能
を実現するための実行処理手段を含む、例えば現在では
従来技術において公知のコンピュータなど、データ処理
システム内においてデータ駆動型処理を実行する形式の
ことがある。コンピュータ１６からの出力は、例えばメ
モリまたは他の形態の保存装置、または図示したような
出力ディスプレイ１７などの、例えば複写装置、ＣＲＴ
ディスプレイ装置、印刷装置、ファクシミリ装置、また
は同様のものでありうる出力装置へ供給される。

【００２２】本発明では、選択した画像単位の頻度は、
第１に、参考にここでも含めている上述したカス（Cas
s) らの同時出願中の特許出願に述べられているように
調べられる。よって図１をここで参照すると、本発明の
画像処理技術の第１の様相は、各ページについて文書画
像が在来の画像分析技術を用いるかまたは文字文書の場
合には境界ボックス法を使用することが望ましい画像単
位を含む復号されていない情報に分割される（段階２
０）低レベルの文書画像分析よりなる。あるページ上の
画像単位の位置およびこれらの間の空間的関連性が次に
調べられる（段階２５）。例えば、英語の文書画像は単
語内の文字間の間隔と単語間の間隔の相対的な差に基づ
いて単語画像単位に分割される。文章と段落の境界も同
様に確定できる。さらなる領域分割画像分析を実施し
て、ページの画像を図、表、脚注および同様なものなど
の補助的な文書の要素に対応するラベルのついた領域に
分割する物理的文書構造記述子を生成することが出来
る。図面の領域は例えば領域内の行に配置された画像単
位の相対的な欠如に基づいて文章領域と区別することが
出来る。この分割方法を使用することで、処理している
文書がどのように構成されているかの知識（例えば左か
ら右へ、上から下へ）および任意で、文書の様式、単語
画像について「読み取る順番」の順列などその他の入力
された情報も生成することが出来る。術語「画像単位」
は数字、文字、表意記号、シンボル、単語、文節または
その他の単位など確実に抽出できるものの画像から識別
可能な断片を定義するものとしてここでは使用すること
とする。有利なことに、文書の参照および評価の目的
で、文書画像が文字、シンボル、またはその他の要素例
えば単語などの意味上の最小単位を形成する組に分割さ
れる。こうした意味をなす単一の単位はひとつの単位を
構成する要素を分割する間隔よりも広い間隔で分割され
ていることが画像上の特徴をなしている。こうした意味
上の単一の単位を表わす画像単位は本論では今後「単語
単位」と称することにする。

【００２３】有利なことに、識別段階３０が次ぎに実行
されて、処理している文書の主たる内容の評価に有用で
あるためには不十分な情報内容を有する画像単位を識別
する。こうした画像単位には停止または機能語、すなわ
ち前置詞、冠詞、およびその他の広く文法規則上の役割
を演じ、情報の主題を担う名詞および動詞に対向する単
語が含まれる。好適な方法のひとつは形態的機能語検出
技術を使用することである。

【００２４】次に、段階４０では、選択された画像単
位、例えば段階３０において弁別されなかった画像単位
が、分類している画像単位を復号することなくまたは復
号した画像データを参照することなく、画像単位の所定
の画像特性の評価に基づいて評価される。評価は画像特
性の決定（段階４１）および他の画像単位の決定された
画像特性とそれぞれの画像単位について決定された画像
特性の比較（段階４２）が必須である。

【００２５】評価する画像単位の画像特性を決定するた
めの好適な方法のひとつは、単語形状導出技術を使用す
ることである。少なくともひとつの、単語単位の形状の
特徴を示す１次元信号が誘導されるか、または単語単位
を包囲する境界を定義する画像関数が導出されて、単語
単位を構成する文字または文字列を個別に検出および／
または識別することなく閉じた境界内で単一の独立変数
により領域全体にわたって境界内で検出された文字列の
端部を表わす端部関数が定義されるように先の画像関数
が増加される。この処理の一環として、ページ上の文章
の基線（基線は文章行の上のデセンダを有さない文字の
下に延在する線である）が求められる。基線に沿った単
語単位の順位付けおよびそれぞれの文書画像のページ上
の基線の順位付けが文書画像中の単語単位の読み取り順
序を提供することは理解されよう。

【００２６】画像単位の等価クラスを識別する目的で
（段階５０）、それぞれの等価クラスが文書中の所定の
単語の例の大半または全てを含むように、それぞれの選
択した画像単位で求められた形態的特性または導出した
画像単位の形状表現が、上述したように（段階４１）、
他の選択した画像単位の所定の形態的特性または導出し
た画像単位の形状表現と比較される。等価クラスは画像
単位識別子の類似性に基づいて文書中の画像単位を集合
させることにより、例えば単語画像を文字符号へ変換す
るかまたは他のもっと高いレベルでの解釈によるなどの
画像単位の内容の実際の復号を行なうことなく、形成さ
れる。多数の異なる比較方法のどれであっても使用する
ことが出来る。使用可能な技術のひとつは決断ネットワ
ークを使用して抽出した画像単位のラスタ画像を相関す
ることによるもので、こうした技術は本明細書で参考文
献に含めているケーシーら（Casey et al.）の「パター
ン分類のための決定ネットワークの監督されない構造
（Unsupervised Construction of Decision Networks for Pattern Classification
）」、ＩＢＭ研究報告、１９８４年、と題する研究報
告に特徴が詳述されている。

【００２７】単語単位の等価なクラスを識別するために
使用しうる好適な技術は、単語形状比較技術である。

【００２８】特定の用途および処理速度に対する正確度
により異なるが、例えば異なる精密度の評価の相対的重
要性が実行可能である。例えば、有用な評価は、画像単
位の長さ、幅（高さ）または何らかのその他の測定寸法
（または導出した画像単位の形状表現、例えば文書画像
で最大の図面）や、文書中の画像単位の位置（文書画像
の選択された図面または文章を含む、例えば表題、冒頭
の図面、ひとつまたはそれ以上の文章または図面な
ど）、字体、字種、ひとつの画像単位中の同様な状態の
画素の続きである断面や、アセンダの数や、デセンダの
数や、平均画素密度や、凸部および凹部を含む上部線の
輪郭の長さや、凸部および凹部を含む基線輪郭の長さ
や、上述の分類要素の組み合わせを基準にとることがで
きる。文の出現頻度を決定する目的の充分な比較が導出
された画像単位の形状表現の長さと高さだけの比較によ
るものであることが解っている。こうした比較はとりわ
け高速で、高効率の文章出現頻度が得られ、多くの文章
文書用途において高信頼性で重要な文を抽出するのに充
分強力であることが証明されている。

【００２９】複数ページにわたる文書が処理される場合
について、それぞれのページが処理され、上述のように
データはメモリ１５（図１参照）に保持される。データ
の全体性はこの後で処理することができる。

【００３０】画像単位を便利に比較しまた等価クラスへ
分類しうるひとつの方法は、直前に処理した画像単位／
形状表現と形成される場合にそれぞれの画像単位または
画像単位の形状表現を比較することによるもので、適合
が得られた場合、関連する画像単位が適合等価クラスで
識別される。これは、例えば、適合を示し適合等価クラ
スに付随するカウンターまたはレジスタを増加させる信
号を提供することで実行しうる。現在の画像単位がそれ
までに処理したどの画像単位とも適合しない場合、現在
の画像単位について新しい等価クラスが生成される。

【００３１】これ意外に、図示したように（段階５
０）、それぞれの等価クラス内の画像単位を相互に連結
でき、また夫々の等価クラスについて求める等価クラス
のラベルに割り当てることが出来る。それぞれの等価ク
ラスの寸法はそのクラス内の画像単位が文書画像中に出
現する頻度を表わす。

【００３２】次に（段階６０）、読み取り順序に割り当
てた画像単位（文節）の可能な順列のすべてに対応する
等価クラスのラベルの順列が分析され、特定の等価クラ
スのラベルの順列が出現する頻度、したがって対応する
単語単位の文節が文書中に出現する頻度が求められる。
ここで用いているように、文節は文書中の読み取り順序
で評価された隣接する単語単位の何らかの順列である
（文節頻度の分析を導入する以前に停止または機能語が
弁別される必要はない）。したがって、文節には文書画
像（または分析のために選択されたこれの部分）中に含
まれる単語単位全体の順列よりなる主文節と主文節内に
含まれる副文節のすべてを含む。

【００３３】シンボル列または順序を並べ変えることと
反復する下位順列を求めるための従来の方法はどれも等
価ラベルの順序を評価するために使用可能である。代表
的な方法はクヌース（Knuth)による「コンピュータ・プ
ログラミング技法(The Art of Computer Programming)
」、第３巻に詳述されている。有利にも、文節内の単
語単位の出現頻度は、その文節の出現頻度と少なくとも
同じ大きさの出現頻度を有することになり、等価ラベル
順列の有用な予備的並べ換えは一度または二度しか出現
しない単語単位を含むあらゆる順列を排除することにな
る。同様に、当初の並べ換えは順列中の単語単位のそれ
ぞれが高い頻度の単語であるような順列を有利に検索す
る。

【００３４】さらなる文書処理の目的で、例えば文書の
要約または分類などで意味的に重要な文節をどの頻繁な
文節から識別するかの決定は、例えば文書の長さおよび
様式などの変数と主題の種別（例えば技術文献対物語）
によって変化する。特定状況で存在する変数のすべてに
依存することで、比較的高い出現頻度を有する長さの短
い文節を選択するためまたは低い出現頻度を有する長さ
の長い文節を選択するためのいずれかに有利となること
がある。例えば、技術文献では、２または３語の文節で
少なくとも５回出現するものは文書の主題を表わす技術
的文節の傾向にあると求められた。最も有利な組合わせ
で頻繁な文節を選定するパラメータの選択が所定の用途
について経験的に有利に求められ、また選択パラメータ
は異なる用途のために調整しうるように設定可能となさ
れることは理解されよう。

【００３５】本発明の技術により提供される顕著な特徴
は、出力のためであっても画像単位の内容が復号される
付帯要件のない画像単位の順列の処理、識別、比較、ま
たは操作である。より特定すれば、文節は復号すること
なく測定、処理され、また出力へ提供されて、基本的に
実際の画像単位の内容または文節の識別内容が決定され
る必要がない。よって、例えば、複写装置または電子印
刷装置などひとつの文書から別の文書へとＡＳＣＩＩま
たはその他の符号化／復号化の要件を考慮することな
く、直接画像を印刷または複製しうるような用途におい
て、画像単位文節が識別され、ひとつまたはそれ以上の
その画像単位の形態的画像特性を使用して処理される。
上述した比較処理においては、例えば、未定義の内容
で、注目する文書画像領域内にある選択された画像単位
が未定義の内容のこれも同一の文書内にある別の画像単
位と比較されている。これも内容を調べていない文節全
体が、例えば文書画像内の出現頻度の順番に重要な文節
のリストを生成することにおいて、光学的にまたは電子
的に、例えば複写装置の画像複製装置、電子的メモリ、
視覚的ディスプレイ、または同様なものなどへ出力とし
て供給されうる。

【００３６】上述の技術は特定の文の出現頻度の基準に
基づいて文書中の文の重要性を調べるために使用でき
る。よって、ある文節が出現する回数を用いて文節の階
層を構築でき、こうした階層は多くの用途で有用であ
る。しかし記述子は画像単位の内容を実際に復号するこ
となく求められていること、画像単位自体の選択された
画像記述子だけが使用されていることは特筆しうるもの
である。本法は当然のこととして上述の方法と同様の方
法で複数のページ長さの文書にも適用し得るものであ
る。

【００３７】本発明はある程度の精密さで詳述し図示し
ているが、本開示が例として提示されるに過ぎないこと
と、部材の組み合わせおよび構成における多数の変化が
本発明の後述の請求の範囲を逸脱することなく当業者に
よってもたらされうることは理解されよう。

【図面の簡単な説明】

【図１】本発明の好適実施例による、第１に文書の文
字を文字符号に変換することなく、文書文字中の文章の
出現頻度を調べるための方法の流れ図である。

【図２】本発明の好適実施例による、第１に画像単位
または文字を復号することなくまたは文書中の画像単位
または文字を文字符号に変換することなく文書の文字中
の文節の出現頻度を調べるための装置を示す。

【符号の説明】

５原稿文書、７線、８表題，図面，図、１０ペ
ージ、１２スキャナ、１３検出装置、１５メモ
リ、１６デジタルコンピュータ、１７出力ディスプ
レイ

───────────────────────────────────────────────────── フロントページの続き (72)発明者ラマーナ・ビー・ラオアメリカ合衆国カリフォルニア州 94112 サンフランシスコイナコート 50

Claims

【特許請求の範囲】

【請求項１】復号していない電子化文書の文章画像中
の重要な単語順列の出現頻度を求めるための方法であっ
て、上記文書画像の内容を復号することなく上記文書画像を
単語単位に断片化する段階と、上記文書画像中の選択した単語単位の重要な形態的画像
特性を少なくとも一つ求める段階と、上記文書画像中の上記選択した単語単位の等価クラス
を、同様な形態的画像特性を有する上記選択した画像単
位の等価クラスに集約してそれぞれの等価クラスがラベ
ルを割り当てられるように識別する段階と、上記選択した単語単位が上記文書画像中に出現する順序
に配置した上記選択した単語単位のすべての順列に対応
する等価クラスラベルの順列を求める段階と、上記等価クラスラベルの順列を評価してそれぞれの等価
クラスラベルの順列の頻度を求める段階を含んでなる方
法。
【請求項２】上記単語単位の等価クラスを識別する段
階が決定ネットワークを使用して単語単位の形態的画像
特性を相関させることを含む請求項１に記載の方法。
【請求項３】上記等価クラス識別段階が上記単語単位
の単語単位形状表現を比較することを含む請求項１に記
載の方法。
【請求項４】上記単語単位の形状表現が単語単位の形
状を特徴付ける少なくともひとつの１次元信号を生成す
ることによって決定される請求項３に記載の方法。
【請求項５】上記単語単位の形状表現は、上記単語単
位を包囲する境界を定義する画像関数を生成すること
で、また上記単語単位を構成する文字または文字列を個
別に検出および／または識別することなしに上記境界内
で検出された文字列の端部を表現する端部関数が上記閉
じた境界内の単一の独立変数によって全体領域について
決定されるように上記画像関数を増加させることによっ
て、決定される請求項３に記載の方法。
【請求項６】上記単語単位の少なくともひとつの重要
な形態的画像特性を求める上記段階は、上記選択した画
像単位の少なくともひとつの寸法、字体、字種、アセン
ダ要素の数、デセンダ要素の数、画素密度、画素断面特
性、および輪郭の特性を求めることを含む請求項１に記
載の方法。
【請求項７】上記単語形状表現の上記比較は上記単語
形状表現の長さおよび高さ寸法のみを比較する請求項３
に記載の方法。
【請求項８】文書上の文章のデジタル画像を処理し
て、上記文章中の単語文節の出現頻度を求めるための装
置であって、上記デジタル画像を復号することなく上記デジタル画像
を単語単位に断片化するための手段と、上記単語単位か
ら選択した単語単位の形態的画像特性を少なくとも一つ
求めるための手段と、上記文書画像中の上記選択した単語単位の等価クラス
を、同様な形態的画像特性を有する上記選択した画像単
位の等価クラスに集約してそれぞれの等価クラスがラベ
ルを割り当てられるように識別するための手段と、上記選択した単語単位が上記文書画像中に出現する順序
に配置した上記選択した単語単位のすべての順列に対応
する等価クラスラベルの順列を求めるための手段と、上記等価クラスラベルの順列を評価してそれぞれの等価
クラスラベルの順列の頻度を求めるための手段と、上記選択した等価クラスラベルの順列の相対的出現頻度
に応じた出力を生成するための出力装置を含む装置。
【請求項９】上記形態的画像特性を求める手段が単語
単位の形状を特徴付ける１次元の信号を少なくとも一つ
生成するための手段を含む請求項８に記載の装置。
【請求項１０】上記形態的画像特性を調べる手段が、
上記単語単位を包囲する境界を定義する画像単位を生成
し、上記単語単位を構成する文字または文字列を個別に
検出および／または識別することなしに上記境界内で検
出された文字列の端部を表現する端部関数が上記閉じた
境界内の単一の独立変数によって全体領域について決定
されるように上記画像関数を増加させるための手段を含
む請求項８に記載の装置。