JPH03142694A

JPH03142694A - 文書読取装置

Info

Publication number: JPH03142694A
Application number: JP1282321A
Authority: JP
Inventors: Kazumi Matsuura; 松浦　一己
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1989-10-30
Filing date: 1989-10-30
Publication date: 1991-06-18
Anticipated expiration: 2011-01-29
Also published as: JPH087776B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】【産業上の利用分野］この発明は、用紙などに記入または印刷された文書を光
学的に走査して光電変換することにより得られた文書画
像から１文字ずつ文字パターンを切り出して認識するこ
とによって文書を読取る文書読取装置に関するものであ
る。

［従来の技術］文書を読取るには、用紙に記入または印刷された文書を
光学的に走査して光電変換を行い１文字の部分、背景の
部分をそれぞれｌ（黒）、０　（白）の信号に２値化変
換した文書画像から１文字ずつ文字パターンを切り出し
て認識しなければならない。

第７図は、特開昭６１−１９３２７７号に示された従来
の文書読取装置の全体構成を示す図である。

第７図において、（１）は用紙、（２）は用紙（１）上
に記入または印刷された文書を光学的に走査して光電変
換を行う画像入力手段としての光電変換手段、（３）は
光電変換手段（２）で光電変換した文書画像を走査する
ことによって文字列の領域を検出して切り出す文字列切
り出し手段、（４）は文字列切り出し手段（３）で切り
出した文字列イメージを走査することにより１文字ずつ
文字の領域を検出して切り出す文字切り出し手段、（５
）は第１の情報としての読取対象文字（カテゴリ）の基
準パターンを格納した記憶手段としての文字認識辞書、
（６）は文字切り出し手段（４）で切り出した文字パタ
ーンと文字認識辞書（５）に格納された基準パターンと
を整合することにより上記文字パターンのカテゴリ（文
字）を決定する文字認識手段である。文字認識手段（６
）と文字列切り出し手段（３）と文字切り出し手段（４
）とは、認識手段である。

第８図から第１１図までの図は、第７図に示した従来の
文書読取装置の動作を説明するための図である。

第８図の（７）は、用紙（１）に印刷された文書（論文
誌）を光電変換手段（２）により光学的に走査し、光電
変換して得られた文書画像である。

第９図は、第８図に示した文書画像（７）から文字列切
り出し手段（３）が切り出した各文字列イメージの矩形
を示した図であり、（８）〜（１２）はそれぞれその内
の１つの文字列イメージである。

第１０図は、第９図に示した各文字列イメージから文字
切り出し手段（４）において出力されて。

１文字ずつ切り出した文字パターンの矩形を示した図で
あり、　（１３）は文字列イメージ（８）から切り出し
た１つの文字パターンである。

第１１図は、第１Ｏ図に示した各文字パターンを文字認
識手段（６）が認識して得られた文字の並びを示す図で
あり、　（１４）は文字パターン（１３）を認識して得
られた文字「そ」　（図中、○印で囲んで示した文字）
である。また１図中、下線を引いて示した（１５）〜（
１９）は、それぞれ９文字列イメージ（８）〜（１２）
の各文字パターンを認識して得られ文字の並び（文字列
）である。なお、第１１図では１つの文字列イメージに
対応する認識して得られた文字の並びを１つの行に示し
ている。

次に９文字の並びに対する属性が複数個存在する文書か
ら文字の並びを読みとって属性ごとにまとめて出力する
場合について、従来の文書読取装置の動作例を説明する
。

まず、第７図において、用紙（１）上に記入または印刷
された文書を光電変換手段（２）によって光電変換し、
第８図に示した文書画像（７）を得る。

つぎに文字列切り出し手段（３）では、第８図に示した
文書画像（７）を走査して黒匪素が密集する領域を検出
し２文字列イメージを切り出す。第９図に示した文字列
イメージ（８）〜（１２）はそれぞれ文書画像（７）か
ら切り出した文字列イメージの１つである。具体的には
９文書画像（７）をメツシュ状に分割して得た各小領域
を１画素に圧縮した圧縮画像上で同一連結成分に同一ラ
ベルを割当てるラベリング処理などにより黒画素が連結
する領域を検出し、検出した領域の位置や大きさなどの
情報から文字列と判定した領域の文書画像を文字列イメ
ージ（８）〜（１２）として切り出す。

また、第７図の文字切り出し手段（４）では９文字列切
り出し手段（３）で切り出した文字列イメージごとに文
字列イメージを走査して文字列と直交する方向の黒画素
の周辺分布値を求め、求めた周辺分布値の連続性に基づ
いて上記文字列イメージを分割して得られた各パターン
の外接矩形の位置や大きさなどの情報から１文字ずつの
文字パターンを決定して切り出す。第１０図に示した文
字ノぺターン「そＪ　（１３）は、第９図に示した文字
列イメージ（８）から切り出した末尾の文字パターンで
ある。

さらに、第７図の文字認識手段（６）では９文字切り出
し手段（４）で切り出した各文字パターンと文字認識辞
書（５）に格納された読取対象の文字（カテゴリ）の各
基準パターンとを整合させて最も整合する基準パターン
の文字（カテゴリ）を該文字パターンの文字（カテゴリ
）と決定（認識）する。第１１図に○印で囲んで示した
文字「そ」（１４）は第１Ｏ図に示した文字パターン（
１３）を認識して得られた文字である。

一方、他の従来例として９名刺や住所録などのように項
目ごとに情報を蓄積することについて意味をもつ文書を
読取る場合について説明する。

第１２図１よ、第７図の光電変換手段（２）で得られた
文書画像を示す図である。

第１３図は、第１２図に示した文書画像から第７図の文
字列切り出し手段（３）が切り出した各文字列イメージ
を矩形で示した図であり、　（５３）と（５５）は、そ
れぞれ、１つの文字列イメージ「情報電子研究所」と「
所長三菱太部」である。

第１４図は、第１３図に示した各文字列イメージから第
７図の文字切り出し手段（４）が１文字ずつ切り出した
文字パターンの矩形を示した図であり、　（Ｓａ）は文
字列イメージ（５５）から切り出された１つの文字パタ
ーン「所」である。

第１５図は、第１４図に示した各文字パターンを第７図
の文字認識手段（６）が認識して得られた文字の並びを
示す図であり、　（５９）は文字パターン（５８）を認
識して得られた文字「所」である。また、　（６０）と
（６１）は、それぞれ第１３図の文字列イメージ（５３
）と（５５）の各文字パターンを認識して得られた文字
の並び「情報電子研究所」と「所長三菱太部」である。

なお、第１５図では、１つの文字列イメージに対応する
認識した文字の並びを１つの行に示している。

次に動作について説明する。

まず、第７図において用紙（１）上に記入または印刷さ
れた文書は光電変換手段（２）によって光電変換され、
第１２図に示した文書画像を得る。

つぎに０文字列切り出し手段（３）では、第１２図に示
した文書画像を走査して黒画素が密集する領域を検出し
９文字列イメージを切り出す。第１３図の文字列イメー
ジ（５５）は第１２図に示した文書画像から切り出した
文字列イメージの１つである。具体的には、第１２図に
示した文書画像をメツシュ状に分割して得られた各小領
域を１画素に圧縮した圧縮画像上で同一連結成分に同一
ラベルを割当てるラベリング処理により黒画素が連結す
る領域を求め、得られた領域の位置や大きさなどの情報
から文字列と判定した領域の文書画像を文字列イメージ
として切り出す。

また２文字切り出し手段（４）では９文字列切り出し手
段（３）で切り出した文字列イメージごとに文字列イメ
ージを走査して文字列と直交する方向の黒画素の周辺分
布値を求め、求めた周辺分布値の連続性に基づいて上記
文字列イメージを分割して得られた各パターンの外接矩
形の位置や大きさなどの情報から１文字ずつの文字パタ
ーンを決定して切り出す。第１４図に示した文字パター
ン「所Ｊ　Ｃ５８）は第１３図に示した文字列イメージ
（５５）から切り出した先頭の文字パターンである。

さらに９文字認識手段（６）では９文字切り出し手段（
４）で切り出した各文字パターンと文字認識辞書（５）
に格納された読取対象の各基準パターンとを整合させて
最も整合する基準パターンの文字（カテゴリ）を該文字
パターンの文字（カテゴリ）と決定（認識）する。第１
５図に示した文字「所Ｊ　（５９）は第１４図に示した
文字パターン「所Ｊ　（５８）を認識して得られた文字
である。

［発明が解決しようとする課題］従来の文書読取装置は文字切り出し手段（４）で切り出
された文字を順次文字認識手段（６）で認識して単純な
文字の並びとして出力するように構成されていたので、
雑誌や新聞及び名刺等の文書の読取りにおいては、あら
かじめ書式を設定することができないという問題点があ
った。

この発明は上記の問題点を解決するためになされたもの
で、書式設定が可能な文書読取装置を得る事を目的とす
る。

［課題を解決するための手段］本発明に係る文書読取装置においては、書式変換対象の
文脈情報としての第２の情報を予め記憶する記憶手段と
２画像入力手段による出力と文字認識対象のカテゴリ情
報としての第１の情報に基づいて文字を認識する認識手
段と、この認識手段の出力と記憶手段に記憶されている
書式変換対象の文脈情報としての第２の情報とに基づい
て書式を編集する編集手段とを設けたものである。

［作用］上記のように構成された文書読取装置は、記憶手段に書
式変換対象の文脈情報としての第２の情報を予め記憶さ
せて、認識手段の出力と前記書式変換対象の文脈情報と
しての第２の情報とに基づいて書式が編集される。

［発明の実施例］以下、この発明の実施例を示すブロック図を用いて詳細
に説明する。

第１図は、この発明にかかわる文書読取装置の一実施例
の構成を示す図である。第１図において、第７図と同一
符号は同一部材を示す。（２０ａ）は日本文で使用され
る単語およびその単語の文法的属性を格納した単語辞書
と上記単語の文法的属性間の文法的接続情報を格納した
文法辞書からなる記憶手段としての単語・文法辞書、　
（２１ａｌは文字認識手段（６）で認識して得られた文
字の並びに存在する単語とその接続関係を上記単語・文
法辞書（２０ａ）を参照して検査することにより文字列
間の接続の有無を判定して上記認識して得られた文字の
並びを編集する編集手段としての文章編集手段である。

第２図は単語・文法辞書（２０）による検索の概要を示
す図で、具体的にはある文字列の末尾の単語とそれ以降
に存在する別の文字列の先頭の単語とを並べたときの接
続の有無を示している。第２図において、　（２２）は
ある文字列の末尾の単語と別の文字列の先頭の単語を並
べてできる文字の並びを入れた欄、　（２３）は文字の
並びを入れる欄（２２）の各文字の並びの接続関係の有
無を入れた欄である。

また、　（２５）は第１１図における文字列（１５）と
文字列（１６）の組合わせから得られた文字の並び、　
（２６）は第１１図における文字列（１５）と文字列（
１９）の組合わせから得られた文字の並びである。図に
おいて、接続の有無は、それぞれ“○”Ｘ”印で表して
いる。また９文字列間の切れめは““印で示している。

第３図は、認識手段〔６）で認識して得られた第１１図
に示すような文字の並びを文章編集手段（２１ａ）で編
集して得られた文字の並びを示す図である。第３図にお
いて、　（２９）および（３０）は属性を示す制御記号
であり、　（２９）は段落を示す制御記号、　（３０）
は表を示す制御記号である。また、　（２７）は物理的
な文字の並びの区切り（文書での文字列の末尾）を示す
制御記号、　（２８）は論理的な文字の並びの区切りを
示す制御記号である。

次に第１図に示す文書読取装置の実施例の動作を第２図
と第３図を用いて説明する。

光電変換手段（２）から文字認識手段（６１までの動作
は、第８図から第１１図までの図に示した従来の文書読
取り装置の動作と同一である。

この後、第１図の文章編集手段（２１ａ）では９文字認
識手段（６）で得られた第１１図に示すような文字の並
びを各行ごとに走査し、単語・文法辞書（２０ａ）を参
照して文字列の末尾の単語と接続する先頭の単語が存在
する該文字列より後の文字列を検出する。

第１１図において文字列（１５）の末尾の文字「そＪ　
（１４）の１つ前にコンマ（読点）「、」が存在するの
で′、この「、」で文字の並びが区切られ、末尾の単語
は「そ」となる。また、１つ後の文字列（１６）の先頭
の文字「表」の１つ後にアラビア数字ｒｌＪが存在する
ので、この「ｌ」で文字の並びが区切られ、先頭の単語
はＷ通名詞「表」となる。そこで、これらの単語から構
成される文字の並び「そ表」を単語・文法辞書（２０ａ
）を用いて検索する。まず、単語「そ表」を検索する。

しかし、第２図に示すように単語「そ表」は単語・文法
辞書（２０ａ）に存在しない。そこで、つぎに。

単語・文法辞書（２０ａ）に存在する単語「そ」と「表
」の接続関係を調べる。単語「そ」は動詞「そぐ（削ぐ
、殺ぐ）」、「そる（反る。剃る）」の語幹となる可能
性があるが、動詞の語幹（「そ」）と普通名詞（「表」
）の接続関係はないので第９図の文字列（８）と文字列
（９）は接続しない。

そこで、同様な処理を行って、順次後の文字列との接続
の有無を調べる。その結果、第９図において文字列（１
５）とはじめて接続する文字列（１９）となる。この結
果は、以下に記載する処理によって得られる。すなわち
１文字列（１９）の先頭の文字「の」の１つ後に普通名
詞「順序」が存在するので、この「順序」で文字の並び
が区切られ、先頭の単語「の」となる。文字列【１５）
の末尾の単語「そ」と文字列（１９）の先頭の単語「の
」とで構成される文字の並び「そのＪ　（２６）は、第
２図に示すように単語・文法辞書（２０ａ）に単語とし
て存在し、その文法的属性は連体詞である。次に、単語
・文法辞書（２０ａ）を参照すると、コンマ（読点）（
ｒ、Ｊ）と連体詞（「その」）、連体詞（「その」）と
普通名詞（「順序」）にそれぞれ接続関係があることが
判明する。したがって２文字列（１５）と文字列（１９
）は接続する。

文字列（１５）と文字列（１９）とが接続することが判
明したので、その間の文字の並び、すなわち９文字列（
１６）から文字列（１８）までの文字の並び（文字の並
びＡと呼ぶ）とその他の文字の並び（文字の並びＢと呼
ぶ）とに分離する。

文字の並びＡには先頭の文字列（１６）の先頭の文字の
並びに単語（キーワード）「表」が存在するので９文字
の並びＡは表の内容であると判定し。

文字の並びＡに対して以下に記載する表の処理を行う。

すなわち９文字の並びＡの各文字列に対応する文字列イ
メージおよび各文字に対応する文字パターンの位置と大
きさの情報から、スペースを検出し、このスペースの位
置で分離して得られた各文字の並びを論理的な文字の並
びとする。

第３図において認識して得られた文字の並びを出力する
際には、まず１文字の並びＡの属性である表を示す制御
記号（３０）を先頭に付加する。つぎに１文字の並びＡ
の各文字列の末尾に物理的な文字の並びの区切りを示す
制御記号（２７）を付加する。さらに１文字の並びＡの
上記各論理的な文字の並びの末尾に、論理的な文字の並
びの区切りを示す制御記号（２８）を付加する。

表など本文以外の属性を持つ文字の並びを除いた文字の
並びＢは本文の内容であると判定し１本文の処理を行う
。すなわち、上記表の処理と同様にしてスペースを検出
し１文字列の先頭に１個のスペースが存在する各文字列
の先頭で文字の並びＢを分離して得られた各文字の並び
を段落の文字の並びとする。

文字の並びを出力する際には、各段落の文字の並びの先
頭に段落を示す制御記号（２９）を付加し。

文字の並びＢの各文字列の末尾に物理的な文字の区切り
を示す制御記号（２７）を付加する。

以上の処理によって、第３図に示すように、属性ごとに
１文字の並びを分離し、各種の制御記号が付加された文
字の並びが得られる。そこで、これらの制御信号をワー
ドプロセッサなどの制御記号とリンクさせることにより
、ワードプロセッサなどの編集機能と一体化して使用す
ることができる。

なお、上記実施例では読取る文書が論文誌の場合につい
て説明したが、雑誌・新聞・住所録など他の文書でも同
様の効果を奏する。

また、上記実施例では横書き文書の場合について説明し
たが、縦書き文書でもよく９文字列切り出し手段１文字
切り出し手段１文字認識手段などは周知の他の方法を用
いてもよい。

さらに表の処理で論理的な文字の並びを検出する方法は
、スペースを検出する方法について説明したが０周知の
技術を用いて罫線を検出し、罫線で囲まれた領域の文字
の並びを論理的な文字の並びとする方法でもよい。

そして本発明の他の実施例においては、メモリ手段とし
て文字認識辞書（５）と単語文法辞書（２０ａ）との２
つのメモリ手段を設けたが１文字認識辞書（５）と単語
文法辞書（２０ａ）のメモリ内容を１つのメモリ手段に
記憶させてもよい。

つぎに本発明の他の実施例を説明する。

第４図は、この発明にかかわる文書読取装置の他の実施
例の構成を示す図である。第４図において、第７図と同
一符号は同一部材を示す。（２０ｂ）は文書の種類ごと
に項目名とその項目の内容に存在しつるキーワードとを
対応づけて格納した記憶手段としての項目・キーワード
辞書、　（２１ｂｌは文字認識手段（６）で認識して得
られた文字の並びに存在する単語と上記項目・キーワー
ド辞書（２０ｂ）に格納されたキーワードを整合させる
ことにより上記文字の並びを項目ごとに分割して各項目
に属する文字の並びを決定する編集手段としての項目決
定手段である。

第５図は１項目・キーワード辞書（１１）の記憶内容を
示す図である。第５図において、　（３１）は名刺等の
文書の種類を格納する欄、　（３２）は機関、所属等の
項目名を格納する欄、　（３３）は項目名（３２）に対
応する会社９部等のキーワード群を格納する欄。

（３０は項目名「所属Ｊ　、　（３５）は項目名「所属
」（３４）に対応するキーワード群、　（３６）はキー
ワード群（３５）の１つのキーワード「所Ｊ　、　（３
７）は項目名「役職Ｊ　、　（３８）は項目名「役職Ｊ
　（３７）に対応するキーワード群、　（３９）はキー
ワード群（３８）の１つのキーワード群「？長Ｊ　、　
（４０）は項目名「氏名」。

（４１）は項目名「氏名Ｊ　（４０）のキーワード群、
　（４２）はキーワード群（４１）の１つのキーワード
「■姓名辞書」である。なお、先頭に“■”が付加され
たキーワード「■姓名辞書Ｊ　（４２）はキーワードそ
のものではなくて、「姓名辞書」を参照することを示し
ている。又、先頭に“？”が付加されたキーワード「？
長Ｊ　（３９）は−？”の部分に上位の項目名（「所属
」など）のキーワードが存在することを示している。

第６図は、第４図の項目決定手段（２１ｂ）で決定した
項目名と各項目に対応する認識した文字の並び（内容）
を示す図である。第６図において。

（４３）は項目名を出力する欄、　（４４）は項目に対
応する文字の並び（内容）を出力する欄、　（４５）　
、　（４８）　。

（５１）、はそれぞれ項目名「所属」、「役職」。

「氏名Ｊ　、　（４６）、　（４９）、　（５２）はそ
れぞれ項目名「機関」、「役職」、「氏名」に対応する
内容「情報電子研究所」、「所長」、「三菱太部」。

（４７）、　（５０）はそれぞれ各項目を決定する際に
用いたキーワード「所」、「長」　（図中下線を引いて
示した単語）である。

ここで、第４図に示す文書読取装置の実施例の動作を説
明する。

第４図において光電変換手段（２）から文字認識出力（
６）までの動作は、第１２図から第１５図までの図に示
した他の従来の文書読取装置の動作と同一である。

この後９項目決定手段（２１ｂ）では文字認識手段（６
）で得られた第１５図に示すような文字の並びを各行ご
とに走査して第５図に示す項目・キーワード辞書（２０
ｂ）のキーワード群を格納する欄（３３）の中にあるキ
ーワードと一致する単語を検索する。

第１５図の第２行に示された文字の並び「情報電子研究
所Ｊ　（１０）では９文字の並び（６０）の中の「所」
が項目・キーワード辞書（２０ｂ）の第５図に示す項目
名「所属Ｊ　（３４）のキーワード群（３５）の中に存
在し、その他のキーワードは存在しないので、第１５図
の第２行の「情報電子研究所Ｊ　（６０）は項目名「所
属Ｊ　（３４）の内容であると決定し、第６図のように
「所属Ｊ　（４５）＝　ｒ情報電子研究所」（４６）と
出力する。

また、第１３図の第３行に示された文字の並び「所長三
菱太部Ｊ　（５５）では１文字の並び（５５）中の文字
「長」が項目・キーワード辞書（２０ｂ）の第５図に示
す項目名「役職」（７）のキーワード群（３８）の中に
存在し、第１３図に示す文字の並び「所長三菱太部Ｊ　
（５５）の中の「所」は第５図に示すキーワード「？長
Ｊ　（３９）の「？」に対応しており、上位の項目名「
所属Ｊ　（３４）のキーワード「所Ｊ　（３６）であり
、第６図に示すように「所属Ｊ　（４５）＝　ｒ情報電
子研究所Ｊ　（４６３のキーワード「所Ｊ　（４７）と
して用いられている。一方、「三菱」、「太部」はそれ
ぞれ姓名辞書（図示していない）の中に存在する。そこ
で、第１５図の第３行の「所長三菱太部Ｊ　（６１）は
「所長」と「三菱太部」に分離して、「所長」は項目名
「役職Ｊ　（３７）の内容であり、「三菱太部」は項目
名「氏名Ｊ　（４０）の内容であると決定し、第６図に
示すように「役職Ｊ　（４８）＝「所長Ｊ　（４９）、
　　ｒ氏名Ｊ　（５１）＝　ｒ三菱太部」（５２）と出
力する。なお、この場合は「所長」と「三菱太部」とで
は文字の大きさが異なるので切り出した文字パターンの
矩形情報を用いて分離することもできる。

さらに、第１３図に示した他の行についても同様な処理
をすることにより、第６図に示すように、下線で示した
単語をキーワードとして１項目名とその内容の対応関係
が得られる。そこで、これをデイスプレィなどの表示装
置に表示したり。

ディスクなどの記憶装置に記憶したりすることができる
。

ここで９項目・キーワード辞書において、あるキーワー
ドが重複して複数の項目名に対応する場合２例えば、「
所」が項目名「機関」と「所属」のキーワードである場
合、「情報電子研究所」の項目名は「機関」と「所属」
の可能性があるが。

この実施例では「三菱電機株式会社」の項目名が「機関
」と決定しているので、「情報電子研究所」の項目名は
「所属」と決定する。

また９文字の並びの中にキーワードが存在しない場合は
、第２位以降の認識カテゴリ（文字）を併用して該文字
の並びの中のキーワードの検索を行う。これにより、誤
読文字が存在する場合でもキーワード群の検索ができる
。

そして１本発明の他の実施例においては、メモリ手段と
して１文字認識辞書（５）と項目・キーワード辞書（２
０ｂ）との２つのメモリ手段を設けたが９文字認識辞書
（５）と項目・キーワード辞書（２０ｂ）とのメモリ内
容を１つのメモリ手段に記憶させてもよい。

また、上記実施例では第１位の認識文字（カテゴリ）だ
けを用いる場合について説明したが、第２位以降の認識
文字（カテゴリ）およびその順位または類似度を併用し
てもよい。

［発明の効果］以上のように、この発明によれば、書式変換対象の文脈
情報としての第２の情報を記憶する記憶手段と９編集手
段とを付加することにより１本文中の文字の並びや図表
中の文字の並びなど書式を編集して出力することができ
るので、読みやすい出力を得ることができる。

【図面の簡単な説明】

第１図は本発明の一実施例による文書読取装置の全体構
成図、第２図は単語・文法辞書による検索の概要を示す
図、第３図は文章編集手段で編集して得られた文字の並
びを示す図、第４図は本発明の他の実施例による文書読
取装置の全体構成図、第５図は項目・キーワード辞書の
記憶内容を示す図、第６図は項目決定手段で編集して得
られた文字の並びを示す図、第７図は従来の文書読取装
置の全体構成図、第８図は従来例の光電変換手段で得ら
れた文書画像を示す図、第９図は従来例の文字列切り出
し手段が切り出した各文字列イメージの矩形を示す図、
第１Ｏ図は従来例の文字切り出し手段が１文字ずつ切り
出した文字パターンの矩形を示す図、第１１図は従来例
の文字認識手段が認識して得られた文字の並びを示す図
、第１２図は他の従来例の光電変換手段で得られた文書
画像を示す図、第１３図は他の従来例の文字列切り出し
手段（３）が切り出した各文字列イメージを矩形で示し
た図、第１４図は他の従来例の文字切り出し手段が１文
字ずつ切り出した文字パターンの矩形を示す図、第１５
図は他の従来例の文字認識手段が認識して得られた文字
の並びを示す図である。図において、（２）は画像入力手段、（５）は記憶手段
、　（３ン、　（４）　、　（６）は認識手段、　（２
０ａ）　。（２０ｂ）は記憶手段、　（２１ａ）　、　（２１ｂ）
は編集手段である。なお、各図中同一符号は同−又は相当部分を示す。

Claims

【特許請求の範囲】

用紙などに記入または印刷された文書を画像入力する画
像入力手段と、文字認識対象のカテゴリ情報としての第
１の情報を予め記憶する記憶手段と、書式変換対象の文
脈情報としての第２の情報を予め記憶する記憶手段と、
前記画像入力手段の出力と前記記憶手段の第１の情報と
に基づいて文字を認識する認識手段と、この認識手段の
出力と前記記憶手段の第２の情報とに基づいて書式を編
集する編集手段とを備えた事を特徴とする文書読取装置
。