JPH03142694A - 文書読取装置 - Google Patents

文書読取装置

Info

Publication number
JPH03142694A
JPH03142694A JP1282321A JP28232189A JPH03142694A JP H03142694 A JPH03142694 A JP H03142694A JP 1282321 A JP1282321 A JP 1282321A JP 28232189 A JP28232189 A JP 28232189A JP H03142694 A JPH03142694 A JP H03142694A
Authority
JP
Japan
Prior art keywords
character
word
sequence
character string
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1282321A
Other languages
English (en)
Other versions
JPH087776B2 (ja
Inventor
Kazumi Matsuura
松浦 一己
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP1282321A priority Critical patent/JPH087776B2/ja
Publication of JPH03142694A publication Critical patent/JPH03142694A/ja
Publication of JPH087776B2 publication Critical patent/JPH087776B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 【産業上の利用分野] この発明は、用紙などに記入または印刷された文書を光
学的に走査して光電変換することにより得られた文書画
像から1文字ずつ文字パターンを切り出して認識するこ
とによって文書を読取る文書読取装置に関するものであ
る。
[従来の技術] 文書を読取るには、用紙に記入または印刷された文書を
光学的に走査して光電変換を行い1文字の部分、背景の
部分をそれぞれl(黒)、0 (白)の信号に2値化変
換した文書画像から1文字ずつ文字パターンを切り出し
て認識しなければならない。
第7図は、特開昭61−193277号に示された従来
の文書読取装置の全体構成を示す図である。
第7図において、(1)は用紙、(2)は用紙(1)上
に記入または印刷された文書を光学的に走査して光電変
換を行う画像入力手段としての光電変換手段、(3)は
光電変換手段(2)で光電変換した文書画像を走査する
ことによって文字列の領域を検出して切り出す文字列切
り出し手段、(4)は文字列切り出し手段(3)で切り
出した文字列イメージを走査することにより1文字ずつ
文字の領域を検出して切り出す文字切り出し手段、(5
)は第1の情報としての読取対象文字(カテゴリ)の基
準パターンを格納した記憶手段としての文字認識辞書、
(6)は文字切り出し手段(4)で切り出した文字パタ
ーンと文字認識辞書(5)に格納された基準パターンと
を整合することにより上記文字パターンのカテゴリ(文
字)を決定する文字認識手段である。文字認識手段(6
)と文字列切り出し手段(3)と文字切り出し手段(4
)とは、認識手段である。
第8図から第11図までの図は、第7図に示した従来の
文書読取装置の動作を説明するための図である。
第8図の(7)は、用紙(1)に印刷された文書(論文
誌)を光電変換手段(2)により光学的に走査し、光電
変換して得られた文書画像である。
第9図は、第8図に示した文書画像(7)から文字列切
り出し手段(3)が切り出した各文字列イメージの矩形
を示した図であり、(8)〜(12)はそれぞれその内
の1つの文字列イメージである。
第10図は、第9図に示した各文字列イメージから文字
切り出し手段(4)において出力されて。
1文字ずつ切り出した文字パターンの矩形を示した図で
あり、 (13)は文字列イメージ(8)から切り出し
た1つの文字パターンである。
第11図は、第1O図に示した各文字パターンを文字認
識手段(6)が認識して得られた文字の並びを示す図で
あり、 (14)は文字パターン(13)を認識して得
られた文字「そ」 (図中、○印で囲んで示した文字)
である。また1図中、下線を引いて示した(15)〜(
19)は、それぞれ9文字列イメージ(8)〜(12)
の各文字パターンを認識して得られ文字の並び(文字列
)である。なお、第11図では1つの文字列イメージに
対応する認識して得られた文字の並びを1つの行に示し
ている。
次に9文字の並びに対する属性が複数個存在する文書か
ら文字の並びを読みとって属性ごとにまとめて出力する
場合について、従来の文書読取装置の動作例を説明する
まず、第7図において、用紙(1)上に記入または印刷
された文書を光電変換手段(2)によって光電変換し、
第8図に示した文書画像(7)を得る。
つぎに文字列切り出し手段(3)では、第8図に示した
文書画像(7)を走査して黒匪素が密集する領域を検出
し2文字列イメージを切り出す。第9図に示した文字列
イメージ(8)〜(12)はそれぞれ文書画像(7)か
ら切り出した文字列イメージの1つである。具体的には
9文書画像(7)をメツシュ状に分割して得た各小領域
を1画素に圧縮した圧縮画像上で同一連結成分に同一ラ
ベルを割当てるラベリング処理などにより黒画素が連結
する領域を検出し、検出した領域の位置や大きさなどの
情報から文字列と判定した領域の文書画像を文字列イメ
ージ(8)〜(12)として切り出す。
また、第7図の文字切り出し手段(4)では9文字列切
り出し手段(3)で切り出した文字列イメージごとに文
字列イメージを走査して文字列と直交する方向の黒画素
の周辺分布値を求め、求めた周辺分布値の連続性に基づ
いて上記文字列イメージを分割して得られた各パターン
の外接矩形の位置や大きさなどの情報から1文字ずつの
文字パターンを決定して切り出す。第10図に示した文
字ノぺターン「そJ (13)は、第9図に示した文字
列イメージ(8)から切り出した末尾の文字パターンで
ある。
さらに、第7図の文字認識手段(6)では9文字切り出
し手段(4)で切り出した各文字パターンと文字認識辞
書(5)に格納された読取対象の文字(カテゴリ)の各
基準パターンとを整合させて最も整合する基準パターン
の文字(カテゴリ)を該文字パターンの文字(カテゴリ
)と決定(認識)する。第11図に○印で囲んで示した
文字「そ」(14)は第1O図に示した文字パターン(
13)を認識して得られた文字である。
一方、他の従来例として9名刺や住所録などのように項
目ごとに情報を蓄積することについて意味をもつ文書を
読取る場合について説明する。
第12図1よ、第7図の光電変換手段(2)で得られた
文書画像を示す図である。
第13図は、第12図に示した文書画像から第7図の文
字列切り出し手段(3)が切り出した各文字列イメージ
を矩形で示した図であり、 (53)と(55)は、そ
れぞれ、1つの文字列イメージ「情報電子研究所」と「
所長三菱太部」である。
第14図は、第13図に示した各文字列イメージから第
7図の文字切り出し手段(4)が1文字ずつ切り出した
文字パターンの矩形を示した図であり、 (Sa)は文
字列イメージ(55)から切り出された1つの文字パタ
ーン「所」である。
第15図は、第14図に示した各文字パターンを第7図
の文字認識手段(6)が認識して得られた文字の並びを
示す図であり、 (59)は文字パターン(58)を認
識して得られた文字「所」である。また、 (60)と
(61)は、それぞれ第13図の文字列イメージ(53
)と(55)の各文字パターンを認識して得られた文字
の並び「情報電子研究所」と「所長三菱太部」である。
なお、第15図では、1つの文字列イメージに対応する
認識した文字の並びを1つの行に示している。
次に動作について説明する。
まず、第7図において用紙(1)上に記入または印刷さ
れた文書は光電変換手段(2)によって光電変換され、
第12図に示した文書画像を得る。
つぎに0文字列切り出し手段(3)では、第12図に示
した文書画像を走査して黒画素が密集する領域を検出し
9文字列イメージを切り出す。第13図の文字列イメー
ジ(55)は第12図に示した文書画像から切り出した
文字列イメージの1つである。具体的には、第12図に
示した文書画像をメツシュ状に分割して得られた各小領
域を1画素に圧縮した圧縮画像上で同一連結成分に同一
ラベルを割当てるラベリング処理により黒画素が連結す
る領域を求め、得られた領域の位置や大きさなどの情報
から文字列と判定した領域の文書画像を文字列イメージ
として切り出す。
また2文字切り出し手段(4)では9文字列切り出し手
段(3)で切り出した文字列イメージごとに文字列イメ
ージを走査して文字列と直交する方向の黒画素の周辺分
布値を求め、求めた周辺分布値の連続性に基づいて上記
文字列イメージを分割して得られた各パターンの外接矩
形の位置や大きさなどの情報から1文字ずつの文字パタ
ーンを決定して切り出す。第14図に示した文字パター
ン「所J C58)は第13図に示した文字列イメージ
(55)から切り出した先頭の文字パターンである。
さらに9文字認識手段(6)では9文字切り出し手段(
4)で切り出した各文字パターンと文字認識辞書(5)
に格納された読取対象の各基準パターンとを整合させて
最も整合する基準パターンの文字(カテゴリ)を該文字
パターンの文字(カテゴリ)と決定(認識)する。第1
5図に示した文字「所J (59)は第14図に示した
文字パターン「所J (58)を認識して得られた文字
である。
[発明が解決しようとする課題] 従来の文書読取装置は文字切り出し手段(4)で切り出
された文字を順次文字認識手段(6)で認識して単純な
文字の並びとして出力するように構成されていたので、
雑誌や新聞及び名刺等の文書の読取りにおいては、あら
かじめ書式を設定することができないという問題点があ
った。
この発明は上記の問題点を解決するためになされたもの
で、書式設定が可能な文書読取装置を得る事を目的とす
る。
[課題を解決するための手段] 本発明に係る文書読取装置においては、書式変換対象の
文脈情報としての第2の情報を予め記憶する記憶手段と
2画像入力手段による出力と文字認識対象のカテゴリ情
報としての第1の情報に基づいて文字を認識する認識手
段と、この認識手段の出力と記憶手段に記憶されている
書式変換対象の文脈情報としての第2の情報とに基づい
て書式を編集する編集手段とを設けたものである。
[作用] 上記のように構成された文書読取装置は、記憶手段に書
式変換対象の文脈情報としての第2の情報を予め記憶さ
せて、認識手段の出力と前記書式変換対象の文脈情報と
しての第2の情報とに基づいて書式が編集される。
[発明の実施例] 以下、この発明の実施例を示すブロック図を用いて詳細
に説明する。
第1図は、この発明にかかわる文書読取装置の一実施例
の構成を示す図である。第1図において、第7図と同一
符号は同一部材を示す。(20a)は日本文で使用され
る単語およびその単語の文法的属性を格納した単語辞書
と上記単語の文法的属性間の文法的接続情報を格納した
文法辞書からなる記憶手段としての単語・文法辞書、 
(21alは文字認識手段(6)で認識して得られた文
字の並びに存在する単語とその接続関係を上記単語・文
法辞書(20a)を参照して検査することにより文字列
間の接続の有無を判定して上記認識して得られた文字の
並びを編集する編集手段としての文章編集手段である。
第2図は単語・文法辞書(20)による検索の概要を示
す図で、具体的にはある文字列の末尾の単語とそれ以降
に存在する別の文字列の先頭の単語とを並べたときの接
続の有無を示している。第2図において、 (22)は
ある文字列の末尾の単語と別の文字列の先頭の単語を並
べてできる文字の並びを入れた欄、 (23)は文字の
並びを入れる欄(22)の各文字の並びの接続関係の有
無を入れた欄である。
また、 (25)は第11図における文字列(15)と
文字列(16)の組合わせから得られた文字の並び、 
(26)は第11図における文字列(15)と文字列(
19)の組合わせから得られた文字の並びである。図に
おいて、接続の有無は、それぞれ“○”X”印で表して
いる。また9文字列間の切れめは““印で示している。
第3図は、認識手段〔6)で認識して得られた第11図
に示すような文字の並びを文章編集手段(21a)で編
集して得られた文字の並びを示す図である。第3図にお
いて、 (29)および(30)は属性を示す制御記号
であり、 (29)は段落を示す制御記号、 (30)
は表を示す制御記号である。また、 (27)は物理的
な文字の並びの区切り(文書での文字列の末尾)を示す
制御記号、 (28)は論理的な文字の並びの区切りを
示す制御記号である。
次に第1図に示す文書読取装置の実施例の動作を第2図
と第3図を用いて説明する。
光電変換手段(2)から文字認識手段(61までの動作
は、第8図から第11図までの図に示した従来の文書読
取り装置の動作と同一である。
この後、第1図の文章編集手段(21a)では9文字認
識手段(6)で得られた第11図に示すような文字の並
びを各行ごとに走査し、単語・文法辞書(20a)を参
照して文字列の末尾の単語と接続する先頭の単語が存在
する該文字列より後の文字列を検出する。
第11図において文字列(15)の末尾の文字「そJ 
(14)の1つ前にコンマ(読点)「、」が存在するの
で′、この「、」で文字の並びが区切られ、末尾の単語
は「そ」となる。また、1つ後の文字列(16)の先頭
の文字「表」の1つ後にアラビア数字rlJが存在する
ので、この「l」で文字の並びが区切られ、先頭の単語
はW通名詞「表」となる。そこで、これらの単語から構
成される文字の並び「そ表」を単語・文法辞書(20a
)を用いて検索する。まず、単語「そ表」を検索する。
しかし、第2図に示すように単語「そ表」は単語・文法
辞書(20a)に存在しない。そこで、つぎに。
単語・文法辞書(20a)に存在する単語「そ」と「表
」の接続関係を調べる。単語「そ」は動詞「そぐ(削ぐ
、殺ぐ)」、「そる(反る。剃る)」の語幹となる可能
性があるが、動詞の語幹(「そ」)と普通名詞(「表」
)の接続関係はないので第9図の文字列(8)と文字列
(9)は接続しない。
そこで、同様な処理を行って、順次後の文字列との接続
の有無を調べる。その結果、第9図において文字列(1
5)とはじめて接続する文字列(19)となる。この結
果は、以下に記載する処理によって得られる。すなわち
1文字列(19)の先頭の文字「の」の1つ後に普通名
詞「順序」が存在するので、この「順序」で文字の並び
が区切られ、先頭の単語「の」となる。文字列【15)
の末尾の単語「そ」と文字列(19)の先頭の単語「の
」とで構成される文字の並び「そのJ (26)は、第
2図に示すように単語・文法辞書(20a)に単語とし
て存在し、その文法的属性は連体詞である。次に、単語
・文法辞書(20a)を参照すると、コンマ(読点)(
r、J)と連体詞(「その」)、連体詞(「その」)と
普通名詞(「順序」)にそれぞれ接続関係があることが
判明する。したがって2文字列(15)と文字列(19
)は接続する。
文字列(15)と文字列(19)とが接続することが判
明したので、その間の文字の並び、すなわち9文字列(
16)から文字列(18)までの文字の並び(文字の並
びAと呼ぶ)とその他の文字の並び(文字の並びBと呼
ぶ)とに分離する。
文字の並びAには先頭の文字列(16)の先頭の文字の
並びに単語(キーワード)「表」が存在するので9文字
の並びAは表の内容であると判定し。
文字の並びAに対して以下に記載する表の処理を行う。
すなわち9文字の並びAの各文字列に対応する文字列イ
メージおよび各文字に対応する文字パターンの位置と大
きさの情報から、スペースを検出し、このスペースの位
置で分離して得られた各文字の並びを論理的な文字の並
びとする。
第3図において認識して得られた文字の並びを出力する
際には、まず1文字の並びAの属性である表を示す制御
記号(30)を先頭に付加する。つぎに1文字の並びA
の各文字列の末尾に物理的な文字の並びの区切りを示す
制御記号(27)を付加する。さらに1文字の並びAの
上記各論理的な文字の並びの末尾に、論理的な文字の並
びの区切りを示す制御記号(28)を付加する。
表など本文以外の属性を持つ文字の並びを除いた文字の
並びBは本文の内容であると判定し1本文の処理を行う
。すなわち、上記表の処理と同様にしてスペースを検出
し1文字列の先頭に1個のスペースが存在する各文字列
の先頭で文字の並びBを分離して得られた各文字の並び
を段落の文字の並びとする。
文字の並びを出力する際には、各段落の文字の並びの先
頭に段落を示す制御記号(29)を付加し。
文字の並びBの各文字列の末尾に物理的な文字の区切り
を示す制御記号(27)を付加する。
以上の処理によって、第3図に示すように、属性ごとに
1文字の並びを分離し、各種の制御記号が付加された文
字の並びが得られる。そこで、これらの制御信号をワー
ドプロセッサなどの制御記号とリンクさせることにより
、ワードプロセッサなどの編集機能と一体化して使用す
ることができる。
なお、上記実施例では読取る文書が論文誌の場合につい
て説明したが、雑誌・新聞・住所録など他の文書でも同
様の効果を奏する。
また、上記実施例では横書き文書の場合について説明し
たが、縦書き文書でもよく9文字列切り出し手段1文字
切り出し手段1文字認識手段などは周知の他の方法を用
いてもよい。
さらに表の処理で論理的な文字の並びを検出する方法は
、スペースを検出する方法について説明したが0周知の
技術を用いて罫線を検出し、罫線で囲まれた領域の文字
の並びを論理的な文字の並びとする方法でもよい。
そして本発明の他の実施例においては、メモリ手段とし
て文字認識辞書(5)と単語文法辞書(20a)との2
つのメモリ手段を設けたが1文字認識辞書(5)と単語
文法辞書(20a)のメモリ内容を1つのメモリ手段に
記憶させてもよい。
つぎに本発明の他の実施例を説明する。
第4図は、この発明にかかわる文書読取装置の他の実施
例の構成を示す図である。第4図において、第7図と同
一符号は同一部材を示す。(20b)は文書の種類ごと
に項目名とその項目の内容に存在しつるキーワードとを
対応づけて格納した記憶手段としての項目・キーワード
辞書、 (21blは文字認識手段(6)で認識して得
られた文字の並びに存在する単語と上記項目・キーワー
ド辞書(20b)に格納されたキーワードを整合させる
ことにより上記文字の並びを項目ごとに分割して各項目
に属する文字の並びを決定する編集手段としての項目決
定手段である。
第5図は1項目・キーワード辞書(11)の記憶内容を
示す図である。第5図において、 (31)は名刺等の
文書の種類を格納する欄、 (32)は機関、所属等の
項目名を格納する欄、 (33)は項目名(32)に対
応する会社9部等のキーワード群を格納する欄。
(30は項目名「所属J 、 (35)は項目名「所属
」(34)に対応するキーワード群、 (36)はキー
ワード群(35)の1つのキーワード「所J 、 (3
7)は項目名「役職J 、 (38)は項目名「役職J
 (37)に対応するキーワード群、 (39)はキー
ワード群(38)の1つのキーワード群「?長J 、 
(40)は項目名「氏名」。
(41)は項目名「氏名J (40)のキーワード群、
 (42)はキーワード群(41)の1つのキーワード
「■姓名辞書」である。なお、先頭に“■”が付加され
たキーワード「■姓名辞書J (42)はキーワードそ
のものではなくて、「姓名辞書」を参照することを示し
ている。又、先頭に“?”が付加されたキーワード「?
長J (39)は−?”の部分に上位の項目名(「所属
」など)のキーワードが存在することを示している。
第6図は、第4図の項目決定手段(21b)で決定した
項目名と各項目に対応する認識した文字の並び(内容)
を示す図である。第6図において。
(43)は項目名を出力する欄、 (44)は項目に対
応する文字の並び(内容)を出力する欄、 (45) 
、 (48) 。
(51)、はそれぞれ項目名「所属」、「役職」。
「氏名J 、 (46)、 (49)、 (52)はそ
れぞれ項目名「機関」、「役職」、「氏名」に対応する
内容「情報電子研究所」、「所長」、「三菱太部」。
(47)、 (50)はそれぞれ各項目を決定する際に
用いたキーワード「所」、「長」 (図中下線を引いて
示した単語)である。
ここで、第4図に示す文書読取装置の実施例の動作を説
明する。
第4図において光電変換手段(2)から文字認識出力(
6)までの動作は、第12図から第15図までの図に示
した他の従来の文書読取装置の動作と同一である。
この後9項目決定手段(21b)では文字認識手段(6
)で得られた第15図に示すような文字の並びを各行ご
とに走査して第5図に示す項目・キーワード辞書(20
b)のキーワード群を格納する欄(33)の中にあるキ
ーワードと一致する単語を検索する。
第15図の第2行に示された文字の並び「情報電子研究
所J (10)では9文字の並び(60)の中の「所」
が項目・キーワード辞書(20b)の第5図に示す項目
名「所属J (34)のキーワード群(35)の中に存
在し、その他のキーワードは存在しないので、第15図
の第2行の「情報電子研究所J (60)は項目名「所
属J (34)の内容であると決定し、第6図のように
「所属J (45)= r情報電子研究所」(46)と
出力する。
また、第13図の第3行に示された文字の並び「所長三
菱太部J (55)では1文字の並び(55)中の文字
「長」が項目・キーワード辞書(20b)の第5図に示
す項目名「役職」(7)のキーワード群(38)の中に
存在し、第13図に示す文字の並び「所長三菱太部J 
(55)の中の「所」は第5図に示すキーワード「?長
J (39)の「?」に対応しており、上位の項目名「
所属J (34)のキーワード「所J (36)であり
、第6図に示すように「所属J (45)= r情報電
子研究所J (463のキーワード「所J (47)と
して用いられている。一方、「三菱」、「太部」はそれ
ぞれ姓名辞書(図示していない)の中に存在する。そこ
で、第15図の第3行の「所長三菱太部J (61)は
「所長」と「三菱太部」に分離して、「所長」は項目名
「役職J (37)の内容であり、「三菱太部」は項目
名「氏名J (40)の内容であると決定し、第6図に
示すように「役職J (48)=「所長J (49)、
  r氏名J (51)= r三菱太部」(52)と出
力する。なお、この場合は「所長」と「三菱太部」とで
は文字の大きさが異なるので切り出した文字パターンの
矩形情報を用いて分離することもできる。
さらに、第13図に示した他の行についても同様な処理
をすることにより、第6図に示すように、下線で示した
単語をキーワードとして1項目名とその内容の対応関係
が得られる。そこで、これをデイスプレィなどの表示装
置に表示したり。
ディスクなどの記憶装置に記憶したりすることができる
ここで9項目・キーワード辞書において、あるキーワー
ドが重複して複数の項目名に対応する場合2例えば、「
所」が項目名「機関」と「所属」のキーワードである場
合、「情報電子研究所」の項目名は「機関」と「所属」
の可能性があるが。
この実施例では「三菱電機株式会社」の項目名が「機関
」と決定しているので、「情報電子研究所」の項目名は
「所属」と決定する。
また9文字の並びの中にキーワードが存在しない場合は
、第2位以降の認識カテゴリ(文字)を併用して該文字
の並びの中のキーワードの検索を行う。これにより、誤
読文字が存在する場合でもキーワード群の検索ができる
そして1本発明の他の実施例においては、メモリ手段と
して1文字認識辞書(5)と項目・キーワード辞書(2
0b)との2つのメモリ手段を設けたが9文字認識辞書
(5)と項目・キーワード辞書(20b)とのメモリ内
容を1つのメモリ手段に記憶させてもよい。
また、上記実施例では第1位の認識文字(カテゴリ)だ
けを用いる場合について説明したが、第2位以降の認識
文字(カテゴリ)およびその順位または類似度を併用し
てもよい。
[発明の効果] 以上のように、この発明によれば、書式変換対象の文脈
情報としての第2の情報を記憶する記憶手段と9編集手
段とを付加することにより1本文中の文字の並びや図表
中の文字の並びなど書式を編集して出力することができ
るので、読みやすい出力を得ることができる。
【図面の簡単な説明】
第1図は本発明の一実施例による文書読取装置の全体構
成図、第2図は単語・文法辞書による検索の概要を示す
図、第3図は文章編集手段で編集して得られた文字の並
びを示す図、第4図は本発明の他の実施例による文書読
取装置の全体構成図、第5図は項目・キーワード辞書の
記憶内容を示す図、第6図は項目決定手段で編集して得
られた文字の並びを示す図、第7図は従来の文書読取装
置の全体構成図、第8図は従来例の光電変換手段で得ら
れた文書画像を示す図、第9図は従来例の文字列切り出
し手段が切り出した各文字列イメージの矩形を示す図、
第1O図は従来例の文字切り出し手段が1文字ずつ切り
出した文字パターンの矩形を示す図、第11図は従来例
の文字認識手段が認識して得られた文字の並びを示す図
、第12図は他の従来例の光電変換手段で得られた文書
画像を示す図、第13図は他の従来例の文字列切り出し
手段(3)が切り出した各文字列イメージを矩形で示し
た図、第14図は他の従来例の文字切り出し手段が1文
字ずつ切り出した文字パターンの矩形を示す図、第15
図は他の従来例の文字認識手段が認識して得られた文字
の並びを示す図である。 図において、(2)は画像入力手段、(5)は記憶手段
、 (3ン、 (4) 、 (6)は認識手段、 (2
0a) 。 (20b)は記憶手段、 (21a) 、 (21b)
は編集手段である。 なお、各図中同一符号は同−又は相当部分を示す。

Claims (1)

    【特許請求の範囲】
  1. 用紙などに記入または印刷された文書を画像入力する画
    像入力手段と、文字認識対象のカテゴリ情報としての第
    1の情報を予め記憶する記憶手段と、書式変換対象の文
    脈情報としての第2の情報を予め記憶する記憶手段と、
    前記画像入力手段の出力と前記記憶手段の第1の情報と
    に基づいて文字を認識する認識手段と、この認識手段の
    出力と前記記憶手段の第2の情報とに基づいて書式を編
    集する編集手段とを備えた事を特徴とする文書読取装置
JP1282321A 1989-10-30 1989-10-30 文書読取装置 Expired - Lifetime JPH087776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1282321A JPH087776B2 (ja) 1989-10-30 1989-10-30 文書読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1282321A JPH087776B2 (ja) 1989-10-30 1989-10-30 文書読取装置

Publications (2)

Publication Number Publication Date
JPH03142694A true JPH03142694A (ja) 1991-06-18
JPH087776B2 JPH087776B2 (ja) 1996-01-29

Family

ID=17650890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1282321A Expired - Lifetime JPH087776B2 (ja) 1989-10-30 1989-10-30 文書読取装置

Country Status (1)

Country Link
JP (1) JPH087776B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5947641A (ja) * 1982-09-10 1984-03-17 Nippon Telegr & Teleph Corp <Ntt> 名刺デ−タベ−ス作成装置
JPS59103177A (ja) * 1982-12-04 1984-06-14 Nippon Telegr & Teleph Corp <Ntt> 名刺読取装置
JPS59148983A (ja) * 1983-02-14 1984-08-25 Hitachi Ltd 漢字認識辞書選択方式
JPS63103378A (ja) * 1986-10-21 1988-05-09 Ricoh Co Ltd 言語解析装置
JPS63282586A (ja) * 1987-05-14 1988-11-18 Ricoh Co Ltd 文字認識装置
JPS6459482A (en) * 1987-08-31 1989-03-07 Toshiba Corp Character recognizing device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5947641A (ja) * 1982-09-10 1984-03-17 Nippon Telegr & Teleph Corp <Ntt> 名刺デ−タベ−ス作成装置
JPS59103177A (ja) * 1982-12-04 1984-06-14 Nippon Telegr & Teleph Corp <Ntt> 名刺読取装置
JPS59148983A (ja) * 1983-02-14 1984-08-25 Hitachi Ltd 漢字認識辞書選択方式
JPS63103378A (ja) * 1986-10-21 1988-05-09 Ricoh Co Ltd 言語解析装置
JPS63282586A (ja) * 1987-05-14 1988-11-18 Ricoh Co Ltd 文字認識装置
JPS6459482A (en) * 1987-08-31 1989-03-07 Toshiba Corp Character recognizing device

Also Published As

Publication number Publication date
JPH087776B2 (ja) 1996-01-29

Similar Documents

Publication Publication Date Title
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
US5748805A (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
JP3427692B2 (ja) 文字認識方法および文字認識装置
JP3282860B2 (ja) 文書上のテキストのデジタル画像を処理する装置
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
US8208726B2 (en) Method and system for optical character recognition using image clustering
US6374242B1 (en) Natural-language information processor with association searches limited within blocks
EP1304625B1 (en) Method and apparatus for forward annotating documents and for generating a summary from a document image
JPH03142694A (ja) 文書読取装置
JP2559356B2 (ja) 文書画像処理方法
Taylor et al. Integrating natural language understanding with document structure analysis
JPH0327471A (ja) 画像登録方式
JPH06149881A (ja) 辞書引き装置及び文書処理装置並びにディジタル複写装置
Faure Preattentive reading and selective attention for document image analysis
JP2904849B2 (ja) 文字認識装置
JP2570784B2 (ja) 文書リーダ後処理装置
Holstege et al. Visual parsing: an aid to text understanding
JP2931485B2 (ja) 文字切出し装置及び方法
JPH0756924A (ja) 対訳装置
JP2749425B2 (ja) 記事抽出方式
CN111985189A (zh) 适用于深度学习及思考的模块化笔记系统及电子转换方法
JP2733057B2 (ja) 文字列成分抽出装置
Sugawara Document Reader for the Visually Disabled
JPS63143685A (ja) 文字認識装置における認識結果表示方法