JPH087776B2 - 文書読取装置 - Google Patents

文書読取装置

Info

Publication number
JPH087776B2
JPH087776B2 JP1282321A JP28232189A JPH087776B2 JP H087776 B2 JPH087776 B2 JP H087776B2 JP 1282321 A JP1282321 A JP 1282321A JP 28232189 A JP28232189 A JP 28232189A JP H087776 B2 JPH087776 B2 JP H087776B2
Authority
JP
Japan
Prior art keywords
character
character string
item
keyword
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1282321A
Other languages
English (en)
Other versions
JPH03142694A (ja
Inventor
一己 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP1282321A priority Critical patent/JPH087776B2/ja
Publication of JPH03142694A publication Critical patent/JPH03142694A/ja
Publication of JPH087776B2 publication Critical patent/JPH087776B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は,用紙などに記入または印刷された文書を
光学的に走査して光電変換することにより得られた文書
画像から1文字ずつ文字パターンを切り出して認識する
ことによつて文書を読取る文書読取装置に関するもので
ある。
[従来の技術] 文書を読取るには,用紙に記入または印刷された文書
を光学的に走査して光電変換を行い,文字の部分,背景
の部分をそれぞれ1(黒),0(白)の信号に2値化変換
した文書画像から1文字ずつ文字パターンを切り出して
認識しなければならない。
第7図は,特開昭61-193277号に示された従来の文書
読取装置の全体構成を示す図である。
第7図において,(1)は用紙,(2)は用紙(1)
上に記入または印刷された文書を光学的に走査して光電
変換を行う画像入力手段としての光電変換手段,(3)
は光電変換手段(2)で光電変換した文書画像を走査す
ることによつて文字列の領域を検出して切り出す文字列
切り出し手段,(4)は文字列切り出し手段(3)で切
り出した文字列イメージを走査することにより1文字ず
つ文字の領域を検出して切り出す文字切り出し手段,
(5)は第1の情報としての読取対象文字(カテゴリ)
の基準パターンを格納した記憶手段としての文字認識辞
書,(6)は文字切り出し手段(4)で切り出した文字
パターンと文字認識辞書(5)に格納された基準パター
ンとを整合することにより上記文字パターンのカテゴリ
(文字)を決定する文字認識手段である。文字認識手段
(6)と文字列切り出し手段(3)と文字切り出し手段
(4)とは,認識手段である。
第8図から第11図までの図は,第7図に示した従来の
文書読取装置の動作を説明するための図である。
第8図の(7)は,用紙(1)に印刷された文書(論
文誌)を光電変換手段(2)により光学的に走査し,光
電変換して得られた文書画像である。
第9図は,第8図に示した文書画像(7)から文字列
切り出し手段(3)が切り出した各文字列イメージの矩
形を示した図であり,(8)〜(12)はそれぞれの内の
1つの文字列イメージである。
第10図は,第9図に示した各文字列イメージから文字
切り出し手段(4)において出力されて,1文字ずつ切り
出した文字パターンの矩形を示した図であり,(13)は
文字列イメージ(8)から切り出した1つの文字パター
ンである。
第11図は,第10図に示した各文字パターンを文字認識
手段(6)が認識して得られた文字の並びを示す図であ
り,(14)は文字パターン(13)を認識して得られた文
字「そ」(図中,○印で囲んで示した文字)である。ま
た,図中,下線を引いて示した(15)〜(19)は,それ
ぞれ,文字列イメージ(8)〜(12)の各文字パターン
を認識して得られ文字の並び(文字列)である。なお,
第11図では1つの文字列イメージに対応する認識して得
られた文字の並びを1つの行に示している。
次に,文字の並びに対する属性が複数個存在する文書
から文字の並びを読みとつて属性ごとにまとめて出力す
る場合について,従来の文書読取装置の動作例を説明す
る。
まず,第7図において,用紙(1)上に記入または印
刷された文書を光電変換手段(2)によつて光電変換
し,第8図に示した文書画像(7)を得る。
つぎに文字列切り出し手段(3)では,第8図に示し
た文書画像(7)を走査して黒画素が密集する領域を検
出し,文字列イメージを切り出す。第9図に示した文字
列イメージ(8)〜(12)はそれぞれ文書画像(7)か
ら切り出した文字列イメージの1つである。具体的に
は,文書画像(7)をメツシユ状に分割して得た各小領
域を1画素に圧縮した圧縮画像上で同一連結成分に同一
ラベルを割当てるラベリング処理などにより黒画素が連
結する領域を検出し,検出した領域の位置や大きさなど
の情報から文字列と判定した領域の文書画像を文字列イ
メージ(8)〜(12)として切り出す。
また,第7図の文字切り出し手段(4)では,文字列
切り出し手段(3)で切り出した文字列イメージごとに
文字列イメージを走査して文字列と直交する方向の黒画
素の周辺分布値を求め,求めた周辺分布値の連続性に基
づいて上記文字列イメージを分割して得られた各パター
ンの外接矩形の位置や大きさなどの情報から1文字ずつ
の文字パターンを決定して切り出す。第10図に示した文
字パターン「そ」(13)は,第9図に示した文字列イメ
ージ(8)から切り出した末尾の文字パターンである。
さらに,第7図の文字認識手段(6)では,文字切り
出し手段(4)で切り出した各文字パターンと文字認識
辞書(5)に格納された読取対象の文字(カテゴリ)の
各基準パターンとを整合させて最も整合する基準パター
ンの文字(カテゴリ)を該文字パターンの文字(カテゴ
リ)と決定(認識)する。第11図に○印で囲んで示した
文字「そ」(14)は第10図に示した文字パターン(13)
を認識して得られた文字である。
一方,他の従来例として,名刺や住所録などのように
項目ごとに情報を蓄積することについて意味をもつ文書
を読取る場合について説明する。
第12図は,第7図の光電変換手段(2)で得られた文
書画像を示す図である。
第13図は,第12図に示した文書画像から第7図の文字
列切り出し手段(3)が切り出した各文字列イメージを
矩形で示した図であり,(53)と(55)は,それぞれ,1
つの文字列イメージ「情報電子研究所」と「所長山田太
郎」である。
第14図は,第13図に示した各文字列イメージから第7
図の文字切り出し手段(4)が1文字ずつ切り出した文
字パターンの矩形を示した図であり,(58)は文字列イ
メージ(55)から切り出された1つの文字パターン
「所」である。
第15図は,第14図に示した各文字パターンを第7図の
文字認識手段(6)が認識して得られた文字の並びを示
す図であり,(59)は文字パターン(58)を認識して得
られた文字「所」である。また,(60)と(61)は,そ
れぞれ第13図の文字列イメージ(53)と(55)の各文字
パターンを認識して得られた文字の並び「情報電子研究
所」と「所長山田太郎」である。なお,第15図では,1つ
の文字列イメージに対応する認識した文字の並びを1つ
の行に示している。
次に動作について説明する。
まず,第7図において用紙(1)上に記入または印刷
された文書は光電変換手段(2)によつて光電変換さ
れ,第12図に示した文書画像を得る。
つぎに,文字列切り出し手段(3)では,第12図に示
した文書画像を走査して黒画素が密集する領域を検出
し,文字列イメージを切り出す。第13図の文字列イメー
ジ(55)は第12図に示した文書画像から切り出した文字
列イメージの1つである。具体的には,第12図に示した
文書画像をメツシユ状に分割して得られた各小領域を1
画素に圧縮した圧縮画像上で同一連結成分に同一ラベル
を割当てるラベリング処理により黒画素が連結する領域
を求め,得られた領域の位置や大きさなどの情報から文
字列と判定した領域の文書画像を文字列イメージとして
切り出す。
また,文字切り出し手段(4)では,文字列切り出し
手段(3)で切り出した文字列イメージごとに文字列イ
メージを走査して文字列と直交する方向の黒画素の周辺
分布値を求め,求めた周辺分布値の連続性に基づいて上
記文字列イメージを分割して得られた各パターンの外接
矩形の位置や大きさなどの情報から1文字ずつの文字パ
ターンを決定して切り出す。第14図に示した文字パター
ン「所」(58)は第13図に示した文字列イメージ(55)
から切り出した先頭の文字パターンである。
さらに,文字認識手段(6)では,文字切り出し手段
(4)で切り出した各文字パターンと文字認識辞書
(5)に格納された読取対象の各基準パターンとを整合
させて最も整合する基準パターンの文字(カテゴリ)を
該文字パターンの文字(カテゴリ)と決定(認識)す
る。第15図に示した文字「所」(59)は第14図に示した
文字パターン「所」(58)を認識して得られた文字であ
る。
[発明が解決しようとする課題] 従来の文書読取装置は文字切り出し手段(4)で切り
出された文字を順次文字認識手段(6)で認識して単純
な文字の並びとして出力するように構成されていたの
で,雑誌や新聞及び名刺等の文書の読取りにおいては,
あらかじめ書式を設定することができないという問題点
があつた。
この発明は上記の問題点を解決するためになされたも
ので,書式設定が可能な文書読取装置を得る事を目的と
する。
[課題を解決するための手段] 文書の種類ごとに項目とその項目の内容に存在しうる
キーワードを対応づけて格納する項目・キーワード辞書
と、文字認識手段により認識された文字により構成され
文字列切り出し手段により切り出された文字列と項目・
キーワード辞書のキーワードを照合し、文字列に対する
項目を決定する項目決定手段とを備えたものである。
[作用] 上記のように構成された文書読取装置は,項目決定手
段が認識された文字列と項目・キーワード辞書のキーワ
ードとを照合し、文字列に対する項目を決定し書式を編
集する。
[発明の実施例] 以下,この発明の実施例を示すブロツク図を用いて詳
細に説明する。
第1図は,この発明にかかわる文書読取装置の一実施
例の構成を示す図である。第1図において,第7図と同
一符号は同一部材を示す。(20a)は日本文で使用され
る単語およびその単語の文法的属性を格納した単語辞書
と上記単語の文法的属性間の文法的接続情報を格納した
文法辞書からなる記憶手段としての単語・文法辞書,
(21a)は文字認識手段(6)で認識して得られた文字
の並びに存在する単語とその接続関係を上記単語・文法
辞書(20a)を参照して検査することにより文字列間の
接続の有無を判定して認識して得られた文字の並びを編
集する編集手段としての文章編集手段である。
第2図は単語・文法辞書(20a)による検索の概要を
示す図で,具体的にはある文字列の末尾の単語とそれ以
降に存在する別の文字列の先頭の単語とを並べたときの
接続の有無を示している。第2図において,(22)はあ
る文字列の末尾の単語と別の文字列の先頭の単語を並べ
てできる文字の並びを入れた欄,(23)は文字の並びを
入れる欄(22)の各文字の並びの接続関係の有無を入れ
た欄である。また,(25)は第11図における文字列(1
5)と文字列(16)の組合わせから得られた文字の並
び,(26)は第11図における文字列(15)と文字列(1
9)の組合わせから得られた文字の並びである。図にお
いて,接続の有無は,それぞれ“○”“×”印で表して
いる。また,文字列間の切れめは“▽”印で示してい
る。
第3図は,認識手段(6)で認識して得られた第11図
に示すような文字の並びを文章編集手段(21a)で編集
して得られた文字の並びを示す図である。第3図におい
て,(29)および(30)は属性を示す制御記号であり,
(29)は段落を示す制御記号,(30)は表を示す制御記
号である。また,(27)は物理的な文字の並びの区切り
(文書での文字列の末尾)を示す制御記号,(28)は論
理的な文字の並びの区切りを示す制御記号である。
次に第1図に示す文書読取装置の実施例の動作を第2
図と第3図を用いて説明する。
光電変換手段(2)から文字認識手段(6)までの動
作は,第8図から第11図までの図に示した従来の文書読
取り装置の動作と同一である。
この後,第1図の文章編集手段(21a)では,文字認
識手段(6)で得られた第11図に示すような文字の並び
を各行ごとに走査し,単語・文法辞書(20a)を参照し
て文字列の末尾の単語と接続する先頭の単語が存在する
該文字列より後の文字列を検出する。
第11図において文字列(15)の末尾の文字「そ」(1
4)の1つ前にコンマ(読点)「,」が存在するので,
この「,」で文字の並びが区切られ,末尾の単語は
「そ」となる。また,1つ後の文字列(16)の先頭の文字
「表」の1つ後にアラビア数字「1」が存在するので,
この「1」で文字の並びが区切られ,先頭の単語は普通
名詞「表」となる。そこで,これらの単語から構成され
る文字の並び「そ表」を単語・文法辞書(20a)を用い
て検索する。まず,単語「そ表」を検索する。しかし,
第2図に示すように単語「そ表」は単語・文法辞書(20
a)に存在しない。そこで,つぎに,単語・文法辞書(2
0a)に存在する単語「そ」と「表」の接続関係を調べ
る。単語「そ」は動詞「そぐ(削ぐ,殺ぐ)」,「そる
(反る,剃る)」の語幹となる可能性があるが,動詞の
語幹(「そ」)と普通名詞(「表」)の接続関係はない
ので第9図の文字列(8)と文字列(9)は接続しない そこで,同様な処理を行なつて,順次後の文字列との
接続の有無を調べる。その結果,第11図において文字列
(15)をはじめて接続する文字列(19)となる。この結
果は,以下に記載する処理によつて得られる。すなわ
ち,文字列(19)の先頭の文字「の」の1つ後に普通名
詞「順序」が存在するので,この「順序」で文字の並び
が区切られ,先頭の単語「の」となる。文字列(15)の
末尾の単語「そ」と文字列(19)の先頭の単語「の」と
で構成される文字の並び「その」(26)は,第2図に示
すように単語・文法辞書(20a)に単語として存在し,
その文法的属性は連体詞である。次に,単語・文法辞書
(20a)を参照すると,コンマ(読点)(「,」)と連
体詞(「その」),連体詞(「その」)と普通名詞
(「順序」)にそれぞれ接続関係があることが判明す
る。したがつて,文字列(15)と文字列(19)は接続す
る。
文字列(15)と文字列(19)とが接続することが判明
したので,その間の文字の並び,すなわち,文字列(1
6)から文字列(18)までの文字の並び(文字の並びA
と呼ぶ)とその他の文字の並び(文字の並びBと呼ぶ)
とに分離する。
文字の並びAには先頭の文字列(16)の先頭の文字の
並びに単語(キーワード)「表」が存在するので,文字
の並びAは表の内容であると判定し,文字の並びAに対
して以下に記載する表の処理を行う。すなわち,文字の
並びAの各文字列に対応する文字列イメージおよび各文
字に対応する文字パターンの位置と大きさの情報から,
スペースを検出し,このスペースの位置で分離して得ら
れた各文字の並びを論理的な文字の並びとする。
第3図において認識して得られた文字の並びを出力す
る際には,まず,文字の並びAの属性である表を示す制
御記号(30)を先頭に付加する。つぎに,文字の並びA
の各文字列の末尾に物理的な文字の並びの区切りを示す
制御記号(27)を付加する。さらに,文字の並びAの上
記各論理的な文字の並びの末尾に,論理的な文字の並び
の区切りを示す制御記号(28)を付加する。
表など本文以外の属性を持つ文字の並びを除いた文字
の並びBは本文の内容であると判定し,本文の処理を行
う。すなわち,上記表の処理と同様にしてスペースを検
出し,文字列の先頭に1個のスペースが存在する各文字
列の先頭で文字の並びBを分離して得られた各文字の並
びを段落の文字の並びとする。
文字の並びを出力する際には,各段落の文字の並びの
先頭に段落を示す制御記号(29)を付加し,文字の並び
Bの各文字列の末尾に物理的な文字の区切りを示す制御
記号(27)を付加する。
以上の処理によつて,第3図に示すように,属性ごと
に,文字の並びを分離し,各種の制御記号が付加された
文字の並びが得られる。そこで,これらの制御信号をワ
ードプロセツサなどの制御記号とリンクさせることによ
り,ワードプロセツサなどの編集機能と一体化して使用
することができる。
なお,上記実施例では読取る文書が論文誌の場合につ
いて説明したが,雑誌・新聞・住所録など他の文書でも
同様の効果を奏する。
また,上記実施例では横書き文書の場合について説明
したが,縦書き文書でもよく,文字列切り出し手段,文
字切り出し手段,文字認識手段などは周知の他の方法を
用いてもよい。
さらに表の処理で論理的な文字の並びを検出する方法
は,スペースを検出する方法について説明したが,周知
の技術を用いて罫線を検出し,罫線で囲まれた領域の文
字の並びを論理的な文字の並びとする方法でもよい。
そして本発明の他の実施例においては,メモリ手段と
して文字認識辞書(5)と単語文法辞書(20a)との2
つのメモリ手段を設けたが,文字認識辞書(5)と単語
文法辞書(20a)のメモリ内容を1つのメモリ手段に記
憶させてもよい。
つぎに本発明の他の実施例を説明する。
第4図は,この発明にかかわる文書読取装置の他の実
施例の構成を示す図である。第4図において,第7図と
同一符号は同一部材を示す。(20b)は文書の種類ごと
に項目名とその項目の内容に存在しうるキーワードとを
対応づけて格納した記憶手段としての項目・キーワード
辞書,(21b)は文字認識手段(6)で認識して得られ
た文字の並びに存在する単語と上記項目・キーワード辞
書(20b)に格納されたキーワードを整合させることに
より上記文字の並びを項目ごとに分割して各項目に属す
る文字の並びを決定する編集手段としての項目決定手段
である。
第5図は,項目・キーワード辞書(20b)の記憶内容
を示す図である。第5図において,(31)は名刺等の文
書の種類を格納する欄,(32)は機関,所属等の項目名
を格納する欄,(33)は項目名(32)に対応する会社,
部等のキーワード群を格納する欄,(34)は項目名「所
属」,(35)は項目名「所属」(34)に対応するキーワ
ード群,(36)はキーワード群(35)の1つのキーワー
ド「所」,(37)は項目名「役職」,(38)は項目名
「役職」(37)に対応するキーワード群,(39)はキー
ワード群(38)の1つのキーワード群「?長」,(40)
は項目名「氏名」,(41)は項目名「氏名」(40)のキ
ーワード群,(42)はキーワード群(41)の1つのキー
ワード「姓名辞書」である。なお,先頭に“”が付
加されたキーワード「姓名辞書」(42)はキーワード
そのものではなくて,「姓名辞書」を参照することを示
している。又,先頭に“?"が付加されたキーワード「?
長」(39)は“?"の部分に上位の項目名(「所属」な
ど)のキーワードが存在することを示している。
第6図は,第4図の項目決定手段(21b)で決定した
項目名と各項目に対応する認識した文字の並び(内容)
を示す図である。第6図において,(43)は項目名を出
力する欄,(44)は項目に対応する文字の並び(内容)
を出力する欄,(45),(48),(51),はそれぞれ項
目名「所属」,「役職」,「氏名」,(46),(49),
(52)はそれぞれ項目名「所属」,「役職」,「氏名」
に対応する内容「情報電子研究所」,「所長」,「山田
太郎」,(47),(50)はそれぞれ各項目を決定する際
に用いたキーワード「所」,「長」(図中下線を引いて
示した単語)である。
ここで,第4図に示す文書読取装置の実施例の動作を
説明する。
第4図において光電変換手段(2)から文字認識出力
(6)までの動作は,第12図から第15図までの図に示し
た他の従来の文書読取装置の動作と同一である。
この後,項目決定手段(21b)では文字認識手段
(6)で得られた第15図に示すような文字の並びを各行
ごとに走査して第5図に示す項目・キーワード辞書(20
b)のキーワード群を格納する欄(33)の中にあるキー
ワードと一致する単語を検索する。
第15図の第2行に示された文字の並び「情報電子研究
所」(60)では,文字の並び(60)の中の「所」が項目
・キーワード辞書(20b)の第5図に示す項目名「所
属」(34)のキーワード群(35)の中に存在し,その他
のキーワードは存在しないので,第15図の第2行の「情
報電子研究所」(60)は項目名「所属」(34)の内容で
あると決定し,第6図のように「所属」(45)=「情報
電子研究所」(46)と出力する。
また,第13図の第3行に示された文字の並び「所長山
田太郎」(55)では,文字の並び(55)中の文字「長」
が項目・キーワード辞書(20b)の第5図に示す項目名
「役職」(37)のキーワード群(38)の中に存在し,第
13図に示す文字の並び「所長山田太郎」(55)の中の
「所」は第5図に示すキーワード「?長」(39)の
「?」に対応しており,上位の項目名「所属」(34)の
キーワード「所」(36)であり,第6図に示すように
「所属」(45)=「情報電子研究所」(46)のキーワー
ド「所」(47)として用いらている。一方,「山田」,
「太郎」はそれぞれ姓名辞書(図示していない)の中に
存在する。そこで,第15図の第3行の「所長山田太郎」
(61)は「所長」と「山田太郎」に分離して,「所長」
は項目名「役職」(37)の内容であり,「山田太郎」は
項目名「氏名」(40)の内容であると決定し,第6図に
示すように「役職」(48)=「所長」(49),「氏名」
(51)=「山田太郎」(52)と出力する。なお,この場
合は「所長」と「山田太郎」とでは文字の大きさが異な
るので切り出した文字パターンの矩形情報を用いて分離
することもできる。
さらに,第13図に示した他の行についても同様な処理
をすることにより,第6図に示すように,下線で示した
単語をキーワードとして,項目名とその内容の対応関係
が得られる。そこで,これをデイスプレイなどの表示装
置に表示したり,デイスクなどの記憶装置に記憶したり
することができる。
ここで,項目・キーワード辞書において,あるキーワ
ードが重複して複数の項目名に対応する場合,例えば,
「所」が項目名「機関」と「所属」のキーワードである
場合,「情報電子研究所」の項目名は「機関」と「所
属」の可能性があるが,この実施例では「凸凹電機株式
会社」の項目名が「機関」と決定しているので,「情報
電子研究所」の項目名は「所属」と決定する。
また,文字の並びの中にキーワードが存在しない場合
は,第2位以降の認識カテゴリ(文字)を併用して該文
字の並びの中のキーワードの検索を行う。これにより,
誤読文字が存在する場合でもキーワード群の検索ができ
る。
そして,本発明の他の実施例においては,メモリ手段
として,文字認識辞書(5)と項目・キーワード辞書
(20b)との2つのメモリ手段を設けたが,文字認識辞
書(5)と項目・キーワード辞書(20b)とのメモリ内
容を1つのメモリ手段に記憶させてもよい。
また,上記実施例では第1位の認識文字(カテゴリ)
だけを用いる場合について説明したが,第2位以降の認
識文字(カテゴリ)およびその順位または類似度を併用
してもよい。
[発明の効果] 以上のように,この発明によれば,項目・キーワード
辞書と項目決定手段を備えたことにより、認識した文字
列の項目を決定し項目別に文書を編集することができ
る。
【図面の簡単な説明】
第1図は本発明の一実施例による文書読取装置の全体構
成図,第2図は単語・文法辞書による検索の概要を示す
図,第3図は文章編集手段で編集して得られた文字の並
びを示す図,第4図は本発明の他の実施例による文書読
取装置の全体構成図,第5図は項目・キーワード辞書の
記憶内容を示す図,第6図は項目決定手段で編集して得
られた文字の並びを示す図,第7図は従来の文書読取装
置の全体構成図,第8図は従来例の光電変換手段で得ら
れた文書画像を示す図,第9図は従来例の文字列切り出
し手段が切り出した各文字列イメージの矩形を示す図,
第10図は従来例の文字切り出し手段が1文字ずつ切り出
した文字パターンの矩形を示す図,第11図は従来例の文
字認識手段が認識して得られた文字の並びを示す図,第
12図は他の従来例の光電変換手段で得られた文書画像を
示す図,第13図は他の従来例の文字列切り出し手段
(3)が切り出した各文字列イメージを矩形で示した
図,第14図は他の従来例の文字切り出し手段が1文字ず
つ切り出した文字パターンの矩形を示す図,第15図は他
の従来例の文字認識手段が認識して得られた文字の並び
を示す図である。 図において,(2)は画像入力手段,(5)は記憶手
段,(3),(4),(6)は認識手段,(20a),(2
0b)は記憶手段,(21a),(21b)は編集手段である。 なお,各図中同一符号は同一又は相当部分を示す。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】用紙などに記入または印刷された文書を画
    像入力する画像入力手段と、読取対象文字の基準パター
    ンを格納した文字認識辞書と、前記画像入力手段から出
    力された画像を走査し文字列の領域を検出する文字列切
    り出し手段と、この文字列切り出し手段により切り出さ
    れた文字列を走査し文字の領域を検出して切り出す文字
    切り出し手段と、この文字切り出し手段から切り出され
    た文字パターンと前記文字認識辞書に格納された基準パ
    ターンとを照合し文字を認識する文字認識手段と、文書
    の種類ごとに項目名とその項目の内容に存在しうるキー
    ワードを対応づけて格納する項目・キーワード辞書と、
    前記文字認識手段により認識された文字により構成され
    前記文字列切り出し手段により切り出された文字列と前
    記項目・キーワード辞書のキーワードを照合し前記文字
    列に対する項目を決定する項目決定手段とを備えたこと
    を特徴とする文書読取装置。
JP1282321A 1989-10-30 1989-10-30 文書読取装置 Expired - Lifetime JPH087776B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1282321A JPH087776B2 (ja) 1989-10-30 1989-10-30 文書読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1282321A JPH087776B2 (ja) 1989-10-30 1989-10-30 文書読取装置

Publications (2)

Publication Number Publication Date
JPH03142694A JPH03142694A (ja) 1991-06-18
JPH087776B2 true JPH087776B2 (ja) 1996-01-29

Family

ID=17650890

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1282321A Expired - Lifetime JPH087776B2 (ja) 1989-10-30 1989-10-30 文書読取装置

Country Status (1)

Country Link
JP (1) JPH087776B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5947641A (ja) * 1982-09-10 1984-03-17 Nippon Telegr & Teleph Corp <Ntt> 名刺デ−タベ−ス作成装置
JPS59103177A (ja) * 1982-12-04 1984-06-14 Nippon Telegr & Teleph Corp <Ntt> 名刺読取装置
JPS59148983A (ja) * 1983-02-14 1984-08-25 Hitachi Ltd 漢字認識辞書選択方式
JPH0821034B2 (ja) * 1986-10-21 1996-03-04 株式会社リコー 言語解析装置
JPS63282586A (ja) * 1987-05-14 1988-11-18 Ricoh Co Ltd 文字認識装置
JPS6459482A (en) * 1987-08-31 1989-03-07 Toshiba Corp Character recognizing device

Also Published As

Publication number Publication date
JPH03142694A (ja) 1991-06-18

Similar Documents

Publication Publication Date Title
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
EP0544434B1 (en) Method and apparatus for processing a document image
Chaudhuri et al. A complete printed Bangla OCR system
JP3427692B2 (ja) 文字認識方法および文字認識装置
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
US7756871B2 (en) Article extraction
US5325444A (en) Method and apparatus for determining the frequency of words in a document without document image decoding
US7712028B2 (en) Using annotations for summarizing a document image and itemizing the summary based on similar annotations
US5265242A (en) Document retrieval system for displaying document image data with inputted bibliographic items and character string selected from multiple character candidates
US20030004991A1 (en) Correlating handwritten annotations to a document
EP1304625B1 (en) Method and apparatus for forward annotating documents and for generating a summary from a document image
Saiga et al. An OCR system for business cards
JPH087776B2 (ja) 文書読取装置
Taghva et al. Evaluation of an automatic markup system
JP2559356B2 (ja) 文書画像処理方法
JPH0327471A (ja) 画像登録方式
Ketwong et al. The simple image processing scheme for document retrieval using date of issue as query
Faure Preattentive reading and selective attention for document image analysis
JPH08287189A (ja) 文書処理装置
Eqbal EXTRACTION AND DETECTION OF TEXT FROM IMAGES
JP2749425B2 (ja) 記事抽出方式
Faure Extracting the Tables of Contents from Images of Documents.
JP2615834B2 (ja) 単語読取装置
Sugawara Document Reader for the Visually Disabled
JPH0756924A (ja) 対訳装置