JPH09231317A - 文書認識装置 - Google Patents

文書認識装置

Info

Publication number
JPH09231317A
JPH09231317A JP8034781A JP3478196A JPH09231317A JP H09231317 A JPH09231317 A JP H09231317A JP 8034781 A JP8034781 A JP 8034781A JP 3478196 A JP3478196 A JP 3478196A JP H09231317 A JPH09231317 A JP H09231317A
Authority
JP
Japan
Prior art keywords
character
rectangle
rectangles
block
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8034781A
Other languages
English (en)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8034781A priority Critical patent/JPH09231317A/ja
Publication of JPH09231317A publication Critical patent/JPH09231317A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 行内で文字種が変わる場合でも、精度よく文
字種を識別する。 【解決手段】 入力された文書画像データから行を切り
出し、検出部5は、行内部の外接矩形を抽出する。ブロ
ック生成部7は、近接する矩形を統合してブロックを生
成する。文字種判定部8は、各ブロック毎に、矩形内の
垂直方向の黒ランの数を基に文字種(日本語/英数字)
を識別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書認識装置に関
し、特に紙に記載された文書を認識する際に、その文書
が英文で書かれているのか、日本文で書かれているのか
を判断し、この判断結果に応じて、異なる言語の文字認
識機能が最適に動作するための文書認識装置に関する。
【0002】
【従来の技術】紙の上に記述された文書内容をデータ処
理し、テキストデータとして再利用できるようにするた
めには、文書認識処理は重要な技術である。文書認識処
理における一般的な手法は、文書をイメージスキャナな
どでイメージデータとして読み込み、次いで文書画像を
文字領域および図形領域などに分割し、文字領域に関し
てはテキストデータへの変換処理を行うため、文字認識
処理が行われる。
【0003】これらの文書認識の技術、特に文字認識に
関しては英文、日本文と処理を分けた方がそれぞれの言
語特有の処理を活かすことができ、性能面で有利とな
る。
【0004】このような文書・文字種類を識別する従来
の技術としては、例えば、特開平4−346188号公
報および同4−346189号公報に記載された装置が
ある。前者の文書認識装置では、領域分割によって切り
出された文字行のイメージデータから、一定値以上の長
さを持つ縦線と横線を抽出し、これら縦、横線により囲
まれた閉領域(文字中の矩形)を抽出し、その個数に基
づいて当該文字行が日本文/英文のいずれであるかを認
識する。また、後者の文字列種類識別装置では、領域分
割によって切り出された文字行のイメージデータをスキ
ャンして、文字間の距離を求め、文字間距離の分布に基
づいて英文/日本文を識別する。
【0005】
【発明が解決しようとする課題】しかし、上記した従来
の装置は、領域分割によって切り出された文字領域につ
いて行単位に文字種を判別する局所的な方法を採ってい
て、つまり、文字種は行内で不変であるという技術を前
提にしたものである。従って、行内で文字種が変わるよ
うな原稿には対応することができない欠点がある。
【0006】本発明の目的は、行内で文字種が変わる場
合でも、精度よく文字種を識別することができる文書認
識装置を提供することにある。
【0007】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文字認識の前処理とし
て、入力された文書画像の文字種を識別する文書認識装
置において、該文書画像の各文字行毎に画素のまとまり
である外接矩形を抽出する手段と、該抽出された外接矩
形間の距離を基に、近接した外接矩形を統合してブロッ
クを形成する手段と、該形成されたブロックの文字種を
識別する手段とを備えたことを特徴としている。
【0008】請求項2記載の発明では、前記ブロック形
成手段は、行内の矩形間隔のヒストグラムを求め、最も
距離の短い度数のピーク値を基に矩形の統合を行うこと
を特徴としている。
【0009】請求項3記載の発明では、前記ブロック形
成手段は、行内の矩形間隔のヒストグラムを求め、最も
距離の長い度数のピーク値を基に矩形の統合を行うこと
を特徴としている。
【0010】請求項4記載の発明では、前記ブロック形
成手段は、第1の矩形とその左の矩形との第1の距離、
および該第1の矩形とその右の矩形との第2の距離を求
め、該第1の距離と第2の距離の差を基にブロックの区
切りを設定し、矩形の統合を行うことを特徴としてい
る。
【0011】請求項5記載の発明では、前記文字種識別
手段は、矩形の幅に対して、該矩形の垂直方向の黒ラン
の数または白黒反転回数が所定の閾値以上のとき日本語
文字と識別することを特徴としている。
【0012】請求項6記載の発明では、前記文字種識別
手段は、抽出されたブロック内の矩形の垂直方向座標値
を基に英字を識別することを特徴としている。
【0013】請求項7記載の発明では、前記文字種識別
手段は、抽出されたブロック内で垂直方向に統合した矩
形を一文字毎に、英数字辞書と照合して文字認識を行
い、認識結果の確信度を基に英数字を識別することを特
徴としている。
【0014】請求項8記載の発明では、前記辞書は、英
数字と誤認識しやすい平仮名、カタカナを含むことを特
徴としている。
【0015】請求項9記載の発明では、前記文字種識別
手段は、抽出されたブロック内で外接矩形の重なりがあ
るとき日本語文字と識別することを特徴としている。
【0016】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。図1は、本発明の実施例の構
成を示す。本発明は、文字認識装置の前処理部分に相当
する。図において、1は文書画像を入力するスキャナな
どの画像入力部、2は文書画像を格納する画像メモリ、
3は画像メモリ中の画像データを指定する文字領域設定
部、4は指定された領域から行データの切り出しを行う
行生成部、5は切り出された行内部の外接矩形を抽出す
る外接矩形検出部、6は外接矩形を格納する矩形メモ
リ、7は外接矩形を統合してブロックを生成するブロッ
ク生成部、8はブロック内の文字種が日本語文字である
か英数字であるかを識別する文字種判定部、9は文字種
出力部である。
【0017】まず、行生成部4は、画像メモリ2内の入
力画像データの指定文字領域内で、行データの切り出し
を行う。この切り出し方法としては、射影を用いる方
法、あるいは矩形抽出から行を求める方法など従来から
知られている手法を用いることができる。本実施例で
は、矩形データを利用する場合が多いので、矩形抽出か
ら行データを切り出す方法を用いる。そして、対象とす
る各行データについて、以下の処理を行う。
【0018】外接矩形検出部5は、行データ内部の外接
矩形を検出し、ブロック生成部7は外接矩形をブロック
データにまとめる。このブロックデータにまとめる方法
は、次の通りである。文字矩形の間隔(まだ一つの矩形
が一文字とは確定されていない。従って、漢字の場合、
偏とつくりに分離したものがそれぞれ一つの矩形となる
場合も多い)のヒストグラムを求める。図2は、抽出さ
れた文字矩形と、矩形間の距離を示す。図3は、矩形間
隔のヒストグラムを示す。このヒストグラムにおいて、
最も距離の短いピークは、漢字の偏とつくりの間隔や、
プロポーショナル英字の同一単語内の文字間距離に現れ
る傾向がある。これらを統合しても異なる文字種がブロ
ックに入ることは少ないので、それらを統合することで
ブロックデータを形成する。この処理を行うことによっ
てプロポーショナルの単語や一文字が分離する(つまり
偏とつくりからなる)漢字が一つに統合されることにな
る。
【0019】また、最も距離の長いピークは、単語間の
距離、句読点と次の文字との距離に現れることが多い。
これらは(特に単語間の距離は)文字種が変わる場合の
境目に用いられることが多く、同一ブロックになること
を避けたい。そこで、最も距離の長いピーク値以上の距
離の文字矩形については、同一ブロックにしないように
処理する。
【0020】さらに、対象矩形の両隣の矩形との距離
(A,B)を測定し、その差(A−B)が所定の閾値以上
のとき、長い方の距離の矩形同志は統合せず、短い方の
距離の矩形を統合するように処理する。図4は、矩形間
の間隔の差が大きい位置で矩形の統合を行わない場合を
説明する図である。図4では、差が所定の閾値以上大き
い位置で矩形の統合を行わないので、3つのブロックが
形成される。ここで、閾値は、例えば4ドットの大きさ
である。この閾値としては、他に行の高さの10分の
1、あるいは行内の最大矩形の高さの10分の1などを
用いる。
【0021】このような処理を行うことによって、プロ
ポーショナルの英文などで、単語間の距離が絶対的に近
くても、文字間距離とは差があるはずであるので、一つ
の単語だけをまとめて統合できる。また、プロポーショ
ナルフォントであっても日本語の漢字部分は比較的等間
隔に配置されるので、日本語文をまとめる場合にも都合
がよい。
【0022】上記したブロック生成方法を用いることに
よって、英文の場合、日本語文書と違って単語と単語の
間は半角相当のスペースで区切られるために、他の文字
種と混合してブロックデータとなることが避けられる。
【0023】文字種判定部8は、上記処理によってブロ
ック化されたまとまりが、日本語であるか、英数字であ
るかという文字種の判定を行う。ブロック内は同一文字
種として判断する。また、ブロック内の矩形を垂直方向
に統合した矩形を処理単位とする。これはかすれの影響
を避けるためと、解像度が高い場合に漢字が偏、つく
り、冠、にょうなどの要素毎に個別に分離することを避
けるためである。
【0024】この垂直方向に統合した矩形を垂直方向に
サーチし、黒のラン(連続した黒画素)または白黒反転
回数が幾つあるかをカウントする。英数字ではノイズが
ない理想的な場合、最大で“g”の文字で4つのランが
できる(図5(b))。従って、5つ以上のランがカウン
トされる場合は日本語とする。図5(a)に示す文字
「像」の場合、垂直方向のランの数は、文字の下の数字
で示すように変化する。
【0025】この前処理で、他の文字種が入らないよう
にブロックを作成しているので、ブロック内にこのよう
な矩形が一つでもあった場合は、そのブロックは日本語
と判定する。実際にはノイズの影響があるので、横方向
の大きさと4つ以上のランがあった部分の割合を基に判
定することが効果的である。また、図5(c)に示すよ
うに、英字「l」などスキャン時にノイズが入ると交差
回数(ラン数)が増えて、5回を超える。このような場
合には、長いランの両隣はカウントしないなどの処理を
行うことが必要である。
【0026】また、英字の場合、文字によって高さ、幅
は違うが、高さは大きく分類すると4種類程度に収ま
る。すなわちG1(a,c,e,m,n,o,r,s,
u,v,w,x,z)、G2(b,d,f,h,k,
l,大文字)、G3(g,j,p,q,y)、G4
(i,t)である。
【0027】これを使ってブロック中の垂直方向座標値
のヒストグラムをとり、得られる分布の特徴から英字と
特定できる場合がある。例えば、G3以外の文字が並ん
でいる場合、矩形の下の座標はほとんど同じ位置にあ
る。そうでないものは記号(ハイフン、アポストロフィ
ーなど)の可能性があるが、それらは認識するまでもな
く、その大きさなどの情報によって分かる場合が多い。
また、G3を含んでいたとしても、矩形の下の座標の分
布は決まってくる。これは矩形の上などでも同様な特徴
が得られる。
【0028】さらに、垂直方向に統合した矩形を一文字
毎に、英数字辞書を用いて文字認識する。近年の文字認
識装置は、誤認識している可能性を示す度合いを確信度
という情報で、認識結果と同時に出力することができ
る。この確信度が高い結果が得られた矩形は、英数字で
あると判定できる。この処理をブロック内の矩形につい
て行うことによって、英数字であるという確信度の高い
文字がブロック内に幾つあるかで、そのブロックが英数
字文字列であるか否かを判断することができる。一文字
毎に認識するのであれば、ブロック内を判断する必要が
ないものと考えることもできるが、現実にはつぶれ、か
すれ、隣の文字との接触などで、単体の矩形(垂直方向
に統合したもの)だけでは限界がある。そこで、ブロッ
クの内部が英数字であると判定されたら、英数字用のか
すれ対策、接触文字の強制分離などを行うことにより、
英数字部分の認識率の向上が図られる。
【0029】確信度からブロックの英数字/日本語を判
定するには、 N:ブロック内で垂直統合を行ったのちの矩形の数(英
数字の認識を行う矩形の数) E:英数字の結果で確信度の高い値になった矩形の数 Th:閾値 E/N>Th などを使用することができる。Thとして1/2などを
用いる。図6は、確信度からブロックの英数字/日本語
の判定を説明する図であり、図6の例では、N=5で、
E=3(例えば、P,a,aの3個の矩形)のときE/
N=0.6>Th(0.5)であるので、5個の矩形を
含むブロックを英字と判定する。
【0030】他に、「確信度の平均が閾値以上」という
条件を用いることもできる。英数字の認識は文字パター
ンの種類が少ないことから、辞書は小さく、日本語全体
の認識よりも高速である。また、この処理だけに必要な
メモリの増加量は少ない。
【0031】さらに、認識対象の辞書中に、英数字と誤
認識しやすい平仮名、カタカナを追加した辞書を用いて
認識を行う。処理速度が多少遅くなるが、英数字と間違
えやすい文字パターンが辞書に入っているので、英数字
の確信度の信頼性が向上する。従って、英数字部分の判
定の精度が向上する。
【0032】また、抽出されたブロックの文字種を識別
するとき、かすれと判断されるような、矩形の周辺部に
ある小さな矩形を統合した後、矩形同志の重なりの程度
を判定する。英数字は、外接矩形に重なりがないので、
外接矩形に重なりがあるものは日本語の字とみなすこと
ができる。図7は、外接矩形が重なる日本語の例を示
す。日本語の字があるブロックは日本語ブロックと判定
する。
【0033】
【発明の効果】以上、説明したように、本発明によれ
ば、ブロック毎に文字種を識別しているので、行内で文
字種が変わる場合でも、精度よく文字種を識別すること
ができる。
【図面の簡単な説明】
【図1】本発明の実施例の構成を示す。
【図2】抽出された文字矩形と、矩形間の距離を示す。
【図3】矩形間隔のヒストグラムを示す。
【図4】矩形間の間隔の差が大きい位置で矩形の統合を
行わない場合を説明する図である。
【図5】(a)〜(c)は、日本語と英字の場合の垂直
方向ランの数の具体例を示す。
【図6】確信度からブロックの英数字/日本語の判定を
説明する図である。
【図7】外接矩形が重なる日本語の例を示す。
【符号の説明】
1 画像入力部 2 画像メモリ 3 文字領域設定部 4 行生成部 5 外接矩形検出部 6 矩形メモリ 7 ブロック生成部 8 文字種判定部 9 文字種出力部

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文字認識の前処理として、入力された文
    書画像の文字種を識別する文書認識装置において、該文
    書画像の各文字行毎に画素のまとまりである外接矩形を
    抽出する手段と、該抽出された外接矩形間の距離を基
    に、近接した外接矩形を統合してブロックを形成する手
    段と、該形成されたブロックの文字種を識別する手段と
    を備えたことを特徴とする文書認識装置。
  2. 【請求項2】 前記ブロック形成手段は、行内の矩形間
    隔のヒストグラムを求め、最も距離の短い度数のピーク
    値を基に矩形の統合を行うことを特徴とする請求項1記
    載の文書認識装置。
  3. 【請求項3】 前記ブロック形成手段は、行内の矩形間
    隔のヒストグラムを求め、最も距離の長い度数のピーク
    値を基に矩形の統合を行うことを特徴とする請求項1記
    載の文書認識装置。
  4. 【請求項4】 前記ブロック形成手段は、第1の矩形と
    その左の矩形との第1の距離、および該第1の矩形とそ
    の右の矩形との第2の距離を求め、該第1の距離と第2
    の距離の差を基にブロックの区切りを設定し、矩形の統
    合を行うことを特徴とする請求項1記載の文書認識装
    置。
  5. 【請求項5】 前記文字種識別手段は、矩形の幅に対し
    て、該矩形の垂直方向の黒ランの数または白黒反転回数
    が所定の閾値以上のとき日本語文字と識別することを特
    徴とする請求項1記載の文書認識装置。
  6. 【請求項6】 前記文字種識別手段は、抽出されたブロ
    ック内の矩形の垂直方向座標値を基に英字を識別するこ
    とを特徴とする請求項1記載の文書認識装置。
  7. 【請求項7】 前記文字種識別手段は、抽出されたブロ
    ック内で垂直方向に統合した矩形を一文字毎に、英数字
    辞書と照合して文字認識を行い、認識結果の確信度を基
    に英数字を識別することを特徴とする請求項1記載の文
    書認識装置。
  8. 【請求項8】 前記辞書は、英数字と誤認識しやすい平
    仮名、カタカナを含むことを特徴とする請求項7記載の
    文書認識装置。
  9. 【請求項9】 前記文字種識別手段は、抽出されたブロ
    ック内で外接矩形の重なりがあるとき日本語文字と識別
    することを特徴とする請求項1記載の文書認識装置。
JP8034781A 1996-02-22 1996-02-22 文書認識装置 Pending JPH09231317A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8034781A JPH09231317A (ja) 1996-02-22 1996-02-22 文書認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8034781A JPH09231317A (ja) 1996-02-22 1996-02-22 文書認識装置

Publications (1)

Publication Number Publication Date
JPH09231317A true JPH09231317A (ja) 1997-09-05

Family

ID=12423835

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8034781A Pending JPH09231317A (ja) 1996-02-22 1996-02-22 文書認識装置

Country Status (1)

Country Link
JP (1) JPH09231317A (ja)

Similar Documents

Publication Publication Date Title
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
CA2077313C (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
CN104966051A (zh) 一种文档图像的版式识别方法
JPH0773271A (ja) 領域分割方法
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH09231317A (ja) 文書認識装置
JP3384634B2 (ja) 文字種識別方法
JP2917427B2 (ja) 図面読取装置
JP2728086B2 (ja) 文字切り出し方法
JP3197441B2 (ja) 文字認識装置
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JPH05174185A (ja) 日本語文字認識装置
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JP2728085B2 (ja) 文字切り出し方法
JP2570415B2 (ja) 文字切り出し方法
JP2978801B2 (ja) 手書き文字認識の文字入力方式
JPH0528301A (ja) 文書認識装置
Haralick et al. Document structural decomposition
JPH0415776A (ja) 文字のサイズ情報抽出方法
JPH08293002A (ja) 文字認識装置及び文字認識方法
JPH04346189A (ja) 文字列種類識別装置
JP2006107527A (ja) 文書画像の日本語英語判定方法および記録媒体
JPH05282487A (ja) 文字認識装置
Green et al. Layout analysis of book pages

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040330