JP3193573B2 - かぎかっこ付文字認識装置 - Google Patents

かぎかっこ付文字認識装置

Info

Publication number
JP3193573B2
JP3193573B2 JP26188494A JP26188494A JP3193573B2 JP 3193573 B2 JP3193573 B2 JP 3193573B2 JP 26188494 A JP26188494 A JP 26188494A JP 26188494 A JP26188494 A JP 26188494A JP 3193573 B2 JP3193573 B2 JP 3193573B2
Authority
JP
Japan
Prior art keywords
character
brackets
unit
circumscribed rectangle
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26188494A
Other languages
English (en)
Other versions
JPH08101887A (ja
Inventor
昌史 伊藤
剛弘 上田
節正 広垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP26188494A priority Critical patent/JP3193573B2/ja
Publication of JPH08101887A publication Critical patent/JPH08101887A/ja
Application granted granted Critical
Publication of JP3193573B2 publication Critical patent/JP3193573B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、かぎかっこが含まれる
文書中の文字を切り出して文字認識するかぎかっこ付文
字認識装置に関するものである。
【0002】
【従来の技術】一般に、光学式文字読取装置では、光学
的に読み取られた文書中の文字を切り出して文字認識を
行なっている。従来、この種の装置には、文字行から文
字の構成要素を抽出し、それらの構成要素から得られる
平均的な文字幅及び文字ピッチに基づいて、分離文字や
接触文字を含む文字列から各文字を切り出すものがあっ
た(特開平5−128307号公報参照)。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、次のような課題があった。即ち、文
書中に記載されたかぎかっこについては、文字幅が非常
に狭いので、文字切り出しの際に他の文字と結合して切
り出してしまうことが多かった。一方、このようなかぎ
かっこは、人間が文書中で見た場合にも、他の文字より
も目立った形状をしている。従って、他の文字と同じよ
うに切り出して辞書データとの比較により認識するのは
適切ではなかった。
【0004】
【課題を解決するための手段】本発明のかぎかっこ付文
字認識装置は、上述した課題を解決するため、以下の点
を特徴とするものである。即ち、本発明は、切り出され
た文字行から黒画素のヒストグラムを作成するヒストグ
ラム作成部と、該ヒストグラム作成部にて作成されたヒ
ストグラムを用いて黒画素塊毎の複数の外接矩形を抽出
する外接矩形抽出部と、該抽出された隣接する外接矩形
の中心間の距離を文字ピッチとして検出する文字ピッチ
検出部と、複数の外接矩形中に黒画素がかぎかっこの
布特性を有するかぎかっこ外接矩形があるか否かを判定
するかぎかっこ判定部と、かぎかっこ外接矩形以外の複
数の外接矩形に対しかぎかっこ外接矩形を基準位置とし
て文字行の行頭及び行末の各方向に向かって文字ピッチ
を用いて一文字範囲を設定し、候補文字として切り出す
文字切り出し部と、該文字切り出し部により切り出され
た候補文字を文字認識する文字認識部とから成ることを
特徴とする。
【0005】
【作用】ヒストグラム作成部で文字行から作成されたヒ
ストグラムにより外接矩形抽出部で複数の外接矩形を抽
出するとともに、隣接する外接矩形の中心間の距離を文
字ピッチ検出部で検出し、これを文字ピッチとする。
方、文字行に含まれるかぎかっこについては、他の文字
と比較してその形状が特殊である。このため、文字切り
出しを行なう前にかぎかっこ判定部によりかぎかっこ
有する外接矩形を検出する。そして、このかぎかっこ
接矩形を除いた他の外接矩形について行頭及び行末方向
に向かって文字切り出し部で文字切り出しを行ない、切
り出した候補文字を文字認識部で文字認識を行なう。こ
の結果、かぎかっこが他の文字と結合されて文字切り出
しが行なわれることを防止でき、文字認識の精度を向上
させることができる。
【0006】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明のかぎかっこ付文字認識装
置の一実施例のブロック図である。図示の装置は、ヒス
トグラム作成部1、外接矩形抽出部2、文字ピッチ検出
部3、かぎかっこ判定部4、文字切り出し部5、文字認
識部6等から成る。まず、読取部11によりイメージス
キャナ等で文書を読み取り、領域分割部12で行切り出
しの対象領域を決定する。そして、行切り出し部13で
文字行の切り出しを行なう。次に、行切り出し部13に
より得られた文字行に対し、以下の各部により処理が行
なわれる。
【0007】ヒストグラム作成部1は、文字行から黒画
素のヒストグラムを作成する。このヒストグラムは、図
2(b)に示すように、行方向の各位置における黒画素
の行幅方向の分布を示す。外接矩形抽出部2は、図2
(c)に示すように、ヒストグラム作成部1により作成
されたヒストグラムを用いて黒画素塊の外接矩形を抽出
する。即ち、外接矩形抽出部2は、ヒストグラムにより
水平方向の黒ランの左端及び右端を求め、これらを外接
矩形の左端及び右端とする。文字ピッチ検出部3は、外
接矩形抽出部2により抽出された各外接矩形間の距離を
文字のピッチとして検出する。即ち、文字ピッチ検出部
3は、各外接矩形の中心点の座標を求め、隣の外接矩形
の中心点の座標との差により文字ピッチを検出する。
【0008】かぎかっこ判定部4は、外接矩形抽出部2
により抽出された外接矩形がかぎかっこであるか否かを
判定する。即ち、かぎかっこ判定部4は、外接矩形の4
辺の黒画素の分布を検出する。かぎかっこというのは、
他の文字よりも目立つ形状とされており、“「”という
かぎかっこについては外接矩形の左辺及び上辺のみが黒
画素となっている。また、“」”というかぎかっこにつ
いては外接矩形の右辺及び下辺のみが黒画素となってい
る。従って、これらの辺が黒画素か否かを検出すること
により、いずれのかぎかっこかを検出することができ
る。
【0009】文字切り出し部5は、かぎかっこ判定部4
により検出されたかぎかっこの外接矩形を除いた残りの
外接矩形について文字ピッチ検出部3により検出された
文字ピッチを用いて文字切り出しを行なう。即ち、かぎ
かっこ“「”、“」”の内側には何文字かが存在するは
ずであり、その部分の外接矩形から文字切り出しを行な
う。また、かぎかっこ“「”、“」”の外側に外接矩形
が存在する場合は、かぎかっこ“「”の左側では、かぎ
かっこ“「”のすぐ左の外接矩形がその文字行の行末と
なっている。一方、かぎかっこ“」”の右側では、かぎ
かっこ“」”のすぐ右の外接矩形がその文字行の行頭と
なっている。従って、かぎかっこを基準として文字の切
り出しを行なうことができる。文字認識部6は、文字切
り出し部5により切り出された各候補文字を周知のパタ
ーンマッチング法等を用いて辞書データ7と比較して文
字認識を行なう。
【0010】次に、上述した装置の動作を説明する。図
2は、本発明の装置の処理手順を示すフローチャートで
ある。ステップS21では、図2(a)のように1行に
切り出された画像から、図2(b)のような行方向と垂
直な方向の黒画素のヒストグラムを作成する。ステップ
S22では、水平方向の黒ランの左側及び右側をヒスト
グラムより求め、各々の黒ランに対応する1行分の画像
の上端及び下端を求め、図2(c)の例のような黒画素
塊の外接矩形を抽出する。ステップS23では、一般に
よく知られた方法、例えば外接矩形の中心間の距離を用
いて、文字のピッチを検出する。
【0011】ステップS24では、それぞれの外接矩形
の縦横比を求める。外接矩形の行方向の長さが外接矩形
の行方向に垂直な長さの1/2以下の外接矩形について
はステップS25に進む。ステップS25では、黒画素
塊がかぎかっこであるか否かの判定を行なう。かぎかっ
この判定は、外接矩形の4辺の黒画素の分布を調べるこ
とにより行なう。この判定の一例を以下に示す。“「”
の判定は、外接矩形の上辺及び左辺付近に黒画素が分布
し、下辺及び右辺付近に黒画素が分布しないことを検出
するか否かで行なう。また、“」”の判定は、外接矩形
の下辺及び右辺付近に黒画素が分布し、上辺及び左辺付
近に黒画素が分布しないことを検出するか否かで行な
う。
【0012】ここに、黒画素の分布を調べる方法として
は、以下のようなものがある。上辺及び下辺の場合は、
それぞれの辺からの高さがブロックの高さの1/3であ
るところまでの範囲内で、ブロックの幅の90%以上の
幅の連続した黒画素が存在する場合に上辺及び下辺に相
当する黒画素の分布が存在するとする。即ち、図4
(a)及び(b)に示すようなかぎかっこであれば、そ
れぞれブロックの上辺及び下辺には黒画素が100%存
在するはずであるので、上述した判定法により多少斜行
が生じた場合にも、かぎかっこを検出することができ
る。一方、それぞれの辺からの高さがブロックの高さの
1/3であるところまでの範囲内で、連続した黒画素の
幅がブロックの幅の50%以下である場合には上辺及び
下辺に相当する黒画素の分布が存在しないとする。
【0013】同様に、左辺及び右辺の場合は、それぞれ
の辺からの幅がブロックの幅の1/3であるところまで
の範囲内で、ブロックの高さの90%以上の高さの連続
した黒画素が存在する場合に左辺及び右辺に相当する黒
画素の分布が存在するとする。即ち、図4(a)及び
(b)に示すようなかぎかっこであれば、それぞれブロ
ックの左辺及び右辺には黒画素が100%存在するはず
であるので、上述した判定法により多少斜行が生じた場
合にも、かぎかっこを検出することができる。一方、そ
れぞれの辺からの幅がブロックの幅の1/3であるとこ
ろまでの範囲内で、連続した黒画素の高さがブロックの
高さの50%以下である場合には左辺及び右辺に相当す
る黒画素の分布が存在しないとする。
【0014】次に、ステップS26では、ステップS2
3で検出した文字ピッチ及びステップS25の結果をも
とに文字切り出しを行なう。即ち、図2の例では、かぎ
かっこ“「”、“」”を基準点として、かぎかっこ内の
文字“旧生活”を含む外接矩形を切り出すとともに、か
ぎかっこの外側の文字“いまだ”、“のただ中にある”
を含む外接矩形を切り出す。この場合、“いまだ”の部
分は行頭に向かう方向に切り出し、“のただ中にある”
の部分は行末に向かう方向に切り出す。このようにし
て、非常に簡単な手法によりかぎかっこの判定が行なえ
るため、誤って他の外接矩形と結合されることを防止で
き、また、このようなかぎかっこの検出により文字切り
出しの始点又は終点が正確に決まるため、より正確な文
字切り出し結果を得ることができる。例えば、図2の例
で、“い”を2つの外接矩形に分割してしまうことを防
止することができる。
【0015】尚、本発明は上述した実施例に限定される
ものではなく、種々の変形が可能であることはもちろん
である。例えば、上述した実施例では、かぎかっこ内の
各文字を切り出して認識する場合について説明したが、
本発明はこれに限らず、かぎかっこで囲まれた単語や文
書をキーワードとして認識して文書の要約を行なう場合
にも適用することができる。
【0016】
【発明の効果】以上説明したように、本発明のかぎかっ
こ付文字認識装置によれば、文字切り出しの前に文字行
中のかぎかっこを検出するようにしたので、文書中に記
載された文字幅が非常に狭いかぎかっこについて、文字
切り出しの際に他の文字と結合して切り出してしまうこ
とを防止することができる。また、かぎかっこの特殊な
形状に対応してこれを確実に検出することにより、かぎ
かっこ位置を基準にして正確に文字切り出しを行なうこ
とができる。
【図面の簡単な説明】
【図1】本発明のかぎかっこ付文字認識装置の一実施例
のブロック図である。
【図2】黒画素塊の外接矩形の抽出手順の説明図であ
る。
【図3】本発明の装置の処理手順を説明するフローチャ
ートである。
【図4】かぎかっこの判定例の説明図である。
【符号の説明】
1 ヒストグラム作成部 2 外接矩形抽出部 3 文字ピッチ検出部 4 かぎかっこ判定部 5 文字切り出し部 6 文字認識部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−169285(JP,A) 特開 平5−67235(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06K 9/34

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 切り出された文字行から黒画素のヒスト
    グラムを作成するヒストグラム作成部と、 該ヒストグラム作成部にて作成されたヒストグラムを用
    いて黒画素塊毎の複数の外接矩形を抽出する外接矩形抽
    出部と、 該抽出された隣接する外接矩形の中心間の距離を文字ピ
    ッチとして検出する文字ピッチ検出部と、 前記複数の外接矩形中に前記黒画素がかぎかっこの分布
    特性を有するかぎかっこ外接矩形があるか否かを判定す
    るかぎかっこ判定部と、 前記かぎかっこ外接矩形以外の複数の前記外接矩形に対
    し前記かぎかっこ外接矩形を基準位置として前記文字行
    の行頭及び行末の各方向に向かって前記文字ピッチを用
    いて一文字範囲を設定し、候補文字として切り出す文字
    切り出し部と、 該文字切り出し部により切り出された候補文字を文字認
    識する文字認識部とから成ることを特徴とするかぎかっ
    こ付文字認識装置。
JP26188494A 1994-09-30 1994-09-30 かぎかっこ付文字認識装置 Expired - Fee Related JP3193573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26188494A JP3193573B2 (ja) 1994-09-30 1994-09-30 かぎかっこ付文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26188494A JP3193573B2 (ja) 1994-09-30 1994-09-30 かぎかっこ付文字認識装置

Publications (2)

Publication Number Publication Date
JPH08101887A JPH08101887A (ja) 1996-04-16
JP3193573B2 true JP3193573B2 (ja) 2001-07-30

Family

ID=17368108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26188494A Expired - Fee Related JP3193573B2 (ja) 1994-09-30 1994-09-30 かぎかっこ付文字認識装置

Country Status (1)

Country Link
JP (1) JP3193573B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102390445B (zh) * 2011-10-10 2012-12-12 江苏柳工机械有限公司 带悬浮减震装置的高置式履带行走系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102390445B (zh) * 2011-10-10 2012-12-12 江苏柳工机械有限公司 带悬浮减震装置的高置式履带行走系统

Also Published As

Publication number Publication date
JPH08101887A (ja) 1996-04-16

Similar Documents

Publication Publication Date Title
Antonacopoulos Page segmentation using the description of the background
EP0381773B1 (en) Character recognition apparatus
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP2554187B2 (ja) 基本ライン抽出方法
JP2917427B2 (ja) 図面読取装置
JPH02116987A (ja) 文字認識装置
JP3197441B2 (ja) 文字認識装置
JP3457094B2 (ja) 文字認識装置及び文字認識方法
JP3411795B2 (ja) 文字認識装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2993252B2 (ja) 同形異文字判別方法および装置
JP3190794B2 (ja) 文字切り出し装置
JP3437296B2 (ja) 文字列高速抽出装置
JP2728086B2 (ja) 文字切り出し方法
JPH10162104A (ja) 文字認識装置
JP3220226B2 (ja) 文字列方向判別方法
JPH10171924A (ja) 文字認識装置
JPH01124082A (ja) 文字認識装置
JPH05174178A (ja) 文字認識方法
JPH04353989A (ja) 単語切り出し方式
JPH01265378A (ja) 欧文文字認識方式
JP2832035B2 (ja) 文字認識装置
Green et al. Layout analysis of book pages
JP2925270B2 (ja) 文字読取装置
JPH1055411A (ja) フォント識別装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080525

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090525

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees