JPH08101887A - かぎかっこ付文字認識装置 - Google Patents

かぎかっこ付文字認識装置

Info

Publication number
JPH08101887A
JPH08101887A JP6261884A JP26188494A JPH08101887A JP H08101887 A JPH08101887 A JP H08101887A JP 6261884 A JP6261884 A JP 6261884A JP 26188494 A JP26188494 A JP 26188494A JP H08101887 A JPH08101887 A JP H08101887A
Authority
JP
Japan
Prior art keywords
character
characters
histogram
line
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6261884A
Other languages
English (en)
Other versions
JP3193573B2 (ja
Inventor
Masashi Ito
昌史 伊藤
Takehiro Ueda
剛弘 上田
Sadamasa Hirogaki
節正 広垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP26188494A priority Critical patent/JP3193573B2/ja
Publication of JPH08101887A publication Critical patent/JPH08101887A/ja
Application granted granted Critical
Publication of JP3193573B2 publication Critical patent/JP3193573B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 かぎかっこを含む文字行の認識の精度を向上
させる。 【構成】 読取部11で文書を光学的に認識し、領域分
割部12で文書領域を分割し、行切り出し部13で文字
行を切り出す。続いて、ヒストグラム作成部1で文字行
から作成されたヒストグラムにより外接矩形抽出部2で
外接矩形を抽出するとともに、それらの外接矩形の間の
距離を文字ピッチ検出部3で検出し、これを文字ピッチ
とする。また、文字行に含まれるかぎかっこについて
は、他の文字と比較してその形状が特殊である。このた
め、文字切り出しを行なう前にかぎかっこ判定部4によ
りかぎかっこの部分のみを検出する。そして、このかぎ
かっこを除いた部分について文字切り出し部5で文字切
り出しを行ない、切り出した文字を文字認識部6で辞書
データ7と比較し、文字認識を行なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、かぎかっこが含まれる
文書中の文字を切り出して文字認識するかぎかっこ付文
字認識装置に関するものである。
【0002】
【従来の技術】一般に、光学式文字読取装置では、光学
的に読み取られた文書中の文字を切り出して文字認識を
行なっている。従来、この種の装置には、文字行から文
字の構成要素を抽出し、それらの構成要素から得られる
平均的な文字幅及び文字ピッチに基づいて、分離文字や
接触文字を含む文字列から各文字を切り出すものがあっ
た(特開平5−128307号公報参照)。
【0003】
【発明が解決しようとする課題】しかしながら、上述し
た従来の技術には、次のような課題があった。即ち、文
書中に記載されたかぎかっこについては、文字幅が非常
に狭いので、文字切り出しの際に他の文字と結合して切
り出してしまうことが多かった。一方、このようなかぎ
かっこは、人間が文書中で見た場合にも、他の文字より
も目立った形状をしている。従って、他の文字と同じよ
うに切り出して辞書データとの比較により認識するのは
適切ではなかった。
【0004】
【課題を解決するための手段】本発明のかぎかっこ付文
字認識装置は、上述した課題を解決するため、以下の点
を特徴とするものである。 (1) 文字行から黒画素のヒストグラムを作成するヒストグ
ラム作成部を備える。 当該ヒストグラム作成部により作成されたヒストグラ
ムを用いて黒画素塊の外接矩形を抽出する外接矩形抽出
部を備える。 当該外接矩形抽出部により抽出された各外接矩形間の
距離を文字のピッチとして検出する文字ピッチ検出部を
備える。 当該外接矩形抽出部により抽出された外接矩形がかぎ
かっこであるか否かを判定するかぎかっこ判定部を備え
る。 当該かぎかっこ判定部により検出されたかぎかっこを
除いた文字行部分について文字ピッチ検出部により検出
された文字行を用いて文字切り出しを行なう文字切り出
し部を備える。 当該文字切り出し部により切り出された各候補文字を
辞書データと比較して文字認識を行なう文字認識部を備
える。
【0005】
【作用】ヒストグラム作成部で文字行から作成されたヒ
ストグラムにより外接矩形抽出部で外接矩形を抽出する
とともに、それらの外接矩形の間の距離を文字ピッチ検
出部で検出し、これを文字ピッチとする。また、文字行
に含まれるかぎかっこについては、他の文字と比較して
その形状が特殊である。このため、文字切り出しを行な
う前にかぎかっこ判定部によりかぎかっこの部分のみを
検出する。そして、このかぎかっこを除いた部分につい
て文字切り出し部で文字切り出しを行ない、切り出した
文字を文字認識部で辞書データと比較し、文字認識を行
なう。この結果、かぎかっこが他の文字と結合されて文
字切り出しが行なわれることを防止でき、文字認識の精
度を向上させることができる。
【0006】
【実施例】以下、本発明の実施例を図面を参照して詳細
に説明する。図1は、本発明のかぎかっこ付文字認識装
置の一実施例のブロック図である。図示の装置は、ヒス
トグラム作成部1、外接矩形抽出部2、文字ピッチ検出
部3、かぎかっこ判定部4、文字切り出し部5、文字認
識部6等から成る。まず、読取部11によりイメージス
キャナ等で文書を読み取り、領域分割部12で行切り出
しの対象領域を決定する。そして、行切り出し部13で
文字行の切り出しを行なう。次に、行切り出し部13に
より得られた文字行に対し、以下の各部により処理が行
なわれる。
【0007】ヒストグラム作成部1は、文字行から黒画
素のヒストグラムを作成する。このヒストグラムは、図
2(b)に示すように、行方向の各位置における黒画素
の行幅方向の分布を示す。外接矩形抽出部2は、図2
(c)に示すように、ヒストグラム作成部1により作成
されたヒストグラムを用いて黒画素塊の外接矩形を抽出
する。即ち、外接矩形抽出部2は、ヒストグラムにより
水平方向の黒ランの左端及び右端を求め、これらを外接
矩形の左端及び右端とする。文字ピッチ検出部3は、外
接矩形抽出部2により抽出された各外接矩形間の距離を
文字のピッチとして検出する。即ち、文字ピッチ検出部
3は、各外接矩形の中心点の座標を求め、隣の外接矩形
の中心点の座標との差により文字ピッチを検出する。
【0008】かぎかっこ判定部4は、外接矩形抽出部2
により抽出された外接矩形がかぎかっこであるか否かを
判定する。即ち、かぎかっこ判定部4は、外接矩形の4
辺の黒画素の分布を検出する。かぎかっこというのは、
他の文字よりも目立つ形状とされており、“「”という
かぎかっこについては外接矩形の左辺及び上辺のみが黒
画素となっている。また、“」”というかぎかっこにつ
いては外接矩形の右辺及び下辺のみが黒画素となってい
る。従って、これらの辺が黒画素か否かを検出すること
により、いずれのかぎかっこかを確実に検出することが
できる。
【0009】文字切り出し部5は、かぎかっこ判定部4
により検出されたかぎかっこを除いた文字行部分につい
て文字ピッチ検出部3により検出された文字行を用いて
文字切り出しを行なう。即ち、かぎかっ
こ“「”、“」”の内側には何文字かの文字行が存在す
るはずであり、その部分の文字行から文字切り出しを行
なう。また、かぎかっこ“「”、“」”の外側に文字行
が存在する場合は、かぎかっこ“「”の左側の文字行で
は、かぎかっこ“「”のすぐ左の部分がその文字行の行
末となっている。一方、かぎかっこ“」”の右側の文字
行では、かぎかっこ“」”のすぐ右の部分がその文字行
の行頭となっている。従って、かぎかっこを基準として
文字の切り出しを行なうことができる。文字認識部6
は、文字切り出し部5により切り出された各候補文字を
周知のパターンマッチング法等を用いて辞書データ7と
比較して文字認識を行なう。
【0010】次に、上述した装置の動作を説明する。図
2は、本発明の装置の処理手順を示すフローチャートで
ある。ステップS21では、図2(a)のように1行に
切り出された画像から、図2(b)のような行方向と垂
直な方向の黒画素のヒストグラムを作成する。ステップ
S22では、水平方向の黒ランの左側及び右側をヒスト
グラムより求め、各々の黒ランに対応する1行分の画像
の上端及び下端を求め、図2(c)の例のような黒画素
塊の外接矩形を抽出する。ステップS23では、一般に
よく知られた方法、例えば外接矩形の中心間の距離を用
いて、文字のピッチを検出する。
【0011】ステップS24では、それぞれの外接矩形
の縦横比を求める。外接矩形の行方向の長さが外接矩形
の行方向に垂直な長さの1/2以下の外接矩形について
はステップS25に進む。ステップS25では、黒画素
塊がかぎかっこであるか否かの判定を行なう。かぎかっ
この判定は、外接矩形の4辺の黒画素の分布を調べるこ
とにより行なう。この判定の一例を以下に示す。“「”
の判定は、外接矩形の上辺及び左辺付近に黒画素が分布
し、下辺及び右辺付近に黒画素が分布しないことを検出
するか否かで行なう。また、“」”の判定は、外接矩形
の下辺及び右辺付近に黒画素が分布し、上辺及び左辺付
近に黒画素が分布しないことを検出するか否かで行な
う。
【0012】ここに、黒画素の分布を調べる方法として
は、以下のようなものがある。上辺及び下辺の場合は、
それぞれの辺からの高さがブロックの高さの1/3であ
るところまでの範囲内で、ブロックの幅の90%以上の
幅の連続した黒画素が存在する場合に上辺及び下辺に相
当する黒画素の分布が存在するとする。即ち、図4
(a)及び(b)に示すようなかぎかっこであれば、そ
れぞれブロックの上辺及び下辺には黒画素が100%存
在するはずであるので、上述した判定法により多少斜行
が生じた場合にも、かぎかっこを確実に検出することが
できる。一方、それぞれの辺からの高さがブロックの高
さの1/3であるところまでの範囲内で、連続した黒画
素の幅がブロックの幅の50%以下である場合には上辺
及び下辺に相当する黒画素の分布が存在しないとする。
【0013】同様に、左辺及び右辺の場合は、それぞれ
の辺からの幅がブロックの幅の1/3であるところまで
の範囲内で、ブロックの高さの90%以上の高さの連続
した黒画素が存在する場合に左辺及び右辺に相当する黒
画素の分布が存在するとする。即ち、図4(a)及び
(b)に示すようなかぎかっこであれば、それぞれブロ
ックの左辺及び右辺には黒画素が100%存在するはず
であるので、上述した判定法により多少斜行が生じた場
合にも、かぎかっこを確実に検出することができる。一
方、それぞれの辺からの幅がブロックの幅の1/3であ
るところまでの範囲内で、連続した黒画素の高さがブロ
ックの高さの50%以下である場合には左辺及び右辺に
相当する黒画素の分布が存在しないとする。
【0014】次に、ステップS26では、ステップS2
3で検出した文字ピッチ及びステップS25の結果をも
とに文字切り出しを行なう。即ち、図2の例では、かぎ
かっこ“「”、“」”を基準点として、かぎかっこ内の
文字“旧生活”を切り出すとともに、かぎかっこの外側
の文字“いまだ”、“のただ中にある”を切り出す。こ
の場合、“いまだ”の部分は行頭に向かう方向に切り出
し、“のただ中にある”の部分は行末に向かう方向に切
り出す。このようにして、非常に簡単な手法によりかぎ
かっこの判定が行なえるため、誤って他の外接矩形と結
合されることを防止でき、また、このようなかぎかっこ
の検出により文字切り出しの始点又は終点が正確に決ま
るため、より正確な文字切り出し結果を得ることができ
る。例えば、図2の例で、“い”を2つのブロックに分
割してしまうことを防止することができる。
【0015】尚、本発明は上述した実施例に限定される
ものではなく、種々の変形が可能であることはもちろん
である。例えば、上述した実施例では、かぎかっこ内の
各文字を切り出して認識する場合について説明したが、
本発明はこれに限らず、かぎかっこで囲まれた単語や文
書をキーワードとして認識して文書の要約を行なう場合
にも適用することができる。
【0016】
【発明の効果】以上説明したように、本発明のかぎかっ
こ付文字認識装置によれば、文字切り出しの前に文字行
中のかぎかっこを検出するようにしたので、文書中に記
載された文字幅が非常に狭いかぎかっこについて、文字
切り出しの際に他の文字と結合して切り出してしまうこ
とを防止することができる。また、かぎかっこの特殊な
形状に対応してこれを確実に検出することにより、正確
に文字切り出しを行なうことができる。
【図面の簡単な説明】
【図1】本発明のかぎかっこ付文字認識装置の一実施例
のブロック図である。
【図2】黒画素塊の外接矩形の抽出手順の説明図であ
る。
【図3】本発明の装置の処理手順を説明するフローチャ
ートである。
【図4】かぎかっこの判定例の説明図である。
【符号の説明】
1 ヒストグラム作成部 2 外接矩形抽出部 3 文字ピッチ検出部 4 かぎかっこ判定部 5 文字切り出し部 6 文字認識部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文字行から黒画素のヒストグラムを作成
    するヒストグラム作成部と、 当該ヒストグラム作成部により作成されたヒストグラム
    を用いて黒画素塊の外接矩形を抽出する外接矩形抽出部
    と、 当該外接矩形抽出部により抽出された各外接矩形間の距
    離を文字のピッチとして検出する文字ピッチ検出部と、 当該外接矩形抽出部により抽出された外接矩形がかぎか
    っこであるか否かを判定するかぎかっこ判定部と、 当該かぎかっこ判定部により検出されたかぎかっこを除
    いた文字行部分について前記文字ピッチ検出部により検
    出された文字行を用いて文字切り出しを行なう文字切り
    出し部と、 当該文字切り出し部により切り出された各候補文字を辞
    書データと比較して文字認識を行なう文字認識部とから
    成ることを特徴とするかぎかっこ付文字認識装置。
JP26188494A 1994-09-30 1994-09-30 かぎかっこ付文字認識装置 Expired - Fee Related JP3193573B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26188494A JP3193573B2 (ja) 1994-09-30 1994-09-30 かぎかっこ付文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26188494A JP3193573B2 (ja) 1994-09-30 1994-09-30 かぎかっこ付文字認識装置

Publications (2)

Publication Number Publication Date
JPH08101887A true JPH08101887A (ja) 1996-04-16
JP3193573B2 JP3193573B2 (ja) 2001-07-30

Family

ID=17368108

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26188494A Expired - Fee Related JP3193573B2 (ja) 1994-09-30 1994-09-30 かぎかっこ付文字認識装置

Country Status (1)

Country Link
JP (1) JP3193573B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102390445B (zh) * 2011-10-10 2012-12-12 江苏柳工机械有限公司 带悬浮减震装置的高置式履带行走系统

Also Published As

Publication number Publication date
JP3193573B2 (ja) 2001-07-30

Similar Documents

Publication Publication Date Title
JPH08101887A (ja) かぎかっこ付文字認識装置
JPH0410087A (ja) 基本ライン抽出方法
JPH02116987A (ja) 文字認識装置
JP4136257B2 (ja) 文字認識装置、文字認識方法および記憶媒体
JP3167551B2 (ja) 文字認識装置
JP2728086B2 (ja) 文字切り出し方法
JP3197441B2 (ja) 文字認識装置
JP3711186B2 (ja) サイズ識別方法および装置
JP3133797B2 (ja) 文字認識方法及びその装置
JP2982221B2 (ja) 文字読み取り装置
JP3411795B2 (ja) 文字認識装置
JPH05282493A (ja) 英文字認識装置
JP2570415B2 (ja) 文字切り出し方法
JPH0713994A (ja) 文字認識装置
JPH01124082A (ja) 文字認識装置
JPH10162104A (ja) 文字認識装置
JPH0816720A (ja) 文字認識装置
JPH05108880A (ja) 英文字認識装置
JPH05174178A (ja) 文字認識方法
JPH05135204A (ja) 文字認識装置
JPH01265378A (ja) 欧文文字認識方式
JPH06231306A (ja) 文字認識装置
JPH03225576A (ja) 単語切り出し装置
JPH0728933A (ja) 文字認識装置
JPH02253386A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080525

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090525

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees