JPS598089A - 文字切出し方式 - Google Patents

文字切出し方式

Info

Publication number
JPS598089A
JPS598089A JP57117469A JP11746982A JPS598089A JP S598089 A JPS598089 A JP S598089A JP 57117469 A JP57117469 A JP 57117469A JP 11746982 A JP11746982 A JP 11746982A JP S598089 A JPS598089 A JP S598089A
Authority
JP
Japan
Prior art keywords
cutting
character
row
image
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57117469A
Other languages
English (en)
Inventor
Akira Sakurai
彰 桜井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP57117469A priority Critical patent/JPS598089A/ja
Publication of JPS598089A publication Critical patent/JPS598089A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 技術分野 本発明は、光学的文字読取装置等に赴いて人力画像から
文字のパターンを切り出す方式に関し、特に文案の連結
したパター/を正しく切り出すための改良に関する。
従来技術 光学的文字読取装置等においては、人力画像から行を切
り出し、つぎに各打上の文字の・ζターンを切り出すと
1−15処理が行なわれる。
行画像から文字パターンを切り出す代表的方式としては
、次の3つの方式がある。
1つは、行と直交する方向の濃度分布を求め、濃度分布
の行部分で文字を切り出す方式である。
もう1つは、行と直交する方向の黒画素の有無を調べ、
黒画素の集いへ位置で文字領9Jり出す方式である。3
つ目は、上の2つの方式における文字切出しの際に印字
ピッチを考慮する方式である。
前の2の方式は、文字と文字の連結したパターンを誤っ
て1つの文字のパターンとしてリノリ出してしまうこと
が多−〇とl”iう欠点がある。3つ[]の方式は、印
字ピッチが一定の文書画像にら・I−1では、連結パタ
ーンを正しく切り出せる可能性か商い。
しかし、文字毎にピッチが変化するプロボー/ヨナル印
字の文書画像の場合には、連結バター/の切出しエラー
が発生することが多い。
1]的 本発明の目的は、特に欧字文書に対して最適で、プロボ
ー/ヨナル印字の場合の連結パターンについても正しく
^文字切出しの可能な文字切出し方式%式% 英字などの欧字の文書では、文字の連結は小文字の上端
、またはベースライン位置の部分で起ることが圧側的に
多い。そして、スキューが許容てきる範囲であれは(あ
るいは、そのように入力画像にスキュー補正を施せは)
、小文字の上端とベースラインの部分で行方向の濃度分
布がそれぞれピークになる。これらに着目して連結パタ
ーンを正しく切断して切り出そうというのが、本発明の
文字切出し方式である。
しかして本発明は、人力される2値の文書画像から各行
の画像を切り出し、その各行の画像から個々の文字パタ
ーンを切り出す文字切出し方式に、し旨て、各行の画像
について行方向の濃度分布を求める手段と、その濃度分
布の2つのピークを抽出する手段と、各行の画像中の所
定の幅より幅の広い連結パターンにつl−1で前記の濃
度分布の各ピーク部分にいける黒画素の存在状態を調べ
ることにより切断位置を決定する手段とを備え、連結・
ζターンkiそれについて決定された前記の切断位置に
て切断して切り出すことを特徴とする文字切出し方式を
要旨とするもの−である。
実施例 第1図番才、本発明の文字切出し方式の一実施例を示す
ブロック図である。
同図に赴いて、■は公知のCCI)イメー/センサ等の
児電変換器から成る読取部である。この読取部1は文書
原稿をラスク走査し、文1原稿」二の濃淡情報を画素単
位に分解して読み取り、それをアナログの画像信号とし
て出力する。この画像信号は2値化都2において2値化
され、ディンタルの画像データに変換され、行切出し部
3に入力される。
行切出し部3には各走査ライン毎に黒画素の敬を記数す
る斜影カウンタを持ってひり、この斜影カウンタの計数
結果(射影)に基づいて入力画像から行画像を切り出し
、画像メモリ手に格納する。
1つの行の切出しを終了した段階で、上記の射影カウン
タの計数結果からその行の行方向の射影(濃度分布)の
データが得られるが、これはピーク抽出部5に送られる
英字文書などの欧字文書の場合、行の濃度分布は例えば
第2図に略示する様な#度分布が行われる。ピーク検出
部5は、この様な6斗屑分布の2つのピーク位1tP1
、P2を抽出する。一般に、上側のピーク位置P、は小
文字の上端位置に相当し、下側のピーク位置P2はベー
スライン位置に相当する。
ただし、入力画像のスキューは許容できる範囲より小さ
1−1か、あるいは、そうなる様に予めスキュー補正が
施されていることを前提としている。したがって、第1
図には特に示してないが、読取部Jてスキューを許容範
囲内に保つことができないような場合、行切出し部の前
段でスキュー補正を行なう必要がある。
連結領域抽出部6は、画像メモリ4内にリノリ出された
行画像を副走査方向(縦方向)に走査し、その副走食方
向の各列の連結領域を抽出する。これは、従来のように
各列上の黒画素の治無を調べ、黒画素の存在する一連の
列の範囲を連結領域(パターン領域)として抽出すると
いう単純な方法で行なうこともできる。しかし、この様
な方法では結パターノ)として無暗に抽出されるため、
処理効率の面で好捷しくない。そこで本実施例において
は、以下に述べるような処理によって連結領域を抽出す
る。 □即ち、連結領域抽出部6は、イーJ画像全行の
左端から右端に向って各列を走査する。注目する列とそ
の直前の列との各主走査ライン上の画素同士の論理積を
とる。例えは、注目列のある主走査ライン上の画素が黒
画素で、直前の列の同じ主走査ラインーにの画素も黒画
素であると、論理積が成立する。このように、各列とそ
の直前の列の対応する画素間」fの論理積をとり、論理
積が成立した主走査ラインの本数Sを求める。そしてS
≧1の列はその直前の列と連結していると判定し、S−
Oの列は直前の列と非連結と判定する。このようにして
、連結した一連の列の範囲を1つの連結領域(1つの文
字Cターンの領域、ある1−1は2つ以上の文字の連結
・々ターンの領域)として抽出する。
連結領域の抽出につ(−1で、仮想的なパターンを例に
して説明しよう。
例えば第3図(イ)に示す仮想パターンの場合、e1〜
a8のS inは同図の1部に示す如くである。したが
って、列11〜e4と列e5〜a7の範囲はそれぞれ別
々の連結領域(パター/領域)として抽出される。
一方、第3図(ロ)の仮想パター/は、列11〜18の
S値が同図下部に示すり1」りになるから、列11〜1
7の範囲が1つの連結領域として抽出される。
因みに、単純に各列上の黒画素の廟無を調べ、黒画素の
ある一連の列の範囲を連結領域として抽出する方法では
、第3図(イ)および(ロ)のいずれの仮想パターンに
つ1−1でも、列e1〜e7の範囲を1つの連結領域と
して抽出してしまう。つまり、必要以上に連結パターン
として抽出する可能性がある。
第1図に戻って、切断候補領域抽出部7は、画像メモリ
4内の行画像の各列を走査し、黒画素の位置を調べる。
そして、ピーク検出部5より指示されるピーク位置P1
、P2の近傍のいずれか一方、または両方にしか黒画素
の無い列を識別し、そり)ような列の連結する範囲を切
断候補領域として抽出する。ピーク位置P1、P2の近
傍範囲としては、例えは、ピーク位置P、に対応の走査
ラインと、その−L方の主走査ライ/8本および下方の
主走査ライン2本の計6ラインの範囲、ピーク位置P2
に対し[L、の主走貴ラインと、その上方の主走査ライ
ン2本石・よび下方の主走査ライン3本のit 6ライ
ンの1i1j、囲に決めることができる。
例えば、第4図に示す小文字11」と1−81の連結し
たパターンは、連結領域抽出部Oで1つの連結領域とし
て抽出する。また切断候補領域抽出部7は、同図の01
、C2の範囲をそれぞれ切断候補領域として抽出する。
さて、以上のようにして抽出された連結領域のi1i+
χ囲と、切断候補領域の範囲を示す位置情報は切出し判
定部8に送られる。切断し判定部8にお1−1では、各
連結領域の1陥Wを閾値1’11.(例えは、’l” 
1−1−・18に選はれる)と比較しW(’I’ll、
ならば、その連結領域を1文字の領域と判ずし、連結領
域の左端と右端の位置をそのまま切出し位置として切出
し部9に送る。つまり、連結領域内の画像テークが1文
字パターンとして切出し部9で切り出され、文字メモリ
10に格納される。な、r3−1切出し判定部8におい
ては、隣り合う連結鎖環の10」隔かI+以下で、2つ
の連結領域を合せた幅かm以下の場合は、各連結領域の
幅〜がW(’I’ll、てあっても、この2つの連結領
域を1つの連結領域に併合した領域を切出し範囲として
切出し部9へ送る。これは、引用符ビ1などのパターン
を正しく切り出すためである。な、し、」二記の111
、I]は1+りえばn −5、m−18と設定すること
ができる。
一方、切出し判定部8はW≧i” I l 、の連結領
域に91へては、その範囲内にひ(−1で抽出された切
断候補領域のうらから、当該連結領域の中央に最も近い
1つの切断候補領域を有効なものとしで運び出す。そし
て、この上動な切断候補領域内の列のうち、連結領域の
中央の列から5列以内の範囲に含捷れる各列(候補列と
称す)につ1Gで以下の判定を行なう。
すなわら、(1)前述のピーク位置P2の近傍範囲にの
み黒画素が存在し、その黒画素数が線幅(例えは3画素
)以下の候補列、(11)ピーク位置Plの近傍範囲に
のみ黒画素が存在し、その黒画素数が線幅以Fの候補列
、(iii )ピーク位置P1の近傍範囲7しよびピー
ク位置P2の近傍位置の両方に黒画素があり、他の部分
には黒画素か無ぐ、黒画素の合H]が線幅の15倍(線
幅を3とすれば5)以下の候補列を選び出す。このよう
にして選び出した候補列のうり、連結領域の中央に最も
近い1つの候補列を切断位置と決定する。
そして、このリノ断位置で連結領域を2つの領域に分割
し、分割した各領域をそれぞれ別々の切出し範囲として
切出し都9へ通知する。し・じかって、例えば、第4・
図の連結パター/は、同図のC2のイ)716で切断さ
れ、文字「1」と[slのパター/は正しく切り出され
文字メモリ10に格納される、4なお、第1図中の各ブ
ロックは以上の説明に基ついて公知の技術により容易に
実現できるので、より具体的な詳細構成の呈示は割愛す
る。
効果 本発明の文字切出し方式は以上に詳述した如くであり、
プロポ−/ヨナル印字の文書画像につ1−1でも、連結
した文字パターンを切り離して正しく切り出すことがで
きる効果がある。
【図面の簡単な説明】
第1図は本発明の一実施汐りを示すブロック図、第2図
は行方向の濃度分布の例全示す略図、第8図は連結領域
の抽出を説明するための仮想パター7を示す図、第4図
は連結パターンの例およびその切断位置を示す図である
。 :3・・・行切出し部、4・・画像メモリ、5 ・ピー
ク抽出部、6・・・連結領域抽出部、7・・・切断候補
領域抽出部、8・・・切出し判定部、9・・・切出し部

Claims (1)

    【特許請求の範囲】
  1. 一(1)  人力いれる2値の文書画像から各行の画像
    を切り出し、その各行の画1家から個々の文字のパター
    ンを切り出す文字切出し方式において、各行の画像につ
    いて行方向の濃度分布を求める手段と、その濃度分布の
    2つのピークを抽出する千股と、各行の画像中の所定の
    謡より幅の広い連結パターンについて前記の濃度分布の
    各ピーク部分に分ける黒画素の存在状態を調べることに
    より切断位置を決定する手段とを備え、連結パターンは
    それに91へて決定された前記の切断位置にて切断して
    切り出すことを性徴とする文字切出し方式。
JP57117469A 1982-07-06 1982-07-06 文字切出し方式 Pending JPS598089A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57117469A JPS598089A (ja) 1982-07-06 1982-07-06 文字切出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57117469A JPS598089A (ja) 1982-07-06 1982-07-06 文字切出し方式

Publications (1)

Publication Number Publication Date
JPS598089A true JPS598089A (ja) 1984-01-17

Family

ID=14712449

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57117469A Pending JPS598089A (ja) 1982-07-06 1982-07-06 文字切出し方式

Country Status (1)

Country Link
JP (1) JPS598089A (ja)

Similar Documents

Publication Publication Date Title
CN101251892B (zh) 一种字符切分方法和装置
US5131053A (en) Optical character recognition method and apparatus
US20120219220A1 (en) Method and system for preprocessing an image for optical character recognition
JP2006092346A (ja) 文字認識装置、文字認識方法および文字認識プログラム
EP0062665A1 (en) Segmentation system and method for optical character scanning
KR100393423B1 (ko) 2차원 바코드 정보 인식방법
JPS598089A (ja) 文字切出し方式
JPH0410087A (ja) 基本ライン抽出方法
JPH07182459A (ja) 表構造抽出装置
JP2728086B2 (ja) 文字切り出し方法
JPS58222381A (ja) 文字切出し方式
KR100341601B1 (ko) 2차원 바코드 정보 인식방법
JPS61175875A (ja) 文書読取り装置
JP2009053931A (ja) 文書画像処理装置、及び文書画像処理プログラム
JPH02230484A (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JP2728085B2 (ja) 文字切り出し方法
JPH05135204A (ja) 文字認識装置
JPS59205679A (ja) 文字切出し装置
JPH05101220A (ja) 文字認識装置
JPH08129608A (ja) 文字認識装置
JPH04211884A (ja) 文字切り出し方法
EP2662802A1 (en) Method and system for preprocessing an image for optical character recognition
JPH01265378A (ja) 欧文文字認識方式
JPS5932077A (ja) 文字切出し装置