JPS598089A - 文字切出し方式 - Google Patents
文字切出し方式Info
- Publication number
- JPS598089A JPS598089A JP57117469A JP11746982A JPS598089A JP S598089 A JPS598089 A JP S598089A JP 57117469 A JP57117469 A JP 57117469A JP 11746982 A JP11746982 A JP 11746982A JP S598089 A JPS598089 A JP S598089A
- Authority
- JP
- Japan
- Prior art keywords
- cutting
- character
- row
- image
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
技術分野
本発明は、光学的文字読取装置等に赴いて人力画像から
文字のパターンを切り出す方式に関し、特に文案の連結
したパター/を正しく切り出すための改良に関する。
文字のパターンを切り出す方式に関し、特に文案の連結
したパター/を正しく切り出すための改良に関する。
従来技術
光学的文字読取装置等においては、人力画像から行を切
り出し、つぎに各打上の文字の・ζターンを切り出すと
1−15処理が行なわれる。
り出し、つぎに各打上の文字の・ζターンを切り出すと
1−15処理が行なわれる。
行画像から文字パターンを切り出す代表的方式としては
、次の3つの方式がある。
、次の3つの方式がある。
1つは、行と直交する方向の濃度分布を求め、濃度分布
の行部分で文字を切り出す方式である。
の行部分で文字を切り出す方式である。
もう1つは、行と直交する方向の黒画素の有無を調べ、
黒画素の集いへ位置で文字領9Jり出す方式である。3
つ目は、上の2つの方式における文字切出しの際に印字
ピッチを考慮する方式である。
黒画素の集いへ位置で文字領9Jり出す方式である。3
つ目は、上の2つの方式における文字切出しの際に印字
ピッチを考慮する方式である。
前の2の方式は、文字と文字の連結したパターンを誤っ
て1つの文字のパターンとしてリノリ出してしまうこと
が多−〇とl”iう欠点がある。3つ[]の方式は、印
字ピッチが一定の文書画像にら・I−1では、連結パタ
ーンを正しく切り出せる可能性か商い。
て1つの文字のパターンとしてリノリ出してしまうこと
が多−〇とl”iう欠点がある。3つ[]の方式は、印
字ピッチが一定の文書画像にら・I−1では、連結パタ
ーンを正しく切り出せる可能性か商い。
しかし、文字毎にピッチが変化するプロボー/ヨナル印
字の文書画像の場合には、連結バター/の切出しエラー
が発生することが多い。
字の文書画像の場合には、連結バター/の切出しエラー
が発生することが多い。
1]的
本発明の目的は、特に欧字文書に対して最適で、プロボ
ー/ヨナル印字の場合の連結パターンについても正しく
^文字切出しの可能な文字切出し方式%式% 英字などの欧字の文書では、文字の連結は小文字の上端
、またはベースライン位置の部分で起ることが圧側的に
多い。そして、スキューが許容てきる範囲であれは(あ
るいは、そのように入力画像にスキュー補正を施せは)
、小文字の上端とベースラインの部分で行方向の濃度分
布がそれぞれピークになる。これらに着目して連結パタ
ーンを正しく切断して切り出そうというのが、本発明の
文字切出し方式である。
ー/ヨナル印字の場合の連結パターンについても正しく
^文字切出しの可能な文字切出し方式%式% 英字などの欧字の文書では、文字の連結は小文字の上端
、またはベースライン位置の部分で起ることが圧側的に
多い。そして、スキューが許容てきる範囲であれは(あ
るいは、そのように入力画像にスキュー補正を施せは)
、小文字の上端とベースラインの部分で行方向の濃度分
布がそれぞれピークになる。これらに着目して連結パタ
ーンを正しく切断して切り出そうというのが、本発明の
文字切出し方式である。
しかして本発明は、人力される2値の文書画像から各行
の画像を切り出し、その各行の画像から個々の文字パタ
ーンを切り出す文字切出し方式に、し旨て、各行の画像
について行方向の濃度分布を求める手段と、その濃度分
布の2つのピークを抽出する手段と、各行の画像中の所
定の幅より幅の広い連結パターンにつl−1で前記の濃
度分布の各ピーク部分にいける黒画素の存在状態を調べ
ることにより切断位置を決定する手段とを備え、連結・
ζターンkiそれについて決定された前記の切断位置に
て切断して切り出すことを特徴とする文字切出し方式を
要旨とするもの−である。
の画像を切り出し、その各行の画像から個々の文字パタ
ーンを切り出す文字切出し方式に、し旨て、各行の画像
について行方向の濃度分布を求める手段と、その濃度分
布の2つのピークを抽出する手段と、各行の画像中の所
定の幅より幅の広い連結パターンにつl−1で前記の濃
度分布の各ピーク部分にいける黒画素の存在状態を調べ
ることにより切断位置を決定する手段とを備え、連結・
ζターンkiそれについて決定された前記の切断位置に
て切断して切り出すことを特徴とする文字切出し方式を
要旨とするもの−である。
実施例
第1図番才、本発明の文字切出し方式の一実施例を示す
ブロック図である。
ブロック図である。
同図に赴いて、■は公知のCCI)イメー/センサ等の
児電変換器から成る読取部である。この読取部1は文書
原稿をラスク走査し、文1原稿」二の濃淡情報を画素単
位に分解して読み取り、それをアナログの画像信号とし
て出力する。この画像信号は2値化都2において2値化
され、ディンタルの画像データに変換され、行切出し部
3に入力される。
児電変換器から成る読取部である。この読取部1は文書
原稿をラスク走査し、文1原稿」二の濃淡情報を画素単
位に分解して読み取り、それをアナログの画像信号とし
て出力する。この画像信号は2値化都2において2値化
され、ディンタルの画像データに変換され、行切出し部
3に入力される。
行切出し部3には各走査ライン毎に黒画素の敬を記数す
る斜影カウンタを持ってひり、この斜影カウンタの計数
結果(射影)に基づいて入力画像から行画像を切り出し
、画像メモリ手に格納する。
る斜影カウンタを持ってひり、この斜影カウンタの計数
結果(射影)に基づいて入力画像から行画像を切り出し
、画像メモリ手に格納する。
1つの行の切出しを終了した段階で、上記の射影カウン
タの計数結果からその行の行方向の射影(濃度分布)の
データが得られるが、これはピーク抽出部5に送られる
。
タの計数結果からその行の行方向の射影(濃度分布)の
データが得られるが、これはピーク抽出部5に送られる
。
英字文書などの欧字文書の場合、行の濃度分布は例えば
第2図に略示する様な#度分布が行われる。ピーク検出
部5は、この様な6斗屑分布の2つのピーク位1tP1
、P2を抽出する。一般に、上側のピーク位置P、は小
文字の上端位置に相当し、下側のピーク位置P2はベー
スライン位置に相当する。
第2図に略示する様な#度分布が行われる。ピーク検出
部5は、この様な6斗屑分布の2つのピーク位1tP1
、P2を抽出する。一般に、上側のピーク位置P、は小
文字の上端位置に相当し、下側のピーク位置P2はベー
スライン位置に相当する。
ただし、入力画像のスキューは許容できる範囲より小さ
1−1か、あるいは、そうなる様に予めスキュー補正が
施されていることを前提としている。したがって、第1
図には特に示してないが、読取部Jてスキューを許容範
囲内に保つことができないような場合、行切出し部の前
段でスキュー補正を行なう必要がある。
1−1か、あるいは、そうなる様に予めスキュー補正が
施されていることを前提としている。したがって、第1
図には特に示してないが、読取部Jてスキューを許容範
囲内に保つことができないような場合、行切出し部の前
段でスキュー補正を行なう必要がある。
連結領域抽出部6は、画像メモリ4内にリノリ出された
行画像を副走査方向(縦方向)に走査し、その副走食方
向の各列の連結領域を抽出する。これは、従来のように
各列上の黒画素の治無を調べ、黒画素の存在する一連の
列の範囲を連結領域(パターン領域)として抽出すると
いう単純な方法で行なうこともできる。しかし、この様
な方法では結パターノ)として無暗に抽出されるため、
処理効率の面で好捷しくない。そこで本実施例において
は、以下に述べるような処理によって連結領域を抽出す
る。 □即ち、連結領域抽出部6は、イーJ画像全行の
左端から右端に向って各列を走査する。注目する列とそ
の直前の列との各主走査ライン上の画素同士の論理積を
とる。例えは、注目列のある主走査ライン上の画素が黒
画素で、直前の列の同じ主走査ラインーにの画素も黒画
素であると、論理積が成立する。このように、各列とそ
の直前の列の対応する画素間」fの論理積をとり、論理
積が成立した主走査ラインの本数Sを求める。そしてS
≧1の列はその直前の列と連結していると判定し、S−
Oの列は直前の列と非連結と判定する。このようにして
、連結した一連の列の範囲を1つの連結領域(1つの文
字Cターンの領域、ある1−1は2つ以上の文字の連結
・々ターンの領域)として抽出する。
行画像を副走査方向(縦方向)に走査し、その副走食方
向の各列の連結領域を抽出する。これは、従来のように
各列上の黒画素の治無を調べ、黒画素の存在する一連の
列の範囲を連結領域(パターン領域)として抽出すると
いう単純な方法で行なうこともできる。しかし、この様
な方法では結パターノ)として無暗に抽出されるため、
処理効率の面で好捷しくない。そこで本実施例において
は、以下に述べるような処理によって連結領域を抽出す
る。 □即ち、連結領域抽出部6は、イーJ画像全行の
左端から右端に向って各列を走査する。注目する列とそ
の直前の列との各主走査ライン上の画素同士の論理積を
とる。例えは、注目列のある主走査ライン上の画素が黒
画素で、直前の列の同じ主走査ラインーにの画素も黒画
素であると、論理積が成立する。このように、各列とそ
の直前の列の対応する画素間」fの論理積をとり、論理
積が成立した主走査ラインの本数Sを求める。そしてS
≧1の列はその直前の列と連結していると判定し、S−
Oの列は直前の列と非連結と判定する。このようにして
、連結した一連の列の範囲を1つの連結領域(1つの文
字Cターンの領域、ある1−1は2つ以上の文字の連結
・々ターンの領域)として抽出する。
連結領域の抽出につ(−1で、仮想的なパターンを例に
して説明しよう。
して説明しよう。
例えば第3図(イ)に示す仮想パターンの場合、e1〜
a8のS inは同図の1部に示す如くである。したが
って、列11〜e4と列e5〜a7の範囲はそれぞれ別
々の連結領域(パター/領域)として抽出される。
a8のS inは同図の1部に示す如くである。したが
って、列11〜e4と列e5〜a7の範囲はそれぞれ別
々の連結領域(パター/領域)として抽出される。
一方、第3図(ロ)の仮想パター/は、列11〜18の
S値が同図下部に示すり1」りになるから、列11〜1
7の範囲が1つの連結領域として抽出される。
S値が同図下部に示すり1」りになるから、列11〜1
7の範囲が1つの連結領域として抽出される。
因みに、単純に各列上の黒画素の廟無を調べ、黒画素の
ある一連の列の範囲を連結領域として抽出する方法では
、第3図(イ)および(ロ)のいずれの仮想パターンに
つ1−1でも、列e1〜e7の範囲を1つの連結領域と
して抽出してしまう。つまり、必要以上に連結パターン
として抽出する可能性がある。
ある一連の列の範囲を連結領域として抽出する方法では
、第3図(イ)および(ロ)のいずれの仮想パターンに
つ1−1でも、列e1〜e7の範囲を1つの連結領域と
して抽出してしまう。つまり、必要以上に連結パターン
として抽出する可能性がある。
第1図に戻って、切断候補領域抽出部7は、画像メモリ
4内の行画像の各列を走査し、黒画素の位置を調べる。
4内の行画像の各列を走査し、黒画素の位置を調べる。
そして、ピーク検出部5より指示されるピーク位置P1
、P2の近傍のいずれか一方、または両方にしか黒画素
の無い列を識別し、そり)ような列の連結する範囲を切
断候補領域として抽出する。ピーク位置P1、P2の近
傍範囲としては、例えは、ピーク位置P、に対応の走査
ラインと、その−L方の主走査ライ/8本および下方の
主走査ライン2本の計6ラインの範囲、ピーク位置P2
に対し[L、の主走貴ラインと、その上方の主走査ライ
ン2本石・よび下方の主走査ライン3本のit 6ライ
ンの1i1j、囲に決めることができる。
、P2の近傍のいずれか一方、または両方にしか黒画素
の無い列を識別し、そり)ような列の連結する範囲を切
断候補領域として抽出する。ピーク位置P1、P2の近
傍範囲としては、例えは、ピーク位置P、に対応の走査
ラインと、その−L方の主走査ライ/8本および下方の
主走査ライン2本の計6ラインの範囲、ピーク位置P2
に対し[L、の主走貴ラインと、その上方の主走査ライ
ン2本石・よび下方の主走査ライン3本のit 6ライ
ンの1i1j、囲に決めることができる。
例えば、第4図に示す小文字11」と1−81の連結し
たパターンは、連結領域抽出部Oで1つの連結領域とし
て抽出する。また切断候補領域抽出部7は、同図の01
、C2の範囲をそれぞれ切断候補領域として抽出する。
たパターンは、連結領域抽出部Oで1つの連結領域とし
て抽出する。また切断候補領域抽出部7は、同図の01
、C2の範囲をそれぞれ切断候補領域として抽出する。
さて、以上のようにして抽出された連結領域のi1i+
χ囲と、切断候補領域の範囲を示す位置情報は切出し判
定部8に送られる。切断し判定部8にお1−1では、各
連結領域の1陥Wを閾値1’11.(例えは、’l”
1−1−・18に選はれる)と比較しW(’I’ll、
ならば、その連結領域を1文字の領域と判ずし、連結領
域の左端と右端の位置をそのまま切出し位置として切出
し部9に送る。つまり、連結領域内の画像テークが1文
字パターンとして切出し部9で切り出され、文字メモリ
10に格納される。な、r3−1切出し判定部8におい
ては、隣り合う連結鎖環の10」隔かI+以下で、2つ
の連結領域を合せた幅かm以下の場合は、各連結領域の
幅〜がW(’I’ll、てあっても、この2つの連結領
域を1つの連結領域に併合した領域を切出し範囲として
切出し部9へ送る。これは、引用符ビ1などのパターン
を正しく切り出すためである。な、し、」二記の111
、I]は1+りえばn −5、m−18と設定すること
ができる。
χ囲と、切断候補領域の範囲を示す位置情報は切出し判
定部8に送られる。切断し判定部8にお1−1では、各
連結領域の1陥Wを閾値1’11.(例えは、’l”
1−1−・18に選はれる)と比較しW(’I’ll、
ならば、その連結領域を1文字の領域と判ずし、連結領
域の左端と右端の位置をそのまま切出し位置として切出
し部9に送る。つまり、連結領域内の画像テークが1文
字パターンとして切出し部9で切り出され、文字メモリ
10に格納される。な、r3−1切出し判定部8におい
ては、隣り合う連結鎖環の10」隔かI+以下で、2つ
の連結領域を合せた幅かm以下の場合は、各連結領域の
幅〜がW(’I’ll、てあっても、この2つの連結領
域を1つの連結領域に併合した領域を切出し範囲として
切出し部9へ送る。これは、引用符ビ1などのパターン
を正しく切り出すためである。な、し、」二記の111
、I]は1+りえばn −5、m−18と設定すること
ができる。
一方、切出し判定部8はW≧i” I l 、の連結領
域に91へては、その範囲内にひ(−1で抽出された切
断候補領域のうらから、当該連結領域の中央に最も近い
1つの切断候補領域を有効なものとしで運び出す。そし
て、この上動な切断候補領域内の列のうち、連結領域の
中央の列から5列以内の範囲に含捷れる各列(候補列と
称す)につ1Gで以下の判定を行なう。
域に91へては、その範囲内にひ(−1で抽出された切
断候補領域のうらから、当該連結領域の中央に最も近い
1つの切断候補領域を有効なものとしで運び出す。そし
て、この上動な切断候補領域内の列のうち、連結領域の
中央の列から5列以内の範囲に含捷れる各列(候補列と
称す)につ1Gで以下の判定を行なう。
すなわら、(1)前述のピーク位置P2の近傍範囲にの
み黒画素が存在し、その黒画素数が線幅(例えは3画素
)以下の候補列、(11)ピーク位置Plの近傍範囲に
のみ黒画素が存在し、その黒画素数が線幅以Fの候補列
、(iii )ピーク位置P1の近傍範囲7しよびピー
ク位置P2の近傍位置の両方に黒画素があり、他の部分
には黒画素か無ぐ、黒画素の合H]が線幅の15倍(線
幅を3とすれば5)以下の候補列を選び出す。このよう
にして選び出した候補列のうり、連結領域の中央に最も
近い1つの候補列を切断位置と決定する。
み黒画素が存在し、その黒画素数が線幅(例えは3画素
)以下の候補列、(11)ピーク位置Plの近傍範囲に
のみ黒画素が存在し、その黒画素数が線幅以Fの候補列
、(iii )ピーク位置P1の近傍範囲7しよびピー
ク位置P2の近傍位置の両方に黒画素があり、他の部分
には黒画素か無ぐ、黒画素の合H]が線幅の15倍(線
幅を3とすれば5)以下の候補列を選び出す。このよう
にして選び出した候補列のうり、連結領域の中央に最も
近い1つの候補列を切断位置と決定する。
そして、このリノ断位置で連結領域を2つの領域に分割
し、分割した各領域をそれぞれ別々の切出し範囲として
切出し都9へ通知する。し・じかって、例えば、第4・
図の連結パター/は、同図のC2のイ)716で切断さ
れ、文字「1」と[slのパター/は正しく切り出され
文字メモリ10に格納される、4なお、第1図中の各ブ
ロックは以上の説明に基ついて公知の技術により容易に
実現できるので、より具体的な詳細構成の呈示は割愛す
る。
し、分割した各領域をそれぞれ別々の切出し範囲として
切出し都9へ通知する。し・じかって、例えば、第4・
図の連結パター/は、同図のC2のイ)716で切断さ
れ、文字「1」と[slのパター/は正しく切り出され
文字メモリ10に格納される、4なお、第1図中の各ブ
ロックは以上の説明に基ついて公知の技術により容易に
実現できるので、より具体的な詳細構成の呈示は割愛す
る。
効果
本発明の文字切出し方式は以上に詳述した如くであり、
プロポ−/ヨナル印字の文書画像につ1−1でも、連結
した文字パターンを切り離して正しく切り出すことがで
きる効果がある。
プロポ−/ヨナル印字の文書画像につ1−1でも、連結
した文字パターンを切り離して正しく切り出すことがで
きる効果がある。
第1図は本発明の一実施汐りを示すブロック図、第2図
は行方向の濃度分布の例全示す略図、第8図は連結領域
の抽出を説明するための仮想パター7を示す図、第4図
は連結パターンの例およびその切断位置を示す図である
。 :3・・・行切出し部、4・・画像メモリ、5 ・ピー
ク抽出部、6・・・連結領域抽出部、7・・・切断候補
領域抽出部、8・・・切出し判定部、9・・・切出し部
。
は行方向の濃度分布の例全示す略図、第8図は連結領域
の抽出を説明するための仮想パター7を示す図、第4図
は連結パターンの例およびその切断位置を示す図である
。 :3・・・行切出し部、4・・画像メモリ、5 ・ピー
ク抽出部、6・・・連結領域抽出部、7・・・切断候補
領域抽出部、8・・・切出し判定部、9・・・切出し部
。
Claims (1)
- 一(1) 人力いれる2値の文書画像から各行の画像
を切り出し、その各行の画1家から個々の文字のパター
ンを切り出す文字切出し方式において、各行の画像につ
いて行方向の濃度分布を求める手段と、その濃度分布の
2つのピークを抽出する千股と、各行の画像中の所定の
謡より幅の広い連結パターンについて前記の濃度分布の
各ピーク部分に分ける黒画素の存在状態を調べることに
より切断位置を決定する手段とを備え、連結パターンは
それに91へて決定された前記の切断位置にて切断して
切り出すことを性徴とする文字切出し方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57117469A JPS598089A (ja) | 1982-07-06 | 1982-07-06 | 文字切出し方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57117469A JPS598089A (ja) | 1982-07-06 | 1982-07-06 | 文字切出し方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS598089A true JPS598089A (ja) | 1984-01-17 |
Family
ID=14712449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57117469A Pending JPS598089A (ja) | 1982-07-06 | 1982-07-06 | 文字切出し方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS598089A (ja) |
-
1982
- 1982-07-06 JP JP57117469A patent/JPS598089A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101251892B (zh) | 一种字符切分方法和装置 | |
US5131053A (en) | Optical character recognition method and apparatus | |
US20120219220A1 (en) | Method and system for preprocessing an image for optical character recognition | |
JP2006092346A (ja) | 文字認識装置、文字認識方法および文字認識プログラム | |
EP0062665A1 (en) | Segmentation system and method for optical character scanning | |
KR100393423B1 (ko) | 2차원 바코드 정보 인식방법 | |
JPS598089A (ja) | 文字切出し方式 | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
JPH07182459A (ja) | 表構造抽出装置 | |
JP2728086B2 (ja) | 文字切り出し方法 | |
JPS58222381A (ja) | 文字切出し方式 | |
KR100341601B1 (ko) | 2차원 바코드 정보 인식방법 | |
JPS61175875A (ja) | 文書読取り装置 | |
JP2009053931A (ja) | 文書画像処理装置、及び文書画像処理プログラム | |
JPH02230484A (ja) | 文字認識装置 | |
JP2851102B2 (ja) | 文字切出し方法 | |
JP2728085B2 (ja) | 文字切り出し方法 | |
JPH05135204A (ja) | 文字認識装置 | |
JPS59205679A (ja) | 文字切出し装置 | |
JPH05101220A (ja) | 文字認識装置 | |
JPH08129608A (ja) | 文字認識装置 | |
JPH04211884A (ja) | 文字切り出し方法 | |
EP2662802A1 (en) | Method and system for preprocessing an image for optical character recognition | |
JPH01265378A (ja) | 欧文文字認識方式 | |
JPS5932077A (ja) | 文字切出し装置 |