JPH11143989A - 文字切り出し装置および文字切り出し方式 - Google Patents

文字切り出し装置および文字切り出し方式

Info

Publication number
JPH11143989A
JPH11143989A JP9307428A JP30742897A JPH11143989A JP H11143989 A JPH11143989 A JP H11143989A JP 9307428 A JP9307428 A JP 9307428A JP 30742897 A JP30742897 A JP 30742897A JP H11143989 A JPH11143989 A JP H11143989A
Authority
JP
Japan
Prior art keywords
character
partial pattern
string image
separation
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9307428A
Other languages
English (en)
Other versions
JP3008908B2 (ja
Inventor
Masaaki Kamiya
昌昭 上谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP9307428A priority Critical patent/JP3008908B2/ja
Priority to US09/189,874 priority patent/US6327385B1/en
Publication of JPH11143989A publication Critical patent/JPH11143989A/ja
Application granted granted Critical
Publication of JP3008908B2 publication Critical patent/JP3008908B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

(57)【要約】 【課題】 文字種の違いに起因する接触形態の変動の影
響を受けず、小規模なハードウェア資源上で実行可能
な、接触した文字の文字切り出し方式を提供する。 【解決手段】 文字列画像を格納する画像格納部110
と、文字種を特定するための特徴となる部分パターンの
形状を記憶する部分パターン辞書122と、文字列画像
中から部分パターンに合致する領域を抽出する部分パタ
ーン検出部121と、文字列画像中の部分パターンと合
致した領域の位置と個数から文字種を判定する文字種判
定部123と、各文字種における特徴抽出処理を禁止す
る領域を記憶する特徴抽出禁止領域辞書132と、文字
分離特徴を抽出するための領域を限定する文字分離特徴
抽出領域定義部131と、文字分離特徴を抽出する文字
分離特徴抽出部133と、文字の分離位置を検出する文
字境界位置検出部134と、これらの処理部の動作を統
括する全体制御部140とを備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は光学式文字読み取り
装置における文字切り出し技術に関し、特に接触した文
字に対する文字切り出し技術に関する。
【0002】
【従来の技術】文字切り出し技術は、光学式文字読み取
り装置などで、光学的走査などの手法により取り込まれ
電子化された画像から、読み取らせるべき文字を切り出
すために用いられている。従来の文字切り出し方式の一
例が、特開平8−129611号公報に記載されてい
る。この公報に記載された文字切り出し手法は、あらか
じめ文字パターンを基準文字として登録しておき、接触
した文字列に対して基準文字との相関を求めることによ
り文字の判定を行っている。
【0003】文字切り出し位置を検出する方式の別の一
例として、特開平5−307640号公報の文字読取装
置に記載されている方式がある。この方式は、画像を濃
淡値として格納し、文字種に応じて2値化のしきい値を
変更することにより文字の切り出し精度を改善するもの
である。
【0004】
【発明が解決しようとする課題】特開平8−12961
1号公報に記載されている従来の方法は、読み取り対象
の文字種が少ない場合には有効であるが、多くの種類の
文字を読まねばならない場合には、基準文字の文字パタ
ーンの登録作業に多くの手間がかかる、また基準文字を
記憶する機構が大規模なものとなる、などの問題点を持
ちあわせている。
【0005】また、特開平5−307640号公報の文
字読取装置に記載されている方式では、画像を濃淡値と
して格納する必要があるため、メモリなどの資源を多く
必要とするという問題点がある。
【0006】さらに、従来の文字切り出し手法では、文
字種の違いに起因する接触形態の変動の影響を受けやす
いという課題を有している。
【0007】本発明の目的は、文字種の違いに起因する
接触形態の変動の影響を受けず、小規模なハードウェア
資源上で実行可能な、接触した文字の文字切り出し方式
を提供することにある。
【0008】
【課題を解決するための手段】本発明の文字切り出し装
置は、光学的走査などの手段により取り込まれ電子化さ
れた文字列画像を格納する画像格納部と、文字種を特定
するための特徴となる部分パターンの形状を記憶する部
分パターン辞書と、文字列画像中から部分パターンに合
致する領域を抽出する部分パターン検出部と、文字列画
像中の部分パターンと合致した領域の位置と個数から文
字種を判定する文字種判定部と、各文字種における特徴
抽出処理を禁止する領域を記憶する特徴抽出禁止領域辞
書と、判定した文字種に対応する特徴抽出禁止領域を参
照して文字列画像中から文字分離特徴を抽出するための
領域を限定する文字分離特徴抽出領域定義部と、文字分
離特徴を抽出するための領域から文字分離特徴を抽出す
る文字分離特徴抽出部と、文字分離特徴から文字の分離
位置を検出する文字境界位置検出部と、これらの処理部
の動作を統括する全体制御部とを備える。
【0009】本発明の文字切り出し方法は、光学的走査
などの手段により取り込まれ電子化された文字列画像を
格納する工程と、文字種を特定するための特徴となる部
分パターンの形状を用いて、文字列画像中からその部分
パターンに合致する領域を抽出し、その文字列画像中の
部分パターンと合致した位置と個数から文字種を判定す
る工程と、各文字種における特徴抽出処理を禁止する領
域を参照して、判定した文字種に従って文字列画像中か
ら文字分離特徴を抽出するための領域を限定し、文字分
離特徴を抽出するための領域から文字分離特徴を抽出
し、抽出した文字分離特徴から文字の分離位置を検出す
る工程とを備える。
【0010】文字種の判定が、文字列画像と部分パター
ンとのパターンマッチング法によって行われてもよく、
文字列画像と部分パターンとの関係のモフォロジー演算
によって行われてもよく、文字の分離位置の検出が、文
字分離特徴の射影パターンの空白を含み空白に準ずる領
域を分離位置として行われてもよい。
【0011】文字列画像中の接触の可能性のある領域を
除いて文字分離特徴を抽出するので、文字接触形態の影
響を受けず、従来手法よりも多くの接触パターンに対し
て確実に文字切り出しが行える。
【0012】また、文字種の特徴を示す部分パターンを
文字列画像と対比して文字種を判定し、文字種に対応し
た分離特徴抽出領域を抽出して文字切り出しを行うの
で、文字全体のパターンを基準文字として登録し相関を
求めるような冗長な文字切り出し処理を行う必要がな
く、ハードウェア化が容易であることから小規模なハー
ドウエア上で高速に文字切り出し処理を行うことが可能
である。
【0013】
【発明の実施の形態】本発明の文字切り出し装置と方法
の実施の形態について、図面を参照して詳細に説明す
る。図1は本発明の文字切り出し装置のブロック構成図
であり、図2、図3は本発明の文字切り出し方法のフロ
ーチャートである。図中符号110は画像格納部、12
0は文字種分類部、121は部分パターン検出部、12
2は部分パターン辞書、123は文字種判定部、130
は文字分離部、131は文字分離特徴抽出領域定義部、
132は特徴抽出禁止領域辞書、133は文字分離特徴
抽出部、134は文字境界位置検出部、140は全体制
御部、141は記録媒体であり、S201からS21
2、S213からS223は各ステップである。
【0014】図1を参照すると、本発明の実施の形態の
文字切り出し装置は、光学的走査などの手段により取り
込まれて電子化された文字列画像を格納する画像格納部
110と、画像格納部110に格納された電子化された
文字列画像から文字種を分類する文字種分類部120
と、文字種分類部120で判定された文字種から文字境
界位置を検出する文字分離部130と、これらの各部の
動作を統括する全体制御部140とから構成される。
【0015】文字種分類部120は、文字種を特定する
特徴となる部分パターンの形状を記憶する部分パターン
辞書122と、文字列画像中から部分パターン辞書12
2に記憶された部分パターンの形状に合致する領域を抽
出する部分パターン検出部121と、部分パターンと合
致した領域の位置と個数から文字種を判定する文字種判
定部123とを備えている。
【0016】文字分離部130は、各文字種において、
接触可能領域を除外するためにその部分の特徴抽出処理
を禁止する領域を記憶する特徴抽出禁止領域辞書132
と、文字種分類部120で判定された文字種に従って特
徴抽出禁止領域を除外して文字分離特徴を抽出するため
の領域を限定する文字分離特徴抽出領域定義部131
と、文字分離特徴を抽出するための領域から文字分離特
徴を抽出する文字分離特徴抽出部133と、文字分離特
徴から文字の分離位置を検出する文字境界位置検出部1
34とを備えており、全体制御部140は制御を実行さ
せるためのプログラムを記録した機械読み取り可能な記
録媒体141を有する。
【0017】画像格納部110は、光学的走査などの手
段により取り込まれ、OCR装置などで一般に用いられ
ている公知の文字列切り出し技術を用いて切り出された
文字列画像が、電子化された形態で格納される。
【0018】部分パターン検出部121は、画像格納部
110に格納されている文字列画像を参照し、部分パタ
ーン辞書122に記憶されている部分パターンとの比較
を行い、合致する領域を求める。ここで文字列画像と部
分パターンとの比較手段としては、モフォロジー演算や
パターンマッチングなどの手法を用いることができる。
【0019】部分パターン辞書122には、文字種を特
定するための特徴的な形状が記憶される。特徴的な形状
の例としては、ストローク端のセリフ(Serif ひ
げ状の飾り)、ハネといった形状などがある。
【0020】文字種判定部123は、部分パターン検出
部121にて文字列画像に検出された部分パターンの位
置と個数から文字種を判定する。
【0021】特徴抽出禁止領域辞書132は、接触可能
領域を除外するためにその部分の特徴抽出処理をを行わ
ない領域を文字種ごとに記憶する。
【0022】文字分離特徴抽出領域定義部131は、文
字種判定部123により判定された文字種と、特徴抽出
禁止領域辞書132とを参照し、文字列画像で特徴抽出
を行ってはいけない領域を特定し、画像格納部110に
記憶されている文字列画像の特徴抽出を行ってはいけな
い領域にマスクをかける。
【0023】文字分離特徴抽出部133は、特徴抽出処
理を行わないためのマスクがかけられた文字列画像に対
して文字分離のための特徴を求める。文字分離特徴の例
としては、射影パターンやラベリングによる連結画素へ
の分離などを用いることができる。
【0024】文字境界位置検出部134は、文字分離特
徴から文字の分離位置を特定して出力する。射影パター
ンを例に取れば、射影パターンの空白領域や谷間などの
位置を選ぶことで分離位置が特定できる。
【0025】全体制御部140は、部分パターンの検出
手順、部分パターンの計数手順、文字分離特徴の抽出手
順等を含む、全体処理の動作制御を行う。次に図1、図
2および図3を参照して、本発明の文字切り出し装置と
方法の実施の形態の動作について説明する。各モジュー
ルの制御は全体制御部140によって行われる。
【0026】動作を開始すると(S201)、画像格納
部110に格納された文字列画像が部分パターン検出部
121に読み込まれ(S202)、部分パターン辞書1
22に記憶された部分パターンも部分パターン検出部1
21に読み込まれ(S203)、まず一致度カウンタが
初期化(0に設定)され(S204)、文字列画像の左
上を重ねあわせの始点とし(S205)、文字列画像と
部分パターンの重ねあわせの一致度を計算する(S20
6)。一致度が十分大きければ(S207Yes)、一
致度カウンタを一つ増やし(S208)、さらに部分パ
ターンを一つ右にずらす(S209)。一致度が十分大
きくなければ(S207No)部分パターンを一つ右に
ずらす(S209)。右端に達するまでS206に戻
り、重ねあわせの一致度の計算を繰り返す(S210N
o)。右端に達すると(S210Yes)、部分パター
ンを下に一つずらして左端に戻し(S211)、下端を
越えていなければS206に戻り、重ねあわせの一致度
の計算を繰り返す(S212No)。下端を越えると
(S212Yes)、一致度カウンタが所定の値よりも
大きいかを判断し、大きければセリフつき文字種と判定
し(S214)、大きくなければその他の文字種と判定
し(S215)、文字分離特徴抽出領域定義部131に
読み込む(S216)。特徴抽出禁止領域辞書を文字分
離特徴抽出領域定義部131に読み込み(S217)、
文字列画像を文字分離特徴抽出領域定義部131に読み
込む(S218)。特徴抽出禁止領域辞書を参照して、
読み込んだ文字列画像内の特徴抽出を行ってはいけない
領域を特定し、文字列画像のその領域にマスクをかける
(S219)。マスクをかけた文字列画像を文字分離特
徴抽出部133に読み込み(S220)、文字分離特徴
として射影ヒストグラムを求め(S221)、文字境界
位置検出部134で射影ヒストグラムの空白を文字切り
出し位置として出力し(S222)、動作を終了する
(S223)。
【0027】次に、本発明の実施の形態の実施例を具体
例を用いて説明する。以下、本説明では、具体的な説明
を行うために、部分パターン検出手法にパターンマッチ
ング方式を用い、また部分パターン辞書に登録されてい
るパターンは図4に示すようなストローク下端のセリフ
(ひげ状の飾り)を例にとって説明する。ここで仮定し
ている以外の部分パターン検出方式や部分パターンを用
いることも、本発明の枠組み内で可能であることを強調
しておく。
【0028】図4は部分パターン画像の一例を示す模式
図であり、図5は文字列画像の一例を示す模式図であ
り、図6は文字列画像と部分パターン画像との一致した
個所を説明するための模式図であり、図7はマスクをか
けた後に文字分離位置を探す処理を説明するための模式
図であり、(a)はマスクをかけたあとの画像、(b)
は画素の射影ヒストグラムである。
【0029】まず、一致度を記憶するためのカウンタの
値を初期化する。この場合0を設定する。また部分パタ
ーン画像として図4に示すようなパターンをあらかじめ
定義しておく。
【0030】重ね合わせの基準位置を文字列画像の左上
とする。以下、この基準位置をずらしながら一致度の評
価を行う。
【0031】一致度の算出手順を以下に記す。部分パタ
ーン画像を文字列画像に重ね合わせた時に、重なりあう
画素のうちで値が一致する画素の出現頻度を求め、その
出現頻度が所定の値より大きい場合に、部分パターン画
像はその位置で部分的に文字列画像に一致するとして、
一致度カウンタの値を1つ増やす。
【0032】図4および図5を用いて説明する。図4、
図5において「■」は文字画素、「□」は背景画素を表
すものとする。図4に示す部分パターン画像の基準点を
図5の文字列画像上の各画素にあてはめて一致度を調べ
る。すると、図4に示す部分パターン画像の基準点が図
5の文字列画像の座標(1、8)、(8、8)および
(13、8)に位置する時に完全に一致する。すなわ
ち、図6で丸印をつけた箇所で部分パターンは文字列画
像と一致する。
【0033】部分パターン画像の基準位置をずらしなが
ら文字列画像全面に対してこの重ね合わせ評価を行い、
一致度カウンタでこれら一致度の大きい箇所の総数を求
める。
【0034】図4および図5の例では、画像全面を走査
し終わったあとの一致度カウンタの値は3となる。一致
度カウンタの値が別途設定する出現頻度の基準値よりも
小さい場合には、その文字種はセリフのない書体(Aria
l体やゴシック体)であると判定し、そうでない場合に
はセリフ付きの書体(Times Roman体や明朝体)である
と判定する。一例として一致度カウンタ≧1ならばセリ
フ付き書体と判定する定義が考えられ、この定義に従え
ば、図5に示した例はセリフ付き書体と判定される。一
致度カウンタ≧10の場合にセリフ付き書体と判定する
定義であれば、図5は非セリフ付き書体と判定される。
【0035】次に、部分パターン検出方法にモフォロジ
ー演算を用いる場合の実施形態での実施例を示す。モフ
ォロジーとは集合論的操作からなる画像の変形手法の論
理体系であり、2値画像あるいは濃淡画像から特徴を抽
出することを目的としている。モフォロジーに関する解
説としては、電子情報通信学会誌第74巻第2号166
頁から173頁、同第74巻第3号271頁から279
頁に記載されている。
【0036】図5に示す対象画像に対して、図4に示す
画像を構成要素として,openigと呼ばれるモフォ
ロジー演算を施す。opening演算とは、対象画像
から構成要素画像と重なる部分を端から掻き取り(er
osion演算)、掻き取ったあとの画像を削り取った
厚みだけずらし重ね(dilation演算)する、モ
フォロジーにおける基本演算である。わかりやすい例と
して、構成要素として円を用いた場合は、対象画像の突
起部やくびれ部を削り取り、滑らかな形に変形する効果
がある。また変形後の画像の面積は構成要素を含む尺度
となる。従って、パターンマッチング法によって求める
部分パターンとの合致数に代えて、部分パターンを構成
要素とするopening演算を施した画像の面積を、
対象画像がセリフつき文字列であるか否かを判定するた
めの比較尺度として用いることができる。上記実施例に
おいては、一致度カウンタにopening演算を施し
た画像の面積を代入することにより実現できる。ope
ningを施した後の画像の面積を、図4に示す構成要
素画像の大きさ(ある一定の長さ)で微分した値はパタ
ーンスペクトラムと呼ばれており、この値を用いて構成
要素の含有率を求めることも可能である。
【0037】文字列がセリフ付き書体であると判定され
た場合、文字分離特徴を求める前に画像にマスクをかけ
る処理を行う。マスクパタンは文字種種別を検索キーと
して、特徴抽出禁止領域辞書から読み出される。マスク
処理の実行は、画像格納部に格納されている文字列画像
と、読み出されたマスクパタンとのAND演算を行うこと
により実現できる。例えば「画像の上下からそれぞれ2
画素分ずつの領域を文字分離特徴抽出領域から除外す
る」というマスクパタンが定義されている場合、マスク
をかけたあとの画像は図7(a)に示すものとなる。図
7で「・」で示された部分が特徴抽出禁止領域辞書から
読み出されたマスクパタンにて除去された画素である。
【0038】文字分離特徴の抽出には、例えば画素の射
影ヒストグラムを求めて、ヒストグラムの値が0の箇所
を選ぶという手順で実現できる。図面で言えば、図7
(b)の矩形が文字画素の射影によって求めたヒストグ
ラムである。このヒストグラムの高さが0の部分を文字
分離位置として選択することができる。
【0039】全体制御の実施を行う手段としては、上述
の実施の形態に記した処理および手順をプログラム形式
で記述し、汎用マイクロプロセッサを用いて制御するこ
とにより実現できる。
【0040】制御プログラムは記録媒体141から全体
制御部140のデータ処理装置のマイクロプロセッサ
(不図示)に読み込まれデータ処理装置の動作を制御す
る。
【0041】全体制御部140は制御プログラムの制御
により以下の処理を実行する。即ち、光学的走査などの
手段により取り込まれ電子化された文字列画像を画像格
納部に格納する処理と、文字種を特定する特徴となる部
分パターンの形状を記憶する部分パターン辞書を用い
て、部分パターン検出部に文字列画像中から部分パター
ンに合致する領域を抽出させ、文字種判定部で部分パタ
ーンと合致した位置と個数から文字種を判定させる処理
と、各文字種において、特徴抽出処理を禁止する領域を
記憶する特徴抽出禁止領域辞書を参照して、判定した文
字種に従って文字分離特徴抽出領域定義部で文字列画像
中から文字分離特徴を抽出するための領域を限定させ、
文字分離特徴抽出部で文字分離特徴を抽出するための領
域から文字分離特徴を抽出させ、文字境界位置検出部で
文字分離特徴から文字の分離位置を検出する処理であ
る。
【0042】以上の各手順は記録媒体141に記録され
たプログラムなどのソフトウエアによっても実現できる
ことは容易に類推できる。
【0043】以下、本願発明の別の実施の形態について
説明する。一致度の計算式では上記の定義以外にも、次
のような定義も可能である。上記の一致度算出法の手順
の中の、部分パターンと文字列パターンを重ねた時の重
なり合う画素の値が一致する箇所の個数を計数する部分
で、「画素の値が一致する」という条件に代えて「部分
パターンの文字画像の画素の値と文字列パターンの重な
りあう文字画像の画素の値との差が一定の値以内であ
る」とする。文字列画像および部分パターン画像が複数
の階調からなる式で表現されている場合に、この定義が
有効である。
【0044】また、重なり合う画素の出現頻度を求める
のに一致度カウンタの値をそのまま用いているが、対象
とする文字列画像の面積が様々な場合には、一致度カウ
ンタの値そのものに代えて、一致度カウンタの値を部分
パターン画像の面積で除算した値を尺度とすることも可
能である。さらには、除数の他の例として、部分パター
ン画像の面積に代えて、部分パターン画像における文字
画素(背景部分以外の画素)の数を用いることも可能で
ある。
【0045】
【発明の効果】本発明の第1の効果は、文字列画像中の
接触の可能性のある領域を除いて文字分離特徴を抽出す
るので、文字接触形態の影響を受けず、従来手法よりも
多くの接触パターンに対して確実に文字切り出しが行え
る点にある。
【0046】本発明の第2の効果は、文字種の特徴を示
す部分パターンを文字列画像と対比して文字種を判定
し、文字種に対応した分離特徴抽出領域を抽出して文字
切り出しを行うので、文字全体のパターンを基準文字と
して登録し相関を求めるような冗長な文字切り出し処理
を行う必要がないことと、ハードウェア化が容易である
ことから、小規模なハードウエア上で高速に文字切り出
し処理を行うことが可能である点にある。
【図面の簡単な説明】
【図1】本発明の文字切り出し装置のブロック構成図で
ある。
【図2】本発明の文字切り出し方法のフローチャートの
前半である。
【図3】本発明の文字切り出し方法のフローチャートの
後半である。
【図4】部分パターン画像の一例を示す模式図である。
【図5】文字列画像の一例を示す模式図である。
【図6】文字列画像と部分パターン画像との一致した個
所を説明するための模式図である。
【図7】マスクをかけた後に文字分離位置を探す処理を
説明するための模式図である。(a)はマスクをかけた
あとの画像である。(b)は画素の射影ヒストグラムで
ある。
【符号の説明】
110 画像格納部 120 文字種分類部 121 部分パターン検出部 122 部分パターン辞書 123 文字種判定部 130 文字分離部 131 文字分離特徴抽出領域定義部 132 特徴抽出禁止領域辞書 133 文字分離特徴抽出部 134 文字境界位置検出部 140 全体制御部 141 記録媒体 S201〜S212、S213〜S223 各ステッ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 光学的走査などの手段により取り込まれ
    電子化された文字列画像を格納する画像格納部と、 文字種を特定するための特徴となる部分パターンの形状
    を記憶する部分パターン辞書と、 前記文字列画像中から前記部分パターンに合致する領域
    を抽出する部分パターン検出部と、 前記文字列画像中の部分パターンと合致した領域の位置
    と個数から文字種を判定する文字種判定部と、 各文字種における特徴抽出処理を禁止する領域を記憶す
    る特徴抽出禁止領域辞書と、 判定した文字種に対応する特徴抽出禁止領域を参照して
    前記文字列画像中から文字分離特徴を抽出するための領
    域を限定する文字分離特徴抽出領域定義部と、 文字分離特徴を抽出するための領域から文字分離特徴を
    抽出する文字分離特徴抽出部と、 文字分離特徴から文字の分離位置を検出する文字境界位
    置検出部と、 これらの処理部の動作を統括する全体制御部と、を備え
    たことを特徴とする文字切り出し装置。
  2. 【請求項2】 光学的走査などの手段により取り込まれ
    電子化された文字列画像を格納する工程と、 文字種を特定するための特徴となる部分パターンの形状
    を用いて、前記文字列画像中から該部分パターンに合致
    する領域を抽出し、該文字列画像中の前記部分パターン
    と合致した位置と個数から文字種を判定する工程と、 各文字種における特徴抽出処理を禁止する領域を参照し
    て、判定した文字種に従って前記文字列画像中から文字
    分離特徴を抽出するための領域を限定し、文字分離特徴
    を抽出するための領域から文字分離特徴を抽出し、抽出
    した文字分離特徴から文字の分離位置を検出する工程
    と、を備えたことを特徴とする文字切り出し方法。
  3. 【請求項3】 文字種の判定が、前記文字列画像と前記
    部分パターンとのパターンマッチング法によって行われ
    る、請求項2に記載の文字切り出し方法。
  4. 【請求項4】 文字種の判定が、前記文字列画像と前記
    部分パターンとの関係のモフォロジー演算によって行わ
    れる、請求項2に記載の文字切り出し方法。
  5. 【請求項5】 文字の分離位置の検出が、前記文字分離
    特徴の射影パターンの空白を含み空白に準ずる領域を分
    離位置として行われる、請求項2に記載の文字切り出し
    方法。
  6. 【請求項6】 全体制御部を介して、読み込まれ電子化
    された文字列画像から文字を切り出すための制御プログ
    ラムを記録した記録媒体であって、 光学的走査などの手段により取り込まれ電子化された文
    字列画像を画像格納部に格納する手順と、 文字種を特定する特徴となる部分パターンの形状を記憶
    する部分パターン辞書を参照して、部分パターン検出部
    に前記文字列画像中から前記部分パターンに合致する領
    域を抽出させ、文字種判定部で部分パターンと合致した
    位置と個数から文字種を判定させる手順と、 各文字種に対応した特徴抽出処理を禁止する領域を記憶
    する特徴抽出禁止領域辞書を参照して、判定した文字種
    に従って文字分離特徴抽出領域定義部で前記文字列画像
    中から文字分離特徴を抽出するための領域を限定させ、
    文字分離特徴抽出部で文字分離特徴を抽出するための領
    域から文字分離特徴を抽出させ、文字境界位置検出部で
    文字分離特徴から文字の分離位置を検出する手順と、を
    実行させるためのプログラムを記録した機械読み取り可
    能な記録媒体。
JP9307428A 1997-11-10 1997-11-10 文字切り出し装置および文字切り出し方式 Expired - Fee Related JP3008908B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP9307428A JP3008908B2 (ja) 1997-11-10 1997-11-10 文字切り出し装置および文字切り出し方式
US09/189,874 US6327385B1 (en) 1997-11-10 1998-11-10 Character segmentation device and character segmentation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9307428A JP3008908B2 (ja) 1997-11-10 1997-11-10 文字切り出し装置および文字切り出し方式

Publications (2)

Publication Number Publication Date
JPH11143989A true JPH11143989A (ja) 1999-05-28
JP3008908B2 JP3008908B2 (ja) 2000-02-14

Family

ID=17968953

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9307428A Expired - Fee Related JP3008908B2 (ja) 1997-11-10 1997-11-10 文字切り出し装置および文字切り出し方式

Country Status (2)

Country Link
US (1) US6327385B1 (ja)
JP (1) JP3008908B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100341028C (zh) * 1999-07-06 2007-10-03 富士通株式会社 模式分段装置及其方法和模式识别装置及其方法
CN108470188A (zh) * 2018-02-26 2018-08-31 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000099501A (ja) * 1998-09-17 2000-04-07 Internatl Business Mach Corp <Ibm> 文書データへの情報の埋め込み方法およびシステム
US6614930B1 (en) * 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
US6501855B1 (en) * 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
JP3373811B2 (ja) * 1999-08-06 2003-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 白黒2値文書画像への透かし情報埋め込み・検出方法及びその装置
US7898695B1 (en) * 2000-10-06 2011-03-01 Lexmark International, Inc. Method of compensating for electronic printhead skew and bow correction in an imaging machine to reduce print artifacts
US6690821B2 (en) * 2000-12-28 2004-02-10 Xerox Corporation Determining the font of text in an image
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
US8768286B2 (en) * 2001-10-24 2014-07-01 Mouhamad Ahmad Naboulsi Hands on steering wheel vehicle safety control system
US20060083428A1 (en) * 2004-01-22 2006-04-20 Jayati Ghosh Classification of pixels in a microarray image based on pixel intensities and a preview mode facilitated by pixel-intensity-based pixel classification
JP2004056266A (ja) * 2002-07-17 2004-02-19 Ricoh Co Ltd 像域分離装置、画像処理装置、画像形成装置、プログラム及び記憶媒体
JP4477468B2 (ja) * 2004-10-15 2010-06-09 富士通株式会社 組み立て図面の装置部品イメージ検索装置
CN100369049C (zh) 2005-02-18 2008-02-13 富士通株式会社 灰度字符的精确分割装置及方法
CN100430958C (zh) * 2005-08-18 2008-11-05 富士通株式会社 调整候选字符的初始识别距离的方法和装置
US8228522B2 (en) * 2007-01-29 2012-07-24 Kabushiki Kaisha Toshiba Document data management apparatus to manage document data read and digitized by an image reading apparatus and a technique to improve reliability of various processing using document data
US7480411B1 (en) * 2008-03-03 2009-01-20 International Business Machines Corporation Adaptive OCR for books
US8345978B2 (en) * 2010-03-30 2013-01-01 Microsoft Corporation Detecting position of word breaks in a textual line image
CN102915440A (zh) * 2011-08-03 2013-02-06 汉王科技股份有限公司 一种字符切分的方法及装置
US9042647B2 (en) 2013-06-06 2015-05-26 Xerox Corporation Adaptive character segmentation method and system for automated license plate recognition
JP6403417B2 (ja) * 2014-04-23 2018-10-10 株式会社キーエンス 携帯型光学式読取装置、該携帯型光学式読取装置を用いる光学式読取方法、及びコンピュータプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5998283A (ja) * 1982-11-27 1984-06-06 Hitachi Ltd パターン切出しおよび認識方法、ならびにそのシステム
JPS6394386A (ja) 1986-10-08 1988-04-25 Tokyo Keiki Co Ltd 印字文字ピツチ検出装置
JP3105967B2 (ja) * 1991-11-14 2000-11-06 キヤノン株式会社 文字認識方法及び装置
US5369714A (en) * 1991-11-19 1994-11-29 Xerox Corporation Method and apparatus for determining the frequency of phrases in a document without document image decoding
US5828771A (en) * 1995-12-15 1998-10-27 Xerox Corporation Method and article of manufacture for determining whether a scanned image is an original image or fax image
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100341028C (zh) * 1999-07-06 2007-10-03 富士通株式会社 模式分段装置及其方法和模式识别装置及其方法
CN108470188A (zh) * 2018-02-26 2018-08-31 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备
CN108470188B (zh) * 2018-02-26 2022-04-22 北京物灵智能科技有限公司 基于图像分析的交互方法及电子设备

Also Published As

Publication number Publication date
US6327385B1 (en) 2001-12-04
JP3008908B2 (ja) 2000-02-14

Similar Documents

Publication Publication Date Title
JP3008908B2 (ja) 文字切り出し装置および文字切り出し方式
US5034991A (en) Character recognition method and system
KR100658119B1 (ko) 문자 인식 장치 및 방법
EP1146478B1 (en) A method for extracting titles from digital images
Ouwayed et al. A general approach for multi-oriented text line extraction of handwritten documents
JPH096957A (ja) 濃度画像の2値化方法および画像2値化装置
JP2006338578A (ja) 文字認識装置
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
Tran et al. A novel approach for text detection in images using structural features
Chang et al. Caption analysis and recognition for building video indexing systems
JP4244692B2 (ja) 文字認識装置及び文字認識プログラム
JP4867894B2 (ja) 画像認識装置、画像認識方法及びプログラム
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP4078045B2 (ja) 画像処理装置、方法、プログラム、及び記憶媒体
KR19990049667A (ko) 한글 문자체 인식 방법
Ariel et al. ALPR character segmentation algorithm
JP2001126027A (ja) ナンバープレート認識装置
El Makhfi et al. Scale-space approach for character segmentation in scanned images of Arabic documents
JP3077929B2 (ja) 文字切出し方式
KR100317653B1 (ko) 대용량인쇄체문자인식을위한특징추출방법
JPH0452783A (ja) 図面読取装置
JP3163698B2 (ja) 文字認識方法
JPH07160810A (ja) 文字認識装置
JPH0916715A (ja) 文字認識装置および方法
Hangarge et al. Shape and morphological transformation based features for language identification in indian document images

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071203

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081203

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091203

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101203

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111203

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111203

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121203

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121203

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131203

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees