JPH09106437A - 文字切出し装置および文字切出し方法 - Google Patents

文字切出し装置および文字切出し方法

Info

Publication number
JPH09106437A
JPH09106437A JP7288199A JP28819995A JPH09106437A JP H09106437 A JPH09106437 A JP H09106437A JP 7288199 A JP7288199 A JP 7288199A JP 28819995 A JP28819995 A JP 28819995A JP H09106437 A JPH09106437 A JP H09106437A
Authority
JP
Japan
Prior art keywords
character
area
standard
block
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7288199A
Other languages
English (en)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP7288199A priority Critical patent/JPH09106437A/ja
Publication of JPH09106437A publication Critical patent/JPH09106437A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 日本語文字と英文字が混在している文書であ
っても的確な文字切り出しを可能にし,認識精度を向上
させる。 【解決手段】 行画像から黒画素の連結成分を包含する
外接矩形を抽出し,該外接矩形を組み合わせることによ
り文字塊を切り出し,その文字塊を組み合わせた文字パ
ターン候補から文字パターンを選択する文字切出し装置
において,行中の領域が英文字領域か日本文字領域かを
識別する英日識別部105と,英日識別部105が識別
した領域に応じて文字塊を組み合わせる文字パターン候
補の生成方法を切り換えて処理する文字塊生成部109
とを備えている。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は,日本語文字と英文
字が混在している文書において,日本語文字領域と英文
字領域との識別を実行し,各領域に適した文字切り出し
方法を選択する文字切出し装置および文字切出し方法に
関するものである。
【0002】
【従来の技術】従来,日本語の文字認識の中の文字切り
出し方法として,たとえば特開平3−291799号公
報に開示されているように,文字塊を切り出し,その文
字塊を組み合わせて文字パターン候補の認識を行い,認
識結果の確からしさを評価することにより文字を決定す
るものが知られている。
【0003】
【発明が解決しようとする課題】しかしながら,上記に
示されるような従来の文字切り出し方法にあっては,日
本語の偏(へん)と旁(つくり)に分離する方法として
は有効であっても,英文字がカーリング機能などプロポ
ーショナルピッチで印字された場合には有効に働かない
場合があるなどの問題点があった。
【0004】本発明は,上記に鑑みてなされたものであ
って,日本語文字と英文字が混在している文書であって
も的確な文字切り出しを可能にし,認識精度を向上させ
ることを目的とする。
【0005】
【課題を解決するための手段】上記の目的を達成するた
めに,請求項1に係る文字切出し装置にあっては,行画
像から黒画素の連結成分を包含する外接矩形を抽出し,
該外接矩形を組み合わせることにより文字塊を切り出
し,その文字塊を組み合わせた文字パターン候補から文
字パターンを選択する文字切出し装置において,行中の
領域が英文字領域か日本文字領域かを識別する英日識別
手段と,前記英日識別手段が識別した領域に応じて文字
塊を組み合わせる文字パターン候補の生成方法を切り換
えて処理する文字塊生成手段とを備えたものである。
【0006】すなわち,日本語文字領域と英文字領域と
を識別し,該識別された文字種別毎の領域に応じて文字
塊を組み合わせる文字パターン候補の生成方法を切り換
えることにより,的確な文字の切り出しを行うことがで
きる。
【0007】また,請求項2に係る文字切出し装置にあ
っては,行画像から黒画素の連結成分を包含する外接矩
形を抽出し,該外接矩形を組み合わせることにより文字
塊を切り出し,その文字塊を組み合わせた文字パターン
候補から文字パターンを選択する文字切出し装置におい
て,行中の領域が英文字領域か日本文字領域かを識別す
る英日識別手段と,前記英日識別手段が識別した領域に
応じて文字候補から文字パターンを選択する方法を切り
換えて処理する文字パターン生成手段とを備えたもので
ある。
【0008】すなわち,日本語文字領域と英文字領域と
を識別し,該識別された文字種別毎の領域に応じて文字
候補から文字パターンを選択する方法を切り換えて処理
することにより,的確な文字の切り出しを行うことがで
きる。
【0009】また,請求項3に係る文字切出し装置にあ
っては,行画像から黒画素の連結成分を包含する外接矩
形を抽出し,該外接矩形を組み合わせることにより文字
塊を切り出し,その文字塊を組み合わせた文字パターン
候補から文字パターンを選択する文字切出し装置におい
て,行中の領域が英文字領域か日本文字領域かを識別す
る英日識別手段と,前記英日識別手段が識別した領域に
応じて文字塊を組み合わせる文字パターン候補の生成方
法を切り換えて処理する文字塊生成手段と,前記英日識
別手段が識別した領域に応じて文字候補から文字パター
ンを選択する方法を切り換えて処理する文字パターン生
成手段とを備えたものである。
【0010】すなわち,上記第1の発明および第2の発
明における処理をそれぞれ単独で行わずに,これらを組
み合わせて処理することにより,より精度の高い文字認
識を行うことができる。
【0011】また,請求項4に係る文字切出し装置にあ
っては,前記文字パターン生成手段は,文字塊を組み合
わせる文字パターン候補の生成方法を切り換える場合,
前記英日識別手段が英文字領域と識別した領域に対し,
同一の文字塊を重複させないものである。
【0012】すなわち,英文字と判断された領域に対し
ては,文字塊の重複を行わないので,単独で切り出すこ
とによって認識精度が向上する。
【0013】また,請求項5に係る文字切出し装置にあ
っては,前記文字塊生成手段は文字塊を生成する際,前
記英日識別手段が英文字領域と識別した領域では,標準
文字サイズを算出し,幅および高さが標準文字サイズと
同等の矩形とその右上に幅および高さが標準文字サイズ
の1/4よりも小さい矩形が存在した場合に,前記矩形
を統合して1つの文字塊とするものである。
【0014】すなわち,日本語が濁点あるいは半濁点文
字である場合,抽出矩形をそれぞれ別の文字塊とするの
ではなく,文字塊生成手段において統合し,1つの文字
塊として処理した方が認識率が向上する。
【0015】また,請求項6に係る文字切出し装置にあ
っては,前記文字塊生成手段は文字塊を生成する際,前
記英日識別手段が日本語文字と識別した領域では,標準
文字サイズを算出し,幅が標準文字サイズの1/4より
も小さく高さが標準文字サイズと同等の矩形とその左側
に幅が標準文字サイズの1/4よりも小さく高さが標準
文字サイズの1/2よりも小さい矩形が存在した場合
に,前記矩形を統合して1つの文字塊とするものであ
る。
【0016】すなわち,日本語がたとえばカタカナの
「リ」のように矩形としては重なりがないが1文字が左
右に分離している文字である場合,これらの矩形を別々
の文字塊とするのではなく,1つの文字塊として統合し
て処理した方が認識率が向上する。
【0017】また,請求項7に係る文字切出し装置にあ
っては,前記文字塊生成手段は文字塊を生成する際,前
記英日識別手段が日本語文字と識別した領域では,標準
文字サイズを算出し,幅および高さが標準文字と同等の
矩形とその右上に幅および高さが標準文字サイズの1/
4よりも小さい矩形が存在している場合には,これらの
矩形を統合して1つの文字塊とし,一方,幅が標準文字
サイズの1/4よりも小さく高さが標準文字サイズと同
等の矩形とその左側に幅が標準文字サイズの1/4より
も小さく高さが標準文字サイズの1/2よりも小さい矩
形が存在している場合には,これらの矩形を統合して1
つの文字塊とするものである。
【0018】すなわち,上記第5の発明と第6の発明に
おける処理をそれぞれ単独に行わず,これらを組み合わ
せて実行することにより,より精度の高い文字認識を行
うことができる。
【0019】また,請求項8に係る文字切出し装置にあ
っては,前記文字塊生成手段は文字塊を生成する際,矩
形どうしの重なりの程度に応じて1つの文字塊とするか
を判断し,日本語文字と判断された領域で,重なりの程
度が小さくても矩形を統合し,英文字と判断された領域
では,重なりの程度が大きい場合だけ統合するように処
理を実行するものである。
【0020】すなわち,英文字と判断された領域では,
重なりの度合いが大きい場合にのみ矩形を統合し,日本
語文字と判断された領域では,重なりの度合いが小さく
ても矩形を統合して文字塊を生成するように処理を実行
することにより,認識率の精度向上が期待できる。
【0021】また,請求項9に係る文字切出し装置にあ
っては,前記文字塊生成手段は文字塊を生成する際,文
字塊を生成する際,日本語文字と判断された領域では,
標準文字サイズを算出し,幅および高さが標準文字と同
等の矩形とその右上に幅および高さが標準文字サイズの
1/4よりも小さい矩形が存在している場合には,これ
らの矩形を統合して1つの文字塊とし,一方,幅が標準
文字サイズの1/4よりも小さく高さが標準文字サイズ
と同等の矩形とその左側に幅が標準文字サイズの1/4
よりも小さく高さが標準文字サイズの1/2よりも小さ
い矩形が存在している場合には,これらの矩形を統合し
て1つの文字塊とし,さらに矩形どうしの重なりの程度
が小さくても矩形を統合し,英文字と判断された領域で
は,重なりの程度が大きい場合だけ統合するように処理
を実行するものである。
【0022】すなわち,上記第7の発明と第8の発明に
おける処理をそれぞれ単独に行わず,これらを組み合わ
せて実行することにより,より精度の高い文字認識を行
うことができる。
【0023】また,請求項10に係る文字切出し方法に
あっては,行画像から黒画素の連結成分を包含する外接
矩形を抽出し,該外接矩形を組み合わせることにより文
字塊を切り出し,その文字塊を組み合わせた文字パター
ン候補から文字パターンを選択する文字切出し方法にお
いて,行中の領域が英文字領域か日本文字領域かを識別
する第1のステップと,前記第1のステップで識別した
領域に応じて文字塊を組み合わせる文字パターン候補の
生成方法を切り換えて処理する第2のステップとを含む
ものである。
【0024】また,請求項11に係る文字切出し方法に
あっては,行画像から黒画素の連結成分を包含する外接
矩形を抽出し,該外接矩形を組み合わせることにより文
字塊を切り出し,その文字塊を組み合わせた文字パター
ン候補から文字パターンを選択する文字切出し方法にお
いて,行中の領域が英文字領域か日本文字領域かを識別
する第1のステップと,前記第1のステップで識別した
領域に応じて文字候補から文字パターンを選択する方法
を切り換えて処理する第2のステップとを含むものであ
る。
【0025】また,請求項12に係る文字切出し方法に
あっては,行画像から黒画素の連結成分を包含する外接
矩形を抽出し,該外接矩形を組み合わせることにより文
字塊を切り出し,その文字塊を組み合わせた文字パター
ン候補から文字パターンを選択する文字切出し方法にお
いて,行中の領域が英文字領域か日本文字領域かを識別
する第1のステップと,前記第1のステップで識別した
領域に応じて文字塊を組み合わせる文字パターン候補の
生成方法を切り換えて処理する第2のステップと,前記
第1のステップで識別した領域に応じて文字候補から文
字パターンを選択する方法を切り換えて処理する第3ス
テップとを含むものである。
【0026】また,請求項13に係る文字切出し方法に
あっては,文字塊を組み合わせる文字パターン候補の生
成方法を切り換える場合,前記英日識別手段が英文字領
域と識別した領域に対し,同一の文字塊を重複させない
ものである。
【0027】また,請求項14に係る文字切出し方法に
あっては,文字塊を生成する際,英文字領域と識別した
領域では,標準文字サイズを算出し,幅および高さが標
準文字サイズと同等の矩形とその右上に幅および高さが
標準文字サイズの1/4よりも小さい矩形が存在した場
合に,前記矩形を統合して1つの文字塊とするものであ
る。
【0028】また,請求項15に係る文字切出し方法に
あっては,文字塊を生成する際,日本語文字と識別した
領域では,標準文字サイズを算出し,幅が標準文字サイ
ズの1/4よりも小さく高さが標準文字サイズと同等の
矩形とその左側に幅が標準文字サイズの1/4よりも小
さく高さが標準文字サイズの1/2よりも小さい矩形が
存在した場合に,前記矩形を統合して1つの文字塊とす
るものである。
【0029】また,請求項16に係る文字切出し方法に
あっては,文字塊を生成する際,日本語文字と識別した
領域では,標準文字サイズを算出し,幅および高さが標
準文字と同等の矩形とその右上に幅および高さが標準文
字サイズの1/4よりも小さい矩形が存在している場合
には,これらの矩形を統合して1つの文字塊とし,一
方,幅が標準文字サイズの1/4よりも小さく高さが標
準文字サイズと同等の矩形とその左側に幅が標準文字サ
イズの1/4よりも小さく高さが標準文字サイズの1/
2よりも小さい矩形が存在している場合には,これらの
矩形を統合して1つの文字塊とするものである。
【0030】また,請求項17に係る文字切出し方法に
あっては,文字塊を生成する際,矩形どうしの重なりの
程度に応じて1つの文字塊とするかを判断し,日本語文
字と判断された領域で,重なりの程度が小さくても矩形
を統合し,英文字と判断された領域では,重なりの程度
が大きい場合だけ統合するように処理を実行するもので
ある。
【0031】また,請求項18に係る文字切出し方法に
あっては,文字塊を生成する際,文字塊を生成する際,
日本語文字と判断された領域では,標準文字サイズを算
出し,幅および高さが標準文字と同等の矩形とその右上
に幅および高さが標準文字サイズの1/4よりも小さい
矩形が存在している場合には,これらの矩形を統合して
1つの文字塊とし,一方,幅が標準文字サイズの1/4
よりも小さく高さが標準文字サイズと同等の矩形とその
左側に幅が標準文字サイズの1/4よりも小さく高さが
標準文字サイズの1/2よりも小さい矩形が存在してい
る場合には,これらの矩形を統合して1つの文字塊と
し,さらに矩形どうしの重なりの程度が小さくても矩形
を統合し,英文字と判断された領域では,重なりの程度
が大きい場合だけ統合するように処理を実行するもので
ある。
【0032】
【発明の実施の形態】以下,本発明の一実施例を添付図
面を参照して説明する。
【0033】〔実施例1〕 (実施例1の構成)図1は,本実施例に係る文字切出し
装置の構成を示すブロック図であり,各実施例に係るも
のである。図において,101は原稿を読み取り,その
画像データを2値画像データとして入力するスキャナ等
を用いた2値画像入力部,102は2値画像入力部10
1からの2値画像データを格納しておくための2値イメ
ージメモリ,103は2値イメージメモリ102に格納
した2値画像データから行のイメージを切り出す行切り
出し部,104は行切り出し部103からの出力データ
を格納するための行イメージメモリである。
【0034】また,105は行イメージメモリ104に
格納した行データから1行中の中で英文字領域の部分と
日本語文字領域の部分とに識別する英日識別手段として
の英日識別部,106は英日識別部105の識別結果を
格納しておくための文字種別領域メモリ,107は行イ
メージに対して黒画像の連結成分をすべて包含する矩形
を抽出する矩形抽出部,108は矩形抽出部107の抽
出結果を格納しておく矩形メモリである。
【0035】また,109は文字種別領域メモリ106
を参照し,日本語文字領域では統合ぎみに文字塊を生成
し,英文字領域では分離ぎみに文字塊を生成する文字塊
生成手段としての文字塊生成部,110は文字塊生成部
109の生成結果を格納しておく文字塊メモリである。
【0036】また,111は文字塊から1文字と見なせ
るものを組み合わせて文字パターンを生成する文字パタ
ーン生成手段としての文字パターン生成部,112は文
字パターン生成部111の生成データを格納するための
文字パターンメモリ,113はすべての文字パターンを
認識する文字認識部,114は認識された文字パターン
から文字認識時に用いられる評価値などを用いて,最も
文字らしいものを選択し,その結果を認識結果として出
力する。
【0037】(実施例1の動作)次に,以上のように構
成された文字切出し装置の動作について説明する。図2
は,本実施例に係る文字切出し方法を示すフローチャー
トである。まず,2値画像入力部101により原稿を読
み取り,その読取データを2値化データとして2値イメ
ージメモリ102に格納する(S201)。
【0038】次いで,2値イメージメモリ102の2値
画像データを読み出し,行切り出し部103により2値
画像データから行のイメージを切り出し,その結果を行
イメージメモリ104に格納する(S202)。
【0039】続いて,英日識別部105により,1行中
の中で英文字領域の部分と日本語文字領域の部分とを識
別し,その識別結果を文字種別領域メモリ106に格納
する(S203)。さらに矩形抽出部107において,
行イメージに対して黒画素の連結部分をすべて包含する
矩形を抽出し,その結果を矩形メモリ108に格納す
る。
【0040】次に,英日識別部105の識別結果が日本
語領域か否かを判断する(S204)。ここで日本語領
域であると判断した場合,日本語用文字切り出しを実行
する(S205)。一方,上記ステップS204におい
て,英文字であると判断した場合,英語用文字切り出し
を実行する(S206)。
【0041】日本語用文字切り出しを実行した後,その
文字を認識し(S207),日本語用文字パターンを選
択する(S208)。一方,英語用文字切り出しを実行
した後,その文字を認識し(S209),英語用文字パ
ターンを選択する(S210)。
【0042】すなわち,文字塊生成部109において文
字種別領域メモリ106を参照し,ステップS205で
は,日本語文字領域では統合ぎみに文字塊を生成し,英
文字領域では分離ぎみに文字塊を生成し,その生成結果
を文字塊メモリ110に格納する。
【0043】さらに,文字パターン生成部111におい
て文字塊から1文字と見なせるものを組み合わせて文字
パターンを生成し,その生成パターンを文字パターンメ
モリ112に格納する。次いで,文字認識部113にお
いてすべての文字パターンを認識する。
【0044】その後,文字パターン選択部114におい
て認識された文字パターンから文字認識時に用いられた
評価値などを参照し,最も文字らしいものを選択し,そ
の選択した文字を認識結果として出力する。
【0045】なお,上記英日識別部105による英日判
定方法として,たとえば特開平4−346188号公報
に開示されているところの,文字行領域ごとに計数する
矩形数から日本語か英文字かを判定する方法を用いれば
よい。すなわち,日本語文字,特に漢字では矩形要素が
多く含まれているが,英文字では曲線分が多く矩形が皆
無であることを利用する。
【0046】〔実施例2〕次に,実施例2について説明
する。ところで,上記において文字塊生成部109にお
ける処理を文字種別領域に基づいて切り換えを行った
が,この他にたとえば文字パターン生成部111により
切り換えることもできる。
【0047】すなわち,文字塊から文字パターンを生成
する際,日本語文字の場合には全角文字が多く,英文字
の場合には半角サイズの文字が多いと考えられるため,
1文字とみなしうる大きさを日本語文字と英文字とで切
り換えることにより,認識精度を向上させることができ
る。
【0048】〔実施例3〕次に,実施例3について説明
する。ここでは上記実施例1と実施例2の各処理をそれ
ぞれ単独に実行せずに,この2つの処理を組み合わせて
文字切り出しを行うものである。
【0049】すなわち,文字塊を組み合わせる文字パタ
ーン候補の生成処理および文字パターン候補から文字パ
ターンを選択する処理を切り換えることにより,より精
度のよい文字認識を行うことができる。
【0050】〔実施例4〕次に,実施例4について説明
する。さて,上記実施例2で説明した文字塊から文字パ
ターンを生成する際,英文字に関しては画像の切れが生
じていない場合には,行に対して水平方向には文字が分
離することがあり得ないので,生成された文字塊の1つ
1つが単独で1文字と考えることができる。
【0051】すなわち,ここでは文字塊を組み合わせる
文字パターン候補の生成方法を切り換える場合,英文字
領域と判定した領域に対しては,同一の文字塊を重複さ
せないようにする。
【0052】したがって,英文字と判定された領域に対
しては,文字塊の重複を行わないので,単独で切り出す
ことにより認識精度の向上を図ることができる。
【0053】〔実施例5〕次に,実施例5について説明
する。図3は,実施例5に係る濁点半濁点処理例を示す
説明図である。図において,3つの矩形(R3は厳密に
は2つの連結成分から成り立っているが,説明を簡単に
するため1つとみなす)からなっている。
【0054】まず,1行中の標準文字サイズを求める。
標準文字サイズの求め方は,行内で矩形の幅あるいは高
さの最頻値などを用いる。次に,標準文字サイズと矩形
の大きさを比較し,幅および高さが標準文字サイズと同
等とみなせるものは,日本語文字が全角で印字されたも
のと推定することができる。たとえば図3のR1であ
る。
【0055】また,この幅および高さが標準文字サイズ
と同等とみなせる矩形が存在し,かつ,その右上に標準
文字サイズの1/4よりも小さい幅と高さをもつ矩形が
存在していれば,その文字は日本語の濁点あるいは半濁
点文字であると推定することができる。たとえば図3の
R2とR3である。
【0056】したがって,これらの矩形はそれぞれ別の
文字塊とするのではなく,文字塊生成部109において
結合し,1つの文字塊として処理した方が認識率が向上
する。また,英文字領域に本処理を適用すると誤ってア
ポストロフィなどを他の文字に統合してしまうことがあ
るので,それぞれの領域に応じた処理を行うことが効率
的である。
【0057】〔実施例6〕次に,実施例6について説明
する。図4は,実施例6に係る左右小片統合例を示す説
明図である。ここでは,図4に示すカタカナの「リ」の
文字のように,矩形としては重なりがないが1文字が左
右に分離している文字に対する処理について説明する。
【0058】矩形の高さが標準文字サイズと同等であ
り,幅が標準文字サイズの1/4より小さいもの,たと
えば図4のR2と,その左側に高さが標準文字サイズの
1/2よりも小さく,幅が標準文字サイズの1/4より
も小さい矩形,たとえば図4のR1が存在している場
合,この矩形の組はカタカナの「リ」のような左右に分
類している文字であると判断する。そこで,これらの矩
形を別々の文字塊とするのではなく,1つの文字塊とし
て統合して処理する。
【0059】〔実施例7〕次に,実施例7について説明
する。ここでは上記実施例5と実施例7の各処理をそれ
ぞれ単独に実行せずに,この2つの処理を組み合わせて
文字切り出しを行うものである。
【0060】すなわち,文字塊を生成する際,日本語文
字と判断された領域では,標準文字サイズを算出し,幅
および高さが標準文字と同等の矩形とその右上に幅およ
び高さが標準文字サイズの1/4よりも小さい矩形が存
在している場合には,これらの矩形を統合して1つの文
字塊とする。
【0061】一方,幅が標準文字サイズの1/4よりも
小さく高さが標準文字サイズと同等の矩形とその左側に
幅が標準文字サイズの1/4よりも小さく高さが標準文
字サイズの1/2よりも小さい矩形が存在している場合
には,これらの矩形を統合して1つの文字塊とする。し
たがって,これらの処理を実行することでより精度のよ
い文字認識を行うことができる。
【0062】〔実施例8〕次に,実施例8について説明
する。本実施例では,連結成分を包含する矩形の位置と
重なりを見て文字塊を生成するものである。その中で,
日本語文字を構成する矩形は異なる文字どうしで矩形が
重なることはあまり見られないが,反対に,英文字で
は,単語の文字間隔を調整する機能,いわゆるカーニン
グ機能で印字されることが一般的であり,異なる文字ど
うしでも矩形としては重なりがあることが多い。
【0063】したがって,これらの文字塊の異なる矩形
を重なりの度合いで統合する場合,同一判断で行うので
はなく,英文字では統合が起きにくく,また,日本語文
字では統合が起きやすくすることにより,認識率の精度
向上が期待できる。
【0064】すなわち,英文字と判断された領域では,
重なりの度合いが大きい場合にのみ矩形を統合し,日本
語文字と判断された領域では,重なりの度合いが小さく
ても矩形を統合して文字塊を生成するように処理を実行
する。
【0065】〔実施例9〕次に,実施例9について説明
する。ここでは上記実施例7と実施例8の各処理をそれ
ぞれ単独に実行せずに,この2つの処理を組み合わせて
文字切り出しを行うものである。
【0066】すなわち,文字塊を生成する際,日本語文
字と判断された領域では,標準文字サイズを算出し,幅
および高さが標準文字と同等の矩形とその右上に幅およ
び高さが標準文字サイズの1/4よりも小さい矩形が存
在している場合には,これらの矩形を統合して1つの文
字塊とする。
【0067】一方,幅が標準文字サイズの1/4よりも
小さく高さが標準文字サイズと同等の矩形とその左側に
幅が標準文字サイズの1/4よりも小さく高さが標準文
字サイズの1/2よりも小さい矩形が存在している場合
には,これらの矩形を統合して1つの文字塊とする。
【0068】さらに,矩形どうしの重なりの程度が小さ
くても矩形を統合し,英文字と判断された領域では,重
なりの程度が大きい場合だけ統合するように処理を実行
する。
【0069】
【発明の効果】以上説明したように,本発明に係る文字
切出し装置および文字切出し方法(請求項1,10)に
よれば,日本語文字領域と英文字領域とを識別し,該識
別された文字種別毎の領域に応じて文字塊を組み合わせ
る文字パターン候補の生成方法を切り換えるため,的確
な文字の切り出しを行うことができ,認識精度が向上す
る。
【0070】また,本発明に係る文字切出し装置および
文字切出し方法(請求項2,11)によれば,日本語文
字領域と英文字領域とを識別し,該識別された文字種別
毎の領域に応じて文字候補から文字パターンを選択する
方法を切り換えて処理するため,的確な文字の切り出し
を行うことができ,認識精度が向上する。
【0071】また,本発明に係る文字切出し装置および
文字切出し方法(請求項3,12)によれば,上記第1
の発明および第2の発明,あるいは上記第10の発明お
よび第11の発明における処理をそれぞれ単独で行わず
に,これらを組み合わせて処理するため,より精度の高
い文字認識を行うことができる。
【0072】また,本発明に係る文字切出し装置および
文字切出し方法(請求項4,13)によれば,英文字と
判断された領域に対しては,文字塊の重複を行わないた
め,単独で切り出すことによって認識精度を向上させる
ことができる。
【0073】また,本発明に係る文字切出し装置および
文字切出し方法(請求項5,14)によれば,日本語が
濁点あるいは半濁点文字である場合,抽出矩形をそれぞ
れ別の文字塊とするのではなく,文字塊生成手段におい
て統合し1つの文字塊として処理するため,認識率を向
上させることができる。
【0074】また,本発明に係る文字切出し装置および
文字切出し方法(請求項6,15)によれば,日本語が
たとえばカタカナの「リ」のように矩形としては重なり
がないが1文字が左右に分離している文字である場合,
これらの矩形を別々の文字塊とするのではなく,1つの
文字塊として統合して処理するため,認識率を向上させ
ることができる。
【0075】また,本発明に係る文字切出し装置および
文字切出し方法(請求項7,16)によれば,上記第5
の発明と第6の発明における処理をそれぞれ単独に行わ
ず,これらを組み合わせて実行するため,より精度の高
い文字認識を行うことができる。
【0076】また,本発明に係る文字切出し装置および
文字切出し方法(請求項8,17)によれば,英文字と
判断された領域では,重なりの度合いが大きい場合にの
み矩形を統合し,日本語文字と判断された領域では,重
なりの度合いが小さくても矩形を統合して文字塊を生成
するように処理を実行するため,カーニングで印字され
た英文字であっても,認識率の精度向上を期待すること
できる。
【0077】また,本発明に係る文字切出し装置および
文字切出し方法(請求項9,18)によれば,上記第7
の発明と第8の発明,あるいは上記第16の発明と第1
7の発明における処理をそれぞれ単独に行わず,これら
を組み合わせて実行するため,より精度の高い文字認識
を行うことができる。
【図面の簡単な説明】
【図1】本実施例に係る文字切出し装置の構成を示すブ
ロック図である。
【図2】本実施例に係る文字切出し方法を示すフローチ
ャートである。
【図3】実施例5に係る濁点半濁点処理例を示す説明図
である。
【図4】実施例6に係る左右小片統合例を示す説明図で
ある。
【符号の説明】
101 2値画像入力部 102 2値
イメージメモリ 103 行切り出し部 104 行イ
メージメモリ 105 英日識別部 106 文字
種別領域メモリ 107 矩形抽出部 108 矩形
メモリ 109 文字塊生成部 110 文字
塊メモリ 111 文字パターン認識部 112 文字
パターンメモリ 113 文字認識部 114 文字
パターン選択部

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 行画像から黒画素の連結成分を包含する
    外接矩形を抽出し,該外接矩形を組み合わせることによ
    り文字塊を切り出し,その文字塊を組み合わせた文字パ
    ターン候補から文字パターンを選択する文字切出し装置
    において,行中の領域が英文字領域か日本文字領域かを
    識別する英日識別手段と,前記英日識別手段が識別した
    領域に応じて文字塊を組み合わせる文字パターン候補の
    生成方法を切り換えて処理する文字塊生成手段とを備え
    たことを特徴とする文字切出し装置。
  2. 【請求項2】 行画像から黒画素の連結成分を包含する
    外接矩形を抽出し,該外接矩形を組み合わせることによ
    り文字塊を切り出し,その文字塊を組み合わせた文字パ
    ターン候補から文字パターンを選択する文字切出し装置
    において,行中の領域が英文字領域か日本文字領域かを
    識別する英日識別手段と,前記英日識別手段が識別した
    領域に応じて文字候補から文字パターンを選択する方法
    を切り換えて処理する文字パターン生成手段とを備えた
    ことを特徴とする文字切出し装置。
  3. 【請求項3】 行画像から黒画素の連結成分を包含する
    外接矩形を抽出し,該外接矩形を組み合わせることによ
    り文字塊を切り出し,その文字塊を組み合わせた文字パ
    ターン候補から文字パターンを選択する文字切出し装置
    において,行中の領域が英文字領域か日本文字領域かを
    識別する英日識別手段と,前記英日識別手段が識別した
    領域に応じて文字塊を組み合わせる文字パターン候補の
    生成方法を切り換えて処理する文字塊生成手段と,前記
    英日識別手段が識別した領域に応じて文字候補から文字
    パターンを選択する方法を切り換えて処理する文字パタ
    ーン生成手段とを備えたことを特徴とする文字切出し装
    置。
  4. 【請求項4】 前記文字パターン生成手段は,文字塊を
    組み合わせる文字パターン候補の生成方法を切り換える
    場合,前記英日識別手段が英文字領域と識別した領域に
    対し,同一の文字塊を重複させないことを特徴とする請
    求項2または3に記載の文字切出し装置。
  5. 【請求項5】 前記文字塊生成手段は文字塊を生成する
    際,前記英日識別手段が英文字領域と識別した領域で
    は,標準文字サイズを算出し,幅および高さが標準文字
    サイズと同等の矩形とその右上に幅および高さが標準文
    字サイズの1/4よりも小さい矩形が存在した場合に,
    前記矩形を統合して1つの文字塊とすることを特徴とす
    る請求項1または3に記載の文字切出し装置。
  6. 【請求項6】 前記文字塊生成手段は文字塊を生成する
    際,前記英日識別手段が日本語文字と識別した領域で
    は,標準文字サイズを算出し,幅が標準文字サイズの1
    /4よりも小さく高さが標準文字サイズと同等の矩形と
    その左側に幅が標準文字サイズの1/4よりも小さく高
    さが標準文字サイズの1/2よりも小さい矩形が存在し
    た場合に,前記矩形を統合して1つの文字塊とすること
    を特徴とする請求項1または3に記載の文字切出し装
    置。
  7. 【請求項7】 前記文字塊生成手段は文字塊を生成する
    際,前記英日識別手段が日本語文字と識別した領域で
    は,標準文字サイズを算出し,幅および高さが標準文字
    と同等の矩形とその右上に幅および高さが標準文字サイ
    ズの1/4よりも小さい矩形が存在している場合には,
    これらの矩形を統合して1つの文字塊とし,一方,幅が
    標準文字サイズの1/4よりも小さく高さが標準文字サ
    イズと同等の矩形とその左側に幅が標準文字サイズの1
    /4よりも小さく高さが標準文字サイズの1/2よりも
    小さい矩形が存在している場合には,これらの矩形を統
    合して1つの文字塊とすることを特徴とする請求項1ま
    たは3に記載の文字切出し装置。
  8. 【請求項8】 前記文字塊生成手段は文字塊を生成する
    際,矩形どうしの重なりの程度に応じて1つの文字塊と
    するかを判断し,日本語文字と判断された領域で,重な
    りの程度が小さくても矩形を統合し,英文字と判断され
    た領域では,重なりの程度が大きい場合だけ統合するよ
    うに処理を実行することを特徴とする請求項1または3
    に記載の文字切出し装置。
  9. 【請求項9】 前記文字塊生成手段は文字塊を生成する
    際,文字塊を生成する際,日本語文字と判断された領域
    では,標準文字サイズを算出し,幅および高さが標準文
    字と同等の矩形とその右上に幅および高さが標準文字サ
    イズの1/4よりも小さい矩形が存在している場合に
    は,これらの矩形を統合して1つの文字塊とし,一方,
    幅が標準文字サイズの1/4よりも小さく高さが標準文
    字サイズと同等の矩形とその左側に幅が標準文字サイズ
    の1/4よりも小さく高さが標準文字サイズの1/2よ
    りも小さい矩形が存在している場合には,これらの矩形
    を統合して1つの文字塊とし,さらに矩形どうしの重な
    りの程度が小さくても矩形を統合し,英文字と判断され
    た領域では,重なりの程度が大きい場合だけ統合するよ
    うに処理を実行することを特徴とする請求項1または3
    に記載の文字切出し装置。
  10. 【請求項10】 行画像から黒画素の連結成分を包含す
    る外接矩形を抽出し,該外接矩形を組み合わせることに
    より文字塊を切り出し,その文字塊を組み合わせた文字
    パターン候補から文字パターンを選択する文字切出し方
    法において,行中の領域が英文字領域か日本文字領域か
    を識別する第1のステップと,前記第1のステップで識
    別した領域に応じて文字塊を組み合わせる文字パターン
    候補の生成方法を切り換えて処理する第2のステップと
    を含むことを特徴とする文字切出し方法。
  11. 【請求項11】 行画像から黒画素の連結成分を包含す
    る外接矩形を抽出し,該外接矩形を組み合わせることに
    より文字塊を切り出し,その文字塊を組み合わせた文字
    パターン候補から文字パターンを選択する文字切出し方
    法において,行中の領域が英文字領域か日本文字領域か
    を識別する第1のステップと,前記第1のステップで識
    別した領域に応じて文字候補から文字パターンを選択す
    る方法を切り換えて処理する第2のステップとを含むこ
    とを特徴とする文字切出し方法。
  12. 【請求項12】 行画像から黒画素の連結成分を包含す
    る外接矩形を抽出し,該外接矩形を組み合わせることに
    より文字塊を切り出し,その文字塊を組み合わせた文字
    パターン候補から文字パターンを選択する文字切出し方
    法において,行中の領域が英文字領域か日本文字領域か
    を識別する第1のステップと,前記第1のステップで識
    別した領域に応じて文字塊を組み合わせる文字パターン
    候補の生成方法を切り換えて処理する第2のステップ
    と,前記第1のステップで識別した領域に応じて文字候
    補から文字パターンを選択する方法を切り換えて処理す
    る第3ステップとを含むことを特徴とする文字切出し方
    法。
  13. 【請求項13】 文字塊を組み合わせる文字パターン候
    補の生成方法を切り換える場合,前記英日識別手段が英
    文字領域と識別した領域に対し,同一の文字塊を重複さ
    せないことを特徴とする請求項11または12に記載の
    文字切出し方法。
  14. 【請求項14】 文字塊を生成する際,英文字領域と識
    別した領域では,標準文字サイズを算出し,幅および高
    さが標準文字サイズと同等の矩形とその右上に幅および
    高さが標準文字サイズの1/4よりも小さい矩形が存在
    した場合に,前記矩形を統合して1つの文字塊とするこ
    とを特徴とする請求項10または12に記載の文字切出
    し方法。
  15. 【請求項15】 文字塊を生成する際,日本語文字と識
    別した領域では,標準文字サイズを算出し,幅が標準文
    字サイズの1/4よりも小さく高さが標準文字サイズと
    同等の矩形とその左側に幅が標準文字サイズの1/4よ
    りも小さく高さが標準文字サイズの1/2よりも小さい
    矩形が存在した場合に,前記矩形を統合して1つの文字
    塊とすることを特徴とする請求項10または12に記載
    の文字切出し方法。
  16. 【請求項16】 文字塊を生成する際,日本語文字と識
    別した領域では,標準文字サイズを算出し,幅および高
    さが標準文字と同等の矩形とその右上に幅および高さが
    標準文字サイズの1/4よりも小さい矩形が存在してい
    る場合には,これらの矩形を統合して1つの文字塊と
    し,一方,幅が標準文字サイズの1/4よりも小さく高
    さが標準文字サイズと同等の矩形とその左側に幅が標準
    文字サイズの1/4よりも小さく高さが標準文字サイズ
    の1/2よりも小さい矩形が存在している場合には,こ
    れらの矩形を統合して1つの文字塊とすることを特徴と
    する請求項10または12に記載の文字切出し方法。
  17. 【請求項17】 文字塊を生成する際,矩形どうしの重
    なりの程度に応じて1つの文字塊とするかを判断し,日
    本語文字と判断された領域で,重なりの程度が小さくて
    も矩形を統合し,英文字と判断された領域では,重なり
    の程度が大きい場合だけ統合するように処理を実行する
    ことを特徴とする請求項10または12に記載の文字切
    出し方法。
  18. 【請求項18】 文字塊を生成する際,文字塊を生成す
    る際,日本語文字と判断された領域では,標準文字サイ
    ズを算出し,幅および高さが標準文字と同等の矩形とそ
    の右上に幅および高さが標準文字サイズの1/4よりも
    小さい矩形が存在している場合には,これらの矩形を統
    合して1つの文字塊とし,一方,幅が標準文字サイズの
    1/4よりも小さく高さが標準文字サイズと同等の矩形
    とその左側に幅が標準文字サイズの1/4よりも小さく
    高さが標準文字サイズの1/2よりも小さい矩形が存在
    している場合には,これらの矩形を統合して1つの文字
    塊とし,さらに矩形どうしの重なりの程度が小さくても
    矩形を統合し,英文字と判断された領域では,重なりの
    程度が大きい場合だけ統合するように処理を実行するこ
    とを特徴とする請求項10または12に記載の文字切出
    し方法。
JP7288199A 1995-10-11 1995-10-11 文字切出し装置および文字切出し方法 Pending JPH09106437A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7288199A JPH09106437A (ja) 1995-10-11 1995-10-11 文字切出し装置および文字切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7288199A JPH09106437A (ja) 1995-10-11 1995-10-11 文字切出し装置および文字切出し方法

Publications (1)

Publication Number Publication Date
JPH09106437A true JPH09106437A (ja) 1997-04-22

Family

ID=17727103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7288199A Pending JPH09106437A (ja) 1995-10-11 1995-10-11 文字切出し装置および文字切出し方法

Country Status (1)

Country Link
JP (1) JPH09106437A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090028435A1 (en) * 2007-07-23 2009-01-29 Bo Wu Character image extracting apparatus and character image extracting method
JP2009193191A (ja) * 2008-02-13 2009-08-27 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2010044485A (ja) * 2008-08-11 2010-02-25 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090028435A1 (en) * 2007-07-23 2009-01-29 Bo Wu Character image extracting apparatus and character image extracting method
JP2009026287A (ja) * 2007-07-23 2009-02-05 Sharp Corp 文字画像抽出装置および文字画像抽出方法
US8750616B2 (en) 2007-07-23 2014-06-10 Sharp Kabushiki Kaisha Character image extracting apparatus and character image extracting method
JP2009193191A (ja) * 2008-02-13 2009-08-27 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2010044485A (ja) * 2008-08-11 2010-02-25 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
US20070081179A1 (en) Image processing device, image processing method, and computer program product
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JPH04195692A (ja) 文書読取装置
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
Lehal et al. Text segmentation of machine-printed Gurmukhi script
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JP4136257B2 (ja) 文字認識装置、文字認識方法および記憶媒体
JPH05174185A (ja) 日本語文字認識装置
JP3157530B2 (ja) 文字切り出し方法
JP2728086B2 (ja) 文字切り出し方法
JPH0816719A (ja) 文字切り出し方法とこれを用いた文字認識方法及び装置
JPH09245120A (ja) 文字切出し方法
JP2995825B2 (ja) 日本語文字認識装置
JPH08161432A (ja) 文字切り出し方法および文字切り出し装置
JP4580520B2 (ja) 文字認識方法および文字認識装置
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH05128303A (ja) 日本語文書読み取り装置
KR100235327B1 (ko) "i" 점을 이용한 영문 접촉문자 분리기능을 갖는 문서 인식방법
JPH10171924A (ja) 文字認識装置
JP2683116B2 (ja) 罫線の除去方法
JP2728085B2 (ja) 文字切り出し方法
JPH08129608A (ja) 文字認識装置
JPS6383888A (ja) 文字認識装置
JPH0969139A (ja) 光学式文字読取方法とその装置