JP3157530B2 - 文字切り出し方法 - Google Patents

文字切り出し方法

Info

Publication number
JP3157530B2
JP3157530B2 JP06409391A JP6409391A JP3157530B2 JP 3157530 B2 JP3157530 B2 JP 3157530B2 JP 06409391 A JP06409391 A JP 06409391A JP 6409391 A JP6409391 A JP 6409391A JP 3157530 B2 JP3157530 B2 JP 3157530B2
Authority
JP
Japan
Prior art keywords
character
pattern
character pattern
evaluation value
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06409391A
Other languages
English (en)
Other versions
JPH04211884A (ja
Inventor
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP06409391A priority Critical patent/JP3157530B2/ja
Publication of JPH04211884A publication Critical patent/JPH04211884A/ja
Application granted granted Critical
Publication of JP3157530B2 publication Critical patent/JP3157530B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字認識装置における
文字切り出し方法に係り、特にマルチサイズや不定ピッ
チの日本語文書に適用できる文字切り出し方法に関す
る。
【0002】
【従来の技術】日本語文書は一般に、文字サイズが可変
のものや不定ピッチのものなど、文字切り出しを難しく
する要因が多い。このため、日本語文書の処理の場合、
例えば同一出願人による昭和63年第133424号特
許出願の明細書及び図面に述べられているような、行画
像の垂直射影をとったり黒画素の連結を追跡したりし
て、文字塊(文字素)を抽出し、この文字塊を統合して
1文字と見做せるパターンをすべて文字認識し、認識結
果の確からしさを示す評価値を用いて、最も確からしい
パターンを文字パターンとして選択する文字切り出し方
法が有効である。
【0003】
【発明が解決しようとする課題】しかし、この文字切り
出し方法を、半角文字や不定ピッチ文字が現われやすい
横書き文書と比較的に定ピッチで印字されることが多い
縦書き文書の両方に適用した場合、縦書き文書中の上下
(行方向)に二つ以上のパターンに分かれた文字のパタ
ーンが、誤って二つ以上に分離されて切り出されること
がある。よって本発明の目的は、横書き文書及び縦書き
文書のいずれについても、文字塊のパターンまたは文字
塊の統合パターンを評価して高精度の文字切り出しが可
能な文字切り出し方法を提供することにある。
【0004】
【課題を解決するための手段】本発明では、文書の行画
像から文字塊を切り出し、1文字の大きさと見做し得る
1個の文字塊または連続した複数個の文字塊を文字パタ
ーンの候補とし、そのすべてを文字認識して認識結果の
確からしさを表わす評価値を求める。文字塊が重複した
複数の文字パターン候補が存在する場合、その中から切
り出すべき文字パターンを選択する必要があるが、横書
き文書と縦書き文書を区別し、横書き文書であれば認識
結果の評価値により文字パターンを選択し、縦書き文書
であれば認識結果の評価値だけでなく文字サイズも参照
することにより文字パターンを選択する。
【0005】
【作用】本発明によれば、横書き文書の場合に認識結果
の確からしさの評価値により文字パターンを確定するた
め、半角サイズの文字や不定ピッチの文字が混在しやす
い横書き文書に対し高精度の文字切り出しが可能であ
る。他方、比較的定ピッチで印字されることが多い縦書
き文書の場合に、文字パターンを確定する際に認識結果
の確からしさの評価値に加えて文字サイズも参照するた
め、上下に分離した文字パターンの分離切り出しを減ら
すことができる。
【0006】
【実施例】図1は本発明の第1の実施例を示すブロック
図であり、図2は同実施例における処理全体のフローチ
ャートである。以下、装置構成及び処理内容を説明す
る。
【0007】2値画像入力部100はスキャナー等によ
り文書画像を読み取り、その2値画像データをイメージ
メモリ101に格納する(処理201)。行切り出し部
102において、その文書画像より、行方向の射影をと
り、射影値が一定値を超える区間を行(文字列)として
切り出す(処理202)。
【0008】文字塊切り出し部103において、行画像
に対し行に垂直な方向の射影(垂直射影)をとり、射影
値が一定値を越える区間を文字塊(文字素)として切り
出し、あるいは黒画素の連結を追跡することにより連結
した黒画素の塊を文字塊として切り出す(処理20
3)。この文字塊は、それ単独で文字パターンを構成す
る場合と、あるいは文字パターンの一部である場合とが
ある。
【0009】文字パターン生成部104において、文字
塊切り出し部103からの文字塊切り出し情報に従い、
連続した文字塊を組み合わせて(統合して)、1文字の
大きさと見做し得る文字パターン候補を生成し、各文字
パターン候補についての文字塊の組み合わせの情報を組
み合わせ情報テーブル105に格納する。なお、単独の
文字塊が文字パターン候補となることもある。
【0010】より具体的には、文字塊切り出し情報より
行の最小文字間隔と最大文字幅を求める(処理204,
205)。最小文字間隔は例えば、全角文字塊と全角文
字塊との間隔の最小値を2で除した値とする。ここで全
角文字塊とは、明らかに全角と見做される大きさの文字
塊であって、例えば文字塊幅≧行高さ×2/3を満足す
るものとする。また、最大文字幅は例えば、行内の文字
塊の幅の最大値とする。そして、間隔が最小文字間隔以
下の文字塊を統合し、統合後の幅が最大文字幅を越えな
いパターンを文字パターン候補とし、それぞれの組み合
わされた文字塊の番号を組み合わせ情報として組み合わ
せ情報テーブル105に格納する(処理206,20
7)。
【0011】図5は横書きの場合の行画像と文字塊及び
文字パターン候補の例を示す。この場合、行画像からa
〜fの文字塊が切り出され、A〜Iの文字パターン候補
が生成される。したがって、組み合わせ情報テーブル1
05の内容は図6に示す如くになる。
【0012】文字サイズ計算部106において、生成さ
れた各文字パターン候補の行方向の幅やピッチ等の文字
サイズに関連した値を計算し、それを文字サイズテーブ
ル107に格納する(処理208)。認識部108にお
いて、生成された全ての文字パターン候補の特徴抽出と
パターン辞書109とのマッチングを行なって文字認識
し、認識結果(候補文字コード)と、辞書との距離、な
らびに文字パターンの総輪郭数を認識情報メモリ110
に格納する(処理209)。
【0013】評価値算出部111において、認識結果情
報メモリ110を参照し、各文字パターン候補に対する
認識結果の確からしさの評価値 E=距離/総輪郭数 (1) を算出し、求めた評価値Eを評価値メモリ112に格納
する(処理210)。なお、総輪郭数で除算する目的
は、パターンが複雑であるほど辞書との距離が大きくな
る傾向があるので、それを補正するためである。
【0014】文字パターン選択部113においては、外
部より設定された(あるいは、行切り出し時等に自動的
に検出された)行方向(横書き/縦書きの区別)を読み
込み、行方向に応じて横書き処理または縦書き処理を選
択し、横書き処理(処理212)または縦書き処理(処
理213)を実行する。
【0015】横書きの処理212では、評価値メモリ1
12より各文字パターン候補の認識結果の評価値を読み
込み、評価値の大小により各文字パターン候補を評価し
て文字パターンを選択する。他方、縦書き処理213で
は、評価値メモリから評価値を読み込み、さらに文字サ
イズテーブル107より文字幅や文字間ピッチ等の文字
サイズに関する値を読み込み、評価値及び文字サイズに
より文字パターン候補を評価して文字パターンを選択す
る。そして、選択した文字パターンの認識結果を認識結
果メモリ114に書き出す(処理214)。
【0016】横書き処理212の内容について、図3の
フローチャートを参照し説明する。なお、先の(1)式
より、本実施例では、評価値は、値が大きい程、文字ら
しくないことを表わす。組み合わせ情報テーブル105
を参照し、文字塊の重複を調べて処理の流れを選ぶ(処
理301)。文字塊の重複がないときは、その文字パタ
ーン候補をそのまま文字パターンとして選択し、その認
識結果を出力する(処理302)。しかし、分離文字等
の文字塊が重複した文字パターン候補については、評価
値により評価を行なって文字パターンを選択する。基本
的には、分離パターンのいずれか一つでも、その評価値
が統合パターンの評価値よりも高かった場合(分離パタ
ーン中に、より文字らしくないものが存在する場合)、
統合パターンを選択し、分離パターンのいずれの評価値
も統合パターンの評価値より小さかった場合(分離パタ
ーンが、いずれも、より文字らしい場合)、分離パター
ンを選択する。
【0017】図5の例では、文字パターン候補A,Cは
文字パターン候補Bと文字塊が重複し、同様に文字パタ
ーン候補D〜Iもそれぞれ文字パターン候補E,Hと文
字塊が重複しているので、処理303に進む。文字パタ
ーン候補A,B,Cの場合、分離パターンであるA,C
の評価値E(s1),E(s2)の最大値E(s)を求
め(処理303)、即ち、AとCのうちの、より文字ら
しくない方の評価値をE(S)とし、これと統合パター
ンであるBの評価値E(u)と比較する(処理30
4)。この例では、評価値の具体的数値は示さないが、
E(s)<E(u)とはならないので、統合パターンで
あるBを文字パターンとして選択することになる(処理
306)。分離パターンであるA,Cは文字パターン候
補から除かれる。文字パターン候補D,E,Fの組、
G,H,Iの組も同様であり、統合パターンであるE,
Hを文字パターンとして選択することになる(すなわ
ち、文字としての切り出しが確定する)。図5の例では
出現しないが、処理304でE(s)<E(u)と判定
された場合は、分離パターンである文字パターン候補を
文字パターンとして選択する(処理305)。
【0018】次に縦書き処理213の内容について、図
4のフローチャートを参照し説明する。まず行内の標準
文字サイズを算出する(処理401)。この標準文字サ
イズは、行の幅で近似してもよいし、あるいは行内の文
字塊の幅から統計的な処理を行なって算出してもよい。
次に、組み合わせ情報テーブル105を参照し、分離文
字等の文字塊が重複した文字パターン候補と文字塊の重
複のない文字パターン候補を探し(処理402)、文字
塊の重複のない文字パターン候補は無条件に文字パター
ンとして選択し、その認識結果を出力する(処理40
3)。図7に示した例では、文字パターン候補A,B,
Fが文字パターンとして選択される。
【0019】分離文字等の文字塊が重複した文字パター
ン候補が出現した場合、例えば図7における文字パター
ン候補C,Dの場合、文字サイズテーブル107を参照
し、その文字パターン候補の文字サイズを計算する(処
理404)。文字サイズは、その文字パターン候補の行
方向の幅に次の文字パターン候補までのピッチを加えた
値である。これは例えば図7のAのような、他に比べ幅
の小さなパターンが比較の対象となったときの悪影響を
避けるためである。
【0020】次に、文字サイズと標準文字サイズとの差
を計算し、結果を文字サイズテーブル107に格納する
(処理405)。そして、このサイズ差の小さい順に比
較対象となっている文字パターン候補をソートし(処理
406)、また評価値メモリ112より対応した評価値
を読み出し、評価値の小さい順に対象の文字パターン候
補をソートする(処理407)。
【0021】文字サイズ差によりソートされた第1位の
文字パターン候補と、評価値の小さい順にソートされた
第1位の文字パターン候補とが同一であれば、その文字
パターン候補を文字パターンとして選択し、その認識結
果を出力する(処理409)。しかし、両方の第1位の
文字パターン候補が一致しない場合、評価値でソートさ
れた第1位文字と第2位の文字パターン候補との評価値
の差が一定値以上離れているか調べ(処理410)、一
定値以上離れているときは評価値でソートされた第1位
の文字パターン候補を文字パターンとして選択し、その
認識結果を出力する(処理411)。
【0022】他方、評価値でソートされた第1位と第2
位の文字パターン候補の評価値の差が一定値未満の場
合、文字サイズ差でソートされた第1位と第2位の文字
パターン候補のサイズ差が一定値以上離れているか調べ
る(処理412)。サイズ差が一定値以上離れていると
きは、その第1位文字パターン候補を選択し、その認識
結果を出力する(処理413)。しかし、サイズ差が一
定値以上離れていないときは、評価値でソートされた第
1位の文字パターン候補を選択し、その認識結果を出力
する(処理414)。
【0023】このような処理により、図7の例では、単
独パターンである文字パターン候補A,B,Fと、文字
塊の統合パターンである文字パターン候補Dが文字とし
て切り出される。
【0024】図9は本発明の第2の実施例を示すブロッ
ク図である。本実施例と前記第1実施例との装置構成上
の相違点は、本実施例では図1に示した文字サイズ計算
部106と文字サイズテーブル107が設けられていな
いことと、領域認識部130、文字種指定部131及び
文字種情報メモリ132が追加されていること、並び
に、文字パターン生成部104Aのパターン生成方法及
び文字パターン選択部113Aのパターン選択方法が一
部変更になっていることである。
【0025】図10は、本実施例の処理全体のフローチ
ャートである。以下、処理内容について説明するが、処
理601は処理201(図2)と同一内容の処理であ
り、処理604は処理202と、処理605は処理20
3と、処理608は処理204から処理207までの処
理と、処理609は処理209と、処理610は処理2
10と、また処理611は処理212と、それぞれ同一
内容である。よって、これらを除いた処理の内容につい
て説明する。
【0026】領域認識部130において、イメージメモ
リ101に読み込まれた2値画像データに対して、文字
認識を行なう領域より文書領域、表領域、その他の領域
を認識する(処理602)。この領域認識は、2値画像
のランデータの統計処理等によって自動的に行なわれる
か、あるいは、画像を表示したディスプレイ画面上でマ
ウス等のポインティングデバイスを用いて指定するよう
な人手による方法で行なわれる。いずれの方法も公知技
術により実現できるので、これ以上の説明は省略する。
【0027】文字種指定部131において、処理602
により認識された領域毎に文字種を指定し、領域毎の文
字種の情報を文字種情報メモリ132に格納する(処理
603)。この文字種指定の方法は、2値画像と領域を
表示したディスプレイ画面上で人手によって領域と文字
種を直接的に指定する方法であるか、あるいは認識結果
の一部をフィードバックさせて自動的に指定する方法で
ある。
【0028】文字パターン生成部104Aにおいて、文
字種情報メモリ132を参照することにより、注目して
いる文字塊が属する領域の文字種が英字または数字のみ
であるか否かを調べる(処理606)。英数字のみの領
域であれば、一つの文字塊から一つの文字パターン候補
を生成し、文字塊を組み合わせた文字パターン候補は生
成しない(処理607)。他方、英数字以外の文字種も
含む領域に関しては、文字塊の組み合わせによる文字パ
ターン候補の生成を行なう(処理608)。文字パター
ン選択部113Aでは、英数字のみの領域の文字パター
ン候補は、文字塊が複数パターンに重複することがない
ため、そのまま文字パターンとして選択し、英数字以外
の文字種が含まれる領域の文字パターン候補は、評価値
によって選択する(処理611)。
【0029】図11の(a)に示した表を例にすると、
領域Bは数字のみからなる領域であるため、同図(c)
に示すように単独の文字塊よりなる文字パターン候補
e,f,gが生成され、これらはそのまま文字として切
り出される。他方、領域Aは英数字以外の文字種(ここ
では漢字)からなる領域であるので、文字塊の組み合わ
せによる文字パターン生成が行なわれる結果、同図
(b)に示す文字パターン候補a,b,c,dが生成さ
れ、文字パターン選択処理611によって評価値に基づ
きb,dが文字として切り出される。
【0030】文字種を考慮しないで(あらゆる文字種の
混在を前提として)文字切り出しを行なうと、無駄な処
理が増加する。例えば表領域の数字のみの文字列の場
合、文字の分離の可能性は殆どないので、文字塊を複数
個統合した文字パターン候補の生成や、その評価は不必
要である。このような無駄な処理を行なうことは、処理
速度の低下を招くほか、不適切な文字パターンが選択さ
れる危険があり認識率の低下を招く原因ともなる。第2
実施例によれば、特定の文字種のみからなる領域に関し
ては1個の文字塊を1個の文字パターンとして切り出す
ので、そのような無駄な処理を排除して、処理を高速化
し、また切り出しエラーを減らすことができる。
【0031】本発明では、例えば、第1実施例に第2
施例と同様の領域認識と文字種指定、文字種による文字
パターン候補の生成方法の変更を導入することが可能で
ある。
【0032】
【発明の効果】本発明によれば、横書き文書の場合に認
識結果の確からしさの評価値により文字パターンを確定
するため、半角サイズの文字や不定ピッチの文字が混在
しやすい横書き文書に対し高精度の文字切り出しが可能
であり、他方、比較的に定ピッチで印字されることが多
い縦書き文書の場合に、文字パターンの確定に際し認識
結果の確からしさの評価値に加えて文字サイズも参照す
るため、上下に分離した文字パターンの分離切り出しを
減らすことができる。このように、書き文書と縦書き文
書のいずれに対しても高精度の文字切り出しが可能とな
り、日本語の一般文書を対象とする文字認識装置の文字
切り出し性能を大幅に向上させることができる。
【図面の簡単な説明】
【図1】第1実施例の装置構成を示すブロック図であ
る。
【図2】第1実施例の処理全体のフローチャートであ
る。
【図3】第1実施例の横書き文書処理のフローチャート
である。
【図4】第1実施例の縦書き文書処理のフローチャート
である。
【図5】横書き文書の行画像と文字塊及び文字パターン
候補の例の説明図である。
【図6】図5に示した例の場合の組み合わせ情報テーブ
ルの内容説明図である。
【図7】縦書き文書の行画像と文字塊及び文字パターン
候補の例の説明図である。
【図8】図7に示した例の場合の組み合わせ情報テーブ
ルの内容説明図である。
【図9】第2実施例の装置構成を示すブロック図であ
る。
【図10】第2実施例の処理全体のフローチャートであ
る。
【図11】文字種の異なる領域の例と生成される文字パ
ターン候補の説明図である。
【符号の説明】 100 2値画像入力部 101 イメージメモリ 102 行切り出し部 103 文字塊切り出し部 104 文字パターン生成部 105 組み合わせ情報テーブル 106 文字サイズ計算部 107 文字サイズテーブル 108 認識部 109 パターン辞書 110 認識情報メモリ 111 評価値算出部 112 評価値メモリ 113 文字パターン選択部 114 認識結果メモリ 130 領域認識部 131 文字種指定部 132 文字種情報メモリ

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書の行画像から文字塊を切り出し、1
    文字と見做し得る1個の文字塊または連続した複数個の
    文字塊を文字パターン候補として文字認識し、認識結果
    の確からしさを表わす評価値を求め、 文書が横書きの場合、文字塊の重複がない文字パターン
    候補に関しては、当該文字パターン候補を切り出すべき
    文字パターンとして選択し、文字塊が重複した複数の文
    字パターン候補に関しては、評価値によって切り出すべ
    き文字パターンを選択し、 文書が縦書きの場合、文字塊の重複がない文字パターン
    候補に関しては、当該文字パターン候補を切り出すべき
    文字パターンとして選択し、文字塊が重複した複数の文
    字パターンに関しては、評価値とともに、評価値が近い
    場合には文字サイズによって、切り出すべき文字パター
    ンを選択する、 ことを特徴とする文字切り出し方法。
JP06409391A 1990-05-24 1991-03-05 文字切り出し方法 Expired - Fee Related JP3157530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06409391A JP3157530B2 (ja) 1990-05-24 1991-03-05 文字切り出し方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP13487790 1990-05-24
JP2-134877 1990-05-24
JP06409391A JP3157530B2 (ja) 1990-05-24 1991-03-05 文字切り出し方法

Publications (2)

Publication Number Publication Date
JPH04211884A JPH04211884A (ja) 1992-08-03
JP3157530B2 true JP3157530B2 (ja) 2001-04-16

Family

ID=26405229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06409391A Expired - Fee Related JP3157530B2 (ja) 1990-05-24 1991-03-05 文字切り出し方法

Country Status (1)

Country Link
JP (1) JP3157530B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4549400B2 (ja) 2008-03-04 2010-09-22 富士通株式会社 文書認識プログラム、文書認識装置、および文書認識方法
JP7382544B2 (ja) * 2020-02-06 2023-11-17 Arithmer株式会社 文字列認識装置及び文字列認識プログラム

Also Published As

Publication number Publication date
JPH04211884A (ja) 1992-08-03

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
Khoubyari et al. Font and function word identification in document recognition
US5410611A (en) Method for identifying word bounding boxes in text
CA2077274C (en) Method and apparatus for summarizing a document without document image decoding
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
US6327384B1 (en) Character recognition apparatus and method for recognizing characters
EP0385009A1 (en) Apparatus and method for use in image processing
JP6900164B2 (ja) 情報処理装置、情報処理方法及びプログラム
JPH05242292A (ja) 分離方法
JPS6077279A (ja) 文字イメ−ジ切出し方法
JPH0634256B2 (ja) 接触文字切出し方法
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
US5956433A (en) Method and device for removing spots from a character image in an optical character reader
JP3157530B2 (ja) 文字切り出し方法
US5119441A (en) Optical character recognition apparatus and method using masks operation
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP2982075B2 (ja) 文字切出し方法
JP2851102B2 (ja) 文字切出し方法
JP3093397B2 (ja) 文字認識方法
JP3220226B2 (ja) 文字列方向判別方法
JPH10198761A (ja) 文字認識方法および文字認識装置
JP2000207491A (ja) 文字列読取方法及び装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080209

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090209

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100209

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110209

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees