JPH0721312A - 文字サイズ推定装置 - Google Patents

文字サイズ推定装置

Info

Publication number
JPH0721312A
JPH0721312A JP5187133A JP18713393A JPH0721312A JP H0721312 A JPH0721312 A JP H0721312A JP 5187133 A JP5187133 A JP 5187133A JP 18713393 A JP18713393 A JP 18713393A JP H0721312 A JPH0721312 A JP H0721312A
Authority
JP
Japan
Prior art keywords
character
character size
size
value
directional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5187133A
Other languages
English (en)
Inventor
Takahiro Oura
貴裕 大浦
Masaomi Nakajima
正臣 中嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5187133A priority Critical patent/JPH0721312A/ja
Publication of JPH0721312A publication Critical patent/JPH0721312A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】漢字と比較的小型の数字・記号とを含むフリー
ピッチ手書き文字から文字を切り出す際の一つのパラメ
ータである文字サイズの推定において、数字・記号や漢
字の偏等の格別小サイズの要素の存在に影響されずに、
適切な文字サイズを推定することができるようにする。 【構成】スキャナ等で読みとった画像データから、文字
線分のつながりに着目して、黒画素連結成分を抽出し、
各連結成分の外接方形を求める。次いで、文字高さ方向
で重なり合った外接方形を統合する。次に、統合した外
接方形の高さ方向寸法の中から、大きい方からn番目の
寸法値を選択し、これを暫定文字サイズ推定値とする。
そして、暫定文字サイズ推定値に対する文字幅の回帰関
係を示した所定の回帰式を用いて、暫定文字サイズ推定
値を文字幅に変換してこれを文字サイズ推定値とする。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、フリーピッチ手書き文
字の文字サイズを推定する文字サイズ推定装置に関し、
特に、漢字と漢字に比べて相対的に小型な記号・数字と
が混在する文字列から文字サイズを推定するためのもの
で、光学式文字読み取り装置(OCR)等への適用に好
適な文字サイズ推定装置に関する。
【0002】
【従来の技術】説明を簡単にするため、以下、横書きに
書かれた文字列を例にとって説明する。この横書きの場
合、文字サイズとは文字のx方向の寸法、つまり文字幅
を意味する。
【0003】帳票等に書かれたフリーピッチ手書き文字
列から1つの文字パターンを切り出すには、まず、スキ
ャナ等のイメージ入力装置により帳票表面を光学的に走
査して対象文字列の画像データを得て、以下のような処
理を行うのが一般的である。
【0004】まず、画像データの文字線分のつながりに
着目して、黒画素連結成分の外接方形を求め、y方向
(文字高さ方向)に重なった外接方形を統合する(ファ
ーストマージ処理という)。次に、y方向に統合された
新しい文字パターンの外接方形が、さらにx方向に隣接
した外接方形と統合されるか否かを判断する(セカンド
マージ処理という)。
【0005】このセカンドマージ処理において、文字サ
イズ推定値は、偏と傍の分離が考えられる漢字を切り出
す際の外接方形の分離・統合を行なう時に使用する特徴
量のうちの1つに位置付けられている。
【0006】従って、文字サイズ推定値が切り出そうと
しているフリーピッチ手書き文字の実際の文字サイズよ
り小さな値であると、文字の左右部分、例えば漢字の偏
と旁の部分が強制的に分離させられたままになってしま
う可能性がある。逆に、文字サイズ推定値が実際の文字
サイズより大きな値であると、異なる文字パターン同士
が接触している1つの外接方形において、それら文字パ
ターンを左右に分離する事ができず、場合によっては、
余計な隣接した外接方形まで統合してしまう可能性があ
る。これでは、高精度な文字切り出しを実現する事はで
きない。
【0007】従来、文字サイズ推定方法は、「文字は正
方形に近い」すなわち、文字の幅と高さがほぼ等しくな
るという特性を利用し、文字高さを文字幅として代用す
る事が一般的であった。すなわち、フリーピッチ手書き
文字列より求められたファーストマージ後の外接方形の
y方向寸法の平均値または中央値を算出することによ
り、文字サイズを推定していた。この平均値または中央
値を求める際には、外接方形のy方向寸法が所定のx方
向最小寸法以下のものについては、はずれ値として計算
から除外している。例えば、図6に示した‘県’という
文字で、の部分に当る外接方形については、はずれ値
として処理している。
【0008】
【発明が解決しようとする課題】従来の技術では、例え
ば図7に示す住所の表記のように、地名を記した漢字と
住所番号を記した一般に漢字より小型な記号・数字が混
在したフリーピッチ手書き文字列に対しても、ファース
トマージ後の外接方形のy方向寸法から算出した平均値
または中央値を用いて、最適と思われる文字サイズ(x
方向寸法)を推定する構成が採られていた。しかし、こ
の従来方法によると、図7の例では、住所番号や一部の
漢字の偏が格別に小さいサイズであるために、平均値の
水準が低下し、或いは中央値が小さい値に偏り、その結
果、実際より小さい文字サイズが推定されてしまう。
【0009】このように、ファーストマージ後の外接方
形のy方向寸法の平均値または中央値を文字サイズ推定
値として用いる従来方法によると、漢字と比較的小型な
記号・数字とを含んだ文字列から正確に文字を切り出す
ことは困難である。
【0010】従って、本発明の目的は、漢字と比較的小
型の数字・記号とを含むフリーピッチ手書き文字からの
文字切り出し精度の向上を図るため、数字・記号や漢字
の偏等の格別小サイズの要素の存在に影響されずに、適
切な文字サイズを推定することができるようにすること
にある。
【0011】
【課題を解決するための手段】本発明の上記目的は、フ
リーピッチ手書き文字列における第1方向の標準的な文
字寸法を推定する文字サイズ推定装置において、文字列
内の連結成分うち、第2方向で所定の密接した配置関係
にある連結成分を統合するファーストマージ手段と、統
合された連結成分の第2方向の寸法の中から、大きい方
から所定順位にある寸法値を選択する寸法値選択手段
と、この選択された第2方向寸法値に基づいて第1方向
の標準的文字寸法を推定する推定手段とを有することを
特徴とする文字サイズ推定装置によって達成される。
【0012】ここで、横書き文字列の場合は、上記第1
方向とは文字幅方向を指し、第2方向とは文字高さ方向
を指す。
【0013】望ましくは、上記推定手段は、予め調査し
たサンプル文字列における第2方向文字寸法に対する第
1方向文字寸法の回帰関係を示した所定の回帰式を用い
て、上記順位により選択した第2方向寸法値を第1方向
の寸法値に変換し、この第1方向の寸法値を文字サイズ
推定値とする。
【0014】
【作用】本発明に係る文字サイズ推定装置においては、
ファーストマージ後の連結成分の第2方向寸法の中で、
大きい方から所定順位にある寸法値を暫定文字サイズ推
定値とし、これに基づいて、回帰式を用いて第1方向の
文字寸法を求め、これを最終的な文字サイズ推定値とす
るする。そうすると、文字列内に記号・数字や漢字の或
種の偏のように格別に小さい部分が存在しても、そうし
た小さい部分に影響されることなく標準的な文字サイズ
を推定できる。つまり、格別に小さい部分は、文字サイ
ズを推定する上で、考慮の外に置くことが出来る。
【0015】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。
【0016】図1は、本発明の文字サイズ推定装置を適
用した文字切り出し装置の一実施例の全体処理を示した
フローチャートである。尚、この装置は汎用のコンピュ
ータを用いて実現することができるため、そのハード構
成については格別の説明をしない。
【0017】以下、帳票などに記載された横書きの文字
列を扱う場合を例にとり説明する。既に述べたように、
横書きの場合、文字サイズとは文字のx方向の寸法、つ
まり文字幅を意味する。尚、当業者であれば、横書き文
字列に関する以下の説明から、縦書き文字列への応用も
容易に理解できる筈である。
【0018】図1において、まず、スキャナ等のイメー
ジ入力装置により帳票表面を光学的に走査して、帳票上
に書かれたフリーピッチ手書き文字列の画像データを得
る(ステップ1)。次に、画像データの文字線分のつな
がりに着目して、黒画素が連結している連結成分を抽出
し、各連結成分の外接方形を求める(ステップ2)。次
いで、ファーストマージ処理、つまり、y方向(文字高
さ方向)で重なり合っている外接方形同士を統合する
(ステップ3)。尚、ここまでの処理には、公知の適当
な処理が採用できる。
【0019】このファーストマージ後、統合された外接
方形のy方向寸法に基づいて文字サイズ(文字の標準的
なx方向寸法)を推定する(ステップ4)。この推定処
理は新規なものであり、その詳細は後に述べる。
【0020】次に、推定した文字サイズを一つのパラメ
ータとして、外接方形のx方向の配置関係に着目して、
分離すべき外接方形を分離し(ステップ5)、また、統
合すべき外接方形を統合し(ステップ6)、それによ
り、各文字が切り出される。この分離統合の処理には公
知の適当な処理が採用できる。
【0021】図2は、ファーストマージ後の文字サイズ
推定処理の詳細を示す。
【0022】まず、ファーストマージ処理によって算出
され外接方形のy方向寸法をメモリに格納し(ステップ
11)、1行分のy方向寸法を格納したなら(ステップ
12)、次にそれら1行分のy方向寸法を降順に並べ換
える(ステップ13)。
【0023】次に、メモリ内で降順に並んだy方向寸法
の中で、メモリ領域の先頭からn番目(つまり、大きい
方からn番目)にあるy方向寸法を読み出し、これを暫
定文字サイズ推定値とする(ステップ14)。
【0024】ここで、nの値は1行分の外接方形の数に
より、適宜変更するのがよい。具体的にどのような値に
するかは、対象となる文字列の種類などのによって異な
るため、その統計的分析によって定めるべきである。例
えば、図7の例のような住所表示の場合、外接方形が1
0文字分以上(地名+番地の場合が多い)ならばn=4
とし、10文字未満3文字以上(都道府県名+市町村名
の場合が多い)ならばn=2とし、3文字未満(都道府
県名又は市町村名のみの場合が多い)ならばn=1とす
ると、良好な結果が得られる。このように、nを適切に
選ぶことにより、過大な値を暫定文字サイズ推定値とし
て選択してしまう可能性が少なくなり、同時に、漢字に
比べて相対的に小型な記号・数字等に影響されることも
なく、暫定文字サイズ推定値を精度良く決定することが
可能になる。
【0025】こうして暫定文字サイズ推定値を求めたな
ら、最後に、例えば(1)式のような回帰式を用いて、
暫定文字サイズ推定値を文字幅に変換し、この文字幅を
最終的な文字サイズ推定値とする(ステップ15)。
【0026】Y=0.83X+9.64 (1) この回帰式は、後述するような実験から求めたもので、
式中のXはその実験で用いた文字サイズ推定値[単位:
ドット]、Yはセカンドマージ後の文字幅[単位:ドッ
ト]である。ステップ15では、この回帰式のXに上記
暫定文字サイズ推定値を代入して計算し、得られたYを
最終的な文字サイズ推定値とする。
【0027】このように回帰式を利用して暫定文字サイ
ズ推定値を文字幅に変換してこれを文字サイズ推定値す
ることにより、暫定文字サイズ推定値をそのまま文字サ
イズ推定値をして用いる場合に比較し、一層高精度な文
字切り出しが可能となる。
【0028】上記回帰式を求めるための実験は次のよう
に行った。まず、8文字/5行/1ページの住所データ
の50ページ分をサンプルデータとして用意した。そし
て、このサンプルデータについて、上述の手順で順位n
により暫定文字サイズ推定値を求め、この暫定文字サイ
ズ推定値をそのまま文字サイズ推定値Xとして使用し
て、図1ステップ5、6の切断及びセカンドマージ処理
を行った。そして、セカンドマージにより最終的に切り
出された文字の文字幅Yと、上記文字サイズ推定値X
(=暫定文字サイズ推定値)との相関を調べ、これを最
少2乗法により回帰直線を求め、回帰式としたものであ
る。
【0029】図3は、上述の実験で得られた文字サイズ
推定値Xとセカンドマージ後の文字幅Yとの相関関係を
示す。また、図4及び図5は、同一のサンプルデータに
ついて、従来技術に従いファーストマージ後のy方向寸
法の平均値(図4)及び中央値(図5)を文字サイズ推
定値Xとして用いた場合の同様の相関関係を示すもので
ある。
【0030】これらの図から、本発明に従う図3の相関
関係は、従来の平均値や中間値を用いた図4や図5のも
のに比較して、相関がより強いことが明白である。それ
ぞれの相関係数を次に示す。
【0031】順位による方法 r=0.94 平均値による方法 r=0.89 中央値による方法 r=0.89 従って、従来技術である平均値や中央値の場合に比較し
て、本発明の順位による場合には、相関係数が大きいた
めに、回帰式を利用してy方向寸法を文字幅に変換する
ことによる効果が一層大きいといえる。
【0032】尚、上記回帰式に用いられている係数は、
実験で用いた住所データに対して適当なものであって、
対象となる文字列が異なれば、その対象に合ったサンプ
ルデータを用いて係数を定め直す必要があることは言う
までもない。
【0033】以上、横書き文字列を扱う実施例を説明し
たが、縦書き文字列にも本発明を適用することが可能で
ある。縦書きの場合は文字サイズとして文字高さ(y方
向寸法)を用いるため、上述の実施例における文字高さ
(y方向寸法)と文字幅(x方向寸法)とを逆に読み替
えることで、縦書き文字列に適用した一実施例を得るこ
とができる。この場合、回帰式の係数は、縦書きのサン
プルデータを調査することで得られるであろう値を用い
ることは当然である。
【0034】
【発明の効果】以上、説明したように本発明によれば、
フリーピッチ手書き文字列の第1方向の文字寸法の推定
に際し、ファーストマージ後の第2方向寸法の中から、
大きい方から所定順位にある寸法値を選択して、これに
基づいて文字サイズ推定値を求めるようにしているの
で、文字列に格別に小さいな文字や文字部分が含まれて
いても、それらに影響されることなく、文字切り出しを
精度良く行なうことが可能である。
【図面の簡単な説明】
【図1】本発明に係る文字サイズ推定装置を適用した文
字切り出し装置の一実施例の全体処理動作を示したフロ
ーチャート。
【図2】図1の実施例の文字サイズ推定の処理動作を示
したフローチャート。
【図3】本発明に従い順位による方法で得られた文字サ
イズ推定値とセカンドマージ後文字幅との相関を表した
散布図。
【図4】従来の平均値による方法で得られた文字サイズ
推定値とセカンドマージ後文字幅との相関を表した散布
図。
【図5】従来の中央値による方法で得られた文字サイズ
推定値とセカンドマージ後文字幅との相関を表した散布
図。
【図6】従来の平均値または中央値による文字サイズ推
定の際のはずれ値を例示した図。
【図7】フリーピッチ手書き文字の一例を示した図。
【符号の説明】
2 連結成分の外接方形取得処理 3 ファーストマージ処理 4 文字サイズ推定処理 13 降順並べ替え処理 14 暫定文字サイズ推定値選択処理 15 回帰式による変換処理

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 フリーピッチ手書き文字列における第1
    方向の標準的な文字寸法を推定する文字サイズ推定装置
    において、 文字列内の連結成分のうち、第2方向で所定の密接した
    配置関係にある連結成分を統合する第2方向統合手段
    と、 前記統合された連結成分の第2方向の寸法の中から、大
    きい方から所定順位にある寸法値を選択する寸法値選択
    手段と、 前記選択された第2方向寸法値に基づいて文字サイズ推
    定値を求める推定値演算手段とを有することを特徴とす
    る文字サイズ推定装置。
  2. 【請求項2】 請求項1記載の装置において、前記推
    定手段が、サンプル文字列の第2方向文字寸法に対する
    第1方向文字寸法の回帰関係を表す予め定めた回帰式を
    用いて、前記選択された第2方向寸法値を前記第1方向
    の文字寸法値に変換し、この変換された第1方向寸法値
    を前記文字サイズ推定値とすることを特徴とする文字サ
    イズ推定装置。
  3. 【請求項3】 請求項1記載の装置において、前記所定
    順位として、前記統合された連結成分の個数に応じて異
    なる順位が設定されていることを特徴とする文字サイズ
    推定装置。
JP5187133A 1993-06-30 1993-06-30 文字サイズ推定装置 Pending JPH0721312A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5187133A JPH0721312A (ja) 1993-06-30 1993-06-30 文字サイズ推定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5187133A JPH0721312A (ja) 1993-06-30 1993-06-30 文字サイズ推定装置

Publications (1)

Publication Number Publication Date
JPH0721312A true JPH0721312A (ja) 1995-01-24

Family

ID=16200705

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5187133A Pending JPH0721312A (ja) 1993-06-30 1993-06-30 文字サイズ推定装置

Country Status (1)

Country Link
JP (1) JPH0721312A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT515808A5 (de) * 2012-01-18 2015-12-15 Dieffenbacher Gmbh Maschinen Verfahren und Vorrichtung zur Herstellung eines dreidimensionalen Vorformlings aus einem Fasergelege im Zuge der Herstellung von faserverstärkten Formteilen

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AT515808A5 (de) * 2012-01-18 2015-12-15 Dieffenbacher Gmbh Maschinen Verfahren und Vorrichtung zur Herstellung eines dreidimensionalen Vorformlings aus einem Fasergelege im Zuge der Herstellung von faserverstärkten Formteilen
AT515808B1 (de) * 2012-01-18 2015-12-15 Dieffenbacher Gmbh Maschinen Verfahren und Vorrichtung zur Herstellung eines dreidimensionalen Vorformlings aus einem Fasergelege im Zuge der Herstellung von faserverstärkten Formteilen

Similar Documents

Publication Publication Date Title
US5434953A (en) Use of fast textured reduction for discrimination of document image components
CN102567300B (zh) 图片文档的处理方法及装置
CN101453575B (zh) 一种视频字幕信息提取方法
EP0779594A2 (en) Automatic method of identifying sentence boundaries in a document image
JPH0652354A (ja) スキュー補正方法並びにスキュー角検出方法並びにドキュメントセグメンテーションシステムおよびスキュー角検出装置
CN102831428B (zh) 图像内快速响应矩阵码区域的提取方法
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
JPH05242300A (ja) 文書イメージの処理方法
JP3420864B2 (ja) 枠抽出装置及び矩形抽出装置
JPH0721312A (ja) 文字サイズ推定装置
JP4244692B2 (ja) 文字認識装置及び文字認識プログラム
CN109409370B (zh) 一种远程桌面字符识别方法和装置
JPH05225394A (ja) 文字認識システムの候補文字分類方法
JP4194309B2 (ja) 文書方向推定方法および文書方向推定プログラム
JP2788506B2 (ja) 文字認識装置
KR950001594B1 (ko) 이치화된 영상의 고속 영역 분할 추출방법
Lehal et al. A complete OCR system for Gurmukhi script
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP3100825B2 (ja) 線認識方法
JPH07254065A (ja) 画像検出装置および方法
CN114648766A (zh) 一种字符识别方法、装置、设备及存储介质
CN113971802A (zh) 字符分割装置和方法
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
DE4345583B4 (de) Verfahren und Vorrichtung zur Handschrifterkennung aus sequentiellen Eingabeinformationen
JPH08297718A (ja) 文字切り出し装置及び文字認識装置