JPH03131995A - 日本語文書の接触文字の切出し方法 - Google Patents

日本語文書の接触文字の切出し方法

Info

Publication number
JPH03131995A
JPH03131995A JP1269059A JP26905989A JPH03131995A JP H03131995 A JPH03131995 A JP H03131995A JP 1269059 A JP1269059 A JP 1269059A JP 26905989 A JP26905989 A JP 26905989A JP H03131995 A JPH03131995 A JP H03131995A
Authority
JP
Japan
Prior art keywords
character
characters
projection data
size
contact
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1269059A
Other languages
English (en)
Other versions
JP2730996B2 (ja
Inventor
Ichiro Ogura
一郎 小倉
Yasuo Hongo
本郷 保夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP1269059A priority Critical patent/JP2730996B2/ja
Publication of JPH03131995A publication Critical patent/JPH03131995A/ja
Application granted granted Critical
Publication of JP2730996B2 publication Critical patent/JP2730996B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、文字サイズに近い文字ピッチで印字された
日本語文書や、複写を繰り返した日本語文書において発
生する接触文字を切り出すための方法に関する。
〔従来の技術〕
従来は、文字同士の接触により発生した連続する文字パ
ターン(接触文字)については、2文字の接触文字を対
象としており、この文字パターンの投影データの中の最
小値となる位置を切出し位置として2つに切り出すよう
にしている。なお、この切出しは投影データがしきい値
レベルTH(400DPIで6ドツト、つまり0.38
m■)以下の場合にのみ実行し、投影データの最小値が
しきい値レベルTHよりも大きい場合は、この文字パタ
ーンの長さしを標準文字サイズごとに分割することによ
り、接触文字を切り出すようにしている。
〔発明が解決しようとする課題〕
従来、接触文字は2文字までを対象としており、3文字
以上が接触した場合も、投影データの最小値1個所で切
出すため2文字までしか分割出来ないという問題がある
。この例を第4図(イ)に示す、また、投影データの最
小値で切り出すと、例えば横書きにおいて漢字の“へん
”と“つくり”の境界で誤って切り出してしまうという
問題もある。この例を第4図(ロ)に示す。
したがって、この発明の課題は接触文字を精度良く切り
出し得るようにすることにある。
〔課題を解決するための手段〕
文書画像の投影データから文字行または文字列を切り出
し、さらに文字行または文字列の投影データをもとに連
続するを判定するための標準文字サイズSを抽出する0
次に、この文字行または文字列の投影データをもとに連
続する文字パターンを切り出す、そして、接触している
文字パターン(長さし)に対し、標準文字サイズSを用
いて文字と文字の接触位置の組み合わせ(文字並びの組
み合わせ)を作成し、その位置の近傍での文字境界度を
演算する(例えば、各位置の投影データの最小値pHの
平均値P1)、この文字境界度に基づいて、これらの組
み合わせの中から妥当な組み合わ廿を推定し、接触文字
を切り出す。
〔作用〕
文字サイズに近い文字ピッチで印字された日本語文書や
、複写を繰り返した日本語文書において発生する接触文
字について、文字並びの組み合わせを作成してその中か
ら妥当な組み合わせを推定し分離することで、それぞれ
の文字を精度良く切り出す。
〔実施例〕
第1図はこの発明の実施例を示すフローチャート、第2
八図ないし第2C図はいずれも投影値を説明するための
説明図、第3A図ないし第3E図はこの発明による切出
し方法を具体的に説明するための説明図である。
まず、文書画像を入力しく■参照)、文書画像の投影デ
ータから文字行(または文字列)を切出す(■参照)0
次に、文字行または文字列の行または列寸法から全角を
判定するために算出された標準文字サイズSを抽出する
(■参照)、そして、文字切出しを行なう(■参照)。
以下、文字切り出しの詳細について説明する。
まず、文字行(または文字列)の投影データを求める(
■−1)。この投影データの例を第2八図ないし第2C
図に示す、第2A図および第2C図は漢字と漢字との間
で、また第2B図は“れ”と“の間でそれぞれ接触して
いる例を示す。
次に、この投影データをもとに連続する文字パターンを
切り出す(■−2)、そして、文字パターンの長さしに
より、以下の如き条件で文字並びを分類する。
条件(1) L<Kl  (−0,37)XS ・・・・・・句読点または中点の可能性。
条件(2) KIXS≦L<K2 (−〇、6)XS・・・・・・半
角サイズの文字。
条件(3) K2xs:5L<K3 (=1.2)xs・・・・・・
2通りの文字並びの組み合わせ。
(i)全角サイズの文字。
(ii)半角サイズの文字2文字。
条件(4) K3XS≦L<K4 (−1,8)XS・・・・・・2
通りの文字並びの組み合わせ。
N)全角サイズの文字と半角サイズ以下の文字の順。
(ii)半角サイズ以下の文字と全角サイズの文字の順
条件(5) K4XS≦L<K5 (=2.2)xS・・・・・・全
角サイズの文字2文字。
条件(6) K5XS≦L<K6 (−2,8)xs・・・・・・2
通りの文字並びの組み合わせ。
(i)全角サイズの文字2文字と半角サイズ以下の文字
の順。
(ii )半角サイズ以下の文字と全角サイズの文字2
文字の順。
条件(7) K6XS≦L<K7 (=11 0)xS・・・・・・
2通りの文字並びの組み合わせ。
(i)全角サイズの文字N文字。
(ii )全角サイズの文字(N+1)文字。
ここに、N−[L/S]、〔]はガウス記号を示し、[
]の値を越えない最大の整数を表わす。また、Nは3〜
10の場合に相当する。
条件(8) K7XS≦L ・・・・・・全角サイズの文字N文字。
接触文字が多すぎる場合で、Nは11以上。
条件(1)、  (2)に該当する文字パターンは、単
独で切り出すことができる文字である。
条件(3)〜(8)に該当する文字パターンは接触文字
であるため、複数の文字並びの組み合わせの対象となる
。そこで、切出しの可能性を推定して複数の文字並びの
組み合わせを作成し、文字境界度PL、P2を演算する
。そして、この文字境界度より妥当な文字並びを推定す
る。以下、条件(3)〜(8)の各場合につき、第3A
図ないし第3E図を参照して詳しく説明する。
条件(3)について この場合は、文字並びの組み合わせが次の2通りあると
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字か半角サイズの文字2文字かを推定す
る(Φ−3)、そこで、まずこの文字パターン(長さし
)の中心位置(L/2)の近傍(例えば、±0.1xS
以内の範囲Z1)に投影データの極小値をもつ位置(最
もへこんだ位置)が存在するか否かを調べる。そして、
この位置が存在するならば、半角サイズの文字2文字の
文字並びであると判定し、この中心位置で半角サイズ2
文字に切り出す、この場合の例を第3A図に示す。
条件(4)について この場合は、文字並びの組み合わせが次の2通りあると
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字と半角サイズ以下の順か、半角サイズ
以下の文字と全角サイズの文字の順かを推定する(■−
4)、まず、文字パターン(長さL)の前から標準文字
サイズSの距離の位置I!lの近傍Z2の文字境界度を
求める。
この実施例では、投影データの最小値P1を文字境界度
として演算する。次に、文字パターンの後からSの距離
(前からL−3の距離)の位置12の近傍Z3の投影デ
ータの最小値P2を、同様に文字境界度として求める。
そして、Plと22を比較し、その値の小さい方が妥当
な文字並びと推定し、文字の切り出しを行なう、つまり
、P1≦P2の場合は位置11で、PI>P2の場合は
位置12でそれぞれ文字の切り出しを行なう、この場合
の例を第3B図に示す。
条件(5)について この場合は、半角サイズの文字は混在していないと仮定
して、全角サイズの文字が2文字並んでいると推定し、
文字パターンの長さしの中心位置(L/2)で文字の切
り出しを行なう(■−5)。
この場合の例を第3C図に示す。
条件(6)について この場合は、文字並びの組み合わせが次の2通りあると
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字2文字と半角サイズ以下の文字の順か
、半角サイズ以下の文字と全角サイズの文字の順かを推
定する(■−6)。
まず、文字パターン(長さL)の前からSの距離の位置
lllの近傍Z4の投影データの最小値P11と、前か
ら2XSの距離の位置112の近傍Z5の投影データの
最小値P12を求め、その平均値P1を演算する。次に
、文字パターンの後からSの距離の位置121の近傍z
6の投影データの最小値P21と、後から2XSの距離
(前からL−2XSの距M)の位置122の近傍z7の
投影データの最小値P22を求め、その平均値P2を演
算する。そして、PiとP2を比較し、その値の小さい
方を妥当な文字並びと推定し、文字の切り出しを行なう
、つまり、P1≦22の場合は位置lllと112で、
PI>P2の場合は位置121と122でそれぞれ文字
の切出しを行なう。
この場合の例を第3D図に示す。
条件(7)について この場合は、半角サイズの文字は混在しておらず、文字
並びの組み合わせが次の2通りあると仮定し、このうち
どちらが妥当かを推定する。つまり、全角サイズの文字
N文字か、全角サイズの文字(N+1)文字かを推定す
る(■−7)。ここで、N−[L/Slである。まず、
文字パターン(長さし)をN等分する位置!!11  
(−L/N) 。
112 (2xL/N)、l 13 (3xL/N)。
・・・・・・fl (N−1) (−(N−1) XL
/N)の各位置の近傍Zの投影データの最小値pH,P
I2、PI3.・・・・・・PI(N−1)を求め、そ
の平均値を演算する。
P1= (P11+PI2+P13・・・・・・+Pi
(N−1))/ (N−1) 次に、文字パターンを(N+1)等分する位置!!21
  (−L/(N+1))、J22 (−2XL/ (
N+1))、123 (=3xL/ (N+1))・・
・・・・I!2N (−NXL/ (N+ 1))の各
位置の近傍2°の投影データの最小値P21.P22゜
P23.・・・・・・P2Nを求め、その平均値を演算
する。
P2−  (P21+P22+P23・・・・・・+P
2N)/N そして、PIとP2を比較し、その値の小さい方が妥当
な文字並びと推定し、文字の切り出しを行なう。つまり
、P1≦P2の場合はN等分する位置位rI1711,
112.  It13. ・・・−・・11 (N−1
)で、PI>P2の場合は(N+1)等分する位fI1
21.I22. 123.・・・・・・12Nでそれぞ
れ文字の切出しを行なう、この場合の例を第3E図に示
す。
条件(8)について この場合は、接触文字が多すぎる(この実施例では、全
角サイズの文字が11文字以上)場合であり、切出し不
能として以下の処理を行なう。分割数N (−CL/S
] )を演算し、文字パターンの長さしをN等分する。
そして、切出し不能として、各文字にリジェクトフラグ
をセントする(■−8)。
〔発明の効果〕
この発明によれば、文字サイズに近い文字ピッチで印字
された日本語文書や、複写を繰り返した日本語文書にお
いて発生する接触文字について、接触した文字パターン
の長さしと計測した標準文字サイズSとから、文字並び
の組み合わせを作成して妥当な組み合わせを推定するよ
うにしたので、それぞれの文字を精度良く切り出すこと
が可能となる利点が得られる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すフローチャート、第2
A図ないし第2C図はいずれも文字列に対応する投影値
の例を説明するための説明図、第3八図ないし第3E図
はこの発明による切出し方法を具体的に説明するための
説明図、第4図は切出し方法の従来例を説明するための
説明図である。 符号説明 S・・・標準文字サイズ、z、  z’  zt〜Z 
7 用切出し位置。

Claims (1)

  1. 【特許請求の範囲】 1)文書画像の複数のブロックに分割されたブロック毎
    の投影データから、文字行または文字列を抽出して標準
    文字サイズを決定した後、 前記文字行または文字列の投影データをもとに連続する
    文字パターンを抽出し、その連続する文字パターンの長
    さと投影データから接触文字について文字がどのように
    並んでいるかを示す文字並びの組み合わせを作成し、そ
    の文字並びの組み合わせに基づいて投影データから文字
    境界度を求め、この文字境界度に基づいて文字並びの組
    み合わせの中から妥当な組み合わせを推定して文字を切
    り出すことを特徴とする日本語文書の接触文字の切出し
    方法。
JP1269059A 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法 Expired - Lifetime JP2730996B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1269059A JP2730996B2 (ja) 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1269059A JP2730996B2 (ja) 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法

Publications (2)

Publication Number Publication Date
JPH03131995A true JPH03131995A (ja) 1991-06-05
JP2730996B2 JP2730996B2 (ja) 1998-03-25

Family

ID=17467089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1269059A Expired - Lifetime JP2730996B2 (ja) 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法

Country Status (1)

Country Link
JP (1) JP2730996B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (ja) * 1983-12-20 1985-07-15 Nec Corp 文字分離装置
JPS6172373A (ja) * 1984-09-17 1986-04-14 Fujitsu Ltd 認識装置
JPS62169286A (ja) * 1986-01-22 1987-07-25 Toshiba Corp 文字切出方式
JPS63208990A (ja) * 1987-02-26 1988-08-30 Mitsubishi Electric Corp 文字パタ−ン切り出し装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (ja) * 1983-12-20 1985-07-15 Nec Corp 文字分離装置
JPS6172373A (ja) * 1984-09-17 1986-04-14 Fujitsu Ltd 認識装置
JPS62169286A (ja) * 1986-01-22 1987-07-25 Toshiba Corp 文字切出方式
JPS63208990A (ja) * 1987-02-26 1988-08-30 Mitsubishi Electric Corp 文字パタ−ン切り出し装置

Also Published As

Publication number Publication date
JP2730996B2 (ja) 1998-03-25

Similar Documents

Publication Publication Date Title
Ha et al. Document page decomposition by the bounding-box project
US8965127B2 (en) Method for segmenting text words in document images
JP2016143413A (ja) 再帰的な区分化を用いた文書画像についての単語区分化
JP5669957B2 (ja) 西洋語の透かし処理をするための透かし画像の分割方法と装置
JPH01292486A (ja) 文字認識装置及び方法
CN108830278A (zh) 一种字符串图像识别方法
CN111275049A (zh) 一种文字图像骨架特征描述符获取的方法及装置
JP2006268804A (ja) 2値画像の細線化方式
EP0246898A2 (en) Method of curve approximation
JPH03131995A (ja) 日本語文書の接触文字の切出し方法
CN107943760B (zh) Pdf文档编辑的字体优化方法、装置、终端设备和存储介质
CN112580594B (zh) 文档识别方法、装置、计算机设备和存储介质
CN112258396A (zh) 一种用于字符图像缩放的方法
CN111383193A (zh) 图像修复方法和装置
Wang et al. Mending broken handwriting with a macrostructure analysis method to improve recognition
Chiu et al. A feature-preserved thinning algorithm for handwritten Chinese characters
CN113781503B (zh) 岩碴图像分割方法及装置
CN117350909B (zh) 文字水印处理方法、装置、电子设备及存储介质
Zhao et al. An overview on passive image forensics technology for automatic computer forgery
JP3344791B2 (ja) 線分抽出方法
CN116739021A (zh) 针对热处理的工件标识识别方法、系统及电子设备
JP3106080B2 (ja) 画像処理装置及びその方法
JP2000352928A (ja) 文字情報編集加工方法、装置、および文字情報編集加工プログラムを記録した記録媒体
JP2520174B2 (ja) 文字自動抽出装置
CN115731250A (zh) 文本分割方法、装置、设备及存储介质