JPH03131995A - 日本語文書の接触文字の切出し方法 - Google Patents
日本語文書の接触文字の切出し方法Info
- Publication number
- JPH03131995A JPH03131995A JP1269059A JP26905989A JPH03131995A JP H03131995 A JPH03131995 A JP H03131995A JP 1269059 A JP1269059 A JP 1269059A JP 26905989 A JP26905989 A JP 26905989A JP H03131995 A JPH03131995 A JP H03131995A
- Authority
- JP
- Japan
- Prior art keywords
- character
- characters
- projection data
- size
- contact
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、文字サイズに近い文字ピッチで印字された
日本語文書や、複写を繰り返した日本語文書において発
生する接触文字を切り出すための方法に関する。
日本語文書や、複写を繰り返した日本語文書において発
生する接触文字を切り出すための方法に関する。
従来は、文字同士の接触により発生した連続する文字パ
ターン(接触文字)については、2文字の接触文字を対
象としており、この文字パターンの投影データの中の最
小値となる位置を切出し位置として2つに切り出すよう
にしている。なお、この切出しは投影データがしきい値
レベルTH(400DPIで6ドツト、つまり0.38
m■)以下の場合にのみ実行し、投影データの最小値が
しきい値レベルTHよりも大きい場合は、この文字パタ
ーンの長さしを標準文字サイズごとに分割することによ
り、接触文字を切り出すようにしている。
ターン(接触文字)については、2文字の接触文字を対
象としており、この文字パターンの投影データの中の最
小値となる位置を切出し位置として2つに切り出すよう
にしている。なお、この切出しは投影データがしきい値
レベルTH(400DPIで6ドツト、つまり0.38
m■)以下の場合にのみ実行し、投影データの最小値が
しきい値レベルTHよりも大きい場合は、この文字パタ
ーンの長さしを標準文字サイズごとに分割することによ
り、接触文字を切り出すようにしている。
従来、接触文字は2文字までを対象としており、3文字
以上が接触した場合も、投影データの最小値1個所で切
出すため2文字までしか分割出来ないという問題がある
。この例を第4図(イ)に示す、また、投影データの最
小値で切り出すと、例えば横書きにおいて漢字の“へん
”と“つくり”の境界で誤って切り出してしまうという
問題もある。この例を第4図(ロ)に示す。
以上が接触した場合も、投影データの最小値1個所で切
出すため2文字までしか分割出来ないという問題がある
。この例を第4図(イ)に示す、また、投影データの最
小値で切り出すと、例えば横書きにおいて漢字の“へん
”と“つくり”の境界で誤って切り出してしまうという
問題もある。この例を第4図(ロ)に示す。
したがって、この発明の課題は接触文字を精度良く切り
出し得るようにすることにある。
出し得るようにすることにある。
文書画像の投影データから文字行または文字列を切り出
し、さらに文字行または文字列の投影データをもとに連
続するを判定するための標準文字サイズSを抽出する0
次に、この文字行または文字列の投影データをもとに連
続する文字パターンを切り出す、そして、接触している
文字パターン(長さし)に対し、標準文字サイズSを用
いて文字と文字の接触位置の組み合わせ(文字並びの組
み合わせ)を作成し、その位置の近傍での文字境界度を
演算する(例えば、各位置の投影データの最小値pHの
平均値P1)、この文字境界度に基づいて、これらの組
み合わせの中から妥当な組み合わ廿を推定し、接触文字
を切り出す。
し、さらに文字行または文字列の投影データをもとに連
続するを判定するための標準文字サイズSを抽出する0
次に、この文字行または文字列の投影データをもとに連
続する文字パターンを切り出す、そして、接触している
文字パターン(長さし)に対し、標準文字サイズSを用
いて文字と文字の接触位置の組み合わせ(文字並びの組
み合わせ)を作成し、その位置の近傍での文字境界度を
演算する(例えば、各位置の投影データの最小値pHの
平均値P1)、この文字境界度に基づいて、これらの組
み合わせの中から妥当な組み合わ廿を推定し、接触文字
を切り出す。
文字サイズに近い文字ピッチで印字された日本語文書や
、複写を繰り返した日本語文書において発生する接触文
字について、文字並びの組み合わせを作成してその中か
ら妥当な組み合わせを推定し分離することで、それぞれ
の文字を精度良く切り出す。
、複写を繰り返した日本語文書において発生する接触文
字について、文字並びの組み合わせを作成してその中か
ら妥当な組み合わせを推定し分離することで、それぞれ
の文字を精度良く切り出す。
第1図はこの発明の実施例を示すフローチャート、第2
八図ないし第2C図はいずれも投影値を説明するための
説明図、第3A図ないし第3E図はこの発明による切出
し方法を具体的に説明するための説明図である。
八図ないし第2C図はいずれも投影値を説明するための
説明図、第3A図ないし第3E図はこの発明による切出
し方法を具体的に説明するための説明図である。
まず、文書画像を入力しく■参照)、文書画像の投影デ
ータから文字行(または文字列)を切出す(■参照)0
次に、文字行または文字列の行または列寸法から全角を
判定するために算出された標準文字サイズSを抽出する
(■参照)、そして、文字切出しを行なう(■参照)。
ータから文字行(または文字列)を切出す(■参照)0
次に、文字行または文字列の行または列寸法から全角を
判定するために算出された標準文字サイズSを抽出する
(■参照)、そして、文字切出しを行なう(■参照)。
以下、文字切り出しの詳細について説明する。
まず、文字行(または文字列)の投影データを求める(
■−1)。この投影データの例を第2八図ないし第2C
図に示す、第2A図および第2C図は漢字と漢字との間
で、また第2B図は“れ”と“の間でそれぞれ接触して
いる例を示す。
■−1)。この投影データの例を第2八図ないし第2C
図に示す、第2A図および第2C図は漢字と漢字との間
で、また第2B図は“れ”と“の間でそれぞれ接触して
いる例を示す。
次に、この投影データをもとに連続する文字パターンを
切り出す(■−2)、そして、文字パターンの長さしに
より、以下の如き条件で文字並びを分類する。
切り出す(■−2)、そして、文字パターンの長さしに
より、以下の如き条件で文字並びを分類する。
条件(1)
L<Kl (−0,37)XS
・・・・・・句読点または中点の可能性。
条件(2)
KIXS≦L<K2 (−〇、6)XS・・・・・・半
角サイズの文字。
角サイズの文字。
条件(3)
K2xs:5L<K3 (=1.2)xs・・・・・・
2通りの文字並びの組み合わせ。
2通りの文字並びの組み合わせ。
(i)全角サイズの文字。
(ii)半角サイズの文字2文字。
条件(4)
K3XS≦L<K4 (−1,8)XS・・・・・・2
通りの文字並びの組み合わせ。
通りの文字並びの組み合わせ。
N)全角サイズの文字と半角サイズ以下の文字の順。
(ii)半角サイズ以下の文字と全角サイズの文字の順
。
。
条件(5)
K4XS≦L<K5 (=2.2)xS・・・・・・全
角サイズの文字2文字。
角サイズの文字2文字。
条件(6)
K5XS≦L<K6 (−2,8)xs・・・・・・2
通りの文字並びの組み合わせ。
通りの文字並びの組み合わせ。
(i)全角サイズの文字2文字と半角サイズ以下の文字
の順。
の順。
(ii )半角サイズ以下の文字と全角サイズの文字2
文字の順。
文字の順。
条件(7)
K6XS≦L<K7 (=11 0)xS・・・・・・
2通りの文字並びの組み合わせ。
2通りの文字並びの組み合わせ。
(i)全角サイズの文字N文字。
(ii )全角サイズの文字(N+1)文字。
ここに、N−[L/S]、〔]はガウス記号を示し、[
]の値を越えない最大の整数を表わす。また、Nは3〜
10の場合に相当する。
]の値を越えない最大の整数を表わす。また、Nは3〜
10の場合に相当する。
条件(8)
K7XS≦L
・・・・・・全角サイズの文字N文字。
接触文字が多すぎる場合で、Nは11以上。
条件(1)、 (2)に該当する文字パターンは、単
独で切り出すことができる文字である。
独で切り出すことができる文字である。
条件(3)〜(8)に該当する文字パターンは接触文字
であるため、複数の文字並びの組み合わせの対象となる
。そこで、切出しの可能性を推定して複数の文字並びの
組み合わせを作成し、文字境界度PL、P2を演算する
。そして、この文字境界度より妥当な文字並びを推定す
る。以下、条件(3)〜(8)の各場合につき、第3A
図ないし第3E図を参照して詳しく説明する。
であるため、複数の文字並びの組み合わせの対象となる
。そこで、切出しの可能性を推定して複数の文字並びの
組み合わせを作成し、文字境界度PL、P2を演算する
。そして、この文字境界度より妥当な文字並びを推定す
る。以下、条件(3)〜(8)の各場合につき、第3A
図ないし第3E図を参照して詳しく説明する。
条件(3)について
この場合は、文字並びの組み合わせが次の2通りあると
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字か半角サイズの文字2文字かを推定す
る(Φ−3)、そこで、まずこの文字パターン(長さし
)の中心位置(L/2)の近傍(例えば、±0.1xS
以内の範囲Z1)に投影データの極小値をもつ位置(最
もへこんだ位置)が存在するか否かを調べる。そして、
この位置が存在するならば、半角サイズの文字2文字の
文字並びであると判定し、この中心位置で半角サイズ2
文字に切り出す、この場合の例を第3A図に示す。
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字か半角サイズの文字2文字かを推定す
る(Φ−3)、そこで、まずこの文字パターン(長さし
)の中心位置(L/2)の近傍(例えば、±0.1xS
以内の範囲Z1)に投影データの極小値をもつ位置(最
もへこんだ位置)が存在するか否かを調べる。そして、
この位置が存在するならば、半角サイズの文字2文字の
文字並びであると判定し、この中心位置で半角サイズ2
文字に切り出す、この場合の例を第3A図に示す。
条件(4)について
この場合は、文字並びの組み合わせが次の2通りあると
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字と半角サイズ以下の順か、半角サイズ
以下の文字と全角サイズの文字の順かを推定する(■−
4)、まず、文字パターン(長さL)の前から標準文字
サイズSの距離の位置I!lの近傍Z2の文字境界度を
求める。
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字と半角サイズ以下の順か、半角サイズ
以下の文字と全角サイズの文字の順かを推定する(■−
4)、まず、文字パターン(長さL)の前から標準文字
サイズSの距離の位置I!lの近傍Z2の文字境界度を
求める。
この実施例では、投影データの最小値P1を文字境界度
として演算する。次に、文字パターンの後からSの距離
(前からL−3の距離)の位置12の近傍Z3の投影デ
ータの最小値P2を、同様に文字境界度として求める。
として演算する。次に、文字パターンの後からSの距離
(前からL−3の距離)の位置12の近傍Z3の投影デ
ータの最小値P2を、同様に文字境界度として求める。
そして、Plと22を比較し、その値の小さい方が妥当
な文字並びと推定し、文字の切り出しを行なう、つまり
、P1≦P2の場合は位置11で、PI>P2の場合は
位置12でそれぞれ文字の切り出しを行なう、この場合
の例を第3B図に示す。
な文字並びと推定し、文字の切り出しを行なう、つまり
、P1≦P2の場合は位置11で、PI>P2の場合は
位置12でそれぞれ文字の切り出しを行なう、この場合
の例を第3B図に示す。
条件(5)について
この場合は、半角サイズの文字は混在していないと仮定
して、全角サイズの文字が2文字並んでいると推定し、
文字パターンの長さしの中心位置(L/2)で文字の切
り出しを行なう(■−5)。
して、全角サイズの文字が2文字並んでいると推定し、
文字パターンの長さしの中心位置(L/2)で文字の切
り出しを行なう(■−5)。
この場合の例を第3C図に示す。
条件(6)について
この場合は、文字並びの組み合わせが次の2通りあると
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字2文字と半角サイズ以下の文字の順か
、半角サイズ以下の文字と全角サイズの文字の順かを推
定する(■−6)。
仮定し、このうちどちらが妥当かを推定する。つまり、
全角サイズの文字2文字と半角サイズ以下の文字の順か
、半角サイズ以下の文字と全角サイズの文字の順かを推
定する(■−6)。
まず、文字パターン(長さL)の前からSの距離の位置
lllの近傍Z4の投影データの最小値P11と、前か
ら2XSの距離の位置112の近傍Z5の投影データの
最小値P12を求め、その平均値P1を演算する。次に
、文字パターンの後からSの距離の位置121の近傍z
6の投影データの最小値P21と、後から2XSの距離
(前からL−2XSの距M)の位置122の近傍z7の
投影データの最小値P22を求め、その平均値P2を演
算する。そして、PiとP2を比較し、その値の小さい
方を妥当な文字並びと推定し、文字の切り出しを行なう
、つまり、P1≦22の場合は位置lllと112で、
PI>P2の場合は位置121と122でそれぞれ文字
の切出しを行なう。
lllの近傍Z4の投影データの最小値P11と、前か
ら2XSの距離の位置112の近傍Z5の投影データの
最小値P12を求め、その平均値P1を演算する。次に
、文字パターンの後からSの距離の位置121の近傍z
6の投影データの最小値P21と、後から2XSの距離
(前からL−2XSの距M)の位置122の近傍z7の
投影データの最小値P22を求め、その平均値P2を演
算する。そして、PiとP2を比較し、その値の小さい
方を妥当な文字並びと推定し、文字の切り出しを行なう
、つまり、P1≦22の場合は位置lllと112で、
PI>P2の場合は位置121と122でそれぞれ文字
の切出しを行なう。
この場合の例を第3D図に示す。
条件(7)について
この場合は、半角サイズの文字は混在しておらず、文字
並びの組み合わせが次の2通りあると仮定し、このうち
どちらが妥当かを推定する。つまり、全角サイズの文字
N文字か、全角サイズの文字(N+1)文字かを推定す
る(■−7)。ここで、N−[L/Slである。まず、
文字パターン(長さし)をN等分する位置!!11
(−L/N) 。
並びの組み合わせが次の2通りあると仮定し、このうち
どちらが妥当かを推定する。つまり、全角サイズの文字
N文字か、全角サイズの文字(N+1)文字かを推定す
る(■−7)。ここで、N−[L/Slである。まず、
文字パターン(長さし)をN等分する位置!!11
(−L/N) 。
112 (2xL/N)、l 13 (3xL/N)。
・・・・・・fl (N−1) (−(N−1) XL
/N)の各位置の近傍Zの投影データの最小値pH,P
I2、PI3.・・・・・・PI(N−1)を求め、そ
の平均値を演算する。
/N)の各位置の近傍Zの投影データの最小値pH,P
I2、PI3.・・・・・・PI(N−1)を求め、そ
の平均値を演算する。
P1= (P11+PI2+P13・・・・・・+Pi
(N−1))/ (N−1) 次に、文字パターンを(N+1)等分する位置!!21
(−L/(N+1))、J22 (−2XL/ (
N+1))、123 (=3xL/ (N+1))・・
・・・・I!2N (−NXL/ (N+ 1))の各
位置の近傍2°の投影データの最小値P21.P22゜
P23.・・・・・・P2Nを求め、その平均値を演算
する。
(N−1))/ (N−1) 次に、文字パターンを(N+1)等分する位置!!21
(−L/(N+1))、J22 (−2XL/ (
N+1))、123 (=3xL/ (N+1))・・
・・・・I!2N (−NXL/ (N+ 1))の各
位置の近傍2°の投影データの最小値P21.P22゜
P23.・・・・・・P2Nを求め、その平均値を演算
する。
P2− (P21+P22+P23・・・・・・+P
2N)/N そして、PIとP2を比較し、その値の小さい方が妥当
な文字並びと推定し、文字の切り出しを行なう。つまり
、P1≦P2の場合はN等分する位置位rI1711,
112. It13. ・・・−・・11 (N−1
)で、PI>P2の場合は(N+1)等分する位fI1
21.I22. 123.・・・・・・12Nでそれぞ
れ文字の切出しを行なう、この場合の例を第3E図に示
す。
2N)/N そして、PIとP2を比較し、その値の小さい方が妥当
な文字並びと推定し、文字の切り出しを行なう。つまり
、P1≦P2の場合はN等分する位置位rI1711,
112. It13. ・・・−・・11 (N−1
)で、PI>P2の場合は(N+1)等分する位fI1
21.I22. 123.・・・・・・12Nでそれぞ
れ文字の切出しを行なう、この場合の例を第3E図に示
す。
条件(8)について
この場合は、接触文字が多すぎる(この実施例では、全
角サイズの文字が11文字以上)場合であり、切出し不
能として以下の処理を行なう。分割数N (−CL/S
] )を演算し、文字パターンの長さしをN等分する。
角サイズの文字が11文字以上)場合であり、切出し不
能として以下の処理を行なう。分割数N (−CL/S
] )を演算し、文字パターンの長さしをN等分する。
そして、切出し不能として、各文字にリジェクトフラグ
をセントする(■−8)。
をセントする(■−8)。
この発明によれば、文字サイズに近い文字ピッチで印字
された日本語文書や、複写を繰り返した日本語文書にお
いて発生する接触文字について、接触した文字パターン
の長さしと計測した標準文字サイズSとから、文字並び
の組み合わせを作成して妥当な組み合わせを推定するよ
うにしたので、それぞれの文字を精度良く切り出すこと
が可能となる利点が得られる。
された日本語文書や、複写を繰り返した日本語文書にお
いて発生する接触文字について、接触した文字パターン
の長さしと計測した標準文字サイズSとから、文字並び
の組み合わせを作成して妥当な組み合わせを推定するよ
うにしたので、それぞれの文字を精度良く切り出すこと
が可能となる利点が得られる。
第1図はこの発明の実施例を示すフローチャート、第2
A図ないし第2C図はいずれも文字列に対応する投影値
の例を説明するための説明図、第3八図ないし第3E図
はこの発明による切出し方法を具体的に説明するための
説明図、第4図は切出し方法の従来例を説明するための
説明図である。 符号説明 S・・・標準文字サイズ、z、 z’ zt〜Z
7 用切出し位置。
A図ないし第2C図はいずれも文字列に対応する投影値
の例を説明するための説明図、第3八図ないし第3E図
はこの発明による切出し方法を具体的に説明するための
説明図、第4図は切出し方法の従来例を説明するための
説明図である。 符号説明 S・・・標準文字サイズ、z、 z’ zt〜Z
7 用切出し位置。
Claims (1)
- 【特許請求の範囲】 1)文書画像の複数のブロックに分割されたブロック毎
の投影データから、文字行または文字列を抽出して標準
文字サイズを決定した後、 前記文字行または文字列の投影データをもとに連続する
文字パターンを抽出し、その連続する文字パターンの長
さと投影データから接触文字について文字がどのように
並んでいるかを示す文字並びの組み合わせを作成し、そ
の文字並びの組み合わせに基づいて投影データから文字
境界度を求め、この文字境界度に基づいて文字並びの組
み合わせの中から妥当な組み合わせを推定して文字を切
り出すことを特徴とする日本語文書の接触文字の切出し
方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1269059A JP2730996B2 (ja) | 1989-10-18 | 1989-10-18 | 日本語文書の接触文字の切出し方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1269059A JP2730996B2 (ja) | 1989-10-18 | 1989-10-18 | 日本語文書の接触文字の切出し方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH03131995A true JPH03131995A (ja) | 1991-06-05 |
JP2730996B2 JP2730996B2 (ja) | 1998-03-25 |
Family
ID=17467089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1269059A Expired - Lifetime JP2730996B2 (ja) | 1989-10-18 | 1989-10-18 | 日本語文書の接触文字の切出し方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2730996B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60132281A (ja) * | 1983-12-20 | 1985-07-15 | Nec Corp | 文字分離装置 |
JPS6172373A (ja) * | 1984-09-17 | 1986-04-14 | Fujitsu Ltd | 認識装置 |
JPS62169286A (ja) * | 1986-01-22 | 1987-07-25 | Toshiba Corp | 文字切出方式 |
JPS63208990A (ja) * | 1987-02-26 | 1988-08-30 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
-
1989
- 1989-10-18 JP JP1269059A patent/JP2730996B2/ja not_active Expired - Lifetime
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60132281A (ja) * | 1983-12-20 | 1985-07-15 | Nec Corp | 文字分離装置 |
JPS6172373A (ja) * | 1984-09-17 | 1986-04-14 | Fujitsu Ltd | 認識装置 |
JPS62169286A (ja) * | 1986-01-22 | 1987-07-25 | Toshiba Corp | 文字切出方式 |
JPS63208990A (ja) * | 1987-02-26 | 1988-08-30 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2730996B2 (ja) | 1998-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ha et al. | Document page decomposition by the bounding-box project | |
US8965127B2 (en) | Method for segmenting text words in document images | |
JP2016143413A (ja) | 再帰的な区分化を用いた文書画像についての単語区分化 | |
JP5669957B2 (ja) | 西洋語の透かし処理をするための透かし画像の分割方法と装置 | |
JPH01292486A (ja) | 文字認識装置及び方法 | |
CN108830278A (zh) | 一种字符串图像识别方法 | |
CN111275049A (zh) | 一种文字图像骨架特征描述符获取的方法及装置 | |
JP2006268804A (ja) | 2値画像の細線化方式 | |
EP0246898A2 (en) | Method of curve approximation | |
JPH03131995A (ja) | 日本語文書の接触文字の切出し方法 | |
CN107943760B (zh) | Pdf文档编辑的字体优化方法、装置、终端设备和存储介质 | |
CN112580594B (zh) | 文档识别方法、装置、计算机设备和存储介质 | |
CN112258396A (zh) | 一种用于字符图像缩放的方法 | |
CN111383193A (zh) | 图像修复方法和装置 | |
Wang et al. | Mending broken handwriting with a macrostructure analysis method to improve recognition | |
Chiu et al. | A feature-preserved thinning algorithm for handwritten Chinese characters | |
CN113781503B (zh) | 岩碴图像分割方法及装置 | |
CN117350909B (zh) | 文字水印处理方法、装置、电子设备及存储介质 | |
Zhao et al. | An overview on passive image forensics technology for automatic computer forgery | |
JP3344791B2 (ja) | 線分抽出方法 | |
CN116739021A (zh) | 针对热处理的工件标识识别方法、系统及电子设备 | |
JP3106080B2 (ja) | 画像処理装置及びその方法 | |
JP2000352928A (ja) | 文字情報編集加工方法、装置、および文字情報編集加工プログラムを記録した記録媒体 | |
JP2520174B2 (ja) | 文字自動抽出装置 | |
CN115731250A (zh) | 文本分割方法、装置、设备及存储介质 |