JP2730996B2 - 日本語文書の接触文字の切出し方法 - Google Patents

日本語文書の接触文字の切出し方法

Info

Publication number
JP2730996B2
JP2730996B2 JP1269059A JP26905989A JP2730996B2 JP 2730996 B2 JP2730996 B2 JP 2730996B2 JP 1269059 A JP1269059 A JP 1269059A JP 26905989 A JP26905989 A JP 26905989A JP 2730996 B2 JP2730996 B2 JP 2730996B2
Authority
JP
Japan
Prior art keywords
character
characters
size
projection data
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1269059A
Other languages
English (en)
Other versions
JPH03131995A (ja
Inventor
一郎 小倉
保夫 本郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP1269059A priority Critical patent/JP2730996B2/ja
Publication of JPH03131995A publication Critical patent/JPH03131995A/ja
Application granted granted Critical
Publication of JP2730996B2 publication Critical patent/JP2730996B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、文字サイズに近い文字ピッチで印字され
た日本語文書や、複写を繰り返した日本語文書において
発生する接触文字を切り出すための方法に関する。
〔従来の技術〕
従来は、文字同士の接触により発生した連続する文字
パターン(接触文字)については、2文字の接触文字を
対象としており、この文字パターンの投影データの中の
最小値となる位置を切出し位置として2つに切り出すよ
うにしている。なお、この切出しは投影データがしきい
値レベルTH(400DPIで6ドット、つまり0.38mm)以下の
場合にのみ実行し、投影データの最小値がしきい値レベ
ルTHよりも大きい場合は、この文字パターンの長さLを
標準文字サイズごとに分割することにより、接触文字を
切り出すようにしている。
〔発明が解決しようとする課題〕 従来、接触文字は2文字までを対象としており、3文
字以上が接触した場合も、投影データの最小値1個所で
切出すため2文字までしか分割出来ないという問題があ
る。この例を第4図(イ)に示す。また、投影データの
最小値で切り出すと、例えば横書きにおいて漢字の“へ
ん”と“つくり”の境界で誤って切り出してしまうとい
う問題もある。この例を第4図(ロ)に示す。
したがって、この発明の課題は接触文字を精度良く切
り出し得るようにすることにある。
〔課題を解決するための手段〕
文書画像の投影データから文字行または文字列を切り
出し、さらに文字行または文字列の投影データをもとに
連続するを判定するための標準文字サイズSを抽出す
る。次に、この文字行または文字列の投影データをもと
に連続する文字パターンを切り出す。そして、接触して
いる文字パターン(長さL)に対し、標準文字サイズS
を用いて半角サイズの文字,全角サイズの文字,句読点
等がどのように並んでいるかを示す文字並びの組み合わ
せ条件と比較して文字並びの組み合わせ条件の中から妥
当な組み合わせを推定し、その文字並びの組み合わせに
基づいて投影データから文字境界度を演算する(例え
ば、各位置の投影データの最小値P11の平均値P1)。こ
の文字境界度に基づいて、これらの組み合わせの中から
妥当な組み合わせを推定し、接触文字を切り出す。
〔作用〕
文字サイズに近い文字ピッチで印字された日本語文書
や、複写を繰り返した日本語文書において発生する接触
文字について、半角サイズの文字,全角サイズの文字,
句読点等がどのように並んでいるかを示す文字並びの組
み合わせ条件に基づいてその中から妥当な組み合わせを
推定し分離することで、それぞれの文字を精度良く切り
出す。
〔実施例〕
第1図はこの発明の実施例を示すフローチャート、第
2A図ないし第2図はいずれも投影値を説明するための説
明図、第3A図ないし第3E図はこの発明による切出し方法
を具体的に説明するための説明図である。
まず、文書画像を入力し(参照)、文書画像の投影
データから文字行(または文字列)を切出す(参
照)。次に、文字行または文字列の行または列寸法から
全角を判定するために演算された標準文字サイズSを抽
出する(参照)。そして、文字切出しを行なう(参
照)。
以下、文字切り出しの詳細について説明する。
まず、文字行(または文字列)の投影データを求める
(−1)。この投影データの例を第2A図ないし第2C図
に示す。第2A図および第2C図は漢字と漢字との間で、ま
た第2B図は“れ”と“、”の間でそれぞれ接触している
例を示す。次に、この投影データをもとに連続する文字
パターンを切り出す(−2)。そして、文字パターン
の長さLにより、以下の如き条件で文字並びを分類す
る。
条件(1) L<K1(=0.37)×S ……句読点または中点の可能性。
条件(2) K1×S≦L<K2(=0.6)×S ……半角サイズの文字。
条件(3) K2×S≦L<K3(=1.2)×S ……2通りの文字並びの組み合わせ。
(i)全角サイズの文字。
(ii)半角サイズの文字2文字。
条件(4) K3×S≦L<K4(=1.8)×S ……2通りの文字並びの組み合わせ。
(i)全角サイズの文字と半角サイズ以下の文字の
順。
(ii)半角サイズ以下の文字と全角サイズの文字の
順。
条件(5) K4×S≦L<K5(=2.2)×S ……全角サイズの文字2文字。
条件(6) K5×S≦L<K6(=2.8)×S ……2通りの文字並びの組み合わせ。
(i)全角サイズの文字2文字と半角サイズ以下の文
字の順。
(ii)半角サイズ以下の文字と全角サイズの文字2文
字の順。
条件(7) K6×S≦L<K7(=11.0)×S ……2通りの文字並びの組み合わせ。
(i)全角サイズの文字N文字。
(ii)全角サイズの文字(N+1)文字。
ここに、N=[L/S]、[ ]はガウス記号を示し、
[ ]の値を越えない最大の整数を表わす。また、Nは
3〜10の場合に相当する。
条件(8) K7×S≦L ……全角サイズの文字N文字。
接触文字が多すぎる場合で、Nは11以上。
条件(1),(2)に該当する文字パターンは、単独
で切り出すことができる文字である。
条件(3)〜(8)に該当する文字パターンは接触文
字であるため、複数の文字並びの組み合わせの対象とな
る。そこで、切出しの可能性を推定して複数の文字並び
の組み合わせを作成し、文字境界度P1,P2を演算する。
そして、この文字境界度より妥当な文字並びを推定す
る。以下、条件(3)〜(8)の各場合につき、第3A図
ないし第3E図を参照して詳しく説明する。
条件(3)について この場合は、文字並びの組み合わせが次の2通りある
と仮定し、このうちどちらが妥当かを推定する。つま
り、全角サイズの文字が半角サイズの文字2文字かを推
定する(−3)。そこで、まずこの文字パターン(長
さL)の中心位置(L/2)の近傍(例えば、±0.1×S以
内の範囲Z1)に投影データの極小値をもつ位置(最もへ
こんだ位置)が存在するか否かを調べる。そして、この
位置が存在するならば、半角サイズの文字2文字の文字
並びであると判定し、この中心位置で半角サイズ2文字
に切り出す。この場合の例を第3A図に示す。
条件(4)について この場合は、文字並びの組み合わせが次の2通りある
と仮定し、このうちどちらが妥当かを推定する。つま
り、全角サイズの文字と半角サイズ以下の順か、半角サ
イズ以下の文字と全角サイズの文字の順かを推定する
(−4)。まず、文字パターン(長さL)の前から標
準文字サイズSの距離の位置l1の近傍Z2の文字境界度を
求める。この実施例では、投影データの最小値PIを文字
境界度として演算する。次に、文字パターンの後からS
の距離(前からL−Sの距離)の位置l2の近傍Z3の投影
データの最小値P2を、同様に文字境界度として求める。
そして、P1とP2を比較し、その値の小さい方が妥当な文
字並びと推定し、文字の切り出しを行なう。つまり、P1
≦P2の場合は位置l1で、P1>P2の場合は位置l2でそれぞ
れ文字の切り出しを行なう。この場合の例を第3B図に示
す。
条件(5)について この場合は、半角サイズの文字は混在していないと仮
定して、全角サイズの文字が2文字並んでいると推定
し、文字パターンの長さLの中心位置(L/2)で文字の
切り出しを行なう(−5)。この場合の例を第3C図に
示す。
条件(6)について この場合は、文字並びの組み合わせが次の2通りある
と仮定し、このうちどちらが妥当かを推定する。つま
り、全角サイズの文字2文字と半角サイズ以下の文字の
順か、半角サイズ以下の文字と全角サイズの文字の順か
を推定する(−6)。まず、文字パターン(長さL)
の前からSの距離の位置l11の近傍Z4の投影データの最
小値P11と、前から2×Sの距離の位置l12の近傍Z5の投
影データの最小値P12を求め、その平均値P1を演算す
る。次に、文字パターンの後からSの距離の位置l21の
近傍Z6の投影データの最小値P21と、後から2×Sの距
離(前からL−2×Sの距離)の位置l22の近傍Z7の投
影データの最小値P22を求め、その平均値P2を演算す
る。そして、P1とP2を比較し、その値の小さい方を妥当
な文字並びと推定し、文字の切り出しを行なう。つま
り、P≦P2の場合は位置l11とl12で、P1>P2の場合は位
置l21とl22でそれぞれ文字の切出しを行なう。この場合
の例を第3D図に示す。
条件(7)について この場合は、半角サイズの文字は混在しておらず、文
字並びの組み合わせが次の2通りあると仮定し、このう
ちどちらが妥当かを推定する。つまり、全角サイズの文
字N文字か、全角サイズの文字(N+1)文字かを推定
する(−7)。ここでN=[L/S]である。まず、文
字パターン(長さL)をN等分する位置l11(=L/N),l
12(2×L/N),l13(3×L/N),……l1(N−1)(=
(N−1)×L/N)の各位置の近傍Zの投影データの最
小値P11,P12,P13,……P1(N−1)を求め、その平均値
を演算する。
P1={P11+P12+P13……+P1(N−1)}/(N−1) 次に、文字パターンを(N+1)等分する位置l21
(=L/(N+1)),l22(=2×L/(N+1)),l23
(=3×L/(N+1))……l2N(=N×L/(N+
1))の各位置の近傍Z′の投影データの最小値P21,P2
2,P23,……P2Nを求め、その平均値を演算する。
P2={P21+P22+P23……+P2N}/N そして、P1とP2を比較し、その値の小さい方が妥当な
文字並びと推定し、文字の切り出しを行なう。つまり、
P1≦P2の場合はN等分する位置位置l11,l12,l13,……l1
(N−1)で、P1>P2の場合は(N+1)等分する位置
l21,l22,l23,……l2Nでそれぞれ文字の切出しを行な
う。この場合の例を第3E図に示す。
条件(8)について この場合は、接触文字が多すぎる(この実施例では、
全角サイズの文字が11文字以上)場合であり、切出し不
能として以下の処理を行なう。分割数N(=[L/S])
を演算し、文字パターンの長さLをN等分する。そし
て、切出し不能として、各文字にリジェクトフラグをセ
ットする(−8)。
〔発明の効果〕
この発明によれば、文字サイズに近い文字ピッチで印
字された日本語文書や、複写を繰り返した日本語文書に
おいて発生する接触文字について、接触した文字パター
ンの長さLと計測した標準文字サイズSとから、文字並
びの組み合わせを作成して妥当な組み合わせを推定する
ようにしたので、それぞれの文字を精度良く切り出すこ
とが可能となる利点が得られる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すフローチャート、第2A
図ないし第2C図はいずれも文字列に対応する投影値の例
を説明するための説明図、第3A図ないし第3E図はこの発
明による切出し方法を具体的に説明するための説明図、
第4図は切出し方法の従来例を説明するための説明図で
ある。 符号説明 S……標準文字サイズ、Z,Z′Z1〜Z7……切出し位置。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭60−132281(JP,A) 特開 昭61−72373(JP,A) 特開 昭62−169286(JP,A) 特開 昭63−208990(JP,A) 特開 昭58−14281(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文書画像の複数のブロックに分割されたブ
    ロック毎の投影データから、文字行または文字列を抽出
    して標準文字サイズを決定した後、 前記文字行または文字列の投影データをもとに連続する
    文字パターンを抽出し、その連続する文字パターンの長
    さを、半角サイズの文字,全角サイズの文字,句読点等
    がどのように並んでいるかを示す文字並びの組み合わせ
    条件と比較して文字並びの組み合わせ条件の中から妥当
    な組み合わせを推定し、その文字並びの組み合わせに基
    づいて投影データから文字境界度を求め、この文字境界
    度に基づいて文字を切り出すことを特徴とする日本語文
    書の接触文字の切出し方法。
JP1269059A 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法 Expired - Lifetime JP2730996B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1269059A JP2730996B2 (ja) 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1269059A JP2730996B2 (ja) 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法

Publications (2)

Publication Number Publication Date
JPH03131995A JPH03131995A (ja) 1991-06-05
JP2730996B2 true JP2730996B2 (ja) 1998-03-25

Family

ID=17467089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1269059A Expired - Lifetime JP2730996B2 (ja) 1989-10-18 1989-10-18 日本語文書の接触文字の切出し方法

Country Status (1)

Country Link
JP (1) JP2730996B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60132281A (ja) * 1983-12-20 1985-07-15 Nec Corp 文字分離装置
JPS6172373A (ja) * 1984-09-17 1986-04-14 Fujitsu Ltd 認識装置
JPS62169286A (ja) * 1986-01-22 1987-07-25 Toshiba Corp 文字切出方式
JPS63208990A (ja) * 1987-02-26 1988-08-30 Mitsubishi Electric Corp 文字パタ−ン切り出し装置

Also Published As

Publication number Publication date
JPH03131995A (ja) 1991-06-05

Similar Documents

Publication Publication Date Title
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
US7054485B2 (en) Image processing method, apparatus and system
US20020041713A1 (en) Document search and retrieval apparatus, recording medium and program
JPH0634256B2 (ja) 接触文字切出し方法
JP2730996B2 (ja) 日本語文書の接触文字の切出し方法
JP2915175B2 (ja) 単語間スペース検出方法
CN110298350B (zh) 一种高效的印刷体维吾尔文单词分割算法
JP2569103B2 (ja) 文字検出方法
JP2728086B2 (ja) 文字切り出し方法
JP3998439B2 (ja) 画像処理装置、画像処理方法およびこれらの方法をコンピュータに実行させるプログラム
JP2995818B2 (ja) 文字切り出し方法
JP3157530B2 (ja) 文字切り出し方法
JP2520174B2 (ja) 文字自動抽出装置
JP3093397B2 (ja) 文字認識方法
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JPH05242299A (ja) 文字認識装置
JPH02230484A (ja) 文字認識装置
CN115731250A (zh) 文本分割方法、装置、设备及存储介质
JP3943925B2 (ja) 文書ファイルへの電子透かしの埋め込み方法と埋め込み装置
JP2844728B2 (ja) 文書読取装置
JP2728085B2 (ja) 文字切り出し方法
JP3243389B2 (ja) 文書識別方法
JPS62169287A (ja) 記載文字形態判別方式