JPH01300385A - 空白文字の切出し方法 - Google Patents
空白文字の切出し方法Info
- Publication number
- JPH01300385A JPH01300385A JP63130143A JP13014388A JPH01300385A JP H01300385 A JPH01300385 A JP H01300385A JP 63130143 A JP63130143 A JP 63130143A JP 13014388 A JP13014388 A JP 13014388A JP H01300385 A JPH01300385 A JP H01300385A
- Authority
- JP
- Japan
- Prior art keywords
- character
- characters
- line
- blank
- null
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 14
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000007598 dipping method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、文字等を読み取る文字fig識装置におい
て、文書l1iiil像から文字を切り出す文字切出し
方法、特に空白部分を文字として切り出すようにした文
字切出し方法に関する。
て、文書l1iiil像から文字を切り出す文字切出し
方法、特に空白部分を文字として切り出すようにした文
字切出し方法に関する。
この種の文字切出し方法として、出願人は先に特願昭6
2−271951号を提案している。
2−271951号を提案している。
これは、me処理をして文書画像から文字行または文字
列を切り出し、この切り田された文字行または文字列と
直角な方向にその投影をとった後、文字の存在部分を矩
形領域としてそれぞれ切り出し、これらを予め定められ
ている標準文字サイズをもとに統合9分解処理をして個
々の文字を切り出すものである。
列を切り出し、この切り田された文字行または文字列と
直角な方向にその投影をとった後、文字の存在部分を矩
形領域としてそれぞれ切り出し、これらを予め定められ
ている標準文字サイズをもとに統合9分解処理をして個
々の文字を切り出すものである。
しかしながら、この方法では現実に書かれている文字し
か切出しの対象としていないので、例え[1 ば段落の最初の空白9行中の文節の区切りの空間などが
切り出せず、その結果として空白部分がなくなってしま
うため文章構成が原文と異なったり、文章が読みづらく
なってしまう、と云う問題かある。
か切出しの対象としていないので、例え[1 ば段落の最初の空白9行中の文節の区切りの空間などが
切り出せず、その結果として空白部分がなくなってしま
うため文章構成が原文と異なったり、文章が読みづらく
なってしまう、と云う問題かある。
したがって、この発明は文章中に存在する空白部分を空
間文字として切り出すことにより、原文に忠実な文字切
出しを可能にすることを目的とする。
間文字として切り出すことにより、原文に忠実な文字切
出しを可能にすることを目的とする。
文書を11!i像処理して文字行または文字列を切り出
し、この切り出された文字行または文字列から文字の存
在する部分を切り出して文字を切り出す処理をした後、
該処理にて決定されるかまたは予め決められている[4
文字サイズをもとに、文字の存在していない空白部分子
c1つまたは複数の空白文字として切り出す。
し、この切り出された文字行または文字列から文字の存
在する部分を切り出して文字を切り出す処理をした後、
該処理にて決定されるかまたは予め決められている[4
文字サイズをもとに、文字の存在していない空白部分子
c1つまたは複数の空白文字として切り出す。
文章中より文字を切り出す際に、空白部分の大きさによ
りこれを1つまたは?jI故の空白文字として切り出す
ことにより、切出し結果の文の構成を変化させないよう
にする。
りこれを1つまたは?jI故の空白文字として切り出す
ことにより、切出し結果の文の構成を変化させないよう
にする。
第1図にこの発明のフローチャートを不す。
■の部分が、特願昭62−271951号として先に提
案した文字切り出し方法(提案漬方法)とは鏝なる所で
ある。すなわち、文4i画ず象から切り出された文字行
(文字列)と直角な方向にその投影をとり、文字の存在
部分を矩杉領域(サブ文字パターン)として各々切り出
し、これらを予め定められている標準文字サイズをもと
に統合1分解処理をして個々の文字の切り出しを行うと
ころ迄が提案漬方法であり、この発明ではその後に空白
文字の切り出しを行う。
案した文字切り出し方法(提案漬方法)とは鏝なる所で
ある。すなわち、文4i画ず象から切り出された文字行
(文字列)と直角な方向にその投影をとり、文字の存在
部分を矩杉領域(サブ文字パターン)として各々切り出
し、これらを予め定められている標準文字サイズをもと
に統合1分解処理をして個々の文字の切り出しを行うと
ころ迄が提案漬方法であり、この発明ではその後に空白
文字の切り出しを行う。
いま、第2図(イ)の様な入力画像があった場合、まず
、行端から先頭の文字までの距j@DI(第2図(ロ)
参照)を求め(第1図[相]参照)、ここで次の様な判
断を行う(第1行目参照)。
、行端から先頭の文字までの距j@DI(第2図(ロ)
参照)を求め(第1図[相]参照)、ここで次の様な判
断を行う(第1行目参照)。
DI>W ・・・・・・ (
1)と−に、Wは上記統合2分解処理の結果定められる
か、または予め定められている標準文字幅(第2図(ハ
)参照)である。そして、式(llt−i%fたす場合
、1文字目に空白文字を挿入しく第1図[相]参照)D
IからWを減算しく第1図0径照)、再度同じ判断をす
る。式(1)t−満たさない場合は、次のステップ0に
移る。第2図(ロ)の第1行目の場合は、Dlから4回
だけWを減算することができ、その結果、空白文字が4
文字分挿入されることになる(第2図(ホ)の第1行目
参照)。
1)と−に、Wは上記統合2分解処理の結果定められる
か、または予め定められている標準文字幅(第2図(ハ
)参照)である。そして、式(llt−i%fたす場合
、1文字目に空白文字を挿入しく第1図[相]参照)D
IからWを減算しく第1図0径照)、再度同じ判断をす
る。式(1)t−満たさない場合は、次のステップ0に
移る。第2図(ロ)の第1行目の場合は、Dlから4回
だけWを減算することができ、その結果、空白文字が4
文字分挿入されることになる(第2図(ホ)の第1行目
参照)。
次のステップでは、隣接する2つの文字パターンに着目
(第1図0径照)し、2つの文字パターンの距離D2を
求める(第1行目参照)。こ−では、行頭から処@を進
めていくので、第2図(ロ)の場合は第1行目の「空」
と「白」の間の距mをまずD2とし、ここで次の判断を
行う(第1図[相]5照)。
(第1図0径照)し、2つの文字パターンの距離D2を
求める(第1行目参照)。こ−では、行頭から処@を進
めていくので、第2図(ロ)の場合は第1行目の「空」
と「白」の間の距mをまずD2とし、ここで次の判断を
行う(第1図[相]5照)。
D2)W ・・・・・・ (
2)(W:標準文字幅) 式(2)全満足する場合、空白文字を挿入(i1図◎参
照)した後D2よりWt−減算しく第1図0参照)、同
じ判断を繰り返す。式(2)を満足しない場合は、次の
ステップ@へ移る。1gz図(ロ)の第1行目の場合は
、D2からW’k1回だけ減算することができ、その結
果、空白文字が1文字挿入される(第2図(ホ)の第1
行目参照)。
2)(W:標準文字幅) 式(2)全満足する場合、空白文字を挿入(i1図◎参
照)した後D2よりWt−減算しく第1図0参照)、同
じ判断を繰り返す。式(2)を満足しない場合は、次の
ステップ@へ移る。1gz図(ロ)の第1行目の場合は
、D2からW’k1回だけ減算することができ、その結
果、空白文字が1文字挿入される(第2図(ホ)の第1
行目参照)。
次のステップ[相]では1行終了したかどうが判断し、
終了していなければ、次の2つの文字に着目し、同様の
処i1する。1行分終了すれば、処理は完了である。
終了していなければ、次の2つの文字に着目し、同様の
処i1する。1行分終了すれば、処理は完了である。
この様な空白文字切出しの処理を第2図(イ)の様な入
力r#像に対して行なった結果が、第2図(ホ)である
。この空白文字切出しの処理を加えた結果、第2図(ニ
)の従来の場合と異なり、文章の構成を変化させない結
果が得られる。
力r#像に対して行なった結果が、第2図(ホ)である
。この空白文字切出しの処理を加えた結果、第2図(ニ
)の従来の場合と異なり、文章の構成を変化させない結
果が得られる。
なお、縦書の場合は標準文字幅Wt−標準文字高さHと
考え、同様に処理できる。また、上記では全角の場合を
対象としたが、半角の場合も同様にして処理することが
できる。
考え、同様に処理できる。また、上記では全角の場合を
対象としたが、半角の場合も同様にして処理することが
できる。
この発明によれば、行頭あるいは行中に存在する空白部
分の大きさに応じて、・1つまたは複数の空白文字を挿
入する様にしたので、文章の構成を変化させない切出し
が可能となる。その結果、印刷文書t−0C1(l(光
学式文字読取装置f)で読取った後も、空白の挿入によ
り文字位11tを正しく復元することができる。
分の大きさに応じて、・1つまたは複数の空白文字を挿
入する様にしたので、文章の構成を変化させない切出し
が可能となる。その結果、印刷文書t−0C1(l(光
学式文字読取装置f)で読取った後も、空白の挿入によ
り文字位11tを正しく復元することができる。
第1図はこの発明の実施例を示すフローチャート、第2
図はこの発明を具体市に説明するための説明図である。 符号説明 Dl・・・・・・先頭文字の行端からの距離、D2・・
・・・・文字間の距離、H・・・・・・標準文字高さ、
W・・・・・・標準文字幅。 代理人 弁理士 並 木 昭 夫 代理人 弁理士 松 崎 清 @ 1 図
図はこの発明を具体市に説明するための説明図である。 符号説明 Dl・・・・・・先頭文字の行端からの距離、D2・・
・・・・文字間の距離、H・・・・・・標準文字高さ、
W・・・・・・標準文字幅。 代理人 弁理士 並 木 昭 夫 代理人 弁理士 松 崎 清 @ 1 図
Claims (1)
- 文書を画像処理して文字行または文字列を切り出し、こ
の切り出された文字行または文字列から文字の存在する
部分を切り出して文字を切り出す処理をした後、該処理
にて決定されるかまたは予め定められている標準文字サ
イズをもとに、文字の存在していない空白部分を1つま
たは複数の空白文字として切り出すことを特徴とする空
白文字の切出し方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63130143A JPH01300385A (ja) | 1988-05-30 | 1988-05-30 | 空白文字の切出し方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63130143A JPH01300385A (ja) | 1988-05-30 | 1988-05-30 | 空白文字の切出し方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH01300385A true JPH01300385A (ja) | 1989-12-04 |
Family
ID=15026999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63130143A Pending JPH01300385A (ja) | 1988-05-30 | 1988-05-30 | 空白文字の切出し方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH01300385A (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6226587A (ja) * | 1985-07-29 | 1987-02-04 | Toshiba Corp | 光学文字読取装置の文字フイ−ルドフリ−ピツチ処理方式 |
-
1988
- 1988-05-30 JP JP63130143A patent/JPH01300385A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6226587A (ja) * | 1985-07-29 | 1987-02-04 | Toshiba Corp | 光学文字読取装置の文字フイ−ルドフリ−ピツチ処理方式 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
EP1739574B1 (en) | Method of identifying words in an electronic document | |
JP4854491B2 (ja) | 画像処理装置及びその制御方法 | |
US20120250048A1 (en) | Image processing apparatus and image processing method | |
JP2010009509A (ja) | 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体 | |
JP5950700B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
Bagley et al. | Editing images of text | |
JPH08320914A (ja) | 表認識方法および装置 | |
JPH01300385A (ja) | 空白文字の切出し方法 | |
JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
JP3203749B2 (ja) | 文書処理装置 | |
Kopec et al. | Editing images of text | |
JPH0514952B2 (ja) | ||
JP3197441B2 (ja) | 文字認識装置 | |
JP3072126B2 (ja) | 書体を識別する方法及び装置 | |
JPH07262317A (ja) | 文書処理装置 | |
Baker | A linear grammar approach for the analysis of mathematical documents | |
Sharpe II et al. | Document understanding using layout styles of title page images | |
JP3269918B2 (ja) | 文章領域の読み順設定方法 | |
JPH04130979A (ja) | 文字画像切出し方法 | |
KR100243222B1 (ko) | 문서 인식시 삽입 페이지 제거방법 | |
JPS6327990A (ja) | 文字認識方法 | |
EP0381794A1 (en) | Method for registering image data | |
JPH0660227A (ja) | 文字認識用辞書の作成方法とその辞書を用いた文字認識方法 | |
Bagley et al. | Applications of text-image editing |