JPH05159098A - 文字間の空白認識方法 - Google Patents
文字間の空白認識方法Info
- Publication number
- JPH05159098A JPH05159098A JP3349267A JP34926791A JPH05159098A JP H05159098 A JPH05159098 A JP H05159098A JP 3349267 A JP3349267 A JP 3349267A JP 34926791 A JP34926791 A JP 34926791A JP H05159098 A JPH05159098 A JP H05159098A
- Authority
- JP
- Japan
- Prior art keywords
- characters
- character
- blank
- space
- average value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
Abstract
(57)【要約】
【目的】 イメージスキャナで入力された文書の文字間
や単語間の大きさに左右されないで正確に空白を認識す
る。 【構成】 イメージスキャナ等の光学的読取り装置で入
力された文書の文字列の文字間の平均値を算出し、前記
平均値の定数倍よりも小さい文字間の平均値を再び求め
ることによって標準文字間隔を算出し、前記文字間が前
記標準文字間隔の定数倍より大きいとき、その文字間は
空白であると認識する方法。
や単語間の大きさに左右されないで正確に空白を認識す
る。 【構成】 イメージスキャナ等の光学的読取り装置で入
力された文書の文字列の文字間の平均値を算出し、前記
平均値の定数倍よりも小さい文字間の平均値を再び求め
ることによって標準文字間隔を算出し、前記文字間が前
記標準文字間隔の定数倍より大きいとき、その文字間は
空白であると認識する方法。
Description
【0001】
【産業上の利用分野】本発明は、例えば文書に印刷され
た文字を光学的に読取り、その文字間の大きさに基づい
て正確に文字間の空白を認識する方法に関する。
た文字を光学的に読取り、その文字間の大きさに基づい
て正確に文字間の空白を認識する方法に関する。
【0002】
【従来の技術】図1に示すような英文の各文字間のう
ち、単語間による文字間は空白と称されている。従来、
この空白を認識するための文字間の空白認識方法は、光
学的に入力された文書の文字の切り出しが行なわれた
後、標準的な文字の大きさ(標準文字サイズ)を算出
し、入力された文字間(文字の間隔)が標準文字サイズ
の定数倍より大きいとき、その文字間は空白であると認
識されていた。また、文字間が行幅の定数倍大きいと
き、その文字間は空白であると認識されていた。
ち、単語間による文字間は空白と称されている。従来、
この空白を認識するための文字間の空白認識方法は、光
学的に入力された文書の文字の切り出しが行なわれた
後、標準的な文字の大きさ(標準文字サイズ)を算出
し、入力された文字間(文字の間隔)が標準文字サイズ
の定数倍より大きいとき、その文字間は空白であると認
識されていた。また、文字間が行幅の定数倍大きいと
き、その文字間は空白であると認識されていた。
【0003】
【発明が解決しようとする課題】以上のように、従来の
文字間の空白認識方法においては、標準的な文字の大き
さや文字間の行幅の大きさに基づいて空白を認識してい
たので、文字間や単語間が著しく詰まった文書や、文字
間や単語間が著しく広がった文書が入力された場合、空
白を誤認識する等の問題を有している。
文字間の空白認識方法においては、標準的な文字の大き
さや文字間の行幅の大きさに基づいて空白を認識してい
たので、文字間や単語間が著しく詰まった文書や、文字
間や単語間が著しく広がった文書が入力された場合、空
白を誤認識する等の問題を有している。
【0004】本発明は以上の点を考慮してなされたもの
で、文字間や単語間の大きさに左右されないで正確に空
白を認識することができる文字間の空白認識方法を提供
することを目的とする。
で、文字間や単語間の大きさに左右されないで正確に空
白を認識することができる文字間の空白認識方法を提供
することを目的とする。
【0005】
【課題を解決するための手段】本発明の文字間の空白認
識方法は、光学的に文字間の空白を認識する方法におい
て、入力された文字列の文字間の平均値を算出し、前記
平均値から定まる閾値よりも小さい文字間の平均値を再
び求めることによって標準文字間隔を算出し、前記文字
間が前記標準文字間隔から定まる閾値より大きいときそ
の文字間は空白であると認識することを特徴としてい
る。
識方法は、光学的に文字間の空白を認識する方法におい
て、入力された文字列の文字間の平均値を算出し、前記
平均値から定まる閾値よりも小さい文字間の平均値を再
び求めることによって標準文字間隔を算出し、前記文字
間が前記標準文字間隔から定まる閾値より大きいときそ
の文字間は空白であると認識することを特徴としてい
る。
【0006】
【作用】上記方法の文字間の空白認識方法は、入力され
た文字列の文字間の平均値を算出し、前記平均値から定
まる閾値よりも小さい文字間の平均値を再び求めること
によって標準文字間隔を算出し、この文字間が標準文字
間隔から定まる閾値と比較することによって空白を認識
している。従って、文字間や単語間の大きさに左右され
ないで正確に空白を認識することができる。
た文字列の文字間の平均値を算出し、前記平均値から定
まる閾値よりも小さい文字間の平均値を再び求めること
によって標準文字間隔を算出し、この文字間が標準文字
間隔から定まる閾値と比較することによって空白を認識
している。従って、文字間や単語間の大きさに左右され
ないで正確に空白を認識することができる。
【0007】
【実施例】以下、図1乃至図3を参照して本発明の実施
例を説明する。図1において、画像入力装置1は、例え
ばイメージスキャナを備え、文字が記載された文書を光
学的に読取る。画像保存用RAM2は画像入力装置1に
よって読取られた文書(イメージ)を記憶する。切り出
しプログラムROM3はこの文書から1文字を切り出す
手順を示すプログラムを記憶している。認識プログラム
ROM4は切り出された各々の文字を認識する手順を示
すプログラムを記憶している。空白挿入プログラムRO
M6は空白であると認識された文字間に空白を挿入する
手順を示すプログラムを記憶している。結果出力装置5
は1行の空白認識結果を出力する。CPU(中央演算処
理装置)7は上記各装置及びRAMやROMを制御し、
文字間等の測定データを処理する。
例を説明する。図1において、画像入力装置1は、例え
ばイメージスキャナを備え、文字が記載された文書を光
学的に読取る。画像保存用RAM2は画像入力装置1に
よって読取られた文書(イメージ)を記憶する。切り出
しプログラムROM3はこの文書から1文字を切り出す
手順を示すプログラムを記憶している。認識プログラム
ROM4は切り出された各々の文字を認識する手順を示
すプログラムを記憶している。空白挿入プログラムRO
M6は空白であると認識された文字間に空白を挿入する
手順を示すプログラムを記憶している。結果出力装置5
は1行の空白認識結果を出力する。CPU(中央演算処
理装置)7は上記各装置及びRAMやROMを制御し、
文字間等の測定データを処理する。
【0008】次に、以上の構成に基づいて、図2及び図
3を参照しながらその動作を説明する。画像入力装置1
は、文字が記載されている文書をイメージスキャナ等で
光学的に読取ると、CPU7からの命令によっては読取
ったイメージデータをBUS8を介して画像保存用RA
M2に記憶する(ステップS1)。次に、CPU7は、
切り出しプログラムROM3から切り出しプログラムを
読出し、このプログラムを実行する(ステップS2)。
これによって、文書画像の中から1文字が切り出され
る。CPU7は切り出された文字の認識を行う(ステッ
プS3)。これらのステップは全ての文字に対して繰り
返し実行される。次に、ステップ3で認識された文字の
位置を測定し、近いものをグルーピングして1行を認識
する(ステップS4)。
3を参照しながらその動作を説明する。画像入力装置1
は、文字が記載されている文書をイメージスキャナ等で
光学的に読取ると、CPU7からの命令によっては読取
ったイメージデータをBUS8を介して画像保存用RA
M2に記憶する(ステップS1)。次に、CPU7は、
切り出しプログラムROM3から切り出しプログラムを
読出し、このプログラムを実行する(ステップS2)。
これによって、文書画像の中から1文字が切り出され
る。CPU7は切り出された文字の認識を行う(ステッ
プS3)。これらのステップは全ての文字に対して繰り
返し実行される。次に、ステップ3で認識された文字の
位置を測定し、近いものをグルーピングして1行を認識
する(ステップS4)。
【0009】認識された1行に対して、標準文字間の推
定がなされ(ステップS5)、この標準文字間の大きさ
に基づいて空白の認識がなされる(ステップS6)。そ
の後、各行に対して同様に空白認識が繰り返されること
により、全ての行について空白の認識が行なわれる。そ
して、その結果が出力される(ステップS7)。
定がなされ(ステップS5)、この標準文字間の大きさ
に基づいて空白の認識がなされる(ステップS6)。そ
の後、各行に対して同様に空白認識が繰り返されること
により、全ての行について空白の認識が行なわれる。そ
して、その結果が出力される(ステップS7)。
【0010】次に、ステップS5及びステップS6の具
体的動作を図3に基づいて説明する。まず、CPU7は
認識プログラムROM4から読み出した認識プログラム
に基づいて、1行分の全ての文字間を測定する(ステッ
プS11)。文字間は原則として、左の文字の外接矩形
の右端から右の文字の外接矩形の左端までの距離(単位
は画素)とするが、この距離が1より小さいときはその
文字間を1とする。
体的動作を図3に基づいて説明する。まず、CPU7は
認識プログラムROM4から読み出した認識プログラム
に基づいて、1行分の全ての文字間を測定する(ステッ
プS11)。文字間は原則として、左の文字の外接矩形
の右端から右の文字の外接矩形の左端までの距離(単位
は画素)とするが、この距離が1より小さいときはその
文字間を1とする。
【0011】次に文字間の行幅の定数倍(例えば2.
0)以内のものについて平均値を算出する(ステップS
12)。ここで、行幅の定数倍以内の文字間のみの平均
値を算出するようにしたのは、ノイズなどの影響で極端
に文字間が広くなったものを除くためである。そして、
文字間の平均値の定数倍(例えば1.5)以内のものに
ついて再び平均値を算出し、これを標準文字間隔とする
(ステップS13)。ここで、文字間の平均値の定数倍
以内の文字間のみの平均値を算出するようにしたのは、
単語間を除くためである。
0)以内のものについて平均値を算出する(ステップS
12)。ここで、行幅の定数倍以内の文字間のみの平均
値を算出するようにしたのは、ノイズなどの影響で極端
に文字間が広くなったものを除くためである。そして、
文字間の平均値の定数倍(例えば1.5)以内のものに
ついて再び平均値を算出し、これを標準文字間隔とする
(ステップS13)。ここで、文字間の平均値の定数倍
以内の文字間のみの平均値を算出するようにしたのは、
単語間を除くためである。
【0012】全ての文字間は、この標準文字間と比較さ
れ(ステップS14)、文字間が標準文字間の定数倍
(例えば2.8)より大きいとき、後述する空白挿入ス
テップS15を実行し、小さいとき何の処理も行なわな
い。空白挿入ステップS15は空白挿入プログラムRO
M6のプログラムに基づいて空白を挿入する。
れ(ステップS14)、文字間が標準文字間の定数倍
(例えば2.8)より大きいとき、後述する空白挿入ス
テップS15を実行し、小さいとき何の処理も行なわな
い。空白挿入ステップS15は空白挿入プログラムRO
M6のプログラムに基づいて空白を挿入する。
【0013】
【発明の効果】以上のように、本発明の文字間の空白認
識方法は、入力された文字列の文字間の平均値を算出
し、前記平均値から定まる閾値よりも小さい文字間の平
均値を再び求めることによって標準文字間隔を算出し、
この文字間が標準文字間隔から定まる閾値と比較するこ
とによって空白を認識しているので、文字間や単語間の
大きさに左右されないで正確に空白を認識することがで
きる等の効果を奏する。
識方法は、入力された文字列の文字間の平均値を算出
し、前記平均値から定まる閾値よりも小さい文字間の平
均値を再び求めることによって標準文字間隔を算出し、
この文字間が標準文字間隔から定まる閾値と比較するこ
とによって空白を認識しているので、文字間や単語間の
大きさに左右されないで正確に空白を認識することがで
きる等の効果を奏する。
【図1】本発明の文字間の空白認識方法の一実施例の構
成を示すブロック図である。
成を示すブロック図である。
【図2】本発明の文字間の空白認識方法の一実施例の動
作を説明するフローチャートである。
作を説明するフローチャートである。
【図3】本発明の文字間の空白認識方法の一実施例の動
作を説明するフローチャートである。
作を説明するフローチャートである。
【図4】一般的な文字間の構成を説明する文字構成図で
ある。
ある。
1 画像入力装置 2 画像保存用RAM 3 切り出しプログラムROM 4 認識プログラムROM 5 結果出力装置 6 空白挿入プログラムROM 7 CPU
Claims (1)
- 【請求項1】 光学的に文字間の空白を認識する方法に
おいて、入力された文字列の文字間の平均値を算出し、
前記平均値から定まる閾値よりも小さい文字間の平均値
を再び求めることによって標準文字間隔を算出し、前記
文字間が前記標準文字間隔から定まる閾値より大きいと
きその文字間は空白であると認識することを特徴とする
文字間の空白認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3349267A JPH05159098A (ja) | 1991-12-06 | 1991-12-06 | 文字間の空白認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP3349267A JPH05159098A (ja) | 1991-12-06 | 1991-12-06 | 文字間の空白認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05159098A true JPH05159098A (ja) | 1993-06-25 |
Family
ID=18402612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP3349267A Pending JPH05159098A (ja) | 1991-12-06 | 1991-12-06 | 文字間の空白認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH05159098A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3460719A1 (en) * | 2017-04-21 | 2019-03-27 | DTP spólka z ograniczona odpowiedzialnoscia | The device for identifying wire markings and the method for identifying wire markings |
JP2019125353A (ja) * | 2017-12-29 | 2019-07-25 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 電子文書中の文字列塊を推測する方法 |
-
1991
- 1991-12-06 JP JP3349267A patent/JPH05159098A/ja active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3460719A1 (en) * | 2017-04-21 | 2019-03-27 | DTP spólka z ograniczona odpowiedzialnoscia | The device for identifying wire markings and the method for identifying wire markings |
EP4102471A1 (en) * | 2017-04-21 | 2022-12-14 | DTP spólka z ograniczona odpowiedzialnoscia | Method for identifying wire markings |
JP2019125353A (ja) * | 2017-12-29 | 2019-07-25 | コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド | 電子文書中の文字列塊を推測する方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20110268360A1 (en) | Word recognition of text undergoing an ocr process | |
JPH0713995A (ja) | 自動テキスト特徴決定装置 | |
CN111814673A (zh) | 一种修正文本检测边界框的方法、装置、设备及存储介质 | |
JPH05159098A (ja) | 文字間の空白認識方法 | |
JP2915175B2 (ja) | 単語間スペース検出方法 | |
JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
JPS62133585A (ja) | 単語切出方式 | |
JPH0728935A (ja) | 文書画像処理装置 | |
JPH07230525A (ja) | 罫線認識方法及び表処理方法 | |
JP3537570B2 (ja) | 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法 | |
JP2859307B2 (ja) | 文字切出し装置 | |
JP3121091B2 (ja) | 文字認識に於ける文字画像の正規化方法 | |
JP3345469B2 (ja) | 単語間隔度演算方法、単語間隔度演算装置、及び文字読取り方法、文字読取り装置 | |
JP3071479B2 (ja) | 行間スペース検出方法 | |
JPH02125389A (ja) | スペース検出方法 | |
JPH0950488A (ja) | 異サイズ混在文字列の読取り方法 | |
JPH10187887A (ja) | 書体識別装置および書体識別方法および情報記録媒体 | |
JP3476872B2 (ja) | 文字認識装置 | |
JPH03240186A (ja) | 文字切出し装置 | |
JPH05210759A (ja) | 文字認識装置 | |
JPH05189604A (ja) | 光学的文字読取装置 | |
JPH031286A (ja) | 文字切出し装置 | |
JPH01171080A (ja) | 誤り自動訂正文字認識装置 | |
JPH04252389A (ja) | 文字認識装置及び文字認識方法 | |
JPH0589283A (ja) | 文字サイズ抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19980710 |