JPH04353989A - 単語切り出し方式 - Google Patents

単語切り出し方式

Info

Publication number
JPH04353989A
JPH04353989A JP3127911A JP12791191A JPH04353989A JP H04353989 A JPH04353989 A JP H04353989A JP 3127911 A JP3127911 A JP 3127911A JP 12791191 A JP12791191 A JP 12791191A JP H04353989 A JPH04353989 A JP H04353989A
Authority
JP
Japan
Prior art keywords
pitch
word
document
threshold
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3127911A
Other languages
English (en)
Inventor
Hideaki Tanaka
秀明 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP3127911A priority Critical patent/JPH04353989A/ja
Publication of JPH04353989A publication Critical patent/JPH04353989A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は欧文を対象とした光学
式文字読取装置(OCR)の単語切り出し方式に関する
【0002】
【従来の技術】一般的に、欧文を対象としたOCRでの
単語切り出し方式は、特開昭63−158678号公報
の「単語間スペース検出方法」に記載されているように
、文字間スペースヒストグラムから切り出し用のしきい
値を抽出する方式を採用している。この方式は汎用性が
高く、プロポーショナルピッチで印字された文書の単語
切り出しが確実に行える。
【0003】
【発明が解決しようとする課題】しかしながら上記の従
来の単語切り出し方式は、プロポーショナルピッチの文
書には有効であるものの、定ピッチ文書に対して十分で
はなかった。すなわち、定ピッチ文書において、例えば
I,l,i,1のように横幅の小さい文字が並んでいる
場合に誤切り出しを生じることがあった。この原因は、
定ピッチ文書において横幅の小さい文字がある場合に、
隣の文字とのスペース間隔が大きくなってしまい、従来
の単語切り出し方式では、この間隔を単語間間隔と判定
して誤切り出しを行うためである。
【0004】この発明は以上の事情を考慮してなされた
ものであり、上記した定ピッチ文書に対する問題点を解
決するため、行抽出,文字切り出し終了後、まず定ピッ
チの判定をおこない、定ピッチと判定された場合はピッ
チを利用した定ピッチ用単語切り出しを行い、また、プ
ロポーショナルピッチと判定された場合は、従来法によ
る単語切り出しを行うことにより上記問題点を解決する
単語切り出し方式を提供するものである。
【0005】
【課題を解決するための手段及び作用】この発明は、欧
文を対象とする光学式文字読取装置の単語切り出し方式
において、1行分の画像データ抽出、文字切り出し後、
スペースの出現頻度を表すヒストグラムより求めた単語
間しきい値により、粗い単語切り出しを行い、この粗い
単語切り出し結果から決定する全文字間より、文字の中
心間距離を示すピッチのヒストグラムを求め、このピッ
チヒストグラムの分散、平均に基づいて入力文書が定ピ
ッチであるかプロポーショナルピッチであるかを判定し
、判定結果が定ピッチ文書の場合に、定ピッチ用の単語
切り出ししきい値を前記ピッチヒストグラムの平均をも
とに決定するとともに、このしきい値をもとに単語切り
出し処理を行い、判定結果がプロポーショナルピッチ文
書の場合に、前記単語間しきい値をもとに単語切り出し
処理を行うことを特徴とした単語切り出し方式である。
【0006】
【実施例】以下図に示す実施例に基づいてこの発明を詳
述する。なお、これによってこの発明は限定されるもの
ではない。図1および図2はこの発明に用いる光学式文
字読取装置(以下OCRと略す)の概略ブロック図であ
る。両図において、1は文字を読み取って画像信号に変
換するイメージスキャナである。2はこのイメージスキ
ャナ1から出力される画像信号を処理する認識処理部と
しての本体である。認識処理部はスペースヒストグラム
作成部2aと、粗単語間しきい値検出部2bと、粗単語
切り出し部2cと、ピッチヒストグラム作成部2dと、
平均・分散計算部2eと、定ピッチ判定部2fと、単語
切り出ししきい値設定部2gとを備え、この発明におけ
る単語切り出し処理を実行する。3はこの本体2へ制御
信号などを入力するための入力デバイスである。4は本
体2にて読み取られた文字などを表示するための出力デ
バイスである。
【0007】さらに上記本体2は、認識処理部を制御し
て画像信号を演算処理するCPU5と、イメージスキャ
ナ1から出力される画像信号を格納する画像メモリ6と
、この画像メモリ6からCPU5によって抽出された1
ライン分の画像データを格納するライン画像メモリ7と
、このライン画像メモリ7内のデータについて単語切り
出し処理に使用される各種バッファとしてのしきい値バ
ッファ8a,文字座標バッファ8b,定ピッチフラグ8
c,分散バッファ8d,平均バッファ8e,ピッチヒス
トグラムバッファ8fおよびスペースヒストグラムバッ
ファ8gとから主として構成される。
【0008】次に上記認識処理部の処理を図3に示すフ
ローチャートに従って説明する。なお、説明に際しては
図4に示すヒストグラムを参照する。図3に示す定ピッ
チ推定および単語切り出ししきい値処理のフローチャー
トにおいて、 (1) まず行抽出,全文字切り出し終了後、全文字間
(正確に言えば単語間を含んでいる)スペースヒストグ
ラムを作成する(ステップ20)。 (2) 従来法と同様に、このヒストグラムを2つのグ
ループに分割する最適しきい値(スペースビット数)を
求め、これを領域全体での単語間しきい値αとする(ス
テップ21)。図4はステップ20で求めた全文字間ヒ
ストグラムと、ステップ21で求めた単語間しきい値α
とを示す一例である。
【0009】(3) 次にこのしきい値αをもとに、全
行の全文字に対して粗い単語切り出しを行う(ステップ
22)。上記ステップ20,21および22は従来の処
理方法と同様である。従って入力が定ピッチ文書の場合
、横幅が小さい文字間では誤切り出しとなっている。し
かし、この誤切り出しは以下に説明する処理を行うこと
によって何ら不具合となるものではない。
【0010】(4) ステップ22にて文字間と判定さ
れた全ての隣会う2文字間で、文字の中心間距離(ピッ
チ)を求め、ピッチヒストグラムを作成する(ステップ
23)。 (5) そのピッチヒストグラムの平均値μ・分散σ2
 を計算する(ステップ24)。 (6) 平均値により分散を正規化する。σ2’=σ2
÷μ(ステップ25)。 (7) この正規化された分散σ2’と、しきい値βと
の大小比較を行い、小の場合(σ2’<β)は定ピッチ
文書と判定して処理(7)(8)(9)へ分岐する。ま
た、大の場合(σ2’≧β)はプロポーショナルピッチ
文書と判定して処理(10)へ分岐する(ステップ26
)。このしきい値βは実験等により随意に決定できる定
数であり、この実施例においては0.3である。
【0011】定ピッチ文書の場合 (8) ピッチヒストグラムの平均値μを文字ピッチと
する(ステップ27)。 (9) 文字ピッチμと定数δとにより、単語切り出し
しきい値γを求める。γ=μ×δ(ステップ28)。定
数δは実験等により随意に決定できる定数であり、この
実施例においては0.8である。 (10) 定ピッチフラグをON“1”にし、処理を終
了する(ステップ29)。
【0012】プロポーショナルピッチ文書の場合(11
) 定ピッチフラグをOFF“0”にし、処理を終了す
る(ステップ30)。このようにして定ピッチ文書であ
るかプロポーショナル文書であるかの推定がなされる。 定ピッチ文書と推定された場合(定ピッチフラグONの
場合)、各行の単語切り出し処理では上記切り出ししき
い値γと文字間スペースビット数との大小比較を行い、
大の場合は単語間スペースとして単語切り出しを行なう
。プロポーショナルピッチと推定された場合(定ピッチ
フラグOFFの場合)、従来法により単語切り出しを行
なう。
【0013】
【発明の効果】この発明によれば、定ピッチ、プロポー
ショナルピッチのどんな文書にも対しても、自動的に最
適な単語切り出しを行うことができるため、OCRにお
ける認識率を向上させることができる。また、オペレー
タに対しては操作上の負担を軽減させることができる。
【図面の簡単な説明】
【図1】この発明の光学式文字読取装置のブロック図で
ある。
【図2】この発明における定ピッチ推定およびしきい値
検出処理を示すブロック図である。
【図3】実施例における定ピッチ推定および単語切り出
ししきい値抽出処理を説明するフローチャートである。
【図4】実施例における全文字間ヒストグラムと単語間
しきい値を示す図表である。
【符号の説明】
1  イメージスキャナ 2  本体 3  入力デバイス 4  出力デバイス 5  CPU 6  画像メモリ 7  ライン画像メモリ 8a  しきい値バッファ 8b  文字座標バッファ 8c  定ピッチフラグ 8d  分散バッファ 8e  平均バッファ 8f  ピッチヒストグラムバッファ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  欧文を対象とする光学式文字読取装置
    の単語切り出し方式において、1行分の画像データ抽出
    、文字切り出し後、スペースの出現頻度を表すヒストグ
    ラムより求めた単語間しきい値により、粗い単語切り出
    しを行い、この粗い単語切り出し結果から決定する全文
    字間より、文字の中心間距離を示すピッチのヒストグラ
    ムを求め、このピッチヒストグラムの分散、平均に基づ
    いて入力文書が定ピッチであるかプロポーショナルピッ
    チであるかを判定し、判定結果が定ピッチ文書の場合に
    、定ピッチ用の単語切り出ししきい値を前記ピッチヒス
    トグラムの平均をもとに決定するとともに、このしきい
    値をもとに単語切り出し処理を行い、判定結果がプロポ
    ーショナルピッチ文書の場合に、前記単語間しきい値を
    もとに単語切り出し処理を行うことを特徴とした単語切
    り出し方式。
JP3127911A 1991-05-30 1991-05-30 単語切り出し方式 Pending JPH04353989A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3127911A JPH04353989A (ja) 1991-05-30 1991-05-30 単語切り出し方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3127911A JPH04353989A (ja) 1991-05-30 1991-05-30 単語切り出し方式

Publications (1)

Publication Number Publication Date
JPH04353989A true JPH04353989A (ja) 1992-12-08

Family

ID=14971700

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3127911A Pending JPH04353989A (ja) 1991-05-30 1991-05-30 単語切り出し方式

Country Status (1)

Country Link
JP (1) JPH04353989A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033416A (ja) * 2011-08-03 2013-02-14 Sharp Corp 文字認識装置、文字認識方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013033416A (ja) * 2011-08-03 2013-02-14 Sharp Corp 文字認識装置、文字認識方法及びプログラム
CN102982328A (zh) * 2011-08-03 2013-03-20 夏普株式会社 字符识别装置和字符识别方法
US8861862B2 (en) 2011-08-03 2014-10-14 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program

Similar Documents

Publication Publication Date Title
JPH04353989A (ja) 単語切り出し方式
JP3090342B2 (ja) 文字列方向判別装置
JPH0410087A (ja) 基本ライン抽出方法
JPS62133585A (ja) 単語切出方式
JPH07230525A (ja) 罫線認識方法及び表処理方法
JP2569103B2 (ja) 文字検出方法
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JP3220226B2 (ja) 文字列方向判別方法
JPH05174185A (ja) 日本語文字認識装置
JPH10171924A (ja) 文字認識装置
JP3190794B2 (ja) 文字切り出し装置
JP2753094B2 (ja) 単語切り出し装置
JPS62169287A (ja) 記載文字形態判別方式
JP3000480B2 (ja) 文字領域区切り検出方法
JPS63101983A (ja) 文字列抽出方式
JP2520174B2 (ja) 文字自動抽出装置
CA2186611A1 (en) Automatic determination of landscape scan in binary images
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP2000048191A (ja) 画像処理方法及び画像処理プログラムを記録した媒体
JPH0528260A (ja) 輪郭ベクトル抽出方式
JPH02230484A (ja) 文字認識装置
JPH05189604A (ja) 光学的文字読取装置
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JPH01265378A (ja) 欧文文字認識方式