JPH04236685A - 文字間スペース認識方法 - Google Patents

文字間スペース認識方法

Info

Publication number
JPH04236685A
JPH04236685A JP3018476A JP1847691A JPH04236685A JP H04236685 A JPH04236685 A JP H04236685A JP 3018476 A JP3018476 A JP 3018476A JP 1847691 A JP1847691 A JP 1847691A JP H04236685 A JPH04236685 A JP H04236685A
Authority
JP
Japan
Prior art keywords
character
space
width
characters
spaces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3018476A
Other languages
English (en)
Other versions
JP3086264B2 (ja
Inventor
Takakuni Minewaki
隆邦 嶺脇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP03018476A priority Critical patent/JP3086264B2/ja
Publication of JPH04236685A publication Critical patent/JPH04236685A/ja
Application granted granted Critical
Publication of JP3086264B2 publication Critical patent/JP3086264B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、日本語文章を処理対象
とする文字認識装置に係り、特に、この種の文字認識装
置において、文字間のスペース(スペース文字)を全角
/半角を区別して認識する文字間スペース認識方法に関
する。
【0002】
【従来の技術】従来、英文OCR等における文字間スペ
ース(スペース文字)の認識方法は、文字の印字ピッチ
を計算し、この印字ピッチと文字間空白部の幅とを比較
することにより、文字間空白部でのスペースの有無の判
定及びスペース数の決定を行なうという方法が一般的で
あつた。
【0003】
【発明が解決しようとする課題】日本語文章の場合、全
角の漢字・ひらがなに混じって、半角の数字・英字が用
いられることが多く、それとともにスペースも全角スペ
ースと半角スペースとが混在して用いられることが多い
。このような全角・半角スペースが混在する文章の認識
においては、全角スペースと半角スペースとを区別して
認識し出力する必要がある。
【0004】しかし、従来の文字間スペース認識方法を
日本語文章に適用した場合、様々な不都合がある。すな
わち、全角の漢字、ひらがな、記号の中にも、片側に偏
在して印字される文字が存在するため、単に物理的な空
白幅と印字ピッチとを比較するという従来方法によると
、過剰なスペースが発生したり、全角スペースと半角ス
ペースとを誤認するという問題がある。
【0005】例えば、文字列「・・・です。次に・・・
」中の句点の後に余分な半角または全角のスペースが入
ってしまう。同様の現象は、他の括弧類、句読点類ある
いは半角英数字の前後でも発生することがある。
【0006】このような現象が発生すると、文字認識装
置の出力文字列が過剰なスペースまたは全角スペースと
半角スペースとの誤認によって原稿文字列とは異なった
ものとなり、文字認識装置によって原稿内容を忠実に入
力する必要があるアプリケーションでは大きな問題とな
る。
【0007】本発明の目的は、そのような日本語文章を
認識する文字認識装置において、文字間のスペースを全
角/半角を区別して高精度に認識する方法を提供するこ
とにある。
【0008】
【課題を解決するための手段】特許請求の範囲の請求項
1記載の発明は、日本語文章を処理対象とする文字認識
装置において、文字間空白部のサイズと同じ行内の標準
文字サイズとの比較により、該文字間空白部について全
角スペースと半角スペースとを区別してスペースを認識
し、ただし文字間空白部の前または後の文字の文字認識
結果が予め設定された特定の文字である場合、文字間空
白部のサイズを補正したのち標準文字サイズとの比較に
よりスペース認識を行なうことを特徴とする。
【0009】請求項2記載の発明は、日本語文章を処理
対象とする文字認識装置において、文字間空白部の前ま
たは後の文字の文字認識結果が予め設定された特定の文
字である場合に、該文字間空白部のサイズを補正する処
理を行ない、その後の文字間空白部のサイズを同じ行内
の標準文字サイズで除算し、その剰余について標準文字
サイズと比較することにより全角スペースと半角スペー
スを区別してスペース認識を行ない、この認識結果に該
除算の商に等しい個数の全角スペースを加えて最終的な
スペース認識結果とすることを特徴とする。
【0010】請求項3記載の発明は、請求項1または2
記載の発明の文字間スペース認識方法において、特定の
文字として行頭側または行末側に寄せて印字される性質
の文字を設定することを特徴とする。
【0011】請求項4記載の発明は、請求項1または2
記載の発明の文字間スペース認識方法において、文字間
空白部のサイズの補正により、標準文字サイズの半分の
値を差し引くことを特徴とする。
【0012】請求項5記載の発明は、請求項1または2
記載の発明の文字間スペース認識方法において、文字間
空白部のサイズの補正により、その前または後に隣接す
る特定の文字に依存した係数と標準文字サイズとの積を
差し引くことを特徴とする。
【0013】
【作用】処理しようとしている文字間空白部と同じ行に
ついて、行の高さ(縦書きであれば、行の幅)や文字列
中の明らかに半角である文字を除いた文字の幅(縦書き
であれば、文字の高さ)の平均値などを用いて、当該行
における標準的な全角文字の幅(縦書きであれば、高さ
)を計算し、これを行内の標準文字サイズとする。なお
、このような標準文字サイズの検出の方法は公知である
【0014】この標準文字サイズを全角スペース(文字
)のサイズ(横書きなら幅、縦書きなら高さ)の基準と
して用い得ることは明らかであり、また半角スペースの
サイズの基準としても用い得ることは明らかである。 したがって、文字間に全角スペースまたは半角スペース
が1文字だけ存在するか、あるいは存在しないか、のい
ずれかであるという前提であれば、請求項1の発明によ
るように、文字間空白部のサイズ(横書きなら幅、縦書
きなら高さ)と当該行の標準文字サイズとを比較し、文
字間空白部のサイズが標準文字サイズ以上であれば全角
スペース、標準文字サイズより小さく、その半分のサイ
ズ以上であれば半角スペース、それ以外はスペースなし
、というように文字間スペースの認識が可能である。 そして、標準文字サイズは印字ピッチよりも全角スペー
スのサイズをより的確に反映した値であるので、印字ピ
ッチを基準とした方法より、認識精度を高めることがで
きる。
【0015】ただし、このような単純な比較のみでは、
半角英数字と全角文字との間の空白部や、行頭側または
行末側に偏在して印刷される括弧類や句読点類の間の空
白部が、スペースとして誤認識されたり、半角スペース
が全角スペースと間違って認識されることがある。この
ような不都合は、印字位置が全角文字の標準的な印字位
置に対して行頭側または行末側へ偏在する分だけ文字間
空白部のサイズが増減するために起こるのであるから、
その増減分だけ文字間空白部サイズを補正してから、標
準文字サイズとの比較によるスペース認識を行なうこと
により、正しい認識結果が得られる。
【0016】請求項1とその従属項3、4または5の発
明によれば、そのような空白部サイズの増減を生じさせ
るような特定の文字の間の空白部であるか否かを、文字
認識結果より判断することにより、必要な補正を文字間
空白部サイズに施してから標準文字サイズとの比較を行
なうため、半角英数字、括弧類、句読点類の間のスペー
スを高精度に認識することができる。
【0017】また文字間空白部のサイズを増減させるよ
うな括弧類、句読点類といっても様々なものがあり、そ
れぞれに空白部サイズの増減値が異なる。請求項1の従
属項5の発明によれば、空白部の前、後の文字に応じて
文字間空白部サイズの補正値を最適化することができる
ため、より高精度のスペース認識が可能となる。
【0018】請求項2の発明と、その従属項3、4また
は5の発明によれば、文字間空白部サイズを前後文字に
応じて補正した後に標準文字サイズで除算し、その剰余
を標準文字サイズと比較することにより全角/半角スペ
ースの認識を行ない、この認識結果に前記除算の商に等
しい文字数の全角スペースを加えて最終的な認識結果を
得るので、文字間空白部に1文字以上の全角または半角
スペースが存在する場合も高精度のスペース認識が可能
である。
【0019】
【実施例】図1は本発明の各実施例に係る文字認識装置
の概略ブロック図である。この文字認識装置において、
画像入力部11はスキャナー等により原稿の画像を読み
取り、その2値画像データを入力し、画像メモリ12に
格納する。行・文字切り出し部12は、画像メモリ11
内の入力画像から文字行と文字画像を切り出し、文字画
像データを文字画像メモリ13に格納し、また文字切り
出し位置、文字幅(ここでは横書きとして説明している
。縦書きなら文字高さ)、文字間空白部の幅(縦書きな
ら高さ)、行の高さ(縦書きなら高さ)等の切り出し情
報を切り出し情報メモリ14に格納する。また、行毎に
行の高さや文字幅の平均値等を用いて標準文字幅(縦書
きなら高さ)を計算し、その結果も切り出し情報メモリ
14に格納する。
【0020】文字認識部15は、文字画像メモリ13よ
り文字画像データを読み出し、正規化後に特徴量を抽出
し、抽出した特徴量と文字辞書メモリ16内の辞書との
マッチングを行ない距離の小さい認識結果候補を決定し
、その文字コードと距離データ等を認識結果メモリ17
に格納する。
【0021】スペース認識部18は、切り出し情報メモ
リ14と認識結果メモリ17の内容を参照し文字間スペ
ース認識処理を行ない、文字間のスペース(文字)の個
数、種類(全角/半角スペースの別)を決定し、このス
ペースの情報を認識結果メモリ17に文字並びに従って
格納する。このスペース認識処理の詳細については、実
施例別に後述する。
【0022】結果出力部19は、認識結果メモリ17の
内容をディスプレイ、プリンタ、磁気ディスク装置等に
出力する。
【0023】次に、横書きの半角英字を含む次の文字列
「これは、『新型 RICOH WP』です」を処理す
る場合を例に、各実施例におけるスペース認識処理の内
容についてに説明する。なお、以下の説明において、表
記の便宜上から、文字列中の半角スペースを;で、全角
スペースを:で、それぞれ表現する。この表記法によれ
ば、上記文字列の正しい表記は、「これは、『新型;R
ICOH;WP』です」であり、英字は半角である。ま
た、この文字列について、表1に示すような文字幅、文
字間空白幅、標準文字幅と文字認識結果が得られたもの
とする。
【0024】
【表1】
【0025】なお、図2はスペース認識処理の概略フロ
ーチャートであり、これは各実施例に共通である。また
、このフローチャートでは、横書き文書の処理を想定し
ている。縦書きの場合には「幅」を「高さ」に置き換え
て同様に処理できる。
【0026】実施例1 行の先頭の文字間空白部より、順に処理する。注目して
いる文字間空白部の前の文字の文字認識結果が空白部幅
の補正の対象となっている特定の文字であるか否かを調
べる。このような特定文字とは具体的には、行頭(左)
側に寄せて印字される句読点類(、。.,等)や閉じ括
弧類(」』})>等)である。
【0027】このような特定の文字である場合、注目文
字間空白部の幅から補正値として、標準文字幅の半分の
値(ここでは30)を差し引く。特定の文字でない場合
は、この補正を行なわない。
【0028】次に、注目している文字間空白部の後の文
字が補正対象の特定文字であるか否かを調べる。この特
定文字とは具体的には、行末(右)側に寄せて印字され
る開き括弧類(「『{(<等)である。このような特定
文字である場合、注目している文字間空白部の幅より、
標準文字幅の半分の値を差し引く。特定文字でない場合
は、この補正を行なわない。
【0029】次に補正処理後の文字間空白部の幅を標準
文字幅で除算し、その商を全角スペース数として記憶す
る。なお、文字間にスペースが1文字以上存在しないと
いう前提であれば、この除算を行なう必要はない。
【0030】次に、前記除算の剰余(文字間空白部幅の
全角スペース相当分を除いた残り部分の幅)について標
準文字幅との比較によりスペース認識を行なう。まず、
標準文字幅を全角スペース閾値として剰余との比較を行
ない、全角スペース閾値すなわち60以上であれば、剰
余の部分を全角スペース1文字と認識する。全角スペー
スでない場合、標準文字幅の半分の値すなわち30を半
角スペース閾値として剰余と比較し、半角スペース閾値
以上であれば剰余の部分を半角スペース1文字と認識す
る。剰余が半角スペース閾値未満であれば、スペースな
しと認識する。
【0031】すなわち、ここでは、剰余が60以上であ
れば全角スペース1文字、剰余が59から30までであ
れば半角スペース1文字、剰余が30未満であればスペ
ースなし、と認識する。
【0032】そして、剰余についての認識結果に先に求
めた全角スペース数を加えて、注目している文字間での
スペース認識の最終結果を得る。
【0033】なお、文字間にスペースが1文字以上存在
しないという前提であれば、前後文字に応じた必要な補
正を施した後の文字間空白部幅そのものと全角スペース
閾値とを比較して全角スペースを認識し、これが認識で
きないかったときは空白部の幅そのものと半角スペース
閾値との比較により半角スペースを認識し、これを最終
結果となる。
【0034】ここで例にしている文字列において、先頭
から4文字目の読点と次の『との間の空白部の幅が63
である。しかし、左側が特定文字であるので標準文字幅
60の半分値30が差し引かれ、同様に右側が特定文字
であるので30が差し引かれる結果、空白部幅の補正値
は3(=63−30−30)となるので、スペース認識
結果は「スペースなし」となる。またこの後半の』と次
の文字との間の空白部幅は35であるが、前文字が特定
文字であるので30が差し引かれる結果、スペースなし
、と判断される。このような空白部の幅の補正結果とス
ペース認識結果とは表2に示す如くになり、例の文字列
とスペースを含めて同一の文字列が認識結果メモリ17
に得られる。
【0035】
【表2】
【0036】なお、前後文字による補正を行なわずに全
角スペース閾値または半角スペース閾値を用いてスペー
ス認識を行なうと、結果は表3に示す如くとなり、処理
後の文字列は「これは、:『新型;RICOH;WP』
;です」となり、全角スペース1文字、半角スペース1
文字が余分に認識されてしまう。
【0037】
【表3】
【0038】実施例2 文字間空白部幅の補正の対象となる特定文字の個々につ
いて補正値を表4のように設定する。
【0039】
【表4】
【0040】そして、文字間空白部の前、後の文字の文
字認識結果が表4内のいずれかの文字と一致する場合、
その文字に対して設定された補正値を文字間空白部幅か
ら差し引くことにより、空白部幅を補正し、この補正処
理後の幅について標準文字幅による除算を行ない、その
剰余についての全角/半角スペース認識を行ない、その
結果に商に等しい個数の全角スペースを加えて最終的な
スペース認識結果を得る。
【0041】例の文字列の場合、先頭から3文字目の読
点と『との間の空白部幅は63であるが、前文字による
補正値は表4より36(=60×0.6)、後文字によ
る補正値は表4より18(=60×0.3)、合計した
補正値は54であるから、補正後の空白部幅は9となり
、したがつてスペースなしと判断される。同様にしてス
ペース認識処理の結果は表5の如くになり、例の文字列
中のスペースを正しく認識できる。
【0042】
【表5】
【0043】なお、本実施例においても、文字間に1文
字以上のスペースが存在しないという前提が成り立つ場
合には、補正後の文字間空白部幅の除算を行なわず、直
ちに全角/半角スペース幅との比較によるスペース認識
を行なってよい。
【0044】
【発明の効果】以上説明した如く、請求項1ないし5記
載の発明によれば、半角スペースと全角スペースが混在
し、かつ文字間空白部のサイズが前後の文字の印字位置
の偏在の影響で変動する日本語文章について、文字間の
スペースを全角/半角スペースを区別して高精度に認識
することができるため、文字認識装置により、スペース
を含めて原稿文字列に極めて忠実な文字列を入力するこ
とが可能となる。
【図面な簡単な説明】
【図1】本発明の各実施例に係る文字認識装置の概略ブ
ロック図である。
【図2】スペース認識処理の概略フローチャートである
【符号の説明】
10  画像入力部 11  画像メモリ 12  行・文字切り出し部 13  文字画像メモリ 14  切り出し情報メモリ 15  文字認識装置 16  文字辞書メモリ 17  認識結果メモリ 18  スペース認識部 19  結果出力部

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】  日本語文章を処理対象とする文字認識
    装置において、文字間空白部のサイズと同じ行内の標準
    文字サイズとの比較により、文字間空白部について全角
    スペースと半角スペースとを区別してスペースを認識し
    、ただし文字間空白部の前または後の文字の文字認識結
    果が予め設定された特定の文字である場合には、文字間
    空白部のサイズを補正したのち標準文字サイズとの比較
    によりスペース認識を行なうことを特徴とする文字間ス
    ペース認識方法。
  2. 【請求項2】  日本語文章を処理対象とする文字認識
    装置において、文字間空白部の前または後の文字の文字
    認識結果が予め設定された特定の文字である場合には該
    文字間空白部のサイズを補正する処理を行ない、その後
    の文字間空白部のサイズを同じ行内の標準文字サイズで
    除算し、その剰余について標準文字サイズと比較するこ
    とにより全角スペースと半角スペースを区別してスペー
    ス認識を行ない、この認識結果に該除算の商に等しい個
    数の全角スペースを加えて最終的なスペース認識結果と
    することを特徴とする文字間スペース認識方法。
  3. 【請求項3】  特定の文字とは行頭側または行末側に
    寄せて印字される性質の文字であることを特徴とする請
    求項1または2記載の文字間スペース認識方法。
  4. 【請求項4】  文字間空白部のサイズの補正により、
    標準文字サイズの半分の値が差し引かれることを特徴と
    する請求項1または2記載の文字間スペース認識方法。
  5. 【請求項5】  文字間空白部のサイズの補正により、
    その前または後に隣接する特定の文字に依存した係数と
    標準文字サイズとの積が差し引かれることを特徴とする
    請求項1または2記載の文字間スペース認識方法。
JP03018476A 1991-01-18 1991-01-18 文字間スペース認識方法 Expired - Lifetime JP3086264B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03018476A JP3086264B2 (ja) 1991-01-18 1991-01-18 文字間スペース認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03018476A JP3086264B2 (ja) 1991-01-18 1991-01-18 文字間スペース認識方法

Publications (2)

Publication Number Publication Date
JPH04236685A true JPH04236685A (ja) 1992-08-25
JP3086264B2 JP3086264B2 (ja) 2000-09-11

Family

ID=11972695

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03018476A Expired - Lifetime JP3086264B2 (ja) 1991-01-18 1991-01-18 文字間スペース認識方法

Country Status (1)

Country Link
JP (1) JP3086264B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015103114A (ja) * 2013-11-26 2015-06-04 コニカミノルタ株式会社 テキストデータの埋め込み装置、該装置を備えた画像処理装置、テキストデータの埋め込み方法及び埋め込みプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015103114A (ja) * 2013-11-26 2015-06-04 コニカミノルタ株式会社 テキストデータの埋め込み装置、該装置を備えた画像処理装置、テキストデータの埋め込み方法及び埋め込みプログラム

Also Published As

Publication number Publication date
JP3086264B2 (ja) 2000-09-11

Similar Documents

Publication Publication Date Title
US5384863A (en) Methods and apparatus for automatic modification of semantically significant portions of a document without document image decoding
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
JP2000315247A (ja) 文字認識装置
JP5041775B2 (ja) 文字切出方法及び文字認識装置
JP3086264B2 (ja) 文字間スペース認識方法
JP2915175B2 (ja) 単語間スペース検出方法
JP3142986B2 (ja) 文書情報検索装置
JPH06215184A (ja) 抽出領域のラベリング装置
JPS62133585A (ja) 単語切出方式
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JP2968354B2 (ja) 文字認識結果の後処理方法
JP3157557B2 (ja) 文字認識装置
JPH01171080A (ja) 誤り自動訂正文字認識装置
JP2977247B2 (ja) 文字間スペース処理方法
JPH028348B2 (ja)
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2922949B2 (ja) 文字認識の後処理方法
JP3033904B2 (ja) 文字認識後処理方法
Spitz Tilting at windmills: Adventures in attempting to reconstruct Don Quixote
JPH02230484A (ja) 文字認識装置
JP2974145B2 (ja) 文字認識結果の修正方法
JPH06119497A (ja) 文字認識方法
JPH08202827A (ja) 文字認識方法
JPH07271911A (ja) 文字認識装置
JPH04372089A (ja) 文字認識方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070707

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080707

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090707

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100707

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110707

Year of fee payment: 11