JPH04282789A - 文字読取り装置 - Google Patents

文字読取り装置

Info

Publication number
JPH04282789A
JPH04282789A JP3070349A JP7034991A JPH04282789A JP H04282789 A JPH04282789 A JP H04282789A JP 3070349 A JP3070349 A JP 3070349A JP 7034991 A JP7034991 A JP 7034991A JP H04282789 A JPH04282789 A JP H04282789A
Authority
JP
Japan
Prior art keywords
character
characters
alphanumeric
width
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3070349A
Other languages
English (en)
Inventor
Ichiro Ogura
一郎 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP3070349A priority Critical patent/JPH04282789A/ja
Publication of JPH04282789A publication Critical patent/JPH04282789A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、半角サイズの英数文字
が混在する日本語文書を光学的に読取る文字読取り装置
に関する。
【0002】
【従来の技術】半角サイズの英数文字が混在する日本語
文書を読み取るために、本出願人により図4に示す文字
読取方法が特開平2−139686号として、また図5
に示す文字読取り装置が特願平2−103664号とし
て提案されている。前者の図4に示す文字読取方法は、
全角サイズ文字と半角サイズの英数文字が混在する日本
語文章の画像をスキャナ等により入力し、その入力画像
データから行を切出し、さらに各行を行の直角方向に投
影して得られた黒画素のかたまりとして得られたパター
ンから仮文字の切出しをおこなう(S1〜S2)。次に
、行の切出しにより得られた文字の標準サイズをもとに
、全角文字を選出する(S3)。その後に全角文字と確
定できなかった残りの仮文字の中で、隣合う細い仮文字
は別々の文字または記号であることがほとんどないので
一つの仮文字として統合し、半角サイズの文字を作成す
る。さらに、残りの未確定の文字同士を統合した、いわ
ゆる統合文字、および統合せずに単独の半角文字とみな
した方が良い分離文字とを作成する(S4)。そして、
これらの組合せ、つまり全角に確定した文字、統合文字
、分離文字をOCR(光学式文字読取装置)により認識
させ、文字コードとの類似度を得る(S5)。次に、そ
の認識結果に対して矛盾処理を行う(S6)。最後に、
相対類似度x′(類似度xと、その文字と認識した場合
の平均の類似度mとの比)により、全角の統合文字か、
半角の分離文字の組合せかを判定する(S7)。
【0003】後者の図5に示す文字読取り装置は、全角
サイズ文字と半角サイズの英数文字が混在する日本語文
章の画像をスキャナ等により入力し、第1段階の前処理
部にて入力された画像データから行を切出し、さらに各
行を行の直角方向に投影して得られた黒画素のかたまり
である画素パターンから仮文字の切出しをおこなう。こ
のとき、標準文字サイズ、仮文字のサイズ情報、スペー
ス、ピッチ、位置情報を得る(S1〜S2)。第2段階
の判定部では、まず標準文字サイズにより全角文字を抽
出する(S3)。次に、全角文字と判別されない仮文字
について、そのサイズ情報、位置情報にもとづき、英数
文字の種類であるショートレター、アセンダレター、デ
ィセンダレターに分類し、前記種類に分類できなかった
半角サイズ仮文字の前後が英数文字である場合は、その
仮文字を英数文字に分類して英数文字の判定をおこなう
(S4)。さらに、全角サイズの仮文字でもその前後が
英数文字に分類されていれば、くい込み文字または接触
文字の可能性があるものとみなして半角文字に分割する
(S5)。その後、英数文字に確定しなかった細い文字
について統合処理を行い(S6)、全角文字とも英数文
字とも確定できなかった未確定仮文字については、隣合
った未確定文字同士の統合文字およびそれ自身の分離文
字の組合せを作成する(S7)。
【0004】第3段階では、全角確定文字、英数確定文
字と未確定仮文字の統合文字、分離文字の全てをOCR
により認識し、文字コードおよび文字属性と、その相対
類似度を得る(S8)。第4段階の後処理部では、まず
、矛盾処理を行い、未確認統合文字の全角文字や分離文
字の半角文字の中で条件に合わないものがあればその仮
文字を採用しないようにする(S9)。次に、統合文字
と分離文字それぞれの相対類似度を比較して類似度の高
い方を正しい文字として採用する(S10)。最後に、
文字コード、文字属性、言語的性質により全角統合文字
か半角の英数文字かを判定する(S11)。なお、この
図5に示した従来例が図4の従来例と異なるところは、
判定部における英数文字判定処理、くい込み文字および
接触文字の切出し処理、後処理部における文字列の言語
的性質による英数文字判定処理を追加した点である。
【0005】
【発明が解決しようとする課題】しかしながら、前者で
はプロポーショナルピッチまたは可変ピッチの英単語に
対して以下の問題がある。 (1)例えば、“ll”のように細かい文字が連続する
場合、それを仮文字として結合してしまう。 (2)例えば、“gu”の各文字が一部接触している接
触文字(便宜上、本文中では非接触状態で表記してある
)や、“ge”,“bj”のようなくい込み文字(カー
ニング文字)を全角と判定してしまう。 (3)相対類似度の判定では、半角文字であるにもかか
わらず誤って全角文字としてしまうことがある。
【0006】また、後者においても以下のような問題が
ある。 (1)プロポーショナル印字では、文字間のすき間がせ
まいため、すき間のせまい文字同士を誤って結合して、
全角確定文字としてしまう。例えば、“/”と大文字“
S”とが連続していると、結合されて全角文字“/S”
としてOCRにより認識される。 (2)前処理部において、撮影データから得られたサイ
ズ情報および位置情報から英数文字かどうかの推定はで
きるが、一部の漢字、かなについては誤って英数文字と
みなしてしまう可能性もある。 (3)プロポーショナル印字によるくい込み文字や接触
文字に対してその前後が英数文字と判別できなければ、
切出すことができない。 (4)英単語間の空白は、和文の空白に比べて小さいた
め、和文中心とした空白検出処理では英単語間の空白を
正しく検出することが困難である。本発明は上記問題点
を解決するためになされたもので、その目的とするとこ
ろは、文書画像中に混在する英数文字を高精度に切出し
て認識することを可能にした文字読取り装置を提供する
ことにある。
【0007】
【課題を解決するための手段】上記目的を達成するため
に、本発明は、半角サイズの英数文字が混在する文書画
像データから文字行を切出し、その文字行を投影して得
られた画素パターンから仮文字を切出してOCRにより
文字コードを認識する文字読取り装置において、OCR
により認識された英数文字列のコード中に含まれている
全角サイズの矛盾文字のコードを検出するためのルール
を格納した記憶手段と、前記ルールを参照しながら英数
文字列のコード中に含まれている全角サイズの矛盾文字
を検出する手段と、検出した矛盾文字に該当する仮文字
の画素パターンを再度半角サイズごとに切出してOCR
により文字コードを認識する手段と、認識された英数文
字列の各文字間のスペース長を測定する手段と、測定し
たスペース長の大小から英数単語間の空白を検出する手
段とを備えたものである。
【0008】
【作用】本発明においては、半角の英数文字が混在する
文書画像データを文字行として切出し、さらにその文字
行を投影して得られた画素パターンから仮文字を切出し
、OCRにより文字コードを認識する。仮文字を認識し
て得られた英数文字列中に英数文字2個が誤って全角1
文字として認識されて存在する場合は、予め記憶手段に
格納されて英数文字列のコード中に含まれている全角サ
イズの矛盾文字コードを検出するためのルールにもとづ
き、その全角の矛盾文字を検出するとともに、その矛盾
文字に該当する仮文字の画素パターンを再度半角サイズ
ごとに切り出してOCRにより文字コードを認識する。 同時に、認識された英数文字列の各文字間のスペース長
を測定し、そのスペース長の大小から英数単語間の空白
を検出する。
【0009】
【実施例】以下、図に沿って本発明の実施例を説明する
。図1は実施例の動作を示すフローチャートである。 最初に、英数文字列が混在する日本語横書き文章画像を
入力し、第1段階の前処理部にて文章の投影データから
文字行を切出す。このとき、文字行の位置情報や行寸法
を得る。さらに、この行寸法から全角文字を判定するた
めの標準文字サイズを求める(S1)。次に、切出され
た行ごとに文字行と直角な方向に投影して得られる、黒
画素のかたまりのパターンを仮文字として切出す。この
とき、同時にこれらの仮文字のサイズ情報や隣の仮文字
とのスペース長、ピッチや位置情報を得る(S2)。
【0010】第2段階の判定部では、まず、サイズ情報
や位置情報をもとに全角文字と確定できる仮文字を選出
する(S3)。次に、ここまでで得られたサイズ情報、
位置情報を用いて英数文字を判定する。つまり、英数文
字の種類であるショートレター、アセンダレター、ディ
センダレターに分類するとともに、これらの種類に分類
できなかった半角サイズ仮文字については、その前後が
英数文字であれば、英数文字に分類する(S4)。次に
、プロポーショナル印字された文書において発生するく
い込み文字または接触文字についての切出しをおこなう
。ここでは、ステップS4にて確定した英数文字の間に
はさまれた全角サイズの文字について切出しを行う(S
5)。その後、英数文字に確定しなかった細い文字につ
いて結合処理を行い(S6)、全角文字とも英数文字と
も確定できなかった未確定仮文字について、隣合った未
確定文字同士の統合文字と、それ自身の分離文字の組合
せを作成する(S7)。
【0011】第3段階の認識部では、全角確定文字、英
数確定文字と未確定仮文字の統合文字、分離文字の全て
をOCRにより認識し、文字コード、文字特性とその相
対類似度を得る(S8)。
【0012】第4段階の後処理部では、まず矛盾処理を
おこない、未確定統合文字つまり全角文字と、分離文字
つまり半角文字の中で条件の合わない仮文字を採用しな
いようにする(S9)。同時に、相対類似度を使用して
統合文字と分離文字のうち類似度の高い方を正しい文字
として採用する(S10)。次に、文字コード、文字属
性と言語的性質により、全角統合文字か半角の英数字か
を判定する(S11)。
【0013】第5段階の再切出部では、まずステップS
8で得られた文字コードや文字属性を使用して、確定し
た文字の中でくい込み文字や接触文字等を含む英数文字
列を検出する(S12)。ここで英数文字列の開始位置
を検出する際の開始条件は次のいずれかである。 ■空白の次の英数文字であること ■“( ”の次の英数文字であること ■最初の英数文字または単位記号であること
【0014
】また、英数文字列の終了条件は次のようになる。 ■全角空白の前であること ■行末であること ■かな、漢字等の英数文字以外の文字が2個以上連続す
ること なお■の場合、その直前の英数文字が最後尾の英数文字
となり、また、2個以上の連続としたのはくい込み文字
や接触文字が1字分として含まれることを考慮したため
である。
【0015】図2はこれらの処理により文書画像データ
を読み取る過程を示すものであり、(a)は入力された
文書画像である。(b)は(a)の文書画像をOCRに
より認識して得られた文字コードである。この認識され
た文字列のコードから上記の条件により英数文字列を抽
出すると、(c)のように、 “native lan則a よ support”が
英数文字列として取り出される。 また、(d)は、英数文字列の中に混入していた矛盾文
字を取り出して示したものである。なお、英数文字列は
、次の3種類に分類することができる。 ■数詞:数字のみの文字列 ■英単語、名詞:英字のみの文字列 ■略語:英数文字混在の文字列
【0016】次に、この英数文字列の中およびこの英数
文字列の前後について、くい込みや接触などにより英数
文字として正しく切出せなかった矛盾文字を検出する(
S13)。英数文字列中に矛盾文字の存在するパターン
は、図3に示すように、英数文字列の先頭部に存在する
場合(a)、英数文字列の末尾部に存在する場合(b)
、英数文字列の先頭および末尾を除く中間部に存在する
場合(c)の3タイプがある。
【0017】また、取り出した英数文字列の中に含まれ
る矛盾文字を検出するための条件は次のようになる。 ■数詞の後に接続する頻度の高い漢字(例えば、“人”
“個”等)を除いた全角確定の漢字 ■数詞の後に接続する頻度の高いひらがな(例えば、“
こ”“か”“が”“と”“に”“の”“は”“を”等)
を除いたひらがな ■名詞の後に接続する頻度の高い漢字(例えば、“人”
“州”等)を除いた全角確定の漢字 ■名詞の後に接続する頻度の高いひらがな(例えば、“
か”“が”“と”“に”“の”“は”“を”等)を除い
たひらがな ■全角確定のカタカナおよび記号 ■文字パターンのサイズおよび分離が判定文字コードと
一致しないもの これら■〜■の条件は、矛盾文字検出ルールとして記憶
手段に予め格納されている。なお、検出した英数文字列
が上記条件に該当するか否かは、OCRにより認識され
た文字コードの属性が、数詞、名詞、全角文字等のいず
れであるかによって判別される。図2の英数文字列の例
では、(d)に示されるように、英数文字列中の中間位
置から全角文字“則”と“よ”の2個が矛盾文字として
検出される。
【0018】次に検出された矛盾文字“則”と“よ”に
ついて再切出しをおこなう(S14)。この再切出しは
、誤って結合した全角確定文字に対し、再度、画素の投
影パターンからすき間を検出して切出し、また、くい込
み文字および接触文字については半角の2文字分として
2分割して切出す。次いで、再切出しされた文字をOC
Rにより認識し、初めの矛盾文字の認識結果と再切出し
による認識結果のどららがより妥当かを相対類似度や言
語的ルールにより判定する(S15)。これらの処理に
より認識率の精度が向上する。
【0019】最後に、英数文字列の各文字間のスペース
長を画素の投影値パターンから順次、求め、さらに求め
たスペース長の分布から、各スペースが文字間のスペー
スまたは単語間のスペースのいずれであるかを判別する
(S16)。単語間のスペースとして判別された文字間
には、図2(e)に示すようにスペース記号を挿入して
英数文字列の読取りに関する処理を終了する。
【0020】以上のように構成された本実施例では、例
えば前処理部のステップS2で、くい込み文字や接触文
字、結合文字が含まれる英数文字2文字が誤って全角サ
イズとして切出された場合、その全角サイズ文字が英数
文字列の先頭または末尾であれば、判定部のステップS
5では半角サイズの英数文字として検出されることなく
、そのままステップS8でOCRにより全角文字として
誤って認識されてしまう。しかし、誤認された全角文字
は、ステップS13において英数文字列内の矛盾文字を
検出する条件により、矛盾文字であることが判明する。 それにより、再度、該当する全角の矛盾文字を半角2文
字として切出して再認識し、より妥当な文字コードに変
換し、あらたな英数文字として英数文字列に加える。こ
のようにして実施例の装置は、従来のこの種の文字読取
り装置に比べ、英数文字に関してはより高精度で認識で
きるようになる。
【0021】また、本実施例では、文字画像データから
英数文字列が検出された場合、再切出部のステップS1
6において、対象とする英数文字列の各文字間のスペー
ス長を検出する。さらに、検出したスペース長について
の全体分布を求めた後に、文字間のスペース長のなかで
一定以上のものについては単語間の空白とみなす。その
ため、プロポーショナルピッチまたは可変ピッチの英単
語についても、和文の文字間隔の検出処理とは無関係に
、対象の英数文字列固有の基準で適切に単語単位でスペ
ース記号を挿入することができる。
【0022】なお、図1の実施例は従来例として説明し
た図5の文字読取り装置に本発明に関する処理を付加し
たものだが、この処理は同様に図4の従来例にも適用す
ることができる。また、図4,図5以外であっても、文
書画像データに混在する半角の英数文字を文字行として
切出し、さらにその文字行を投影して得られた画素パタ
ーンから仮文字を切出してOCRにより文字コードを認
識するタイプの文字読取り装置についても同様に適用が
可能である。
【0023】
【発明の効果】以上述べたように本発明によれば、文書
画像データに混在する半角の英数文字が文字行として切
出され、さらにその文字行を投影して得られた画素パタ
ーンから仮文字が切出されて、OCRにより文字コード
が認識される。仮文字を認識して得られた英数文字列中
に英数文字2個が誤って全角1文字として認識されて存
在する場合は、予め記憶手段に格納されている全角サイ
ズの矛盾文字コードを検出するためのルールにもとづき
その全角の矛盾文字が検出され、さらにその矛盾文字に
該当する仮文字の画素パターンが再度半角サイズごとに
切り出されてOCRにより文字コードが認識される。ま
た、英数文字列が検出されると、英数文字列の各文字間
のスペース長が測定され、その長短から英単語間の空白
が正しく検出される。この結果、英数文字列に対する誤
認識が減少するとともに英単語間のスペースが正しく認
識され、その分、全体の文字認識精度が向上して文字読
取り装置に対する信頼性を大幅に高めることができる。
【図面の簡単な説明】
【図1】本発明の実施例を示すフローチャートである。
【図2】文書画像の処理過程を示す説明図である。
【図3】切り出された文字行の中における矛盾文字の位
置を示す図である。
【図4】従来例を示すフローチャートである。
【図5】従来例を示すフローチャートである。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  半角サイズの英数文字が混在する文書
    画像データから文字行を切出し、その文字行を投影して
    得られた画素パターンから仮文字を切出してOCRによ
    り文字コードを認識する文字読取り装置において、OC
    Rにより認識された英数文字列のコード中に含まれてい
    る全角サイズの矛盾文字のコードを検出するためのルー
    ルを格納した記憶手段と、前記ルールを参照しながら英
    数文字列のコード中に含まれている全角サイズの矛盾文
    字を検出する手段と、検出した矛盾文字に該当する仮文
    字の画素パターンを再度半角サイズごとに切出してOC
    Rにより文字コードを認識する手段と、認識された英数
    文字列の各文字間のスペース長を測定する手段と、測定
    したスペース長の大小から英数単語間の空白を検出する
    手段と、を備えたことを特徴とする文字読取り装置。
JP3070349A 1991-03-12 1991-03-12 文字読取り装置 Pending JPH04282789A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3070349A JPH04282789A (ja) 1991-03-12 1991-03-12 文字読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3070349A JPH04282789A (ja) 1991-03-12 1991-03-12 文字読取り装置

Publications (1)

Publication Number Publication Date
JPH04282789A true JPH04282789A (ja) 1992-10-07

Family

ID=13428868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3070349A Pending JPH04282789A (ja) 1991-03-12 1991-03-12 文字読取り装置

Country Status (1)

Country Link
JP (1) JPH04282789A (ja)

Similar Documents

Publication Publication Date Title
JP3427692B2 (ja) 文字認識方法および文字認識装置
EP0544432B1 (en) Method and apparatus for document processing
US5161245A (en) Pattern recognition system having inter-pattern spacing correction
KR100578188B1 (ko) 문자인식 장치 및 방법
US8340425B2 (en) Optical character recognition with two-pass zoning
EP0195779A1 (en) Cryptographic analysis system
JPH04195692A (ja) 文書読取装置
JP2000315247A (ja) 文字認識装置
US11551461B2 (en) Text classification
JP3159087B2 (ja) 文書照合装置および方法
JPH04282789A (ja) 文字読取り装置
JPS63146187A (ja) 文字認識装置
JP2851102B2 (ja) 文字切出し方法
JPH0528324A (ja) 英文字認識装置
JP4318223B2 (ja) 文書校正装置およびプログラム記憶媒体
JP2752499B2 (ja) 文字読取り装置
JP2006294069A (ja) 文書校正装置およびプログラム記憶媒体
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2503259B2 (ja) 全角,半角文字の決定方法
JPH03156589A (ja) 誤読文字の検出,修正方法
JP2575947B2 (ja) 文節切出し装置
JPH02230484A (ja) 文字認識装置
JPH01255987A (ja) 特定文字列の照合方法
JPH08297720A (ja) 一般文書読み取り装置
JPH08129608A (ja) 文字認識装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19990803