JPH02139686A - 文字読取方法 - Google Patents

文字読取方法

Info

Publication number
JPH02139686A
JPH02139686A JP63292445A JP29244588A JPH02139686A JP H02139686 A JPH02139686 A JP H02139686A JP 63292445 A JP63292445 A JP 63292445A JP 29244588 A JP29244588 A JP 29244588A JP H02139686 A JPH02139686 A JP H02139686A
Authority
JP
Japan
Prior art keywords
character
width
characters
full
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63292445A
Other languages
English (en)
Inventor
Ichiro Ogura
一郎 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP63292445A priority Critical patent/JPH02139686A/ja
Publication of JPH02139686A publication Critical patent/JPH02139686A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、全角サイズの文字(以下、単に全角文字とい
うことがある)や半角サイズの文字(以下、単に半角文
字ということがある)、それに半角サイズの仮文字を2
個統合することにより全角1文字として成立する文字(
以下、統合文字という)が混在する文書画像データを画
像入力装置を介して画像メモリに取り込み、中央処理装
置(CPU)が該メモリから該文書画像データを読み出
して全角または半角の各文字サイズに切り出した後、文
字認識部(OCRニオブト キャラクタリーダ)を使っ
て各サイズの文字データの認識結果を得る文字読取方法
に関するものである。
〔従来の技術〕
第5図は文字認識装置の一般的な構成例を示すブロック
図である。同図において、1はスキャナの如き画像入力
装置、2はCPU (中央処理装置)、3は画像メモリ
、4はプログラムを記憶するROM (リードオンリイ
メモリ)、5はワーク用のRAM (ランダムアクセス
メモリ)、3は画像メモリ、6はOCRの如き文字認識
装置、である。
CPU2はROM4に記憶されているプログラムに従っ
て動作するが、先ず画像入力装置(スキャナ)lにより
図示せざる文書等から文書画像データを読み取って画像
メモリ3に記憶する。次に画像メモリ3に記憶された文
書画像データを読み出し、ワーク用のRAM5を用いな
がら、文書画像データから1文字サイズの画像データを
切り出し、それを文字認識装置(OCR)6に送って認
識させることにより、文字読取を行う。
かかる文字読取装置において、従来は、文書画像データ
から文字サイズを基準として、全角文字を切り出し、文
字サイズから見て確定できない仮文字は、そのサイズが
半角文字相当ならその仮文字をOCRに認識させ、認識
結果が半角文字として有効に成立する文字(数字、カタ
カナ、アルファベット等)ならその結果を採用し、そう
でなければ、つまり半角文字相当のものが2個並んだも
のであれば、それら2つの仮文字を統合して考えて、そ
の統合文字をOCRにかけて認識させ、全角文字として
有効に成立する文字(例えば漢字)であるという認識結
果が得られれば、その結果を採用していた。
また半角文字相当のサイズをもつ仮文字が3個連続して
いる場合には、その最初の2つだけで統合文字を構成す
るものと考えて認識を行っていた。
〔発明が解決しようとする課題〕
しかしながら、サイズが半角相当の半角文字も全角文字
に混じって存在している場合には、漢字の“化°は全角
1文字であるにもかかわらず、半角文字であるカタカナ
の°イ゛と“ビに、また“ル°が全角1文字であるとし
た場合、それは半角文字であるカタカナの°ノ゛と“し
”になって何れも誤認識されてしまうという問題点があ
った。
また半角サイズの仮文字が3つ以上連続する場合、“(
読”は、例えば「(、言、売」の3つの半角サイズの仮
文字が連続したものとも考えられるので、“(読°を“
(言゛と°売°のように、最初の2つで統合文字を作り
、“(言゛を“信。
と誤認識する結果、全体では“(読′を“信売゛の如く
誤認識してしまうというような問題点もあった。
本発明は、前述の漢字の“化”のように、全角1文字で
ありながら、2個の半角文字(カタカナの「イ」と「ヒ
」)と誤認識されたり、又“(読“のように、前カンフ
と全角1文字でありながら、2個の文字([信」と「売
」)の如く誤認識されたりすることのない、つまり全角
文字や半角文字、それに半角サイズの仮文字を2個統合
することにより全角1文字として成立する文字(統合文
字)が混在する文書画像データに対しても、文字切り出
し位置を間違えることなく、常に正しい文字読取を可能
にする文字読取方法を提供することを目的とする。
〔課題を解決するための手段〕
上記目的達成のため、本発明では、文書画像データにつ
いて各行を抽出し、その際、1行の幅寸法が分かるので
、この幅寸法を全角文字1文字分の文字サイズとし、そ
の行に直角な方向において得られた投影データと該文字
サイズと所定の規則から1文字として成立する全角文字
及び半角文字をCPUがプログラム操作によって抽出す
る。
その後に残された半角サイズの仮文字(それ単独では、
工文字として成立することをプログラム操作によっては
確定できない仮文字で、かがる仮文字の隣り合ったもの
2個が統合されて1文字として成立する全角文字になる
場合もあるし、それ単独で1文字として成立する半角文
字になる場合もあり得る)については、その隣接の仮文
字と組合わせて全角1文字として成立するか、或いはそ
れ単独で半角1文字として成立するか、を調べるために
、隣接の仮文字と組合わせたり、それ単独としてOCR
に認識させてみる。認識結果としては、文字コードとそ
の確からしさを示す類似度が対に成って得られるので、
隣接の仮文字と組合わせた場合、単独の場合、でそれぞ
れ得られたi(U度を比較し、類似度の大きい方の文字
コードを認識結果として採用する。
〔作用〕
行に直角な方向において得られた投影データから文字サ
イズと所定の規則により1文字として成立する全角文字
及び半角文字をCPUがプログラム操作によって抽出す
るわけであるが、その規則とは次の如きものである。
つまり、!文字として有効に成立する文字は、■それ単
独で文字サイズが全角サイズであるもの(他の仮文字と
結合する余地がない)、■句読点(これ自体のサイズは
半角サイズであるにしても、句読点であることが判然と
すれば、1文字として有効に成立する)、■それ単独で
は半角サイズの仮文字であるが、隣接した他の半角サイ
ズの仮文字と結合させてみると、全角サイズを満足する
もの、■それ単独ではサイズが全角サイズより小さいが
、隣接した他の半角サイズの仮文字との間には距離があ
り過ぎて、両板文字を無理に結合させると全角サイズを
超えてしまうもの、の4種類であり、この4つが所定の
規則として用いられ、CPUが1文字として成立する全
角文字及び半角文字をプログラム操作によって抽出する
その後に残された半角サイズの仮文字については、隣接
の仮文字と組合わせたり、それ単独としてOCRに認識
させてみる。認識結果として得られたコードとその確か
らしさを示す類似度について、類似度を比較し、類似度
の大きい方の文字コードを認識結果として採用する。
C実施例〕 第1図は本発明に従ってCPUが行う文字読取動作の流
れを示すフローチャートである。
また第2図は、CPUによるプログラム操作によって抽
出された後の、残された半角サイズの仮文字の切り出し
の具体例等を示すための説明図、第3図は、残された半
角サイズの仮文字の統合や分離の作成例を示す説明図、
である。第2図、第3図では、切り出された全角文字、
半角文字、或いは半角サイズの仮文字にそれぞれ番号(
PI〜P35)が付されている。
以下、第1図〜第3図を参照して本発明の一実施例を説
明する。
先ず文書画像の側部から行方向に平行な方向に向けて投
影値をとること(白ドツト中の黒ドツトの所在を調べる
こと)により、1行の幅寸法に相当した黒ドツトの塊り
が検出されて各行が切り出され、それと共に行の幅寸法
(これは即、全角文字の一辺の長さにほぼ相当する)が
求まる(第1図のステップSl)。
次に各行に対する、それと直交した方向からの投影値を
与えられ、それに前記ステップSlで求めた全角文字の
一辺の長さ(文字サイズ)を適用することで文字らしき
もの(黒ドツトの塊り、以下仮文字という)を切り出す
ことができる(ステップS2)。
例えば第2図(イ)において「私」というのは全角文字
であるが、投影値で見るとその左半分(PL)と右半分
(P2)に分かれて見えるので、半角サイズの仮文字P
IとP2が切り出されることになる。「の」は全体とじ
て一つの仮文字P3として切り出される。以下、同様に
して第2図(ロ)のP2Oまで仮文字が切り出される。
次に、以上のようにして切り出された仮文字の中から先
ず前記の文字サイズ(全角文字の一辺の長さ)を用いて
全角文字を選び出す(ステップS3)。全角文字である
ことが判然とすれば、それは1文字として有効に成立す
ることは明らかであるという前提に立っている。その選
び出す手順は次の如くである。
■それ単独で文字サイズが全角サイズであるもの(他の
仮文字と結合する余地がない)(ステップ531)。
例えば第2図(イ)のP4は「誕」であるが、これは、
該文字を構成するつくりが複雑に組合わさっていて投影
値でみて分離できないので全体で1文字として全角サイ
ズを満たしている。従って全角文字として選び出される
。その他、全角文字として選び出される例を挙げれば、
P5.Pl5゜P21.P29等がある。
■句読点(これ自体のサイズは半角サイズであるにして
も、句読点であることが判然とすれば、1文字として有
効に成立する)(ステップ532)。
例えば第2図(イ)のP9、Pl6がそれに当たる。
■それ単独では半角サイズの仮文字であるが、隣接した
他の半角サイズの仮文字と結合させてみると、全角サイ
ズを満足するもの(ステップ533)。
例えば第2図(イ)のPl、P2は、両者が結合して「
私」という文字を構成するものであるから、両者が結合
すれば当然その文字サイズは全角サイズを満足する。そ
の他、Pl3とPl4の例も挙げることができる。これ
は、Pl3が「で」という文字の左半分として、点−つ
欠けたものであり、Pl4がその残りの点−つを示して
いる場合であるが、両者が結合して全角サイズを満足す
る。
■それ単独ではサイズが全角サイズより小さいが、隣接
した他の半角サイズの仮文字との間には距離があり過ぎ
て、両板文字を無理に結合させると全角サイズを超えて
しまうので、それ単独で有効に1文字として成立すると
判断して良いもの(ステップ534)。
例えば第2図(イ)のP3は、「の」という文字である
が、これは字幅が全角サイズより小さいが、隣接した他
の仮文字との間には距離があり過ぎて結合できないので
、それ単独で有効に1文字として成立すると判断して良
い。その他、P6゜Pl2.P2O等を該当例として挙
げることができる。
このようにして全角文字(文字サイズはかならずしも全
角サイズを満たすものではないが、1文字として成立す
ると判断されるもの、つまり全角文字と見做して良いも
のを含む)を全て選び出した後、残った仮文字について
、統合文字と分離文字を作り出す(ステップS4)。
その例を第3図に示す。第3図(イ)において、Plと
P8がそれぞれ分離文字であり、P31が分離文字P7
とP8を統合して得られる統合文字である。同様にPl
oとpHがそれぞれ分離文字であり、P32が分離文字
PIOとpHを統合して得られる統合文字である。その
他、第3図(ロ)、(ハ)においても、図示の如く統合
文字と分離文字を作り出すことができる。
次にこれら統合文字と分離文字をOCRによって認識さ
せる(ステップ35)。例えば分離文字P7とP8であ
れば、それぞれについてOCRによって認識させた後、
更に、統合文字31を作って認識させるわけである。
次にその認識結果に対して矛盾処理を行う(ステップS
6)。
矛盾処理としては、例えば認識の対象が分離文字である
のに、OCRによる認識結果として得られたコードが、
全角サイズの漢字を表わすものであったとすれば、その
ようなことは本来有り得ず矛盾しているので、そのよう
な認識結果は採用しないという処理がその−っである(
ステップ561)。
また認識の対象が統合文字であるのに、OCRによる認
識結果として得られたコードが、数字やアルファベット
(これらは本来的に半角サイズの文字である)を表わす
ものであったとすれば、そのようなことは本来有り得ず
矛盾しているので、そのような認識結果は採用しないと
いうのがもう一つの矛盾処理である(ステップ562)
最後に残された仮文字について、それを統合文字とする
か分離文字とするがを、OCRによる認識結果として得
られるコードに付随して得られる類似度を用いて決定す
る(ステップS7)。
その例を第4図に示す。
第4図においては、分離文字P7とP8及びそれらの統
合文字P31「は」を採り上げている。
今統合文字P31をOCRにより認識させた結果、その
結果の類似度Xが542であり、分離文字P7を認識さ
せた結果の類似度Xが269であり、分離文字P8を認
識させた結果の類似度Xが427であったとする。
単純に比較すると、類似度Xの最大値は542であるか
ら、その仮文字は統合文字であると判断して良いことに
なる。しかし実際には、その文字を正しく認識したとき
の類似度の平均値(形状の多少異なるようなその同じ文
字について色々認識させた結果、正しく認識したときに
得られた類似度の平均値)mが、P31については52
7、P7については269、P8については427とい
う結果が、データベースとして既に得られていたとする
。従ってこれを勘案しないと誤りをおかすことがある。
そこで一定数(1024)と類似度Xの平均値mを用い
て相対類似度x’  (=1024xx/m)を算出す
ると、P31については1053、P7については50
5、P8については849、P7とP8の平均値は67
7という結果が得られる。
これらの中で最大の値をとるP31「は」が正しい文字
と決定される。
以上のようにして正しい文字の切り出し、読み取りが実
現する。
〔発明の効果〕
以上説明したように、本発明によれば、全角サイズの文
字や半角サイズの文字、それに半角サイズの仮文字を2
個統合することにより全角1文字として成立する文字等
が混在する文書において、先ず確実に1文字として成立
する文字(全角文字や全角文字と見做せる半角文字)を
選び出した後、残った半角サイズの仮文字を統合文字に
したり分離文字にしたりしてOCRに認識させ、認識結
果のうちM41d度の高いものを採用するようにしたこ
とにより、正しい文字の切り出しと、それに伴う正しい
読み取りが可能になった。
【図面の簡単な説明】
第1図は本発明に従ってCPUが行う文字読取動作の流
れを示すフローチャート、第2図は半角サイズの仮文字
の切り出しの具体例等を示すための説明図、第3図は仮
文字の統合や分離の作成例を示す説明図、第4図は仮文
字が統合文字であるか分離文字であるかを類似度により
決定する手法の説明図、第5図は文字認識装置の一般的
な構成例を示すブロック図、である。 符号の説明 ■・・・画像入力装置、2・・・CPU (中央処理装
置)、3・・・画像メモリ、4・・・ROM (リード
オンリイメモリ)、5・・・RAM (ランダムアクセ
スメモリ)、3・・・画像メモリ、6・・・文字認識装
置。 笥 IT!!j 代理人 弁理士 並 木 昭 夫 代理人 弁理士 松 崎   清 MA  図 II 5 囚

Claims (1)

  1. 【特許請求の範囲】 1)全角サイズの文字(以下、単に全角文字という)や
    半角サイズの文字(以下、単に半角文字という)、それ
    に半角サイズの仮文字を2個統合することにより全角1
    文字として成立する文字(以下、統合文字という)が混
    在する文書画像データを画像入力装置を介して画像メモ
    リに取り込み、中央処理装置(CPU)が該メモリから
    該文書画像データを読み出して全角または半角の各文字
    サイズに切り出した後、文字認識部を使って各サイズの
    文字データの認識結果を得る文字読取方法において、 中央処理装置が前記画像メモリから読み出した混在文書
    画像データについて各行を抽出する段階と、その際に得
    られた行の幅情報から全角文字1文字分の文字サイズを
    決定する段階と、その行に直角な方向において得られた
    投影データと前記文字サイズと所定の規則から1文字と
    して成立する全角文字及び半角文字を抽出する段階と、
    その後に残された半角サイズの仮文字については、その
    隣接の仮文字と組合わせて全角1文字として成立するか
    、或いはそれ単独で半角1文字として成立するか、を調
    べるために、隣接の仮文字と組合わせたり、それ単独と
    して文字認識部による認識を試みる段階と、試みて得た
    複数の認識結果の中から、該結果に付随して文字認識部
    から得られる各類似度を相互比較することにより、一つ
    を選択して全角1文字或いは半角1文字としての認識結
    果を得る段階と、を含むことを特徴とする文字読取方法
JP63292445A 1988-11-21 1988-11-21 文字読取方法 Pending JPH02139686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63292445A JPH02139686A (ja) 1988-11-21 1988-11-21 文字読取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63292445A JPH02139686A (ja) 1988-11-21 1988-11-21 文字読取方法

Publications (1)

Publication Number Publication Date
JPH02139686A true JPH02139686A (ja) 1990-05-29

Family

ID=17781892

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63292445A Pending JPH02139686A (ja) 1988-11-21 1988-11-21 文字読取方法

Country Status (1)

Country Link
JP (1) JPH02139686A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176410A (ja) * 2014-03-17 2015-10-05 株式会社日立システムズ 情報処理装置、帳票読取方法、及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPS62169287A (ja) * 1986-01-22 1987-07-25 Toshiba Corp 記載文字形態判別方式
JPS62190575A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60153575A (ja) * 1984-01-23 1985-08-13 Nippon Telegr & Teleph Corp <Ntt> 文字読取方法
JPS62169287A (ja) * 1986-01-22 1987-07-25 Toshiba Corp 記載文字形態判別方式
JPS62190575A (ja) * 1986-02-18 1987-08-20 Mitsubishi Electric Corp 文字パタ−ン切り出し装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015176410A (ja) * 2014-03-17 2015-10-05 株式会社日立システムズ 情報処理装置、帳票読取方法、及びプログラム

Similar Documents

Publication Publication Date Title
EP1739574B1 (en) Method of identifying words in an electronic document
CA2116600C (en) Methods and apparatus for inferring orientation of lines of text
JPH04195692A (ja) 文書読取装置
JPS63182793A (ja) 文字切り出し方式
US7596270B2 (en) Method of shuffling text in an Asian document image
US6374242B1 (en) Natural-language information processor with association searches limited within blocks
JPH02139686A (ja) 文字読取方法
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
JP3151866B2 (ja) 英文字認識方法
JP3203749B2 (ja) 文書処理装置
JP3197441B2 (ja) 文字認識装置
JP3116453B2 (ja) 英文字認識装置
JPH0440748B2 (ja)
JPH01196685A (ja) 文字検出方法
JP2963474B2 (ja) 類似文字識別方法
JPH02230484A (ja) 文字認識装置
JP2752499B2 (ja) 文字読取り装置
JP2931485B2 (ja) 文字切出し装置及び方法
JP2851102B2 (ja) 文字切出し方法
JP2922949B2 (ja) 文字認識の後処理方法
JPH0436885A (ja) 光学式文字読取装置
JP2004094802A (ja) 光学的文字認識装置および同装置の訂正入力制御方法
JPH0350689A (ja) 文字認識装置
JPH08171608A (ja) 帳票様式識別方法および装置
JPH0576666B2 (ja)