JPH0415776A - 文字のサイズ情報抽出方法 - Google Patents

文字のサイズ情報抽出方法

Info

Publication number
JPH0415776A
JPH0415776A JP2111754A JP11175490A JPH0415776A JP H0415776 A JPH0415776 A JP H0415776A JP 2111754 A JP2111754 A JP 2111754A JP 11175490 A JP11175490 A JP 11175490A JP H0415776 A JPH0415776 A JP H0415776A
Authority
JP
Japan
Prior art keywords
characters
character
width
rectangle
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2111754A
Other languages
English (en)
Inventor
Kazuyuki Yoshida
收志 吉田
Tetsuo Kiuchi
木内 哲夫
Ichiro Ogura
一郎 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP2111754A priority Critical patent/JPH0415776A/ja
Publication of JPH0415776A publication Critical patent/JPH0415776A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔卒業上の利用分野〕 本発明は、新聞、雑誌等の印刷文書の文字を読み取り、
JISコード等のテキスト情報に変換する場合の文字サ
イズ情報の抽出方法に関する。
〔従来の技術〕
一般に、印刷文書内の文字は成る決められた規則に従っ
て配置されている。すなわち、縦書き。
横書き1文字の大きさ9間隔1字体、変形率(平棒、長
体など。字体とは縦方向に縮小された字体のこと。長体
とは横方向に縮小された字体のこと。
変形率はこれらの字体の縮小の割合を云う。)などが文
書または段落毎に決められている。文字読取装置で文字
を読み取る場合、そのルールは未知のものとして認識が
行なわれる。ここで問題となるのが、大文字「あ」と小
文字「あ」との区別あるいは片仮名の「工、工」と漢字
の「工」との区別を含む相供形またはIH1u字形文字
の区別や、片仮名で「タト」と書かれたものと漢字[外
]などのように2文字が組み合わさって別の1文字にな
る場合の区別である。このような場合、どの大きさの文
字が使われているのか、またどのような変形率の文字が
使われているのかが分からないと区別することができず
、誤認識してしまう。
このように、文字画像から文字を切り出して認識する文
字読取装置においては、文字のサイズ情報は重要であり
、本発明はこの文字サイズ情報を文書画像から高精度に
抽出する方法に関するものである。
文書読取装置の一般的な構成を第12図に示す。
同図において、1は読取対象の原稿を置き、光学的に画
像入力するスキャナ、2はこのスキャナ1からの画像を
読み取って文字をコードとしてホストコンピュータ3.
プリンタ4またはフロッピーディスク装置5に出力する
文字読取装置である。
第13図に従来の文字読取方法のフローチャートを示す
。なお、第13図は出願人により特願平1−39308
号として出願されているものである。
まず文書画像データを入力しく■参照)、その水平方向
の投影値をとることにより、各文字行を切り出す(■参
照)。これにより、行の幅寸法を求め、全角文字の大き
さに相当する!(文字サイズ)を得る。なお、ここでは
横書きの場合を想定しているが、縦書きの場合も同様で
ある。
次に、各行に垂直な方向の投影値を調べ、文字サイズを
考慮することにより、各文字行から文字らしきもの、す
なわち仮文字群を切り出しく■参照)、シかる後この仮
文字群の中から上記文字サイズを利用して全角文字を選
出する(■参照)。
全角文字として選出する条件は次のとおりである。
イ)それ単独で文字サイズが全角サイズのもの、つまり
他の仮文字と結合する余地の全くないもの。
口)句読点。
ハ)それ単独では半角サイズであるが、隣り合う他の半
角サイズの仮文字と結合させてみると全角サイズとなる
もの。
二)それ単独ではサイズが全角サイズよりも小さいが、
隣り合う他の半角サイズの仮文字との間に距離があり過
ぎ、これらを無理に結合させると全角サイズをこえるも
の。
以上の如き条件に従って全角文字を全て選出した後、あ
とに残った仮文字について、これを結合または分離して
統合文字2分離文字を作成しく■参照)、シかる後これ
らの統合文字7分離文字をOCR(文字読取装置)によ
り、辞書パターンとの類イ以度を利用して認識する(■
参照)。
次に、その認識結果に対して以下のような矛盾処理を実
行する(■参照)。
a)例えば認識すべき対象が分離文字であるにもかかわ
らず、OCRによる認識結果が全角サイズの漢字を示す
ものとすれば互いに矛盾するので、かかる認識結果は採
用しない。
b)上記とは逆に、認識すべき対象が統合文字であるに
もかかわらず、OCRによる認識結果が英字、数字等の
半角サイズ文字を示す場合。
次に、矛盾処理された認識結果に対して形状特長照合を
実行する(■参照)。ただし、このステップ■は同図の
如く[相]〜■に細分化されている。
すなわち、ステップ[相]では入力文字が縦長か横長か
がチエツクされる。なお、縦長か横長かはそれが正体文
字の場合は縦横比(高さ7幅)が例えば2以上ならば縦
長とし、1/2以下ならば横長とする。また、長体文字
や平棒文字の場合は正体文字に直して判定することとす
る。
ステップ0.@ではそれぞれ縦、横をいくつに分離する
かを調べ、分離の態様が入力文字とその認識結果の候補
文字との間で一致するか否かを調べる。この操作を候補
文字(第1位〜第10位)で適合するものが見つかるま
で行ない、いずれの候補文字も適合しない場合はステッ
プ■でリジェクト出力を出す。
そして、最後に残された文字につき、これを統合文字と
すべきか分離文字とすべきかを、OCRにより相対類似
度を用いて判別する(■参照)。
なお、相対類イ以度x1は類似度Xと類似度の平均(i
mとの比に、成る定数(例えば、1024)を掛けたも
のとして定義する。すなわち、x 、 = x / m
 X定数(1024)である。
ところで、文字のサイズ情報は文字の切り出しまたは認
識結果のりジェクトなどに利用されるが、文字の大きさ
はこれまで、 (1)文書を入力する際に、人が計測してホストから入
力する。
(11)切り出した行の幅を文字の大きさとする。
(iii )切り出した複数の行の幅の平均値を文字の
大きさとする。
などの方法によっている。また、文字の変形率は文書を
入力する人が計測し、ホストコンピュータから入力する
ようにしている。
〔発明が解決しようとする課題〕
文字読取装置に入力する文書は、大抵1種類のフォーマ
ットではないため、文書毎または段落毎に文字の大きさ
や変形率を計測するのは非常に面倒である。また、行の
幅より文字の大きさを決定する場合、1行だけで行なえ
ば極めて不安定であり、複数行で行なう場合も同様に不
安定である(行数の少ない文書では特に不安定である)
。また、幅情報だけ(または高さ情報だけ)では変形率
は抽出することができない。
したがって、本発明の課題は文書を入力する際の計測の
面倒さをな(し、精度良く文字の大きさおよび変形率を
抽出し得るようにすることにある。
〔課題を解決するための手段〕
新聞、雑誌を含む印刷文書画像から文字を切り出して印
刷文書を読み取るに当たり、入力された印刷文書画像の
水平方向または垂直方向の投影をとって文字行を切り出
し、さらに各行において垂直方向または水平方向に投影
をとって文字らしき矩形領域(仮文字)を切り出し、そ
の矩形の幅と高さのヒストグラム(分布)を求め、その
分布から文書または段落における文字の大きさ、変形率
の情報を抽出する。
〔作用〕
複数行について処理を行ない、さらには外接矩形を求め
てその幅、高さの分布を利用することにより、より高精
度な文字サイズ情報を抽出し得るようにする。
〔実施例〕
第1図は本発明の詳細な説明するためのフローチャート
、第2図は文書画像から投影をとり矩形を切り出す過程
を説明するための説明図である。
文書が画像として入力されたら(■参照)まず垂直方向
に投影をとり、黒画素の存在部分を成るしきい値で切り
出し、行を切り出す(■参照)。
その様子を第2図(イ)に示す。ただし、同図(イ)は
縦書き文書の例である。次に、切り出した行ごとに例え
ば第2図(ロ)の如く水平方向に投影をとり、黒画素の
存在部分を切り出し、矩形を切り出す。さらに、第2図
(ハ)の如くその矩形内で垂直方向に投影をとり、黒画
素の存在部分を切り出して外接矩形11 (仮文字)を
求める(■参照)。かかる処理を全ての行で実行する。
次に、行の幅を仮の標準文字サイズとして全角文字を選
出しく■参照)、切り出した矩形に対して結合・分離処
理をして組み合わせ文字を作成する(■参照)。
第3図の如き枠12にて囲まれた入力画像に対し、上記
のような処理をして得られる矩形の幅(W)と高さ(H
)データを第4図に示す。つまり、第3図の第1行から
第7行までのデータが第4図(イ)〜(ト)に示されて
いる。なお、単位は画素(ドツト)数である。また、こ
の幅と高さの頻度分布(ヒストグラム)を第5図および
第6図に示す。次に、これらを類似度等により認識して
(■参照)、漢字となったものを抜き出しく第4図で「
○」を付した文字)、その頻度分布を求める(■参照)
。結果を第7図および第8図に示す。
そして、この頻度分布より例えば判別分析法と呼ばれる
公知の手法を利用して幅の第1ピーク(Wp)、高さの
第1ピーク(Hp)をそれぞれ求める([相]参照)。
こうして求めたwp、Hpと、予め変換用パラメータ(
@)参照)として記憶している幅、高さの定数(AW、
AH)より、標準文字サイズWs、Hsを決定する(0
参照)。なお、このAW、AHは成る字体について、仮
名、漢字を含む約4000字の第9図および第10図に
示されるような幅、高さの頻度分布から上記と同様に第
1ピーク(DWp、DHp)を求め、これらとその最大
の文字幅(DMW)、文字高さ(DMH)との比から得
るようにしている。
AW=DMW/DWp        ・・・(1)A
H=DMH/DHp        ・・・(2)Ws
 =Wp xAW          −(3)Hs 
=Hp xAH+・・(4) また、変形率は、 W s > Hsのとき平棒で、変形率は、100x 
(1−Hs/Ws)%   ・・・(5)W s < 
Hsのとき長体で、その変形率は、1 oox (1−
Ws/Hs)%   ・・・(6)W s = Hsの
とき正体で、変形率はOである。
こうして求めた幅、高さ、変形率をもとに、再度結合ま
たは分離文字の大きさのチエツク、あるいは形状をもと
にしたりジェツトを行なう ([相]参照)。なお、こ
こで述べている「文字の大きさ」とは次のようなもので
ある。一般に、印刷文字は仮想ボディと呼ばれる、第1
1図の如き目に見えない基準の枠13を持ち、これが各
字体について一定の大きさを持っている。この仮想ボデ
ィ13の中に上下左右に余白を持ったかたちで全ての文
字がデザインされている。ここに云う文字の大きさとは
仮想ボディの大きさではなく、その中にデザインされた
文字の外接枠の大きさを指し、複数の行内の全ての文字
の最大の大きさを標準文字サイズとしている。
第3図の如き入力画像から標準文字サイズを求めて見る
と、第7図より第1ピークWp=43゜9であり、同じ
く第8図より第1ビークHp=36.2であるから、(
3)弐より、 Ws=WpXAW=43.9X80/69.2=50.
75 また、(4)式より Hs=HpXAH=36.2X82/72.0=41.
23 で、 変形率は(5)弐より、 1 oox (1−Hs/Ws)=18.8となる。入
力対象文字のデータは大きさ(仮想ボディ)が13級、
平棒20%で作成された文書によるものであることから
、変形率においては本発明が充分に有効であることがわ
かる。また、文字の大きさに対する本発明の有効性を確
かめるために、同じように仮想ボディサイズを求めると
次のようになる。
第9回の分布は仮想ボディサイズ20級の文字で作成さ
れているので、いま実験データの仮想ボディサイズBS
を求めると、この場合は平棒なので、 B S = 20 X W p / D W p   
     ・・・ (7)から、 BS=20xWp/
DWp=12.7となり、13級に対し12.7という
解が得られる。
1級0.25鶴なので、16本/1mの解像度の画像で
も、誤差は16XO,25X0.3=1.2ドツト(d
at)であり、入力装置の精度も考え合わせると充分と
いうことになる。
なお、以上の例では縦書きの場合について説明したが、
横書きの場合も投影をとる方向を変えることにより、上
記と同様に文字の大きさ(WsHs)および変形率を求
めることができる。
〔発明の効果〕
本発明によれば、文書を入力するに当たって文字の変形
率を計測する面倒がなくなり、また複数行より切り出さ
れた文字らしき矩形(仮文字)の幅、高さの分布を利用
するようにしたので、文字の大きさ情報を安定に得るこ
とができる。その結果、相イ以形の文字の誤認識や、2
文字を1文字にまたは1文字を2文字に誤認識したりす
るおそれをな(すことができる。
【図面の簡単な説明】
第1図は本発明の詳細な説明するためのフローチャート
、第2図は本発明により文書画像から投影をとり矩形を
切り出す過程を説明するための説明図、第3図は入力画
像の例を説明するための説明図、第4図は第3図の入力
画像から抽出した矩形の幅、高さデータを説明するため
の説明図、第5図および第6図はその幅、高さデータの
頻度分布をそれぞれ説明するための説明図、第7図およ
び第8図は第4図で○印を付した矩形の幅、高さデータ
の頻度分布をそれぞれ説明するだめの説明図、第9図お
よび第10図は成る字体の幅、高さデータの頻度分布を
それぞれ説明するための説明図、第11図は文字の仮想
ボディサイズを説明するための説明図、第12図は文書
読取装置の一般的な構成を示すプロ・7り図、第13図
は文書読取方法の従来例を説明するためのフローチャー
トである。 1・・・スキャナ、2・・・文字読取装置、3・・・ホ
ストコンピュータ、4・・・プリンタ、5・・・フロッ
ピーディスク装置、11・・・外接矩形、12・・・枠
、13・・・仮想ボディ。 (イ) 1行目のデータ 第4図(その1) (ロ) 2行目のデータ

Claims (1)

  1. 【特許請求の範囲】 1)新聞、雑誌を含む印刷文書画像から文字を切り出し
    て印刷文書を読み取るに当たり、 入力された印刷文書画像の水平方向または垂直方向の投
    影をとって文字行を切り出し、さらに各行において垂直
    方向または水平方向に投影をとって文字らしき矩形領域
    (仮文字)を切り出し、その矩形の幅と高さのヒストグ
    ラム(分布)を求め、その分布から文書または段落にお
    ける文字の大きさ、変形率の情報を抽出することを特徴
    とする文字のサイズ情報抽出方法。
JP2111754A 1990-05-01 1990-05-01 文字のサイズ情報抽出方法 Pending JPH0415776A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2111754A JPH0415776A (ja) 1990-05-01 1990-05-01 文字のサイズ情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2111754A JPH0415776A (ja) 1990-05-01 1990-05-01 文字のサイズ情報抽出方法

Publications (1)

Publication Number Publication Date
JPH0415776A true JPH0415776A (ja) 1992-01-21

Family

ID=14569341

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2111754A Pending JPH0415776A (ja) 1990-05-01 1990-05-01 文字のサイズ情報抽出方法

Country Status (1)

Country Link
JP (1) JPH0415776A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06111064A (ja) * 1992-09-29 1994-04-22 N T T Data Tsushin Kk 文字切出し方法
JP2010044485A (ja) * 2008-08-11 2010-02-25 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06111064A (ja) * 1992-09-29 1994-04-22 N T T Data Tsushin Kk 文字切出し方法
JP2576079B2 (ja) * 1992-09-29 1997-01-29 エヌ・ティ・ティ・データ通信株式会社 文字切出し方法
JP2010044485A (ja) * 2008-08-11 2010-02-25 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法

Similar Documents

Publication Publication Date Title
Roy et al. HMM-based Indic handwritten word recognition using zone segmentation
KR100658119B1 (ko) 문자 인식 장치 및 방법
US7519226B2 (en) Form search apparatus and method
JP3576570B2 (ja) 比較方法
Guo et al. Separating handwritten material from machine printed text using hidden markov models
US8155425B1 (en) Automated check detection and image cropping
JP3452774B2 (ja) 文字認識方法
Pal et al. Machine-printed and hand-written text lines identification
JP2713622B2 (ja) 表形式文書読取装置
JP4280355B2 (ja) 文字認識装置
Pal et al. Automatic separation of machine-printed and hand-written text lines
Verma et al. Removal of obstacles in Devanagari script for efficient optical character recognition
Bukhari et al. Layout analysis of Arabic script documents
Naz et al. Challenges in baseline detection of Arabic script based languages
Bushofa et al. Segmentation of Arabic characters using their contour information
Spitz Generalized line, word and character finding
JPH0410087A (ja) 基本ライン抽出方法
Srinivas et al. An overview of OCR research in Indian scripts
JPH0415776A (ja) 文字のサイズ情報抽出方法
JPH11232439A (ja) 文書画像構造解析方法
JP2000331122A (ja) 文字認識方法および装置
JP2917427B2 (ja) 図面読取装置
JP3384634B2 (ja) 文字種識別方法
Rao et al. Font and size identification in Telugu printed document
JP3197441B2 (ja) 文字認識装置