JP3379663B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP3379663B2
JP3379663B2 JP26188394A JP26188394A JP3379663B2 JP 3379663 B2 JP3379663 B2 JP 3379663B2 JP 26188394 A JP26188394 A JP 26188394A JP 26188394 A JP26188394 A JP 26188394A JP 3379663 B2 JP3379663 B2 JP 3379663B2
Authority
JP
Japan
Prior art keywords
character
line
character line
ruby
lines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP26188394A
Other languages
English (en)
Other versions
JPH08101886A (ja
Inventor
佳孝 濱口
節正 広垣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP26188394A priority Critical patent/JP3379663B2/ja
Publication of JPH08101886A publication Critical patent/JPH08101886A/ja
Application granted granted Critical
Publication of JP3379663B2 publication Critical patent/JP3379663B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、光学式文字読取り装置
等の文書画像像処理に適した文字認識装置に関する。
【0002】
【従来の技術】光学式文字読取り装置には、一般的に、
入力画像中の文字を認識し、文字コードを出力する文字
認識装置が組み込まれている。このような文字認識装置
では、入力画像から行画像を切り出し、その行画像から
1文字の画像を切り出して、文字認識がなされている。
ところで、ルビを付す欄が指定された特定の帳票では、
指定されたルビ行の欄を読取ることなく、本文のみの読
取りを容易に行うことができる。しかしながら、通常文
書のように、格別にルビ欄が指定されていない文書にル
ビが付されている場合、光学式文字読取り装置での読取
り時、本文中に部分的にルビ文が混入することがあっ
た。
【0003】このような欠点を除去する技術として、特
公昭58−8024号公報がある。この従来技術によれ
ば、本文字行と、この本文字行に付されたルビ文字行と
を1つの文字行として切り出し処理し、切り出された行
の文字毎に、ルビが分離され、これによりルビを除く本
文の読取りが行われている。
【0004】
【発明が解決しようとする課題】しかしながら、この公
報に記載の従来技術では、本文字行と、これに付された
ルビ文字行とを1つの文字行として確実に切り出すこと
に、技術的な困難が伴う。そのため、ルビ行を単独で1
つの文字行として処理してしまうことがあり、本文中に
ルビ文が混入する虞れがあった。また、切り出し処理さ
れた各行についての各文字毎に、ルビの分離作業が行わ
れており、迅速な処理という点で、不満があった。この
ため、ルビを確実に分離して、本文にルビが混入するこ
とのない正確な読取り作業を早く処理できる文字認識装
置の出現が望まれていた。
【0005】
【課題を解決するための手段】本発明は、前述の課題を
解決するために、次の点に着目した。現在の行切り出し
の技術では、ルビ文字行およびこのルビが付される本文
字行に拘らず、各文字行をそれぞれ確実に行切り出しす
ることができる。また、各文章の最終に位置する文字を
含む最終文字行、すなわち文章の最終段に、ルビ文字行
が来ることはなく、この最終文字行は、ルビ文字ではな
い本文字行である。ルビ文字行が隣合って連続すること
はなく、ある文字行がルビ文字行であると判定されれ
ば、これに隣合う文字行は、ルビ文字行ではなく、本文
字行である。
【0006】以上の点に鑑み、本願発明の文字認識装置
のルビ判定部は、各文字領域において最終に位置する文
字を含む最終文字行の1つ前の文字行から先頭の文字行
へ向けて逆順で、判定対象となる文字行と、該文字行に
隣合う後側の文字行との比較で、判定処理を進め、前記
最終文字行および、ルビ文字行であると判定された文字
行の1つ前の文字行を、比較作業を行うことなくルビ文
字行ではないと判定することを特徴とする。
【0007】
【作用】本発明の文字認識装置では、そのルビ判定部
は、ルビ文字行ではないと判定する最終文字行である本
文字行から、先頭の文字行へ向けて逆順に判定を進め
る。この判定に際し、判定対象との比較となる文字行
は、ほぼ100%の精度で正しいと言える最終文字行た
る本文字行であり、判定の比較は、この本文字行を基礎
に行われることから、ルビ文字行であるか否かの判定
は、充分に信頼できる高い精度でなされる。しかも、ル
ビ文字行であると判定された文字行の1つ前の文字行を
比較することなくルビ文字行ではないと判定することに
より、無用な比較作業およびそれに伴うであろう誤った
判断結果の排除が可能となる。
【0008】
【実施例】以下、本発明を図示の実施例に沿って詳細に
説明する。図1は本発明の要部であるルビ文字行判定手
順を示す説明図であるが、これに先立ち、図2に示され
た本発明の文字認識装置の全体について説明する。図2
は、本発明に係る文字認識装置の実施例を示すブロック
図である。図2に示された本発明の文字認識装置10
は、光学的に読み取った文字を電気信号に変換して出力
する、例えば光電変換素子からなる光電変換部12を備
える。光電変換部12の出力は、A/D変換部14を経
て、イメージデータに変換され、このイメージデータが
イメージメモリ部16に格納される。
【0009】図3は、イメージメモリ部16に格納され
るイメージデータの一例である文書画像18を示す。図
3に示す例では、文書画像18には、丸印の行列で示さ
れる例えば横書きの第一の文字領域20と、罰印の行列
で示される例えば縦書きの第2の文字領域22とが含ま
れている。再び図2を参照するに、文字領域抽出部24
は、文書画像18から各文字領域20および22を抽出
する。行切り出し処理部26は、それぞれの文字領域2
0、22について、文字行を切り出す。
【0010】この文字行の切り出しでは、第1の文字領
域20については、横書きであることから、水平射影の
ヒストグラムを採用することができる。この場合、行間
には白画素が連続することから、黒画素数が一定値以下
となる座標のそれぞれの点で、文字領域20を上下に行
分割することにより、横方向に連続する文字列として、
文字領域を20を多数の行に分割することができる。他
方、第2の文字領域22については、縦書きであること
から、垂直投影のヒストグラムを採用することができ、
同様に、第2の文字領域22は、縦方向に連続する文字
列として、多数の行に分割される。縦書きについても、
横書きと同様の処理を受けることから、説明の簡略化の
ために、以下、横書きについて説明する。
【0011】横書きの文字領域20が行切り出し処理を
受けた状態が図1に示されており、この行切り出しを受
けた状態で図2に示す記憶部28に記憶される。記憶部
28に記憶された文字行は、ルビ文字行判定部30によ
り、図1に符号Rで指し示された矢印方向へ、最下段の
文字行L4から上段の文字行L1へ向けて逆順に、ルビ
文字行であるか否かを判定される。ルビ文字行であると
判定された文字行については、その旨の情報が記憶部2
8に付加される。
【0012】この付加情報の無い、すなわちルビ文字行
ではない本文字行は、文字切り出し部32で、一文字毎
に切り出される。切り出された文字は、文字認識部34
で認識され、文字コードとして、出力される。この出力
は、文字読取り装置等においては、図示しないが、例え
ばキャラクタジェネレータにより文字イメージに変換さ
れ、表示制御部を経て、表示装置で表示される。
【0013】図4および図5は、それぞれ本発明のルビ
文字行判定手順を示すフローチャートである。以下、図
4および図5に沿って、ルビ文字行判定手順を詳細に説
明する。ステップS1で、イメージメモリ部16に格納
された文書画像18は、ステップS2で、文字領域抽出
部24により文字領域20および22がそれぞれ抽出さ
れる。それぞれの文字領域20、22は、ステップS3
で、行切り出し処理部26により、行毎に切り出され
る。
【0014】切り出された各行は、図1に示したよう
に、各行L1〜L4毎に、外接矩形が求められる。図6
は、切り出し処理の結果得られた各行L1〜L4の外接
矩形についての左上端と右下端の座標の情報を示す説明
図である。座標情報は、図示の例では1/100インチ
で示されているが、ポイントあるいは画素のような行位
置を示すことのできるどのような単位をも用いることが
できる。この座標情報は、行切り出しによって得られた
図1の情報と共に、記憶部28に格納されている。以
下、図1に示す行切り出し結果に沿って説明する。
【0015】ルビ文字行判定部30で各行を逆順Rで判
定処理を行うが、各文章の最終に位置する文字を含む最
終文字行、すなわち文章の最終段L4に、ルビ文字行が
来ることはなく、この最終文字行は、ルビ文字ではない
本文字行である。従って、判定作業は、最終段L4の1
つ前の文字行L3から行えばよい。このことから、ステ
ップS4で、行数から1が減算されている。
【0016】そのため、ルビ文字行判定部30によるス
テップS5でのルビ判定作業を最終文字行L4が受ける
ことはなく、ルビ文字行でないとして処理される。この
ことから、判定の誤りによって最終文字行がルビ文字行
であるという誤った判定が下されることを確実に防止で
き、また処理速度を早めることができる。
【0017】ステップS5の判定作業の詳細は後述する
が、判定作業によってステップS6でルビ文字行である
と判定されると、ステップS7でその対象文字行が先頭
行でないか否かを判断する。先頭行であると判断されれ
ば、判定処理作業が終了する。また、ルビ文字行と判定
された文字行がステップS7で先頭行でないと判断され
た場合、ステップS8で行数を1減算され、ステップS
9で対象文字行の1つ前の文字行が先頭行であるか否か
判定される。
【0018】ルビ文字行であると判定された対象文字行
の1つ前の文字行は、ルビ文字行が連続して2行続くこ
とがないことから、判定処理作業を受けることなく、本
文字行であると判定される。従って、ステップS9で先
頭行であると判断されれば、判定処理作業が終了する。
また、ステップS9で先頭行でないと判断されれば、ス
テップS10で、行数が1減算されることから、ルビ文
字行に続く文字行は、判定処理作業を受けることなく、
本文字行であると判定される。
【0019】従って、ルビ文字行が連続して2行続くと
いう不合理な判定誤りを確実に防止することができる。
しかも、ルビ文字行ではあり得ない文字行についての判
定処理を除去することができることから、これに伴う誤
判定を除去できると共に、判定作業の迅速化を達成する
ことができる。
【0020】ステップS10で、行数が1減算された文
字行は、再びステップS5に戻され、順次、同様な処理
を受け、全ての文字行について判定処理が終了すると、
ステップS11に示されるように、文字切り出し部32
で所望の本文行についての文字の切り出し処理が行わ
れ、ステップS12に示されるように、文字認識部34
で、図示しない表示制御部等へ対応する文字コードが出
力される。また、記憶部に格納されているルビ文字行の
みを選択して、出力させることができ、これにより、行
間に書き加えられたコメントのような、行間の細い文字
行を選択的に出力させることができる。
【0021】続いて、ステップS5での判定作業の詳細
を図5に示されたステップS51〜S53に沿って詳細
に説明する。ステップS51〜S53では、主として、
処理対象の文字行と、処理対象の文字行に隣合う後側の
文字行との比較で判定が行われる。すなわち、文字行L
3の判定については、その後側である最終文字行L4が
比較の対象となる。
【0022】ステップS51では、例えば文字行L3の
判定に、この対象となる文字行L3と、比較基準となる
文字行L4との両文字行の長さが比較される。この比較
は、図6に示した座標のX座標値の減算によってなされ
る。文字行L3の長さについては、その行の右下端座標
のX座標値186から同行左上端座標のX座標値54を
差し引いた値「132」が求められる。また、文字行L
4の長さについては、その行の右下端座標のX座標値2
25から同行左下端座標のX座標値0を差し引いた値
「225」が求められる。
【0023】従って、両値の比較の結果、判定対象とな
っている文字行L3の方が短いため、この文字行L3が
ルビ文字行である可能性があることから、ステップS5
2へと引続き判定処理を進められる。これとは逆に、判
定対象となっている文字行L3の方が比較対象の最終文
字行より長い場合、本文字行である最終文字行よりも長
いルビ行文は、文書の体裁上、有り得ないことから、文
字行L3はルビ文字行ではないと判定され、判定処理手
順は、ステップS6からステップS9に進められる。
【0024】ステップS52では、例えば判定対象であ
る文字行L3と、比較対象となる文字行L4との両文字
行の行幅が比較され、前者の後者に対する比率がある閾
値、例えば0.5以上であればルビ文字行ではないと判
定される。文字行L3の行幅については、その行の右下
端座標のY座標値71から同行左上端座標のY座標値6
4を差し引いた値「7」が求められる。また、文字行L
4の行幅については、その行の右下端座標のY座標値9
1から同行左上座標のY座標値74を差し引いた値「1
7」が求められる。
【0025】両値「7」、「17」を基に、前者の後者
に対する比7/17が求められ、この比の値と閾値との
比較が行われる。閾値が0.5の場合、比の値はこれよ
り小さく、従って、判定対象の文字行は、ルビ文字行の
可能性があることから、ステップS53へと引続き判定
処理を進められる。これとは逆に、前記した文字幅の比
の値が閾値以上場合、文字行L3はルビ文字行ではない
と判定され、判定処理手順は、ステップS6からステッ
プS9に進められる。
【0026】ステップS53では、例えば判定対象であ
る文字行L3と、比較対象となる文字行L4との行間
と、比較対象の文字行L4の行幅とが比較され、前者の
後者に対する比率がある閾値、例えば0.25より小さ
ければ、ルビ文字行であると判定される。文字行L3と
L4との行間については、L4行の左上端座標のY座標
値74からL3行右下端座標のY座標値71を差し引い
た値「3」が求められる。また、文字行L4の行幅につ
いては、ステップS52におけると同様に、その行の右
下端座標のY座標値91から同行左上座標のY座標値7
4を差し引いた値「17」が求められる。
【0027】この両値を基に、前者の後者に対する比3
/17が求められ、この比の値と閾値、例えば0.25
との比較が行われる。比の値3/17は、この閾値より
小さく、従って、判定対象の文字行は、ルビ文字行であ
ると判定される。その結果、判定処理手順は、ステップ
S6からステップS7へと進められる。これとは逆に、
前記した行間と文字幅の比の値が閾値以上である場合、
文字行L3はルビ文字行ではないと判定され、判定処理
手順は、ステップS6からステップS9に進められる。
【0028】判定対象文字行がルビ文字行でないと判定
されてステップS6からステップS9に進められた処理
手順では、先に述べたように、判定対象が先頭行である
か否かの判断がなされる(ステップS9)。判定対象文
字行が先頭行でない場合、判定処理を前の文字行に移行
するために行数の減算が行われ(ステップS10)、こ
の前の文字行が判定処理を受ける(ステップS5)。ま
た、判定対象文字行がルビ文字行であると判定されてス
テップS6からステップS7に進められた処理手順で
は、先に述べた通り、判定対象が先頭行であるか否かの
判断がなされる(ステップS7)。判定対象文字行が、
先頭行でない場合、判定対象となった文字行の前の文字
行を判定作業から除外するために、行数の減算が行われ
(ステップS8)、さらに、除外された文字行の前の文
字行が判定処理を受ける(ステップS5)。
【0029】このように、最終文字行の1つ前の文字行
から先頭行へ向けて逆順にルビ判定処理を施すことによ
り、最終文字行と、ルビ文字行であると判定された1つ
前の文字行とを、実質的な判定処理を行うことなくルビ
文字行ではないとして処理することができる。従って、
構成の簡素化と共に、無用な判定作業を除去し、それに
伴う誤った判定結果を排除することができることから、
ルビ文字の混入しない正確な文章の読取り作業を高速で
行うことができる。
【0030】ステップS51ないしステップS53の演
算処理は、従来よく知られた図示しない比較回路等によ
り構成することができ、またゲート回路の組み合せ等に
よって構成することができる。また、ルビ文字行の判定
のために、文字行の長さの比較、文字行の幅の比較およ
び文字行の行間と行幅との比較を直列的に行った例につ
いて説明したが、必要に応じて、これらの比較判定の順
序を入れ換え、あるいはその一部を省略することもでき
る。しかしながら、より高い精度のルビ文字行の判定結
果を得る上で、図示の実施例に示した通り、文字行の長
さの比較、文字行の幅の比較および文字行の行間と行幅
との比較を直列的に行なうことが好ましい。また、ルビ
文字行の判定のために、文字行の長さの比較、文字行の
幅の比較および文字行の行間と行幅との比較に換えて、
種々の判定手法を適用することができる。
【0031】
【発明の効果】以上説明したように、本発明の文字認識
装置では、ルビ文字行であるか否かの判定は、ルビ文字
行ではないと判定する最終文字行から、先頭の文字行へ
向けて逆順に進められ、判定対象との比較は、最終文字
行たる本文字行を基礎に行われることから、充分に信頼
できる高い精度でなされる。しかも、ルビ文字行である
と判定された文字行の1つ前の文字行を比較する事なく
ルビ文字行ではないと判定することにより、無用な比較
作業およびそれに伴うであろう誤った判断結果の排除が
可能となる。従って、本発明によれば、ルビ判定の誤り
による本文中へのルビ文の混入を確実に防止することが
でき、しかも迅速な文書読取り処理が可能となる。
【図面の簡単な説明】
【図1】本発明に係るルビ文字行判定手順を示す説明図
である。
【図2】本発明の光学式文字読取り装置のブロック図で
ある。
【図3】本発明の文書画像文字領域の一例を示す説明図
である。
【図4】本発明のルビ文字行判定手順を示すフローチャ
ートである。
【図5】本発明のルビ文字行判定手順のサブルーチンを
示すフローチャートである。
【図6】本発明の行切り出し処理結果を示す説明図であ
る。
【符号の説明】
10 文字認識装置 18 文書画像 20、22 文字領域 24 文字領域抽出部 26 行切り出し処理部 30 ルビ文字行判定部 32 文字切り出し部 34 文字認識部 L1〜L4 文字行 R 逆順
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/76

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 文書画像の各文字領域から切り出された
    各文字行がルビ文字行であるか否かを判定するルビ文字
    行判定部を含む文字認識装置であって、 前記ルビ文字行判定部は、 各文字領域において最終に位置する文字を含む最終文字
    行の1つ前の文字行から先頭の文字行へ向けて逆順で、
    判定対象となる文字行と、該文字行に隣合う後側の文字
    行との比較で、判定処理を進め、 前記最終文字行および、ルビ文字行であると判定された
    文字行の1つ前の文字行を、比較作業を行うことなくル
    ビ文字行ではないと判定することを特徴とする、文字認
    識装置。
  2. 【請求項2】 ルビ文字行であるか否かの判定は、文字
    行の長さの比較、文字行の行幅の比較あるいは隣合う文
    字行との行間と当該隣合う文字行の行幅との比較のうち
    の少なくとも一種類の比較に基づくことを特徴とする、
    請求項1記載の文字認識装置。
  3. 【請求項3】 ルビ文字行を含む文章画像から文書領域
    を抽出する文字領域抽出部と、 各文字領域における文章を文字行毎に切り出す行切り出
    し処理部と、 各文字領域において最終に位置する文字を含む最終文字
    行の1つ前の文字行から先頭の文字行へ向けて逆順でル
    ビ文字行であるか否かを、判定対象となる文字行と、該
    文字行に隣合う後側の文字行との比較で判定し、かつ前
    記最終文字行と、ルビ文字行であると判定された文字行
    の1つ前の文字行とを、比較することなくルビ文字行で
    ないと判定するルビ文字行判定部と、 ルビ文字行を除く文字行から文字を切り出す文字切り出
    し部と、 該文字切り出し部により切り出された文字を文字コード
    として出力する文字認識部とを含む、文字認識装置。
  4. 【請求項4】 前記ルビ文字行判定部は、文字行の長さ
    の比較、文字行の幅の比較および隣合う文字行との行間
    と当該隣合う文字行の行幅との比較を行う各比較回路を
    備える請求項3記載の文字認識装置。
JP26188394A 1994-09-30 1994-09-30 文字認識装置 Expired - Fee Related JP3379663B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26188394A JP3379663B2 (ja) 1994-09-30 1994-09-30 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26188394A JP3379663B2 (ja) 1994-09-30 1994-09-30 文字認識装置

Publications (2)

Publication Number Publication Date
JPH08101886A JPH08101886A (ja) 1996-04-16
JP3379663B2 true JP3379663B2 (ja) 2003-02-24

Family

ID=17368094

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26188394A Expired - Fee Related JP3379663B2 (ja) 1994-09-30 1994-09-30 文字認識装置

Country Status (1)

Country Link
JP (1) JP3379663B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6030915B2 (ja) * 2012-10-19 2016-11-24 エヌ・ティ・ティ・コミュニケーションズ株式会社 画像再配置方法、画像再配置システム、および画像再配置プログラム
JP6152633B2 (ja) * 2012-10-31 2017-06-28 大日本印刷株式会社 表示制御装置及びプログラム

Also Published As

Publication number Publication date
JPH08101886A (ja) 1996-04-16

Similar Documents

Publication Publication Date Title
KR100383858B1 (ko) 문자인식장치의 문자추출방법 및 장치
JP3379663B2 (ja) 文字認識装置
JPH06208625A (ja) 画像処理方法及び装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP3019897B2 (ja) 行切出し方法
JP2803736B2 (ja) 文字認識方式
JP3437296B2 (ja) 文字列高速抽出装置
JP3220226B2 (ja) 文字列方向判別方法
JP3045086B2 (ja) 光学式文字読取方法および装置
JPH09269970A (ja) 文字認識方法とその装置
JPH07160810A (ja) 文字認識装置
JPH117493A (ja) 文字認識処理装置
JP3167551B2 (ja) 文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH04130979A (ja) 文字画像切出し方法
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP3027232B2 (ja) 文字認識装置
JPH11242716A (ja) 画像処理方法および記録媒体
JP2878327B2 (ja) 文字切り出し装置
JPH06139406A (ja) 文字切り出し方法
JPH06301814A (ja) 文字読取装置
JPH10233930A (ja) 画像処理装置
JP2000113101A (ja) 文字切り出し方法および装置
JPH0573721A (ja) 表認識装置
JPH0728938A (ja) 文字認識装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees