JPH09282417A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH09282417A
JPH09282417A JP8096504A JP9650496A JPH09282417A JP H09282417 A JPH09282417 A JP H09282417A JP 8096504 A JP8096504 A JP 8096504A JP 9650496 A JP9650496 A JP 9650496A JP H09282417 A JPH09282417 A JP H09282417A
Authority
JP
Japan
Prior art keywords
character
unit
image
pitch
cutout
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8096504A
Other languages
English (en)
Inventor
Kenji Kondo
堅司 近藤
Taro Imagawa
太郎 今川
Susumu Maruno
進 丸野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP8096504A priority Critical patent/JPH09282417A/ja
Publication of JPH09282417A publication Critical patent/JPH09282417A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 文書画像の構造を判断し、その構造に応じた
切り出し処理を行うことで、切り出し効率と認識率を向
上させた文字認識装置を提供する。 【解決手段】 文字切り出し手段2を文書画像の構造を
判断する文書構造判断部2aと、行切り出し部2bと、
行の画像が定ピッチであるか不定ピッチであるかを判断
するピッチ判定部2cと、ピッチ判定部2cの結果に基
づいて1文字と思われる画像を切り出す文字切り出し部
2dとで構成し、文字認識手段4を、認識部指示部4a
と複数の認識部4bと再切り出し指示部4cとで構成
し、認識部指示部4aは複数の前記認識部4bのなかか
ら認識部4bを選択し、認識部指示部4aで選択された
認識部4bは文字カテゴリを判定し、再切り出し指示部
4cは文字切り出し部2dに再切り出しを命ずる文字認
識装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、用紙に記載された
文章から1文字を切り出し、切り出した1文字毎に認識
する光学式の文字認識装置に関する。
【0002】
【従来の技術】新聞・雑誌等の印刷文書を認識するため
には、文書画像をから個々の文字画像を正確に切り出す
ことが、必要不可欠である。その場合、カナ、漢字、英
数字、記号などが混在すると文字ピッチが大きく変動す
る不定ピッチ文章から文字を切り出す場合だけでなく、
日本語のような定ピッチの文章でも、偏と旁の間隔によ
って2文字に分離してしまったり、印刷のつぶれなどに
より2文字が接触した文字が存在することなどが、高精
度の文字自動切り出しを実現する上で問題となってい
る。
【0003】このような分離文字や、接触文字を正確に
切り出すために、文字画像中の、文字の存在する部分の
文字らしさを評価するという手法がある。もし評価値が
小さければ、それは文字として見なされず切り出しが間
違っているとし、評価値が大きい場合は、正しく切り出
されているとみなす(”部分空間法による認識をベース
とした手書き文字の切り出し”, 電子情報通信学会技術
研究報告, PRU94-97,pp.1-8, 1995年1月)。
【0004】この手法は、部分空間法に基づいて文字を
切り出す。部分空間法による文字認識では、図32のよ
うに、入力文字xと各文字カテゴリωiの部分空間との
距離を求め、これが最小となるカテゴリに入力文字xを
分類する。
【0005】認識に先だって、まず始めに文字データの
各カテゴリωiの正規直交基底Vi={vi1, ... , vir}を
求める。ここで、rは部分空間の次元数である。この正
規直交基底は、学習に用いる文字データとの全距離が最
小になる軸として求める。実際は、文字データの相関行
列を固有値分解したときの固有ベクトルとして求める。
次に部分空間の次元数rを(数1)で表すような累積寄与
率(CCR)がある閾値以上になるrの値として求める。
【0006】
【数1】
【0007】ここで、αiは相関行列を固有値分解する
ことで得られるi番目の固有値である。このようにして
各文字カテゴリの部分空間を求める。また、認識時は、
観測空間内の任意の文字データxと文字カテゴリωiの
部分空間Viとの距離を考える。文字データxを部分空
間Viに射影する射影行列をPiとすると、距離は(数2)
で示される。
【0008】
【数2】
【0009】この距離が一番小さくなる部分空間Vkの
カテゴリkを認識結果とする。そして、認識をベースと
した文字の切り出してあるが、文字の大きさは一定であ
ると仮定し、図33のように、入力された2値画像をま
ず固定サイズの窓で走査する。窓内では、加重方向指数
ヒストグラム特徴を求め、196次元の特徴量を得た後、
各文字の部分空間に射影する。
【0010】文字認識の結果、入力文字データxの文字
コードとその信頼度が得られる。信頼度は(数3)に示す
ように射影ベクトルの大きさを正規化した大きさで求め
る。
【0011】
【数3】
【0012】以上の処理を行った時点で、各窓領域に対
して、文字コードとその信頼度が得られているので、同
一の文字コードが、予め定めた閾値以上で群を形成して
いる部分を文字認識結果とし、同一の文字コード群の中
で最も信頼度の高い画像を中心に、個々の文字領域を切
り出す。
【0013】この手法を用いると、接触した文字も、文
字画像の個々の位置で文字らしさを評価することによ
り、ただ接触しているという理由で1文字とみなされる
ことはなくなり、高精度で切り出すことができる。
【0014】
【発明が解決しようとする課題】しかしながらこの従来
の手法では、文書画像中において明らかに文字が存在し
ないと分かる領域に対しても、認識を行うので、認識
(切り出しも含む)時間が、膨大になってしまう。
【0015】本発明は、上記問題点に臨んで、最初は、
文書画像の周辺分布をもとに定ピッチ、不定ピッチを判
断し、その結果に応じて行、文字を切り出した後、認識
を行い、認識後の文字カテゴリの信頼度が低い場合の
み、再切り出しをして再度認識を行うので、非常に効率
が良く、精度の高い認識を行うことができる。
【0016】
【課題を解決するための手段】上記目的を達成するため
に、本発明の文字認識装置は、認識する対象の文書画像
を入力する画像入力手段と、前記画像入力手段で入力し
た文書画像から1文字と見做した画像を切り出す文字切
り出し手段と、前記文字切り出し手段で切り出した画像
から特徴量を抽出する特徴量抽出手段と、前記特徴量抽
出手段で抽出した特徴量の文字カテゴリを識別する文字
認識手段を具備し、前記文字切り出し手段を、前記画像
入力手段で入力した文書画像が縦書きであるか横書きで
あるかを判断する文書構造判断部と、前記文書構造判断
部で判断した結果に基づいて前記画像入力手段で入力し
た文書画像から1行と見做した画像を切り出す行切り出
し部と、前記行切り出し部で切り出した画像が定ピッチ
の行であるか不定ピッチの行であるかを判断するピッチ
判定部と、前記ピッチ判定部で判定した結果に基づいて
前記行切り出し部で切り出した画像から1文字と見做し
た画像を切り出す文字切り出し部とで構成し、前記文字
認識手段を、認識部指示部と複数の認識部と再切り出し
指示部とで構成し、前記認識部指示部は、前記文字切り
出し部で切り出した画像に基づいて複数の前記認識部の
なかから認識部を選択し、前記認識部指示部で選択した
認識部は前記特徴量抽出手段で抽出した特徴量の文字カ
テゴリを判定し、前記再切り出し指示部は、前記認識部
で求めた認識結果に基づいて前記文字切り出し部に再切
り出しを命ずる再切り出し指示部とで構成する。
【0017】
【発明の実施の形態】本発明の文字認識装置は、文書構
造判断部において認識対象の文書画像が縦書きであるか
横書きであるか判断し、行切り出し部において1行と見
做した画像を切り出す。そしてピッチ判定部において、
1行と見做した文書画像が定ピッチであるか不定ピッチ
であるか判断し、文字切り出し部において、ピッチ判定
部の結果に基づいて1文字と見做した画像を切り出す。
特徴量抽出手段では、文字切り出し部で切り出した文字
画像から特徴量を抽出する。そして、認識部指示部で
は、文字切り出し部で切り出した文字画像の特徴に基づ
いて複数の認識部のなかから認識を行う認識部を選択
し、選択された認識部では、特徴量抽出手段で抽出した
特徴量の文字カテゴリを判定する。再切り出し指示部で
は認識部で判定した結果の信頼性がないと判断した場合
には、文字切り出し部に再切り出しを命ずる。
【0018】以下、図面を参照して本発明の実施の形態
を説明する。 (実施の形態1)図1、図2、図3は、本発明の第1の
実施の形態における文字認識装置の構成図である。図1
において、画像入力手段1、文字切り出し手段2、特徴
量抽出手段3、文字認識手段4で文字認識装置を構成す
る。また、文書構造判断部2a、行切り出し部2b、ピ
ッチ判定部2c、文字切り出し部2dとで文字切り出し
手段2を構成し、認識部指示部4a、認識部4b、再切
り出し指示部4cとで文字認識手段4を構成する。ま
た、図2において、画像入力部1a、2値化部1bで、
図1の画像入力手段1を、図3において、全角文字認識
部4d、半角文字認識部4eで、図1の認識部4bを構
成する。
【0019】次にこのような構成の文字認識装置の動作
について詳細に説明する。認識対象の文書画像をスキャ
ナなどの画像入力機器により、画像入力部1aに入力し
文書画像の多値イメージを得た後、2値化部1bで2値
化を行い、2値化された文書画像を得る。そして、文書
構造判断部2aでは、図4のような処理を行う。
【0020】まず、図5のように、文書画像の縦方向と
横方向のそれぞれに投影して濃度投影ヒストグラムH
x、Hyを作成する。ヒストグラムHx、Hyを得た後
は、ヒストグラムHx、Hyを一定の長さLの範囲で積
分し、その値をそれぞれ画像の縦方向の長さimg_y、横
方向の長さimg_xで割って正規化し、(数4)のよう
に、その値を比べることにより縦書きか横書きかを判断
する。この場合は、横書きであると判断される。
【0021】
【数4】
【0022】そして、行切り出し部2bでは、縦書きな
らばヒストグラムHxを、横書きならばヒストグラムH
yを参考にして、行を切り出す。この場合は横書きなの
で、ヒストグラムHyに着目する。図6のように、ヒス
トグラムHy中で、予め定めた閾値αよりも小さい点か
ら閾値α以上の点に変わる点の座標をsi(i=1,
2,3,...,N)と定め、閾値α以上の点から、閾
値αよりも小さい点に変わる点の座標をei(i=1,
2,3,...,N)と定める。この時、ei−siの
値が予め定めた閾値よりも小さい場合はノイズとみな
し、siとeiは無視する。そして、(si+ei+1)/
2の位置で画像を分割し、行を全て切り出す。この時
(数5)のように、縦書きならば文字の幅の平均Wave
を、横書きならば文字の高さの平均Haveを求めてお
く。今は、横書きということで、文字の高さの平均Hav
e=70を得る。
【0023】
【数5】
【0024】次にピッチ判定部2cでは、図7、図8の
ような処理を行う。ここで、図8は、図7の太線で囲っ
た部分の詳細なフローチャートである。まず、図9のよ
うに行の進行方向に垂直な方向に文書画像を投影して、
1行の濃度投影ヒストグラムHを作成する。そして図1
0のように、ヒストグラムHにおいて、予め定めた閾値
β1以下の点の次の点で閾値β1よりも大きくなる点を
文字開始点候補cn(n=1,2,3,...)とし、
全ての文字開始点候補cn間の距離を求める。
【0025】その後に、文字開始点候補cn間距離ln
の頻度分布を表すヒストグラムHdを作成する。得られ
たヒストグラムHdは、図11の様になり、この図11
において、ある程度周期的に文字開始点候補cn間距離
が存在していれば定ピッチ、そうでなければ不定ピッチ
と判断し、特に定ピッチの場合は、ピッチを推定する。
【0026】具体的には、図8の処理を行い、ヒストグ
ラムHdにおいて、頻度0で区切られる区間のピーク位
置Pi(i=1,2,3,...)を検出する。ただ
し、ピーク位置は頻度が1より大きいことを条件とす
る。すると、図12のようにピーク位置Piが得られ
る。そして、P1=21の整数倍の位置、すなわち、4
2,63,84,...の近傍(ここでは近傍を±2以
内の位置と定める)全てに他のピークPiが存在するか
どうかを調べる。結果として、ピークは存在しないの
で、次はP2=28の整数倍の位置の近傍全てに、他の
ピークが存在するかどうか調べる。もし存在すれば、1
行のヒストグラムHにおいて、最初の文字開始点候補c
1から、Piの整数倍を加算した部分の近傍(ここでは
近傍を±2の位置と定める)に、閾値β1以下の部分が
存在するかどうか調べる。存在すればPiを推定ピッチ
とし、存在しなければ次はP3=34の整数倍の位置の
近傍全てにピーク位置があるかどうか調べる。このよう
にして、処理を続けていき、Piが行の長さの半分を超
えたとき、すなわち、Piの2倍の文字開始点候補間距
離が確保できなくなった場合に、不定ピッチであると判
断する。このような処理の結果、本実施の形態では不定
ピッチと判断される。
【0027】そして、文字切り出し部2dでは、図13
のように、定ピッチか不定ピッチにより、異なった処理
を行う。今は、不定ピッチの場合を考える。ピッチ判定
部2cで不定ピッチと判断された場合は、図14のよう
に文字開始点候補cnから、次の文字開始点候補cn+1ま
での画像を1文字として切り出し、1文字の幅ln=cn
+1−cnを求める。もし、文字幅lnが閾値γよりも大
きければ、複数の文字が接触していているものが単一の
文字として切り出されていると判断し、再切り出しを命
じる。ここで、閾値γは、横書きの場合は、γ=Have
×c(c:予め定めた定数)、縦書きの場合はγ=Wav
e×cとする。
【0028】再切り出しを命じられると、行切り出し部
2bで求めたヒストグラムHにおいて、新たに定めた閾
値β2以下の部分があれば、その部分を区切りとして文
字を切り出す。ここで、β2=β1+βc(βc:予め
定めた定数)、すなわち、ピッチ判定部2cで用いた閾
値β1に予め定めておいた値βcを加えたものを閾値と
する。もし、β2以下の部分がなければ、さらに現在の
β2にβcを加え、閾値を大きくする。こうして、1行
の文書画像から1文字を切り出す。また、再切り出し指
示部4bから再切り出しを指示された場合は、その指示
が、全角文字認識部4dで認識した結果により再切り出
しになった時と、半角文字認識部4eで認識した結果に
より再切り出しになった時により異なった処理を行う。
再切り出しの指示が全角文字認識部4dで認識した結果
による場合は、現在の閾値β2にβcを加え、閾値を大
きくしてさらに文字画像を区切る。また、再切り出しの
指示が半角文字認識部4eで認識した結果による場合
は、現在の1文字の候補画像に、次の1文字の候補画像
を加えたものを新たに1文字として切り出す。
【0029】1文字の画像を切り出したら、特徴量抽出
手段3で特徴量を抽出する。最後に認識部指示部4a
は、文字切り出し部2dで切り出した1文字の幅ln
と、行切り出し部2bで求めた文字の高さの平均Have
の比R=ln/Have が予め定めた閾値Rth以上なら
ば、全角文字認識部4dを選択し、閾値Rthより小さい
ならば、半角文字認識部4eを選択する。
【0030】全角文字認識部4dと半角文字認識部4e
は、それぞれ図15のような階層型のニューラルネット
ワークで構成されている。また、全角文字認識部4d
は、ひらがな、カタカナ、漢字などの全角文字に関し
て、対応するカテゴリを表す出力ニューロンが強く発火
するように予め学習してある。半角文字認識部4eは、
英数字や記号などの半角文字に関しては、対応するカテ
ゴリを表す出力ニューロンが強く発火するように予め学
習してあり、加えて、全角文字を誤って切り出したとき
の偏や旁も、全角文字の一部を表す出力ニューロンが強
く発火するように学習してある。
【0031】そして、認識時には、認識部指示部で選択
された全角文字認識部4dあるいは半角文字4eは、認
識対象の各カテゴリに対応する出力値を出力する。そし
て、再切り出し指示部4cでは、半角文字認識部4eで
全角文字の一部を表す出力ニューロンが強く発火した場
合は、切り出しミスである可能性が高いと判断し、文字
切り出し部2dに再切り出しを命ずる。それ以外の場合
は、出力値が最も大きいものOmaxと、出力値が次に大
きいものOsecとの比Ro=Omax/Osecをとり、それを
信頼度とし、この信頼度Rが予め定めた閾値Rthよりも
小さい場合は、文字切り出し部2dに再切り出しを命
じ、閾値R1以上ならば、認識結果として採用し、文字
切り出し部2dに戻り、次の文字を切り出す。また、1
行の全ての文字を認識したら、ピッチ判定部2cに戻
り、次の行の処理を行う。
【0032】今は図14で、「変」という字の画像と、
その幅l1=80という情報が送られてきた場合を考え
る。今は、Rth=0.5とし、R=ln/Have=80
/70≒1.14≧Rthなので、全角文字認識部4dで
認識を行う。そして、全角文字認識部4dにおいて認識
した結果、「変」という字に対応する出力ニューロンの
値が最も大きくなり(出力値Omax=1000)、
「恋」という字に対応する出力ニューロンの値が2番目
に大きくなる(出力値Osec=300)。その比Ro=1
000/300≒3.33を信頼度となり、今はRth=
1.5とし、Ro>Rthなので、「変」を認識結果とす
る。
【0033】次に、図16のように、文字切り出し部2
dで、「河」という字の左の「さんずい」と右の部分
「可」が誤って別々の文字として切り出された場合を考
える。まず、「さんずい」の部分を1文字として認識す
るわけであるが、R=ln/Have=30/70≒0.
43<Rth=0.5なので半角文字認識部4eで認識を
行う。半角文字認識部4eは、予め間違って切り出しや
すい全角文字(特に漢字)の偏などを予め学習させてあ
るので、「さんずい」は、全角文字の1部分であると認
識される。この場合は、再切り出し指示部では、間違っ
て切り出されたと判断するので、文字切り出し部2dに
再切り出しを命じ、文字切り出し部2dは次の文字候補
と一緒に1文字として新たに切り出す。次は、正しく切
り出されているので、全角文字認識部4dで認識が行わ
れる。
【0034】次に、図17のように、文字切り出し部2
dで、半角文字2つ「ab」が誤って、同一の文字として
切り出された場合を考える。R=ln/Have=60/
70≒0.86≧Rthなので、全角文字判断部4dで認
識を行う。そして、全角文字認識部4dにおいて認識し
た結果、「ab」に該当するような文字はないので、最も
似ている文字を表すニューロン(出力:Omax)と、次
に似ている文字を表すニューロン(出力:Osec)が弱
く発火する。よって、OmaxとOsecの出力の比は小さく
なり、信頼度Ro=Omax/Osecは、予め定めた閾値Rt
hよりも小さくなる。よって再切り出し指示部4bで、
再切り出しが指示され、文字切り出し部2dでは、閾値
β2を大きくしてヒストグラムの分割を行うので、今度
は「a」と「b」が分離して切り出され、半角文字認識部
4eが認識を行うことになる。
【0035】本実施の形態では、文字切り出し手段2の
文書構造判断部2aで、縦書きか横書きを判断し、その
結果により行切り出し部2bで1行の切り出しを行う。
次にピッチ判定部2cで、定ピッチの文書か不定ピッチ
の文書か判断し、その結果により、文字切り出し部2d
で1文字の仮切り出しを行う。ここまでは、文書画像の
周辺分布を見ることにより、行を切り出し、1文字を仮
に切り出すので、文字の存在しないところに対しても認
識を行いながら文字を切り出す従来の技術よりも高速に
文字切り出しを行うことができる。その後、認識部4b
で認識を行い、認識後の文字カテゴリの信頼度が低い場
合のみ、再切り出し指示部4bで、文字切り出し部2d
へ再切り出しを指示する。また、この時認識部4bは、
全角文字認識部4d、半角文字認識部4eとから構成さ
れる。
【0036】全角文字認識部4dは、予め、ひらがな、
カタカナ、漢字等の全角文字を学習しており、出力値の
比である信頼度が低い場合には再切り出し指示部4bが
文字切り出し部に再切り出しを命じる。これは、アルフ
ァベット等の2つ以上の半角文字が連続しているもの
が、誤って切り出された場合に有効である。
【0037】特に半角文字認識部4eは、英数字・記号
等の半角文字のみでなく、漢字の偏も同時に学習してい
る。よって、半角文字認識部4eで、そのような偏を認
識結果として持った場合は、文字切り出し部2dでは、
次の文字候補と合わせて新たに1文字として切り出す。
これは、誤って切り出されやすい分離した漢字も正しく
認識することができる。
【0038】なお、本実施の形態では、認識部4bに図
15のような単一の階層型ニューラルネットワークを用
いたが、他のニューラルネットワークでも、複数のニュ
ーラルネットワークを構造化した構造化ニューラルネッ
トワークでもよい。
【0039】(実施の形態2)図1、図2、図18は本
発明の第2の実施の形態における文字認識装置の構成図
である。図1において、画像入力手段1、文字切り出し
手段2、特徴量抽出手段3、文字認識手段4で文字認識
装置を構成する。また、文書構造判断部2a、行切り出
し部2b、ピッチ判定部2c、文字切り出し部2dとで
文字切り出し手段2を構成し、認識部指示部4a、認識
部4b、再切り出し指示部4cとで文字認識手段4を構
成する。また、図2において、画像入力部1a、2値化
部1bで、図1の画像入力手段1を、図18において、
通常文字認識部4f、小文字認識部4gで、図1の認識
部4bを構成する。
【0040】次にこのような構成の文字認識装置の動作
について詳細に説明する。画像入力手段1、文書構造判
断部2aでの動作は実施の形態1と同様である。画像入
力手段1で入力した文書画像を2値化し、濃度投影ヒス
トグラムHx、Hyを作成すると図19のようになり、
縦書きと判断される。
【0041】行切り出し部2bでは、本実施の形態で
は、縦書きということで、ヒストグラムHxに着目す
る。図20ように、ヒストグラムHx中で予め定めた閾
値αよりも小さい点から閾値α以上の点に変わる点の座
標をsi(i=1,2,3,...,N)と定め、閾値
α以上の点から、閾値αよりも小さい点に変わる点の座
標をei(i=1,2,3,...,N)と定める。こ
の時、ei−siの値が予め定めた閾値よりも小さい場
合はノイズとみなし、siとeiは無視する。そして、
(si+ei+1)/2の位置で画像を分割し、行を全て切
り出す。この時(数5)のように、縦書きならば文字の
幅の平均Waveを、横書きならば文字の高さの平均Have
を求めておく。今は、縦書きということで、文字の幅の
平均Wave=41を得る。
【0042】次にピッチ判定部2cでは、実施の形態1
と同様に図7、図8のような処理を行う。まず、図21
のように行の進行方向に垂直な方向に文書画像を投影し
て、1行の濃度投影ヒストグラムHを作成する。そし
て、図22のように、ヒストグラムHにおいて、予め定
めた閾値β1以下の点の次の点で閾値β1よりも大きく
なる点を文字開始点候補cn(n=1,2,
3,...)とし、全ての文字開始点候補cn間の距離
を求める。
【0043】その後に、図23のように、文字開始点候
補cn間距離の頻度分布を表すヒストグラムHdを作成
し、ある程度、周期的に文字開始点候補cn間距離が存
在していれば定ピッチ、そうでなければ不定ピッチと判
断し、特に定ピッチの場合は、ピッチを推定する。具体
的には、図8の処理を行う。まず、ヒストグラムHdに
おいて、頻度0で区切られる区間内のピーク位置Pi
(i=1,2,3,...)を検出する。ただし、ピー
ク位置は頻度が1より大きいことを条件とする。する
と、図24のようにピーク位置Piが得られる。そし
て、P1=22の整数倍の位置、すなわち、44,6
6,88,...の近傍(ここでは、±2の位置)全て
に他のピークPiが存在するかどうかを調べる。結果と
して、ピークは存在しないので、次はP2=43の整数
倍の位置の近傍全てに、他のピークが存在するかどうか
調べる。この場合は存在するので、1行のヒストグラム
Hにおいて、最初の文字開始点候補c1から、Piの整
数倍を加算した部分の近傍(ここでは、±2の位置)
に、閾値β1以下の部分が存在するかどうか調べる。存
在すればPiを推定ピッチとし、存在しなければ次はP
3=63の整数倍の位置の近傍全てにピーク位置がある
かどうか調べる。結果として、1行のヒストグラムHに
おいて閾値β1以下の部分が存在するので、このP=4
3(=P2)を推定ピッチとする。
【0044】そして文字切り出し部2dでは、図13の
ように、定ピッチか不定ピッチにより、異なった処理を
行う。今は、定ピッチなので、図25のような処理を行
う。ここで、図25は、図13の太線の部分の処理の詳
細図である。まず、1文字分のヒストグラムHにおい
て、閾値β1以下の部分に値Rを与え、閾値β1より大
きい部分に値0を与え、切り出し位置の候補を示す関数
fを作成する。作成した関数fは、図26のようにな
る。次に、推定ピッチPの幅を持ち、両端に値を、中央
に向かうに従い、減少する値を持つ基本関数h0を作成
する。今は、図27のような関数を考える。そして、基
本関数h0を予め定めた複数個繰り返した関数hを作成
し、図28の関数hを得る。そして、図29のように、
関数fに、ヒストグラムHにおいて現在の切り出し位置
から、関数hを推定ピッチPの区間だけずらしながら、
双方の値を掛け合わせ、その掛け合わせた値を加算す
る。また、行の先頭では、現在の切り出し位置は先頭の
文字開始点候補c1から推定ピッチPだけ戻った位置と
定める。また、先頭の文字開始点候補c1から推定ピッ
チPだけ戻った位置が存在しないならば、先頭位置y=
0を現在の切り出し位置とする。
【0045】図30のように、値が最も大きくなる位置
を求めたら、ヒストグラムHにおいて、h0の先頭に相
当する位置が、閾値β1以下の点であるか調べる。も
し、閾値β1以下の点であれば、その位置を切り出し位
置とし、図31のように、閾値β1よりも大きければ、
その位置の近傍でヒストグラムHの値が最も小さくなる
点を切り出し位置とする。このようにして切り出し位置
を決定したら、1行の画像のうち、今回求めた切り出し
位置までの部分を1文字の画像として切り出す。また、
再切り出し指示部4bから再切り出しの指示が下った場
合は、行のヒストグラムHにおいて、現在切り出されて
いる1文字の画像に対応する区間で、文字開始点候補c
nが存在するか調べる。もし存在すれば、その位置で画
像を分割し、新たに定めた1文字分の画像を特徴量抽出
手段へ送る。存在しなければ、行のヒストグラムHにお
いて、現在切り出されている1文字の画像に対応する位
置のなかで、最も値が小さくなる点で、画像を分割し、
新たに定めた1文字分の画像を特徴量抽出手段へ送る。
【0046】このようにして1文字の候補として画像を
切り出した後、特徴量抽出手段3で特徴量を抽出する。
最後に、文字認識手段4での動作であるが、認識部選択
部4aは通常文字認識部4fを選択する。通常文字認識
部4fと小文字認識部4gはそれぞれ図15のような階
層型のニューラルネットワークで構成されている。
【0047】また、通常文字認識部4fは、判別する全
ての文字に関して、対応するカテゴリを表す出力ニュー
ロンが強く発火するように予め学習してある。小文字認
識部4gは、定ピッチ文章の中にあっても、レイアウト
の都合上、ピッチが縮小されてしまう英数字や記号など
の半角文字または、縦書きの場合は、文字高さが低い文
字に関して、対応するカテゴリを表す出力ニューロンが
強く発火するように予め学習してある。
【0048】そして、再切り出し指示部4bでは、通常
文字認識部4fでの出力値が最も大きいものOmaxと、
出力値が次に大きいものOsecとの比Ro=Omax/Osec
をとり、それを信頼度とし、この信頼度Rが予め定め
た閾値Rthよりも小さい場合は文字切り出し部2dに再
切り出しを命ずる。
【0049】本実施の形態では、文字切り出し手段2の
文書構造判断部2aで、縦書きか横書きを判断し、その
結果により行切り出し部2bで1行の切り出しを行う。
次にピッチ判定部2cで、定ピッチの文書か不定ピッチ
の文書か判断し、その結果により、文字切り出し部2d
で1文字の仮切り出しを行う。ここまでは、文書画像の
周辺分布を見ることにより、行を切り出し、1文字を仮
に切り出すので、文字の存在しないところに対しても認
識を行いながら文字を切り出す従来の技術よりも高速に
文字切り出しを行うことができる。その後、認識部4b
で認識を行い、認識後の文字カテゴリの信頼度が低い場
合のみ、再切り出し指示部4bで、文字切り出し部2d
へ再切り出しを指示する。また、この時認識部4bは、
通常文字認識部4f、小文字認識部4gとから構成され
る。
【0050】通常文字認識部4fは、予め、識別する全
ての文字カテゴリを学習しており、出力値の比である信
頼度が低い場合には再切り出し指示部4bが文字切り出
し部に再切り出しを命じる。これは、定ピッチ文章の中
に、英数字・記号等の半角文字(横書きの場合)や、記
号等の横幅に比べ縦の長さが小さい文字(縦書きの場
合)が混在していて、そこで なお、本実施の形態で
は、認識部4bに図15のような単一の階層型ニューラ
ルネットワークを用いたが、他のニューラルネットワー
クでも、複数のニューラルネットワークを構造化した構
造化ニューラルネットワークでもよい。一時的にピッチ
が変化している場合に有効である。
【0051】
【発明の効果】以上のように、本発明の文字認識装置
は、文書画像の周辺分布を見ることにより、行を切り出
し、1文字を仮に切り出すので、文字の存在しないとこ
ろに対しても認識を行いながら文字を切り出す従来の技
術よりも高速に文字切り出しを行うことができる。ま
た、認識の結果により再切り出しを行うので高精度な切
り出しも同時に実現できる。
【図面の簡単な説明】
【図1】本発明の各実施の形態に共通な文字認識装置の
構成図
【図2】第1実施の形態の画像入力手段1のより詳細な
構成図
【図3】第1の実施の形態の認識部4bのより詳細な構
成図
【図4】第1実施の形態の文書構造判断部2aの処理の
流れを示すフローチャート
【図5】第1実施の形態の文書構造判断部2aで作成し
たヒストグラムを示す図
【図6】第1実施の形態の行切り出し部2bで行を切り
出す位置を示す図
【図7】第1実施の形態のピッチ判定部2cの処理の流
れを示すフローチャート
【図8】図7の太線の部分の詳細なフローチャート
【図9】第1実施の形態のピッチ判定部2cで1行の文
書画像を投影して作成した濃度投影ヒストグラムを示す
【図10】第1実施の形態のピッチ判定部2cで決定し
た文字開始点候補の位置を示す図
【図11】第1実施の形態のピッチ判定部2cで文字開
始点候補間の距離の分布を示す図
【図12】第1実施の形態のピッチ判定部2cで検出し
た文字開始点候補間の距離の頻度分布のピークを示す図
【図13】第1実施の形態の文字切り出し部2dの処理
の流れを示すフローチャート
【図14】第1実施の形態の文字切り出し部2dで文字
単位に切り出した様子を示す図
【図15】第1実施の形態の全角文字認識部4dと半角
文字認識部4eを構成するネットワークを示す図
【図16】第1実施の形態の文字切り出し部2dで、分
離している1つの全角文字を誤って2文字の半角文字と
して切り出した様子を示す図
【図17】第1実施の形態の文字切り出し部2dで、接
触している2つの半角文字を誤って1文字の全角文字と
して切り出した様子を示す図
【図18】第2実施の形態の認識部4bのより詳細な構
成図
【図19】第2実施の形態の文書構造判断部2aで作成
したヒストグラムを示す図
【図20】第2実施の形態の行切り出し部2bで行を切
り出す位置を示す図
【図21】第2実施の形態のピッチ判定部2cで1行の
文書画像を投影して作成したヒストグラムを示す図
【図22】第2実施の形態のピッチ判定部2cで決定し
た文字開始点候補の位置を示す図
【図23】第2実施の形態のピッチ判定部2cで文字開
始点候補間の距離の分布を示す図
【図24】第2実施の形態のピッチ判定部2cで検出し
た文字開始点候補間の距離の頻度分布のピークを示す図
【図25】第2実施の形態の文字切り出し部2dでの定
ピッチの場合の処理の流れを示すフローチャート
【図26】第2実施の形態の文字切り出し部2dで求め
た切り出し位置候補の位置を示す図
【図27】第2実施の形態の文字切り出し部2dで作成
した基本関数h0を示す図
【図28】第2実施の形態の文字切り出し部2dで作成
した基本関数h0を繰り返した関数hを示す図
【図29】第2実施の形態の文字切り出し部2dにおい
て、関数fに関数hをずらしながら掛け合わせる様子を
示す図
【図30】第2実施の形態の文字切り出し部2dにおい
て、関数fに関数hをずらしながら掛け合わせた値を加
算した値が最大になる位置を示す図
【図31】第2実施の形態の文字切り出し部2dにおい
て、関数fに関数hをずらしながら掛け合わせた値を加
算した値が最大になる位置の基本関数h0の先頭位置に
相当するヒストグラムHの値が閾値β1以下ではない場
合の切り出し位置を決定する様子を示す図
【図32】従来例で、認識部に使用された部分空間法の
認識方法を示す図
【図33】従来例で、固定サイズの窓を操作する様子を
示す図
【符号の説明】
1 画像入力手段 1a 画像入力部 1b 2値化部 2 文字切り出し手段 2a 文書構造判断部 2b 行切り出し部 2c ピッチ判定部 2d 文字切り出し部 3 特徴量抽出手段 4 文字認識手段 4a 認識部指示部 4b 認識部 4c 再切り出し指示部 4d 全角文字認識部 4e 半角文字認識部 4f 通常文字認識部 4g 小文字認識部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】認識する対象の文書画像を入力する画像入
    力手段と、前記画像入力手段で入力した文書画像から1
    文字と見做した画像を切り出す文字切り出し手段と、前
    記文字切り出し手段で切り出した画像から特徴量を抽出
    する特徴量抽出手段と、前記特徴量抽出手段で抽出した
    特徴量の文字カテゴリを識別する文字認識手段を具備
    し、 前記文字切り出し手段を、前記画像入力手段で入力した
    文書画像が縦書きであるか横書きであるかを判断する文
    書構造判断部と、前記文書構造判断部で判断した結果に
    基づいて前記画像入力手段で入力した文書画像から1行
    と見做した画像を切り出す行切り出し部と、前記行切り
    出し部で切り出した画像が定ピッチの行であるか不定ピ
    ッチの行であるかを判断するピッチ判定部と、前記ピッ
    チ判定部で判定した結果に基づいて前記行切り出し部で
    切り出した画像から1文字と見做した画像を切り出す文
    字切り出し部とで構成し、 前記文字認識手段を、認識部指示部と複数の認識部と再
    切り出し指示部とで構成し、 前記認識部指示部は、前記文字切り出し部で切り出した
    画像に基づいて複数の前記認識部のなかから認識部を選
    択し、前記認識部指示部で選択した認識部は前記特徴量
    抽出手段で抽出した特徴量の文字カテゴリを判定し、前
    記再切り出し指示部は、前記認識部で求めた認識結果に
    基づいて前記文字切り出し部に再切り出しを命ずる文字
    認識装置。
  2. 【請求項2】画像入力手段を、認識を行う対象の文書画
    像を入力する画像入力部と、前記画像入力部で入力した
    画像を2値化する2値化部とで構成する請求項1記載の
    文字認識装置。
  3. 【請求項3】文書構造判断部は、画像入力手段で入力し
    た文書画像の各画素を縦方向と横方向のそれぞれに投影
    して濃度投影ヒストグラムを作成し、前記ヒストグラム
    を比較することにより、前記文書画像が縦書きであるか
    横書きであるかを判断する請求項1記載の文字認識装
    置。
  4. 【請求項4】行切り出し部は、文書構造判断部で求めた
    ヒストグラムに基づいて、画像入力手段で入力した文書
    画像から行と見做した画像を切り出し、同時に前記文書
    構造判断部で縦書きと判断した場合は行の幅の平均値
    を、前記文書構造判断部で横書きと判断した場合は行の
    高さの平均値を求める請求項1記載の文字認識装置。
  5. 【請求項5】ピッチ判定部は、行切り出し部で切り出し
    た画像の濃度投影ヒストグラムを作成し、前記濃度投影
    ヒストグラムにおいて予め定めた閾値以下の値から前記
    閾値よりも大きい値になる位置を文字開始点候補と定
    め、前記文字開始点候補間の距離の頻度分布に基づいて
    定ピッチであるか、不定ピッチであるかを判断する請求
    項1記載の文字認識装置。
  6. 【請求項6】ピッチ判定部は、行切り出し部で切り出し
    た画像の濃度投影ヒストグラムを作成し、前記濃度投影
    ヒストグラムにおいて予め定めた閾値以下の値から前記
    閾値よりも大きい値になる位置を文字開始点候補と定
    め、前記文字開始点候補間の距離の頻度分布を作成し、
    前記頻度分布を複数の区間に分割し、前記の各区間内に
    おいて頻度の最大値を求め、前記頻度分布において前記
    最大値が一定間隔で存在していれば定ピッチと判断し、
    前記最大値が一定間隔で存在していなければ不定ピッチ
    と判定する請求項1記載の文字認識装置。
  7. 【請求項7】ピッチ判定部は、定ピッチと判断した場合
    に文字開始点候補間の頻度の最大値の間隔を文字ピッチ
    として推定する請求項5または6記載の文字認識装置。
  8. 【請求項8】文字切り出し部は、ピッチ判定部において
    不定ピッチと判断した場合、行切り出し部で切り出した
    画像において、ピッチ判定部で求めた文字開始点候補の
    位置から次の文字開始点候補の位置までを1文字候補画
    像とし、前記1文字候補画像の幅が行切り出し部で求め
    た行の高さあるいは幅の平均値に予め定めた定数をかけ
    た値よりも大きい場合は、前記1文字候補画像は複数の
    文字が接触して切り出されていると判断し、前記1文字
    候補画像をさらに分割する請求項5から7のいずれかに
    記載の文字認識装置。
  9. 【請求項9】認識部を、全角文字認識部と半角文字認識
    部とで構成し、文字切り出し部で切り出した1文字候補
    画像の幅の高さに対する比が予め定めた閾値よりも大き
    い場合は全角文字認識部で認識を行い、文字切り出し部
    で切り出した1文字候補画像の幅の高さに対する比が前
    記閾値以下の場合は半角文字認識部で認識を行う請求項
    1から8のいずれかに記載の文字認識装置。
  10. 【請求項10】半角文字認識部が、半角文字と、全角文
    字の偏、旁を予め学習する請求項9記載の文字認識装
    置。
  11. 【請求項11】再切り出し指示部が、半角文字認識部の
    認識結果が全角文字の偏、旁の場合に文字切り出し部に
    再切り出しを命じ、前記文字切り出し部は、現在の文字
    候補画像と次の文字候補画像とをまとめて新たな文字候
    補画像として切り出す請求項10記載の文字認識装置。
  12. 【請求項12】再切り出し指示部が、全角文字認識部で
    認識した文字カテゴリの信頼性を表す値が予め定めた閾
    値よりも小さい場合に文字切り出し部に再切り出しを命
    じ、前記文字切り出し部は、現在の1文字候補画像を分
    割し、新たな1文字候補画像を切り出す請求項9から1
    1のいずれかに記載の文字認識装置。
  13. 【請求項13】文字切り出し部は、ピッチ判定部におい
    て定ピッチと判断した場合、行切り出し部で切り出した
    画像の濃度投影ヒストグラムにおいて、予め定めた閾値
    以下の点を切り出し位置候補点とし、前記切り出し位置
    候補点において推定したピッチの間隔毎に切り出し位置
    候補点があれば、その切り出し位置候補点を切り出し位
    置とする請求項7記載の文字認識装置。
  14. 【請求項14】文字切り出し部は、ピッチ判定部におい
    て定ピッチと判断した場合、行切り出し部で切り出した
    画像の濃度投影ヒストグラムにおいて、予め定めた閾値
    以下の点を切り出し位置候補点とし、前記切り出し位置
    候補に予め定めた値を与え前記切り出し位置候補の位置
    を示す関数を作成し、ピッチ判定部において推定したピ
    ッチの幅を持つ基本関数を作成し、前記基本関数を連結
    した関数を前記切り出し位置候補の位置を示す関数に重
    ね合わせた時に、前記切り出し位置候補の位置を示す関
    数と前記基本関数を連結した関数の値を掛け合わして加
    算した値が最大になる位置を求め、前記位置での前記基
    本関数の先頭の位置に相当する前記ヒストグラムの値
    が、前記閾値以下であれば切り出し位置と定め、前記閾
    値よりも大きい値であれば、近傍における前記濃度投影
    ヒストグラムの値が最小になる位置を切り出し位置と定
    める請求項7記載の文字認識装置。
  15. 【請求項15】認識部を通常文字認識部と小文字認識部
    とで構成し、特徴量抽出手段で抽出した特徴量を、先ず
    通常文字認識部で認識し、再切り出し指示部が文字切り
    出し部に再切り出しを命じた場合は、再切り出し指示部
    は、ピッチ判定部で求めた濃度投ヒストグラムにおいて
    現在切り出している画像に対応する区間内において前記
    ピッチ判定部で求めた文字開始点候補が存在するか調
    べ、もし存在すれば文字開始点候補が存在する前記位置
    で画像を分割することにより新たな1文字の画像を切り
    出し、存在しなければ前記濃度投影ヒストグラムにおい
    て現在の画像に対応する位置において、前記ヒストグラ
    ムの値が最小になる点で画像を分割し、新たに画像を切
    り出す請求項1から8いずれかに記載の文字認識装置。
JP8096504A 1996-04-18 1996-04-18 文字認識装置 Pending JPH09282417A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8096504A JPH09282417A (ja) 1996-04-18 1996-04-18 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8096504A JPH09282417A (ja) 1996-04-18 1996-04-18 文字認識装置

Publications (1)

Publication Number Publication Date
JPH09282417A true JPH09282417A (ja) 1997-10-31

Family

ID=14166952

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8096504A Pending JPH09282417A (ja) 1996-04-18 1996-04-18 文字認識装置

Country Status (1)

Country Link
JP (1) JPH09282417A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013121647A1 (ja) 2012-02-17 2013-08-22 オムロン株式会社 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
WO2013121648A1 (ja) 2012-02-17 2013-08-22 オムロン株式会社 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
WO2014129016A1 (ja) * 2013-02-25 2014-08-28 三菱重工業株式会社 文字認識装置、文字認識方法及び記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013121647A1 (ja) 2012-02-17 2013-08-22 オムロン株式会社 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
WO2013121648A1 (ja) 2012-02-17 2013-08-22 オムロン株式会社 文字認識方法、およびこの方法を用いた文字認識装置およびプログラム
US9224065B2 (en) 2012-02-17 2015-12-29 Omron Corporation Character-recognition method and character-recognition device and program using said method
US9710945B2 (en) 2012-02-17 2017-07-18 Omron Corporation Method for cutting out character, character recognition apparatus using this method, and program
WO2014129016A1 (ja) * 2013-02-25 2014-08-28 三菱重工業株式会社 文字認識装置、文字認識方法及び記録媒体

Similar Documents

Publication Publication Date Title
Lu Machine printed character segmentation—; An overview
Casey et al. A survey of methods and strategies in character segmentation
US6252988B1 (en) Method and apparatus for character recognition using stop words
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
US7039235B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US5438630A (en) Word spotting in bitmap images using word bounding boxes and hidden Markov models
US5067165A (en) Character recognition method
US5745600A (en) Word spotting in bitmap images using text line bounding boxes and hidden Markov models
US5390259A (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
JPH0713995A (ja) 自動テキスト特徴決定装置
Elms et al. The advantage of using an HMM-based approach for faxed word recognition
Al-Badr et al. A segmentation-free approach to text recognition with application to Arabic text
JP2000315247A (ja) 文字認識装置
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
US8340428B2 (en) Unsupervised writer style adaptation for handwritten word spotting
Lin et al. A text line detection method for mathematical formula recognition
Uchida et al. Quantitative analysis of mathematical documents
Baird Global-to-local layout analysis
JPH09282417A (ja) 文字認識装置
EP0602955B1 (en) Text recognition
Thongkanchorn et al. Thai character segmentation in handwriting images using four directional depth first search
Leishman Shape-free statistical information in optical character recognition
Raza et al. Recognition of facsimile documents using a database of robust features
Abandah et al. Challenges and preprocessing recommendations for Madcat dataset of handwritten Arabic documents
JPH02230484A (ja) 文字認識装置