JPH09282417A

JPH09282417A - 文字認識装置

Info

Publication number: JPH09282417A
Application number: JP8096504A
Authority: JP
Inventors: Kenji Kondo; 堅司近藤; Taro Imagawa; 太郎今川; Susumu Maruno; 進丸野
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-04-18
Filing date: 1996-04-18
Publication date: 1997-10-31

Abstract

(57)【要約】【課題】文書画像の構造を判断し、その構造に応じた
切り出し処理を行うことで、切り出し効率と認識率を向
上させた文字認識装置を提供する。【解決手段】文字切り出し手段２を文書画像の構造を
判断する文書構造判断部２ａと、行切り出し部２ｂと、
行の画像が定ピッチであるか不定ピッチであるかを判断
するピッチ判定部２ｃと、ピッチ判定部２ｃの結果に基
づいて１文字と思われる画像を切り出す文字切り出し部
２ｄとで構成し、文字認識手段４を、認識部指示部４ａ
と複数の認識部４ｂと再切り出し指示部４ｃとで構成
し、認識部指示部４ａは複数の前記認識部４ｂのなかか
ら認識部４ｂを選択し、認識部指示部４ａで選択された
認識部４ｂは文字カテゴリを判定し、再切り出し指示部
４ｃは文字切り出し部２ｄに再切り出しを命ずる文字認
識装置。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、用紙に記載された
文章から１文字を切り出し、切り出した１文字毎に認識
する光学式の文字認識装置に関する。

【０００２】

【従来の技術】新聞・雑誌等の印刷文書を認識するため
には、文書画像をから個々の文字画像を正確に切り出す
ことが、必要不可欠である。その場合、カナ、漢字、英
数字、記号などが混在すると文字ピッチが大きく変動す
る不定ピッチ文章から文字を切り出す場合だけでなく、
日本語のような定ピッチの文章でも、偏と旁の間隔によ
って２文字に分離してしまったり、印刷のつぶれなどに
より２文字が接触した文字が存在することなどが、高精
度の文字自動切り出しを実現する上で問題となってい
る。

【０００３】このような分離文字や、接触文字を正確に
切り出すために、文字画像中の、文字の存在する部分の
文字らしさを評価するという手法がある。もし評価値が
小さければ、それは文字として見なされず切り出しが間
違っているとし、評価値が大きい場合は、正しく切り出
されているとみなす(”部分空間法による認識をベース
とした手書き文字の切り出し”, 電子情報通信学会技術
研究報告, PRU94-97,pp.1-8, 1995年1月)。

【０００４】この手法は、部分空間法に基づいて文字を
切り出す。部分空間法による文字認識では、図３２のよ
うに、入力文字ｘと各文字カテゴリωiの部分空間との
距離を求め、これが最小となるカテゴリに入力文字ｘを
分類する。

【０００５】認識に先だって、まず始めに文字データの
各カテゴリωiの正規直交基底Ｖi＝{vi1, ... , vir}を
求める。ここで、rは部分空間の次元数である。この正
規直交基底は、学習に用いる文字データとの全距離が最
小になる軸として求める。実際は、文字データの相関行
列を固有値分解したときの固有ベクトルとして求める。
次に部分空間の次元数rを(数１)で表すような累積寄与
率(CCR)がある閾値以上になるrの値として求める。

【０００６】

【数１】

【０００７】ここで、αiは相関行列を固有値分解する
ことで得られるi番目の固有値である。このようにして
各文字カテゴリの部分空間を求める。また、認識時は、
観測空間内の任意の文字データｘと文字カテゴリωiの
部分空間Ｖiとの距離を考える。文字データｘを部分空
間Ｖiに射影する射影行列をＰiとすると、距離は(数２)
で示される。

【０００８】

【数２】

【０００９】この距離が一番小さくなる部分空間Ｖkの
カテゴリkを認識結果とする。そして、認識をベースと
した文字の切り出してあるが、文字の大きさは一定であ
ると仮定し、図３３のように、入力された２値画像をま
ず固定サイズの窓で走査する。窓内では、加重方向指数
ヒストグラム特徴を求め、196次元の特徴量を得た後、
各文字の部分空間に射影する。

【００１０】文字認識の結果、入力文字データｘの文字
コードとその信頼度が得られる。信頼度は(数３)に示す
ように射影ベクトルの大きさを正規化した大きさで求め
る。

【００１１】

【数３】

【００１２】以上の処理を行った時点で、各窓領域に対
して、文字コードとその信頼度が得られているので、同
一の文字コードが、予め定めた閾値以上で群を形成して
いる部分を文字認識結果とし、同一の文字コード群の中
で最も信頼度の高い画像を中心に、個々の文字領域を切
り出す。

【００１３】この手法を用いると、接触した文字も、文
字画像の個々の位置で文字らしさを評価することによ
り、ただ接触しているという理由で１文字とみなされる
ことはなくなり、高精度で切り出すことができる。

【００１４】

【発明が解決しようとする課題】しかしながらこの従来
の手法では、文書画像中において明らかに文字が存在し
ないと分かる領域に対しても、認識を行うので、認識
(切り出しも含む)時間が、膨大になってしまう。

【００１５】本発明は、上記問題点に臨んで、最初は、
文書画像の周辺分布をもとに定ピッチ、不定ピッチを判
断し、その結果に応じて行、文字を切り出した後、認識
を行い、認識後の文字カテゴリの信頼度が低い場合の
み、再切り出しをして再度認識を行うので、非常に効率
が良く、精度の高い認識を行うことができる。

【００１６】

【課題を解決するための手段】上記目的を達成するため
に、本発明の文字認識装置は、認識する対象の文書画像
を入力する画像入力手段と、前記画像入力手段で入力し
た文書画像から１文字と見做した画像を切り出す文字切
り出し手段と、前記文字切り出し手段で切り出した画像
から特徴量を抽出する特徴量抽出手段と、前記特徴量抽
出手段で抽出した特徴量の文字カテゴリを識別する文字
認識手段を具備し、前記文字切り出し手段を、前記画像
入力手段で入力した文書画像が縦書きであるか横書きで
あるかを判断する文書構造判断部と、前記文書構造判断
部で判断した結果に基づいて前記画像入力手段で入力し
た文書画像から１行と見做した画像を切り出す行切り出
し部と、前記行切り出し部で切り出した画像が定ピッチ
の行であるか不定ピッチの行であるかを判断するピッチ
判定部と、前記ピッチ判定部で判定した結果に基づいて
前記行切り出し部で切り出した画像から１文字と見做し
た画像を切り出す文字切り出し部とで構成し、前記文字
認識手段を、認識部指示部と複数の認識部と再切り出し
指示部とで構成し、前記認識部指示部は、前記文字切り
出し部で切り出した画像に基づいて複数の前記認識部の
なかから認識部を選択し、前記認識部指示部で選択した
認識部は前記特徴量抽出手段で抽出した特徴量の文字カ
テゴリを判定し、前記再切り出し指示部は、前記認識部
で求めた認識結果に基づいて前記文字切り出し部に再切
り出しを命ずる再切り出し指示部とで構成する。

【００１７】

【発明の実施の形態】本発明の文字認識装置は、文書構
造判断部において認識対象の文書画像が縦書きであるか
横書きであるか判断し、行切り出し部において１行と見
做した画像を切り出す。そしてピッチ判定部において、
１行と見做した文書画像が定ピッチであるか不定ピッチ
であるか判断し、文字切り出し部において、ピッチ判定
部の結果に基づいて１文字と見做した画像を切り出す。
特徴量抽出手段では、文字切り出し部で切り出した文字
画像から特徴量を抽出する。そして、認識部指示部で
は、文字切り出し部で切り出した文字画像の特徴に基づ
いて複数の認識部のなかから認識を行う認識部を選択
し、選択された認識部では、特徴量抽出手段で抽出した
特徴量の文字カテゴリを判定する。再切り出し指示部で
は認識部で判定した結果の信頼性がないと判断した場合
には、文字切り出し部に再切り出しを命ずる。

【００１８】以下、図面を参照して本発明の実施の形態
を説明する。（実施の形態１）図１、図２、図３は、本発明の第１の
実施の形態における文字認識装置の構成図である。図１
において、画像入力手段１、文字切り出し手段２、特徴
量抽出手段３、文字認識手段４で文字認識装置を構成す
る。また、文書構造判断部２ａ、行切り出し部２ｂ、ピ
ッチ判定部２ｃ、文字切り出し部２ｄとで文字切り出し
手段２を構成し、認識部指示部４ａ、認識部４ｂ、再切
り出し指示部４ｃとで文字認識手段４を構成する。ま
た、図２において、画像入力部１ａ、２値化部１ｂで、
図１の画像入力手段１を、図３において、全角文字認識
部４ｄ、半角文字認識部４ｅで、図１の認識部４ｂを構
成する。

【００１９】次にこのような構成の文字認識装置の動作
について詳細に説明する。認識対象の文書画像をスキャ
ナなどの画像入力機器により、画像入力部１ａに入力し
文書画像の多値イメージを得た後、２値化部１ｂで２値
化を行い、２値化された文書画像を得る。そして、文書
構造判断部２ａでは、図４のような処理を行う。

【００２０】まず、図５のように、文書画像の縦方向と
横方向のそれぞれに投影して濃度投影ヒストグラムＨ
ｘ、Ｈｙを作成する。ヒストグラムＨｘ、Ｈｙを得た後
は、ヒストグラムＨｘ、Ｈｙを一定の長さＬの範囲で積
分し、その値をそれぞれ画像の縦方向の長さimg_y、横
方向の長さimg_xで割って正規化し、（数４）のよう
に、その値を比べることにより縦書きか横書きかを判断
する。この場合は、横書きであると判断される。

【００２１】

【数４】

【００２２】そして、行切り出し部２ｂでは、縦書きな
らばヒストグラムＨｘを、横書きならばヒストグラムＨ
ｙを参考にして、行を切り出す。この場合は横書きなの
で、ヒストグラムＨｙに着目する。図６のように、ヒス
トグラムＨｙ中で、予め定めた閾値αよりも小さい点か
ら閾値α以上の点に変わる点の座標をｓｉ（ｉ＝１，
２，３，．．．，Ｎ）と定め、閾値α以上の点から、閾
値αよりも小さい点に変わる点の座標をｅｉ（ｉ＝１，
２，３，．．．，Ｎ）と定める。この時、ｅｉ−ｓｉの
値が予め定めた閾値よりも小さい場合はノイズとみな
し、ｓｉとｅｉは無視する。そして、（ｓi＋ｅi+1）／
２の位置で画像を分割し、行を全て切り出す。この時
（数５）のように、縦書きならば文字の幅の平均Ｗave
を、横書きならば文字の高さの平均Ｈaveを求めてお
く。今は、横書きということで、文字の高さの平均Ｈav
e＝７０を得る。

【００２３】

【数５】

【００２４】次にピッチ判定部２ｃでは、図７、図８の
ような処理を行う。ここで、図８は、図７の太線で囲っ
た部分の詳細なフローチャートである。まず、図９のよ
うに行の進行方向に垂直な方向に文書画像を投影して、
１行の濃度投影ヒストグラムＨを作成する。そして図１
０のように、ヒストグラムＨにおいて、予め定めた閾値
β１以下の点の次の点で閾値β１よりも大きくなる点を
文字開始点候補ｃｎ（ｎ＝１，２，３，．．．）とし、
全ての文字開始点候補ｃｎ間の距離を求める。

【００２５】その後に、文字開始点候補ｃｎ間距離ｌｎ
の頻度分布を表すヒストグラムＨｄを作成する。得られ
たヒストグラムＨｄは、図１１の様になり、この図１１
において、ある程度周期的に文字開始点候補ｃｎ間距離
が存在していれば定ピッチ、そうでなければ不定ピッチ
と判断し、特に定ピッチの場合は、ピッチを推定する。

【００２６】具体的には、図８の処理を行い、ヒストグ
ラムＨｄにおいて、頻度０で区切られる区間のピーク位
置Ｐｉ（ｉ＝１，２，３，．．．）を検出する。ただ
し、ピーク位置は頻度が１より大きいことを条件とす
る。すると、図１２のようにピーク位置Ｐｉが得られ
る。そして、Ｐ１＝２１の整数倍の位置、すなわち、４
２，６３，８４，．．．の近傍（ここでは近傍を±２以
内の位置と定める）全てに他のピークＰｉが存在するか
どうかを調べる。結果として、ピークは存在しないの
で、次はＰ２＝２８の整数倍の位置の近傍全てに、他の
ピークが存在するかどうか調べる。もし存在すれば、１
行のヒストグラムＨにおいて、最初の文字開始点候補ｃ
１から、Ｐｉの整数倍を加算した部分の近傍（ここでは
近傍を±２の位置と定める）に、閾値β１以下の部分が
存在するかどうか調べる。存在すればＰｉを推定ピッチ
とし、存在しなければ次はＰ３＝３４の整数倍の位置の
近傍全てにピーク位置があるかどうか調べる。このよう
にして、処理を続けていき、Ｐｉが行の長さの半分を超
えたとき、すなわち、Ｐｉの２倍の文字開始点候補間距
離が確保できなくなった場合に、不定ピッチであると判
断する。このような処理の結果、本実施の形態では不定
ピッチと判断される。

【００２７】そして、文字切り出し部２ｄでは、図１３
のように、定ピッチか不定ピッチにより、異なった処理
を行う。今は、不定ピッチの場合を考える。ピッチ判定
部２ｃで不定ピッチと判断された場合は、図１４のよう
に文字開始点候補ｃnから、次の文字開始点候補ｃn+1ま
での画像を１文字として切り出し、１文字の幅ｌn＝ｃn
+1−ｃnを求める。もし、文字幅ｌｎが閾値γよりも大
きければ、複数の文字が接触していているものが単一の
文字として切り出されていると判断し、再切り出しを命
じる。ここで、閾値γは、横書きの場合は、γ＝Ｈave
×ｃ（ｃ：予め定めた定数）、縦書きの場合はγ＝Ｗav
e×ｃとする。

【００２８】再切り出しを命じられると、行切り出し部
２ｂで求めたヒストグラムＨにおいて、新たに定めた閾
値β２以下の部分があれば、その部分を区切りとして文
字を切り出す。ここで、β２＝β１＋βｃ（βｃ：予め
定めた定数）、すなわち、ピッチ判定部２ｃで用いた閾
値β１に予め定めておいた値βｃを加えたものを閾値と
する。もし、β２以下の部分がなければ、さらに現在の
β２にβｃを加え、閾値を大きくする。こうして、１行
の文書画像から１文字を切り出す。また、再切り出し指
示部４ｂから再切り出しを指示された場合は、その指示
が、全角文字認識部４ｄで認識した結果により再切り出
しになった時と、半角文字認識部４ｅで認識した結果に
より再切り出しになった時により異なった処理を行う。
再切り出しの指示が全角文字認識部４ｄで認識した結果
による場合は、現在の閾値β２にβｃを加え、閾値を大
きくしてさらに文字画像を区切る。また、再切り出しの
指示が半角文字認識部４ｅで認識した結果による場合
は、現在の１文字の候補画像に、次の１文字の候補画像
を加えたものを新たに１文字として切り出す。

【００２９】１文字の画像を切り出したら、特徴量抽出
手段３で特徴量を抽出する。最後に認識部指示部４ａ
は、文字切り出し部２ｄで切り出した１文字の幅ｌｎ
と、行切り出し部２ｂで求めた文字の高さの平均Ｈave
の比Ｒ＝ｌｎ／Ｈave が予め定めた閾値Ｒth以上なら
ば、全角文字認識部４ｄを選択し、閾値Ｒthより小さい
ならば、半角文字認識部４ｅを選択する。

【００３０】全角文字認識部４ｄと半角文字認識部４ｅ
は、それぞれ図１５のような階層型のニューラルネット
ワークで構成されている。また、全角文字認識部４ｄ
は、ひらがな、カタカナ、漢字などの全角文字に関し
て、対応するカテゴリを表す出力ニューロンが強く発火
するように予め学習してある。半角文字認識部４ｅは、
英数字や記号などの半角文字に関しては、対応するカテ
ゴリを表す出力ニューロンが強く発火するように予め学
習してあり、加えて、全角文字を誤って切り出したとき
の偏や旁も、全角文字の一部を表す出力ニューロンが強
く発火するように学習してある。

【００３１】そして、認識時には、認識部指示部で選択
された全角文字認識部４ｄあるいは半角文字４ｅは、認
識対象の各カテゴリに対応する出力値を出力する。そし
て、再切り出し指示部４ｃでは、半角文字認識部４ｅで
全角文字の一部を表す出力ニューロンが強く発火した場
合は、切り出しミスである可能性が高いと判断し、文字
切り出し部２ｄに再切り出しを命ずる。それ以外の場合
は、出力値が最も大きいものＯmaxと、出力値が次に大
きいものＯsecとの比Ｒo＝Ｏmax／Ｏsecをとり、それを
信頼度とし、この信頼度Ｒが予め定めた閾値Ｒthよりも
小さい場合は、文字切り出し部２ｄに再切り出しを命
じ、閾値Ｒ1以上ならば、認識結果として採用し、文字
切り出し部２ｄに戻り、次の文字を切り出す。また、１
行の全ての文字を認識したら、ピッチ判定部２ｃに戻
り、次の行の処理を行う。

【００３２】今は図１４で、「変」という字の画像と、
その幅ｌ１＝８０という情報が送られてきた場合を考え
る。今は、Ｒth＝０．５とし、Ｒ＝ｌｎ／Ｈave＝８０
／７０≒１．１４≧Ｒthなので、全角文字認識部４ｄで
認識を行う。そして、全角文字認識部４ｄにおいて認識
した結果、「変」という字に対応する出力ニューロンの
値が最も大きくなり（出力値Ｏmax＝１０００）、
「恋」という字に対応する出力ニューロンの値が２番目
に大きくなる（出力値Ｏsec＝３００）。その比Ｒo＝１
０００／３００≒３．３３を信頼度となり、今はＲth＝
１．５とし、Ｒo＞Ｒthなので、「変」を認識結果とす
る。

【００３３】次に、図１６のように、文字切り出し部２
ｄで、「河」という字の左の「さんずい」と右の部分
「可」が誤って別々の文字として切り出された場合を考
える。まず、「さんずい」の部分を１文字として認識す
るわけであるが、Ｒ＝ｌｎ／Ｈave＝３０／７０≒０．
４３＜Ｒth＝０．５なので半角文字認識部４ｅで認識を
行う。半角文字認識部４ｅは、予め間違って切り出しや
すい全角文字（特に漢字）の偏などを予め学習させてあ
るので、「さんずい」は、全角文字の１部分であると認
識される。この場合は、再切り出し指示部では、間違っ
て切り出されたと判断するので、文字切り出し部２ｄに
再切り出しを命じ、文字切り出し部２ｄは次の文字候補
と一緒に１文字として新たに切り出す。次は、正しく切
り出されているので、全角文字認識部４ｄで認識が行わ
れる。

【００３４】次に、図１７のように、文字切り出し部２
ｄで、半角文字２つ「ab」が誤って、同一の文字として
切り出された場合を考える。Ｒ＝ｌｎ／Ｈave＝６０／
７０≒０．８６≧Ｒthなので、全角文字判断部４ｄで認
識を行う。そして、全角文字認識部４ｄにおいて認識し
た結果、「ab」に該当するような文字はないので、最も
似ている文字を表すニューロン（出力：Ｏmax）と、次
に似ている文字を表すニューロン（出力：Ｏsec）が弱
く発火する。よって、ＯmaxとＯsecの出力の比は小さく
なり、信頼度Ｒo＝Ｏmax／Ｏsecは、予め定めた閾値Ｒt
hよりも小さくなる。よって再切り出し指示部４ｂで、
再切り出しが指示され、文字切り出し部２ｄでは、閾値
β２を大きくしてヒストグラムの分割を行うので、今度
は「a」と「b」が分離して切り出され、半角文字認識部
４ｅが認識を行うことになる。

【００３５】本実施の形態では、文字切り出し手段２の
文書構造判断部２ａで、縦書きか横書きを判断し、その
結果により行切り出し部２ｂで１行の切り出しを行う。
次にピッチ判定部２ｃで、定ピッチの文書か不定ピッチ
の文書か判断し、その結果により、文字切り出し部２ｄ
で１文字の仮切り出しを行う。ここまでは、文書画像の
周辺分布を見ることにより、行を切り出し、１文字を仮
に切り出すので、文字の存在しないところに対しても認
識を行いながら文字を切り出す従来の技術よりも高速に
文字切り出しを行うことができる。その後、認識部４ｂ
で認識を行い、認識後の文字カテゴリの信頼度が低い場
合のみ、再切り出し指示部４ｂで、文字切り出し部２ｄ
へ再切り出しを指示する。また、この時認識部４ｂは、
全角文字認識部４ｄ、半角文字認識部４ｅとから構成さ
れる。

【００３６】全角文字認識部４ｄは、予め、ひらがな、
カタカナ、漢字等の全角文字を学習しており、出力値の
比である信頼度が低い場合には再切り出し指示部４ｂが
文字切り出し部に再切り出しを命じる。これは、アルフ
ァベット等の２つ以上の半角文字が連続しているもの
が、誤って切り出された場合に有効である。

【００３７】特に半角文字認識部４ｅは、英数字・記号
等の半角文字のみでなく、漢字の偏も同時に学習してい
る。よって、半角文字認識部４ｅで、そのような偏を認
識結果として持った場合は、文字切り出し部２ｄでは、
次の文字候補と合わせて新たに１文字として切り出す。
これは、誤って切り出されやすい分離した漢字も正しく
認識することができる。

【００３８】なお、本実施の形態では、認識部４ｂに図
１５のような単一の階層型ニューラルネットワークを用
いたが、他のニューラルネットワークでも、複数のニュ
ーラルネットワークを構造化した構造化ニューラルネッ
トワークでもよい。

【００３９】（実施の形態２）図１、図２、図１８は本
発明の第２の実施の形態における文字認識装置の構成図
である。図１において、画像入力手段１、文字切り出し
手段２、特徴量抽出手段３、文字認識手段４で文字認識
装置を構成する。また、文書構造判断部２ａ、行切り出
し部２ｂ、ピッチ判定部２ｃ、文字切り出し部２ｄとで
文字切り出し手段２を構成し、認識部指示部４ａ、認識
部４ｂ、再切り出し指示部４ｃとで文字認識手段４を構
成する。また、図２において、画像入力部１ａ、２値化
部１ｂで、図１の画像入力手段１を、図１８において、
通常文字認識部４ｆ、小文字認識部４ｇで、図１の認識
部４ｂを構成する。

【００４０】次にこのような構成の文字認識装置の動作
について詳細に説明する。画像入力手段１、文書構造判
断部２ａでの動作は実施の形態１と同様である。画像入
力手段１で入力した文書画像を２値化し、濃度投影ヒス
トグラムＨｘ、Ｈｙを作成すると図１９のようになり、
縦書きと判断される。

【００４１】行切り出し部２ｂでは、本実施の形態で
は、縦書きということで、ヒストグラムＨｘに着目す
る。図２０ように、ヒストグラムＨｘ中で予め定めた閾
値αよりも小さい点から閾値α以上の点に変わる点の座
標をｓｉ（ｉ＝１，２，３，．．．，Ｎ）と定め、閾値
α以上の点から、閾値αよりも小さい点に変わる点の座
標をｅｉ（ｉ＝１，２，３，．．．，Ｎ）と定める。こ
の時、ｅｉ−ｓｉの値が予め定めた閾値よりも小さい場
合はノイズとみなし、ｓｉとｅｉは無視する。そして、
（ｓi＋ｅi+1）／２の位置で画像を分割し、行を全て切
り出す。この時（数５）のように、縦書きならば文字の
幅の平均Ｗaveを、横書きならば文字の高さの平均Ｈave
を求めておく。今は、縦書きということで、文字の幅の
平均Ｗave＝４１を得る。

【００４２】次にピッチ判定部２ｃでは、実施の形態１
と同様に図７、図８のような処理を行う。まず、図２１
のように行の進行方向に垂直な方向に文書画像を投影し
て、１行の濃度投影ヒストグラムＨを作成する。そし
て、図２２のように、ヒストグラムＨにおいて、予め定
めた閾値β１以下の点の次の点で閾値β１よりも大きく
なる点を文字開始点候補ｃｎ（ｎ＝１，２，
３，．．．）とし、全ての文字開始点候補ｃｎ間の距離
を求める。

【００４３】その後に、図２３のように、文字開始点候
補ｃｎ間距離の頻度分布を表すヒストグラムＨｄを作成
し、ある程度、周期的に文字開始点候補ｃｎ間距離が存
在していれば定ピッチ、そうでなければ不定ピッチと判
断し、特に定ピッチの場合は、ピッチを推定する。具体
的には、図８の処理を行う。まず、ヒストグラムＨｄに
おいて、頻度０で区切られる区間内のピーク位置Ｐｉ
（ｉ＝１，２，３，．．．）を検出する。ただし、ピー
ク位置は頻度が１より大きいことを条件とする。する
と、図２４のようにピーク位置Ｐｉが得られる。そし
て、Ｐ１＝２２の整数倍の位置、すなわち、４４，６
６，８８，．．．の近傍（ここでは、±２の位置）全て
に他のピークＰｉが存在するかどうかを調べる。結果と
して、ピークは存在しないので、次はＰ２＝４３の整数
倍の位置の近傍全てに、他のピークが存在するかどうか
調べる。この場合は存在するので、１行のヒストグラム
Ｈにおいて、最初の文字開始点候補ｃ１から、Ｐｉの整
数倍を加算した部分の近傍（ここでは、±２の位置）
に、閾値β１以下の部分が存在するかどうか調べる。存
在すればＰｉを推定ピッチとし、存在しなければ次はＰ
３＝６３の整数倍の位置の近傍全てにピーク位置がある
かどうか調べる。結果として、１行のヒストグラムＨに
おいて閾値β１以下の部分が存在するので、このＰ＝４
３（＝Ｐ２）を推定ピッチとする。

【００４４】そして文字切り出し部２ｄでは、図１３の
ように、定ピッチか不定ピッチにより、異なった処理を
行う。今は、定ピッチなので、図２５のような処理を行
う。ここで、図２５は、図１３の太線の部分の処理の詳
細図である。まず、１文字分のヒストグラムＨにおい
て、閾値β１以下の部分に値Ｒを与え、閾値β１より大
きい部分に値０を与え、切り出し位置の候補を示す関数
ｆを作成する。作成した関数ｆは、図２６のようにな
る。次に、推定ピッチＰの幅を持ち、両端に値を、中央
に向かうに従い、減少する値を持つ基本関数ｈ０を作成
する。今は、図２７のような関数を考える。そして、基
本関数ｈ０を予め定めた複数個繰り返した関数ｈを作成
し、図２８の関数ｈを得る。そして、図２９のように、
関数ｆに、ヒストグラムＨにおいて現在の切り出し位置
から、関数ｈを推定ピッチＰの区間だけずらしながら、
双方の値を掛け合わせ、その掛け合わせた値を加算す
る。また、行の先頭では、現在の切り出し位置は先頭の
文字開始点候補ｃ１から推定ピッチＰだけ戻った位置と
定める。また、先頭の文字開始点候補ｃ１から推定ピッ
チＰだけ戻った位置が存在しないならば、先頭位置ｙ＝
０を現在の切り出し位置とする。

【００４５】図３０のように、値が最も大きくなる位置
を求めたら、ヒストグラムＨにおいて、ｈ０の先頭に相
当する位置が、閾値β１以下の点であるか調べる。も
し、閾値β１以下の点であれば、その位置を切り出し位
置とし、図３１のように、閾値β１よりも大きければ、
その位置の近傍でヒストグラムＨの値が最も小さくなる
点を切り出し位置とする。このようにして切り出し位置
を決定したら、１行の画像のうち、今回求めた切り出し
位置までの部分を１文字の画像として切り出す。また、
再切り出し指示部４ｂから再切り出しの指示が下った場
合は、行のヒストグラムＨにおいて、現在切り出されて
いる１文字の画像に対応する区間で、文字開始点候補ｃ
ｎが存在するか調べる。もし存在すれば、その位置で画
像を分割し、新たに定めた１文字分の画像を特徴量抽出
手段へ送る。存在しなければ、行のヒストグラムＨにお
いて、現在切り出されている１文字の画像に対応する位
置のなかで、最も値が小さくなる点で、画像を分割し、
新たに定めた１文字分の画像を特徴量抽出手段へ送る。

【００４６】このようにして１文字の候補として画像を
切り出した後、特徴量抽出手段３で特徴量を抽出する。
最後に、文字認識手段４での動作であるが、認識部選択
部４ａは通常文字認識部４ｆを選択する。通常文字認識
部４ｆと小文字認識部４ｇはそれぞれ図１５のような階
層型のニューラルネットワークで構成されている。

【００４７】また、通常文字認識部４ｆは、判別する全
ての文字に関して、対応するカテゴリを表す出力ニュー
ロンが強く発火するように予め学習してある。小文字認
識部４ｇは、定ピッチ文章の中にあっても、レイアウト
の都合上、ピッチが縮小されてしまう英数字や記号など
の半角文字または、縦書きの場合は、文字高さが低い文
字に関して、対応するカテゴリを表す出力ニューロンが
強く発火するように予め学習してある。

【００４８】そして、再切り出し指示部４ｂでは、通常
文字認識部４ｆでの出力値が最も大きいものＯmaxと、
出力値が次に大きいものＯsecとの比Ｒo＝Ｏmax／Ｏsec
をとり、それを信頼度とし、この信頼度Ｒが予め定め
た閾値Ｒthよりも小さい場合は文字切り出し部２ｄに再
切り出しを命ずる。

【００４９】本実施の形態では、文字切り出し手段２の
文書構造判断部２ａで、縦書きか横書きを判断し、その
結果により行切り出し部２ｂで１行の切り出しを行う。
次にピッチ判定部２ｃで、定ピッチの文書か不定ピッチ
の文書か判断し、その結果により、文字切り出し部２ｄ
で１文字の仮切り出しを行う。ここまでは、文書画像の
周辺分布を見ることにより、行を切り出し、１文字を仮
に切り出すので、文字の存在しないところに対しても認
識を行いながら文字を切り出す従来の技術よりも高速に
文字切り出しを行うことができる。その後、認識部４ｂ
で認識を行い、認識後の文字カテゴリの信頼度が低い場
合のみ、再切り出し指示部４ｂで、文字切り出し部２ｄ
へ再切り出しを指示する。また、この時認識部４ｂは、
通常文字認識部４ｆ、小文字認識部４ｇとから構成され
る。

【００５０】通常文字認識部４ｆは、予め、識別する全
ての文字カテゴリを学習しており、出力値の比である信
頼度が低い場合には再切り出し指示部４ｂが文字切り出
し部に再切り出しを命じる。これは、定ピッチ文章の中
に、英数字・記号等の半角文字（横書きの場合）や、記
号等の横幅に比べ縦の長さが小さい文字（縦書きの場
合）が混在していて、そこでなお、本実施の形態で
は、認識部４ｂに図１５のような単一の階層型ニューラ
ルネットワークを用いたが、他のニューラルネットワー
クでも、複数のニューラルネットワークを構造化した構
造化ニューラルネットワークでもよい。一時的にピッチ
が変化している場合に有効である。

【００５１】

【発明の効果】以上のように、本発明の文字認識装置
は、文書画像の周辺分布を見ることにより、行を切り出
し、１文字を仮に切り出すので、文字の存在しないとこ
ろに対しても認識を行いながら文字を切り出す従来の技
術よりも高速に文字切り出しを行うことができる。ま
た、認識の結果により再切り出しを行うので高精度な切
り出しも同時に実現できる。

【図面の簡単な説明】

【図１】本発明の各実施の形態に共通な文字認識装置の
構成図

【図２】第１実施の形態の画像入力手段１のより詳細な
構成図

【図３】第１の実施の形態の認識部４ｂのより詳細な構
成図

【図４】第１実施の形態の文書構造判断部２ａの処理の
流れを示すフローチャート

【図５】第１実施の形態の文書構造判断部２ａで作成し
たヒストグラムを示す図

【図６】第１実施の形態の行切り出し部２ｂで行を切り
出す位置を示す図

【図７】第１実施の形態のピッチ判定部２ｃの処理の流
れを示すフローチャート

【図８】図７の太線の部分の詳細なフローチャート

【図９】第１実施の形態のピッチ判定部２ｃで１行の文
書画像を投影して作成した濃度投影ヒストグラムを示す
図

【図１０】第１実施の形態のピッチ判定部２ｃで決定し
た文字開始点候補の位置を示す図

【図１１】第１実施の形態のピッチ判定部２ｃで文字開
始点候補間の距離の分布を示す図

【図１２】第１実施の形態のピッチ判定部２ｃで検出し
た文字開始点候補間の距離の頻度分布のピークを示す図

【図１３】第１実施の形態の文字切り出し部２ｄの処理
の流れを示すフローチャート

【図１４】第１実施の形態の文字切り出し部２ｄで文字
単位に切り出した様子を示す図

【図１５】第１実施の形態の全角文字認識部４ｄと半角
文字認識部４ｅを構成するネットワークを示す図

【図１６】第１実施の形態の文字切り出し部２ｄで、分
離している１つの全角文字を誤って２文字の半角文字と
して切り出した様子を示す図

【図１７】第１実施の形態の文字切り出し部２ｄで、接
触している２つの半角文字を誤って１文字の全角文字と
して切り出した様子を示す図

【図１８】第２実施の形態の認識部４ｂのより詳細な構
成図

【図１９】第２実施の形態の文書構造判断部２ａで作成
したヒストグラムを示す図

【図２０】第２実施の形態の行切り出し部２ｂで行を切
り出す位置を示す図

【図２１】第２実施の形態のピッチ判定部２ｃで１行の
文書画像を投影して作成したヒストグラムを示す図

【図２２】第２実施の形態のピッチ判定部２ｃで決定し
た文字開始点候補の位置を示す図

【図２３】第２実施の形態のピッチ判定部２ｃで文字開
始点候補間の距離の分布を示す図

【図２４】第２実施の形態のピッチ判定部２ｃで検出し
た文字開始点候補間の距離の頻度分布のピークを示す図

【図２５】第２実施の形態の文字切り出し部２ｄでの定
ピッチの場合の処理の流れを示すフローチャート

【図２６】第２実施の形態の文字切り出し部２ｄで求め
た切り出し位置候補の位置を示す図

【図２７】第２実施の形態の文字切り出し部２ｄで作成
した基本関数ｈ0を示す図

【図２８】第２実施の形態の文字切り出し部２ｄで作成
した基本関数ｈ0を繰り返した関数ｈを示す図

【図２９】第２実施の形態の文字切り出し部２ｄにおい
て、関数ｆに関数ｈをずらしながら掛け合わせる様子を
示す図

【図３０】第２実施の形態の文字切り出し部２ｄにおい
て、関数ｆに関数ｈをずらしながら掛け合わせた値を加
算した値が最大になる位置を示す図

【図３１】第２実施の形態の文字切り出し部２ｄにおい
て、関数ｆに関数ｈをずらしながら掛け合わせた値を加
算した値が最大になる位置の基本関数ｈ０の先頭位置に
相当するヒストグラムＨの値が閾値β１以下ではない場
合の切り出し位置を決定する様子を示す図

【図３２】従来例で、認識部に使用された部分空間法の
認識方法を示す図

【図３３】従来例で、固定サイズの窓を操作する様子を
示す図

【符号の説明】

１画像入力手段１ａ画像入力部１ｂ２値化部２文字切り出し手段２ａ文書構造判断部２ｂ行切り出し部２ｃピッチ判定部２ｄ文字切り出し部３特徴量抽出手段４文字認識手段４ａ認識部指示部４ｂ認識部４ｃ再切り出し指示部４ｄ全角文字認識部４ｅ半角文字認識部４ｆ通常文字認識部４ｇ小文字認識部

Claims

【特許請求の範囲】

【請求項１】認識する対象の文書画像を入力する画像入
力手段と、前記画像入力手段で入力した文書画像から１
文字と見做した画像を切り出す文字切り出し手段と、前
記文字切り出し手段で切り出した画像から特徴量を抽出
する特徴量抽出手段と、前記特徴量抽出手段で抽出した
特徴量の文字カテゴリを識別する文字認識手段を具備
し、前記文字切り出し手段を、前記画像入力手段で入力した
文書画像が縦書きであるか横書きであるかを判断する文
書構造判断部と、前記文書構造判断部で判断した結果に
基づいて前記画像入力手段で入力した文書画像から１行
と見做した画像を切り出す行切り出し部と、前記行切り
出し部で切り出した画像が定ピッチの行であるか不定ピ
ッチの行であるかを判断するピッチ判定部と、前記ピッ
チ判定部で判定した結果に基づいて前記行切り出し部で
切り出した画像から１文字と見做した画像を切り出す文
字切り出し部とで構成し、前記文字認識手段を、認識部指示部と複数の認識部と再
切り出し指示部とで構成し、前記認識部指示部は、前記文字切り出し部で切り出した
画像に基づいて複数の前記認識部のなかから認識部を選
択し、前記認識部指示部で選択した認識部は前記特徴量
抽出手段で抽出した特徴量の文字カテゴリを判定し、前
記再切り出し指示部は、前記認識部で求めた認識結果に
基づいて前記文字切り出し部に再切り出しを命ずる文字
認識装置。
【請求項２】画像入力手段を、認識を行う対象の文書画
像を入力する画像入力部と、前記画像入力部で入力した
画像を２値化する２値化部とで構成する請求項１記載の
文字認識装置。
【請求項３】文書構造判断部は、画像入力手段で入力し
た文書画像の各画素を縦方向と横方向のそれぞれに投影
して濃度投影ヒストグラムを作成し、前記ヒストグラム
を比較することにより、前記文書画像が縦書きであるか
横書きであるかを判断する請求項１記載の文字認識装
置。
【請求項４】行切り出し部は、文書構造判断部で求めた
ヒストグラムに基づいて、画像入力手段で入力した文書
画像から行と見做した画像を切り出し、同時に前記文書
構造判断部で縦書きと判断した場合は行の幅の平均値
を、前記文書構造判断部で横書きと判断した場合は行の
高さの平均値を求める請求項１記載の文字認識装置。
【請求項５】ピッチ判定部は、行切り出し部で切り出し
た画像の濃度投影ヒストグラムを作成し、前記濃度投影
ヒストグラムにおいて予め定めた閾値以下の値から前記
閾値よりも大きい値になる位置を文字開始点候補と定
め、前記文字開始点候補間の距離の頻度分布に基づいて
定ピッチであるか、不定ピッチであるかを判断する請求
項１記載の文字認識装置。
【請求項６】ピッチ判定部は、行切り出し部で切り出し
た画像の濃度投影ヒストグラムを作成し、前記濃度投影
ヒストグラムにおいて予め定めた閾値以下の値から前記
閾値よりも大きい値になる位置を文字開始点候補と定
め、前記文字開始点候補間の距離の頻度分布を作成し、
前記頻度分布を複数の区間に分割し、前記の各区間内に
おいて頻度の最大値を求め、前記頻度分布において前記
最大値が一定間隔で存在していれば定ピッチと判断し、
前記最大値が一定間隔で存在していなければ不定ピッチ
と判定する請求項１記載の文字認識装置。
【請求項７】ピッチ判定部は、定ピッチと判断した場合
に文字開始点候補間の頻度の最大値の間隔を文字ピッチ
として推定する請求項５または６記載の文字認識装置。
【請求項８】文字切り出し部は、ピッチ判定部において
不定ピッチと判断した場合、行切り出し部で切り出した
画像において、ピッチ判定部で求めた文字開始点候補の
位置から次の文字開始点候補の位置までを１文字候補画
像とし、前記１文字候補画像の幅が行切り出し部で求め
た行の高さあるいは幅の平均値に予め定めた定数をかけ
た値よりも大きい場合は、前記１文字候補画像は複数の
文字が接触して切り出されていると判断し、前記１文字
候補画像をさらに分割する請求項５から７のいずれかに
記載の文字認識装置。
【請求項９】認識部を、全角文字認識部と半角文字認識
部とで構成し、文字切り出し部で切り出した１文字候補
画像の幅の高さに対する比が予め定めた閾値よりも大き
い場合は全角文字認識部で認識を行い、文字切り出し部
で切り出した１文字候補画像の幅の高さに対する比が前
記閾値以下の場合は半角文字認識部で認識を行う請求項
１から８のいずれかに記載の文字認識装置。
【請求項１０】半角文字認識部が、半角文字と、全角文
字の偏、旁を予め学習する請求項９記載の文字認識装
置。
【請求項１１】再切り出し指示部が、半角文字認識部の
認識結果が全角文字の偏、旁の場合に文字切り出し部に
再切り出しを命じ、前記文字切り出し部は、現在の文字
候補画像と次の文字候補画像とをまとめて新たな文字候
補画像として切り出す請求項１０記載の文字認識装置。
【請求項１２】再切り出し指示部が、全角文字認識部で
認識した文字カテゴリの信頼性を表す値が予め定めた閾
値よりも小さい場合に文字切り出し部に再切り出しを命
じ、前記文字切り出し部は、現在の１文字候補画像を分
割し、新たな１文字候補画像を切り出す請求項９から１
１のいずれかに記載の文字認識装置。
【請求項１３】文字切り出し部は、ピッチ判定部におい
て定ピッチと判断した場合、行切り出し部で切り出した
画像の濃度投影ヒストグラムにおいて、予め定めた閾値
以下の点を切り出し位置候補点とし、前記切り出し位置
候補点において推定したピッチの間隔毎に切り出し位置
候補点があれば、その切り出し位置候補点を切り出し位
置とする請求項７記載の文字認識装置。
【請求項１４】文字切り出し部は、ピッチ判定部におい
て定ピッチと判断した場合、行切り出し部で切り出した
画像の濃度投影ヒストグラムにおいて、予め定めた閾値
以下の点を切り出し位置候補点とし、前記切り出し位置
候補に予め定めた値を与え前記切り出し位置候補の位置
を示す関数を作成し、ピッチ判定部において推定したピ
ッチの幅を持つ基本関数を作成し、前記基本関数を連結
した関数を前記切り出し位置候補の位置を示す関数に重
ね合わせた時に、前記切り出し位置候補の位置を示す関
数と前記基本関数を連結した関数の値を掛け合わして加
算した値が最大になる位置を求め、前記位置での前記基
本関数の先頭の位置に相当する前記ヒストグラムの値
が、前記閾値以下であれば切り出し位置と定め、前記閾
値よりも大きい値であれば、近傍における前記濃度投影
ヒストグラムの値が最小になる位置を切り出し位置と定
める請求項７記載の文字認識装置。
【請求項１５】認識部を通常文字認識部と小文字認識部
とで構成し、特徴量抽出手段で抽出した特徴量を、先ず
通常文字認識部で認識し、再切り出し指示部が文字切り
出し部に再切り出しを命じた場合は、再切り出し指示部
は、ピッチ判定部で求めた濃度投ヒストグラムにおいて
現在切り出している画像に対応する区間内において前記
ピッチ判定部で求めた文字開始点候補が存在するか調
べ、もし存在すれば文字開始点候補が存在する前記位置
で画像を分割することにより新たな１文字の画像を切り
出し、存在しなければ前記濃度投影ヒストグラムにおい
て現在の画像に対応する位置において、前記ヒストグラ
ムの値が最小になる点で画像を分割し、新たに画像を切
り出す請求項１から８いずれかに記載の文字認識装置。