JP2008084105A

JP2008084105A - 文字切出方法及び文字認識装置

Info

Publication number: JP2008084105A
Application number: JP2006264710A
Authority: JP
Inventors: Mitsuru Takiguchi; 充瀧口; Tomonori Mimura; 友則三村
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2006-09-28
Filing date: 2006-09-28
Publication date: 2008-04-10
Anticipated expiration: 2026-09-28
Also published as: JP5041775B2

Abstract

【課題】他の文字矩形と結合しない文字矩形パターンを辞書データとして登録し、該辞書データとマッチングした文字矩形を他の文字矩形と結合させずに文字切出を行うようにして、文字切出の困難な文字画像からでも正確でかつ高速に文字パターンを切り出すことができ、誤読文字を低減させることができるようにする。
【解決手段】全角文字又は幅の広い文字及び半角文字又は幅の細い文字を含む文字パターンから成る文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、誤って結合する半角文字又は幅の細い文字、及び、１文字で他の文字とは結合しない文字の文字パターンを辞書データとして登録し、射影によって検出された文字矩形とパターンマッチングを行い、マッチングした文字矩形を他の文字矩形とは結合させずに文字パターンを切り出す。
【選択図】図１

Description

本発明は、文字認識において文字を１文字毎に正しく切り出す文字切出方法、及び、該文字切出方法を用いる文字認識装置に関するものである。

従来、入力された画像に含まれる文字を認識する光学式文字認識装置（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅａｄｅｒ）等の文字認識装置が業務分野で用いられている（例えば、特許文献１〜３参照。）。

このような文字認識装置では、１文字ずつの文字記入枠が印刷された帳票が用いられ、記入者は、前記文字記入枠に文字を１文字ずつ記入するようになっている。この場合、文字認識装置は、検出した帳票端等に基づいて記入枠が有るべき位置を算出することができる。そのため、記入された文字の位置を確定し、文字を１文字ずつ正しく切り出し、切り出した文字のパターンを認識辞書と照合して認識を行うことができる。また、文字記入枠が設定されているので、隣接する文字同士の接触も少なく、また、文字同士が接触した場合も、文字記入枠の位置に基づいて、文字を正確に分離して切り出すことが可能である。

また、印刷された文字を認識する場合は、ＯＣＲ−Ｂ、マルチフォント等のような特定のフォントによって、かつ、隣り合う文字同士が接触しないように印刷したＯＣＲ処理用の帳票が用いられる。この場合、文字認識装置は、文字列の射影から、ｌ文字当たりの文字サイズや文字ピッチ（文字が記入される間隔）を算出し、１文字ずつを正しく切り出し、切出認識辞書と照合しながら文字認識を行うことができる。

しかし、ＯＣＲ用の帳票ではない通常の帳票等が用いられた場合、一般的な伝票に手書きで記入された場合と同様に、フリーピッチで印刷された文字列や、不特定のプリンタや不特定の字種／字体によって印刷された文字列を認識する必要がある。このような場合に、隣り合う文字同士が接触したり、入り組んだりしていることが多く、正確に文字を切り出すことができなくなってしまう。

そこで、次のような第１〜第３の方法が提案されている。

第１の方法では、まず、１行の文字列の黒画素を行方向に投影し、行を構成する文字の平均高さを求める。次に、文字列の黒画素を行方向に垂直な方向に射影して黒画素の行方向の頻度をヒストグラムとして表し、該ヒストグラムから頻度が０の位置、すなわち、文字列が途切れている位置、及び、ヒストグラムの極小点の位置、すなわち、接触文字又は重なり文字を切り離すべき切断候補位置を求める。そして、該切断候補位置に基づき、先に求めた文字列の平均高さから、全角文字又は半角文字の列として妥当と見られる位置を文字切出位置とする。

また、第２の方法では、１行の文字列の黒画素を行方向に垂直な方向に射影して黒画素の行方向の頻度をヒストグラムとして表し、該ヒストグラムから頻度が０の位置又はヒストグラムの極小点の位置を求め、文字切出位置と推定される位置を前記文字列に対して複数通り求める。そして、複数通りの文字切り出位置の中から、いずれがもっともらしい文字切出位置であるかの判定を認識結果から行う。前記判定は、文字高さを見ないで行われる。

さらに、第３の方法では、１行の文字列について黒画素の連結領域を求め、該連結領域の並びについて、小さな連結領域同士を統合し、大きな連結領域を複数に分離して、１文字の領域を決め、文字の切出を行なう。その際、小さい連結領域及び大きな連結領域の判断は、文字列の高さを基準にして行われる。
特開平８−１０１８８５号公報特開平５−８１４７８号公報特開平５−１４３７７６号公報

しかしながら、前記従来の文字切出方法においては、ある程度の文字切出を行うことができるが、正確な文字切出を行うことができなかった。通常の帳票においては、漢字、カタカナ、数字、記号等の複数種類の文字が混在したり、全角文字、半角文字、倍角文字、プロポーショナル文字等の各種の文字幅の文字が混在したりする。しかも、分離文字（例えば、横書きの場合、「川」、「い」、「ハ」等の文字）、偏と旁（つくり）とから成る漢字のように分離した部分を備える文字、隣接する文字同士が互いに入り組んだ文字、隣接する文字同士が互いに接触している文字、プレ印刷上の印字及び記入、文字の掠（かす）れ／潰（つぶ）れ等があった場合、正確な文字切出を行うことが困難である。

例えば、前記第１の方法では、１行の文字列がすべて全角文字で構成されている場合、全角文字は文字幅と文字高さがすべて等しいと考えられるので、平均文字高さから文字幅を正確に推定することができ、１文字ずつ正確に切り出すことができる。しかし、半角文字と全角文字とが混在している場合、例えば、全角の仮名交じり漢字文字列に半角の英数字又はカタカナが混入している場合、文字位置が半角分だけずれたり、半角二文字が１文字分に認識されることがあり、正しい文字切出位置を求めることができないことがある。

また、通常の帳票の場合、強調のために一部分を倍角文字で印字したり、プレ印刷上に文字のサイズやピッチの異なる文字を印字したりするので、文字幅を正確に求めることができず、正しい文字切出位置を求めることができない。手書きの場合も、癖によって文字のサイズやピッチが不規則に変化したりするので、文字幅を正確に求めることができず、正しい文字切出位置を求めることができない。さらに、文字を切断する方法によっては、隣接する文字が該当する文字パターンに進入し、切出認識辞書と照合を誤る原因になることがある。

また、例えば、前記第２の方法では、１行の文字列に対して複数通りの切出結果が得られるので、１行の認識処理に複数行分の処理時間がかかってしまう。特に、隣接する文字と接触する文字が多数ある場合には、非常に多くの切出結果が得られるので、認識処理速度が著しく低下してしまう。また、切出位置が適切に得られないと、組み合わせ数が増加し、誤認識の原因ともなる。さらに、漢字の偏や旁のように、単独でも文字として成立するものは、複数通りの切出結果の中から正しい切出結果を選択することが困難である。また、誤った切出でも文字矩（く）形として意味のある文字矩形になる文字についても、同様である。さらに、複数通りの切出結果に正しい候補が存在しない場合も考えられる。

図２は従来の文字切出方法において切出が正しく行われない例を示す図である。

図に示される例においては、隣り合う文字同士が接近又は接触し、かつ、半角文字や分離文字が多く存在するので、文字の幅が正しく推定できず、前記第１及び第２の方法では、正確な文字切出を行うことができない。例えば、「触」の旁である「虫」と、隣接する文字である「文」とを結合すると、「蚊」と認識することができるので、前記第２の方法では、正しく切り出すことができない。

さらに、例えば、前記第３の方法では、求められた黒画素の連結領域の結合条件及び分離条件が確立されていない。そのため、文字同士が接触したり隣接したりしている場合、文字列部分の分離に関して認識精度上多くの問題があり、正確に文字認識を行うことは困難である。また、入り組んだ文字の分離には有効であるが、接触している文字の分離には有効でない。

このように、前記従来の文字切出方法においては、誤切出による誤読、不読（認識候補が無い）、処理速度低下等の問題点がある。

本発明は、前記従来の文字切出方法の問題点を解決して、他の文字矩形と結合しない文字矩形パターンを辞書データとして登録し、該辞書データとマッチングした文字矩形を他の文字矩形と結合させずに文字切出を行うようにして、文字切出の困難な文字画像からでも正確でかつ高速に文字パターンを切り出すことができ、誤読文字を低減させることができる文字切出方法及び文字認識装置を提供することを目的とする。

そのために、本発明の文字切出方法においては、全角文字又は幅の広い文字及び半角文字又は幅の細い文字を含む文字パターンから成る文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、誤って結合する半角文字又は幅の細い文字、及び、１文字で他の文字とは結合しない文字の文字パターンを辞書データとして登録し、射影によって検出された文字矩形とパターンマッチングを行い、マッチングした文字矩形を他の文字矩形とは結合させずに文字パターンを切り出す。

本発明の他の文字切出方法においては、分離文字を含む文字パターン、又は、１文字が分離した文字パターンから成る文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、複数の文字矩形を結合して１文字となる文字パターンを辞書データとして登録し、射影によって検出された隣り合う文字矩形を結合した状態で登録した辞書データとパターンマッチングを行い、マッチングした文字矩形を他の文字矩形と結合させて文字パターンを切り出す。

本発明の更に他の文字切出方法においては、接触文字又は隣り合う文字と結合している文字を含む文字パターンから成る文字列の画像から各文字パターンを１文字単位に切り出す文字切出方法であって、入り組み又は接触によって複数文字が射影上１文字の文字矩形として検出される文字矩形パターンを登録した辞書データとパターンマッチングを行い、マッチングした文字矩形を分割する。

本発明の更に他の文字切出方法においては、さらに、前記辞書データに分割位置の情報を登録し、射影によって検出された文字矩形を結合した状態で前記辞書データとパターンマッチングを行い、マッチングした文字矩形を前記分割位置の情報に基づいて分割し、文字パターンを切り出す。

本発明の更に他の文字切出方法においては、さらに、前記辞書データに、隣り合う文字の文字矩形が進入しないように分割情報の間隔を空けて登録するとともに、文字が入り組んだ情報を登録し、前記辞書データに基づいて文字パターンを切り出すことにより、文字矩形に隣接の文字矩形が進入しないようにする。

本発明の更に他の文字切出方法においては、分離文字が接触し、射影によって検出された文字矩形が文字としての意味を持たない文字パターン、又は、１文字に分離文字の一部が接触し、射影によって検出された文字矩形が１文字の文字矩形と隣接文字の一部の文字矩形とから成る文字パターンを含む文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、入り組み又は接触によって複数文字が射影上１文字の文字矩形として検出される文字矩形パターンを登録した辞書データに、分割位置の情報、及び、分割後の文字矩形が１文字の文字矩形になるか又は１文字に満たない文字矩形になるかの情報を更に登録し、射影によって検出された文字矩形を結合した状態で前記辞書データとパターンマッチングを行い、マッチングした文字矩形を前記分割位置の情報に基づいて分割し、文字パターンを切り出す。

本発明の文字認識装置においては、さらに、文字パターンを切り出すための情報を利用し、辞書データとマッチングしない文字矩形も、前後関係又は文字列の位置関係に基づいて、正しく切り出す手段と、前記辞書データとマッチングして切り出された文字パターンの情報の矛盾に基づいて、誤マッチングして切り出された文字パターンの誤りを訂正する手段とを有する。

本発明の他の文字認識装置においては、さらに、前記辞書データに切出で問題のある文字パターンの文字コードを登録し、切出で問題のある文字パターンの文字コードと、文字認識用の辞書データによる認識結果とに基づいて複合的に矛盾をチェックし、矛盾がある場合は不読とすることによって誤読を低減させる手段を有する。

本発明の更に他の文字認識装置においては、さらに、前記辞書データを実現する手段であって、文字矩形に基づく多値階調の正規化されたデータを辞書データとして、該辞書データと文字矩形とが一致するか否かを判定する手段を有する。

本発明の更に他の文字認識装置においては、さらに、前記辞書データに登録されたパターンと特徴がほぼ同様の文字矩形に関しては、パターンの特徴が異なる部分に注目し、パターン全体とパターンの一部分とのマッチングを別個に行い、両者がともにマッチングすると、前記文字矩形がマッチングしたものと判定する。

本発明の更に他の文字認識装置においては、さらに、手書き文字に対し、文字矩形の重心によって正規化した文字切出用の辞書データを作成する。

本発明の更に他の文字認識装置においては、さらに、オペレータによる読取結果の訂正に基づいて学習することによって文字切出用の辞書データを作成する。

本発明の更に他の文字認識装置においては、さらに、前記文字切出用の辞書データに特定のＩＤを付加し、文字切出用の辞書データの履歴を作成することにより、文字切出用の辞書データをスリム化して処理速度を向上させる。

本発明によれば、文字切出方法においては、他の文字矩形と結合しない文字矩形パターンを辞書データとして登録し、該辞書データとマッチングした文字矩形を他の文字矩形と結合させずに文字切出を行う。これにより、文字切出の困難な文字画像からでも正確でかつ高速に文字パターンを切り出すことができ、誤読文字を低減させることができる。

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。

図３は本発明の第１の実施の形態における文字認識装置のシステム構成を示す図である。

図において、１０は本実施の形態における文字認識装置であり、例えば、汎（はん）用のパーソナルコンピュータ等のコンピュータから成るシステムである。そして、前記文字認識装置１０は、プロセッサから成る演算手段としてのＣＰＵ１１、半導体メモリ等から成る記憶手段としてのメモリ１２、表示手段としてのＣＲＴ１３、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）等から成る記憶装置１４、入力手段としてのマウス１５及びキーボード１６、並びに、画像入力装置１７を有する。なお、前記文字認識装置１０の各部は、システムバス１８によって相互に通信可能に接続されている。

ここで、前記画像入力装置１７は、フラットベッドスキャナ、シートフィードスキャナ、ドラムスキャナ等のスキャナ装置等であるが、画像を入力することができる装置であれば、いかなる種類の装置であってもよい。また、前記画像入力装置１７は、カラー画像の読取が可能なカラースキャナであってもモノクロスキャナであってもよい。前記画像入力装置１７は、文字認識装置１０が認識すべき文字列が記載された帳票等の記録媒体に光を照射する蛍光灯等から成る光源、及び、前記記録媒体の表面からの反射光を受光するＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ：電荷結合素子）等から成るライン型イメージセンサのようなイメージセンサを備える。さらに、前記画像入力装置１７は、記録媒体の画像を走査しながら読み取る画像読取部、ホッパ、搬送経路、スタッカ等を有し、複数枚の記録媒体を順次読み取ることができるものであるものとするが、フラットベッドタイプのものであってもよい。

なお、前記記録媒体は、文字列が記載された媒体であればいかなる種類のものであってもよいが、ここでは、帳票であるものとして説明する。

次に、前記文字認識装置１０の機能構成について説明する。

図１は本発明の第１の実施の形態における文字認識装置の機能構成を示す図、図４は本発明の第１の実施の形態における文字パターン切出部の構成を示す図、図５は本発明の第１の実施の形態における誤結合パターン辞書の構成を示す図、図６は本発明の第１の実施の形態における誤分離パターン辞書の構成を示す図、図７は本発明の第１の実施の形態における矩形パターン辞書の１パターン矩形分の構成要素を示す図である。

図１に示されるように、文字認識装置１０は、領域抽出処理部３９、文字パターン切出部２０、矩形パターン辞書３０、文字認識部３４、文字認識辞書３６及び読取対象指定部３７を有する。そして、画像入力装置１７から帳票画像３８が入力されると、領域抽出処理部３９は、前記帳票画像３８から読取対照としての文字記載領域を抽出する。続いて、文字パターン切出部２０は、矩形パターン辞書３０及び文字認識辞書３６を参照して、前記文字記載領域から１文字毎の文字パターンを切り出す。続いて、文字認識部３４は、文字認識辞書３６及び読取対象指定部３７を参照して、切り出された文字パターンの文字認識を行い、その結果を認識結果出力部３５が出力する。

ここで、前記文字パターン切出部２０は、図４に示されるように、文字記載領域から文字列を切り出す文字列切出部２１、切り出された文字列の特徴を抽出する文字列特徴抽出部２２、文字列の特徴から文字の外接矩形、すなわち、文字矩形を分離する矩形分離部２５、文字切出を支援する第１矩形パターン照合部２７、分離している文字矩形を結合する矩形結合部２９、及び、文字矩形のパターンを照合する第２矩形パターン照合部２８を有する。

なお、前記矩形パターン辞書３０は、単独パターン辞書３１、誤結合パターン辞書３２及び誤分離パターン辞書３３から成る。

前記単独パターン辞書３１は、他の文字の部品とならない文字、すなわち、単独で文字として成立する文字の文字矩形データの特徴の集合であって、隣り合う文字矩形と結合しやすい文字矩形（例えば、縦に細長い文字矩形等）が登録されているデータの集合、すなわち、辞書である。

また、前記誤結合パターン辞書３２は、図５に示されるように、隣り合った文字が結合したり、隣り合った文字の一部等が誤って結合した文字矩形データの特徴の集合であって、各文字矩形データにおける本来分離すべき位置が登録されているデータの集合、すなわち、辞書である。

さらに、前記誤分離パターン辞書３３は、図６に示されるように、分離しやすい文字の文字矩形データ特徴の集合である。例えば、「い」、「ハ」、「川」等、漢字の偏と旁とで離れやすい文字、偏や旁だけで文字と成り得るもの等のように、文字の特徴で分離しやすいパターンが登録されているデータの集合、すなわち、辞書である。

なお、矩形パターン辞書３０は、図７に示されるように、登録パターン毎に登録されている文字コード（３４１）も有している。

そして、文字パターン切出部２０によって切り出された文字パターンは、文字認識部３４によって文字コードに変換され、認識結果出力部３５によって、認識結果として出力される。なお、文字認識辞書３６は、文字認識処理部３４が参照する認識辞書である。また、読取対象指定部３７は、読取を行う領域のどんな文字を読み取るのかを文字コードで保有している。

次に、前記構成の文字認識装置１０の動作について説明する。

図８は本発明の第１の実施の形態における文字列の切出の例を示す図、図９は本発明の第１の実施の形態における文字矩形の論理チェックの結果を示す図である。なお、図８（ａ）は文字列画像例、図８（ｂ）は投影のヒストグラム、図８（ｃ）は分離後の文字矩形、図８（ｄ）は切出結果を示す図である。

まず、領域抽出処理部３９は、画像入力装置１７から入力された帳票画像３８の帳票レイアウトを解析することによって、又は、オペレータ等に指示された帳票のフォーマット情報（例えば、帳票のどこに文字領域が指定されているか等の情報）により、文字領域を抽出する。

続いて、文字パターン切出部２０の文字列切出部２１は、抽出された文字領域から文字列を切り出す。この場合、文字列切出部２１は、文字列において文字の並んでいる方向、すなわち、行方向に投影を行うことによって、文字列を検出して切り出すことができる。ここでは、図８（ａ）に示されるような文字列が切り出されたものとする。

続いて、文字列特徴抽出部２２は、図８（ｂ）に示されるような射影のヒストグラムを取得する。そして、矩形分離部２５は、文字高さ、ヒストグラムの凹み、ヒストグラムが０の位置等に基づいて文字の最大幅を想定し、想定した文字の最大幅やヒストグラムに基づき、ヒストグラムの凹みやヒストグラムが０の位置で、文字矩形を分割する。ここでは、図８（ｃ）に示されるように、文字矩形が分割されたものとする。

第１矩形パターン照合部２７は、まず、読取対象指定部３７を参照し、単独パターン辞書３１、誤結合パターン辞書３２及び誤分離パターン辞書３３の登録パターン毎の登録されている文字コード３４１を、読取対象指定部３７に登録されている読取対象文字コードと照合して、読取対象以外の矩形パターン辞書３０をマスクして照合不可とする。

続いて、前記第１矩形パターン照合部２７は、誤結合パターン辞書３２を参照して前記文字列内の各文字矩形に関して照合を行う。この場合、第１矩形パターン照合部２７は、各文字矩形を誤結合パターン辞書３２と照合する。照合の結果、誤結合パターン辞書３２と一致した文字矩形を、誤結合パターン辞書３２に登録されている分割位置で、分割する。

図８（ｃ）に示される例においては、“３）”、「接触」における“接角”の部分等が、誤結合パターン辞書３２にあらかじめ登録されている。そのため、各文字矩形を誤結合パターン辞書３２と照合し、登録されているデータと一致している場合、登録されている分割位置に従って、“３）”は“３”と“）”とに分離され、“接角”は“接”と“角”とに分離される。

この場合、“３）”の分離されたもの、すなわち、“３”及び“）”は、いずれも１文字として正しいので、他の文字矩形とは結合しない確定した文字矩形として扱われる。また、“接角”は“接”と“角”とに分離されるが、“角”は、文字として成立しないので、誤結合パターン辞書３２を参照して、他の文字矩形と結合する文字矩形として扱われる。

次に、前記第１矩形パターン照合部２７は、誤分離パターン辞書３３を参照して前記文字列内の各文字矩形に関して照合を行う。

図８（ｃ）に示される例においては、“川”及び“い”が、誤分離パターン辞書３３にあらかじめ登録されている。この場合、文字列の高さに基づいて、最大の文字幅を、例えば、文字列の高さの１．５倍に設定し、結合しても最大の文字幅範囲に収まる範囲で分離された文字矩形を結合する。そして、結合した文字矩形を誤分離パターン辞書３３と照合し、登録されているデータと一致している場合、前記結合した文字矩形を確定する。

次に、前記第１矩形パターン照合部２７は、単独パターン辞書３１を参照して前記文字列内の各文字矩形に関して照合を行う。

図８（ｃ）に示される例においては、“（”、“な”等の部分が、単独パターン辞書３１にあらかじめ登録されている。この場合、単独パターン辞書３１と照合し、登録されているデータと一致していると判断された文字矩形は、確定した文字矩形として扱われ、他の文字矩形とは結合されないようにする。これにより、後の処理、例えば、矩形結合部２９による処理等において、前記文字矩形を隣接する文字矩形と結合してしまうことが確実に防止される。

前記第１矩形パターン照合部２７は、矩形パターン辞書３０との照合、すなわち、マッチングが完了した時点で、各文字矩形の状態に応じた論理的な確認、すなわち、文字矩形の論理チェックを行い、誤ったマッチング結果の修正、及び、矩形パターン辞書３０とマッチングしなかった文字矩形に関する確定を行う。前記文字矩形の論理チェックの結果は、例えば、図９に示されるようになる。

図５に示されるように、誤結合パターン辞書３２には、「接触」における“接角”部分等が登録されている。そして、“文”が単独パターン辞書３１に登録されているので、“接”及び“文”は確定するが、“触”の偏である“角”は不確定であり、“触”の旁である“虫”は不定であってどのパターンにも一致しない。そのため、図９におけるＮｏ．３のケースとして、“触”の偏である“角”と旁である“虫”とは結合され、“触”として画定される。

そして、第１矩形パターン照合部２７によって全文字矩形と矩形パターン辞書３０との照合が完了すると、隣り合う文字同士が接触した接触文字は分離され、１文字が複数の部分に分離していた文字は結合されるので、文字のピッチ（文字が記入される間隔）や１文字当たりの文字サイズを文字矩形に基づいて想定することが容易となる。

そこで、矩形結合部２９は、第１矩形パターン照合部２７による照合が完了した各文字矩形の最大幅や文字列高さに基づき、最大文字幅を推測し、推測した最大文字幅の範囲内で文字矩形を結合することが可能か否かを判断する。そして、最大文字幅の範囲内で結合した文字矩形を文字認識辞書３６と照合して一致した場合（例えば、一定の距離、差分内にある場合）には、結合が必要と考えられるので、文字矩形を結合する。

ただし、単独パターン辞書３１及び誤分離パターン辞書３３とのマッチングを行って、第１矩形パターン照合部２７が確定した文字矩形は、矩形結合部２９による結合対象とはしない。

続いて、第２矩形パターン照合部２８は、矩形結合部２９によって誤って結合されてしまった文字矩形がないか否かを、誤結合パターン辞書３２を参照して、確認する。そして、誤結合パターン辞書３２に登録されたものと一致する文字矩形は、誤って結合されたものと判断され、誤結合パターン辞書３２に従って分離される。

これにより、文字パターン切出部２０の処理は完了し、図８（ｄ）に示されるような切出結果を得ることができる。なお、矩形パターン辞書３０に登録されているものと一致した文字矩形には、矩形パターン辞書３０に登録されている文字コード３４１が、情報として付加される。

そして、文字認識部３４は、文字パターン切出部２０が切り出した図８（ｄ）に示されるような文字矩形を、読取対象指定部３７に従って文字認識辞書３６と照合する。そして、照合の結果、文字認識辞書３６に登録されたものと一致した文字矩形を文字コードに変換する。ただし、変換された文字コードが、前記矩形パターン辞書３０に登録されているものと一致したことによって付加された文字コードと相違する場合には、誤読の可能性が高いと判断し、認識結果を不読とする。

続いて、認識結果出力部３５は、文字パターン切出部２０が切り出した文字矩形と文字認識部３４によって変換された文字コードとを、認識結果出力として、ＣＲＴ１３に表示したり記憶装置１４に格納したりして、出力する。

このように、本実施の形態においては、結合文字、分離文字、全角、半角、プロポーショナルフォント等の混在、手書き文字の入り組み、接触文字等の正しく切り出すことができないパターンと文字矩形の切出方、すなわち、分離位置とを矩形パターン辞書３０にあらかじめ登録し、該矩形パターン辞書３０とのマッチングを行うことによって、文字矩形を切り出すようになっている。そのため、結合文字、分離文字、全角、半角、プロポーショナルフォント等の混在、手書き文字の入り組み、接触文字等の正しく切り出すことができないパターンを正確に切り出すことができる。

また、従来の技術においては、切出と認識とを同時に行い、複数の切出位置の中からより正しいと思われるものを選択するので、何度も文字認識を行い、処理速度が低下してしまうが、本実施の形態においては、誤って切り出した部分、又は、誤って切り出す可能性のある部分を見つけ出して処理するので、処理速度を向上させることができる。

さらに、従来の技術においては、誤読をチェックすることができなかったが、本実施の形態においては、切出に問題がある部分の照合結果と認識結果とを照合し、複合的に判断して不一致部分、すなわち、矛盾部分を不読とするので、誤読を低減することが期待できる。

次に、本発明の第２の実施の形態について説明する。なお、第１の実施の形態と同じ構造を有するものについては、同じ符号を付与することによってその説明を省略する。また、前記第１の実施の形態と同じ動作及び同じ効果についても、その説明を省略する。

図１０は本発明の第２の実施の形態における誤分離パターンの例を示す第１の図、図１１は本発明の第２の実施の形態における誤分離パターンの例を示す第２の図、図１２は本発明の第２の実施の形態における誤分離パターンの例を示す第３の図、図１３は本発明の第２の実施の形態における矩形パターン辞書の管理データを示す図である。

前記第１の実施の形態で説明したように、矩形パターン辞書３０は、単独パターン辞書３１、誤結合パターン辞書３２及び誤分離パターン辞書３３から成る。また、矩形パターン辞書３０は、複数の矩形パターンの情報から成り、１パターン矩形分の構成は図７に示されるようになっている。ここで、管理ＩＤ３１０は、矩形パターン辞書３０を管理するための番号であり、各パターン矩形毎に別の番号が付与される。矩形パターン特徴３２０は、接触文字や入り組みのような文字切出を行う上での問題となる文字矩形のパターンの特徴である。

前記矩形パターン特徴３２０は、次のようにして作成することができる。

問題となる文字矩形を縦横、例えば、８×８のセルに分割し、各セル内の黒と白の割合を特徴とするデータを作成する。例えば、二値画像から矩形パターン特徴３２０を作成する場合、縦横８×８のセルに分割された各セル内の黒と白の割合を、以下の式（１）によって数値化することにより実現することができる。
（（白画素数合計）×２５５）／（セル内全画素数）・・・式（１）
また、手書き文字の場合、文字矩形のパターンのばらつきが多くなるため、文字矩形内の黒で重心を算出し、重心部分を前記分割させたセルの中央に位置させて正規化を行い、上記式（１）によって算出することも可能である。

そして、一致判定閾（しきい）値３３０は、矩形パターン特徴３２０と矩形イメージとが一致していると判断するための閾値であり、矩形パターン特徴３２０の特徴等から算出することも可能である。

また、分割個数３４０は、矩形パターン特徴３２０が何文字分の文字矩形を含んでいるかを示す個数である。単独パターン辞書３１及び誤分離パターン辞書３３の場合、矩形パターン特徴３２０に１文字分の矩形パターン特徴が登録されるので、分割個数３４０は１個となる。また、誤結合パターン辞書３２の場合、矩形パターン特徴３２０に誤って結合してしまった文字矩形が登録されるので、分割個数３４０は誤って結合してしまった文字矩形の数が登録される。

さらに、文字コード３４１は、矩形パターン特徴３２０が何かを示す文字コードであり、分割個数３４０の個数分の文字コードである。

さらに、確定／不確定３４２は、矩形パターン特徴３２０の含んでいる文字が文字矩形として成立しているか否かを示す。例えば、前記第１の実施の形態で説明した図８に示される例における“接触”のような場合であって、“接触”の“接”＋“角”（“触”の偏）によって形成された文字矩形パターンのとき、１分割目の“接”は「確定」、“角”（“触”の偏）を不確定として登録する。

さらに、分割位置３４３は、誤結合パターン辞書３２のように複数の文字矩形を含む場合の文字の分割位置を示す。分割位置は、垂直に分割することも、文字の入り組みに合わせて設定することも可能とする。

また、分割位置３４３の分割位置は、各文字矩形間を多少離すように設定すると、分割の際に、隣り合った文字の文字矩形の一部が入り込むことを防止することができる。文字の記入線には多少の太さがあるため、文字線幅以内の文字欠けは、文字認識の際に影響を与えにくいので、問題はない。

図１０には、このようにして作成された、図８に示される例における“接触”に対応した誤結合パターン辞書３２の例が示されている。

また、図１１には、図８に示される例における“い”に対応した誤分離パターン辞書３３の例が示されている。“い”は、図１０に示される“接触”の矩形パターン特徴３２０と比較して単純（全体の白密度等から単純さを判断する）なため、似かよった単純な矩形と判断が難しい（例えば、“し・”等）。そのため、一致判定閾値３３０は、図１０に示されるような“接触”の場合と比較して、小さな値となる。

このような構成の矩形パターン辞書３０との一致、すなわち、マッチングの判断は、文字切出の際に、矩形パターン辞書３０作成と同様に、矩形パターン特徴３２０を作成し、各セル毎の差分の絶対値の和が一致判定閾値３３０以下であるか否かを判断することによって可能である。すなわち、前記絶対値の和が一致判定閾値３３０以下であれば、一致と判断することができる。

また、図１２には、“急性”が“急”と“性”における「りっしんべん」の左端の点とが誤結合した場合に対応する誤結合パターン辞書３２の例が示されている。このような場合、“急”の単独文字と区別がつきにくいため、図１２に示されるように、詳細チェックセル３５０と該当セルとの一致を判断するための閾値としての詳細チェックセル閾値３５１を設けて、誤分離パターン辞書３３を作成する。文字切出の際における文字矩形の一致の判断は、矩形パターン特徴３２０を作成し、各セル毎の差分の絶対値の和が一致判定閾値３３０以下であり、かつ、詳細チェックセル３５０に対応するセルの差分の絶対値の和が詳細チェックセル閾値３５１以下の場合に一致と判断することで解決することができる。

また、図１３に示されるような単独パターン辞書登録禁止文字群３６０には、単独パターン辞書３１において登録を禁止している文字の文字コードが登録されている。これは、漢字の偏や旁で文字として意味を持つもの、及び、“レ”、“し”、“・”“カ”等のように、他の文字や文字の−部で似かよった部位が存在する文字が登録されており、単独パターン辞書３１に登録する際に誤って登録しないための確認データである。

さらに、矩形パターン辞書３０のパターン毎の管理ＩＤ３１０毎に照合して一致した履歴を残すために、矩形パターン辞書一致履歴３７０が用意されている。辞書の作成でなく、読取の際に、第１矩形パターン照合部２７及び第２矩形パターン照合部２８の照合によって、矩形パターン辞書３０と一致した場合、前記矩形パターン辞書一致履歴３７０に、パターンの管理ＩＤ毎に照合して一致した回数、最後に−致した日時等が登録される。また、処理制限がある場合、矩形パターン辞書３０に登録することができる最大パターン数としての矩形パターン最大登録数３８０を設定し、一定量のマッチング、すなわち、照合を行わないようにする。

次に、本実施の形態における矩形パターン辞書３０の成作手順について説明する。

図１４は本発明の第２の実施の形態における矩形パターン辞書の学習の例を示す図である。

「発明が解決しようとする課題」の項において、図２に示される例に基づいて説明したように、矩形パターン辞書３０が存在しなかったり、読取対象の切出に問題がある部分に該当する文字矩形パターンが登録されていなかったりする場合には、正しく文字切出を行うことができない。そこで、オペレータは、不読、誤読した文字を修正し、修正された箇所に注目して自動的に矩形パターン辞書３０を学習させ、文字切出性能を向上させ、切出読取性能を向上させることが可能である。

まず、図１２に示されるような文字切出の認識結果（１００）が得られると、オペレータは誤読部分や不読部分（？で示す）を訂正する（１０１）。

そして、訂正内容を受けて、図４に示されるような矩形分離部２５が分割した後の文字矩形を再現する（１０２）。

このとき、訂正結果（１０１）と、認識結果（１００）によって訂正された箇所において、認識結果（１００）と分割後矩形（１０２）でサイズの異なる部分に関しては、矩形パターン辞書３０による影響か否かを確認するために認識結果（１００）、訂正結果（１０１）が矩形パターン辞書３０に一致しないことを確認する。確認した結果、一致してしまった場合は、矩形パターン辞書３０に登録済みのパターンに問題があると判断して、一致判定閾値３３０や詳細チェックセル閾値３５１を一致しない値まで小さくし、誤一致を解消させる。

次に、分割後矩形（１０２）を用いて、文字認識部３４によって認識結果を求める（１０３）。

訂正結果（１０１）と認識結果（１００）とで矩形が異なる箇所で分割後矩形（１０２）の認識結果（１０３）では、正しく認識できている箇所を単独パターン辞書３１の登録候補（１０４）とする。

この単独パターン辞書３１の登録候補（１０４）で、単独パターン辞書登録禁止文字群３６０に登録されていない文字は、単独パターン辞書３１に登録される（１０５）。

訂正結果（１０１）と認識結果（１００）で訂正された箇所で、分割後矩形（１０２）の認識結果（１０３）では、正しく認識できていない箇所については、図８（ｂ）に示されるようなヒストグラムより凹み位置を見つけ、文字矩形の組み合わせを試み、認識結果が訂正結果（１０１）と一致した場合、又は、一部が一致した場合は、誤結合パターン辞書３２に登録する文字矩形とする（１０６）。図１４に示される例では、“３）”、“接触”（接角）が該当する。“３）”は、分割個数３４０は２個で文字コード３４１は“３）”、確定／不確定は、２つともに「確定」となる。“接触”（接角）は分割個数３４０は２個で文字コード３４１は“接触”、確定／不確定は、“接”は「確定」、“触”（角）は「不確定」となる。

さらに、訂正結果（１０１）と認識結果（１００）とで訂正された箇所において、分割後矩形での認識結果（１０３）が訂正結果（１０１）よりも認識結果が多い部分に関して、文字矩形を結合し訂正結果（１０１）と一致する文字矩形を誤分離パターン辞書３３に登録する（１０７）。

この時点までの矩形パターン辞書３０を用いて、分離後矩形（１０２）に対して第１矩形パターン照合部２７において矩形パターン辞書３０と照合処理し、矩形結合部２９において処理を行い、この時の切出結果によって文字認識部３４により認識結果を出す。誤結合していた矩形が分離されるため、認識結果（１００）の“ナ、”は解消し、“カタカ”が“カタ”、“川”が分離してしまったと仮定した場合、訂正結果（１０１）から、“カタ”の誤結合、“川”の誤分離を判断し、“カタ”は誤結合パターン辞書３２、“川”は誤分離パターン辞書３３に登録する。

また、矩形パターン辞書３０登録時に矩形パターン最大登録数３８０に達してしまった場合、矩形パターン辞書一致履歴３７０を参照し、使用頻度の少ない登録パターン、最近は一致することがないパターンを削除することによって、矩形パターン辞書３０の登録パターン数増大による処理速度の低下を抑えることができる。

このように、本実施の形態においては、オペレータが誤読、不読を訂正することによって矩形パターン辞書３０を作成することができ、以降、同様のケースでは正しい文字切出が可能となり、自動的に学習され文字切出性能が向上する。

また、処理速度に関しても一定速度を維持することが可能である。

なお、第２の実施の形態において説明した矩形パターン辞書３０の形式は、文字切出が正しく行えない場合を登録する手段で説明をしたが、通常の文字認識にも用いることもでき、また、解像度の低い多値（諧（かい）調を持った）画像の文字認識でも用いることが可能である。

また、第２の実施の形態において説明した矩形パターン辞書の形式は、濃淡（黒、白の密度）を特徴としているため、文字認識以外の立体物、凹凸面等の認識にも応用可能である。

さらに、本発明は前記実施の形態に限定されるものではなく、本発明の趣旨に基づいて種々変形させることが可能であり、それらを本発明の範囲から排除するものではない。

本発明の第１の実施の形態における文字認識装置の機能構成を示す図である。従来の文字切出方法において切出が正しく行われない例を示す図である。本発明の第１の実施の形態における文字認識装置のシステム構成を示す図である。本発明の第１の実施の形態における文字パターン切出部の構成を示す図である。本発明の第１の実施の形態における誤結合パターン辞書の構成を示す図である。本発明の第１の実施の形態における誤分離パターン辞書の構成を示す図である。本発明の第１の実施の形態における矩形パターン辞書の１パターン矩形分の構成要素を示す図である。本発明の第１の実施の形態における文字列の切出の例を示す図である。本発明の第１の実施の形態における文字矩形の論理チェックの結果を示す図である。本発明の第２の実施の形態における誤分離パターンの例を示す第１の図である。本発明の第２の実施の形態における誤分離パターンの例を示す第２の図である。本発明の第２の実施の形態における誤分離パターンの例を示す第３の図である。本発明の第２の実施の形態における矩形パターン辞書の管理データを示す図である。本発明の第２の実施の形態における矩形パターン辞書の学習の例を示す図である。

符号の説明

１０文字認識装置
３４１文字コード

Claims

（ａ）全角文字又は幅の広い文字及び半角文字又は幅の細い文字を含む文字パターンから成る文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、
（ｂ）誤って結合する半角文字又は幅の細い文字、及び、１文字で他の文字とは結合しない文字の文字パターンを辞書データとして登録し、射影によって検出された文字矩形とパターンマッチングを行い、マッチングした文字矩形を他の文字矩形とは結合させずに文字パターンを切り出すことを特徴とする文字切出方法。
（ａ）分離文字を含む文字パターン、又は、１文字が分離した文字パターンから成る文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、
（ｂ）複数の文字矩形を結合して１文字となる文字パターンを辞書データとして登録し、射影によって検出された隣り合う文字矩形を結合した状態で登録した辞書データとパターンマッチングを行い、マッチングした文字矩形を他の文字矩形と結合させて文字パターンを切り出すことを特徴とする文字切出方法。
（ａ）接触文字又は隣り合う文字と結合している文字を含む文字パターンから成る文字列の画像から各文字パターンを１文字単位に切り出す文字切出方法であって、
（ｂ）入り組み又は接触によって複数文字が射影上１文字の文字矩形として検出される文字矩形パターンを登録した辞書データとパターンマッチングを行い、マッチングした文字矩形を分割することを特徴とする文字切出方法。
前記辞書データに分割位置の情報を登録し、射影によって検出された文字矩形を結合した状態で前記辞書データとパターンマッチングを行い、マッチングした文字矩形を前記分割位置の情報に基づいて分割し、文字パターンを切り出す請求項３に記載の文字切出方法。
前記辞書データに、隣り合う文字の文字矩形が進入しないように分割情報の間隔を空けて登録するとともに、文字が入り組んだ情報を登録し、前記辞書データに基づいて文字パターンを切り出すことにより、文字矩形に隣接の文字矩形が進入しないようにする請求項３に記載の文字切出方法。
（ａ）分離文字が接触し、射影によって検出された文字矩形が文字としての意味を持たない文字パターン、又は、１文字に分離文字の一部が接触し、射影によって検出された文字矩形が１文字の文字矩形と隣接文字の一部の文字矩形とから成る文字パターンを含む文字列の画像から各文字パターンを１文字単位で切り出す文字切出方法であって、
（ｂ）入り組み又は接触によって複数文字が射影上１文字の文字矩形として検出される文字矩形パターンを登録した辞書データに、分割位置の情報、及び、分割後の文字矩形が１文字の文字矩形になるか又は１文字に満たない文字矩形になるかの情報を更に登録し、
（ｃ）射影によって検出された文字矩形を結合した状態で前記辞書データとパターンマッチングを行い、マッチングした文字矩形を前記分割位置の情報に基づいて分割し、文字パターンを切り出すことを特徴とする文字切出方法。
（ａ）請求項１〜６のいずれか１項に記載の文字切出方法を用いる文字認識装置であって、
（ｂ）文字パターンを切り出すための情報を利用し、辞書データとマッチングしない文字矩形も、前後関係又は文字列の位置関係に基づいて、正しく切り出す手段と、
（ｃ）前記辞書データとマッチングして切り出された文字パターンの情報の矛盾に基づいて、誤マッチングして切り出された文字パターンの誤りを訂正する手段とを有する文字認識装置。
（ａ）請求項１〜４のいずれか１項に記載の文字切出方法を用いる文字認識装置であって、
（ｂ）前記辞書データに切出で問題のある文字パターンの文字コードを登録し、切出で問題のある文字パターンの文字コードと、文字認識用の辞書データによる認識結果とに基づいて複合的に矛盾をチェックし、矛盾がある場合は不読とすることによって誤読を低減させる手段を有する文字認識装置。
（ａ）請求項１〜６のいずれか１項に記載の文字切出方法を用いる文字認識装置であって、
（ｂ）前記辞書データを実現する手段であって、文字矩形に基づく多値階調の正規化されたデータを辞書データとして、該辞書データと文字矩形とが一致するか否かを判定する手段を有する文字認識装置。
前記辞書データに登録されたパターンと特徴がほぼ同様の文字矩形に関しては、パターンの特徴が異なる部分に注目し、パターン全体とパターンの一部分とのマッチングを別個に行い、両者がともにマッチングすると、前記文字矩形がマッチングしたものと判定する請求項９に記載の文字認識装置。
手書き文字に対し、文字矩形の重心によって正規化した文字切出用の辞書データを作成する請求項９に記載の文字認識装置。
オペレータによる読取結果の訂正に基づいて学習することによって文字切出用の辞書データを作成する請求項９に記載の文字認識装置。
前記文字切出用の辞書データに特定のＩＤを付加し、文字切出用の辞書データの履歴を作成することにより、文字切出用の辞書データをスリム化して処理速度を向上させる請求項１１又は１２に記載の文字認識装置。