JP3880091B2 - 情報処理装置及び方法 - Google Patents

情報処理装置及び方法 Download PDF

Info

Publication number
JP3880091B2
JP3880091B2 JP00278596A JP278596A JP3880091B2 JP 3880091 B2 JP3880091 B2 JP 3880091B2 JP 00278596 A JP00278596 A JP 00278596A JP 278596 A JP278596 A JP 278596A JP 3880091 B2 JP3880091 B2 JP 3880091B2
Authority
JP
Japan
Prior art keywords
image block
character
image
target image
ruby
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP00278596A
Other languages
English (en)
Other versions
JPH09190492A (ja
Inventor
裕章 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP00278596A priority Critical patent/JP3880091B2/ja
Publication of JPH09190492A publication Critical patent/JPH09190492A/ja
Application granted granted Critical
Publication of JP3880091B2 publication Critical patent/JP3880091B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は情報処理装置及び方法、詳しくは入力画像から文字画像を取り出し、例えば文字認識処理等の下位の処理に渡す情報処理装置及び方法に関するものである。
【0002】
【従来の技術】
従来、文字認識装置においては、画像入力後、図7に示すように、まず行方向に射影(黒画素の分布を示す)701を取り、702のように行の高さを得る。そして、次に前記射影と垂直方向に射影703を取り、行の長さ及び符号704のように画像ブロック(ドット分布の外接矩形等)を抽出するように構成されている。但し、図示の如く、文字“は”などの場合には左右に分離した2つの画像ブロックとして抽出されてしまう。また、2つの文字が接触している場合には全体を1つの文字の画像ブロックとして抽出してしまう。
【0003】
そこで、一般には、各画像ブロックの幅の平均、もしくは、各画像ブロックの幅の分布でもっとも頻度の大きいものなどから、基準となる文字サイズ(以下、基準文字サイズ)を求める。そして、先に得られた複数の画像ブロックを結合した時に、その幅が基準文字サイズになる場合にはそれらの画像ブロックを結合して1つの画像ブロックとしてみなす。また、画像ブロックが基準文字サイズの整数倍になっていれば、それを基準文字サイズで整数等分して文字単位の画像ブロックを決定する。
【0004】
【発明が解決しようとする課題】
ここで問題となるのは、本文を構成している文字にルビ文字が付随していて、行方向の射影をとった場合に、ルビ文字の位置が本文の文字と近接した位置にあって、ルビ文字の行と本文の文字の行が別の行として識別できない場合や、原稿画像が多少傾いて入力されたり、原稿画像中の行が傾いていた場合などである。
【0005】
このような場合、先に説明した処理で文字部分の画像ブロックの抽出を行うと、画像ブロックには本文の文字、本文の文字+ルビ文字、ルビ文字の3通りが得られる可能性を有する。
【0006】
画像ブロックが「本文の文字+ルビ文字」になってしまうと、文字認識は正しく行われない。ルビ文字のみの画像ブロックが得られると、認識結果である本文の文字の間にルビ文字の認識結果が挿入されることになり、精度良い文字認識は望めない。
【0007】
【課題を解決するための手段】
本発明は係る問題点に鑑みなされたものであり、通常の射影処理で持って行分割が正常に行なえない場合であっても、文字画像を該当する文字列の行に属するものとして下位の処理に渡すことを可能ならしめる情報処理装置及び方法を提供しようとするものである。
【0008】
この課題を解決するため、例えば本発明の情報処理装置は以下に示す構成を備える。すなわち、
入力文書画像から文字画像部分を切り出して下位の処理に渡す情報処理装置であって、
入力した文書画像に対して行方向の射影および行方向に垂直な方向の射影を取ることによって、複数の画像ブロックを抽出する抽出手段と、
前記抽出された各画像ブロックの大きさの分布に基づいて許容文字サイズを求める許容文字サイズ取得手段と、
前記抽出された各画像ブロックを順次注目画像ブロックとして、当該注目画像ブロックとその前後近傍の画像ブロックとに基づいて基準位置を求め、更に当該求められた基準位置と前記許容文字サイズとに基づいて当該注目画像ブロックに対する境界位置を定め、当該定めた境界位置と注目画像ブロックの位置とを比較することにより当該注目画像ブロックが本文文字列の行とルビ文字列の行のうちどの行の文字画像であるかを判定する判定手段と、
前記判定手段の判定結果に基づいて各画像ブロックを本文文字列の行とルビ文字列の行のうちの対応する行中の文字画像として前記下位の処理に渡す制御手段とを備える。
【0009】
また、本発明の好適な実施形態に従えば、前記行は本文文字列の行と、ルビ文字列の行であることが望ましい。これによってルビ文字と本文文字との分離が正常に行われにくい状況に対して有効に作用する。
【0010】
また、前記下位処理は文字認識処理であることが望ましい。これによって、各行の文字が本来の行単位に正しく認識させることが可能になる。
【0011】
また、更に、前記許容文字サイズに基づいて注目画像ブロックが複数の行にまたいでいるか否かを判定する第2の判定手段と、該第2の判定手段で複数の行にまたいでいると判定した場合、当該注目画像ブロックを分割する分割手段とを備えることが望ましい。これによって、単なる射影によって得られた画像ブロック中に複数行の文字画像があっても、対応する行の文字画像として下位の処理に渡すことが可能になる。
【0012】
また、この場合には、更に、前記分割手段で得られた分割画像それぞれに対して射影をとって第2の画像ブロックを抽出する第2の抽出手段を備えることが望ましい。これによって、本文文字1つに対して複数の文字、例えばルビ文字があっても、個々のルビ文字を下位処理に正しく渡すことが可能になる。
【0013】
【発明の実施の形態】
以下、添付図面に従って本発明に係る実施形態の一例を詳細に説明する。
【0014】
<第1の実施形態>
図1は実施形態における文字認識装置のブロック構成を示している。図中、101は本装置全体の制御を司るCPUであり、102はCPU1の動作処理手順であるプログラムを記憶しているROMである。103は文書画像などを記憶したり、文字認識処理におけるCPU1のワークエリアとして使用するRAMである。104は磁気ディスクなどの外部記憶装置であり、文字認識用辞書や認識結果等を記憶している。105はディスプレイ、106はキーボード、107はマウス等のポインティングデバイス、108は認識対象の文書画像を入力するための装置であり、実施形態ではイメージスキャナである。
【0015】
上記構成における実施形態における文字認識処理を図2のフローチャートに従って説明する。
【0016】
先ず、ステップS201では、スキャナ108などから文書画像を入力し、ステップS202で、入力した文書画像から先に説明した手順、すなわち、行方向及び行方向に垂直な方向の射影を取って画像ブロックの抽出を行なう。
【0017】
尚、この時点では、ルビの行が本文とが分離できない状態(バンド画像)であり、例えば、図4の例のように、符号401,402,403,404の4個の画像ブロックが得られ、ルビのみの画像ブロック403が混ざる可能性がある。
【0018】
そこで、ステップS203では、本文の文字画像が許容できる最大許容文字サイズを求める。図3は、行内のブロックの大きさ(画像ブロックの高さ)の分布を取ったものである。頻度が最大となる値301はその行の標準文字サイズ(図示の符号401の画像ブロックが標準文字サイズに近い値を有することになる)とみなし、最大許容文字サイズは、標準文字サイズ以上で、頻度がなくなる値302(頻度がとぎれる値)とすることで求められる。
【0019】
次にステップS204で本文文字部とルビ文字部の境界位置をえるための基準となる位置を求める。ルビのみの画像ブロックは、基準位置から最大許容文字サイズの範囲外に存在することになる。横書きの文書の例を挙げると、基準位置は、注目画像ブロックとその前後の画像ブロックのうち、ブロックの下端が最も下にある位置とする。図4の符号403の画像ブロックを今、注目画像ブロックとすると、402,403,404でも最も下の画像ブロックを探す。この結果、画像ブロック402がその対象となり、基準位置406を得る。基準位置が得られたら、ステップS205で本文とルビの境界位置を求める。405は先のステップS203で求めた最大許容文字サイズで、基準位置406から離れた位置407が境界位置となる。
【0020】
尚、注目画像ブロック及びその前後の画像ブロック、すなわち、比較的狭い範囲で基準位置を決定するのは理由がある。すなわち、入力した文書画像が多少傾いていてもその限られた範囲で処理することでその影響を少なくすることができるからである。
【0021】
さて、境界位置が求まれば、ステップS206で、画像ブロックが境界位置よりルビ側の範囲を越えないかどうかを判定する。境界を越えればステップS207でその画像ブロックをルビと判定し、越えなければステップS208でルビでないと判定する。
【0022】
その後、ステップS209で各文字画像ブロックについて、各文字の標準特徴などが格納されている認識辞書との類似度を求める識別演算を行ない、最も類似度が大きい文字を認識結果とし、ステップS210では認識結果をディスプレイ105に表示する。尚、このとき、ルビと判定された画像ブロックは本文文字部とは別の行として認識するのは言うまでもない。
【0023】
以上説明したように、画像ブロックの大きさの分布を用いて最大許容文字サイズを求めるので、ルビのみの画像ブロックを正しく判別することが可能となる効果がある。
【0024】
なお、上記実施形態では、本発明を実施するための最低限の構成要件で説明を行なっているが、例えば汎用コンピュータに、本発明を実施する処理を行なうプログラム等を外部から提供したり、予め外部記憶104に記憶しておき、RAM103に格納するように構成されてもよい。
【0025】
尚、上記実施形態では、文書画像をイメージスキャナから入力したが、例えば文書画像をフロッピーディスク、回線を介して受信した場合でも良いので、上記によって本発明が限定されるものではない。これは以下に説明する各実施形態でも同様である。
【0026】
<第2の実施形態>
以下、第2の実施形態を説明する。尚、装置構成は第1の実施形態、すなわち、図1と同じとし、その説明は省略する。
【0027】
以下、第2の実施形態における動作処理内容を図5のフローチャートに従って説明する。
【0028】
先ず、ステップS501では、スキャナ108などから文書画像を入力する。ステップS502では入力した文書画像から先に説明したように文字単位の画像ブロックの抽出を行なう(この時点では図4に示すようにルビ文字は正しく認識されていない可能性がある)。
【0029】
次にステップS503に進み、第1の実施形態で説明したルビ画像ブロックの判定を行なう。例えば、図6の例では、画像ブロック602をルビとして判定できることは第1の実施形態で説明した。本第2の実施形態では画像ブロック603を本文文字とルビ文字とを分離するものである。
【0030】
さて、抽出した画像ブロックの全てについて、ルビ画像ブロック(ルビ文字のみの画像ブロック)の判定を行なったら、画像ブロックを1つずつ注目していき、ステップS504で注目画像ブロックがルビの場合、その前後の画像ブロックについて以下の処理を行なう。
【0031】
まず、ルビと本文文字との境界位置をステップS505で推定する。横書きなら、例えば、境界位置はルビ画像ブロックの下端位置とする。図6では符号604が境界位置となる。
【0032】
次にステップS506で、注目画素ブロックの前後の画像ブロックが境界位置をまたいで存在するかどうかを調べる。図6の場合には、画像ブロック603がこれに該当することになる。該当した画像ブロックは、ステップS507において、ルビ部と本文が分離可能かどうかを調べる。画像ブロック603の場合、境界位置604の近傍の水平方向の画素列を調べ、全て白画素なら分離可能とし、黒画素が存在すれば、予め決められた範囲内で上下にずらし、同様に白画素列の存在を調べる。こうして、白画素列の存在が確認されたら、分離可能として判断し、ステップS508に進み、分離位置を決定するが、これは、ステップS507で得られた白画素列の位置としてよい。
【0033】
ステップS509では、分離位置より本文文字側の画像ブロックの中で、新たな文字画像ブロックを求める。この結果画像ブロック605が得られる。ステップS510では、画像ブロックの残りの部分からルビ画像ブロックの抽出を行なう。分離されたルビ側の画像ブロックは、従来例の行の抽出が終了した時点に相当するので、同様の処理で抽出が行なえ、606,607の2つの画像ブロックが得られる。
【0034】
さらに、抽出されたルビ画像ブロック606,607は、注目画像ブロックS602と同一な本文文字に対するルビであることが一般的であるので、ステップS511で3つのルビ画像ブロックを関連付けて記憶し、さらに、ステップS512で抽出された本文文字ブロック605と3つのルビ画像ブロックを関連付けて記憶する。
【0035】
このように、入力画像から文字画像ブロックが抽出されたら、ステップS513で各文字画像ブロックについて各文字の標準特徴などが格納されている認識辞書との類似度を求める識別演算を行ない、最も類似度が大きい文字を認識結果とする。ステップS514では、ルビを持つ文字かどうかを判断し、ルビを持てばステップS515で、例えば本文文字の上や本文文字のとなりに括弧をつけるなど、本文文字と区別できるような異なる方法で表示し、ルビを持たなければS516で認識結果をディスプレイ105に表示する。
【0036】
以上説明したように、ルビのみの画像ブロックを基準にすることで、その前後に存在する可能性のあるルビと本文が結合した画像ブロックを、ルビ画像ブロックと本文文字画像ブロックに分割することが可能となる効果がある。また、ルビのみの画像ブロックと分離されたルビ画像ブロックを、分離された本文文字画像ブロックと関連付けて記憶することで、本文文字列中の対応する文字にルビを付けて表示できる効果がある。
【0037】
なお、これまでの実施形態は横書きの例を用いているが、縦書き文書の場合でも本発明が実施可能なことは、容易に推測されよう。従って、上記実施形態によって本願発明が限定されるものではない。
【0038】
<第3の実施形態>
以下、第3の実施形態を説明する。尚、装置構成は第1の実施形態と同じとし、以下ではその動作処理内容を図8のフローチャートに従って説明する。
【0039】
先ず、ステップS801では、スキャナ108などから文書画像を入力し、ステップS802で、入力した文書画像から先に説明した処理で持って文字単位の画像ブロックの抽出を行なう。この時点ではルビを含んで抽出された画像ブロックが存在する可能性があるので、画像ブロックすべてについて、ルビが含まれる画像ブロックかどうかを判定する。以下に、その判定方法を説明する。
【0040】
まず、ステップS803で本文の文字画像の、文書が横書きならば文字画像の高さの、縦書きならば幅の標準サイズを求める。標準サイズは、第1の実施形態で説明したように、各行毎のブロックの平均値や、各行毎のブロックの大きさの分布を取り、頻度が最大となる値とすることで求められる。次に、ステップS804で本文の文字画像がとり得る最大の大きさ(最大許容文字サイズ)を求める。この最大許容文字サイズは、ステップS803で求めた標準サイズに1以上の値を掛けた値や、標準文字サイズ以上で、頻度がなくなる値とすることで求められる(詳細は第1の実施形態を参照)。
【0041】
ステップS805では、本文文字部とルビ部の境界位置を得るための基準となる位置を求める。本文文字画像は、基準位置から最大許容文字サイズの範囲に存在することになる。
【0042】
図9を用いて、横書き文書の基準位置を得るための説明を行なう。この図において、y軸を上から下にとる。行の左端から画像ブロックが901,902,903,904,…と並んでいるとする。左端の画像ブロック901の基準位置は、画像ブロック901と両隣の画像ブロック(図示の場合には右隣の画像902しかないので、画像ブロック902のみが対象になる)のブロックの下端のy座標を比べ、y座標値が大きい方(下側のある方)とする。従って、この場合には画像ブロック901の下端のy座標である符号905が基準位置となる。画像ブロック902については、画像ブロック902と、左隣の画像901、右隣の画像903の3つの画像ブロックの下端のy座標を比べ、y座標が最大値を基準位置とする。この図では、画像ブロック901の下端のy座標である符号905が基準位置となる。同様に、画像ブロック903については画像ブロック904の下端のy座標である符号906が基準位置となる。
【0043】
さて、基準位置が求まれば、ステップS806で、文字画像ブロックが本文許容範囲を越えて存在するかどうかを判定する。一例を図10を用いて説明する。図示において、1004はステップS805で求めた基準位置、1005はステップS803で求めた基準サイズ、1006はステップS804で求めた最大許容文字サイズとし、基準位置1004から最大許容文字サイズ1006の範囲1008を求める。画像ブロックが1008を越えるかどうかを調べ、越えた画像ブロック1002や1003についてはステップS807に進む。
【0044】
ステップS807では、さらにそれらの画像ブロックが、本文文字を含むかどうかを判定する。図10において、基準位置1004から基準サイズ1005の範囲1007を求め、そこに画像ブロックの一部が含まれているかを判定する。この結果、画像ブロック1002が残る。
【0045】
ここまでの処理で残った画像ブロックは、次にステップS808で、ルビ部と本文文字の分離位置を推定することになる。画像ブロック1002については、画像ブロックの上端から1画素、あるいは予め定めた値だけ下から位置1007の範囲1009に分離位置が存在すると推定する。
【0046】
ステップS809では、ステップS808で推定した範囲で画像が分離されるかどうかを調べる。例えば、画像ブロック1002ならy座標が符号1007の画素列が全て白画素なら分離可能とし、黒画素が存在すれば推定した範囲内でy座標を1ずつ減らして調べていく。あるいはy座標が符号1008の画素列から始め、推定範囲内を調べるようにしてもよい。
【0047】
以上の処理により、画像ブロックが分離可能なら、その画像ブロックはルビが含まれると判定される。
【0048】
次に、ルビが含まれると判定された画像ブロックについてルビと本文を分割する。以下に、その分割方法を説明する。
【0049】
まず、分割する位置を取得するが、これはステップS809で得られた白画素列の座標としてよい。ステップS810では、分割位置より本文文字側の画像ブロックの中で、新たな文字画像ブロックを求める。図11を用いて説明すると、画像ブロック1101において、分割位置1102により、本文側ブロック1103とルビ側ブロック1104に分割され、本文側ブロック1103から文字画像ブロック1105が得られる。
【0050】
最後に、ステップS811でルビ側の画像ブロックからルビ画像ブロックを抽出する。ルビ側ブロック604には1つ以上のルビが存在するので、1104を行矩形とし、この矩形内で縦方向の射影をとってルビ文字の画像ブロック1106,1107が抽出される。この様に本文文字ブロックとルビ画像ブロックが分割されたら、ステップS812でそれらを関連付けて記憶しておく。
【0051】
入力画像から全ての文字画像ブロックが抽出されたら、ステップS813で各文字画像ブロックについて、各文字の標準特徴などが格納されている認識辞書との類似度を求める識別演算を行ない、最も類似度が大きい文字を認識結果とする。ステップS814では、ルビを持つ文字かどうかを判断し、ルビを持たなければステップS816で認識結果をディスプレイ105に表示し、ルビを持てばステップS815で、例えば本文文字の上や本文文字の隣に括弧をつけるなど、本文文字と区別できるような異なる方法で表示する。
【0052】
以上説明したように、画像ブロックの大きさの分布を用いて最大許容文字サイズを求めるので、ルビ画像を含む画像ブロックと本文のみの画像ブロックを正しく判別することが可能となる効果がある。
【0053】
なお、上記説明では、実施形態を実現するため最低限の構成要件で説明を行っているが、例えば汎用コンピュータに、本発明を実施する処理を行なうプログラム等のデータを外部から提供し、あるいは、予め外部記憶104に記憶しておき、RAM103に格納するように構成されてもよい。
【0054】
<第4の実施形態>
第4の実施形態を説明する。本第4の実施形態では、上記第3の実施形態に対し、その存在範囲推定工程における、基準位置の求め方が異なる。
【0055】
図12は文書内のある横書きの行を表わす。まず、十分に間隔をあけて窓701を2ヶ所設定する(垂直方向の位置は同じ)。次に、窓の中の文字画像の射影702を水平方向にとる。その結果、枠の幅の中央で、射影の底部の2点703を結ぶ直線704が、この行の基準線となり、画像ブロックの位置により基準位置が決定される。
【0056】
以上説明したように本第4の実施形態によれば、入力文書が傾斜した場合でも、判定のための基準位置を正しく得ることができ、ルビ抽出の精度が向上する効果がある。
【0057】
なお、本第4の実施形態でも横書きの例を説明しがた、縦書き文書の場合でも本発明が可能なことは、容易に推測されよう。
【0058】
また、上記実施形態では、ルビ文字と本文文字を正常に切り出して文字認識する例を説明したが、文字認識処理それ自身は本発明には直接関係しないので、その部分は公知の手順で行なわせるようにしてもよい。すなわち、文字認識処理に渡すべき画像ブロックを確定させる処理を上記実施形態で説明した手順で行ない、画像ブロックが抽出されたら下位の文字認識処理に引数もしくはパラメータとして渡し、その認識結果を受けるようにしても良い。
【0059】
また、本発明は、複数の機器(例えばホストコンピュータ、インターフェース機器、リーダ、プリンタ等)から構成されるシステムに適用しても、1つの機器からなる装置(例えば複写機、ファクシミリ等)に適用しても良い。
【0060】
また、本発明の目的は、上述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出して実行することによっても、達成されることは言うまでのもない。
【0061】
この場合、記憶媒体から読み出されたプログラムコード自体が本発明の新規な機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0062】
プログラムコードを供給するための記憶媒体としては、例えばフロッピーディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。
【0063】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部または全部を行ない、その処理によって実施形態の機能が実現される場合も含まれることは言うまでもない。
【0064】
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された拡張機能ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0065】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードを格納することになるが、簡単に説明すると、図13のメモリマップ例に示す各モジュールを記憶媒体に格納することになる。すなわち、少なくとも、入力した文書画像から射影をとってバンド画像を取り出し、当該バンド画像中における画像ブロックを抽出する抽出モジュールと、バンド画像中の各画像ブロックの大きさの分布に基づいて許容文字サイズを推定する推定モジュールと、推定された許容文字サイズに基づいて、注目画像ブロックがどの行の文字画像であるかを判定する判定モジュールと、判定結果に基づいて注目画像ブロックを対応する行中の文字画像として前記下位の処理に渡す制御モジュールとを記憶する。
【0066】
以上説明したように、本実施形態に従えば、入力文書画像が射影によってルビの行を分離できなくても、ルビと本文を分離し、正しく文字切り出しが可能となり、誤認識が減少するとともに、誤認識や認識不能文字の修正作業が軽減され、文書入力作業が効率的に行なえる効果がある。
【0067】
【発明の効果】
以上説明したように本発明によれば、通常の射影処理で持って行分割が正常に行なえない場合であっても、文字画像を該当する文字列の行に属するものとして下位の処理に渡すことが可能になる。
【0068】
また、他の発明によれば、射影によって個々の行に分離できなくても、各行の文字を正しく認識することが可能になる。
【0069】
【図面の簡単な説明】
【図1】第1の実施形態に係る文字認識装置のブロック図である。
【図2】第1の実施形態に係る文字認識処理のフローチャートである。
【図3】第1の実施形態に係る最大許容文字サイズ取得する処理工程での、画像ブロックの大きさの分布を説明する図である。
【図4】第1の実施形態の説明のための入力画像の一例を示す図である。
【図5】第2の実施形態に係る文字認識処理のフローチャートである。
【図6】第2の実施形態の説明のための入力画像の一例を示す図である。
【図7】従来例における文字画像ブロック抽出を説明する図である。
【図8】第3の実施形態に係る文字認識処理のフローチャートである。
【図9】第3の実施形態における基準位置検出処理の概要を説明するための図である。
【図10】第3の実施形態における行分離位置検出処理の概要を説明するための図である。
【図11】第3の実施形態における本文文字とルビ文字の分離処理を説明するための図である。
【図12】第4の実施形態における基準位置決定処理の概念を説明するための図である。
【図13】実施形態における記憶媒体の格納モジュールを示す図である。
【符号の説明】
101 CPU
102 ROM
103 RAM
104 外部記憶装置
105 ディスプレイ
106 キーボード
107 ポインティングデバイス
108 イメージスキャナ

Claims (10)

  1. 入力文書画像から文字画像部分を切り出して下位の処理に渡す情報処理装置であって、
    入力した文書画像に対して行方向の射影および行方向に垂直な方向の射影を取ることによって、複数の画像ブロックを抽出する抽出手段と、
    前記抽出された各画像ブロックの大きさの分布に基づいて許容文字サイズを求める許容文字サイズ取得手段と、
    前記抽出された各画像ブロックを順次注目画像ブロックとして、当該注目画像ブロックとその前後近傍の画像ブロックとに基づいて基準位置を求め、更に当該求められた基準位置と前記許容文字サイズとに基づいて当該注目画像ブロックに対する境界位置を定め、当該定めた境界位置と注目画像ブロックの位置とを比較することにより当該注目画像ブロックが本文文字列の行とルビ文字列の行のうちどの行の文字画像であるかを判定する判定手段と、
    前記判定手段の判定結果に基づいて各画像ブロックを本文文字列の行とルビ文字列の行のうちの対応する行中の文字画像として前記下位の処理に渡す制御手段と
    を備えることを特徴とする情報処理装置。
  2. 前記下位処理は文字認識処理であることを特徴とする請求項第項に記載の情報処理装置。
  3. 更に、前記ルビ文字列の行の文字の認識結果を、本文中の対応する認識結果に関連付けて出力する出力手段とを備えることを特徴とする請求項第項に記載の情報処理装置。
  4. 更に、前記判定手段は、当該注目画像ブロックがルビ文字列であると判定した場合、当該注目画像ブロックの所定端部に基づいて第2の境界位置を定めて、当該注目画像ブロックの前後の画像ブロックが当該第2の境界位置をまたいでいるか否かを判定する第2の判定手段と、
    前記第2の判定手段でまたいでいると判定した場合、当該またいでいる画像ブロックについて前記第2の境界位置の近傍で分割可能な位置を調べ、分割可能であると判断した場合は当該分割可能な位置で当該またいでいる画像ブロックを分割する分割手段と
    を備えることを特徴とする請求項第1項に記載の情報処理装置。
  5. 許容文字サイズ取得手段は、前記抽出された各画像ブロックの大きさの分布に基づいて、頻度が最大となる大きさを求め、当該頻度が最大となる大きさに基づいて前記許容文字サイズを求めることを特徴とする請求項第1項に記載の情報処理装置。
  6. 前記判定手段では、前記文書画像が横書きの場合、当該注目画像ブロックの下端とその前後近傍の画像ブロックの下端とのうち、最も下の位置を前記基準位置として求め、更に当該求められた基準位置から前記許容文字サイズ分、上の位置を前記境界位置として定め、当該定めた境界位置と当該注目画像ブロックの位置とを比較することにより当該注目画像ブロックが本文文字列の行とルビ文字列の行のうちどの行の文字画像であるかを判定することを特徴とする請求項第1項に記載の情報処理装置。
  7. 入力文書画像から文字画像部分を切り出して下位の処理に渡す情報処理方法であって、
    入力した文書画像に対して行方向の射影および行方向に垂直な方向の射影を取ることによって、複数の画像ブロックを抽出する抽出工程と、
    前記抽出された各画像ブロックの大きさの分布に基づいて許容文字サイズを求める許容文字サイズ取得工程と、
    前記抽出された各画像ブロックを順次注目画像ブロックとして、当該注目画像ブロックとその前後近傍の画像ブロックとに基づいて基準位置を求め、更に当該求められた基準位置と前記許容文字サイズとに基づいて当該注目画像ブロックに対する境界位置を定め、当該定めた境界位置と注目画像の位置とを比較することにより当該注目画像ブロックが本文文字列の行とルビ文字列の行のうちどの行の文字画像であるかを判定する判定工程と、
    前記判定工程の判定結果に基づいて各画像ブロックを本文文字列の行とルビ文字列の行のうちの対応する行中の文字画像として前記下位の処理に渡す制御工程と
    を備えることを特徴とする情報処理方法。
  8. 前記下位処理は文字認識処理であることを特徴とする請求項第項に記載の情報処理方法。
  9. 更に、前記ルビ文字列の行の文字の認識結果を、本文中の対応する認識結果に関連付けて出力する出力工程とを備えることを特徴とする請求項第項に記載の情報処理方法。
  10. 更に、前記判定工程では、当該注目画像ブロックがルビ文字列であると判定した場合、当該注目画像ブロックの所定端部に基づいて第2の境界位置を定めて、当該注目画像ブロックの前後の画像ブロックが当該第2の境界位置をまたいでいるか否かを判定する第2の判定工程と、
    前記第2の判定工程でまたいでいると判定した場合、当該またいでいる画像ブロックについて前記第2の境界位置の近傍で分割可能な位置を調べ、分割可能であると判断した場合は当該分割可能な位置で当該またいでいる画像ブロックを分割する分割工程と
    を備えることを特徴とする請求項第項に記載の情報処理方法。
JP00278596A 1996-01-11 1996-01-11 情報処理装置及び方法 Expired - Fee Related JP3880091B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP00278596A JP3880091B2 (ja) 1996-01-11 1996-01-11 情報処理装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP00278596A JP3880091B2 (ja) 1996-01-11 1996-01-11 情報処理装置及び方法

Publications (2)

Publication Number Publication Date
JPH09190492A JPH09190492A (ja) 1997-07-22
JP3880091B2 true JP3880091B2 (ja) 2007-02-14

Family

ID=11539012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP00278596A Expired - Fee Related JP3880091B2 (ja) 1996-01-11 1996-01-11 情報処理装置及び方法

Country Status (1)

Country Link
JP (1) JP3880091B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4129898B2 (ja) * 1999-04-23 2008-08-06 株式会社リコー 文字サイズ推定方法および装置

Also Published As

Publication number Publication date
JPH09190492A (ja) 1997-07-22

Similar Documents

Publication Publication Date Title
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP4869841B2 (ja) 画像処理装置、画像方向判別方法、および画像方向判別プログラム
US20020051574A1 (en) Character recognition method, program and recording medium
JP5322517B2 (ja) 画像処理装置および方法
US10984277B2 (en) Image analysis apparatus, image analysis method, and non-transitory computer readable medium
JP3880091B2 (ja) 情報処理装置及び方法
JP2554187B2 (ja) 基本ライン抽出方法
US6330360B1 (en) Image processing apparatus and method
JP4078045B2 (ja) 画像処理装置、方法、プログラム、及び記憶媒体
JP4136257B2 (ja) 文字認識装置、文字認識方法および記憶媒体
JP7417116B2 (ja) 情報処理システム、情報処理方法、プログラム
JP3133797B2 (ja) 文字認識方法及びその装置
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JPH07160810A (ja) 文字認識装置
JP4915337B2 (ja) 印刷データ処理プログラム、方法及び装置
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JPH1185905A (ja) 書体識別装置および書体識別方法および情報記憶媒体
JP3190794B2 (ja) 文字切り出し装置
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JPH11242716A (ja) 画像処理方法および記録媒体
JPH05174185A (ja) 日本語文字認識装置
JPH07168911A (ja) 文書認識装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060908

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061010

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061107

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101117

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111117

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121117

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131117

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees