JP2008152811A - 文字サイズ推定方法、装置および記録媒体 - Google Patents
文字サイズ推定方法、装置および記録媒体 Download PDFInfo
- Publication number
- JP2008152811A JP2008152811A JP2008068081A JP2008068081A JP2008152811A JP 2008152811 A JP2008152811 A JP 2008152811A JP 2008068081 A JP2008068081 A JP 2008068081A JP 2008068081 A JP2008068081 A JP 2008068081A JP 2008152811 A JP2008152811 A JP 2008152811A
- Authority
- JP
- Japan
- Prior art keywords
- character
- rectangle
- character size
- frequency distribution
- run
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Input (AREA)
Abstract
【解決手段】閾値設定部58は、ラン頻度の分布を基に閾値を求める。連結矩形抽出部59は、主副走査方向に抽出されたランについて、閾値より大きなランのみを対象に連結矩形を抽出し、罫線抽出部60は、抽出された連結矩形から罫線を抽出する。文字矩形判定部61は、主走査方向/副走査方向の何れにも3本以上の罫線が存在していれば、文字矩形として判定する。
【選択図】図12
Description
図1は、本発明の実施例1の構成を示し、図2は、実施例1の処理フローチャートを示す。図において、1は画像入力部、2は原画メモリ、3はラン抽出部、4は連結矩形抽出部、5は頻度計数部、6はピーク検出部、7は文字サイズ出力部である。
実施例2は、表処理などに先だって連結矩形抽出が行われるが、この抽出された矩形が文字であるか否かを予め判定しておくことにより、より正確に文字サイズを推定する実施例である。また、文字に含まれる直線成分を利用して文字矩形を判定することにより、より正確な文字サイズの推定を行う。
文字矩形同士が接触していて、推定された文字サイズを超える大きさの矩形を形成しても、単位面積当たりの罫線数を基に文字矩形として推定する実施例である。つまり、推定された文字サイズを一片とする方形領域の面積を1単位として、この方形領域よりも大きな連結矩形について、その単位面積当たりの罫線数を算出し、その罫線数から文字矩形を判定する。
実施例4は、芯線処理によって文字矩形を判定することにより、より正確な文字サイズを推定する実施例である。図9は、本発明の実施例4の構成を示し、図10は、本発明の実施例4の処理フローチャートである。図において、40は画像入力部、41は原画メモリ、42はラン抽出部、43は連結矩形抽出部、44はID付与部、45は芯線矩形抽出部、46は文字矩形判定部、47は頻度計数部、48はピーク検出部、49は文字サイズ出力部である。
従来の方法では、固定閾値を用いて罫線を抽出している。このため、表の中に含まれる文字の大きさよりも少し大きな長さを持った線を抽出することが難しい。これは、あらゆるドキュメントにおいて文字内に罫線が抽出されないような、ある程度大きな固定の閾値を設定する必要があるためである。このように、従来の方法では、ある程度大きな固定の閾値を設定しているので、文字内の疑似罫線の抽出を抑えることができるが、逆に、文字サイズよりも少し大きい程度の短い罫線を抽出することができない。
一般的に、縦線と横線を含む表の枠の連結矩形成分のラン頻度分布は、図14に示すようになる。すなわち、ランレングス1〜10が縦線のラン分布であり、10〜28が縦線あるいは横線に接触している文字のラン分布となっている。29以上のラン分布は横線のラン分布である。図14の分布では、閾値を29に設定することにより、横線のみが抽出できる。分布の微分値がゼロ、つまりラン分布が変化しなくなったら、その点が閾値となる。本実施例では、この閾値を探索するために差分を使用している。
オフィスで作成される表を含む文書のラン分布は、概ね図14に示す傾向となるが、上記した実施例6のように差分を求めたとき、ノイズ等によって、ランレングス値29より小さい値でも隣の分布頻度値と一致することがある。あるいは、29より大きいランレングスでも、頻度値としては10またはそれ以上の頻度値となる場合もあり、頻度値が隣と一致する場合が必ずあるとは限らない。これは、ラン分布にのっている高周波成分のノイズが原因である。
図19は、横線のみのラン分布を示す。ラン分布を連結矩形単位でとると、表の枠を構成する連結矩形や、横線を構成する連結矩形が含まれる。横線のみの連結矩形を、閾値33の付近で取り出すためには、ラン分布のピークより大きい位置で、微分値がゼロになる点を探せば良い。
表を認識する際には、連結矩形抽出を繰返し行う必要があり、その都度、原画からランを抽出して、連結矩形を抽出すると処理に時間を要する。そこで、ラン情報のみをあらかじめ用意しておくことにより、ランを使った他の特徴量の抽出等の処理時間を短縮できる。
実施例10は、本発明をソフトウェアによって実現する場合の実施例である。図24は、実施例10のシステム構成例を示す。CD−ROMなどの記録媒体には、本発明の文字サイズ推定処理機能または処理手順が記録されていて、これをシステムにインストールする。スキャナなどにセットされた原稿を読み取り、メモリ上に展開された原稿画像から文字矩形を抽出し、抽出された文字矩形のサイズを推定し、その結果をディスプレイなどに表示出力する。
2 原画メモリ
3 ラン抽出部
4 連結矩形抽出部
5 頻度計数部
6 ピーク検出部
7 文字サイズ出力部
Claims (13)
- 入力された画像から所定の閾値を用いて罫線を抽出し、該罫線の数を基に文字矩形であるか否かを判定し、文字矩形と判定された矩形を用いて文字サイズを推定することを特徴とする文字サイズ推定方法。
- 前記画像の主走査方向および副走査方向におけるランの頻度分布を求め、該頻度分布を基に前記所定の閾値を設定することを特徴とする請求項1記載の文字サイズ推定方法。
- 前記頻度分布の微分値を基に所定の閾値を設定することを特徴とする請求項2記載の文字サイズ推定方法。
- 前記頻度分布に対してデジタルフィルタ処理を行うことを特徴とする請求項2または3記載の文字サイズ推定方法。
- 前記頻度分布を基に所定の閾値を設定するとき、頻度分布のピークよりも大きい部分に閾値を設定することを特徴とする請求項2記載の文字サイズ推定方法。
- 前記文字矩形内の連結矩形を構成するランの属性情報として、文字であることを記録し、該文字であるランに対応した画像上のデータを消去することを特徴とする請求項1記載の文字サイズ推定方法。
- 入力された画像から所定の閾値を用いて罫線を抽出する手段と、該罫線の数を基に文字矩形であるか否かを判定する手段と、文字矩形と判定された矩形を用いて文字サイズを推定する手段を備えたことを特徴とする文字サイズ推定装置。
- 前記画像の主走査方向および副走査方向におけるランの頻度分布を求める手段と、該頻度分布を基に前記所定の閾値を設定する手段を備えたことを特徴とする請求項7記載の文字サイズ推定装置。
- 前記閾値を設定する手段は、前記頻度分布の微分値を基に所定の閾値を設定することを特徴とする請求項8記載の文字サイズ推定装置。
- 前記頻度分布に対してデジタルフィルタ処理を行う手段を備えたことを特徴とする請求項8または9記載の文字サイズ推定装置。
- 前記閾値を設定する手段は、前記頻度分布を基に所定の閾値を設定するとき、頻度分布のピークよりも大きい部分に閾値を設定することを特徴とする請求項8記載の文字サイズ推定装置。
- 前記文字矩形内の連結矩形を構成するランの属性情報として、文字であることを記録する手段と、該文字であるランに対応した画像上のデータを消去する手段を備えたことを特徴とする請求項7記載の文字サイズ推定装置。
- 請求項1乃至6のいずれか1項に記載の文字サイズ推定方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008068081A JP4381455B2 (ja) | 2008-03-17 | 2008-03-17 | 文字サイズ推定方法、装置および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008068081A JP4381455B2 (ja) | 2008-03-17 | 2008-03-17 | 文字サイズ推定方法、装置および記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11690699A Division JP4129898B2 (ja) | 1999-04-23 | 1999-04-23 | 文字サイズ推定方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008152811A true JP2008152811A (ja) | 2008-07-03 |
JP4381455B2 JP4381455B2 (ja) | 2009-12-09 |
Family
ID=39654835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008068081A Expired - Fee Related JP4381455B2 (ja) | 2008-03-17 | 2008-03-17 | 文字サイズ推定方法、装置および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4381455B2 (ja) |
-
2008
- 2008-03-17 JP JP2008068081A patent/JP4381455B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP4381455B2 (ja) | 2009-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102403964B1 (ko) | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 | |
JP4271878B2 (ja) | 映像中の文字検索方法及び装置並びに文字検索処理プログラム | |
Das et al. | A fast algorithm for skew detection of document images using morphology | |
JPH11219407A (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2009266232A (ja) | キーワード識別方法及装置 | |
US9280725B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
JP2007073048A (ja) | 文字列イメージを垂直に分離するプログラム、方法及び装置、指定文字列を抽出するプログラム、方法及び装置 | |
JP2017535891A (ja) | テキストを検出する方法およびその装置 | |
JP4791295B2 (ja) | 罫線抽出プログラム、罫線抽出装置、罫線抽出方法 | |
JP2011070558A (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
JP2006277398A (ja) | 画像処理装置、画像処理プログラムおよび画像処理方法 | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
JP2010002991A (ja) | 画像処理装置、画像処理方法、コンピュータプログラム | |
JP4129898B2 (ja) | 文字サイズ推定方法および装置 | |
JP4381455B2 (ja) | 文字サイズ推定方法、装置および記録媒体 | |
JP6019939B2 (ja) | 画像処理装置、画像処理方法及びプログラム | |
JP4089849B2 (ja) | 罫線処理装置および記録媒体 | |
JP2012022413A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP2008004116A (ja) | 映像中の文字検索方法及び装置 | |
JPH04352295A (ja) | 文字列方向判別装置 | |
JP7292984B2 (ja) | 行分割装置および方法、ならびにプログラム | |
JP4731748B2 (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
JP2002297638A (ja) | 文書画像からのタイトル抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090909 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090915 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |