JP4381455B2 - 文字サイズ推定方法、装置および記録媒体 - Google Patents
文字サイズ推定方法、装置および記録媒体 Download PDFInfo
- Publication number
- JP4381455B2 JP4381455B2 JP2008068081A JP2008068081A JP4381455B2 JP 4381455 B2 JP4381455 B2 JP 4381455B2 JP 2008068081 A JP2008068081 A JP 2008068081A JP 2008068081 A JP2008068081 A JP 2008068081A JP 4381455 B2 JP4381455 B2 JP 4381455B2
- Authority
- JP
- Japan
- Prior art keywords
- rectangle
- character
- run
- scanning direction
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
Description
図1は、本発明の実施例1の構成を示し、図2は、実施例1の処理フローチャートを示す。図において、1は画像入力部、2は原画メモリ、3はラン抽出部、4は連結矩形抽出部、5は頻度計数部、6はピーク検出部、7は文字サイズ出力部である。
実施例2は、表処理などに先だって連結矩形抽出が行われるが、この抽出された矩形が文字であるか否かを予め判定しておくことにより、より正確に文字サイズを推定する実施例である。また、文字に含まれる直線成分を利用して文字矩形を判定することにより、より正確な文字サイズの推定を行う。
文字矩形同士が接触していて、推定された文字サイズを超える大きさの矩形を形成しても、単位面積当たりの罫線数を基に文字矩形として推定する実施例である。つまり、推定された文字サイズを一片とする方形領域の面積を1単位として、この方形領域よりも大きな連結矩形について、その単位面積当たりの罫線数を算出し、その罫線数から文字矩形を判定する。
実施例4は、芯線処理によって文字矩形を判定することにより、より正確な文字サイズを推定する実施例である。図9は、本発明の実施例4の構成を示し、図10は、本発明の実施例4の処理フローチャートである。図において、40は画像入力部、41は原画メモリ、42はラン抽出部、43は連結矩形抽出部、44はID付与部、45は芯線矩形抽出部、46は文字矩形判定部、47は頻度計数部、48はピーク検出部、49は文字サイズ出力部である。
従来の方法では、固定閾値を用いて罫線を抽出している。このため、表の中に含まれる文字の大きさよりも少し大きな長さを持った線を抽出することが難しい。これは、あらゆるドキュメントにおいて文字内に罫線が抽出されないような、ある程度大きな固定の閾値を設定する必要があるためである。このように、従来の方法では、ある程度大きな固定の閾値を設定しているので、文字内の疑似罫線の抽出を抑えることができるが、逆に、文字サイズよりも少し大きい程度の短い罫線を抽出することができない。
一般的に、縦線と横線を含む表の枠の連結矩形成分のラン頻度分布は、図14に示すようになる。すなわち、ランレングス1〜10が縦線のラン分布であり、10〜28が縦線あるいは横線に接触している文字のラン分布となっている。29以上のラン分布は横線のラン分布である。図14の分布では、閾値を29に設定することにより、横線のみが抽出できる。分布の微分値がゼロ、つまりラン分布が変化しなくなったら、その点が閾値となる。本実施例では、この閾値を探索するために差分を使用している。
オフィスで作成される表を含む文書のラン分布は、概ね図14に示す傾向となるが、上記した実施例6のように差分を求めたとき、ノイズ等によって、ランレングス値29より小さい値でも隣の分布頻度値と一致することがある。あるいは、29より大きいランレングスでも、頻度値としては10またはそれ以上の頻度値となる場合もあり、頻度値が隣と一致する場合が必ずあるとは限らない。これは、ラン分布にのっている高周波成分のノイズが原因である。
図19は、横線のみのラン分布を示す。ラン分布を連結矩形単位でとると、表の枠を構成する連結矩形や、横線を構成する連結矩形が含まれる。横線のみの連結矩形を、閾値33の付近で取り出すためには、ラン分布のピークより大きい位置で、微分値がゼロになる点を探せば良い。
表を認識する際には、連結矩形抽出を繰返し行う必要があり、その都度、原画からランを抽出して、連結矩形を抽出すると処理に時間を要する。そこで、ラン情報のみをあらかじめ用意しておくことにより、ランを使った他の特徴量の抽出等の処理時間を短縮できる。
実施例10は、本発明をソフトウェアによって実現する場合の実施例である。図24は、実施例10のシステム構成例を示す。CD−ROMなどの記録媒体には、本発明の文字サイズ推定処理機能または処理手順が記録されていて、これをシステムにインストールする。スキャナなどにセットされた原稿を読み取り、メモリ上に展開された原稿画像から文字矩形を抽出し、抽出された文字矩形のサイズを推定し、その結果をディスプレイなどに表示出力する。
2 原画メモリ
3 ラン抽出部
4 連結矩形抽出部
5 頻度計数部
6 ピーク検出部
7 文字サイズ出力部
Claims (3)
- 入力された画像の主走査方向および副走査方向におけるランを抽出する工程と、前記抽出されたランの頻度分布を求める工程と、前記ランの頻度分布を基に所定の閾値を設定する工程と、前記所定の閾値より大きなランを用いて連結矩形を抽出する工程と、前記抽出された連結矩形から罫線を抽出する工程と、所定領域内の主走査方向および副走査方向に所定本数以上の罫線が存在しているとき、文字矩形と判定する工程と、前記文字矩形と判定された矩形の縦サイズの頻度分布を求める工程と、前記縦サイズの頻度分布のピークを検出する工程と、前記ピークから縦サイズの大きい方向へ探索したとき、頻度値が所定値以下になった縦サイズを文字サイズとして出力する工程を備えたことを特徴とする文字サイズ推定方法。
- 入力された画像の主走査方向および副走査方向におけるランを抽出する手段と、前記抽出されたランの頻度分布を求める手段と、前記ランの頻度分布を基に所定の閾値を設定する手段と、前記所定の閾値より大きなランを用いて連結矩形を抽出する手段と、前記抽出された連結矩形から罫線を抽出する手段と、所定領域内の主走査方向および副走査方向に所定本数以上の罫線が存在しているとき、文字矩形と判定する手段と、前記文字矩形と判定された矩形の縦サイズの頻度分布を求める手段と、前記縦サイズの頻度分布のピークを検出する手段と、前記ピークから縦サイズの大きい方向へ探索したとき、頻度値が所定値以下になった縦サイズを文字サイズとして出力する手段を備えたことを特徴とする文字サイズ推定装置。
- 請求項1記載の文字サイズ推定方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008068081A JP4381455B2 (ja) | 2008-03-17 | 2008-03-17 | 文字サイズ推定方法、装置および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008068081A JP4381455B2 (ja) | 2008-03-17 | 2008-03-17 | 文字サイズ推定方法、装置および記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11690699A Division JP4129898B2 (ja) | 1999-04-23 | 1999-04-23 | 文字サイズ推定方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008152811A JP2008152811A (ja) | 2008-07-03 |
JP4381455B2 true JP4381455B2 (ja) | 2009-12-09 |
Family
ID=39654835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008068081A Expired - Fee Related JP4381455B2 (ja) | 2008-03-17 | 2008-03-17 | 文字サイズ推定方法、装置および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4381455B2 (ja) |
-
2008
- 2008-03-17 JP JP2008068081A patent/JP4381455B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008152811A (ja) | 2008-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102403964B1 (ko) | 화상 처리 장치, 화상 처리 방법, 및 저장 매체 | |
JP4271878B2 (ja) | 映像中の文字検索方法及び装置並びに文字検索処理プログラム | |
JPH11219407A (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
JP6900164B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2007073048A (ja) | 文字列イメージを垂直に分離するプログラム、方法及び装置、指定文字列を抽出するプログラム、方法及び装置 | |
US8538154B2 (en) | Image processing method and image processing apparatus for extracting heading region from image of document | |
JP2010218249A (ja) | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム | |
KR101717441B1 (ko) | 문자영상 내의 개인정보 보호장치 및 방법 | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
JP4129898B2 (ja) | 文字サイズ推定方法および装置 | |
JP4381455B2 (ja) | 文字サイズ推定方法、装置および記録媒体 | |
JP4089849B2 (ja) | 罫線処理装置および記録媒体 | |
JP2015099536A (ja) | 図表領域検出装置および図表領域検出方法 | |
JP2012022413A (ja) | 画像処理装置、画像処理方法、およびプログラム | |
JP7292984B2 (ja) | 行分割装置および方法、ならびにプログラム | |
WO2018210164A1 (zh) | 一种网页内容处理方法及装置、存储介质 | |
JP2008004116A (ja) | 映像中の文字検索方法及び装置 | |
Ma et al. | An enhanced skew angle estimation technique for binary document images | |
JPH07282193A (ja) | 表を含む帳票処理装置 | |
JP2003030585A (ja) | 画像処理装置、方法、プログラム及び記憶媒体 | |
JP2004246597A (ja) | 画像処理装置、記録媒体およびプログラム | |
CN106951401B (zh) | 一种文档正文识别方法及装置 | |
JP2009272714A (ja) | 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体 | |
JPH0822507A (ja) | 文書認識装置 | |
JP2000306102A (ja) | 罫線識別方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090717 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090909 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090915 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121002 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131002 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |