JP2569134B2 - 文字列抽出方法 - Google Patents
文字列抽出方法Info
- Publication number
- JP2569134B2 JP2569134B2 JP63183544A JP18354488A JP2569134B2 JP 2569134 B2 JP2569134 B2 JP 2569134B2 JP 63183544 A JP63183544 A JP 63183544A JP 18354488 A JP18354488 A JP 18354488A JP 2569134 B2 JP2569134 B2 JP 2569134B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- character
- text
- size
- provisional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Character Input (AREA)
Description
【発明の詳細な説明】 〔産業上の利用分野〕 この発明は、文書画像を画像処理して文字列(または
文字行)を切出すための文字列抽出方法に関する。
文字行)を切出すための文字列抽出方法に関する。
〔従来の技術〕 従来、この種の方法としては種々のものが提案されて
いるが、いずれも文字サイズ情報を前もって何らかの形
で与えてやらないと抽出することができず、このため通
常はマニュアルにて指定するようしている。
いるが、いずれも文字サイズ情報を前もって何らかの形
で与えてやらないと抽出することができず、このため通
常はマニュアルにて指定するようしている。
しかし、かかる作業は煩雑で時間が掛かるだけでな
く、誤設定となるおそれもある。
く、誤設定となるおそれもある。
したがって、この発明は文字サイズを自動的に決定可
能とすることにより、煩雑で時間が掛かる設定作業を不
要にすることを目的とする。
能とすることにより、煩雑で時間が掛かる設定作業を不
要にすることを目的とする。
文書を短冊状に分割し短い文字列に裁断して抽出し、
文書内に存在する仮文字列のサイズ(幅)に関するヒス
トグラムを演算した後、一番頻度の高い文字列の幅を抽
出し、これを本文の文字サイズとする。本文の文字サイ
ズが決定できたら、これに属する仮文字列にラベリング
処理を行う。これは一連のものと考えられる仮文字列
に、同じ番号(行番号)を付けるためである。そして、
本文を決定したら、次に見出し,肩文字サイズ、ルビ・
傍線,図形・写真のサイズをそれぞれ決定する。その結
果にもとづき、すべての仮文字列にラベリングを行う。
文書内に存在する仮文字列のサイズ(幅)に関するヒス
トグラムを演算した後、一番頻度の高い文字列の幅を抽
出し、これを本文の文字サイズとする。本文の文字サイ
ズが決定できたら、これに属する仮文字列にラベリング
処理を行う。これは一連のものと考えられる仮文字列
に、同じ番号(行番号)を付けるためである。そして、
本文を決定したら、次に見出し,肩文字サイズ、ルビ・
傍線,図形・写真のサイズをそれぞれ決定する。その結
果にもとづき、すべての仮文字列にラベリングを行う。
文書構造に関する知識に従って本文の文字サイズ、肩
文字,見出しの文字サイズ、ルビ・傍線のサイズ、それ
以外の写真・図形等のサイズをそれぞれ抽出することに
より、マニュアルにて文字サイズを指定しなくても、自
動的に文字列を抽出できるようにする。
文字,見出しの文字サイズ、ルビ・傍線のサイズ、それ
以外の写真・図形等のサイズをそれぞれ抽出することに
より、マニュアルにて文字サイズを指定しなくても、自
動的に文字列を抽出できるようにする。
第1図はこの発明の実施例を示すフローチャートであ
る。
る。
まず、文書画像をイメージスキャナなどの入力装置を
介してメモリに取り込む(参照)。次いで、文書画像
を短冊状領域毎に分割して各領域毎に投影演算をし(
参照)、分割された文字列らしきブロック(以下、これ
を仮文字列とも言う。)を抽出する(参照)。さら
に、仮文字列の幅に関するヒストグラムを求め、一番個
数(度数)の多いであろう筈の本文の仮文字列を抽出す
る。これにより、本文の文字サイズが抽出できる。ま
た、一般的な文書構造の知識から、本文の半分のサイズ
がルビのサイズであり、見出しは本文よりも大きく、肩
文字は本文よりも小さいので、これらのことから、本文
以外についても上記ヒストグラムをもとにサイズを決定
する(参照)。次に、本文の文字サイズと同じ仮文字
列についてだけ、連結すべき行か否かを判定してラベリ
ング処理を行う(参照)。そして、本文の文字列と連
結する幅の狭い仮文字列については、統合または拡張を
行って文字行を補正する。一方、本文の文字列よりも大
きい仮文字列については、隣り合う本文行とも接続する
ときに限り、大きな仮文字列を2分割して本文の文字行
を補正する。(参照)。
介してメモリに取り込む(参照)。次いで、文書画像
を短冊状領域毎に分割して各領域毎に投影演算をし(
参照)、分割された文字列らしきブロック(以下、これ
を仮文字列とも言う。)を抽出する(参照)。さら
に、仮文字列の幅に関するヒストグラムを求め、一番個
数(度数)の多いであろう筈の本文の仮文字列を抽出す
る。これにより、本文の文字サイズが抽出できる。ま
た、一般的な文書構造の知識から、本文の半分のサイズ
がルビのサイズであり、見出しは本文よりも大きく、肩
文字は本文よりも小さいので、これらのことから、本文
以外についても上記ヒストグラムをもとにサイズを決定
する(参照)。次に、本文の文字サイズと同じ仮文字
列についてだけ、連結すべき行か否かを判定してラベリ
ング処理を行う(参照)。そして、本文の文字列と連
結する幅の狭い仮文字列については、統合または拡張を
行って文字行を補正する。一方、本文の文字列よりも大
きい仮文字列については、隣り合う本文行とも接続する
ときに限り、大きな仮文字列を2分割して本文の文字行
を補正する。(参照)。
しかる後、本文行よりも大きな文字列については見出
しのラベリングを行い(参照)、本文行よりも小さな
仮文字列については肩文字またはルビ・傍線のラベリン
グを行う(参照)。最後に、見出しよりもさらに大き
なブロックについては、図形・写真領域としてラベリン
グを行う(参照)。
しのラベリングを行い(参照)、本文行よりも小さな
仮文字列については肩文字またはルビ・傍線のラベリン
グを行う(参照)。最後に、見出しよりもさらに大き
なブロックについては、図形・写真領域としてラベリン
グを行う(参照)。
第2図に入力文書が画像の具体例を示す。文書画像1
には、例えば肩文字2、見出し3、本文4、ルビ5a,傍
線5b・図形6等が含まれていて、それぞれの文字サイズ
は互いに異なっている。なお、一般の書籍では、7ポイ
ント〜28ポイント(2.45mm〜10mm)の文字サイズが使わ
れている。
には、例えば肩文字2、見出し3、本文4、ルビ5a,傍
線5b・図形6等が含まれていて、それぞれの文字サイズ
は互いに異なっている。なお、一般の書籍では、7ポイ
ント〜28ポイント(2.45mm〜10mm)の文字サイズが使わ
れている。
第3図に文書画像領域1を短冊領域11〜14に分割した
例を示す。なお、短冊の幅δ1〜δ4は文字サイズの3
〜6倍程度としており、ここでは30mm〜40mm程度となる
ように分割している。また、同図は横書き文書の例であ
るが、縦書き文書の場合も同様である。
例を示す。なお、短冊の幅δ1〜δ4は文字サイズの3
〜6倍程度としており、ここでは30mm〜40mm程度となる
ように分割している。また、同図は横書き文書の例であ
るが、縦書き文書の場合も同様である。
第3図では、短冊領域の投影をとって、文字らしいブ
ロックとして仮文字列S1〜S26を抽出する。仮文字列の
幅はそれぞれ、T1〜T26とする。仮文字列SiとSjとが連
結しているかどうかは、各々の幅TiとTjと仮文字列のオ
ーバラップ量Uijが、次式を満たすか否かで判定する。
ロックとして仮文字列S1〜S26を抽出する。仮文字列の
幅はそれぞれ、T1〜T26とする。仮文字列SiとSjとが連
結しているかどうかは、各々の幅TiとTjと仮文字列のオ
ーバラップ量Uijが、次式を満たすか否かで判定する。
Uij/Ti>θo かつ Uij/Tj>θo ただし、θoは文字列の傾きによって可変とする。ま
た、本文の統合処理,拡張処理,分割処理ではそれぞれ
値が異なる。通常、本文の連結を判定するときは、例え
ば θo=0.8 としている。
た、本文の統合処理,拡張処理,分割処理ではそれぞれ
値が異なる。通常、本文の連結を判定するときは、例え
ば θo=0.8 としている。
以上の如き仮文字列S1〜S26の幅T1〜T26のヒストグラ
ムをとると、例えば第4図のようになる。このとき、本
文の頻度21が一番高く、このことから本文の文字サイズ
は5mmであることがわかる。
ムをとると、例えば第4図のようになる。このとき、本
文の頻度21が一番高く、このことから本文の文字サイズ
は5mmであることがわかる。
本文の文字サイズloを5mm、そのばらつきの範囲をΔl
o=±0.5mmとし、本文となる仮文字列についてラベリン
グ処理を行った結果を、第5図に示す。ここで、仮文字
列につけられた番号〜は本文の行番号を表す。
o=±0.5mmとし、本文となる仮文字列についてラベリン
グ処理を行った結果を、第5図に示す。ここで、仮文字
列につけられた番号〜は本文の行番号を表す。
また、かかる文字列抽出処理では、第6図に示すよう
なデータ構造にて仮文字列のラベリング結果を記述する
ことができる。ここに、仮文字列(参照)は本文を符
号B(参照)、見出しを符号A(参照)、ルビ・傍
線を符号R(参照)、肩文字を符号K(参照)、そ
の他の図形・写真などを符号Z(参照)で記述してい
る。なお、空白部は何もないか、未知の部分である。
なデータ構造にて仮文字列のラベリング結果を記述する
ことができる。ここに、仮文字列(参照)は本文を符
号B(参照)、見出しを符号A(参照)、ルビ・傍
線を符号R(参照)、肩文字を符号K(参照)、そ
の他の図形・写真などを符号Z(参照)で記述してい
る。なお、空白部は何もないか、未知の部分である。
この発明によれば、文書画像の短冊領域で文字列を分
割してその投影データを抽出し、仮文字列を演算した
後、仮文字列の幅のヒストグラムから本文の文字サイズ
を推定するようにしたので、文字列の抽出を自動的に行
うことが可能となる。また、見出し,肩文字,ルビ,傍
線などに関する情報も抽出できるので、各文字列に対応
のラベルを付すことが可能となる。これにより、文字サ
イズをマニュアルにて指示しなくても済み、操作が簡単
になる。
割してその投影データを抽出し、仮文字列を演算した
後、仮文字列の幅のヒストグラムから本文の文字サイズ
を推定するようにしたので、文字列の抽出を自動的に行
うことが可能となる。また、見出し,肩文字,ルビ,傍
線などに関する情報も抽出できるので、各文字列に対応
のラベルを付すことが可能となる。これにより、文字サ
イズをマニュアルにて指示しなくても済み、操作が簡単
になる。
第1図はこの発明の実施例を示すフローチャート、第2
図は入力文書画像の一例を説明するための説明図、第3
図は横書き文書を短冊状に領域分割した例を説明するた
めの説明図、第4図は仮文字列の幅の頻度を示すグラ
フ、第5図は第3図の例で本文の文字列と接続するもの
だけにラベル付けした結果を説明するための説明図、第
6図は第3図の例でラベリング処理されたデータを説明
するための説明図である。 符号説明 1……文書画像、2……肩文字、3……見出し文字、4
……本文、5a……ルビ、5b……傍線、6……図形、11〜
14……短冊状領域、21……本文の頻度。
図は入力文書画像の一例を説明するための説明図、第3
図は横書き文書を短冊状に領域分割した例を説明するた
めの説明図、第4図は仮文字列の幅の頻度を示すグラ
フ、第5図は第3図の例で本文の文字列と接続するもの
だけにラベル付けした結果を説明するための説明図、第
6図は第3図の例でラベリング処理されたデータを説明
するための説明図である。 符号説明 1……文書画像、2……肩文字、3……見出し文字、4
……本文、5a……ルビ、5b……傍線、6……図形、11〜
14……短冊状領域、21……本文の頻度。
Claims (1)
- 【請求項1】各種文字列を含む文書画像を画像処理して
個々の文字列を抽出すべく、 文書画像を短冊状に分割し、各分割領域毎の投影データ
から文字列のブロック(仮文字列)を抽出し、該仮文字
列の幅に関するヒストグラムから本文の文字サイズを決
定し、本文に関し統合,分割,拡張を含むラベリング処
理を行った後、本文以外の仮文字列について少なくとも
見出し,肩文字,ルビ・傍線または図形・写真のラベル
付けをそれぞれ行うことを特徴とする文字列抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63183544A JP2569134B2 (ja) | 1988-07-25 | 1988-07-25 | 文字列抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63183544A JP2569134B2 (ja) | 1988-07-25 | 1988-07-25 | 文字列抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0233686A JPH0233686A (ja) | 1990-02-02 |
JP2569134B2 true JP2569134B2 (ja) | 1997-01-08 |
Family
ID=16137672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63183544A Expired - Lifetime JP2569134B2 (ja) | 1988-07-25 | 1988-07-25 | 文字列抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2569134B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3425834B2 (ja) * | 1995-09-06 | 2003-07-14 | 富士通株式会社 | 文書画像からのタイトル抽出装置および方法 |
JPH09297765A (ja) * | 1996-05-01 | 1997-11-18 | Ricoh Co Ltd | 文書画像処理方法 |
JP2000137728A (ja) * | 1998-11-02 | 2000-05-16 | Fujitsu Ltd | 文書解析装置及びプログラム記録媒体 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57105085A (en) * | 1980-12-23 | 1982-06-30 | Ricoh Co Ltd | Cutting system of character region |
JPS5866174A (ja) * | 1981-10-15 | 1983-04-20 | Ricoh Co Ltd | 行抽出方法 |
JPS58197581A (ja) * | 1982-05-12 | 1983-11-17 | Nec Corp | 文字図形認識方法とその装置 |
JPS61269778A (ja) * | 1985-05-24 | 1986-11-29 | Agency Of Ind Science & Technol | 文字行抽出装置 |
JPS62243082A (ja) * | 1986-04-16 | 1987-10-23 | Sharp Corp | 読取り方式 |
JPS62243083A (ja) * | 1986-04-16 | 1987-10-23 | Sharp Corp | 読取り方式 |
JPS6385993A (ja) * | 1986-09-30 | 1988-04-16 | Ricoh Co Ltd | 文字切出し方式 |
JPS63101983A (ja) * | 1986-10-17 | 1988-05-06 | Fujitsu Ltd | 文字列抽出方式 |
JPH0679348B2 (ja) * | 1986-12-23 | 1994-10-05 | シャープ株式会社 | 行切り出し方法 |
-
1988
- 1988-07-25 JP JP63183544A patent/JP2569134B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0233686A (ja) | 1990-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3062382B2 (ja) | 画像処理装置及び方法 | |
JP2569134B2 (ja) | 文字列抽出方法 | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
JP3090070B2 (ja) | 帳票識別方法及び装置 | |
JPS6015781A (ja) | 文字切出し装置 | |
JP3203749B2 (ja) | 文書処理装置 | |
JP2933947B2 (ja) | 画像処理方法及び装置 | |
JPS63158669A (ja) | 図面認識装置 | |
JP3379663B2 (ja) | 文字認識装置 | |
JP2001236464A (ja) | 文字抽出方法、文字抽出装置及び記憶媒体 | |
JP2569151B2 (ja) | 文字サイズ抽出方法 | |
JP2746345B2 (ja) | 文字認識の後処理方法 | |
JP2909132B2 (ja) | 光学的文字読取装置 | |
JP4209511B2 (ja) | 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPS63101983A (ja) | 文字列抽出方式 | |
JP2612383B2 (ja) | 文字認識処理方式 | |
JPH0713996A (ja) | 文字認識装置 | |
CN113903038A (zh) | 一种基于包围盒的文字矫正方法及系统 | |
JP2562067B2 (ja) | 文字画像の単語切出し装置 | |
JPH0524555B2 (ja) | ||
JP2683116B2 (ja) | 罫線の除去方法 | |
JP2000207488A (ja) | 文字認識方法、装置および記録媒体 | |
JPH04342089A (ja) | 文字入力処理方法 | |
JPH05182024A (ja) | 文字認識装置 | |
JPH1049602A (ja) | 帳票認識方法 |