JPH0233686A - 文字列抽出方法 - Google Patents

文字列抽出方法

Info

Publication number
JPH0233686A
JPH0233686A JP63183544A JP18354488A JPH0233686A JP H0233686 A JPH0233686 A JP H0233686A JP 63183544 A JP63183544 A JP 63183544A JP 18354488 A JP18354488 A JP 18354488A JP H0233686 A JPH0233686 A JP H0233686A
Authority
JP
Japan
Prior art keywords
character string
character
text
temporary
size
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63183544A
Other languages
English (en)
Other versions
JP2569134B2 (ja
Inventor
Yasuo Hongo
本郷 保夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP63183544A priority Critical patent/JP2569134B2/ja
Publication of JPH0233686A publication Critical patent/JPH0233686A/ja
Application granted granted Critical
Publication of JP2569134B2 publication Critical patent/JP2569134B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は、文書画像を画像処理して文字列(または文
字行)を切出すための文字列抽出方法に関する。
〔従来の技術〕
従来、この種の方法としては種々のものが提案されてい
るが、いずれも文字サイズ情報を前もって何らかの形で
与えてやらないと抽出することができず、このため通常
はマニュアルにて指定するようにしている。
〔発明が解決しようとする課題〕
しかし、かかる作業は煩雑で時間が掛かるだけでな(、
誤設定となるおそれもある。
したがって、この発明は文字サイズを自動的に決定可能
とすることにより、煩雑で時間が掛かる設定作業を不要
にすることを目的とする。
〔課題を解決するための手段〕
文書を短冊状に分割し短い文字列に裁断して抽出し、文
書内に存在する仮文字列のサイズ(幅)に関するヒスト
グラムを演算した後、一番頻度の高い文字列の幅を抽出
し、これを本文の文字サイズとする。本文の文字サイズ
が決定できたら、これに属する仮文字列にラベリング処
理を行う。これは一連のものと考えられる仮文字列に、
同じ番号(行番号)を付けるためである。そして、本文
を決定したら、次に見出し、肩文字サイズ、ルビ・傍線
1図形・写真のサイズをそれぞれ決定する。
その結果にもとづき、すべての仮文字列にラベリングを
行う。
〔作用〕
文書構造に関する知識に従って本文の文字サイズ、肩文
字、見出しの文字サイズ、ルビ・傍線のサイズ、それ以
外の写真・図形等のサイズをそれぞれ抽出することによ
り、マニュアルにて文字サイズを指定しなくても、自動
的に文字列を抽出できるようにする。
〔実施例〕
第1図はこの発明の実施例を示すフローチャートである
まず、文書画像をイメージスキャナなどの人力装置を介
してメモリに取り込む(■参照)。次いで、文書画像を
短冊状領域毎に分割して各領域毎に投影演算をしく■参
照)、分割された文字列らしきブロック(以下、これを
仮文字列とも言う。)を抽出する(■参照)。さらに、
仮文字列の幅に関するヒストグラムを求め、一番個数(
度数)の多いであろう筈の本文の仮文字列を抽出する。
これにより、本文の文字サイズが抽出できる。また、−
ED的な文書構造の知識から、本文の半分のサイズがル
ビのサイズであり、見出しは本文よりも大きく、肩文字
は本文よりも小さいので、これらのことから、本文以外
についても上記ヒストグラムをもとにサイズを決定する
(■参照)。次に、本文の文字サイズと同じ仮文字列に
ついてだけ、連結すべき行か否かを判定してラベリング
処理を行う(■参照)。そして、本文の文字列と連結す
る幅の狭い仮文字列については、統合または拡張を行っ
て文字行を補正する。一方、本文の文字列よりも大きい
仮文字列については、隣り合う本文行とも接続するとき
に限り、大きな仮文字列を2分割して本文の文字行を補
正する(■参照)。
しかる後、本文行よりも大きな文字列については見出し
のラベリングを行い(■参照)、本文行よりも小さな仮
文字列については肩文字またはルビ・傍線のラベリング
を行う(■参照)。最後に、見出しよりもさらに大きな
ブロックについては、図形・写真領域としてラベリング
を行う(■参照)。
第2図に人力文書画像の具体例を示す。文書画像lには
、例えば肩文字2、見出し3、本文4、ルビ5a、傍線
5b、図形6等が含まれていて、それぞれの文字サイズ
は互いに異なっている。なお、−Sの書類では、7ポイ
ント〜28ポイント(2,45■〜10m)の文字サイ
ズが使われている。
第3図に文書画像領域1を短面領域11−14に分割し
た例を示す。なお、短冊の幅δ鵞〜δ4は文字サイズの
3〜6倍程度としており、ここでは30噛〜40閤程度
となるように分割している。
また、同図は横書き文書の例であるが、縦書き文書の場
合も同様である。
第3図では、短面領域の投影をとって、文字らしいブロ
ックとして仮文字列81〜S2&を抽出する。仮文字列
の幅はそれぞれ、1゛、〜T26とする。
仮文字列SIとSjとが連結しているかどうかは、各々
の幅T、、T、と仮文字列のオーバラップ購U + 7
が、次式を満たすか否かで判定する。
U、、/T、>θ0 かつ [J、J/T、>θ。
ただし、θ。は文字列の傾きによって可変とする。
また、本文の統合処理、拡張処理1分割処理ではそれぞ
れ値が異なる。通常、本文の連結を判定するときは、例
えば θ。−0,8 としている。
以上の如き仮文字列S、〜S26の幅T1〜T26のヒ
ストグラムをとると、例えば第、1図のようになる。こ
のとき、本文の頻度21が一番高く、このことから本文
の文字サイズは5mであることがわかる。
本文の文字サイズ!。を5個、そのばらつきの範囲をΔ
la −±0. 5am*とじ、本文となる仮文字列に
ついてラベリング処理を行った結果を、第5図に示す。
ここで、仮文字列につけられた番号■〜■は本文の行番
号を表す。
また、かかる文字列抽出処理では、第6図に示すような
データ構造にて仮文字列のラベリング結果を記述するこ
とができる。ここに、仮文字列(■参照)は本文を符号
B(@参照)、見出しを符号A(■参照)、ルビ・傍線
を符号R(([()参照)、肩文字を符号K([相]参
照)、その他の図形・写真などを符号Z(■参照)で記
述している。なお、空白部は何もないか、未知の部分で
ある。
〔発明の効果] この発明によれば、文書画像の短m em域で文字列を
分割してその投影データを抽出し、仮文字列を演算した
後、仮文字列の幅のヒストグラムから本文の文字サイズ
を推定するようにしたので、文字列の抽出を自動的に行
うことが可能となる。また、見出し、肩文字、ルビ、傍
線などに関する情報も抽出できるので、各文字列に対応
のラベルを付すことが可能となる。これにより、文字サ
イズをマニュアルにて指示しなくても済み、丘作が簡単
になる。
【図面の簡単な説明】
第1図はこの発明の実施例を示すフローチャート、第2
図は人力文書画像の一例を説明するための説明図、第3
図は横書き文書を短冊状に領域分割した例を説明するた
めの説明図、第4図は仮文字列の幅の頻度を示すグラフ
、第5図は第3図の例で本文の文字列と接続するものだ
けにラベル付けした結果を説明するための説明図、第6
図は第3図の例でラベリング処理されたデータを説明す
るための説明図である。 符号説明 1・・・文書画像、2・・・肩文字、3・・・見出し文
字、4・・・本文、5a・・・ルビ、5b・・−傍線、
6・・・図形、11〜14・・・短冊状領域、21・・
・本文の頻度。 代理人 弁理士 並 木 昭 夫

Claims (1)

  1. 【特許請求の範囲】 各種文字列を含む文書画像を画像処理して個々の文字列
    を抽出すべく、 文書画像を短冊状に分割し、各分割領域毎の投影データ
    から文字列のブロック(仮文字列)を抽出し、該仮文字
    列の幅に関するヒストグラムから本文の文字サイズを決
    定し、本文に関し統合、分割、拡張を含むラベリング処
    理を行った後、本文以外の仮文字列について少なくとも
    見出し、肩文字、ルビ・傍線または図形・写真のラベル
    付けをそれぞれ行うことを特徴とする文字列抽出方法。
JP63183544A 1988-07-25 1988-07-25 文字列抽出方法 Expired - Lifetime JP2569134B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63183544A JP2569134B2 (ja) 1988-07-25 1988-07-25 文字列抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63183544A JP2569134B2 (ja) 1988-07-25 1988-07-25 文字列抽出方法

Publications (2)

Publication Number Publication Date
JPH0233686A true JPH0233686A (ja) 1990-02-02
JP2569134B2 JP2569134B2 (ja) 1997-01-08

Family

ID=16137672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63183544A Expired - Lifetime JP2569134B2 (ja) 1988-07-25 1988-07-25 文字列抽出方法

Country Status (1)

Country Link
JP (1) JP2569134B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
JPH09297765A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文書画像処理方法
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57105085A (en) * 1980-12-23 1982-06-30 Ricoh Co Ltd Cutting system of character region
JPS5866174A (ja) * 1981-10-15 1983-04-20 Ricoh Co Ltd 行抽出方法
JPS58197581A (ja) * 1982-05-12 1983-11-17 Nec Corp 文字図形認識方法とその装置
JPS61269778A (ja) * 1985-05-24 1986-11-29 Agency Of Ind Science & Technol 文字行抽出装置
JPS62243083A (ja) * 1986-04-16 1987-10-23 Sharp Corp 読取り方式
JPS62243082A (ja) * 1986-04-16 1987-10-23 Sharp Corp 読取り方式
JPS6385993A (ja) * 1986-09-30 1988-04-16 Ricoh Co Ltd 文字切出し方式
JPS63101983A (ja) * 1986-10-17 1988-05-06 Fujitsu Ltd 文字列抽出方式
JPS63158677A (ja) * 1986-12-23 1988-07-01 Sharp Corp 行切り出し方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57105085A (en) * 1980-12-23 1982-06-30 Ricoh Co Ltd Cutting system of character region
JPS5866174A (ja) * 1981-10-15 1983-04-20 Ricoh Co Ltd 行抽出方法
JPS58197581A (ja) * 1982-05-12 1983-11-17 Nec Corp 文字図形認識方法とその装置
JPS61269778A (ja) * 1985-05-24 1986-11-29 Agency Of Ind Science & Technol 文字行抽出装置
JPS62243083A (ja) * 1986-04-16 1987-10-23 Sharp Corp 読取り方式
JPS62243082A (ja) * 1986-04-16 1987-10-23 Sharp Corp 読取り方式
JPS6385993A (ja) * 1986-09-30 1988-04-16 Ricoh Co Ltd 文字切出し方式
JPS63101983A (ja) * 1986-10-17 1988-05-06 Fujitsu Ltd 文字列抽出方式
JPS63158677A (ja) * 1986-12-23 1988-07-01 Sharp Corp 行切り出し方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09134406A (ja) * 1995-09-06 1997-05-20 Fujitsu Ltd 文書画像からのタイトル抽出装置および方法
JPH09297765A (ja) * 1996-05-01 1997-11-18 Ricoh Co Ltd 文書画像処理方法
JP2000137728A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 文書解析装置及びプログラム記録媒体

Also Published As

Publication number Publication date
JP2569134B2 (ja) 1997-01-08

Similar Documents

Publication Publication Date Title
US7643682B2 (en) Method of identifying redundant text in an electronic document
JPH0233686A (ja) 文字列抽出方法
JP2003189096A5 (ja)
JPH0460759A (ja) 文書作成支援装置
JPS5846427A (ja) 文書編集装置
JPS63101983A (ja) 文字列抽出方式
JPH02100190A (ja) 文字サイズ抽出方法
CN115988263A (zh) 视频的工程数据转换方法、装置、设备及存储介质
JP2007124186A (ja) 画像処理装置の画像切り出し方法、画像切り出し装置、プログラム
JP2574795B2 (ja) 図面記号抽出方法
JP2001236464A (ja) 文字抽出方法、文字抽出装置及び記憶媒体
JPH01114992A (ja) 文字切出し方法
JPH04218876A (ja) 画像編集装置
JPH02181784A (ja) 文字フォント編集装置
JP5875498B2 (ja) 印刷データ処理装置、印刷データ処理方法および印刷データ処理プログラム。
KR100258328B1 (ko) 화상편집장치의 영역 선택방법
JPH04154368A (ja) 文書画像の領域分割方式
JP2003189095A5 (ja)
JP3220481B2 (ja) 原稿の空白領域抽出方法
JPH07105309A (ja) 行切出し方法
JPS6276969A (ja) 画像情報の処理方式
JPS6327990A (ja) 文字認識方法
JPH0392978A (ja) 画像処理装置
JPS5958536A (ja) プリンタ制御方式
JPH0261775A (ja) 表画像認識方式