JPH03216782A - 文字列切出し機能を備えた情報処理装置 - Google Patents

文字列切出し機能を備えた情報処理装置

Info

Publication number
JPH03216782A
JPH03216782A JP2011226A JP1122690A JPH03216782A JP H03216782 A JPH03216782 A JP H03216782A JP 2011226 A JP2011226 A JP 2011226A JP 1122690 A JP1122690 A JP 1122690A JP H03216782 A JPH03216782 A JP H03216782A
Authority
JP
Japan
Prior art keywords
character string
character
image
character strings
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011226A
Other languages
English (en)
Inventor
Katsuya Murakoshi
克也 村越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2011226A priority Critical patent/JPH03216782A/ja
Publication of JPH03216782A publication Critical patent/JPH03216782A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産東上又■貝l互 この発明は、パーソナル・コンピュータやDTP(デス
ク・トップ・パブリッシング)、その他各種の文字列切
出し機能を備えた情報処理装置に係り、特に、スキャナ
等の入力手段によって読込んだ文書画像データから、そ
の文字列の画像データを高速かつ確実に切出すことがで
きるようにした情報処理装置に関する。
蓑米■筑権 従来の文字列切出し機能を備えた情報処理装置では、文
字列の切出し方式として、文書の文字列方向へ全体の射
影をとり、これを或るしきい値に1 よって切ることによって、文字列を切出セ方式が用いら
れている。
また、傾いた文書を切出す方式としては,文書を文字列
方向に所定の幅で分割し、各分割領域間で射影をとって
部分文字列を切出して、各部分文字列の文字列方向の座
標の重複状態を判断しながら全文字列の画像を切出し、
画像の幅によって文字列かそれ以外のものかを判断する
方式も、従来から知られている。
しかし、この従来の傾いた文書の切出し方式では、例え
ば,アンダーライン,サイドライン,ルビ等の文字列以
外の画像については、これらの画像も文字列と同様に傾
いているため、文字列の射影と重なっているときは、除
去することができない場合が生じる。
同様に、ノイズについても、文字列の射影と重なってい
るときには、除去できない部分が生じる、等の不都合が
あった。
明が解決しようとする課 この発明では,従来の文字列切出し方式におけるこれら
の不都合を解決し、スキャナによって読取られた文書画
像データから、ノイズや、アンダーライン,サイドライ
ン,ルビ等の文字列以外の画像を除去し、高速かつ正確
に、文字列だけを切出すことができるようにした情報処
理装置を提供することを目的とする. を  するための この発明では、第1に、 スキャナ等の入力手段によって入力された文書画像を文
字列方向に所定の長さに分割する文字列分割手段と、 分割された各領域毎に文字列の射影をとって文字列を切
出す文字列切出し手段と、 各領域間での文字列の連続性を検出する連続性検出手段
と、 連続した文字列の傾きを算出する傾き量算出手段と、 前記傾き量によって入力された画像を補正して、文字列
全体の射影をとり,文字列と文字列以外の画像とを識別
する識別手段、 とで構成するようにしている。
また,第2に、 上述の情報処理装置において、 連続性検出手段は、各領域内で切出された文字列と,隣
接する領域内の文字列の座標の重複の有無によって文字
列の連続性を判定するように構成している。
スー」L一外 次に、この発明の文字列切出し機能を備えた情報処理装
置について、図面を参照しながら、その実施例を詳細に
説明する。
第1図は、この発明の文字列切出し機能を備えた情報処
理装置について、その要部構成の一実施例を示す機能ブ
ロック図である.図面において、1はCP’U、2はプ
ログラAメモlJ (ROM)、3はスキャナ、4はス
キャナI/F (インターフェース)回路、5は文字列
切出し処理部、6はワーク用メモリ(RAM) 、7は
LCD、8は内部バスを示す。
この第1図に示したこの発明の文字列切出し機能を備え
た情報処理装置の各部の機能は、概略次のとおりである
CPUIは、情報処理システム全体の制御を司る。
プログラムメモリ2は、プログラムが格納されたROM
等のメモリである。
スキャナ3は、文書画像等を読取るイメージ入力手段で
、スキャナI/F回路4は、そのインターフェース回路
である. 文字列切出し処理部5は、文字列分割,文字列切出し,
連続性検出,傾き量算出,識別等の機能を有している。
ワーク用メモリ6は、各種のデータを格納するために使
用されるRAM等のメモリである。
LCD7は、データを可視化する表示手段である。
I/F回路5は、そのインターフェース回路である。
また,内部バス8は、これらの各部を接続するためのバ
スである。
次に、フローチャートを参照しながら、第1図の情報処
理装置による文字列切出しの処理について説明する。
第2図は、この発明の文字列切出し機能を備えた情報処
理装置において、文字列切出し時の主要な処理の流れを
示すフローチャートである.図面において、#1〜#8
はステップを示す。
ステップ#1で、切出し対象とする文書について、文字
列の方向に一定の幅をもつ帯領域に分割する. ステップ#2で、各帯領域毎に文字列方向の射影をとる
ステップ#3で、各帯領域の射影を、或るしきい値(閾
値)で切り、帯領域内の部分文字列を切出す。
ステップ#4で,各帯領域の部分文字列について、文字
列方向のつながり方をみるために、各部分文字列の座標
の重複状態から連続性を検知し、文字列方向に連続した
部分文字列の一点、例えば左下点を直線で近似させる. ステップ#5で、直線の傾きを算出して,スキュー量を
求める. ステップ#6で、スキュー量によって、読取ったデータ
を補正する. ?テップ#7で、補正した画像データの文字列方向の全
体の射影をとり、或るしきい値によって文字列を切出し
、切出した文字列の幅と標準文字の大きさとの比較によ
って、文字列と、ノイズ,ルビ,サイドライン(横書き
の場合にはアンダーライン)等とを識別し、ノイズ,ル
ビ,サイドライン等を削除する. ステップ#8で、スキュー量によって補正されたデータ
を原の状態に戻す. 以上のステップ#1〜#8の処理によって、文字列の切
出し処理が完了する。
第3図(1)〜(4)は、切出し対象とする文書につい
て、文字列の方向に一定の幅をもつ帯領域に分割した状
態を示す図で、(1)は文字列の方向に一定の幅をもつ
帯領域に分割した状態、(2)は帯領域に分割された1
領域、(3)はその文字列方向の射影、(4)は(3)
の文字列方向の射影を或るしきい値によって切出した部
分文字列である。図面において、n■I n2はノイズ
を示す。
この第3図(1)〜(4)は、先の第2図のフローでは
,ステップ#1〜#3に対応する処理を示している. そして、第3図(3)に示す処理では,或るしきい値に
よって文字列を切出しているので、文字列から離れた位
置のノイズn1は除去できるが、第3図(4)に示すよ
うに、文字列内に入ってしまうノイズn,は除去できな
い。
このような部分文字列の切出し処理を、第3図(1)に
示すような各帯領域について、順次実行する。
第4図は、第3図の処理によって切出された部分文字列
の全体の状態を示す図である。
第2図に示したステップ#1〜#3の処理が終了すると
、この第4図のように、切出された部分文字列の全体画
像が得られる. 次に,この文字列方向の部分文字列について、その連続
性を検出する。
第5図は、第4図に示した部分文字列の全体図について
、部分文字列の連続性を検出する処理を説明する図であ
る. この第5図は、先の第2図のフローでは,ステップ#4
に対応する処理を示している.部分文字列の連続性の検
出に際しては、帯領域1; 内の各部分文字列に注目し、X方向分ついて所定の範囲
を定め、隣接する帯領域内におけるX方向の所定範囲内
に、部分文字列があるか否かを判断する。
そして、連続していると判断したときは、その文字列方
向の各部分文字列の共通した任意の一点、例えば左下点
を直線で近似する。
この場合には、例えば最小二乗法などの演算処理を用い
て行う。あるいは、得られた各直線の傾きを平均しても
よい。
第2図に示したステップ#4の処理が終了すると、この
第5図に示すように、各部分文字列の共通する例えば左
下点が、直線によって近似される。
次に、第2図のステップ#5と#6に対応する処理が実
行される。
第6図(1)と(2)は、直線の傾きの算出と、補正後
の部分文字列との状態を示す図で、(1)は直線の傾き
を算出する方式、(2)は算出された傾きによって補正
された後の状態を示す. この第6図(1)に示すように、求めた直線の傾きと、
y方向のドット数とによって,X方向ドットのズレ量を
求め、そのドット数分だけ文書データをシフトする。こ
の場合には、文書データが左方向ヘシフトされる. その後、ドットシフトされた文書データについて、その
文字列方向の全体の射影をとると,第6図(2)のよう
な部分文字列が得られる。
すなわち、第2図に示したステップ#5と#6の処理が
終了すると、この第6図(2)に示すように、部分文字
列が得られる。
そこで、この第6図(2)の部分文字列について、或る
しきい値によって切出しを行う。
この場合に、もし、ノイズやルビ、サイドライン等の不
要な画像データがあったときは、第2図のステップ#7
に対応する処理が実行され,或るしきい値による切出し
が行われる. 第7図(1)と(2)は、ノイズやルビ,サイドライ?
等の不要な画像データを除去する処理を説明する図で、
(1)は部分文字列、(2)はしきい値による切出し方
式を示す.図面において、n■〜n2はノイズ,rはル
ビ、Sはサイドラインを示す.例えば、第7図(1)に
示すように、切出された文字列に、ノイズnエ〜n■や
、ルビr、サイドラインS等が存在しているとき、第7
図(2)のように、或るしきい値によって切出しを行う
と,ノイズn1〜n,が除去される. その後、その射影における文字列の幅と,ルビrやサイ
ドラインSの幅との差に着目して,射影の幅によって両
者を識別し、ルビrやサイドラインSを除去する. 以上の処理によって,第2図のステップ#7が終了する
. さらに,第2図のステップ#8に対応する処理によって
、ステップ#7の処理によって変換された画像データを
、第2図のステップ#6で求めたドットシフト分(スキ
ュー量)だけ、逆にシフトして原の状態に戻す。
以上に詳細に説明したように,この発明の文字列切出し
機能を備えた情報処理装置では、特に、第2図のフロー
で、ステップ#6と#7の処理を実行しているので、ノ
イズや、ルビ、サイドライン等の不要な画像を、完全に
除去することが可能になる。
11Iり1果 この発明の文字列切出し機能を備えた情報処理装置によ
れば、文字列の切出しに際して,アンダーライン,サイ
ドライン,ルビ等の文字列以外の画像が傾いているため
に、文字列と重なってしまう場合でも、迅速かつ確実に
、文字列以外の画像を除去することができる(従来の第
1の問題点)。
同様に、従来は、ノイズとして除去できない部分が生じ
る場合でも、そのノイズを確実に除去することが可能と
なる(従来の第2の問題点)、等の多くの優れた効果が
奏せられる。
【図面の簡単な説明】
第1図は、この発明の文字列切出し機能を備えた情報処
理装置について、その要部構成の一実施例を示す機能ブ
ロック図、 第2図は、この発明の文字列切出し機能を備えた情報処
理装置において、文字列切出し時の主要な処理の流れを
示すフローチャート、 第3図(1)〜(4)は、切出し対象とする文書につい
て、文字列の方向に一定の幅をもつ帯領域に分割した状
態を示す図、 第4図は、第3図の処理によって切出された部分文字列
の全体の状態を示す図、 第5図は、第4図に示した部分文字列の全体図について
、部分文字列の連続性を検出する処理を説明する図、 第6図(1)と(2)は,直線の傾きの算出と、補正後
の部分文字列との状態を示す図、 第7図(1)と(2)は、ノイズやルビ、サイドライン
等の不要な画像データを除去する処理を説明する図。 図面において、1はCPU、2はプログラムメモリ、3
はスキャナ′、4はスキャナI/F回路、5は文字列切
出し処理部、6はワーク用メモリ、7はLCD、 8は内部バス.

Claims (1)

  1. 【特許請求の範囲】 1、スキャナ等の入力手段によつて入力された文書画像
    を文字列方向に所定の長さに分割する文字列分割手段と
    、 分割された各領域毎に文字列の射影をとつて文字列を切
    出す文字列切出し手段と、 各領域間での文字列の連続性を検出する連続性検出手段
    と、 連続した文字列の傾きを算出する傾き量算出手段と、 前記傾き量によつて入力された画像を補正して、文字列
    全体の射影をとり、文字列と文字列以外の画像とを識別
    する識別手段、 とを備えたことを特徴とする情報処理装置。 2、特許請求の範囲第1項記載の情報処理装置において
    、 連続性検出手段は、各領域内で切出された文字列と、隣
    接する領域内の文字列の座標の重複の有無によつて文字
    列の連続性を判定することを特徴とする情報処理装置。
JP2011226A 1990-01-20 1990-01-20 文字列切出し機能を備えた情報処理装置 Pending JPH03216782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011226A JPH03216782A (ja) 1990-01-20 1990-01-20 文字列切出し機能を備えた情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011226A JPH03216782A (ja) 1990-01-20 1990-01-20 文字列切出し機能を備えた情報処理装置

Publications (1)

Publication Number Publication Date
JPH03216782A true JPH03216782A (ja) 1991-09-24

Family

ID=11772043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011226A Pending JPH03216782A (ja) 1990-01-20 1990-01-20 文字列切出し機能を備えた情報処理装置

Country Status (1)

Country Link
JP (1) JPH03216782A (ja)

Similar Documents

Publication Publication Date Title
JPH0620092A (ja) 文書画像の領域識別方法
JP3943638B2 (ja) Ocrを利用しない文書画像中のドロップワードの自動認識方法
JPH08287184A (ja) 画像切り出し装置及び文字認識装置
JP3615333B2 (ja) 罫線消去装置
JP3006466B2 (ja) 文字入力装置
JPH03216782A (ja) 文字列切出し機能を備えた情報処理装置
JPH0410087A (ja) 基本ライン抽出方法
JP3348224B2 (ja) 表枠線の交点補正装置および表認識装置および光学文字読取装置
JPH10162102A (ja) 文字認識装置
WO2018210164A1 (zh) 一种网页内容处理方法及装置、存储介质
JP2786044B2 (ja) 光学的文字読み取り装置
JP3190794B2 (ja) 文字切り出し装置
JP3019897B2 (ja) 行切出し方法
JP3000480B2 (ja) 文字領域区切り検出方法
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JP4064068B2 (ja) 画像処理装置と画像処理方法及び記録媒体
JP2821303B2 (ja) 掠れ文字結合方式
JP2894087B2 (ja) 文字行切り出し装置
JP3000477B2 (ja) 領域分割方法
JPH01169686A (ja) 文字行検出装置
JP3712825B2 (ja) 画像処理方法、装置および記録媒体
JP3618926B2 (ja) 文書画像の傾き検出方法
JPS63101983A (ja) 文字列抽出方式
JP2003271897A (ja) 文字認識装置、画像処理装置、画像処理方法及び同方法の実行に用いるプログラム
JP2813601B2 (ja) 表形式文書認識装置