JP2562067B2 - 文字画像の単語切出し装置 - Google Patents

文字画像の単語切出し装置

Info

Publication number
JP2562067B2
JP2562067B2 JP2020849A JP2084990A JP2562067B2 JP 2562067 B2 JP2562067 B2 JP 2562067B2 JP 2020849 A JP2020849 A JP 2020849A JP 2084990 A JP2084990 A JP 2084990A JP 2562067 B2 JP2562067 B2 JP 2562067B2
Authority
JP
Japan
Prior art keywords
image data
image
word
character
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2020849A
Other languages
English (en)
Other versions
JPH03225488A (ja
Inventor
誠道 川中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2020849A priority Critical patent/JP2562067B2/ja
Publication of JPH03225488A publication Critical patent/JPH03225488A/ja
Application granted granted Critical
Publication of JP2562067B2 publication Critical patent/JP2562067B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は文字画像の単語切出し装置に関し、特に、
文字認識の前処理として、文字画像の単語を切出すよう
な単語切出し装置に関する。
[従来の技術] 英文の文字画像を光学式読取装置(OCR)において認
識する場合、文書を構成する各単語を切出す必要があ
る。各単語を切出すための処理の1つとして、単語間の
スペースを検出する方法が特開昭63−158678号公報で提
案されている。この提案された方法は、背景画素の行高
さ方向の横方向に対する頻度分布曲線により単語間のス
ペースを検出するものである。
[発明が解決しようとする課題] しかしながら、上述の提案された方法では、濃度投影
ヒストグラムが必要であり、また単語間のスペースを算
出するために、CPUによる処理時間が長くなってしま
う。このため、汎用パイプライン処理を用いた汎用の画
像処理装置を利用して単語を切出す場合、上述の方法の
適用が困難であるという問題点があった。
それゆえに、この発明の主たる目的は、CPUに負担を
かけることなく、高速で任意の単語を切出せるような文
字画像の単語切出し装置を提供することである。
[課題を解決するための手段] この発明は文字画像から任意の単語を切出す単語切出
し装置であって、文字画像を読取って画像データを出力
する画像データ入力手段と、入力された画像データに含
まれる各単語を構成する文字を、単語間および上下の文
字間で連結することがないように膨張処理する膨張処理
手段と、膨張処理された画像データのうち切出すべき単
語の画像データを抽出する抽出手段と、抽出された画像
データと入力された文字の画像データとの論理処理を行
なって所定の単語を切出す論理処理手段とを備えて構成
される。
[作用] この発明に係る文字画像の単語切出し装置は、入力さ
れた画像データに含まれる各単語を構成する文字を、各
単語間および上下の文字間で連結することがないように
膨張処理し、そのうちの切出すべき単語の画像データを
抽出し、抽出された画像データと元の文字の画像データ
との論理処理を行なって所定の単語が切出される。
[発明の実施例] 第3図はこの発明の一実施例の概略ブロック図であ
る。まず、第3図を参照して、この発明の一実施例の構
成について説明する。入力装置1は、たとえばOCR文字
読取装置などが用いられ、原稿上の英文の文字画像を読
取り、2値画像データとしてI/Oインタフェース3に与
える。I/Oインタフェース3にはCRTディスプレイやプリ
ンタなどからなる出力装置2とCPU4と画像プロセッサ5
とが接続される。画像プロセッサ5は後述の膨張処理や
ラベル付け処理などの画像処理を行なう。CPU4はI/Oイ
ンタフェース3を介して画像プロセッサ5を制御するも
のであり、所定の順序に従って、画像プロセッサ5によ
り膨張処理やラベル付け処理や論理積処理などを行なわ
せる。画像プロセッサ5には画像メモリ6〜9が接続さ
れる。
画像メモリ6は入力装置1から入力された画像データ
を記憶する。画像メモリ6に記憶された画像データは画
像プロセッサ5によって、画像メモリ7,8を用いて膨張
処理が行なわれ、膨張処理の最終結果が画像メモリ7に
記憶される。また、画像プロセッサ5は画像メモリ6に
記憶された画像データに基づいて、画素の輝度値の違い
によりラベル付け処理を行なって画像メモリ8に記憶す
る。さらに、画像プロセッサ5は画像メモリ6に記憶さ
れた画像データのうちの或る輝度値を有する領域と画像
メモリ8に記憶されているラベル付けされた文字画像の
ストローク成分の論理積をとり、その領域にある1つの
単語を抽出して画像メモリ9に記憶させる。
第1図はこの発明の一実施例の動作を説明するための
フロー図であり、第2図は第1図に示した膨張処理のよ
り具体的なフロー図であり、第4図は単語の切出しが行
なわれる原文を示す図であり、第5図は第4図に示した
原文を膨張処理した画像パターンを示す図である。
次に、第1図ないし第5図を参照して、この発明の一
実施例の具体的な動作について説明する。入力装置1か
ら画像データが入力されると、その画像データはI/Oイ
ンタフェース3および画像プロセッサ5を介して画像メ
モリ6に記憶される。画像プロセッサ5は画像メモリ6
に記憶された画像データの膨張処理を行なう。すなわ
ち、第4図に示した英文の文字画像のうち、第5図に示
すように、単語同士が連結する以前に上の行と下の行と
が連結することがないように、ストローク成分画素が左
右方向に膨張処理される。
より具体的には、第2図に示すように、処理すべき膨
張回数Nが予め設定される。この回数Nは処理すべき文
字に応じて可変される。初期状態では、処理回数iが0
に設定され、ストローク成分画素の左右方向への膨張処
理が行なわれ、処理すべき回数Nが処理回数iよりも大
きいか否かが判別される。処理すべき回数Nが処理回数
iよりも大きければ、処理回数iがインクリメントさ
れ、再度膨張処理が行なわれる。この動作が繰返され、
処理回数iが処理すべき回数Nに一致すると、膨張され
た画像データが画像メモリ7に記憶される。
次に、画像プロセッサ5は画像メモリ7に記憶されて
いる膨張処理された画像データの輝度値の違いに基づい
てラベル付けする。そして、画像プロセッサ5は各ラベ
ル付けされた膨張成分と原文のストローク成分の論理積
処理を行なって所定の単語を切出す。
なお、ストローク成分画素の左右方向への膨張処理の
繰返しだけでは、第5図に示すように、“i"や“j"の
“・”の連結領域が孤立してしまう。そこで、以下のよ
り好ましい実施例では、次に述べるような処理が行なわ
れる。
第6図はこの発明の他の実施例の動作を説明するため
のフロー図であり、第7図は面積の小さい連結成分を摘
出した図であり、第8図は第7図に示した面積の小さい
連結成分を下方向へ膨張した状態を示す図であり、第9
図は第5図に示す膨張処理した画像パターンと第8図に
示したパターンの論理和を示す図であり、第10図はラベ
ル付けされた或る1つの連結成分を抽出した図であり、
第11図は第4図に示した原文と第10図に示した連結成分
の論理積を示す図である。
第6図において、第2図の説明と同様にして、ストロ
ーク成分画素の左右方向の膨張処理がM回行なわれ、そ
の後ラベル付けが行なわれ、各ラベルの面積が計算され
る。これは。左右方向へ膨張処理をした“i"や“j"の
“・”の連結領域を抽出するためであり、第7図に示す
ように、面積が或るしきい値より小さい連結領域が抽出
される。その領域の画像は、第8図に示すように、下方
向への膨張処理がL回行なわれる。その後、第5図に示
した画像パターンと第8図に示した画像パターンとの論
理積がとられ、第9図に示すように、“i",“j"の
“・”の部分が孤立することなく連結された画像データ
が抽出される。そして、第1図の説明と同様にして、た
とえば第10図に示すように、ラベル付けされかつ膨張処
理が施された画像データと、元の原文との論理積がとら
れ、第11図に示すような単語が切出される。
[発明の効果] 以上のように、この発明によれば、入力された画像デ
ータに含まれる各単語を構成する文字を、単語間および
上下の文字間で連結することがないように膨張処理し、
膨張処理された画像データのうち切出すべき単語の画像
データを抽出し、抽出された画像データと元の文字の画
像データとの論理処理を行なって所定の単語を切出すこ
とができる。したがって、CPUに負担をかけることな
く、高速で任意の単語を切出すことが可能となる。
【図面の簡単な説明】
第1図はこの発明の一実施例の動作を説明するためのフ
ロー図である。第2図は第1図に示した膨張処理のより
具体的なフロー図である。第3図はこの発明の一実施例
の概略ブロック図である。第4図は単語の切出しが行な
われる原文を示す図である。第5図は第4図に示した原
文を膨張処理した図である。第6図はこの発明の他の実
施例のフロー図である。第7図は面積の小さい連結成分
を摘出した例を示す図である。第8図は第7図に示した
面積の小さい連結成分を下方向へ膨張した状態を示す図
である。第9図は第5図に示す膨張処理した画像パター
ンと第8図に示した画像パターンの論理和を示す図であ
る。第10図はラベル付けされた或る1つの連結成分を表
わした図である。第11図は第4図に示した原文と第10図
に示した連結成分の論理積を示す図である。 図において、1は入力装置、2は出力装置、3はI/Oイ
ンタフェース、4はCPU、5は画像プロセッサ、6ない
し9は画像メモリを示す。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】文字画像から任意の単語を切出す単語切出
    し装置であって、 前記文字画像を読取って画像データを出力する画像デー
    タ入力手段、 前記画像データ入力手段から入力された画像データに含
    まれる各単語を構成する文字を、単語間および上下の文
    字間で連結することがないように膨張処理する膨張処理
    手段、 前記膨張処理手段によって膨張処理された画像データの
    うち、切出すべき単語の画像データを抽出する抽出手
    段、および 前記抽出手段によって抽出された画像データと前記画像
    データ入力手段から入力された文字の画像データとの論
    理処理を行なって、所定の単語を切出す論理処理手段を
    備えた、文字画像の単語切出し装置。
JP2020849A 1990-01-30 1990-01-30 文字画像の単語切出し装置 Expired - Fee Related JP2562067B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020849A JP2562067B2 (ja) 1990-01-30 1990-01-30 文字画像の単語切出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020849A JP2562067B2 (ja) 1990-01-30 1990-01-30 文字画像の単語切出し装置

Publications (2)

Publication Number Publication Date
JPH03225488A JPH03225488A (ja) 1991-10-04
JP2562067B2 true JP2562067B2 (ja) 1996-12-11

Family

ID=12038540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020849A Expired - Fee Related JP2562067B2 (ja) 1990-01-30 1990-01-30 文字画像の単語切出し装置

Country Status (1)

Country Link
JP (1) JP2562067B2 (ja)

Also Published As

Publication number Publication date
JPH03225488A (ja) 1991-10-04

Similar Documents

Publication Publication Date Title
JP2930460B2 (ja) 手書き及びマシン印字テキストの区分化方法
US5202933A (en) Segmentation of text and graphics
JPH0713995A (ja) 自動テキスト特徴決定装置
US4850026A (en) Chinese multifont recognition system based on accumulable stroke features
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
JPH05225378A (ja) 文書画像の領域分割システム
US5455871A (en) Detecting function words without converting a scanned document to character codes
JP3062382B2 (ja) 画像処理装置及び方法
Agrawal et al. Text extraction from images
JP2562067B2 (ja) 文字画像の単語切出し装置
CN112580738B (zh) 基于改进的AttentionOCR文本识别方法及装置
CN115129914A (zh) 图文数据处理方法、装置、电子设备及计算机存储介质
KR940020246A (ko) 문서인식장치의 영역분할 방법
JP2020154449A (ja) 画像処理装置及びプログラム
JP3140079B2 (ja) 罫線認識方法及び表処理方法
JP4209511B2 (ja) 文字認識方法、文字認識装置および文字認識方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2612383B2 (ja) 文字認識処理方式
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2581409B2 (ja) 文字切出装置
JPH05182024A (ja) 文字認識装置
Kataria et al. Review on text detection and recognition in images
JPS6327990A (ja) 文字認識方法
JPS62257583A (ja) 文字認識方式
JP2000187704A (ja) 文字認識装置及びその方法及び記憶媒体
JPH10334190A (ja) 文字認識方法、装置および記録媒体

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees