JP2002298083A - 文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム - Google Patents

文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム

Info

Publication number
JP2002298083A
JP2002298083A JP2001101280A JP2001101280A JP2002298083A JP 2002298083 A JP2002298083 A JP 2002298083A JP 2001101280 A JP2001101280 A JP 2001101280A JP 2001101280 A JP2001101280 A JP 2001101280A JP 2002298083 A JP2002298083 A JP 2002298083A
Authority
JP
Japan
Prior art keywords
character
color
data
extracting
rgb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001101280A
Other languages
English (en)
Inventor
Toshifumi Yamaai
敏文 山合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2001101280A priority Critical patent/JP2002298083A/ja
Publication of JP2002298083A publication Critical patent/JP2002298083A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 カラー画像データに含まれる文字間の微妙な
文字色の差を吸収し、各文字についての文字色を各種の
データ処理で利用し得るように分類する。 【解決機能】 文字領域を有するカラー画像データから
文字領域を抽出し(202)、文字領域に含まれる文字
画像データの文字色をRGBデータとして識別する(2
03)。識別された文字色のRGBデータが、色を特定
するデータとしてカラーパレット208に記憶されてい
る少なくとも2つ以上のカラーデータのうち、いずれの
カラーデータに該当するかを判別する(204)。これ
により、文字画像データの色を、生のRGBデータとし
てではなく、色を特定するカラーデータとして認識する
ことができ、この際、現実に同一色であるか同一色とみ
なすべきであるのに、生のRGBデータのまま扱った場
合には微妙な読み取り誤差等によって異なる色であると
判定されてしまうような不都合を回避することができ
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文字領域を有する
カラー画像データに含まれる文字色を抽出する文字色抽
出装置、文字色抽出方法、文字色抽出用のコンピュータ
プログラムを格納する記憶媒体及び文字色抽出用のコン
ピュータプログラムに関する。
【0002】
【従来の技術】カラー画像データに含まれる文字色の抽
出に関しては、従来から各種の技術が提案され実用化さ
れている。
【0003】例えば、特開昭55−80185号公報に
は、カラー画像データから文字の色を判別する技術が開
示されている。この技術は、カラー画像データから抽出
したカラーデータと2値データとを使用して、2値デー
タの黒に該当する部分のカラーデータについて処理を施
す、というものである。
【0004】また、カラー複写機の分野では、カラー画
像データとして求めた画素自体の色を再現するようなこ
とが行なわれている。
【0005】これらの文字色抽出に関する従来の技術で
は、文字色をRGBデータ(レッド、グリーン、ブルー
のデータ)として抽出し、RGBデータとして扱ってい
ている。
【0006】
【発明が解決しようとする課題】カラー画像データに含
まれる文字色を抽出する従来の技術では、文字色をRG
Bデータとして扱う。このため、次に示すような各種の
不都合が生じている。
【0007】まず、文字色についてのデータ量が多くな
り、文字色抽出処理後に行なわれる各種の処理について
の処理速度が低下するという問題がある。
【0008】また、あるカラー画像を読み取りカラー画
像データとして生成する過程で、あるいは、元々のカラ
ー画像自体に、本来的には同一色であるべき文字間に、
色相、明度、彩度の微妙な相違が生じてしまうことがあ
る。このような場合、本来は同一色として扱うべき複数
の文字や文字列が異なる色の文字や文字列であると判定
されてしまうという問題がある。特に問題なのは、1文
字中の各部分間において色が相違すると判定されてしま
う場合である。
【0009】さらに、背景色についても、一般的に多く
用いられるのは白色であるが、実際のカラー画像の背景
が僅かに変色していたり、そのカラー画像をカラー画像
データとして生成する過程で白以外の色に認識されてし
まったりすることがある、という問題がある。
【0010】本発明の目的は、カラー画像データに含ま
れる文字間の微妙な文字色の差を吸収し、各文字につい
ての文字色を各種のデータ処理で利用し得るように分類
することである。
【0011】
【課題を解決するための手段】請求項1記載の文字色抽
出装置の発明は、文字領域を有するカラー画像データか
ら前記文字領域を抽出する文字領域抽出手段と、前記文
字領域に含まれる文字画像データの文字色をRGBデー
タとして識別する文字色識別手段と、識別された文字色
のRGBデータが、色を特定するデータとして記憶部に
記憶されている少なくとも2つ以上のカラーデータのう
ち、いずれのカラーデータに該当するかを判別する文字
色分類手段と、文字色のRGBデータが該当するカラー
データが特定する色をその文字画像データの色であると
認識する文字色認識手段と、を具備する。
【0012】したがって、文字画像データの色が、生の
RGBデータとしてではなく、色を特定するカラーデー
タとして認識される。
【0013】請求項2記載の発明は、請求項1記載の文
字色抽出装置において、前記文字色識別手段は、前記文
字領域に含まれる背景の背景色をRGBデータとして識
別し、前記文字色分類手段は、識別された背景色のRG
Bデータが、前記記憶部に記憶されているいずれの前記
カラーデータに該当するかを判別し、前記文字色認識手
段は、背景色のRGBデータが該当するカラーデータが
特定する色をその背景の色であると認識するようにし
た。
【0014】したがって、文字領域に含まれる背景の背
景色が、生のRGBデータとしてではなく、色を特定す
るカラーデータとして認識される。
【0015】請求項3記載の発明は、請求項1記載の文
字色抽出装置において、前記文字領域に含まれる背景の
背景色は、白色を特定するカラーデータとして扱うよう
にした。
【0016】したがって、文字領域に含まれる背景の背
景色が、生のRGBデータとしてではなく、白色を特定
するカラーデータとして扱われる。
【0017】請求項4記載の文字色抽出装置の発明は、
文字領域を有するカラー画像データから前記文字領域を
抽出する文字領域抽出手段と、前記文字領域に含まれる
文字画像データに対して文字認識を実行する文字認識手
段と、文字認識された文字の文字色をRGBデータとし
て識別する文字色識別手段と、RGBデータとして識別
された文字色について、同一とみなされる文字色を有す
る文字毎に文字を分類する文字色修正手段と、を具備す
る。
【0018】したがって、文字認識された文字は、同一
とみなされる文字色を有する文字毎に分類され、文字色
という属性に基づく文字の分類が可能となる。
【0019】本発明は、同一とみなされる文字色を判定
するために、請求項5、6及び8記載の発明を提供す
る。つまり、請求項5記載の発明は、請求項4記載の文
字色抽出装置において、前記文字色修正手段は、識別さ
れたRGBデータについて、少なくともRGBのうちの
1色に関するデータ値の差分に基づいて同一とみなされ
る文字色かどうかを判定する。また、請求項6記載の発
明は、請求項4記載の文字色抽出装置において、前記文
字色修正手段は、識別されたRGBデータについて、少
なくともRGBのうちの1色に関するデータ値の比率に
基づいて同一とみなされる文字色かどうかを判定する。
そして、請求項7記載の発明は、請求項4記載の文字色
抽出装置において、前記文字色識別手段は、前記文字領
域に含まれる背景の背景色をRGBデータとして識別
し、請求項8記載の発明は、請求項7記載の文字色抽出
装置において、前記文字色修正手段は、識別されたRG
Bデータについて、少なくともRGBのうちの1色に関
する文字色のデータ値と背景色のデータ値とを結ぶベク
トルの向きに基づいて同一とみなされる文字色かどうか
を判定する。
【0020】請求項9記載の発明は、請求項4ないし8
のいずれか一記載の文字色抽出装置において、前記文字
色修正手段は、分類した文字についての文字色の色数に
関するデータを認識する。
【0021】これにより、分類した文字についての文字
色の色数に関するデータを各種の処理のために利用する
ことが可能となる。
【0022】請求項10記載の発明は、請求項4ないし
8のいずれか一記載の文字色抽出装置において、前記文
字色修正手段は、分類した文字についての文字色の色を
特定するデータを認識する。
【0023】これにより、分類した文字についての文字
色の色を特定するデータを各種の処理のために利用する
ことが可能となる。
【0024】請求項11記載の発明は、請求項4ないし
10のいずれか一記載の文字色抽出装置において、前記
文字色修正手段によって分類された文字について、その
文字色が前記文字領域中で大多数を占める文字色と少数
の文字色とに分類される場合、少数の文字色を有する文
字列を特殊文字として抽出する特殊文字抽出手段を具備
する。
【0025】したがって、文字色という属性に基づく文
字の分類に基づいて、各種の処理が可能となる。各種の
処理として、本発明は、請求項12、13及び14記載
の発明を例示する。つまり、請求項12記載の発明は、
請求項11記載の文字色抽出装置において、前記特殊文
字は、キーワードである。また、請求項13記載の発明
は、請求項11記載の文字色抽出装置において、前記特
殊文字は、タイトルである。そして、請求項14記載の
発明は、請求項11記載の文字色抽出装置において、前
記特殊文字は、重要文である。
【0026】請求項15記載の文字色抽出方法の発明
は、文字領域を有するカラー画像データから前記文字領
域を抽出する文字領域抽出ステップと、前記文字領域に
含まれる文字画像データの文字色をRGBデータとして
識別する文字色識別ステップと、識別された文字色のR
GBデータが、色を特定するデータとして記憶部に記憶
されている少なくとも2つ以上のカラーデータのうち、
いずれのカラーデータに該当するかを判別する文字色分
類ステップと、文字色のRGBデータが該当するカラー
データが特定する色をその文字画像データの色であると
認識する文字色認識ステップと、を具備する。
【0027】したがって、文字画像データの色が、生の
RGBデータとしてではなく、色を特定するカラーデー
タとして認識される。
【0028】請求項16記載の発明は、請求項15記載
の文字色抽出方法において、前記文字色識別ステップ
は、前記文字領域に含まれる背景の背景色をRGBデー
タとして識別し、前記文字色分類ステップは、識別され
た背景色のRGBデータが、前記記憶部に記憶されてい
るいずれの前記カラーデータに該当するかを判別し、前
記文字色認識ステップは、背景色のRGBデータが該当
するカラーデータが特定する色をその背景の色であると
認識するようにした。
【0029】したがって、文字領域に含まれる背景の背
景色が、生のRGBデータとしてではなく、色を特定す
るカラーデータとして認識される。
【0030】請求項17記載の発明は、請求項15記載
の文字色抽出方法において、前記文字領域に含まれる背
景の背景色は、白色を特定するカラーデータとして扱う
ようにした。
【0031】したがって、文字領域に含まれる背景の背
景色が、生のRGBデータとしてではなく、白色を特定
するカラーデータとして扱われる。
【0032】請求項18記載の文字色抽出方法の発明
は、文字領域を有するカラー画像データから前記文字領
域を抽出する文字領域抽出ステップと、前記文字領域に
含まれる文字画像データに対して文字認識を実行する文
字認識ステップと、文字認識された文字の文字色をRG
Bデータとして識別する文字色識別ステップと、RGB
データとして識別された文字色について、同一とみなさ
れる文字色を有する文字毎に文字を分類する文字色修正
ステップと、を具備する。
【0033】したがって、文字認識された文字は、同一
とみなされる文字色を有する文字毎に分類され、文字色
という属性に基づく文字の分類が可能となる。
【0034】本発明は、同一とみなされる文字色を判定
するために、請求項19、20及び22記載の発明を提
供する。つまり、請求項19記載の発明は、請求項18
記載の文字色抽出方法において、前記文字色修正ステッ
プは、識別されたRGBデータについて、少なくともR
GBのうちの1色に関するデータ値の差分に基づいて同
一とみなされる文字色かどうかを判定する。また、請求
項20記載の発明は、請求項18記載の文字色抽出方法
において、前記文字色修正ステップは、識別されたRG
Bデータについて、少なくともRGBのうちの1色に関
するデータ値の比率に基づいて同一とみなされる文字色
かどうかを判定する。そして、請求項21記載の発明
は、請求項18記載の文字色抽出方法において、前記文
字色識別ステップは、前記文字領域に含まれる背景の背
景色をRGBデータとして識別し、請求項22記載の発
明は、請求項21記載の文字色抽出方法において、前記
文字色修正ステップは、識別されたRGBデータについ
て、少なくともRGBのうちの1色に関する文字色のデ
ータ値と背景色のデータ値とを結ぶベクトルの向きに基
づいて同一とみなされる文字色かどうかを判定する。
【0035】請求項23記載の発明は、請求項18ない
し22のいずれか一記載の文字色抽出方法において、前
記文字色修正ステップは、分類した文字についての文字
色の色数に関するデータを認識する。
【0036】これにより、分類した文字についての文字
色の色数に関するデータを各種の処理のために利用する
ことが可能となる。
【0037】請求項24記載の発明は、請求項18ない
し22のいずれか一記載の文字色抽出方法において、前
記文字色修正ステップは、分類した文字についての文字
色の色を特定するデータを認識する。
【0038】これにより、分類した文字についての文字
色の色を特定するデータを各種の処理のために利用する
ことが可能となる。
【0039】請求項25記載の発明は、請求項18ない
し22のいずれか一記載の文字色抽出方法において、前
記文字色修正ステップによって分類された文字につい
て、その文字色が前記文字領域中で大多数を占める文字
色と少数の文字色とに分類される場合、少数の文字色を
有する文字列を特殊文字として抽出する特殊文字抽出ス
テップを具備する。
【0040】したがって、文字色という属性に基づく文
字の分類に基づいて、各種の処理が可能となる。各種の
処理として、本発明は、請求項12、13及び14記載
の発明を例示する。つまり、請求項26記載の発明は、
請求項25記載の文字色抽出方法において、前記特殊文
字は、キーワードである。また、請求項27記載の発明
は、請求項25記載の文字色抽出方法において、前記特
殊文字は、タイトルである。そして、請求項28記載の
発明は、請求項25記載の文字色抽出方法において、前
記特殊文字は、重要文である。
【0041】請求項29記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タの文字色をRGBデータとして識別する文字色識別機
能と、識別された文字色のRGBデータが、色を特定す
るデータとして記憶部に記憶されている少なくとも2つ
以上のカラーデータのうち、いずれのカラーデータに該
当するかを判別する文字色分類機能と、文字色のRGB
データが該当するカラーデータが特定する色をその文字
画像データの色であると認識する文字色認識機能と、を
実行させるコンピュータプログラムを記憶する記憶媒体
である。
【0042】したがって、文字画像データの色が、生の
RGBデータとしてではなく、色を特定するカラーデー
タとして認識される。
【0043】請求項30記載の発明は、請求項29記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字色識別機能は、前記文字領域に含まれる背
景の背景色をRGBデータとして識別し、前記文字色分
類機能は、識別された背景色のRGBデータが、前記記
憶部に記憶されているいずれの前記カラーデータに該当
するかを判別し、前記文字色認識機能は、背景色のRG
Bデータが該当するカラーデータが特定する色をその背
景の色であると認識するようにした。
【0044】したがって、文字領域に含まれる背景の背
景色が、生のRGBデータとしてではなく、色を特定す
るカラーデータとして認識される。
【0045】請求項31記載の発明は、請求項29記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字領域に含まれる背景の背景色は、白色を特
定するカラーデータとして扱うようにした。
【0046】したがって、文字領域に含まれる背景の背
景色が、生のRGBデータとしてではなく、白色を特定
するカラーデータとして扱われる。
【0047】請求項32記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タに対して文字認識を実行する文字認識機能と、文字認
識された文字の文字色をRGBデータとして識別する文
字色識別機能と、RGBデータとして識別された文字色
について、同一とみなされる文字色を有する文字毎に文
字を分類する文字色修正機能と、を実行させるコンピュ
ータプログラムを記憶する記憶媒体である。
【0048】したがって、文字認識された文字は、同一
とみなされる文字色を有する文字毎に分類され、文字色
という属性に基づく文字の分類が可能となる。
【0049】本発明は、同一とみなされる文字色を判定
するために、請求項33、34及び36記載の発明を提
供する。つまり、請求項33記載の発明は、請求項32
記載のコンピュータプログラムを記憶する記憶媒体にお
いて、前記文字色修正機能は、識別されたRGBデータ
について、少なくともRGBのうちの1色に関するデー
タ値の差分に基づいて同一とみなされる文字色かどうか
を判定する。また、請求項34記載の発明は、請求項3
2記載のコンピュータプログラムを記憶する記憶媒体に
おいて、前記文字色修正機能は、識別されたRGBデー
タについて、少なくともRGBのうちの1色に関するデ
ータ値の比率に基づいて同一とみなされる文字色かどう
かを判定する。そして、請求項35記載の発明は、請求
項32記載のコンピュータプログラムを記憶する記憶媒
体において、前記文字色識別機能は、前記文字領域に含
まれる背景の背景色をRGBデータとして識別し、請求
項36記載の発明は、請求項35記載のコンピュータプ
ログラムを記憶する記憶媒体において、前記文字色修正
機能は、識別されたRGBデータについて、少なくとも
RGBのうちの1色に関する文字色のデータ値と背景色
のデータ値とを結ぶベクトルの向きに基づいて同一とみ
なされる文字色かどうかを判定する。
【0050】請求項37記載の発明は、請求項32ない
し36のいずれか一記載のコンピュータプログラムを記
憶する記憶媒体において、前記文字色修正機能は、分類
した文字についての文字色の色数に関するデータを認識
する。
【0051】これにより、分類した文字についての文字
色の色数に関するデータを各種の処理のために利用する
ことが可能となる。
【0052】請求項38記載の発明は、請求項32ない
し36のいずれか一記載のコンピュータプログラムを記
憶する記憶媒体において、前記文字色修正機能は、分類
した文字についての文字色の色を特定するデータを認識
する。
【0053】これにより、分類した文字についての文字
色の色を特定するデータを各種の処理のために利用する
ことが可能となる。
【0054】請求項39記載の発明は、請求項32ない
し38のいずれか一記載のコンピュータプログラムを記
憶する記憶媒体において、コンピュータに、前記文字色
修正機能によって分類された文字について、その文字色
が前記文字領域中で大多数を占める文字色と少数の文字
色とに分類される場合、少数の文字色を有する文字列を
特殊文字として抽出する特殊文字抽出機能を実行させ
る。
【0055】したがって、文字色という属性に基づく文
字の分類に基づいて、各種の処理が可能となる。各種の
処理として、本発明は、請求項12、13及び14記載
の発明を例示する。つまり、請求項40記載の発明は、
請求項39記載のコンピュータプログラムを記憶する記
憶媒体において、前記特殊文字は、キーワードである。
また、請求項41記載の発明は、請求項39記載のコン
ピュータプログラムを記憶する記憶媒体において、前記
特殊文字は、タイトルである。そして、請求項42記載
の発明は、請求項39記載のコンピュータプログラムを
記憶する記憶媒体において、前記特殊文字は、重要文で
ある。
【0056】請求項43記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タの文字色をRGBデータとして識別する文字色識別機
能と、識別された文字色のRGBデータが、色を特定す
るデータとして記憶部に記憶されている少なくとも2つ
以上のカラーデータのうち、いずれのカラーデータに該
当するかを判別する文字色分類機能と、文字色のRGB
データが該当するカラーデータが特定する色をその文字
画像データの色であると認識する文字色認識機能と、を
実行させるコンピュータプログラムである。
【0057】したがって、文字画像データの色が、生の
RGBデータとしてではなく、色を特定するカラーデー
タとして認識される。
【0058】請求項44記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タに対して文字認識を実行する文字認識機能と、文字認
識された文字の文字色をRGBデータとして識別する文
字色識別機能と、RGBデータとして識別された文字色
について、同一とみなされる文字色を有する文字毎に文
字を分類する文字色修正機能と、を実行させるコンピュ
ータプログラムである。
【0059】したがって、文字認識された文字は、同一
とみなされる文字色を有する文字毎に分類され、文字色
という属性に基づく文字の分類が可能となる。
【0060】
【発明の実施の形態】本発明の実施の形態を説明する。
以下では、2つの実施の形態を紹介するが、その前提と
して、いずれの実施の形態でも適用可能な装置について
図1を参照しながら説明する。
【0061】図1は、本実施の形態の文字色抽出装置を
構成するコンピュータのブロック図である。本実施の形
態では、装置としては一般的なパーソナルコンピュータ
101(以下、コンピュータという)が用いられ、この
ようなコンピュータ101に文字色抽出用のコンピュー
タプログラムがインストールされて文字色抽出装置とし
て構成され、このような文字色抽出装置によって文字色
抽出方法を実施する。
【0062】つまり、コンピュータ101は、オペレー
ティングシステム(OS)上で実行されるコンピュータ
プログラムに記述されたデータコードに従い各種演算処
理を実行して各種データ処理を遂行するCPU102を
備え、このCPU102にシステムバス103を介して
固定データを格納するROM104とRAM105とが
接続された基本構成を有している。
【0063】そして、システムバス103には、記憶部
としてのハードディスクドライブ106(以下、HDD
という)、画像メモリ107、ディスプレイ、キーボー
ド、マウス及びカラースキャナ等の入出力デバイスを構
成する入出力部108、CD−ROMドライブ109及
びインターフェース110(以下、I/Fという)も接
続されている。
【0064】このようなコンピュータ101は、HDD
106にインストールされたOSの一部が起動時にRA
M105にコピーされ、HDD106にインストールさ
れた文字色抽出用のコンピュータプログラムが立ち上げ
られると、このコンピュータプログラムに従いCPU1
02がRAM105のワークエリア及び画像メモリ10
7を使用しつつ文字色抽出処理を実行する。この意味
で、HDD106は文字色抽出用のコンピュータプログ
ラムを記憶する記憶媒体として機能する。
【0065】そして、そのような文字色抽出用のコンピ
ュータプログラムは、例えばCD−ROMドライブ10
9によって読み取られるCD−ROM111に記憶され
たパッケージソフトウェアとして設けられており、この
ようなCD−ROM111からHDD106にインスト
ールされる。この場合には、CD−ROM111が文字
色抽出用のコンピュータプログラムを記憶する記憶媒体
として機能する。もっとも、I/F110がネットワー
クカード等を含むLAN用の通信インターフェースであ
るか、あるいは、例えばインターネットや専用線等の外
部回線を介して外部との通信を可能にする通信インター
フェースである場合には、ネットワーク上に存在するサ
ーバ等の他のコンピュータ等から文字色抽出用のコンピ
ュータプログラムをHDD106にダウンロードしても
良い。
【0066】本実施の形態の文字色抽出装置は、以上の
ような基本的なアーキテクチャによって構築される。以
下では、2つの実施の態様についてそれぞれ説明する。
【0067】本発明の第1の実施の形態を図2に基づい
て説明する。図2は、文字色抽出技術を説明するための
機能ブロック図である。
【0068】本実施の形態の文字色抽出装置は、その機
能ブロックとして、入出力部108に含まれているカラ
ースキャナから取り込まれた文字領域を有するカラー画
像データを画像メモリ107に格納するカラー画像入力
手段201と、こうして画像メモリ107に格納された
カラー画像データから文字領域を抽出する文字領域抽出
手段202と、文字領域中の文字色及び背景色を抽出
し、これらの色をRGBデータとして識別する文字色識
別手段203と、識別された文字色のRGBデータをカ
ラーデータとして判別する文字色分類手段204と、文
字色のRGBデータが該当するカラーデータが特定する
色をその文字画像データの色であると認識する文字色認
識手段205と、を備えている。
【0069】これらの各手段は、文字色抽出用のコンピ
ュータプログラムに従いCPU102によって実行され
る処理(ステップ)を機能として表現したものである。
したがって、文字領域抽出手段202によって文字領域
抽出ステップ及び文字領域抽出機能が実行され、文字色
識別手段203によって文字色識別ステップ及び文字色
識別機能が実行され、文字色分類手段204によって文
字色分類ステップ及び文字色分類機能が実行され、文字
色認識手段205によって文字色認識ステップ及び文字
色認識機能が実行される。
【0070】文字領域抽出手段202は、カラー画像デ
ータから文字領域を抽出する機能を実行する。カラー画
像データからの文字領域の抽出には、各種の公知技術を
使用することが可能である。例えば、画像データから黒
連結成分の外接矩形を抽出し、矩形の大きさと予め定め
た閾値とを比較することによって、文字の矩形と線図形
の矩形とを判別したり(特開昭55−162177号公
報参照)、画像データより抽出した黒連結成分中の矩形
の高さのヒストグラムを求め、このヒストグラムに基づ
いて標準文字サイズを決定し、この標準文字サイズと矩
形の大きさとの大小比較によって文字の矩形とその他の
矩形とを判別し、文字領域を統合することによって文字
領域を抽出したり、あるいは、画像データより黒連結成
分に外接する矩形を抽出し、抽出された矩形の情報に基
づき決定される圧縮率でその画像データを圧縮する前処
理を行ない、この前処理によって得られた圧縮画像デー
タに対して、黒連結成分に外接した矩形の結合による文
字領域とそれ以外の領域との分割処理を行ったり(特開
平6−187490号公報参照)する技術を使用するこ
とで、カラー画像データから文字領域を抽出することが
可能である。
【0071】文字色識別手段203は、文字領域抽出手
段202によって抽出された文字領域中の文字色及び背
景色を抽出し、これらの色をRGBデータとして識別す
る。文字色を抽出するには、各種の公知技術を使用する
ことが可能である。例えば、特開昭55−80185号
公報に記載されているように、カラー画像データの各点
の座標をRGBという3原色の光量として把握し、これ
を3次元ベクトルとして認識する手法を用いることがで
きる。また、特開昭55−80185号公報には、文字
領域の背景色を求める手法も開示されている。つまり、
カラー画像データと2値画像データとを使用して黒画素
に対応している色の平均を求め、これによって特定領域
の文字色における白画素に対応している色の平均を求め
ることで、その特定領域の背景色を求める、というもの
である。
【0072】文字色分類手段204は、識別された文字
色のRGBデータをカラーデータとして判別する。本実
施の形態では、一例として、識別された文字色及び背景
色のRGBデータを、例えば文字色抽出用のプログラム
に付随してHDD106に格納されるカラーパレット2
08上のどの色に当てはめられるかを判定することで、
識別された文字色のRGBデータをカラーデータとして
判別する。ここで、カラーパレット208、RGBデー
タと色を特定するデータとを対応付けて記憶するデータ
構造を有している。このようなカラーパレット208
は、例えば、通常の社内文書であれば、青、赤、黄色、
緑、黒、白の6色程度で足りることから、6色程度の色
を特定するデータに、その色とみなすことができるRG
Bデータの範囲を規定している。そこで、識別された文
字色及び背景色のRGBデータを、カラーパレット20
8上のどの色に当てはめられるかの判定には、通常の閾
値処理を使用することができる。
【0073】文字色認識手段205は、文字色のRGB
データに該当するカラーパレット208上のカラーデー
タが特定する色を、その文字画像データの色であると認
識する。この処理は、文字領域中の文字の色データとし
て、この色データを生のRGBデータとして各画素のデ
ータ単位で持つのではなく、文字領域中のこの部分はカ
ラーパレット208の例えば1番の色などというデータ
の持ち方をすることを意味している。つまり、本実施の
形態では、文字領域中の文字や文字列について文字認識
を実行するわけではなく、文字領域中の文字や文字列を
画像データとして認識していながら、それらの文字や文
字列の色データをカラーパレット208中の各色毎に認
識するわけである。これにより、色データについてのデ
ータ圧縮がなされ、データ量を減少させることが可能と
なる。このため、文字画像データを扱う場合の色に関す
るデータのデータ量を減少させ、データ処理の高速度化
を図ることができる。このようなデータ量の減少という
ことについては、背景色についても文字色と全く同様で
ある。
【0074】このような本実施の形態での文字色認識に
ついて詳しく説明する。一般的に、文書中において、文
字が色分けされているとすると、1文字中の一部と他の
一部とが異なる色であるということはまれで、キーワー
ド、タイトル、重要文等が他の文字と異なる色で表現さ
れていることが多い。そこで、文字色認識手段205に
よる文字色の認識結果としては、一例として、大多数の
文字に対して異なる色を持つ文字や文字列と大多数の文
字とが色分けされることになる。つまり、本実施の形態
では、キーワード、タイトル、重要文等が他の文字と異
なる色で表現されていることが多いということに着目
し、カラーパレット208が保有する色の種類の範囲内
で、カラー画像データが含む文字領域中の文字を色分類
する、ということを実行している。
【0075】これにより、文字画像データの色に関し
て、現実に同一色であるか同一色とみなすべきであるの
に、生のRGBデータのまま扱った場合には微妙な読み
取り誤差等によって異なる色であると判定されてしまう
ような不都合を回避することができ、したがって、文字
画像データの色に対して、文字色という属性を持たせて
各種の処理、例えば、キーワード抽出、タイトル抽出、
重要文抽出等の処理への利用に供することができる。
【0076】また、本実施の形態では、文字領域に含ま
れる背景の背景色についても、生のRGBデータとして
ではなく、色を特定するカラーデータとして認識するこ
とができる。ここで、文字画像データが記録される用紙
等は、一般的には白色であることが多いため、文字画像
データが変色等してしまったような用紙に記録されてい
る場合であっても、背景色のRGBデータが該当するカ
ラーデータが特定する色として白色が選択される可能性
が高い。よって、本実施の形態によれば、背景色を白色
として扱い、より理想的な色再現性を得ることができ
る。
【0077】なお、本実施の形態では、文字色識別手段
203は、文字領域に含まれる背景の背景色をRGBデ
ータとして識別し、文字色分類手段204は、識別され
た背景色のRGBデータが該当するカラーデータを判別
し、文字色認識手段205は、背景色のRGBデータが
該当するカラーデータが特定する色をその背景の色であ
ると認識している。これに対して、文字領域抽出手段2
02が文字領域を抽出する過程で、背景領域を抽出する
ことも可能である。そこで、別の実施の形態として、文
字領域抽出手段202が文字領域を抽出する過程で抽出
された背景領域の背景色をカラーパレット208上の白
色を特定するカラーデータとして扱うようにしても良
い。これにより、文字領域に含まれる背景の背景色を、
生のRGBデータとしてではなく、白色を特定するカラ
ーデータとして認識することができ、したがって、文字
領域に含まれる背景色を扱う場合の色に関するデータの
データ量を減少させ、データ処理の高速度化を図ること
ができる。また、文字画像データが記録される用紙等
は、一般的には白色であることが多いため、文字画像デ
ータが変色等してしまったような用紙に記録されている
場合であっても、本実施の形態によれば、背景色のRG
Bデータが該当するカラーデータが特定する色として白
色が選択され、したがって、より理想的な色再現性を得
ることができる。
【0078】本発明の第2の実施の形態を図3に基づい
て説明する。図3は、文字色抽出技術を説明するための
機能ブロック図である。
【0079】本実施の形態の文字色抽出装置は、その機
能ブロックとして、入出力部108に含まれているカラ
ースキャナから取り込まれた文字領域を有するカラー画
像データを画像メモリ107に格納するカラー画像入力
手段301と、こうして画像メモリ107に格納された
カラー画像データから文字領域を抽出する文字領域抽出
手段302と、文字領域に含まれる文字画像データに対
して文字認識を実行する文字認識手段303と、文字認
識された文字の文字色をRGBデータとして識別する文
字色識別手段304と、RGBデータとして識別された
文字色について、同一とみなされる文字色を有する文字
毎に文字を分類する文字色修正手段305と、文字色修
正手段305によって分類された文字について、その文
字色が文字領域中で大多数を占める文字色と少数の文字
色とに分類される場合、少数の文字色を有する文字列を
特殊文字として抽出する特殊文字抽出手段306と、を
備えている。
【0080】これらの各手段は、文字色抽出用のコンピ
ュータプログラムに従いCPU102によって実行され
る処理を機能として表現したものである。したがって、
文字領域抽出手段302によって文字領域抽出ステップ
及び文字領域抽出機能が実行され、文字認識手段303
によって文字認識ステップ及び文字認識機能が実行さ
れ、文字色識別手段304によって文字色識別ステップ
及び文字色識別機能が実行され、文字色修正手段305
によって文字色修正ステップ及び文字色修正機能が実行
され、特殊文字抽出手段306によって特殊文字抽出ス
テップ及び特殊文字抽出機能が実行される。
【0081】文字領域抽出手段302は、カラー画像デ
ータから文字領域を抽出する機能を実行する。カラー画
像データからの文字領域の抽出には、各種の公知技術を
使用することが可能である。例えば、画像データから黒
連結成分の外接矩形を抽出し、矩形の大きさと予め定め
た閾値とを比較することによって、文字の矩形と線図形
の矩形とを判別したり(特開昭55−162177号公
報参照)、画像データより抽出した黒連結成分中の矩形
の高さのヒストグラムを求め、このヒストグラムに基づ
いて標準文字サイズを決定し、この標準文字サイズと矩
形の大きさとの大小比較によって文字の矩形とその他の
矩形とを判別し、文字領域を統合することによって文字
領域を抽出したり、あるいは、画像データより黒連結成
分に外接する矩形を抽出し、抽出された矩形の情報に基
づき決定される圧縮率でその画像データを圧縮する前処
理を行ない、この前処理によって得られた圧縮画像デー
タに対して、黒連結成分に外接した矩形の結合による文
字領域とそれ以外の領域との分割処理を行ったり(特開
平6−187490号公報参照)する技術を使用するこ
とで、カラー画像データから文字領域を抽出することが
可能である。
【0082】文字認識手段303は、いわゆるOCR機
能であり、これには、公知あるいは周知のいかなる種類
のOCR機能も適用可能である。
【0083】文字色識別手段304は、文字認識手段3
03によって文字認識された文字領域中の文字や文字列
の文字色、加えて背景の背景色を抽出し、これらの色を
RGBデータとして識別する。文字色を抽出するには、
各種の公知技術を使用することが可能である。例えば、
特開昭55−80185号公報に記載されているよう
に、カラー画像データの各点の座標をRGBという3原
色の光量として把握し、これを3次元ベクトルとして認
識する手法を用いることができる。また、特開昭55−
80185号公報には、文字領域の背景色を求める手法
も開示されている。つまり、カラー画像データと2値画
像データとを使用して黒画素に対応している色の平均を
求め、これによって特定領域の文字色における白画素に
対応している色の平均を求めることで、その特定領域の
背景色を求める、というものである。
【0084】文字色修正手段305は、RGBデータと
して識別された文字色について、同一とみなされる文字
色を有する文字毎に文字を分類する。つまり、文字色修
正手段305では、個々の文字及び背景について、どの
文字の文字色、どの背景領域の背景色が同じ色で、どれ
が異なる色であるかを判定する。これにより、文字色識
別をした文字色データの中から、どの文字の色が同じか
を総合的に捕らえることができるようになる。
【0085】この際、文字色修正手段305は、各文字
間あるいは各背景領域間の微妙な色の相違を吸収する。
つまり、現実のカラー画像データでは、そのオリジナル
のカラー画像自体、あるいは、カラー画像データとして
生成する過程において、本来的には同一色として扱うべ
きである文字、文字列、背景等が、RGBデータとして
認識すると、微妙に色が相違すると判定されてしまう場
合がある。本実施の形態の文字色修正手段305は、こ
のような各文字間あるいは各背景領域間の微妙な色の相
違を吸収し、RGBデータとして識別された文字色につ
いて、同一とみなされる文字色を有する文字毎に文字を
分類する。
【0086】そのために手法として、本実施の形態で
は、各種の手法を採用し得る。例えば、識別されたRG
Bデータについて、少なくともRGBのうちの1色に関
するデータ値の差分に基づいて同一とみなされる文字色
かどうかを判定する。より詳細には、個々のRGBデー
タの差分が小さい場合を同じ色とするのではなく、R−
G、R−B、G−Bの差分データ同士を比べて閾値処理
を行ない、これによって同じ色か異なる色かを判定す
る。これにより、同系色の色で、薄いものと濃いものと
の違いを吸収することができる。これは、色の分布が図
4に示すように、ベクトル的な分布になることを利用し
ている。ここで、図4は、あるカラー画像を読み取った
場合のRGBデータの分布を示すグラフである。この場
合のカラー画像は、白色の背景色に黒と青との文字や線
が描かれたようなカラー画像である。
【0087】文字色修正手段305において、各文字間
あるいは各背景領域間の微妙な色の相違を吸収する別の
手法としては、識別されたRGBデータについて、少な
くともRGBのうちの1色に関するデータ値の比率に基
づいて同一とみなされる文字色かどうかを判定する処理
を採用しても良い。この場合には、R−G、R−B、G
−Bの比率データを比べ、これによって同じ色か異なる
色かを判定する。この際、RGBデータの比率を閾値処
理する。
【0088】文字色修正手段305において、各文字間
あるいは各背景領域間の微妙な色の相違を吸収する更に
別の手法としては、識別されたRGBデータについて、
少なくともRGBのうちの1色に関する文字色のデータ
値と背景色のデータ値とを結ぶベクトルの向きに基づい
て同一とみなされる文字色かどうかを判定するようにし
ても良い。つまり、図4に示す色の分布を見てみると、
背景色から文字色に向かってのベクトル上に色の分布が
存在していることがわかる。このため、背景色が白の場
合は、RGBのそれぞれが255である位置を原点とす
るベクトルとして考えればよいが、背景色が白以外の場
合は、背景色が原点となるようなベクトルとして考える
と都合が良い。
【0089】このように、本実施の形態では、文字色修
正手段305が、RGBデータとして識別された文字色
について、同一とみなされる文字色を有する文字毎に文
字を分類する。したがって、文字色という属性に基づい
て文字を分類することができ、これにより、文字画像デ
ータの色に関して、現実に同一色であるか同一色とみな
すべきであるのに、生のRGBデータのまま扱った場合
には微妙な読み取り誤差等によって異なる色であると判
定されてしまうような不都合を回避することができる。
【0090】ここで、本実施の形態では、文字色修正手
段305が、分類した文字についての文字色の色数に関
するデータ及び色を特定するデータを認識することが可
能である。そこで、この場合には、分類した文字につい
ての文字色の色数に関するデータ及び色を特定するデー
タを各種の処理のために利用することができる。
【0091】特殊文字抽出手段306は、文字色修正手
段305によって分類された文字について、その文字色
が文字領域中で大多数を占める文字色と少数の文字色と
に分類される場合、少数の文字色を有する文字列を特殊
文字として抽出する。この場合、特殊文字は、キーワー
ド、タイトル、重要文として抽出可能である。そこで、
文字色という属性に基づく文字の分類に基づいて、キー
ワード抽出、タイトル抽出、重要文抽出等を実行するこ
とができる。
【0092】また、本実施の形態では、特殊文字抽出手
段306によってキーワード、タイトル、重要文等とし
て抽出した特殊文字を、一般的なキーワード抽出、タイ
トル抽出、重要文抽出等の処理と組み合わせることで、
そのような各種の処理の精度向上に資することもでき
る。
【0093】例えば、自動的に書誌事項を抽出してキー
ワード付けをする特開平11−238072号公報に開
示されている技術に本実施の形態を適用し、大多数の文
字列と色が異なるような文字列を自動的にキーワードと
するか、あるいは、キーワードと解釈する際の参酌要因
とする、というような応用が可能である。
【0094】別の一例として、タイトル抽出を開示する
特開2000−148788公報には、タイトルを求め
る情報として、フォント識別の情報や、文字認識の結
果、下線が引いてあるか、センタリングされているかな
どの特徴を情報として使用している。そこで、このよう
な技術に本実施の形態を適用し、タイトルを求める場合
の特徴量の一つとして本実施の形態によって求められた
文字列の色情報を用い、タイトル抽出の精度を向上させ
ることが可能となる。
【0095】また、特開2000−123022公報に
は、文字列中から重要文を抽出する技術が開示されてい
るが、これに本実施の形態を適用し、重要文を求める場
合の特徴量の一つとして本実施の形態によって求められ
た文字列の色情報を用い、重要文抽出の精度を向上させ
ることが可能となる。
【0096】さらに、特開2000−123022公報
には、自然語文から構文解析を用いて重要文抽出を行う
技術が開示されているが、これに本実施の形態を適用
し、重要文を求める場合の特徴量の一つとして本実施の
形態によって求められた文字列の色情報を用い、重要文
抽出の精度を向上させることが可能となる。
【0097】
【発明の効果】請求項1記載の文字色抽出装置の発明
は、文字領域を有するカラー画像データから前記文字領
域を抽出する文字領域抽出手段と、前記文字領域に含ま
れる文字画像データの文字色をRGBデータとして識別
する文字色識別手段と、識別された文字色のRGBデー
タが、色を特定するデータとして記憶部に記憶されてい
る少なくとも2つ以上のカラーデータのうち、いずれの
カラーデータに該当するかを判別する文字色分類手段
と、文字色のRGBデータが該当するカラーデータが特
定する色をその文字画像データの色であると認識する文
字色認識手段と、を具備するので、文字画像データの色
を、生のRGBデータとしてではなく、色を特定するカ
ラーデータとして認識することができ、したがって、文
字画像データを扱う場合の色に関するデータのデータ量
を減少させ、データ処理の高速度化を図ることができ
る。また、文字画像データの色に関して、現実に同一色
であるか同一色とみなすべきであるのに、生のRGBデ
ータのまま扱った場合には微妙な読み取り誤差等によっ
て異なる色であると判定されてしまうような不都合を回
避することができ、したがって、文字画像データの色に
対して、文字色という属性を持たせて各種の処理、例え
ば、キーワード抽出、タイトル抽出、重要文抽出等の処
理への利用に供することができる。
【0098】請求項2記載の発明は、請求項1記載の文
字色抽出装置において、前記文字色識別手段は、前記文
字領域に含まれる背景の背景色をRGBデータとして識
別し、前記文字色分類手段は、識別された背景色のRG
Bデータが、前記記憶部に記憶されているいずれの前記
カラーデータに該当するかを判別し、前記文字色認識手
段は、背景色のRGBデータが該当するカラーデータが
特定する色をその背景の色であると認識するようにした
ので、文字領域に含まれる背景の背景色を、生のRGB
データとしてではなく、色を特定するカラーデータとし
て認識することができ、したがって、文字領域に含まれ
る背景色を扱う場合の色に関するデータのデータ量を減
少させ、データ処理の高速度化を図ることができる。ま
た、文字画像データが記録される用紙等は、一般的には
白色であることが多いため、文字画像データが変色等し
てしまったような用紙に記録されている場合であって
も、背景色のRGBデータが該当するカラーデータが特
定する色として白色が選択される可能性が高く、したが
って、背景色を白色として扱い、より理想的な色再現性
を得ることができる。
【0099】請求項3記載の発明は、請求項1記載の文
字色抽出装置において、前記文字領域に含まれる背景の
背景色は、白色を特定するカラーデータとして扱うよう
にしたので、文字領域に含まれる背景の背景色を、生の
RGBデータとしてではなく、白色を特定するカラーデ
ータとして認識することができ、したがって、文字領域
に含まれる背景色を扱う場合の色に関するデータのデー
タ量を減少させ、データ処理の高速度化を図ることがで
きる。また、文字画像データが記録される用紙等は、一
般的には白色であることが多いため、文字画像データが
変色等してしまったような用紙に記録されている場合で
あっても、本発明によれば、背景色のRGBデータが該
当するカラーデータが特定する色として白色が選択さ
れ、したがって、より理想的な色再現性を得ることがで
きる。
【0100】請求項4記載の文字色抽出装置の発明は、
文字領域を有するカラー画像データから前記文字領域を
抽出する文字領域抽出手段と、前記文字領域に含まれる
文字画像データに対して文字認識を実行する文字認識手
段と、文字認識された文字の文字色をRGBデータとし
て識別する文字色識別手段と、RGBデータとして識別
された文字色について、同一とみなされる文字色を有す
る文字毎に文字を分類する文字色修正手段と、を具備す
るので、文字色という属性に基づいて文字を分類するこ
とができ、これにより、文字画像データの色に関して、
現実に同一色であるか同一色とみなすべきであるのに、
生のRGBデータのまま扱った場合には微妙な読み取り
誤差等によって異なる色であると判定されてしまうよう
な不都合を回避することができ、したがって、例えば、
キーワード抽出、タイトル抽出、重要文抽出等の処理
(請求項11〜14)への利用に供することができる。
【0101】請求項5記載の発明は、請求項4記載の文
字色抽出装置において、前記文字色修正手段は、識別さ
れたRGBデータについて、少なくともRGBのうちの
1色に関するデータ値の差分に基づいて同一とみなされ
る文字色かどうかを判定するので、同一とみなされる文
字色を容易に判定することができる。
【0102】請求項6記載の発明は、請求項4記載の文
字色抽出装置において、前記文字色修正手段は、識別さ
れたRGBデータについて、少なくともRGBのうちの
1色に関するデータ値の比率に基づいて同一とみなされ
る文字色かどうかを判定するので、同一とみなされる文
字色を容易に判定することができる。
【0103】請求項7記載の発明は、請求項4記載の文
字色抽出装置において、前記文字色識別手段は、前記文
字領域に含まれる背景の背景色をRGBデータとして識
別し、請求項8記載の発明は、請求項7記載の文字色抽
出装置において、前記文字色修正手段は、識別されたR
GBデータについて、少なくともRGBのうちの1色に
関する文字色のデータ値と背景色のデータ値とを結ぶベ
クトルの向きに基づいて同一とみなされる文字色かどう
かを判定するので、同一とみなされる文字色を容易に判
定することができる。
【0104】請求項9記載の発明は、請求項4ないし8
のいずれか一記載の文字色抽出装置において、前記文字
色修正手段は、分類した文字についての文字色の色数に
関するデータを認識するので、分類した文字についての
文字色の色数に関するデータを各種の処理のために利用
することができる。
【0105】請求項10記載の発明は、請求項4ないし
8のいずれか一記載の文字色抽出装置において、前記文
字色修正手段は、分類した文字についての文字色の色を
特定するデータを認識するので、分類した文字について
の文字色の色を特定するデータを各種の処理のために利
用することができる。
【0106】請求項11記載の発明は、請求項4ないし
10のいずれか一記載の文字色抽出装置において、前記
文字色修正手段によって分類された文字について、その
文字色が前記文字領域中で大多数を占める文字色と少数
の文字色とに分類される場合、少数の文字色を有する文
字列を特殊文字として抽出する特殊文字抽出手段を具備
するので、文字色という属性に基づく文字の分類に基づ
いて、各種の処理、例えば、キーワード抽出(請求項1
2)、タイトル抽出(請求項13)、重要文抽出(請求
項14)等を実行することができ、このような各種の処
理を実行する別の処理と組み合わせることで、そのよう
な各種の処理の精度向上に資することもできる。
【0107】請求項15記載の文字色抽出方法の発明
は、文字領域を有するカラー画像データから前記文字領
域を抽出する文字領域抽出ステップと、前記文字領域に
含まれる文字画像データの文字色をRGBデータとして
識別する文字色識別ステップと、識別された文字色のR
GBデータが、色を特定するデータとして記憶部に記憶
されている少なくとも2つ以上のカラーデータのうち、
いずれのカラーデータに該当するかを判別する文字色分
類ステップと、文字色のRGBデータが該当するカラー
データが特定する色をその文字画像データの色であると
認識する文字色認識ステップと、を具備するので、文字
画像データの色を、生のRGBデータとしてではなく、
色を特定するカラーデータとして認識することができ、
したがって、文字画像データを扱う場合の色に関するデ
ータのデータ量を減少させ、データ処理の高速度化を図
ることができる。また、文字画像データの色に関して、
現実に同一色であるか同一色とみなすべきであるのに、
生のRGBデータのまま扱った場合には微妙な読み取り
誤差等によって異なる色であると判定されてしまうよう
な不都合を回避することができ、したがって、文字画像
データの色に対して、文字色という属性を持たせて各種
の処理、例えば、キーワード抽出、タイトル抽出、重要
文抽出等の処理への利用に供することができる。
【0108】請求項16記載の発明は、請求項15記載
の文字色抽出方法において、前記文字色識別ステップ
は、前記文字領域に含まれる背景の背景色をRGBデー
タとして識別し、前記文字色分類ステップは、識別され
た背景色のRGBデータが、前記記憶部に記憶されてい
るいずれの前記カラーデータに該当するかを判別し、前
記文字色認識ステップは、背景色のRGBデータが該当
するカラーデータが特定する色をその背景の色であると
認識するようにしたので、文字領域に含まれる背景の背
景色を、生のRGBデータとしてではなく、色を特定す
るカラーデータとして認識することができ、したがっ
て、文字領域に含まれる背景色を扱う場合の色に関する
データのデータ量を減少させ、データ処理の高速度化を
図ることができる。また、文字画像データが記録される
用紙等は、一般的には白色であることが多いため、文字
画像データが変色等してしまったような用紙に記録され
ている場合であっても、背景色のRGBデータが該当す
るカラーデータが特定する色として白色が選択される可
能性が高く、したがって、背景色を白色として扱い、よ
り理想的な色再現性を得ることができる。
【0109】請求項17記載の発明は、請求項15記載
の文字色抽出方法において、前記文字領域に含まれる背
景の背景色は、白色を特定するカラーデータとして扱う
ようにしたので、文字領域に含まれる背景の背景色を、
生のRGBデータとしてではなく、白色を特定するカラ
ーデータとして認識することができ、したがって、文字
領域に含まれる背景色を扱う場合の色に関するデータの
データ量を減少させ、データ処理の高速度化を図ること
ができる。また、文字画像データが記録される用紙等
は、一般的には白色であることが多いため、文字画像デ
ータが変色等してしまったような用紙に記録されている
場合であっても、本発明によれば、背景色のRGBデー
タが該当するカラーデータが特定する色として白色が選
択され、したがって、より理想的な色再現性を得ること
ができる。
【0110】請求項18記載の文字色抽出方法の発明
は、文字領域を有するカラー画像データから前記文字領
域を抽出する文字領域抽出ステップと、前記文字領域に
含まれる文字画像データに対して文字認識を実行する文
字認識ステップと、文字認識された文字の文字色をRG
Bデータとして識別する文字色識別ステップと、RGB
データとして識別された文字色について、同一とみなさ
れる文字色を有する文字毎に文字を分類する文字色修正
ステップと、を具備するので、文字色という属性に基づ
いて文字を分類することができ、これにより、文字画像
データの色に関して、現実に同一色であるか同一色とみ
なすべきであるのに、生のRGBデータのまま扱った場
合には微妙な読み取り誤差等によって異なる色であると
判定されてしまうような不都合を回避することができ、
したがって、例えば、キーワード抽出、タイトル抽出、
重要文抽出等の処理(請求項25〜28)への利用に供
することができる。
【0111】請求項19記載の発明は、請求項18記載
の文字色抽出方法において、前記文字色修正ステップ
は、識別されたRGBデータについて、少なくともRG
Bのうちの1色に関するデータ値の差分に基づいて同一
とみなされる文字色かどうかを判定するので、同一とみ
なされる文字色を容易に判定することができる。
【0112】請求項20記載の発明は、請求項18記載
の文字色抽出方法において、前記文字色修正ステップ
は、識別されたRGBデータについて、少なくともRG
Bのうちの1色に関するデータ値の比率に基づいて同一
とみなされる文字色かどうかを判定するので、同一とみ
なされる文字色を容易に判定することができる。
【0113】請求項21記載の発明は、請求項18記載
の文字色抽出方法において、前記文字色識別ステップ
は、前記文字領域に含まれる背景の背景色をRGBデー
タとして識別し、請求項22記載の発明は、請求項21
記載の文字色抽出方法において、前記文字色修正ステッ
プは、識別されたRGBデータについて、少なくともR
GBのうちの1色に関する文字色のデータ値と背景色の
データ値とを結ぶベクトルの向きに基づいて同一とみな
される文字色かどうかを判定するので、同一とみなされ
る文字色を容易に判定することができる。
【0114】請求項23記載の発明は、請求項18ない
し22のいずれか一記載の文字色抽出方法において、前
記文字色修正ステップは、分類した文字についての文字
色の色数に関するデータを認識するので、分類した文字
についての文字色の色数に関するデータを各種の処理の
ために利用することができる。
【0115】請求項24記載の発明は、請求項18ない
し22のいずれか一記載の文字色抽出方法において、前
記文字色修正ステップは、分類した文字についての文字
色の色を特定するデータを認識するので、分類した文字
についての文字色の色を特定するデータを各種の処理の
ために利用することができる。
【0116】請求項25記載の発明は、請求項18ない
し22のいずれか一記載の文字色抽出方法において、前
記文字色修正ステップによって分類された文字につい
て、その文字色が前記文字領域中で大多数を占める文字
色と少数の文字色とに分類される場合、少数の文字色を
有する文字列を特殊文字として抽出する特殊文字抽出ス
テップを具備するので、文字色という属性に基づく文字
の分類に基づいて、各種の処理、例えば、キーワード抽
出(請求項26)、タイトル抽出(請求項27)、重要
文抽出(請求項28)等を実行することができ、このよ
うな各種の処理を実行する別の処理と組み合わせること
で、そのような各種の処理の精度向上に資することもで
きる。
【0117】請求項29記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タの文字色をRGBデータとして識別する文字色識別機
能と、識別された文字色のRGBデータが、色を特定す
るデータとして記憶部に記憶されている少なくとも2つ
以上のカラーデータのうち、いずれのカラーデータに該
当するかを判別する文字色分類機能と、文字色のRGB
データが該当するカラーデータが特定する色をその文字
画像データの色であると認識する文字色認識機能と、を
実行させるコンピュータプログラムを記憶する記憶媒体
であるので、文字画像データの色を、生のRGBデータ
としてではなく、色を特定するカラーデータとして認識
することができ、したがって、文字画像データを扱う場
合の色に関するデータのデータ量を減少させ、データ処
理の高速度化を図ることができる。また、文字画像デー
タの色に関して、現実に同一色であるか同一色とみなす
べきであるのに、生のRGBデータのまま扱った場合に
は微妙な読み取り誤差等によって異なる色であると判定
されてしまうような不都合を回避することができ、した
がって、文字画像データの色に対して、文字色という属
性を持たせて各種の処理、例えば、キーワード抽出、タ
イトル抽出、重要文抽出等の処理への利用に供すること
ができる。
【0118】請求項30記載の発明は、請求項29記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字色識別機能は、前記文字領域に含まれる背
景の背景色をRGBデータとして識別し、前記文字色分
類機能は、識別された背景色のRGBデータが、前記記
憶部に記憶されているいずれの前記カラーデータに該当
するかを判別し、前記文字色認識機能は、背景色のRG
Bデータが該当するカラーデータが特定する色をその背
景の色であると認識するようにしたので、文字領域に含
まれる背景の背景色を、生のRGBデータとしてではな
く、色を特定するカラーデータとして認識することがで
き、したがって、文字領域に含まれる背景色を扱う場合
の色に関するデータのデータ量を減少させ、データ処理
の高速度化を図ることができる。また、文字画像データ
が記録される用紙等は、一般的には白色であることが多
いため、文字画像データが変色等してしまったような用
紙に記録されている場合であっても、背景色のRGBデ
ータが該当するカラーデータが特定する色として白色が
選択される可能性が高く、したがって、背景色を白色と
して扱い、より理想的な色再現性を得ることができる。
【0119】請求項31記載の発明は、請求項29記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字領域に含まれる背景の背景色は、白色を特
定するカラーデータとして扱うようにしたので、文字領
域に含まれる背景の背景色を、生のRGBデータとして
ではなく、白色を特定するカラーデータとして認識する
ことができ、したがって、文字領域に含まれる背景色を
扱う場合の色に関するデータのデータ量を減少させ、デ
ータ処理の高速度化を図ることができる。また、文字画
像データが記録される用紙等は、一般的には白色である
ことが多いため、文字画像データが変色等してしまった
ような用紙に記録されている場合であっても、本発明に
よれば、背景色のRGBデータが該当するカラーデータ
が特定する色として白色が選択され、したがって、より
理想的な色再現性を得ることができる。
【0120】請求項32記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タに対して文字認識を実行する文字認識機能と、文字認
識された文字の文字色をRGBデータとして識別する文
字色識別機能と、RGBデータとして識別された文字色
について、同一とみなされる文字色を有する文字毎に文
字を分類する文字色修正機能と、を実行させるコンピュ
ータプログラムを記憶する記憶媒体であるので、文字色
という属性に基づいて文字を分類することができ、これ
により、文字画像データの色に関して、現実に同一色で
あるか同一色とみなすべきであるのに、生のRGBデー
タのまま扱った場合には微妙な読み取り誤差等によって
異なる色であると判定されてしまうような不都合を回避
することができ、したがって、例えば、キーワード抽
出、タイトル抽出、重要文抽出等の処理(請求項39〜
42)への利用に供することができる。
【0121】請求項33記載の発明は、請求項32記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字色修正機能は、識別されたRGBデータに
ついて、少なくともRGBのうちの1色に関するデータ
値の差分に基づいて同一とみなされる文字色かどうかを
判定するので、同一とみなされる文字色を容易に判定す
ることができる。
【0122】請求項34記載の発明は、請求項32記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字色修正機能は、識別されたRGBデータに
ついて、少なくともRGBのうちの1色に関するデータ
値の比率に基づいて同一とみなされる文字色かどうかを
判定するので、同一とみなされる文字色を容易に判定す
ることができる。
【0123】請求項35記載の発明は、請求項32記載
のコンピュータプログラムを記憶する記憶媒体におい
て、前記文字色識別機能は、前記文字領域に含まれる背
景の背景色をRGBデータとして識別し、請求項36記
載の発明は、請求項35記載のコンピュータプログラム
を記憶する記憶媒体において、前記文字色修正機能は、
識別されたRGBデータについて、少なくともRGBの
うちの1色に関する文字色のデータ値と背景色のデータ
値とを結ぶベクトルの向きに基づいて同一とみなされる
文字色かどうかを判定するので、同一とみなされる文字
色を容易に判定することができる。
【0124】請求項37記載の発明は、請求項32ない
し36のいずれか一記載のコンピュータプログラムを記
憶する記憶媒体において、前記文字色修正機能は、分類
した文字についての文字色の色数に関するデータを認識
するので、分類した文字についての文字色の色数に関す
るデータを各種の処理のために利用することができる。
【0125】請求項38記載の発明は、請求項32ない
し36のいずれか一記載のコンピュータプログラムを記
憶する記憶媒体において、前記文字色修正機能は、分類
した文字についての文字色の色を特定するデータを認識
するので、分類した文字についての文字色の色を特定す
るデータを各種の処理のために利用することができる。
【0126】請求項39記載の発明は、請求項32ない
し38のいずれか一記載のコンピュータプログラムを記
憶する記憶媒体において、コンピュータに、前記文字色
修正機能によって分類された文字について、その文字色
が前記文字領域中で大多数を占める文字色と少数の文字
色とに分類される場合、少数の文字色を有する文字列を
特殊文字として抽出する特殊文字抽出機能を実行させる
ので、文字色という属性に基づく文字の分類に基づい
て、各種の処理、例えば、キーワード抽出(請求項4
0)、タイトル抽出(請求項41)、重要文抽出(請求
項42)等を実行することができ、このような各種の処
理を実行する別の処理と組み合わせることで、そのよう
な各種の処理の精度向上に資することもできる。
【0127】請求項43記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タの文字色をRGBデータとして識別する文字色識別機
能と、識別された文字色のRGBデータが、色を特定す
るデータとして記憶部に記憶されている少なくとも2つ
以上のカラーデータのうち、いずれのカラーデータに該
当するかを判別する文字色分類機能と、文字色のRGB
データが該当するカラーデータが特定する色をその文字
画像データの色であると認識する文字色認識機能と、を
実行させるコンピュータプログラムであるので、文字画
像データの色を、生のRGBデータとしてではなく、色
を特定するカラーデータとして認識することができ、し
たがって、文字画像データを扱う場合の色に関するデー
タのデータ量を減少させ、データ処理の高速度化を図る
ことができる。また、文字画像データの色に関して、現
実に同一色であるか同一色とみなすべきであるのに、生
のRGBデータのまま扱った場合には微妙な読み取り誤
差等によって異なる色であると判定されてしまうような
不都合を回避することができ、したがって、文字画像デ
ータの色に対して、文字色という属性を持たせて各種の
処理、例えば、キーワード抽出、タイトル抽出、重要文
抽出等の処理への利用に供することができる。
【0128】請求項44記載の発明は、コンピュータに
インストールされ、このコンピュータに、文字領域を有
するカラー画像データから前記文字領域を抽出する文字
領域抽出機能と、前記文字領域に含まれる文字画像デー
タに対して文字認識を実行する文字認識機能と、文字認
識された文字の文字色をRGBデータとして識別する文
字色識別機能と、RGBデータとして識別された文字色
について、同一とみなされる文字色を有する文字毎に文
字を分類する文字色修正機能と、を実行させるコンピュ
ータプログラムであるので、文字色という属性に基づい
て文字を分類することができ、これにより、文字画像デ
ータの色に関して、現実に同一色であるか同一色とみな
すべきであるのに、生のRGBデータのまま扱った場合
には微妙な読み取り誤差等によって異なる色であると判
定されてしまうような不都合を回避することができ、し
たがって、例えば、キーワード抽出、タイトル抽出、重
要文抽出等の処理への利用に供することができる。
【図面の簡単な説明】
【図1】本実施の形態の文字色抽出装置を構成するコン
ピュータのブロック図である。
【図2】本発明の第1の実施の形態における文字色抽出
技術を説明するための機能ブロック図である。
【図3】本発明の第2の実施の形態における文字色抽出
技術を説明するための機能ブロック図である。
【図4】あるカラー画像を読み取った場合のRGBデー
タの分布を示すグラフである。
【符号の説明】
106 記憶部(HDD) 202 文字領域抽出手段(文字領域抽出ステッ
プ、文字領域抽出機能) 203 文字色識別手段(文字色識別ステップ、文
字色識別機能) 204 文字色分類手段(文字色分類ステップ、文
字色分類機能) 205 文字色認識手段(文字色認識ステップ、文
字色認識機能) 208 カラーデータ(カラーパレット) 302 文字領域抽出手段(文字領域抽出ステッ
プ、文字領域抽出機能) 303 文字認識手段(文字認識ステップ、文字認
識機能) 304 文字色識別手段(文字色識別ステップ、文
字色識別機能) 305 文字色修正手段(文字色修正ステップ、文
字色修正機能) 306 特殊文字抽出手段(特殊文字抽出ステッ
プ、特殊文字抽出機能)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 1/46 H04N 1/46 Z Fターム(参考) 5B029 AA02 CC27 CC29 5C077 LL20 MM27 MP06 MP08 PP21 PP27 PP32 PP47 PP58 PP65 5C079 HB01 LA02 LA06 LA07 LA10 LA39 NA29 PA00 5L096 AA02 BA17 FA44 FA67 GA08 GA40 HA13

Claims (44)

    【特許請求の範囲】
  1. 【請求項1】 文字領域を有するカラー画像データから
    前記文字領域を抽出する文字領域抽出手段と、 前記文字領域に含まれる文字画像データの文字色をRG
    Bデータとして識別する文字色識別手段と、 識別された文字色のRGBデータが、色を特定するデー
    タとして記憶部に記憶されている少なくとも2つ以上の
    カラーデータのうち、いずれのカラーデータに該当する
    かを判別する文字色分類手段と、 文字色のRGBデータが該当するカラーデータが特定す
    る色をその文字画像データの色であると認識する文字色
    認識手段と、 を具備する文字色抽出装置。
  2. 【請求項2】 前記文字色識別手段は、前記文字領域に
    含まれる背景の背景色をRGBデータとして識別し、 前記文字色分類手段は、識別された背景色のRGBデー
    タが、前記記憶部に記憶されているいずれの前記カラー
    データに該当するかを判別し、 前記文字色認識手段は、背景色のRGBデータが該当す
    るカラーデータが特定する色をその背景の色であると認
    識するようにした請求項1記載の文字色抽出装置。
  3. 【請求項3】 前記文字領域に含まれる背景の背景色
    は、白色を特定するカラーデータとして扱うようにした
    請求項1記載の文字色抽出装置。
  4. 【請求項4】 文字領域を有するカラー画像データから
    前記文字領域を抽出する文字領域抽出手段と、 前記文字領域に含まれる文字画像データに対して文字認
    識を実行する文字認識手段と、 文字認識された文字の文字色をRGBデータとして識別
    する文字色識別手段と、 RGBデータとして識別された文字色について、同一と
    みなされる文字色を有する文字毎に文字を分類する文字
    色修正手段と、を具備する文字色抽出装置。
  5. 【請求項5】 前記文字色修正手段は、識別されたRG
    Bデータについて、少なくともRGBのうちの1色に関
    するデータ値の差分に基づいて同一とみなされる文字色
    かどうかを判定する請求項4記載の文字色抽出装置。
  6. 【請求項6】 前記文字色修正手段は、識別されたRG
    Bデータについて、少なくともRGBのうちの1色に関
    するデータ値の比率に基づいて同一とみなされる文字色
    かどうかを判定する請求項4記載の文字色抽出装置。
  7. 【請求項7】 前記文字色識別手段は、前記文字領域に
    含まれる背景の背景色をRGBデータとして識別する請
    求項4記載の文字色抽出装置。
  8. 【請求項8】 前記文字色修正手段は、識別されたRG
    Bデータについて、少なくともRGBのうちの1色に関
    する文字色のデータ値と背景色のデータ値とを結ぶベク
    トルの向きに基づいて同一とみなされる文字色かどうか
    を判定する請求項7記載の文字色抽出装置。
  9. 【請求項9】 前記文字色修正手段は、分類した文字に
    ついての文字色の色数に関するデータを認識する請求項
    4ないし8のいずれか一記載の文字色抽出装置。
  10. 【請求項10】 前記文字色修正手段は、分類した文字
    についての文字色の色を特定するデータを認識する請求
    項4ないし8のいずれか一記載の文字色抽出装置。
  11. 【請求項11】 前記文字色修正手段によって分類され
    た文字について、その文字色が前記文字領域中で大多数
    を占める文字色と少数の文字色とに分類される場合、少
    数の文字色を有する文字列を特殊文字として抽出する特
    殊文字抽出手段を具備する請求項4ないし10のいずれ
    か一記載の文字色抽出装置。
  12. 【請求項12】 前記特殊文字は、キーワードである請
    求項11記載の文字色抽出装置。
  13. 【請求項13】 前記特殊文字は、タイトルである請求
    項11記載の文字色抽出装置。
  14. 【請求項14】 前記特殊文字は、重要文である請求項
    11記載の文字色抽出装置。
  15. 【請求項15】 文字領域を有するカラー画像データか
    ら前記文字領域を抽出する文字領域抽出ステップと、 前記文字領域に含まれる文字画像データの文字色をRG
    Bデータとして識別する文字色識別ステップと、 識別された文字色のRGBデータが、色を特定するデー
    タとして記憶部に記憶されている少なくとも2つ以上の
    カラーデータのうち、いずれのカラーデータに該当する
    かを判別する文字色分類ステップと、 文字色のRGBデータが該当するカラーデータが特定す
    る色をその文字画像データの色であると認識する文字色
    認識ステップと、を具備する文字色抽出方法。
  16. 【請求項16】 前記文字色識別ステップは、前記文字
    領域に含まれる背景の背景色をRGBデータとして識別
    し、 前記文字色分類ステップは、識別された背景色のRGB
    データが、前記記憶部に記憶されているいずれの前記カ
    ラーデータに該当するかを判別し、 前記文字色認識ステップは、背景色のRGBデータが該
    当するカラーデータが特定する色をその背景の色である
    と認識するようにした請求項15記載の文字色抽出方
    法。
  17. 【請求項17】 前記文字領域に含まれる背景の背景色
    は、白色を特定するカラーデータとして扱うようにした
    請求項15記載の文字色抽出方法。
  18. 【請求項18】 文字領域を有するカラー画像データか
    ら前記文字領域を抽出する文字領域抽出ステップと、 前記文字領域に含まれる文字画像データに対して文字認
    識を実行する文字認識ステップと、 文字認識された文字の文字色をRGBデータとして識別
    する文字色識別ステップと、 RGBデータとして識別された文字色について、同一と
    みなされる文字色を有する文字毎に文字を分類する文字
    色修正ステップと、 を具備する文字色抽出方法。
  19. 【請求項19】 前記文字色修正ステップは、識別され
    たRGBデータについて、少なくともRGBのうちの1
    色に関するデータ値の差分に基づいて同一とみなされる
    文字色かどうかを判定する請求項18記載の文字色抽出
    方法。
  20. 【請求項20】 前記文字色修正ステップは、識別され
    たRGBデータについて、少なくともRGBのうちの1
    色に関するデータ値の比率に基づいて同一とみなされる
    文字色かどうかを判定する請求項18記載の文字色抽出
    方法。
  21. 【請求項21】 前記文字色識別ステップは、前記文字
    領域に含まれる背景の背景色をRGBデータとして識別
    する請求項18記載の文字色抽出方法。
  22. 【請求項22】 前記文字色修正ステップは、識別され
    たRGBデータについて、少なくともRGBのうちの1
    色に関する文字色のデータ値と背景色のデータ値とを結
    ぶベクトルの向きに基づいて同一とみなされる文字色か
    どうかを判定する請求項21記載の文字色抽出方法。
  23. 【請求項23】 前記文字色修正ステップは、分類した
    文字についての文字色の色数に関するデータを認識する
    請求項18ないし22のいずれか一記載の文字色抽出方
    法。
  24. 【請求項24】 前記文字色修正ステップは、分類した
    文字についての文字色の色を特定するデータを認識する
    請求項18ないし22のいずれか一記載の文字色抽出方
    法。
  25. 【請求項25】 前記文字色修正ステップによって分類
    された文字について、その文字色が前記文字領域中で大
    多数を占める文字色と少数の文字色とに分類される場
    合、少数の文字色を有する文字列を特殊文字として抽出
    する特殊文字抽出ステップを具備する請求項18ないし
    22のいずれか一記載の文字色抽出方法。
  26. 【請求項26】 前記特殊文字は、キーワードである請
    求項25記載の文字色抽出方法。
  27. 【請求項27】 前記特殊文字は、タイトルである請求
    項25記載の文字色抽出方法。
  28. 【請求項28】 前記特殊文字は、重要文である請求項
    25記載の文字色抽出方法。
  29. 【請求項29】 コンピュータにインストールされ、こ
    のコンピュータに、 文字領域を有するカラー画像データから前記文字領域を
    抽出する文字領域抽出機能と、 前記文字領域に含まれる文字画像データの文字色をRG
    Bデータとして識別する文字色識別機能と、 識別された文字色のRGBデータが、色を特定するデー
    タとして記憶部に記憶されている少なくとも2つ以上の
    カラーデータのうち、いずれのカラーデータに該当する
    かを判別する文字色分類機能と、 文字色のRGBデータが該当するカラーデータが特定す
    る色をその文字画像データの色であると認識する文字色
    認識機能と、を実行させるコンピュータプログラムを記
    憶する記憶媒体。
  30. 【請求項30】 前記文字色識別機能は、前記文字領域
    に含まれる背景の背景色をRGBデータとして識別し、 前記文字色分類機能は、識別された背景色のRGBデー
    タが、前記記憶部に記憶されているいずれの前記カラー
    データに該当するかを判別し、 前記文字色認識機能は、背景色のRGBデータが該当す
    るカラーデータが特定する色をその背景の色であると認
    識するようにした請求項29記載のコンピュータプログ
    ラムを記憶する記憶媒体。
  31. 【請求項31】 前記文字領域に含まれる背景の背景色
    は、白色を特定するカラーデータとして扱うようにした
    請求項29記載のコンピュータプログラムを記憶する記
    憶媒体。
  32. 【請求項32】 コンピュータにインストールされ、こ
    のコンピュータに、 文字領域を有するカラー画像データから前記文字領域を
    抽出する文字領域抽出機能と、 前記文字領域に含まれる文字画像データに対して文字認
    識を実行する文字認識機能と、 文字認識された文字の文字色をRGBデータとして識別
    する文字色識別機能と、 RGBデータとして識別された文字色について、同一と
    みなされる文字色を有する文字毎に文字を分類する文字
    色修正機能と、を実行させるコンピュータプログラムを
    記憶する記憶媒体。
  33. 【請求項33】 前記文字色修正機能は、識別されたR
    GBデータについて、少なくともRGBのうちの1色に
    関するデータ値の差分に基づいて同一とみなされる文字
    色かどうかを判定する請求項32記載のコンピュータプ
    ログラムを記憶する記憶媒体。
  34. 【請求項34】 前記文字色修正機能は、識別されたR
    GBデータについて、少なくともRGBのうちの1色に
    関するデータ値の比率に基づいて同一とみなされる文字
    色かどうかを判定する請求項32記載のコンピュータプ
    ログラムを記憶する記憶媒体。
  35. 【請求項35】 前記文字色識別機能は、前記文字領域
    に含まれる背景の背景色をRGBデータとして識別する
    請求項32記載のコンピュータプログラムを記憶する記
    憶媒体。
  36. 【請求項36】 前記文字色修正機能は、識別されたR
    GBデータについて、少なくともRGBのうちの1色に
    関する文字色のデータ値と背景色のデータ値とを結ぶベ
    クトルの向きに基づいて同一とみなされる文字色かどう
    かを判定する請求項35記載のコンピュータプログラム
    を記憶する記憶媒体。
  37. 【請求項37】 前記文字色修正機能は、分類した文字
    についての文字色の色数に関するデータを認識する請求
    項32ないし36のいずれか一記載のコンピュータプロ
    グラムを記憶する記憶媒体。
  38. 【請求項38】 前記文字色修正機能は、分類した文字
    についての文字色の色を特定するデータを認識する請求
    項32ないし36のいずれか一記載のコンピュータプロ
    グラムを記憶する記憶媒体。
  39. 【請求項39】 コンピュータに、前記文字色修正機能
    によって分類された文字について、その文字色が前記文
    字領域中で大多数を占める文字色と少数の文字色とに分
    類される場合、少数の文字色を有する文字列を特殊文字
    として抽出する特殊文字抽出機能を実行させる請求項3
    2ないし38のいずれか一記載のコンピュータプログラ
    ムを記憶する記憶媒体。
  40. 【請求項40】 前記特殊文字は、キーワードである請
    求項39記載のコンピュータプログラムを記憶する記憶
    媒体。
  41. 【請求項41】 前記特殊文字は、タイトルである請求
    項39記載のコンピュータプログラムを記憶する記憶媒
    体。
  42. 【請求項42】 前記特殊文字は、重要文である請求項
    39記載のコンピュータプログラムを記憶する記憶媒
    体。
  43. 【請求項43】 コンピュータにインストールされ、こ
    のコンピュータに、 文字領域を有するカラー画像データから前記文字領域を
    抽出する文字領域抽出機能と、 前記文字領域に含まれる文字画像データの文字色をRG
    Bデータとして識別する文字色識別機能と、 識別された文字色のRGBデータが、色を特定するデー
    タとして記憶部に記憶されている少なくとも2つ以上の
    カラーデータのうち、いずれのカラーデータに該当する
    かを判別する文字色分類機能と、 文字色のRGBデータが該当するカラーデータが特定す
    る色をその文字画像データの色であると認識する文字色
    認識機能と、 を実行させるコンピュータプログラム。
  44. 【請求項44】 コンピュータにインストールされ、こ
    のコンピュータに、 文字領域を有するカラー画像データから前記文字領域を
    抽出する文字領域抽出機能と、 前記文字領域に含まれる文字画像データに対して文字認
    識を実行する文字認識機能と、 文字認識された文字の文字色をRGBデータとして識別
    する文字色識別機能と、 RGBデータとして識別された文字色について、同一と
    みなされる文字色を有する文字毎に文字を分類する文字
    色修正機能と、を実行させるコンピュータプログラム。
JP2001101280A 2001-03-30 2001-03-30 文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム Pending JP2002298083A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001101280A JP2002298083A (ja) 2001-03-30 2001-03-30 文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001101280A JP2002298083A (ja) 2001-03-30 2001-03-30 文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2002298083A true JP2002298083A (ja) 2002-10-11

Family

ID=18954620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001101280A Pending JP2002298083A (ja) 2001-03-30 2001-03-30 文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2002298083A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2413024A (en) * 2004-04-06 2005-10-12 Sunplus Technology Co Ltd Rapid colour recognition using a divided colour plane to generate an associated colour code to represent the pixel colour
JP2006333175A (ja) * 2005-05-27 2006-12-07 Ricoh Co Ltd 画像処理装置、画像処理方法、および画像処理プログラム
JP2010028603A (ja) * 2008-07-23 2010-02-04 Nec Access Technica Ltd 画像データ処理装置、画像データ処理方法および画像データ処理プログラム
JP4499825B1 (ja) * 2009-09-30 2010-07-07 広行 遠藤 二次元コード,二次元コードリーダおよびプログラム
US8270716B2 (en) 2007-12-04 2012-09-18 Ricoh Company, Limited Selectively compressing picture and text areas of an image to maintain highest quality and effective compaction
US8714456B2 (en) 2009-09-30 2014-05-06 Shift Co. Ltd. Two-dimensional code, two-dimensional code reader, and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2413024A (en) * 2004-04-06 2005-10-12 Sunplus Technology Co Ltd Rapid colour recognition using a divided colour plane to generate an associated colour code to represent the pixel colour
GB2413024B (en) * 2004-04-06 2006-03-15 Sunplus Technology Co Ltd Rapid color recognition method
JP2006333175A (ja) * 2005-05-27 2006-12-07 Ricoh Co Ltd 画像処理装置、画像処理方法、および画像処理プログラム
JP4584771B2 (ja) * 2005-05-27 2010-11-24 株式会社リコー 画像処理装置
US8270716B2 (en) 2007-12-04 2012-09-18 Ricoh Company, Limited Selectively compressing picture and text areas of an image to maintain highest quality and effective compaction
JP2010028603A (ja) * 2008-07-23 2010-02-04 Nec Access Technica Ltd 画像データ処理装置、画像データ処理方法および画像データ処理プログラム
JP4499825B1 (ja) * 2009-09-30 2010-07-07 広行 遠藤 二次元コード,二次元コードリーダおよびプログラム
JP2011076395A (ja) * 2009-09-30 2011-04-14 Hiroyuki Endo 二次元コード,二次元コードリーダおよびプログラム
US8714456B2 (en) 2009-09-30 2014-05-06 Shift Co. Ltd. Two-dimensional code, two-dimensional code reader, and program

Similar Documents

Publication Publication Date Title
US7936929B2 (en) Image processing method and apparatus for removing noise from a document image
CN1313963C (zh) 字符识别装置和字符识别方法
US6577759B1 (en) System and method for performing region-based image retrieval using color-based segmentation
US8396298B2 (en) Image processing apparatus, image processing method, and storage medium with vectorization process for data from graphic areas
CN104899586B (zh) 对图像中包含的文字内容进行识别方法及装置
US7515744B2 (en) Image processing apparatus, method and program that identifies a color space of image data based on a recognized object
US7606414B2 (en) Fusion of color space data to extract dominant color
WO2015183015A1 (ko) 문자 인식 방법 및 그 장치
US6711292B2 (en) Block selection of table features
JP2008148298A (ja) 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体
JP2007128526A (ja) 標準照明色の変換方法、標準照明色の変換プログラム、標準照明色の変換プログラムを記録したコンピュータにて読取り可能な記録媒体、色情報抽出方法、色情報抽出プログラムを記録したコンピュータにて読取り可能な記録媒体、及び色情報抽出装置
Shafait et al. Pixel-accurate representation and evaluation of page segmentation in document images
JP2005190474A5 (ja)
US6701008B1 (en) Method, computer readable medium and apparatus for extracting characters from color image data
US6327382B1 (en) Image processing method and apparatus and storage medium therefor
JP4408495B2 (ja) 画像処理方法及び画像処理装置
JP2002298083A (ja) 文字色抽出装置、文字色抽出方法、文字色抽出用のコンピュータプログラムを格納する記憶媒体及び文字色抽出用のコンピュータプログラム
Youlian et al. Face detection method using template feature and skin color feature in rgb color space
Brand et al. Skin probability map and its use in face detection
JP4055976B2 (ja) 文書画像処理方法、文書画像処理装置及び記録媒体
JP2003087562A (ja) 画像処理装置および画像処理方法
Manjare et al. Skin detection for face recognition based on HSV color space
JP4001446B2 (ja) 画像背景色特定のための方法、装置及びコンピュータ読み取り可能な記録媒体
JP5046241B2 (ja) 画像処理装置、画像処理方法およびプログラム
EP0996080A2 (en) System and method for automatic region selection

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040930

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20051021

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060821

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090605

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090707