JP2007058819A - 索引情報生成装置 - Google Patents
索引情報生成装置 Download PDFInfo
- Publication number
- JP2007058819A JP2007058819A JP2005246874A JP2005246874A JP2007058819A JP 2007058819 A JP2007058819 A JP 2007058819A JP 2005246874 A JP2005246874 A JP 2005246874A JP 2005246874 A JP2005246874 A JP 2005246874A JP 2007058819 A JP2007058819 A JP 2007058819A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- information
- index information
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 文字色等に配慮して索引情報の精度を向上する索引情報生成装置を提供する。
【解決手段】 処理の対象に含まれる文字のサイズや色等を表す情報を利用して、索引情報を生成する索引情報生成装置である。
【選択図】 図1
【解決手段】 処理の対象に含まれる文字のサイズや色等を表す情報を利用して、索引情報を生成する索引情報生成装置である。
【選択図】 図1
Description
本発明は、ドキュメントの検索に用いる索引情報を生成する索引情報生成装置に関する。
近年の情報処理装置の普及に伴い、多くのドキュメントが電子的に生成され、またプリンタ等によって印字されて流通している。こうしたドキュメントは、例えば電子的な状態でハードディスク等に格納され、また、印字されたドキュメントは、スキャナなどで読み込まれて、例えばビットマップ画像データとして、ハードディスク内に取り込まれて保持される。
また近年では、こうしたドキュメントの数の増大に伴い、当該ドキュメント内に記述されている文字列の情報を用いて、いわば、ドキュメント内の全文を対象として、ドキュメントを検索する、全文検索技術が開発されている。
これらの全文検索技術では、ドキュメント内の語の出現回数などをキーとした索引情報が予め生成され、当該索引情報を利用して検索を行うのが一般的である。
また、ドキュメントには、見出しや本文などの構造があることに配慮して、文書の構造を利用して索引情報を生成する技術(特許文献1)や、フォントサイズを用いてルビであるかそうでないかを判断して文字種を分別し、文字種ごとに索引情報を生成する技術(特許文献2)がある。
特開2001−167124号公報
特開2004−12683号公報
しかしながら、上記従来の索引情報生成においては、例えばスキャナにて読み込まれたビットマップデータのドキュメントについては、OCR(光学的文字認識処理)を行ってから索引情報生成を行うことができるものの、この場合には、文書構造を表す情報や、フォントサイズの情報は、OCRの結果から得られないので、文書構造を利用したり、文字種ごとに索引情報を生成する技術を適用する等の方法で、索引情報の精度を向上できなかった。
例えば、文字サイズが大きい文字列からなる語は、文字サイズの小さい文字列からなる語よりも語の重要度が大きい(視覚的印象が強く、検索のキーとなりやすい)が、文字サイズの情報を、ビットマップデータのドキュメントについての索引情報の生成に利用することは行われていない。
また、文字の色についても、例えば赤色に着色された文字は、黒色に着色された文字よりも目立つ場合があり、赤色の文字の視覚的印象が強くなり、検索のキーとなりやすくなることがあるが、このような文字の色等の表示態様については配慮されていないのが現状である。
本発明は上記実情に鑑みて為されたもので、ビットマップ画像として得られたドキュメントの索引情報の精度を向上できる索引情報生成装置を提供することを、その目的の一つとする。
また、本発明の別の目的の一つは、文字色に配慮して索引情報の精度を向上する索引情報生成装置を提供することである。
上記従来例の問題点を解決するための本発明は、索引情報生成装置であって、ビットマップ画像データを処理対象として、当該ビットマップ画像データに含まれる文字画像の表示態様を表す表示態様情報と、文字画像から認識された文字列データとを取得する手段と、前記取得した文字列データに含まれる語を検出する手段と、前記検出した語ごとに、前記文字列データと、当該語に含まれる文字に係る前記表示態様情報とを用いて、重要度値を演算する手段と、を含み、当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴としている。
ここで前記表示態様情報は、文字画像ごとのサイズの情報と、文字画像ごとの文字色に関する情報との少なくとも一方を含んでもよい。
また、本発明の一態様に係る索引情報生成装置は、処理対象となったドキュメントに含まれる文字列データについて、当該文字列データに含まれる語を検出する手段と、前記検出した語ごとに、当該語に含まれる文字列部分に係る文字色の情報を取得し、前記文字列データと、前記取得した文字色の情報とを用いて、語ごとの重要度値を演算する手段と、を含み、当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴としている。
さらに本発明の別の態様に係る索引情報生成方法は、ビットマップ画像データを処理対象として、コンピュータに、当該ビットマップ画像データに含まれる文字画像の表示態様を表す表示態様情報と、文字画像から認識された文字列データとを取得する工程と、前記取得した文字列データに含まれる語を検出する工程と、前記検出した語ごとに、前記文字列データと、当該語に含まれる文字に係る前記表示態様情報とを用いて、重要度値を演算する工程と、を実行させ、当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴としている。
さらに、本発明の別の態様に係るプログラムは、ビットマップ画像データを処理対象として、コンピュータに、当該ビットマップ画像データに含まれる文字画像の表示態様を表す表示態様情報と、文字画像から認識された文字列データとを取得する手順と、前記取得した文字列データに含まれる語を検出する手順と、前記検出した語ごとに、前記文字列データと、当該語に含まれる文字に係る前記表示態様情報とを用いて、重要度値を演算する手順と、を実行させ、当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴としている。
本発明の第1の実施の形態について図面を参照しながら説明する。本実施の形態に係る索引情報生成装置は、図1に示すように、制御部11と記憶部12と画像入力部13と操作部14と表示部15とを含んで構成されている。制御部11は、記憶部12に格納されているプログラムに従って動作しており、後に説明する索引情報生成処理を実行する。この処理の内容については、後に詳しく述べる。
記憶部12は、制御部11によって実行されるプログラムを保持している。またこの記憶部12は、制御部11の処理の過程で生成される各種データ等を格納するワークメモリとしても動作する。具体的にこの記憶部12は、コンピュータ可読な記録媒体と当該記録媒体に対してデータを書き込み、又は当該記録媒体からデータを読み出す装置(例えばハードディスク装置やメモリ装置)として実装できる。
画像入力部13は、例えばスキャナであり、原稿を光学的に読み取って得られた画像データを制御部11に出力する。ここではこの画像入力部13が出力する画像データにおいて、各画素の値がRGB(赤、緑、青)の色空間で表現されているとする。操作部14は、キーボードやマウス等であり、利用者の指示操作を受けて、当該指示操作の内容を制御部11に出力する。
表示部15は、ディスプレイ等であり、制御部11から入力される指示に従って情報を表示出力する。
次に制御部11の処理の内容について説明する。本実施の形態の制御部11は、図2に機能的に示すように、画像入力部13から入力される画像データを処理対象として、この処理対象となった画像データに対して、所定前処理を行う前処理部21と、文字抽出処理部22と、文字色検出部23と、索引情報生成部24とを含んで構成される。
以下、これら各部について具体的に説明する。
[前処理部]
この前処理部21では、画像入力部13から入力される画像データ(処理対象画像データ)の各画素の値をRGBからYCbCr(輝度と色差とからなる値)に変換する。具体的には、次の(1)式を用いて変換を行うことができる。なお、ここではRGBの各成分の値は0x00(「0x」は16進数であることを示す)から0xFFまでの値であるとしている。また、この前処理部21では、下地領域の輝度・彩度に基づいて各画素値を階調補正してもよい。尤も、この階調補正の処理は、必ずしも必要なものではない。
この前処理部21では、画像入力部13から入力される画像データ(処理対象画像データ)の各画素の値をRGBからYCbCr(輝度と色差とからなる値)に変換する。具体的には、次の(1)式を用いて変換を行うことができる。なお、ここではRGBの各成分の値は0x00(「0x」は16進数であることを示す)から0xFFまでの値であるとしている。また、この前処理部21では、下地領域の輝度・彩度に基づいて各画素値を階調補正してもよい。尤も、この階調補正の処理は、必ずしも必要なものではない。
[文字抽出処理部]
文字抽出処理部22は、前処理部21が出力するYCbCr色空間で表現された画像データから文字部分を抽出する処理を行う。この処理は、例えば、前処理部21が出力する画像データのうち、有意画素が連続している部分(有意画素塊)を検出する処理に相当する。そして文字抽出処理部22は、個々の有意画素塊ごとに、各有意画素塊を取囲む矩形(外接矩形)の座標情報を生成する。この座標情報は、画像データの所定基準点(例えば左上隅の座標)からの座標値で表す。つまり、この座標情報は、画像データ内の位置を表す。
文字抽出処理部22は、前処理部21が出力するYCbCr色空間で表現された画像データから文字部分を抽出する処理を行う。この処理は、例えば、前処理部21が出力する画像データのうち、有意画素が連続している部分(有意画素塊)を検出する処理に相当する。そして文字抽出処理部22は、個々の有意画素塊ごとに、各有意画素塊を取囲む矩形(外接矩形)の座標情報を生成する。この座標情報は、画像データの所定基準点(例えば左上隅の座標)からの座標値で表す。つまり、この座標情報は、画像データ内の位置を表す。
文字抽出処理部22は、個々の有意画素塊ごとの外接矩形の座標情報を元に、当該矩形の縦横サイズ比と、面積とを求め、縦横サイズ比が所定比率範囲内にあることや、面積が所定の面積範囲内にあることを条件として、各有意画素塊が文字であるか否かを判断し、文字であると判断すると、当該有意画素塊についてOCR処理を実行して、文字コードの情報を取得し、当該取得した文字コードの情報と、外接矩形の座標情報とを関連づけて、文字修飾データベースとして記憶部12に格納する(図3(a))。
ここでサイズ比と面積を用いて文字であるか否かを判断しているのは、すなわち文字であれば、縦横のサイズが一定の値を超えて大きくなる(縦が横に比べて極端に長い)などということは一般にないので、この比によって文字であるか否かを識別することができる。また、文字であれば、面積においても適切な範囲があり、例えば4ポイントの文字や、50ポイントを超える文字はドキュメントに含まれにくいことに配慮して、例えば6ポイント以上、24ポイント以下といった面積サイズでないものは文字ではないと判断することとしている。
なお、ここではこれらの条件によって文字か否かを判断しているが他の条件を利用しても構わない。いずれにしても、文字と判断される画素塊の外接矩形面積や座標情報が記録できればよい。
[文字色検出部]
文字色検出部23は、記憶部12に格納されている外接矩形ごとに、各外接矩形に含まれる有意画素の代表画素値(代表色)を決定する。
文字色検出部23は、記憶部12に格納されている外接矩形ごとに、各外接矩形に含まれる有意画素の代表画素値(代表色)を決定する。
文字色検出部23は、記憶部12に格納されている外接矩形を順次、注目外接矩形として選択する。そして前処理部21が処理する前の画像データ(RGB色空間の画像データ)のうち、注目外接矩形によって画定される領域内の画素値のヒストグラムを演算し、そのメディアン値を代表画素値(代表色)として決定し、文字修飾データベースに含まれる注目外接矩形の情報に、この代表色の情報を関連づけて格納する(図3(b))。
ここで例えば、RGB色空間の画像データのうち、その周縁部(一般に文字の画像等が含まれないと判断できる領域)の複数の画素値のヒストグラムを演算し、その最頻値に対応する画素値を、画像データの背景色とし、文字色検出部23においては、注目外接矩形内の画素値のうち、背景色の画素値以外の画素値についてヒストグラムを生成して、そのメディアン値を代表画素値として決定してもよい。この場合、代表色として、このメディアン値と、背景色との差を演算し、この差の値を代表色として注目外接矩形の情報に関連づけて記憶部12に格納してもよい。
文字色検出部23は、記憶部12に格納されている各外接矩形について、代表色の関連付けが終了するまで、この処理を繰り返して行い、各外接矩形について代表色の情報を取得する。
[索引情報生成部]
索引情報生成部24は、文字抽出処理部22が取得した文字コードの情報を所定の順序で連結し、文字列情報を生成する。ここで連結の順序は、文字と判断された外接矩形の配列に基づいて、広く知られたレイアウト処理によって定めることができる。この処理は、OCR(光学的文字認識)の処理として知られているものを用いることができるので、ここでの詳細な説明を省略する。
索引情報生成部24は、文字抽出処理部22が取得した文字コードの情報を所定の順序で連結し、文字列情報を生成する。ここで連結の順序は、文字と判断された外接矩形の配列に基づいて、広く知られたレイアウト処理によって定めることができる。この処理は、OCR(光学的文字認識)の処理として知られているものを用いることができるので、ここでの詳細な説明を省略する。
索引情報生成部24は、生成した文字列情報から、予め定められた辞書の語と照合するか、形態素解析技術を用いて、単語の情報を抽出する。そして、各単語の出現回数のヒストグラムを生成する。
また、各単語に含まれる文字に対応づけて記憶部12に格納されている外接矩形の座標情報や、代表色の情報から、ヒストグラムに現れる単語ごとの特徴量を算出する。例えば、単語が、i番目の文字を含む場合に、このi番目の文字の特徴量D(i)を、文字修飾データベースから得られる座標情報から演算される外接矩形の面積の値と、代表色の情報の彩度(グレイからの差)に「1」を加算したものとを乗じたものと定義すればよい。そして単語に含まれる文字について、各文字の特徴量の和を演算して、単語の特徴量とする。なお、当該単語の出現回数が複数である場合は、各出現箇所での文字の特徴量を加算する。例えば、「辞書」という2文字の単語が1、2文字目と、5、6文字目の2カ所にある場合、1、2文字目の文字に係る特徴量と、5、6文字目の文字に係る特徴量とを総和して、単語の特徴量とする。
さらに、単語に含まれる文字数Cを用いて、単語の重要度値であるスコア値Rを、
R=ΣD(i)/C
と定める。
R=ΣD(i)/C
と定める。
なお、単語のスコア値の演算は、この方法に限られず、例えば上記Rを読み込んだ画像データの大きさで除してもよい。
そして索引情報生成部24は、ヒストグラムに現れる単語ごとにスコア値を演算すると、当該単語を特定する情報(単語そのものでよい)と、スコア値とを関連づけた情報を、処理対象となった画像データに係る索引情報として、処理対象となった画像データを特定する情報に関係づけて記憶部12に格納する。
この索引情報は、例えば次のように用いられる。すなわち、ユーザが検索のためにキーとなる単語を入力すると、制御部11は、当該入力された単語を含む索引情報ごとに、関連づけられた画像データを特定する情報と、当該入力された単語に関連づけられているスコア値とを取得する。そして、取得した画像データを特定する情報とスコア値とを関連づけて記憶部12のワークメモリに格納し、スコア値の順に、画像データを特定する情報を並べ替えて表示部15に表示する。このほか、出現密度法など広く知られた方法を用いてもよい。
本実施の形態によると、単語ごとのスコア値に、文字のサイズや色による影響が含められ、同じ単語であってもサイズが大きい場合と小さい場合、また、色がグレイ(黒など)に近い場合と、彩色された色(赤や青など)に近い場合とで、スコア値が異なるようになっている。これにより、検索のキーとして指定された単語が、視覚的により目につきやすい態様で現れている画像と、そうでない画像とが区別できるようになって、ビットマップ画像として得られたドキュメントの索引情報の精度を向上でき、また、文字色に配慮して索引情報の精度を向上できる。
また、本実施の形態では、スキャナ等によって読み込まれた画像データに基づいて索引情報を生成する場合について説明したが、これに限られる必要はなく、例えば電子的なドキュメントに基づいて索引情報を生成することとしてもよい。
本発明の第2の実施の形態に係る索引情報生成装置は、図1に示した第1の実施の形態に係るものと同様の構成を有するものであるが、制御部11の実行する索引情報生成処理が少々異なる。また、この実施の形態では、画像入力部13は必ずしも必要ではない。
すなわち本実施の形態に係る制御部11が処理対象とする電子データのドキュメントでは、文字列の情報とともに、各文字のサイズや色、その他の修飾(アンダーラインや打ち消し線など)の情報が設定される。
本実施の形態の制御部11は、図4に機能的に示すように、文字修飾検出部31と、索引情報生成部32とを含んで構成される。
以下、これら各部について具体的に説明する。
[文字修飾検出部]
文字修飾検出部31は、ドキュメントに含まれる各文字ごとに、文字の表示態様の修飾(サイズ、色、その他の修飾)を特定する情報を修飾特定情報として取得して、各文字の位置(出現順序などで特定する)に関連づけて、当該取得した修飾特定情報を記憶部12のワークメモリに格納する。
文字修飾検出部31は、ドキュメントに含まれる各文字ごとに、文字の表示態様の修飾(サイズ、色、その他の修飾)を特定する情報を修飾特定情報として取得して、各文字の位置(出現順序などで特定する)に関連づけて、当該取得した修飾特定情報を記憶部12のワークメモリに格納する。
[索引情報生成部]
索引情報生成部32は、ドキュメントに含まれる文字列について、予め定められた辞書の語と照合するか、形態素解析技術を用いて、単語の情報を抽出する。そして、各単語の出現回数のヒストグラムを生成する。
索引情報生成部32は、ドキュメントに含まれる文字列について、予め定められた辞書の語と照合するか、形態素解析技術を用いて、単語の情報を抽出する。そして、各単語の出現回数のヒストグラムを生成する。
また、各単語に含まれる文字に対応づけて記憶部12に格納されている修飾特定情報から、ヒストグラムに現れる単語ごとの特徴量を算出する。例えば、単語が、i番目の文字を含む場合に、このi番目の文字の特徴量D(i)を、修飾特定情報に含まれるフォントサイズの値と、色の情報の彩度(グレイからの差)に「1」を加算したものとを乗じたものと定義する。そして単語に含まれる文字について、各文字の特徴量の和を演算して、単語の特徴量とする。なお、当該単語の出現回数が複数である場合は、各出現箇所での文字の特徴量を加算する。例えば、「辞書」という2文字の単語が1、2文字目と、5、6文字目の2カ所にある場合、1、2文字目の文字に係る特徴量と、5、6文字目の文字に係る特徴量とを総和して、単語の特徴量とする。
さらに、単語に含まれる文字数Cを用いて、単語の重要度値であるスコア値Rを、
R=ΣD(i)/C
と定める。
R=ΣD(i)/C
と定める。
なお、単語のスコア値の演算は、この方法に限られず、例えば上記Rを読み込んだ画像データの大きさで除してもよい。
そして索引情報生成部32は、ヒストグラムに現れる単語ごとにスコア値を演算すると、当該単語を特定する情報(単語そのものでよい)と、スコア値とを関連づけた情報を、処理対象となった画像データに係る索引情報として、処理対象となった画像データを特定する情報に関係づけて記憶部12に格納する。
この索引情報もまた、第1の実施の形態の索引情報と同様の検索処理に用いられる。なお、ここでは単語の特徴量を、フォントサイズと色とに基づいて定めたが、他の修飾により、例えばアンダーラインありの場合とそうでない場合とで異なる値としてもよい。各修飾の態様ごとに得点を定めておき、修飾がされている場合に得点を乗じるなどの方法で特徴量を演算すればよい。
本実施の形態によれば、文字色等に配慮して索引情報の精度を向上できる。
なお、文字色については、例えば背景色(ビットマップであれば、画像データの隅など、通常文字等を含まない部分の色を背景色として認識すればよい)からの差の値としてもよい。また、この場合は黒文字が一般的であることに配慮して、黒色については、背景色からの差に関わらず、文字色に係る特徴量を「1」としてもよい。
また、文字色について、予め色と得点とを関連づけて記憶部12に格納しておき、得点が関連づけられている色である場合に、当該関連づけられた得点を用いてスコア値を演算することとしてもよい。
11 制御部、12 記憶部、13 画像入力部、14 操作部、15 表示部、21 前処理部、22 文字抽出処理部、23 文字色検出部、24,32 索引情報生成部、31 文字修飾検出部。
Claims (5)
- ビットマップ画像データを処理対象として、
当該ビットマップ画像データに含まれる文字画像の表示態様を表す表示態様情報と、文字画像から認識された文字列データとを取得する手段と、
前記取得した文字列データに含まれる語を検出する手段と、
前記検出した語ごとに、前記文字列データと、当該語に含まれる文字に係る前記表示態様情報とを用いて、重要度値を演算する手段と、
を含み、
当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴とする索引情報生成装置。 - 請求項1に記載の索引情報生成装置であって、
前記表示態様情報は、文字画像ごとのサイズの情報と、文字画像ごとの文字色に関する情報との少なくとも一方を含むことを特徴とする索引情報生成装置。 - 処理対象となったドキュメントに含まれる文字列データについて、当該文字列データに含まれる語を検出する手段と、
前記検出した語ごとに、当該語に含まれる文字列部分に係る文字色の情報を取得し、前記文字列データと、前記取得した文字色の情報とを用いて、語ごとの重要度値を演算する手段と、
を含み、
当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴とする索引情報生成装置。 - ビットマップ画像データを処理対象として、コンピュータに
当該ビットマップ画像データに含まれる文字画像の表示態様を表す表示態様情報と、文字画像から認識された文字列データとを取得する工程と、
前記取得した文字列データに含まれる語を検出する工程と、
前記検出した語ごとに、前記文字列データと、当該語に含まれる文字に係る前記表示態様情報とを用いて、重要度値を演算する工程と、
を実行させ、
当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴とする索引情報生成方法。 - ビットマップ画像データを処理対象として、コンピュータに
当該ビットマップ画像データに含まれる文字画像の表示態様を表す表示態様情報と、文字画像から認識された文字列データとを取得する手順と、
前記取得した文字列データに含まれる語を検出する手順と、
前記検出した語ごとに、前記文字列データと、当該語に含まれる文字に係る前記表示態様情報とを用いて、重要度値を演算する手順と、
を実行させ、
当該語ごとに演算した重要度値の情報が、索引情報として、所定の文書検索処理に供されることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005246874A JP2007058819A (ja) | 2005-08-26 | 2005-08-26 | 索引情報生成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005246874A JP2007058819A (ja) | 2005-08-26 | 2005-08-26 | 索引情報生成装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007058819A true JP2007058819A (ja) | 2007-03-08 |
Family
ID=37922216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005246874A Pending JP2007058819A (ja) | 2005-08-26 | 2005-08-26 | 索引情報生成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007058819A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011129070A (ja) * | 2009-12-21 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置及び方法及びプログラム |
JP2012003356A (ja) * | 2010-06-14 | 2012-01-05 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索装置及び方法及びプログラム |
-
2005
- 2005-08-26 JP JP2005246874A patent/JP2007058819A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011129070A (ja) * | 2009-12-21 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 検索装置及び方法及びプログラム |
JP2012003356A (ja) * | 2010-06-14 | 2012-01-05 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ検索装置及び方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8718364B2 (en) | Apparatus and method for digitizing documents with extracted region data | |
CN101689300B (zh) | 图像分割和增强 | |
US8428356B2 (en) | Image processing device and image processing method for generating electronic document with a table line determination portion | |
JP4877374B2 (ja) | 画像処理装置及びプログラム | |
JPH11102414A (ja) | ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体 | |
US11574489B2 (en) | Image processing system, image processing method, and storage medium | |
JP4423076B2 (ja) | 認識対象切出し装置および方法 | |
CN115812221A (zh) | 图像生成及着色方法及装置 | |
JP2008176521A (ja) | パターン分離抽出プログラム、パターン分離抽出装置及びパターン分離抽出方法 | |
US8254693B2 (en) | Image processing apparatus, image processing method and program | |
US20020052892A1 (en) | Document format identification apparatus and method | |
JP2012048326A (ja) | 画像処理装置及びプログラム | |
JP2007058819A (ja) | 索引情報生成装置 | |
KR20110087620A (ko) | 레이아웃 기반의 인쇄매체 페이지 인식방법 | |
CN116682118A (zh) | 一种古文字识别方法、系统、终端及介质 | |
JP4935459B2 (ja) | 文字認識方法、文字認識プログラムおよび文字認識装置 | |
US8990681B2 (en) | Method for aligning a modified document and an original document for comparison and difference highlighting | |
JPH07168910A (ja) | 文書レイアウト解析装置及び文書フォ−マット識別装置 | |
JP2003046746A (ja) | 画像処理方法及び画像処理装置 | |
JP2011118481A (ja) | 画像処理プログラム及び画像処理装置 | |
Lettner et al. | Registration of multi-spectral manuscript images as prerequisite for computer aided script description | |
JP7470330B2 (ja) | カード査定装置、カード査定方法、プログラム、カード特定システム | |
JP2010258627A (ja) | 画像処理装置、画像処理方法、プログラム及び記憶媒体 | |
JP2006134079A (ja) | 画像処理装置及びプログラム | |
US7616344B2 (en) | Image processing apparatus and method for printing and plate making, and recording medium having image processing program recorded therein for printing and plate making |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071115 |