JP2007241355A - 画像処理装置及び画像処理プログラム - Google Patents

画像処理装置及び画像処理プログラム Download PDF

Info

Publication number
JP2007241355A
JP2007241355A JP2006058997A JP2006058997A JP2007241355A JP 2007241355 A JP2007241355 A JP 2007241355A JP 2006058997 A JP2006058997 A JP 2006058997A JP 2006058997 A JP2006058997 A JP 2006058997A JP 2007241355 A JP2007241355 A JP 2007241355A
Authority
JP
Japan
Prior art keywords
character string
document
mark
specifying
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006058997A
Other languages
English (en)
Other versions
JP4807618B2 (ja
Inventor
Masahiro Kato
雅弘 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006058997A priority Critical patent/JP4807618B2/ja
Priority to US11/495,635 priority patent/US7920742B2/en
Priority to CN200610131761A priority patent/CN100576232C/zh
Publication of JP2007241355A publication Critical patent/JP2007241355A/ja
Application granted granted Critical
Publication of JP4807618B2 publication Critical patent/JP4807618B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】ユーザが文書中に付した印の位置に多少のズレがあっても、ユーザが意図した文字列を確実に抽出できるようにする。
【解決手段】本発明の画像処理装置は、文書データを入力する文書入力部1と、文書入力部1で入力された文書データを用いて、文書中に含まれる文字列の位置を特定する第1の特定手段(2,3,4)と、文書入力部1で入力された文書データを用いて、文書中に付された印の範囲を文字列の配列方向で特定する第2の特定手段(5,6,7,8,9)と、第1の特定手段(2,3,4)で特定した文字列の位置と第2の特定手段(5,6,7,8,9)で特定した印の範囲に基づいて、印の対象とされた文字列を抽出する文字列抽出部10と、文字列抽出部10で抽出した文字列を文書データの属性情報としてデータベース部12に登録する文書登録部11とを備える。
【選択図】図1

Description

本発明は、文書を電子化してファイリングする際に適用して好適な画像処理装置及び画像処理プログラムに関する。
近年、紙媒体に印刷された文書(紙文書)をスキャナで読み取って文書データに電子化し、この文書データをハードディスク等に蓄積して活用する機会が多くなっている。こうして蓄積した文書データの活用性を高めるために、各々の文書データに何らかの属性情報を付与することが一般的に行なわれている。属性情報の代表的な例としては、文書検索のためのキーワードが挙げられる。属性情報としてキーワードを登録する場合は、文書データを蓄積するときにユーザがキーボードで所望のキーワードを入力すれば登録可能である。ただし、大量の文書データを取り扱う場合は、それに応じてキーワードの登録数も増えるため、キーボードでキーワードを入力する方式ではユーザの負担が大きくなる。
そこで、ユーザが手軽に属性情報を付与する仕組みとして、例えば下記特許文献1には、文書内の重要な部分(ポイントとなる部分)に蛍光ペンで印を付けた文書をイメージスキャナで読み取る場合に、印を付けた部分をOCR(Optical Character Reader)処理して単語に分割し、その単語をキーワードとしてインデックス部に登録する技術が記載されている。この技術によれば、ユーザがキーボードでいちいちキーワードを入力する必要がなくなるため、キーワードの登録にかかるユーザの負担が軽くなる。
特開平5−233705号公報
しかしながら、上記従来の技術では、文書中に印を付けた部分を対象にOCR処理を行なってキーワードを登録するため、紙文書に印を付ける際に、キーワードとして登録したい単語を含む文字列を正確にマーキングする必要がある。これに対して、紙文書への印付けは蛍光ペン等を用いたユーザの手作業により行なわれるため、例えば、大量の紙文書に印を付与する場合や、時間に追われて印を付与する場合などでは、印の付け方が雑になりやすい。このため、ユーザが意図した文字から印の一部が外れたり、印の始端や終端の位置が文字列(単語)の途中にかかったりすることがある。そうした場合、従来の技術では、キーワードの登録に際して、必要な文字が抜けたり、余分な文字が含まれたりするため、ユーザが意図したとおりのキーワードを登録できなくなる。
本発明は、上記課題を解決するためになされたもので、その目的とするところは、ユーザが文書中に付した印の位置に多少のズレがあっても、ユーザが意図した文字列を確実に抽出することができる画像処理装置及び画像処理プログラムを提供することにある。
本発明に係る画像処理装置は、文書データを入力する文書入力手段と、この文書入力手段で入力された文書データを用いて、文書中に含まれる文字列の位置を特定する第1の特定手段と、文書入力手段で入力された文書データを用いて、文書中に付された印の範囲を文字列の配列方向で特定する第2の特定手段と、第1の特定手段で特定した文字列の位置と第2の特定手段で特定した印の範囲に基づいて、印の対象とされた文字列を抽出する文字列抽出手段とを備えるものである。
本発明に係る画像処理プログラムは、コンピュータに、文書データを入力する文書入力工程と、文書入力工程で入力された文書データを用いて、文書中に含まれる文字列の位置を特定する第1の特定工程と、文書入力工程で入力された文書データを用いて、文書中に付された印の範囲を文字列の配列方向で特定する第2の特定工程と、第1の特定工程で特定した文字列の位置と第2の特定工程で特定した印の範囲に基づいて、前記印の対象とされた文字列を抽出する文字列抽出工程とを含む処理を実行させるものである。
本発明に係る画像処理装置及び画像処理プログラムにおいては、入力された文書データを用いて、文書中に含まれる文字列の位置を特定するとともに、文書中に付された印の範囲を文字列の配列方向で特定し、これらの特定情報に基づいて、印の対象とされた文字列を抽出する。このため、ユーザが意図した文字から印の一部が外れていた場合でも、その文字を、印の対象とされた文字列に含めて抽出することが可能となる。
本発明の画像処理装置及び画像処理プログラムによれば、ユーザが文書中に付した印の位置に多少のズレがあっても、ユーザが意図した文字列を確実に抽出することができる。このため、印付けでユーザが意図した文字列を文書データの属性情報として登録することが可能となる。
以下、本発明の具体的な実施の形態について図面を参照しつつ詳細に説明する。
図1は本発明の実施形態に係る画像処理装置の構成例を示すブロック図である。図1において、文書入力部1は、電子化されたビットマップ形式の文書データを入力するものである。文書入力部1は、例えば、紙文書の画像を光学的に読み取って文書データに変換(電子化)するイメージスキャナ、あるいはイメージスキャナから出力される文書データをケーブル等を介して取り込む入力インターフェース等によって構成されるものである。
文書入力部1から入力される文書データの元になるオリジナルの紙文書には、予め文書中に印が付されているものとする。また、この印付けは、文書中で属性情報の登録対象となる文字列を、半透明の蛍光性インクを内蔵した蛍光ペン、ラインマーカーなどを用いて塗りつぶす方式で行なわれるものとする。蛍光性インクの色には、黄色、水色、ピンク色、オレンジ色、黄緑色、青色、赤色、緑色など様々な色がある。紙文書が白黒印刷された文書であれば、印付けにいずれの色を採用してもよいが、文字の可読性を考慮すると、濃色系よりも淡色系(黄色、水色、ピンク色などを)を採用した方がよい。また、紙文書がカラー印刷された文書であれば、カラー印刷で紙面に表現された色と異なる色を採用して印付けを行なうものとする。
文字認識部2は、文書入力部1から入力される文書データを用いて、当該文書データの文書中に含まれる文字を認識するものである。文字位置検出部3は、文字認識部2で認識された文字の位置を検出するものである。文字列位置特定部4は、文字認識部2で認識された文字で表される文章を単語単位の文字列に区分するとともに、文字位置検出部3で検出された文字の位置情報に基づいて、各々の文字列の位置を特定するものである。
印画素抽出部5は、文書入力部1から入力される文書データを用いて、当該文書データの文書中に付された印を表す画素(以下、「印画素」とも記す)を抽出するものである。印画素抽出部5には、文書中に付される印の色に合わせて、抽出すべき画素の色情報が設定されている。例えば、印付けに用いられる蛍光性インクの色が黄色であれば、抽出すべき画素の色情報が、蛍光性インクの黄色に合わせた色情報で設定される。また、複数の色を用いて文書中に印を付す場合は、それらの印の色を、抽出すべき画素の色情報として設定するとともに、それぞれの印の色と文書登録時の属性情報の関係を対応付けておく。例えば、印の色に黄色とピンク色と水色を用いる場合は、それぞれの色で印が付された文字列が、どのような属性情報(例えば、文書検索のためのキーワード、文書のファイル名、作成日時、作成者など)を表すものであるかを対応付けておく。
連結画素領域抽出部6は、印画素抽出部5で抽出された印画素のうち、互いに連結する印画素同士を連結画素として判定するとともに、同じ連結グループに属する複数(多数)の連結画素によって占められる画素領域を連結画素領域として抽出するものである。方向特定部7は、文書中に付された印の方向を特定するものである。印端特定部8は、方向特定部7で特定した印の方向と連結画素領域抽出部6で抽出した連結画素領域の範囲に基づいて、印の始端及び終端を特定するものである。印範囲特定部9は、印端特定部8で特定した印の始端及び終端に基づいて、印の範囲を文字列の配列方向で特定するものである。
文字列抽出部10は、文字列位置特定部4で特定した文字列の位置と印範囲特定部9で特定した印の範囲に基づいて、印の対象とされた文字列を抽出するものである。文書登録部11は、文書入力部1から入力された文書データをデータベース部12に登録するとともに、当該文書データの登録に際して、文字列抽出部10で抽出した文字列を当該文書データの属性情報としてデータベース部12に登録するものである。データベース部12は、例えばハードディスク等の大容量のデータ記憶装置を用いて構成されるものである。
上述した各々の構成要素のうち、文字認識部2、文字位置検出部3及び文字列位置特定部4は、本発明における「第1の特定手段」、すなわち文書入力部(文書入力手段)1で入力された文書データを用いて、文書中に含まれる文字列の位置を特定する手段を構成するものである。また、印画素抽出部5、連結画素領域抽出部6、方向特定部7、印端特定部8及び印範囲特定部9は、本発明における「第2の特定手段」、すなわち文書入力部(文書入力手段)1で入力された文書データを用いて、文書中に付された印の範囲を文字列の配列方向で特定する手段を構成するものである。
続いて、本発明の実施形態に画像処理装置を用いた画像処理方法について、図2のフローチャートを用いて説明する。この画像処理方法は、ROM(Read Only Memory)あるいはハードディスク等に格納された画像処理プログラムをCPU(Central Processing Unit)がRAM(Random Access Memory)に読み出して実行することにより実現されるものである。画像処理プログラムは、予め画像処理装置にインストールされていてもよいし、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に格納して提供されてもよい。また、画像処理プログラムは、記録媒体を使用せずに、有線あるいは無線などの通信網を介して提供されてもよい。
まず、文書入力部1から文書データを入力する(ステップS1)。文書データの入力は、予め文書中に印が付された紙文書の画像を光学的に読み取って得られる文書データを取り込むことで行なう。次に、先ほど入力された文書データを用いて、文書中に含まれる文字列の位置を特定する処理(ステップS2)と、文書中に付された印の範囲を特定する処理(ステップS3)を行なう。なお、ステップS2の処理とステップS3の処理は、どちらを先に行なっても良いし、並列処理で同時進行的に行なってもよい。
文字列の位置を特定する処理(ステップS2)は、第1の特定手段を構成する文字認識部2、文字位置検出部3及び文字列位置特定部4によって行なわれる処理である。その際、文字認識部2は、公知の文字認識技術(例えば、OCR処理)により、文書中に含まれる各々の文字を1文字ずつ認識するとともに、当該認識した各々の文字をテキストコードに変換する。また、文字位置検出部3は、文書中に含まれる文字の位置を1文字ずつ座標データで検出する。例えば、図3に示すように、文字認識部2でテキストコードに変換した文字が“あ”であれば、この文字に外接する矩形領域の位置を示す座標データ(x11,y11)-(x12,y12)を、当該文字の位置情報として検出する。
文字列位置特定部4は、文字認識部2でテキストコードに変換された各々の文字に関して形態素解析を行なうことにより、文書中に含まれる文字列を単語単位に区分するとともに、各々の単語を表す文字列の位置を、上記文字位置検出部3で検出した座標データを用いて特定するものである。例えば、図4に示すように、「イメージファイルを行う文書の登録を行うときあらかじめ業務に精通している」という文字列であれば、この文字列を「イメージファイル」「を」「行う」「文書」「の」「登録」「を」「行うとき」「あらかじめ」「業務」「に」「精通」「している」という単語に区分する。また、例えば「あらかじめ」のように複数の文字からなる単語を表す文字列に関しては、図5に示すように、当該文字列の先頭に位置する“あ”の文字の座標データ(x11,y11)-(x12,y12)と最後尾に位置する“め”の文字の座標データ(x51,y51)-(x52,y52)に基づいて、当該文字列の位置をコーナーの座標データ(x11,y11)-(x52,y52)で特定する。
一方、印の範囲を特定する処理(ステップS3)は、第2の特定手段を構成する印画素抽出部5、連結画素領域抽出部6、方向特定部7、印端特定部8及び印範囲特定部9によって行なわれる処理である。その際、印画素抽出部5は、予め設定された色情報に適合する画素値を有する画素を印画素として抽出する。例えば、印画素抽出部5で抽出すべき画素の色情報が、黄色の蛍光性インクに合わせて設定されている場合は、黄色の蛍光性インクに適合する画素値を有する画素を印画素として抽出する。
連結画素領域抽出部6は、印画素抽出部5で抽出された印画素のうち、互いに連結する印画素同士を連結画素として判定するとともに、同じ連結グループに属する複数の連結画素によって占められる画素領域を連結画素領域として抽出する。印画素同士が連結しているかどうかは、例えば、次のような手法で判定することが可能である。すなわち、1つの印画素を中心(注目画素)として、所定のサイズ(m×n画素サイズ)のウィンドウを設定し、このウィンドウ内に、注目画素と同じ色を有する他の印画素が存在すれば、それら2つの印画素が互いに連結していると判断する。これにより、見かけ上、1本のラインでつながった印を表す画素は、全て同じ連結グループに属する連結画素として判定される。また、文書中に複数の箇所にわたって印が付されている場合は、それらの印と同じ数だけ連結画素領域が抽出される。
方向特定部7は、文書中に付された印の方向を特定する。一般に、印の方向は、文書中の文字の配列方向に沿うものとなる。例えば、横書きの文書であれば、各々の文字が横方向に配列されるため、それに合わせて印も横方向に引かれ、縦書きの文書であれば、各々の文字が縦方向に配列されるため、それに合わせて印も縦方向に引かれる。また、横書きの文書の場合は、単語を構成する複数の文字の配列方向が横方向になり、縦書きの文書の場合は、単語を構成する複数の文字の配列方向が縦方向になる。そこで、方向特定部7においては、上述した文字列位置特定部4で文字列を単語単位に区分したときに、単語を構成する複数の文字の配列方向を印の方向として特定する。また、これ以外にも、例えば連結画素判定部5で連結画素と判定された同一グループに属する画素群を、当該画素群に外接する矩形の領域で取り囲み、この矩形の領域の長手方向を印の方向として特定してもよい。
印端特定部8は、方向特定部7で特定した印の方向において、連結画素領域抽出部6で抽出した連結画素領域の一端と他端をそれぞれ印の始端及び終端として特定する。例えば、図6に示すように、方向特定部7で特定した印の方向がX方向であった場合は、このX方向において、連結画素領域抽出部6で抽出した連結画素領域の一端P1及び他端P2をそれぞれ印の始端及び終端として特定する。
印範囲特定部9は、印端特定部8で特定した印の始端P1及び終端P2に基づいて、印が文字列の配列方向(実際に文字が並んでいる領域)でどこからどこまでの範囲に付されたものであるかを特定する。例えば、図7に示すように、印Mが付された文書中の文字列がX1方向に沿って配列されている場合は、この文字列の配列方向(配列領域)X1で印Mの始端P1から終端P2までの範囲を、当該印の範囲Eとして特定する。つまり、印Mが途中で曲がっている場合でも、この曲がりを無視して、実際に文字列が配列されている領域(行/列)で印の範囲Eを特定する。
このように文字列の配列方向X1で印の範囲Eを特定することにより、ユーザが文書中に付した印の位置が、印の途中でユーザの意図する位置からずれていても、その位置ずれに左右されることなく、ユーザが意図した印の範囲を適切に特定することができる。このため、印Mの途中で当該印Mから外れた文字があっても、この文字を含んだ範囲を印の範囲Eとして特定することができる。また、文書中に付された印Mが縦/横いずれの方向で付されたものであるかを特定し、この印の方向で連結画素領域の一端と他端をそれぞれ印の始端P1及び終端P2として特定することにより、ユーザがどこからどこまでを意図して印を付したかを適切に特定することができる。
続いて、文字列抽出部10は、文字列位置特定部4で特定した文字列の位置と印範囲特定部9で特定した印の範囲に基づいて、印の対象とされた文字列を抽出する。具体的には、文字列位置特定部4で位置を特定した文字列の中から、印範囲特定部9で特定した印の範囲に含まれる文字列を、印の対象とされた文字列として抽出する(ステップS4)。例えば、上記図7に示すように、文字列の配列方向X1で印の範囲Eを特定した場合は、当該印の範囲Eに含まれる文字列を、印の対象とされた文字列として抽出する。印の範囲に含まれ文字列とは、少なくとも文字列の一部が印の範囲に重なり合う文字列をいう。
ここで、印Mの始端P1は「イメージファイル」という所定の単語を表す所定の文字列の途中に位置し、印Mの終端P2は「している」という所定の単語を表す所定の文字列の途中に位置している。そうした場合、文字列抽出部10は、予め設定された抽出条件に基づいて、それらの文字列を「印の対象とされた文字列」として抽出するか否かを決定する。
抽出条件としては、上述した「イメージファイル」、「している」といった所定の文字列が、印範囲特定部9で特定した印の範囲Eに重なる部分と重ならない部分の比率で規定する場合が考えられる。この場合、印範囲特定部9で特定した印の範囲Eに対して、文字列位置特定部4で特定した文字列の位置を重ね合わせることにより、印の範囲Eの重なる文字列の部分と重ならない文字列の部分を判別する。そして、所定の文字列が半分以上の比率で印の範囲Eに重なる場合は、当該文字列を「印の対象とされた文字列」として抽出し、それ以外は抽出しないようにする。
上記の抽出条件を適用すると、「イメージファイル」という文字列の場合は、印の範囲Eに重なる部分(「メージファイル」の文字部分)が重ならない部分(「イ」の文字部分)よりも高い比率となる。このため、文字列抽出部10では、「イメージファイル」という所定の文字列を「印の対象とされた文字列」として抽出する。これに対して、「している」という文字列の場合は、印の範囲Eに重なる部分(「し」の文字部分)が重ならない部分(「ている」の文字部分)よりも低い比率となる。このため、文字列抽出部10では、「している」という所定の文字列を「印の対象とされた文字列」として抽出しない。
この結果、文字列抽出部10においては、印付けでユーザが意図したとおりの文字列、すなわち「イメージファイルを行う文書の登録を行うときあらかじめ業務に精通」といった文字列が抽出されることになる。ちなみに、従来技術の手法を採用した場合は、印を付けた部分を対象にOCR処理を行なうため、「メージ」と「あらかじめ業務に精通し」といった文字列が抽出されることになる。
また、上記以外の抽出条件としては、所定の文字列で表される単語の種類で規定する場合が考えられる。例えば、単語の種類を自立語(名詞、動詞を含む)と付属語(助詞を含む)に分けるものとすると、所定の文字列で表される単語の種類が自立語であれば、これを印の対象とされた文字列として抽出し、「付属語」であれば抽出しない、という条件で、文字列の抽出可否を決定する。ここで例示した2つの抽出条件は、それぞれ単独で採用してもよいし、組み合わせで採用してもよい。また、印端特定部8で特定した印の始端P1と終端P2で個別に抽出条件を設定してもよい。
このように予め設定された抽出条件に基づいて文字列の抽出可否を決定することにより、ユーザが文書中に付した印の端がユーザの意図する位置から若干ずれていた場合でも、ユーザが意図した文字列を適切に抽出することができる。
その後、文書登録部11は、文書入力部1から入力された文書データをデータベース部12に登録するとともに、当該文書データの登録に際して、文字列抽出部10で抽出した文字列を当該文書データの属性情報としてデータベース部12に登録する(ステップS5)。この場合、文書データと属性情報は互いに対応付けて登録される。また、文書データの属性情報が、例えば、文書検索のためのキーワードの他に、文書のファイル名や作成日時などのように複数の異なる属性情報を表すものであれば、1つの文書データに対して複数の異なる属性情報を対応付けて登録する。これにより、印付けでユーザが意図した文字列を文書データの属性情報として登録することができる。
このように本発明の実施形態に係る画像処理装置及び画像処理プログラムにおいては、文書入力部1から入力された文書データを用いて、文書中に含まれる文字列の位置を特定するとともに、文書中に付された印の範囲を文字列の配列方向で特定し、それらの特定情報に基づいて、印の対象とされた文字列(文書データの属性情報となる文字列)を抽出するため、例えば、ユーザが文書中に蛍光ペン等で印を付与するときに、印の途中でユーザが意図した文字から印の一部が外れていた場合でも、その文字を、印の対象とされた文字列に含めて抽出することができる。このため、紙文書への印付けでユーザが意図した文字列を確実に抽出することができる。
また、ユーザが印を付与する際の位置ズレにより、ユーザが意図した文字列の範囲よりも若干長い範囲で印が付された場合や、ユーザが意図した文字列の範囲よりも若干短い範囲で印が付された場合でも、ユーザが意図した文字列を過不足なく抽出することができる。このため、印付けでユーザが意図したとおりの文字列を文書データの属性情報として登録することが可能となる。
なお、文書データの入力に用いられる文書(紙文書)は、オフィス文書だけでなく、例えば、雑誌やポスターなどであってもよい。
本発明の実施形態に係る画像処理装置の構成例を示すブロック図である。 本発明の実施形態に係る画像処理方法を示すフローチャートである。 文字の位置を検出する処理を説明する図である。 文字列を単語で区分した例を示す図である。 文字列の位置を特定する処理を説明する図である。 印の範囲を特定する処理を説明する図である。 文字列の配列方向で特定される印の範囲を示す図である。
符号の説明
1…文書入力部、2…文字認識部、3…文字位置検出部、4…文字列位置特定部、5…印画素抽出部、6…連結画素領域抽出部、7…方向特定部、8…印端検出部、9…印範囲特定部、10…文字列抽出部、11…文書登録部、12…データベース部

Claims (9)

  1. 文書データを入力する文書入力手段と、
    前記文書入力手段で入力された前記文書データを用いて、文書中に含まれる文字列の位置を特定する第1の特定手段と、
    前記文書入力手段で入力された前記文書データを用いて、文書中に付された印の範囲を文字列の配列方向で特定する第2の特定手段と、
    前記第1の特定手段で特定した前記文字列の位置と前記第2の特定手段で特定した前記印の範囲に基づいて、前記印の対象とされた文字列を抽出する文字列抽出手段と
    を備えることを特徴とする画像処理装置。
  2. 前記文字列抽出手段で抽出した前記文字列を前記文書データの属性情報として登録する登録手段を備える
    ことを特徴とする請求項1記載の画像処理装置。
  3. 前記文字列抽出手段は、前記第1の特定手段で位置を特定した文字列の中から、前記第2の特定手段で特定した前記印の範囲に含まれる文字列を、前記印の対象とされた文字列として抽出する
    ことを特徴とする請求項1記載の画像処理装置。
  4. 前記第1の特定手段は、前記文書中に含まれる文字列の位置を単語単位で特定し、
    前記文字列抽出手段は、前記第2の特定手段で特定した前記印の範囲を規定する、当該印の始端及び終端のうちの少なくとも一方が、所定の単語を表す所定の文字列の途中に位置する場合に、前記所定の文字列を前記印の対象とされた文字列として抽出するか否かを予め設定された抽出条件に基づいて決定する
    ことを特徴とする請求項1記載の画像処理装置。
  5. 前記抽出条件は、前記所定の文字列が前記印の範囲に重なる部分と重ならない部分の比率で規定される
    ことを特徴とする請求項4記載の画像処理装置。
  6. 前記抽出条件は、前記所定の文字列で表される単語の種類で規定される
    ことを特徴とする請求項4記載の画像処理装置。
  7. 前記第2の特定手段は、
    前記文書中に付された印を表す画素同士を連結した連結画素領域を抽出する連結画素領域抽出手段と、
    前記文書中に付された印の方向を特定する方向特定手段と、
    前記方向特定手段で特定した前記印の方向と前記連結画素領域抽出手段で抽出した前記連結画素領域の範囲に基づいて、前記印の始端及び終端を特定する印端特定手段と
    を有することを特徴とする請求項1記載の画像処理装置。
  8. 前記印端特定手段は、前記方向特定手段で特定した前記印の方向において、前記連結画素領域抽出手段で抽出した前記連結画素領域の一端と他端をそれぞれ前記印の始端及び終端として特定する
    ことを特徴とする請求項7記載の画像処理装置。
  9. コンピュータに、
    文書データを入力する文書入力工程と、
    前記文書入力工程で入力された前記文書データを用いて、文書中に含まれる文字列の位置を特定する第1の特定工程と、
    前記文書入力工程で入力された前記文書データを用いて、文書中に付された印の範囲を文字列の配列方向で特定する第2の特定工程と、
    前記第1の特定工程で特定した前記文字列の位置と前記第2の特定工程で特定した前記印の範囲に基づいて、前記印の対象とされた文字列を抽出する文字列抽出工程と
    を含む処理を実行させるための画像処理プログラム。
JP2006058997A 2006-03-06 2006-03-06 画像処理装置及び画像処理プログラム Expired - Fee Related JP4807618B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006058997A JP4807618B2 (ja) 2006-03-06 2006-03-06 画像処理装置及び画像処理プログラム
US11/495,635 US7920742B2 (en) 2006-03-06 2006-07-31 Image processing apparatus, program and recording medium for document registration
CN200610131761A CN100576232C (zh) 2006-03-06 2006-10-08 图像处理装置和图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006058997A JP4807618B2 (ja) 2006-03-06 2006-03-06 画像処理装置及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2007241355A true JP2007241355A (ja) 2007-09-20
JP4807618B2 JP4807618B2 (ja) 2011-11-02

Family

ID=38471564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006058997A Expired - Fee Related JP4807618B2 (ja) 2006-03-06 2006-03-06 画像処理装置及び画像処理プログラム

Country Status (3)

Country Link
US (1) US7920742B2 (ja)
JP (1) JP4807618B2 (ja)
CN (1) CN100576232C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157995A (ja) * 2016-03-01 2017-09-07 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP5057186B2 (ja) * 2010-06-29 2012-10-24 ブラザー工業株式会社 画像読取装置、スキャナドライバ、及び画像格納方法
JP6561876B2 (ja) * 2016-03-01 2019-08-21 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330327A (ja) * 1996-06-10 1997-12-22 Toshiba Corp 画像ファイル方法及びその装置
JPH11184966A (ja) * 1997-12-22 1999-07-09 Canon Inc 文字認識装置及びその方法
JP2004246597A (ja) * 2003-02-13 2004-09-02 Ricoh Co Ltd 画像処理装置、記録媒体およびプログラム

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5313527A (en) * 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
JPH05233705A (ja) 1992-02-20 1993-09-10 Nec Corp イメージファイリングシステムにおけるインデックス作成方式
US5359667A (en) * 1992-08-24 1994-10-25 Unisys Corporation Method for identifying and tracking document characteristics in a document image processing system
US6587587B2 (en) * 1993-05-20 2003-07-01 Microsoft Corporation System and methods for spacing, storing and recognizing electronic representations of handwriting, printing and drawings
GB9313640D0 (en) * 1993-07-01 1993-08-18 Ncr Int Inc Document transaction apparatus
JP3050007B2 (ja) * 1993-08-26 2000-06-05 ミノルタ株式会社 画像読取装置およびこれを備えた画像形成装置
US5588072A (en) * 1993-12-22 1996-12-24 Canon Kabushiki Kaisha Method and apparatus for selecting blocks of image data from image data having both horizontally- and vertically-oriented blocks
US5737440A (en) * 1994-07-27 1998-04-07 Kunkler; Todd M. Method of detecting a mark on a oraphic icon
US6246794B1 (en) * 1995-12-13 2001-06-12 Hitachi, Ltd. Method of reading characters and method of reading postal addresses
US5850480A (en) * 1996-05-30 1998-12-15 Scan-Optics, Inc. OCR error correction methods and apparatus utilizing contextual comparison
US20010029513A1 (en) * 1997-03-05 2001-10-11 Hideyuki Kuwano Integrated apparatus and system for storing, retrieving, and transmitting documents using document IDs and document ID marks
DE19728513A1 (de) * 1997-07-04 1999-01-07 Daimler Benz Ag Meßmarke und Verfahren zur Erkennung von Meßmarken sowie Verfahren zur Objektvermessung
JP3601658B2 (ja) * 1997-12-19 2004-12-15 富士通株式会社 文字列抽出装置及びパターン抽出装置
JP4323606B2 (ja) * 1999-03-01 2009-09-02 理想科学工業株式会社 文書画像傾き検出装置
US6731413B1 (en) * 1999-07-23 2004-05-04 Konica Corporation Ink jet recording method and apparatus for monochromatic medical image
US6845366B1 (en) * 1999-11-22 2005-01-18 Ncr Corporation Method of processing a check and an apparatus therefor
JP3854024B2 (ja) * 1999-11-30 2006-12-06 株式会社Pfu 文字認識前処理装置及び方法並びにプログラム記録媒体
JP2002189984A (ja) 2000-12-21 2002-07-05 Oki Electric Ind Co Ltd 文書読取装置
JP2002211068A (ja) * 2001-01-12 2002-07-31 Seiko Epson Corp 印刷装置および印刷方法
JP2002324166A (ja) * 2001-04-25 2002-11-08 Hitachi Ltd 帳票、帳票処理システム、帳票作成システム、帳票印刷システム、帳票処理方法、帳票作成方法、及び、帳票印刷方法
US7298510B2 (en) * 2001-05-10 2007-11-20 Canon Kabushiki Kaisha Image enlargement through poster printing by combining pattern data with image data
US7110604B2 (en) * 2001-06-26 2006-09-19 Anoto Ab Processing of digital images
JP4651876B2 (ja) * 2001-07-19 2011-03-16 富士通株式会社 パターン識別装置、パターン識別方法及びパターン識別用プログラム
US6870947B2 (en) * 2001-07-24 2005-03-22 Ncr Corporation Method of processing items in a check processing system and an apparatus therefor
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
US7228428B2 (en) * 2001-12-14 2007-06-05 Xerox Corporation Method and apparatus for embedding encrypted images of signatures and other data on checks
US7020320B2 (en) * 2002-03-06 2006-03-28 Parascript, Llc Extracting text written on a check
US7221796B2 (en) * 2002-03-08 2007-05-22 Nec Corporation Character input device, character input method and character input program
ATE354834T1 (de) * 2002-03-15 2007-03-15 Computer Sciences Corp Verfahren und vorrichtungen zur analyse von schrift in dokumenten
US7054483B2 (en) * 2002-03-15 2006-05-30 Ncr Corporation Methods for selecting high visual contrast colors in user-interface design
JP2004295674A (ja) * 2003-03-27 2004-10-21 Fujitsu Ltd Xml文書解析方法、xml文書検索方法、xml文書解析プログラム、xml文書検索プログラムおよびxml文書検索装置
JP2005020227A (ja) * 2003-06-25 2005-01-20 Pfu Ltd 画像圧縮装置
US7474780B2 (en) * 2003-08-30 2009-01-06 Opex Corp. Method and apparatus for determining unknown magnetic ink characters
JP4307287B2 (ja) 2004-02-23 2009-08-05 三菱電機株式会社 メタデータ抽出装置
JP3990375B2 (ja) * 2004-03-30 2007-10-10 東芝ソリューション株式会社 画像処理装置および画像処理方法
JP4549725B2 (ja) * 2004-04-30 2010-09-22 大日本スクリーン製造株式会社 印刷データ処理装置、印刷データ処理方法、およびプログラム
JP2005332062A (ja) * 2004-05-18 2005-12-02 Sharp Corp 画像処理装置,画像処理システム,画像処理方法,画像処理プログラム及びその画像処理プログラムが記録されたコンピュータ読み取り可能な記録媒体
US20060008148A1 (en) * 2004-07-06 2006-01-12 Fuji Photo Film Co., Ltd. Character recognition device and method
US7447362B2 (en) * 2004-11-08 2008-11-04 Dspv, Ltd. System and method of enabling a cellular/wireless device with imaging capabilities to decode printed alphanumeric characters
JP2006134191A (ja) * 2004-11-09 2006-05-25 Hitachi Ltd 文書検索方法およびそのシステム
JP2006166155A (ja) * 2004-12-09 2006-06-22 Konica Minolta Business Technologies Inc 画像処理装置および画像処理方法
JP2007004523A (ja) * 2005-06-24 2007-01-11 Fuji Xerox Co Ltd 問題用紙作成装置及び問題用紙作成方法
US20070206024A1 (en) * 2006-03-03 2007-09-06 Ravishankar Rao System and method for smooth pointing of objects during a presentation
US7657091B2 (en) * 2006-03-06 2010-02-02 Mitek Systems, Inc. Method for automatic removal of text from a signature area
JP4807618B2 (ja) * 2006-03-06 2011-11-02 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4712613B2 (ja) * 2006-05-25 2011-06-29 富士通株式会社 情報処理装置、情報処理方法およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09330327A (ja) * 1996-06-10 1997-12-22 Toshiba Corp 画像ファイル方法及びその装置
JPH11184966A (ja) * 1997-12-22 1999-07-09 Canon Inc 文字認識装置及びその方法
JP2004246597A (ja) * 2003-02-13 2004-09-02 Ricoh Co Ltd 画像処理装置、記録媒体およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017157995A (ja) * 2016-03-01 2017-09-07 京セラドキュメントソリューションズ株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
CN100576232C (zh) 2009-12-30
CN101034435A (zh) 2007-09-12
US7920742B2 (en) 2011-04-05
JP4807618B2 (ja) 2011-11-02
US20070206883A1 (en) 2007-09-06

Similar Documents

Publication Publication Date Title
US9710704B2 (en) Method and apparatus for finding differences in documents
JP4854491B2 (ja) 画像処理装置及びその制御方法
US8824798B2 (en) Information processing device, computer readable medium storing information processing program, and information processing method
US8508756B2 (en) Image forming apparatus having capability for recognition and extraction of annotations and additionally written portions
JP4461769B2 (ja) 文書検索・閲覧手法及び文書検索・閲覧装置
US8520006B2 (en) Image processing apparatus and method, and program
US20040139391A1 (en) Integration of handwritten annotations into an electronic original
JP2713622B2 (ja) 表形式文書読取装置
JP4785655B2 (ja) 文書処理装置及び文書処理方法
JPH05307638A (ja) ビットマップ・イメージ・ドキュメントのコード化データへの変換方法
JPH1011531A (ja) 帳票読取装置
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
US10586133B2 (en) System and method for processing character images and transforming font within a document
JP2005216203A (ja) 表フォーマットデータ処理方法並びに表フォーマットデータ処理装置
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
JP2008108114A (ja) 文書処理装置および文書処理方法
JP2008282094A (ja) 文字認識処理装置
US20130272610A1 (en) Image Processing Apparatus that Groups Objects Within Image
CN116090424A (zh) 一种基于局部区域模板匹配的票据信息提取方法
JP4517822B2 (ja) 画像処理装置及びプログラム
JP4710707B2 (ja) 追記情報処理方法、追記情報処理装置、およびプログラム
JP6561876B2 (ja) 情報処理装置及びプログラム
JP4517821B2 (ja) 画像処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081225

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20091009

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110722

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110804

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4807618

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees