JP2008192032A - 文書処理装置、文書処理方法、プログラム - Google Patents

文書処理装置、文書処理方法、プログラム Download PDF

Info

Publication number
JP2008192032A
JP2008192032A JP2007027658A JP2007027658A JP2008192032A JP 2008192032 A JP2008192032 A JP 2008192032A JP 2007027658 A JP2007027658 A JP 2007027658A JP 2007027658 A JP2007027658 A JP 2007027658A JP 2008192032 A JP2008192032 A JP 2008192032A
Authority
JP
Japan
Prior art keywords
attribute
attribute name
name
paper
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007027658A
Other languages
English (en)
Inventor
Hironari Konno
裕也 今野
Masahiro Kato
雅弘 加藤
Katsuhiko Itonori
勝彦 糸乘
Etsuko Ito
悦子 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2007027658A priority Critical patent/JP2008192032A/ja
Priority to US11/832,810 priority patent/US8213717B2/en
Publication of JP2008192032A publication Critical patent/JP2008192032A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/1444Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
    • G06V30/1448Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

【課題】記入された属性値を自動的に取得し保存する処理の効率化を図る。
【解決手段】属性名抽出部23は、用紙に属性値の属性名とすべき文字列にマーキングされたテンプレートから、属性名とその位置情報を抽出し、データ種別判別部24は、抽出された属性名から対応する属性値のデータ種別を判別し、これらのデータは、対応付けされ属性値情報記憶部30に登録される。属性名検出部25は、属性値が記入された用紙の読取データからマーキング位置に対応する文字列を属性名として検出し、属性値抽出部27は、検出した属性名周辺に存在する文字列の中から、属性名との位置関係、データ種別等を参照して属性値を抽出し、属性名に対応させて属性値情報記憶部30に登録する。
【選択図】図2

Description

本発明は、文書処理装置及び方法、特に文書用紙への記入事項の自動抽出に関する。
レイアウトが一律な大量の用紙それぞれから、手間をかけることなく記入データを取得できれば効率的である。従来では、読取対象のデータの用紙上における記入箇所を、座標指定やマーカーなどを用いたマーキングを行い、スキャナで読み取った用紙の読取データから指定された記入箇所に記入されたデータをOCR(Optical Character Reader)により文字認識して取得していた。
特開昭61−13867号公報 特開平2−224569号公報 特開平5−233705号公報 特開平5−151388号公報 実開2004−82473号公報
しかしながら、用紙のレイアウト構成がわずかに変更された場合やスキャナで読み取る際に用紙ずれが発生した場合は、記入データを確実に読み取ることができるとは限らない。また、記入データを正常に読み取れたとしても、その読取データを属性値として記憶手段に記憶する場合、その属性値に付ける属性名を付与する必要があるため別途手入力等が要求される。
本発明は、用紙それぞれに記入された属性値を自動的に取得し保存する処理の効率化を図ることを目的とする。
本発明に係る文書処理装置は、用紙を読み取る第一の読取手段と、前記第一の読取手段による読取データの中から用紙に記されたマーキングを検出するマーキング検出手段と、検出されたマーキングのマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出する属性名抽出手段と、前記属性名抽出手段により抽出された属性名を記憶する属性情報記憶手段と、属性値が記入された用紙を読み取る第二の読取手段と、前記第二の読取手段による読取データから、前記属性情報記憶手段に記憶された属性名の検出及び検出した属性名の記載位置の特定を行う属性名検出手段と、前記第二の読取手段による読取データから、前記属性名検出手段により検出された属性名の検出位置周辺の文字列を抽出し、その抽出した文字列を当該属性の属性値として当該属性名に対応付けして前記属性情報記憶手段に登録する属性値抽出手段とを有することを特徴とする。
また、前記第一の読取手段による読取データから用紙のレイアウトを解析するレイアウト解析手段を有し、前記属性名抽出手段は、マーキング領域と用紙のレイアウトとを照合することで抽出する文字列の記載範囲を特定することを特徴とする。
また、前記属性名抽出手段により抽出された属性名を解析することで、当該属性のデータ種別を判別する判別手段を有し、前記属性情報記憶手段には、属性名に、前記判別手段により当該属性名から判別された当該属性値のデータ種別が対応付けして記憶され、前記属性値抽出手段は、属性名の検出位置周辺から複数の文字列を抽出した場合、その抽出した各文字列を解析することで特定したデータ種別と、前記属性情報記憶手段に記憶された当該属性値のデータ種別とを比較し、抽出した複数の文字列の中からデータ種別が合致するいずれかの文字列を当該属性の属性値として抽出することを特徴とする。
また、前記属性情報記憶手段には、属性名に、各属性名の検出位置が対応付けして記憶され、前記属性値抽出手段は、属性名の検出位置周辺から複数の文字列を抽出した場合、前記属性情報記憶手段に記憶された各属性名の検出位置を参照にして、抽出した複数の文字列の中から当該属性名の検出位置に近いいずれかの文字列を当該属性の属性値として抽出することを特徴とする。
本発明に係る文書処理装置は、用紙の読取データの中から用紙に記されたマーキングを検出するマーキング検出手段と、検出されたマーキングの用紙上のマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出する属性名抽出手段と、前記属性名抽出手段により抽出された属性名を記憶する属性情報記憶手段とを有することを特徴とする。
本発明に係る文書処理装置は、用紙の読取データから検出されたマーキングのマーキング領域内または領域近傍に予め記載されている属性名を記憶する属性情報記憶手段と、属性値が記入された用紙の読取データから、前記属性情報記憶手段に記憶された属性名の検出及び検出した属性名の記載位置の特定を行う属性名検出手段と、前記読取データから、前記属性名検出手段により検出された属性名の検出位置周辺の文字列を抽出し、その抽出した文字列を当該属性の属性値として当該属性名に対応付けして前記属性情報記憶手段に登録する属性値抽出手段とを有することを特徴とする。
本発明に係る文書処理方法は、コンピュータが、用紙の読取データを入力し、読取データの中から用紙に記されたマーキングを検出し、検出したマーキングのマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出し、抽出した属性名を記憶手段に記憶させ、属性値が記入された用紙の読取データを入力し、属性値が記入された用紙の読取データから、前記記憶手段に記憶された属性名の検出及び検出した属性名の記載位置を特定し、属性値が記入された用紙の読取データから、検出された属性名の検出位置周辺の文字列を抽出し、その抽出した文字列を当該属性の属性値として当該属性名に対応付けして前記記憶手段に登録することを特徴とする。
本発明に係るプログラムは、コンピュータに、用紙の読取データを入力させ、読取データの中から用紙に記されたマーキングを検出させ、検出されたマーキングのマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出させ、抽出された属性名を記憶手段に記憶させ、属性値が記入された用紙の読取データを入力させ、属性値が記入された用紙の読取データから、前記記憶手段に記憶された属性名の検出及び検出した属性名の記載位置を特定させ、属性値が記入された用紙の読取データから、検出された属性名の検出位置周辺の文字列を抽出させ、その抽出された文字列を当該属性の属性値として当該属性名に対応付けして前記記憶手段に登録させることを特徴とする。
本発明によれば、用紙から取得する属性データに付与する属性名を、用紙に予め記載されている文字列をマーキングすることによって指定するようにしたので、属性データに対して属性名を手入力などして指定する必要が無くなり便宜である。また、属性データ自体を特定する情報ではなく属性名の記載位置に基づいてその属性名が付与される記入データを用紙から抽出するようにしたので、用紙から属性データをより確実に取得することができる。
以下、図面に基づいて、本発明の好適な実施の形態について説明する。本実施の形態では、文書処理装置としてスキャナ搭載の画像形成装置を用いる場合を例にして説明する。
図1は、本実施の形態における画像形成装置20のハードウェア構成図である。画像形成装置20はスキャナ機能、コピー機能等各種機能を搭載した複合機であり、コンピュータを内蔵した装置である。図1において、CPU1は、リードオンリメモリ(ROM)2に格納されたプログラムにしたがってスキャナ3やプリンタエンジン4等本装置に搭載された各種機構の動作制御を行う。アドレスデータバス5は、CPU1の制御対象となる各種機構と接続してデータの通信を行う。操作パネル6は、ユーザからの指示の受け付け、情報の表示を行う。スキャナ3は、ユーザがセットした原稿を読み取り、電子データとしてHDD(Hard Disk Drive)7等に蓄積する。HDD7は、スキャナ3を使用して読み取った電子文書などを格納する。プリンタエンジン4は、CPU1で実行される制御プログラムからの指示に従い出力用紙上に画像を印字する。ネットワークインタフェース(I/F)8は、ネットワーク9を接続し、他のコンピュータ10との間のデータ通信などに利用される。ランダムアクセスメモリ(RAM)11は、プログラム実行時のワークメモリや電子データ送受信時の通信バッファとして利用される。ROM2は、本装置の制御や電子データの暗号、電子データの送受信に関する各種プログラムが格納されている。各種プログラムが実行されることで後述する各構成要素が所定の処理機能を発揮する。外部メディアインタフェース(I/F)12は、USBメモリ、フラッシュメモリ等の外部メモリ機器とのインタフェースである。
図2は、本実施の形態における画像形成装置のブロック構成図である。なお、図2には、画像形成装置20に搭載されたコンピュータにより実現され、本実施の形態を説明する上で必要な機能ブロックが図示されている。図2には、読取画像入力部21、マーキング検出部22、属性名抽出部23、データ種別判別部24、属性名検出部25、属性名推定部26、属性値抽出部27、文字認識処理部28、レイアウト解析部29及び属性値情報記憶部30が示されている。
読取画像入力部21は、スキャナ3により読み取られた画像データを入力する。本実施の形態では、属性値の取得前に実施する前準備処理において記入データが書き込まれることになる用紙であって記入データが未記入でマーキングされた用紙、及び属性値取得処理において属性値が実際に書き込まれた用紙を読み取ることになるが、読取画像入力部21は、双方の処理において利用される。なお、前準備処理において読み取られる用紙のことを、特に「テンプレート」と称することにする。また、特に断らない限り、用紙という場合には、テンプレートを含むことにする。マーキング検出部22は、テンプレートに記されたマーキングを検出する。本実施の形態では、ペン型のマーカーによってマーキングを行うので、マーキング箇所には、ペン幅とマーキングする長さによってある程度の領域が形成される。属性名抽出部23は、テンプレートにマーキングされたときマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出する。予め記載されている文字列というのは、用紙に予め印刷されている記入すべき項目を表す名称等のことである。本実施の形態では、記入される属性値と対応関係にある文字列を、特に「属性名」と称している。属性名抽出部23は、取得した属性名及び属性名の記載位置を特定する位置情報を属性値情報記憶部30に登録する。データ種別判別部24は、属性名抽出部23により抽出された属性名を解析することで、記入されるデータの種別を判別し、その結果を属性名に対応付けして属性値情報記憶部30に登録する。
属性名検出部25は、属性値が実際に記入された用紙の読取データから、属性値情報記憶部30に記憶された属性名の検出及び検出した属性名の記載位置の特定を行う。属性名推定部26は、属性値が実際に記入された用紙の読取データから抽出した文字列と、属性値情報記憶部30に記憶された属性名との比較照合を行い、比較する属性名(文字列)の持つ意味が同一と判断した場合には属性名の同一化を図る。属性値抽出部27は、属性値が実際に記入された用紙の読取データから、属性名検出部25により検出された属性名の検出位置周辺の文字列を抽出し、その抽出した文字列を当該属性の属性値として当該属性名に対応付けして属性値情報記憶部30に登録する。文字認識処理部28は、読取画像データに対して文字認識処理を施して、用紙に印刷されている文字列を抽出する。レイアウト解析部29は、テンプレートのレイアウトを解析する。
図3は、本実施の形態における属性値情報記憶部30に設定登録されるデータの構成例を示した図である。図3に示したように、読み取った用紙の識別情報であるシート番号に対応させて、当該用紙においてマーキングされた属性名が設定登録され、さらに各属性値に対応させて、各属性名の用紙上における検出位置を特定する位置情報、当該属性のデータ種別及び属性値が設定登録される。位置情報は、属性名を表す文字列を矩形で完全に包囲したときのその矩形の左上及び右上の各座標値で表す。なお、基準座標(0,0)は、用紙の左上の角とする。データ種別には、数字、文字列等自然言語処理により属性名から認識できるデータ形式である。属性値には、用紙から実際に読み出した当該属性名に対応した記入データである。
画像形成装置20における各構成要素21〜29は、画像形成装置20に搭載されたコンピュータやスキャナ3などのハードウェア資源と、コンピュータに搭載されたCPU1で動作するプログラムとの協調動作により実現される。また、属性値情報記憶部30は、HDD7又はRAM11にて実現される。
また、本実施の形態で用いるプログラムは、通信手段により提供することはもちろん、CD−ROMやDVD−ROM等のコンピュータ読み取り可能な記録媒体に格納して提供することも可能である。通信手段や記録媒体から提供されたプログラムはコンピュータにインストールされ、コンピュータのCPUがインストールプログラムを順次実行することで各種処理が実現される。
図4は、本実施の形態で用いる定型の用紙を部分的に示した図である。用紙には、記入すべき属性項目を示すための文字列(属性名)が予め印刷されている。例えば、「起案年月」、「固定資産名称」等が属性名に相当する。属性値の記入箇所は、属性名に隣接して設けられ、枠により記入領域が明確に特定されている。本実施の形態では、この用紙に記入された属性値に対する属性名を、テンプレートに予め記入された文字列から得ることを特徴としているが、これは、次のようにする。
すなわち、ユーザは、属性値がまだ記入されていない定型の用紙に対して、取得対象とする属性値の記入箇所を示す属性名をマーキングする。属性名をマーキングする方法としては、ペンにより丸囲い等が考えられるが、本実施の形態では、マーカーを用いて該当する属性名にマーキングすることにする。図5は、図4に示した用紙にマーキングをして作成されたテンプレートの例を示したが、図5によると、ユーザは、「固定資産名称」、「固定資産番号」及び「設置場所」の3箇所にマーキング41〜43をしたことが把握できる。
用紙から取得される属性名及び属性値は、取得対象の属性名がユーザによりマーキングされることで特定されることになるが、以下に、属性値を取得する処理を実施する前に行う事前準備処理について図6に示したフローチャートを用いて説明する。
ユーザが作成したテンプレートをスキャナ3に読み取らせると、読取画像入力部21は、スキャナ3による読取画像データを入力する(ステップ101)。なお、本実施の形態では、画像形成装置20に搭載されたスキャナ3に用紙を読み取らせることにしたが、外部の他の読取手段で読み取られて生成された読取画像データを、ネットワーク9を介して取得することも可能である。マーキング検出部22は、読取画像データを画像処理することでテンプレートからマーキング箇所を検出する(ステップ102)。続いて、属性名抽出部23は、マーキング位置に印刷されている文字列部分の画像データに対して文字認識処理部28に文字認識処理を実施させて文字列を抽出する。この文字列が属性名に相当する(ステップ103)。更に、属性名抽出部23は、抽出された文字列を囲む矩形の左上と右下の各角の座標値を求め、この座標値を属性名の位置情報と特定する(ステップ104)。そして、属性名抽出部23は、以上のように取得した属性名と、属性名の位置情報を属性値情報記憶部30に登録する(ステップ105)。なお、位置情報は、文字列を囲む矩形の座標データとしたが、図5に示したように属性名が所定の枠の中に印刷されているのであれば、レイアウト解析部29にテンプレートのレイアウトを解析させ、属性名が印刷される枠の左上と右下の各角の座標値を求めるようにしてもよい。更に、データ種別判別部24は、属性名抽出部23により抽出された属性名に対し自然言語処理を行い、当該属性のデータ種別を判別し(ステップ106)、その結果を属性名に対応付けして属性値情報記憶部30に登録する(ステップ107)。
以上のようにして、準備段階では、用紙から取得すべき属性値を選定すると共に、取得した属性値に付与する属性名を設定する。
ところで、マーキングは、マーカーを用いて人手により行われるため、属性名とすべき文字列上に正確に記されるとは限らない。つまり、属性名として指定したい文字列全体に加えて他の文字列にもマーキングがかかってしまうようにマーキング領域が属性名とする文字列より大きかったり、文字列全体をマーキングできず、マーキング領域が属性名とする文字列より小さかったりする場合も考えられる。このような場合は次のように対処する。すなわち、本実施の形態のようにマーカーを使用するのであれば、マーカーのペン先の幅と引いた線の長さによりマーキング領域が特定できるので、属性名抽出部23は、マーキング領域と文字列との位置関係、あるいは文字列のマーキング領域への含有率などによってマーキングされた文字列がどれであるかを選定する。原則、マーキング領域に最も含まれる文字列がマーキング対象の文字列となる。また、一つの文字列を選定できると、文字列にマーキングされていない部分が含まれていなくても文字列の並びから抽出すべき文字列全体、すなわち属性名を正確に抽出することができる。このことは、マーカーを用いない、例えばペンを用いて細い線を描画して閉領域を形成することにより属性名を指定するような場合にも同様である。
続いて、実際に属性値が記入された各用紙から属性値を取得し、属性値情報記憶部30に登録するまでの処理について図7に示したフローチャートを用いて説明する。なお、ここでは、便宜的にテンプレートを作成した用紙と、この処理で読み取らせる用紙のレイアウトは同一であるものとして説明する。
ユーザが、属性値が記入された用紙をスキャナ3に読み取らせると、読取画像入力部21は、スキャナ3による読取画像データを入力する(ステップ201)。なお、読取画像データは、事前準備の場合と同様にネットワーク9を介して取得することも可能である。ここでは、テンプレートと読取用紙とは同一フォームであることを前提に説明しているので、登録属性名と一致する属性名は、読取用紙上の登録属性名の位置情報から特定される位置に存在するはずである。従って、この場合、属性値抽出部27は、読取画像データ全体に文字認識処理を行う必要はなく、登録属性名の位置情報を参照に文字認識処理対象領域を絞り込むことができる。そして、属性名検出部25は、絞り込んだ領域それぞれに文字認識処理を行い、各領域に含まれている文字列を抽出する(ステップ202)。そして、属性値情報記憶部30に登録されている属性名(以下、「登録属性名」)と、抽出した各文字列とを比較することで登録属性名と一致する文字列、すなわち読取用紙から属性名を抽出する(ステップ203)。なお、属性値情報記憶部30には、シート番号によって識別される複数の用紙に関する情報が登録されている可能性があるが、これは、ユーザにシート番号を入力指定させることで特定可能である。あるいは、テンプレートのレイアウト解析結果を保持しておき、ステップ201で読み取った用紙(以下、「読取用紙」)のレイアウトと比較照合するなどして用紙を自動的に判別するようにしてもよい。
ここでは、読取用紙から抽出した文字列の中に登録属性名と一致する文字列が存在するので(ステップ204でY)、属性値抽出部27は、続いて、検出された属性名に対応する属性値を取得することになる。ここで、この処理を説明する前に、属性値が記入された用紙について説明する。
図8は、本実施の形態で用いる図4と同じ定型用紙を部分的に示した図であって所定欄に属性値が記入された後の状態を示した図である。図8から明らかなように、属性値は、それぞれ所定の欄に記入されている。図5に示したテンプレートから明らかなように、本実施の形態では、3箇所にマーキング41〜43をしている。ここで、マーキング41の対象となった属性名「固定資産名称」に着目してみると、「固定資産名称」は横書きであることから、対応する属性値の記入欄は、「固定資産名称」の印刷位置の右側か下側に設けられているのが一般的である。本実施の形態では、このような用紙のレイアウトに依存する特徴に着目して、対応する属性値をより確実に検出できるようにした。
すなわち、属性値抽出部27は、読取用紙から検出された属性名の周囲に存在する文字列の存在領域(欄)を検出する(ステップ205)。図8の例の場合、“起案年月”、“固定資産番号”及び“abcde1234”という文字列を含む文字列領域が周囲から検出される。ここで、属性値抽出部27は、各文字列領域に含まれる各文字列と、属性名とを自然言語処理を実行して、最も妥当な文字列を当該属性名の属性値として選定する(ステップ206)。属性値抽出部27は、この処理において、属性名の向き(縦書き、横書き)、テンプレートと読取用紙とのレイアウト比較、あるいは要求される属性値のデータ種別を参照などすることにで、抽出すべき文字列データ“abcde1234”を属性値としてより確実に選定することができる。また、図8において、「設置場所」に対しては、属性名印刷位置を囲む“1234”、“1”、“システム棟5F”及び“2007年10月”が、対応する属性値候補として抽出できると考えられるが、この中から横書きの「設置場所」には、その右側に位置する“システム棟5F”と 下側に位置する“2007年10月”が属性値の候補として選定可能であり、更に「設置場所」に対しては、自然言語処理を実施することで、“年”、“月”を含むより“5F”を含む“システム棟5F”の方が、対応する属性値としてふさわしい。更に、他の属性値「固定資産名称」及び「固定資産番号」に対応する属性値の検出位置は、各属性名の右側に位置することからも、「設置場所」対応する属性値は、その右側に位置する“abcde1234”と容易に考えられる。このようにして、マーキングされた属性名に対応する属性値を当該属性名の周囲に存在する文字列の中から容易に特定することができる。
このようにして読取用紙から属性値を抽出すると、属性値抽出部27は、属性値に対応させてその属性値を属性値情報記憶部30に登録する(ステップ207)。
以上の処理をマーキング41〜43がされた各属性名に対し実行することで、各属性名に対応する属性値を自動的にかつより確実に取得することができる。
さて、以上の説明は、説明の便宜上、テンプレートと属性値が記入された読取用紙とのレイアウトが同一であることを前提とした。テンプレートは、基本的には、属性値が実際に記入される用紙をもとに作成されるので、以上のように処理されると考えられる。但し、スキャナ3の読取精度や読取時における用紙の位置ずれ、あるいは解像度や機種の相違等が原因でテンプレートと読取用紙とが同一レイアウトと判断されない可能性もあり得る。また、用紙のレイアウトは、レイアウトの見直しや記入項目の増加等によって若干変更される可能性がある。更に、用紙に印刷される属性名がテンプレート作成後に訂正される場合もあり得る。このような場合、登録属性名と一致する文字列が読取用紙から得られないことになる。そこで、本実施の形態では、このような場合にも適合できるようにした。このような場合について以下に説明する。
属性名検出部25は、読取用紙の読取画像データに文字認識処理を行い、用紙に記載されている文字列を抽出する。
図7において、読取用紙から抽出した文字列の中に登録属性名と一致する文字列が存在しない場合(ステップ204でN)、属性値抽出部27は、自然言語処理を実行し、登録属性名と誤認しやすい文字又は文字列を属性名変形パターンとして生成する(ステップ211)。例えば「固定資産名称」の場合、「固定資産の名称」などである。なお、本実施の形態では、属性名変形パターンが必要にあった現時点で生成するようにしたが、属性名を抽出した事前準備処理の段階にて生成し、属性値情報記憶部30に登録しておくようにしてもよい。
ここで、読取用紙から抽出した文字列と登録属性名の代わりに生成した属性名変形パターンとを照合し(ステップ212)、読取用紙から抽出した文字列の中に属性名変形パターンと一致する文字列が存在する場合(ステップ213でY)、該当する属性名が読取用紙から検出されたことになるので、前述したステップ205以降の処理を実施する。これは、用紙の改訂等に伴って属性名が変更された場合に効果的である。
一方、読取用紙から抽出した文字列の中に属性名変形パターンと一致する文字列が存在しない場合(ステップ213でN)、読取用紙上における登録属性名の位置情報により特定される領域近傍に存在する文字列を抽出する(ステップ214)。つまり、読取用紙における文字列の抽出領域を若干拡げたことになる。このようにして、読取用紙から抽出した文字列と、登録属性名又は登録属性名及び属性名変形パターンとを照合し(ステップ215)、読取用紙から抽出した文字列の中に登録属性名等と一致する文字列が存在する場合(ステップ216でY)、該当する属性名が読取用紙から検出されたことになるので、前述したステップ205以降の処理を実施する。これは、用紙の改訂等に伴って属性名の記載欄が若干移動された場合に効果的である。
一方、登録属性名の記載位置に対応する読取用紙上の位置近傍に登録属性名等と一致する文字列が存在しなかった場合(ステップ216でN)、今度は属性名の検出領域を、上記登録属性名の記載位置近傍から読取用紙全体に拡げてステップ214と同様の処理を行う。ただ、今度は、読取用紙全体から文字列を抽出し(ステップ217)、抽出した各文字列と、登録属性名又は登録属性名及び属性名変形パターンとを照合する(ステップ218)。そして、登録属性名等と一致する文字列が存在した場合(ステップ219でY)、該当する属性名が読取用紙から検出されたことになるので、前述したステップ205以降の処理を実施する。これは、テンプレートを作成した用紙とレイアウトの異なる用紙を読み取ったことに伴い属性名の記載欄がテンプレートと異なる位置に設けられている場合に効果的である。
以上の処理を実施した結果、登録属性名と一致する文字列が最終的に読取用紙から検出することができなかった場合(ステップ219でN)、その旨をユーザに通知する(ステップ220)。
本実施の形態によれば、用紙からの抽出する属性値に付与すべき属性名を、用紙に予め記載されている文字列をマーキングすることによって指定できるようにしたので、属性値に対して手入力などして属性名を指定する必要がなく便宜である。また、属性名と属性値の各文字列の位置関係により、属性値を用紙から自動抽出するようにしたので、テンプレートと読取対象の用紙とのレイアウトが完全に同一でなくても、読取対象の用紙から属性値をより確実に取得することができる。
なお、本実施の形態は、属性値を取得する前に実施する事前処理と、用紙から実際に属性値を取得する処理とに大別できる。本実施の形態では、文書処理装置搭載の1台の画像形成装置20で双方の処理を実施するようにしたが、双方の処理にてアクセスする属性値情報記憶部30が共用できれば、各処理を異なる文書処理装置にて実施するように構成してもよい。
本発明に係る文書処理装置を搭載した画像形成装置のハードウェア構成図である。 本実施の形態における画像形成装置のブロック構成図である。 本実施の形態における属性値情報記憶部に設定登録されるデータの構成例を示した図である。 本実施の形態で用いる定型の用紙を部分的に示した図である。 図4に示した用紙にマーキングをして作成されたテンプレートの例を示した図である。 本実施の形態において属性値を取得する処理を実施する前に行う事前準備処理を示したフローチャートである。 本実施の形態における属性値取得処理を示したフローチャートである。 属性値が記入された後の図4に示した用紙を示した図である。
符号の説明
1 CPU、2 ROM、3 スキャナ、4 プリンタエンジン、5 アドレスデータバス、6 操作パネル、7 ハードディスクドライブ(HDD)、8 ネットワークインタフェース(I/F)、9 ネットワーク、10 クライアント、11 RAM、12 外部メディアインタフェース(I/F)、20 画像形成装置、21 読取画像入力部、22 マーキング検出部、23 属性名抽出部、24 データ種別判別部、25 属性名検出部、26 属性名推定部、27 属性値抽出部、28 文字認識処理部、29 レイアウト解析部、30 属性値情報記憶部。

Claims (8)

  1. 用紙を読み取る第一の読取手段と、
    前記第一の読取手段による読取データの中から用紙に記されたマーキングを検出するマーキング検出手段と、
    検出されたマーキングのマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出する属性名抽出手段と、
    前記属性名抽出手段により抽出された属性名を記憶する属性情報記憶手段と、
    属性値が記入された用紙を読み取る第二の読取手段と、
    前記第二の読取手段による読取データから、前記属性情報記憶手段に記憶された属性名の検出及び検出した属性名の記載位置の特定を行う属性名検出手段と、
    前記第二の読取手段による読取データから、前記属性名検出手段により検出された属性名の検出位置周辺の文字列を抽出し、その抽出した文字列を当該属性の属性値として当該属性名に対応付けして前記属性情報記憶手段に登録する属性値抽出手段と、
    を有することを特徴とする文書処理装置。
  2. 前記第一の読取手段による読取データから用紙のレイアウトを解析するレイアウト解析手段を有し、
    前記属性名抽出手段は、マーキング領域と用紙のレイアウトとを照合することで抽出する文字列の記載範囲を特定することを特徴とする請求項1記載の文書処理装置。
  3. 前記属性名抽出手段により抽出された属性名を解析することで、当該属性のデータ種別を判別する判別手段を有し、
    前記属性情報記憶手段には、属性名に、前記判別手段により当該属性名から判別された当該属性値のデータ種別が対応付けして記憶され、
    前記属性値抽出手段は、属性名の検出位置周辺から複数の文字列を抽出した場合、その抽出した各文字列を解析することで特定したデータ種別と、前記属性情報記憶手段に記憶された当該属性値のデータ種別とを比較し、抽出した複数の文字列の中からデータ種別が合致するいずれかの文字列を当該属性の属性値として抽出することを特徴とする請求項1記載の文書処理装置。
  4. 前記属性情報記憶手段には、属性名に、各属性名の検出位置が対応付けして記憶され、
    前記属性値抽出手段は、属性名の検出位置周辺から複数の文字列を抽出した場合、前記属性情報記憶手段に記憶された各属性名の検出位置を参照にして、抽出した複数の文字列の中から当該属性名の検出位置に近いいずれかの文字列を当該属性の属性値として抽出することを特徴とする請求項1記載の文書処理装置。
  5. 用紙の読取データの中から用紙に記されたマーキングを検出するマーキング検出手段と、
    検出されたマーキングの用紙上のマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出する属性名抽出手段と、
    前記属性名抽出手段により抽出された属性名を記憶する属性情報記憶手段と、
    を有することを特徴とする文書処理装置。
  6. 用紙の読取データから検出されたマーキングのマーキング領域内または領域近傍に予め記載されている属性名を記憶する属性情報記憶手段と、
    属性値が記入された用紙の読取データから、前記属性情報記憶手段に記憶された属性名の検出及び検出した属性名の記載位置の特定を行う属性名検出手段と、
    前記読取データから、前記属性名検出手段により検出された属性名の検出位置周辺の文字列を抽出し、その抽出した文字列を当該属性の属性値として当該属性名に対応付けして前記属性情報記憶手段に登録する属性値抽出手段と、
    を有することを特徴とする文書処理装置。
  7. コンピュータが、
    用紙の読取データを入力し、
    読取データの中から用紙に記されたマーキングを検出し、
    検出したマーキングのマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出し、
    抽出した属性名を記憶手段に記憶させ、
    属性値が記入された用紙の読取データを入力し、
    属性値が記入された用紙の読取データから、前記記憶手段に記憶された属性名の検出及び検出した属性名の記載位置を特定し、
    属性値が記入された用紙の読取データから、検出された属性名の検出位置周辺の文字列を抽出し、
    その抽出した文字列を当該属性の属性値として当該属性名に対応付けして前記記憶手段に登録する、
    ことを特徴とする文書処理方法。
  8. コンピュータに、
    用紙の読取データを入力させ、
    読取データの中から用紙に記されたマーキングを検出させ、
    検出されたマーキングのマーキング領域内または領域近傍に予め記載されている文字列を属性名として抽出させ、
    抽出された属性名を記憶手段に記憶させ、
    属性値が記入された用紙の読取データを入力させ、
    属性値が記入された用紙の読取データから、前記記憶手段に記憶された属性名の検出及び検出した属性名の記載位置を特定させ、
    属性値が記入された用紙の読取データから、検出された属性名の検出位置周辺の文字列を抽出させ、
    その抽出された文字列を当該属性の属性値として当該属性名に対応付けして前記記憶手段に登録させる、
    ことを特徴とするプログラム。
JP2007027658A 2007-02-07 2007-02-07 文書処理装置、文書処理方法、プログラム Withdrawn JP2008192032A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007027658A JP2008192032A (ja) 2007-02-07 2007-02-07 文書処理装置、文書処理方法、プログラム
US11/832,810 US8213717B2 (en) 2007-02-07 2007-08-02 Document processing apparatus, document processing method, recording medium and data signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007027658A JP2008192032A (ja) 2007-02-07 2007-02-07 文書処理装置、文書処理方法、プログラム

Publications (1)

Publication Number Publication Date
JP2008192032A true JP2008192032A (ja) 2008-08-21

Family

ID=39676225

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007027658A Withdrawn JP2008192032A (ja) 2007-02-07 2007-02-07 文書処理装置、文書処理方法、プログラム

Country Status (2)

Country Link
US (1) US8213717B2 (ja)
JP (1) JP2008192032A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151639A (ja) * 2016-02-23 2017-08-31 大日本印刷株式会社 書類撮像装置、書類撮像方法、および、書類撮像装置用のプログラム
JP2019095849A (ja) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 文書処理装置およびプログラム
JP2019101512A (ja) * 2017-11-29 2019-06-24 小林クリエイト株式会社 文字認識プログラム
JP2019153357A (ja) * 2019-06-25 2019-09-12 大日本印刷株式会社 書類撮像装置、書類撮像方法、および、書類撮像装置用のプログラム
JPWO2021090567A1 (ja) * 2019-11-06 2021-05-14

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5712487B2 (ja) 2009-09-04 2015-05-07 株式会社リコー 画像処理装置、画像処理システム、画像処理方法、及びプログラム
JP5479083B2 (ja) * 2009-12-25 2014-04-23 キヤノン株式会社 画像処理装置及びその制御方法並びにプログラム
JP6003705B2 (ja) * 2013-02-14 2016-10-05 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
CN106104520B (zh) * 2014-03-20 2019-04-26 日本电气株式会社 信息处理设备、信息处理方法和存储介质
JP6050843B2 (ja) * 2015-01-30 2016-12-21 株式会社Pfu 情報処理装置、方法およびプログラム
TWI680411B (zh) * 2016-01-07 2019-12-21 葉振忠 電子表單建立系統及方法
JP7088136B2 (ja) * 2018-08-31 2022-06-21 株式会社デンソー 標示物認識システム及び標示物認識方法
CN110795525B (zh) * 2019-09-17 2023-09-15 腾讯科技(深圳)有限公司 文本结构化方法、装置、电子设备及计算机可读存储介质
US20230419710A1 (en) * 2022-06-28 2023-12-28 International Business Machines Corporation Information extraction from documents containing handwritten text

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6113867A (ja) 1984-06-29 1986-01-22 Fuji Xerox Co Ltd 領域指定方式
JP2849627B2 (ja) 1989-02-27 1999-01-20 富士ゼロックス株式会社 画像処理装置
KR930009639B1 (ko) * 1989-07-09 1993-10-08 가부시끼가이샤 히다찌세이사꾸쇼 화상데이타를 이용하는 문서데이타 처리방법 및 장치
US5272764A (en) * 1989-12-08 1993-12-21 Xerox Corporation Detection of highlighted regions
US5077805A (en) * 1990-05-07 1991-12-31 Eastman Kodak Company Hybrid feature-based and template matching optical character recognition system
JP3001065B2 (ja) * 1991-03-19 2000-01-17 テイ・エイ・エス通商株式会社 プログラムの作成方法
JP3171626B2 (ja) 1991-11-28 2001-05-28 株式会社リコー 文字認識の処理領域・処理条件指定方法
JPH05233705A (ja) 1992-02-20 1993-09-10 Nec Corp イメージファイリングシステムにおけるインデックス作成方式
US5579407A (en) * 1992-04-21 1996-11-26 Murez; James D. Optical character classification
US5822454A (en) * 1995-04-10 1998-10-13 Rebus Technology, Inc. System and method for automatic page registration and automatic zone detection during forms processing
US6327387B1 (en) * 1996-12-27 2001-12-04 Fujitsu Limited Apparatus and method for extracting management information from image
US7020320B2 (en) * 2002-03-06 2006-03-28 Parascript, Llc Extracting text written on a check
JP2004082473A (ja) 2002-08-26 2004-03-18 Konica Minolta Holdings Inc 画像形成装置
JP3815567B2 (ja) * 2003-03-31 2006-08-30 日本電気株式会社 コンピュータシステム、コンピュータプログラム、コンピュータ間の通信方法、構造化文書の符号化方法、符号化された構造化文書の復号方法
KR100533810B1 (ko) * 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017151639A (ja) * 2016-02-23 2017-08-31 大日本印刷株式会社 書類撮像装置、書類撮像方法、および、書類撮像装置用のプログラム
JP2019095849A (ja) * 2017-11-17 2019-06-20 富士ゼロックス株式会社 文書処理装置およびプログラム
JP7035474B2 (ja) 2017-11-17 2022-03-15 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム
JP2019101512A (ja) * 2017-11-29 2019-06-24 小林クリエイト株式会社 文字認識プログラム
JP2019153357A (ja) * 2019-06-25 2019-09-12 大日本印刷株式会社 書類撮像装置、書類撮像方法、および、書類撮像装置用のプログラム
JPWO2021090567A1 (ja) * 2019-11-06 2021-05-14
WO2021090567A1 (ja) * 2019-11-06 2021-05-14 三菱電機ビルテクノサービス株式会社 日報データ整形装置
JP7206415B2 (ja) 2019-11-06 2023-01-17 三菱電機ビルソリューションズ株式会社 日報データ整形装置

Also Published As

Publication number Publication date
US20080187221A1 (en) 2008-08-07
US8213717B2 (en) 2012-07-03

Similar Documents

Publication Publication Date Title
JP2008192032A (ja) 文書処理装置、文書処理方法、プログラム
JP2008145611A (ja) 情報処理装置、プログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
JP2008059157A (ja) 書類確認支援システム、書類確認支援装置およびプログラム
JP2006301695A (ja) 文書処理装置およびプログラム
JP2007005950A (ja) 画像処理装置及びネットワークシステム
US11218612B2 (en) Image processing apparatus for generating an electronic file of a document image from an optically captured image, and non-transitory computer readable recording medium that records image processing program for generating an electronic file of a document image from an optically captured image
JP2008276677A (ja) 文字認識支援装置、文字認識装置及びプログラム
JP2008282094A (ja) 文字認識処理装置
US7844138B2 (en) History control apparatus
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JP4143245B2 (ja) 画像処理方法および装置並びに記憶媒体
JP6561876B2 (ja) 情報処理装置及びプログラム
JP7268764B1 (ja) 画像処理装置、画像処理方法および画像処理プログラム
JP2004164376A (ja) 識別コード添付帳票、帳票読取プログラム、及び帳票作成プログラム
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
JP2005208934A (ja) 文書配信処理装置及び文書配信処理プログラム
JP2007173938A (ja) 画像処理装置、画像処理方法、及び、画像処理プログラム
JP4974794B2 (ja) 文書認識装置、文書認識方法、コンピュータプログラム
JP6489041B2 (ja) 情報処理装置及びプログラム
US10659654B2 (en) Information processing apparatus for generating an image surrounded by a marking on a document, and non-transitory computer readable recording medium that records an information processing program for generating an image surrounded by a marking on a document
JP2008123446A (ja) ログ情報管理システム、ログ情報管理装置、ログ情報管理方法及びログ情報管理プログラム
JP6565740B2 (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090210

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20100712