JP3824209B2 - 文書自動分割装置 - Google Patents

文書自動分割装置 Download PDF

Info

Publication number
JP3824209B2
JP3824209B2 JP2001119918A JP2001119918A JP3824209B2 JP 3824209 B2 JP3824209 B2 JP 3824209B2 JP 2001119918 A JP2001119918 A JP 2001119918A JP 2001119918 A JP2001119918 A JP 2001119918A JP 3824209 B2 JP3824209 B2 JP 3824209B2
Authority
JP
Japan
Prior art keywords
document
delimiter
image
document image
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001119918A
Other languages
English (en)
Other versions
JP2002312385A (ja
Inventor
敬 平野
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001119918A priority Critical patent/JP3824209B2/ja
Publication of JP2002312385A publication Critical patent/JP2002312385A/ja
Application granted granted Critical
Publication of JP3824209B2 publication Critical patent/JP3824209B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

【0001】
【発明の属する技術分野】
この発明は、複数文書の文書画像を一括して文書管理システムに登録する際、文書の区切りを自動判定して、それら文書画像を文書単位に分割する文書自動分割装置に関する。
【0002】
【従来の技術】
従来の文書管理システムでは、スキャナで読込んだ文書画像群の内容をオペレータが目視でチェックし、ツールを利用して文書の区切り位置を指定することにより、文書画像群を文書単位に分割して登録していた。そのため、オペレータが文書の区切り位置を判定するための労力を要し、文書登録時の妨げとなっていた。
【0003】
この対策の一つとして、スキャナで文書を読込む際、機械が容易に判別可能な仕切り用紙を予め文書間に挟むことで、文書を半自動的に分割する方式が特許2962961号に提示されている。以下、この文書分割装置を従来例として、図14と図15を用いて説明する。
【0004】
図14は従来方式における登録処理のフローチャートであり、図15は登録する紙文書の例を示す。図15中の符号1501は仕切り用紙、1502は複数頁からなる1連の文書、1503は特定画像領域、1504はデータ記載領域を示す。以降、図14に示すフローチャートを参照して従来例の動作を説明する。
【0005】
登録の際は、まず、登録する紙文書の束をスキャナのADFにセットする(ST1401)。この時、各文書の先頭には仕切り用紙を付ける。例えば、図15に示す2つの文書1502を登録する場合、両文書の先頭に仕切り用紙1501を付ける。
【0006】
次に、スキャナ読込み処理(ST1402)では、スキャナのADFから1枚の紙文書を読込んで文書画像に変換する。
そして、仕切り用紙判定処理(ST1403)では、読込んだ文書画像が仕切り用紙か、登録する文書かを判定する。具体的には、図15に示す特定画像領域1503の内部を解析して、内部に文字列「◆仕切り用紙◆」が記入されていれば仕切り用紙と判定し、他の場合は登録する文書と判定する。
【0007】
ここで、仕切り用紙と判定された場合は、仕切り用紙情報読取処理(ST1404)を行う。この処理では仕切り用紙上のデータ記載領域1504を解析し、そこに記されている文書の登録先の情報を読取る。逆に文書画像が登録する文書であると判定された場合は、イメージ格納処理(ST1405)を行う。この処理では既に仕切り用紙から読込まれた文書の登録先の情報に従って文書画像を文書管理システムに登録する。
【0008】
その後、スキャナのADFに次の用紙があるかを確認し(ST1406)、用紙がなくなるまでスキャナ読込み処理(ST1402)からの処理を繰り返す。
【0009】
以上の処理によれば、各文書の先頭に仕切り用紙を付けてスキャナから読込み、読込んだ文書画像が仕切り用紙か否かを機械が自動判定することにより、人手で文書の区切りを判定する作業なしに文書を文書管理システムへ登録することができる。
【0010】
【発明が解決しようとする課題】
しかしながら、上述した従来方式では、予め人間が文書間に仕切り用紙を入れておく必要であり、仕切り用紙を入れる作業無しで文書を自動分割することができない課題がある。
【0011】
この課題に対して、文書画像上の固定領域内から文字を認識し、その認識結果に特定の文字列が含まれていれば、その文書画像を文書の区切りと判定する仕切り用紙の不要な文書自動分割装置が特開平11-039465号公報に示されている。例えば、文書画像の上端に「社員名簿」という文字列が記入されている場合、この文書画像を文書の先頭頁と判定する。しかし、この方式は形式の明らかな定型の文書を前提としており、形式が不明な雑多な文書が入力される場合には適用が困難な課題がある。
【0012】
この発明はかかる問題点を解決するものであり、仕切り用紙が不要であり、かつ形式が不明な雑多な文書が入力される場合でも、文書の区切りを自動的に判定できる文書自動分割装置の提供を目的とする。
【0013】
【課題を解決するための手段】
この発明に係る文書自動分割装置は、複数文書を読み込んで文書画像を作成する画像読込手段と、 前記画像読込手段により作成された文書画像を格納する文書画像格納バッファと、前記文書画像格納バッファに格納された文書画像中の文字を認識する文字認識手段と、前記文書画像格納バッファに格納された文書画像の解析結果と前記文字認識手段による文字認識結果から文書の区切りを判定するための文書区切り情報を抽出する文書区切り情報抽出手段と、前記文書区切り情報抽出手段により抽出された文書区切り情報を元にして文書の区切りを判定する文書区切り判定手段と、前記文書区切り判定手段による文書の区切り判定結果を表示して文書区切りの修正・確認を行う文書区切り候補選択手段と、前記文書区切り判定手段による文書の区切りの判定結果または前記文書区切り候補選択手段により修正した文書の区切りを用いて文書画像を文書単位に分けて文書管理システムに登録する文書管理システム登録手段とを備えたものである。
【0014】
また、前記文書区切り情報抽出手段は、文書の先頭頁に含まれる頻度の高い文字列である開始予約語と、文書の最終頁に含まれる頻度の高い文字列である終了予約語を文書画像の文字認識結果から抽出し、この開始予約語と終了予約語の有無を、文書区切り情報として用いることを特徴とするものである。
【0015】
また、前記文書区切り情報抽出手段は、文書画像の文字認識結果から文書の記述内容を表す代表的な単語群を抽出し、その前頁から同様な手段で抽出した単語群と比較することで文書画像間の記述内容の類似性を求め、これを文書区切り情報として用いることを特徴とするものである。
【0022】
また、前記文書区切り判定手段は、文書区切り情報を入力とした判別分析法により、対象とする文書画像が文書の先頭頁か、それ以外の頁であるかを判別し、文書の先頭頁と判別された文書画像を先頭頁として文書画像を文書単位に分割することを特徴とするものである。
【0023】
さらに、前記文書区切り候補選択手段は、文書区切り判定手段で得た文書区切りの判定結果をディスプレイに表示する際、判定結果の信頼度を基準として、文書区切り毎に表示方法を変えることを特徴とするものである。
【0024】
【発明の実施の形態】
以下、この発明の実施の形態について図1〜図13を用いて説明する。
図1は、この発明の実施の形態に係る文書自動分割装置を示す構成図である。図1において、101は複数文書を読み込んで文書画像を作成する画像読込手段、102は読込んだ文書画像を蓄える文書画像格納バッファ、103は文書画像中の文字を認識する文字認識手段、104は文書画像の解析結果と文字認識結果から文書の区切りを判定するための文書区切り情報を抽出する文書区切り情報抽出手段、105は文書区切り情報を元にして文書の区切りを判定する文書区切り判定手段、106は文書の区切り判定結果を表示して文書区切りの修正・確認を行う文書区切り候補選択手段、107は文書画像を文書単位に分けて文書管理システムに登録する文書管理システム登録手段である。
【0025】
図2は、入力する文書画像の例を示す図である。
また、図3は、文書区切り情報抽出手段104の構成図であり、301は項目分類手段、302は開始終了予約語抽出手段、303は記述内容抽出手段、304は文頭文末空白領域抽出手段、305は用紙サイズ抽出手段、306は文字サイズ・文字列方向算出手段、307は項目分類情報、308は開始終了予約語リスト、309は言語辞書、310は文書区切り情報生成手段である。
【0026】
また、図4は、項目分類手段の結果例を示す図であり、401は文書タイトル領域、402はヘッダ領域、403は頁番号領域である。
また、図5は、開始終了予約語リストの例を示す図である。
また、図6は、開始終了予約語抽出結果の例を示す図であり、601は開始予約語、602は終了予約語を示す。
【0027】
また、図7は、記述内容抽出手段の結果例を示す図である。
また、図8は、文頭文末空白領域抽出手段の結果例を示す図であり、801はヒストグラム、802は文頭空白領域、803は文末空白領域である。
また、図9は、用紙サイズ抽出手段の結果例を示す図である。
【0028】
また、図10は、文字サイズ・文字列方向算出手段の結果例を示す図である。
また、図11は、文書区切り判定手段の結果例を示す図であり、1101は区切られた1文書である。
また、図12は、文書区切り候補の表示例1を示す図であり、1201は文書の区切り位置を示すマークである。
さらに、図13は、文書区切り候補の表示例2を示す図であり、1301は文書の区切り位置を示すマークである。
【0029】
以降、図1〜13を用いて本実施の形態の動作を説明する。
まず、図1の画像読込手段101は、文書管理システムに登録する文書の束をスキャナ等で読込み、文書画像を作成する。そして、作成した文書画像を文書画像格納バッファ102に格納する。ここで、文書の束は、図2に示すような雑多な形式を持つ複数の文書を束ねたものであり、例えば紙ファイルに閉じられている文書群をそのまま取出した紙束である。
【0030】
次に、文字認識手段103は、文書画像格納バッファ102に格納した文書画像に対して文字認識処理を行い、文書の記入内容をテキストに変換する。
次に、文書区切り情報抽出手段104は、文字認識手段103で得た文字認識結果と、文書画像格納バッファ102に格納した文書画像を解析して、文書の区切りを判定するための指標となる文書区切り情報を、文書画像毎に抽出する。以降、この処理内容について、図3に示す構成図に従い詳しく説明する。
【0031】
まず、項目分類手段301は、文書画像上から文書タイトル領域や、ヘッダ領域、頁番号領域を抽出する。この処理は、特開平10-240901号公報の「文書ファイリング装置及び文書ファイリング方法」に記載の方式により実現できる。具体的には、項目分類情報307に予め格納した文書構造のレイアウト規則(文書タイトルは文書画像の上にある等)や、文書項目ごとの記述内容(章節には数字が含まれる等)に従い、文字認識結果を解析することで実現する。例えば、図2の文書例に本処理を適用した結果、図4に示す文書タイトル領域401、ヘッダ領域402、頁番号領域403を得る。
【0032】
次に、開始終了予約語抽出手段302は、まず、開始終了予約語リスト308に記述された開始予約語と終了予約語を読み出す。ここで、開始予約語は、文書の先頭頁に含まれる頻度の高い文字列を、終了予約語は文書の最終頁に含まれる頻度の高い文字列である。例えば、開始終了予約語リスト308には、図5に示すように開始予約語として「はじめに」や「アブストラクト」が、終了予約語として「まとめ」「以上」「最後に」が記述されている。その後、開始終了予約語抽出手段302は、文字認識結果のテキスト中から開始予約語や終了予約語と一致する文字列を探す。例えば、図2の文書例に本処理を適用した結果、図6に示すように開始予約語に一致した文字列601と、終了予約語に一致した文字列602を得る。
【0033】
次に、記述内容抽出手段303は、言語辞書309の内容に従って、文書の内容に含まれる代表的な単語群を抽出し、その前頁から同様な手段で抽出した単語群と比較することで文書画像間の記述内容の類似性を求める。例えば、言語情報309が単語のリストの場合、その単語が文字認識結果のテキストに含まれるか否かを調べる。この処理を図2の文書例に適用した結果を図7に示す。図7は、帳票画像にどのような単語が含まれているかを示しており、図中の○印は単語が含まれていることを意味する。ここで、例えば帳票画像D1には、「顔画像」、「認識」、「調査」、「結果」が含まれ、帳票画像D2には、「顔画像」、「認識」、「調査」が含まれていることが分かる。
【0034】
次に、文頭文末空白領域抽出手段304では、文書画像を画像処理的に解析して文書の上端と下端にある空白領域を検出する。ここで、文書の上端にある空白領域を文頭空白領域、下端にある空白領域を文末空白領域と呼ぶ。文頭空白領域の検出は、例えば図8に示すように、まず、文書画像の横線上にある黒画素数をカウントしたヒストグラム801を作成し、次に、文書の上端から下端に向かってヒストグラムの値が0である横線の本数を数える。この横線の本数が一定数以上である場合、この横線を束ねた領域を文頭空白領域と判定する。ここでは、文頭空白領域の高さを、横線の本数Hで表す。同様に、文末空白領域は前記処理を文書の下端から上端に向かって行い抽出する。この処理を図2の文書画像例に適用した結果、図8に示す文頭空白領域802と文末空白領域803を得る。
【0035】
次に、用紙サイズ抽出手段305では、各文書画像の用紙サイズ(A4縦、A4横、B5縦等)を求める。この用紙サイズは各文書画像の幅と高さより容易に求めることができる。例えば、この処理を図2の文書画像例に適用することで図9に示す結果を得る。
【0036】
次に、文字サイズ・文字列方向算出手段306では、文書画像に含まれる文字の平均サイズと文字列の方向(縦書、横書)を求める。文字の平均サイズは、文字認識処理した際に1文字として認識された文字イメージの幅高さを平均することで算出できる。また、文字列の方向は、文書画像中に縦書の文字列が多い場合は縦書、横書きの文字列が多い場合は横書と判定する。各文字列が縦書か横書かは、一般の文字認識処理の過程において判定されているため、この結果を用いる。
【0037】
最後に、文書区切り情報生成手段310は、前記処理で求めた開始終了予約語の有無や、記述内容に従って、各文書画像が持つ文書区切り情報を生成する。ここで、i番目の文書画像が持つ文書区切り情報Siは、下式(1)に示す10次元のベクトルで表す。
文書区切り情報Si={x1,x2,・・・,x10} (1)
・x1:開始予約語の有無
・x2:終了予約語の有無
・x3:記述内容の類似性
・x4:文頭空白領域の高さ
・x5:文末空白領域の高さ
・x6:用紙サイズの相違
・x7:平均文字サイズの相違
・x8:文字列方向の相違
・x9:ヘッダ領域内文字認識結果の相違
・x10:頁番号の連続性
【0038】
式(1)において、情報量x1は開始予約語の有無を示す値であり、例えば文書画像iに含まれる開始予約語の数である。同様に、情報量x2は、その前頁に含まれる終了予約語の数である。
【0039】
情報量x3は、文書画像間における記述内容の類似性を示す値であり、文書画像iとその前頁とで記述内容が類似するほど大きな値を持つ。この値として、例えば文書画像iから記述内容抽出手段303で抽出した単語群と、その前頁から記述内容抽出手段303で抽出した単語群のうち、両方に含まれる単語の数を用いることができる。この場合、例えば、図7に示す記述内容抽出手段の結果例において、文書画像D2はx3=3、文書画像D4はx3=0となる。
【0040】
次に、情報量x4は文頭空白領域の有無を示す値であり、例えば文書画像iに含まれる文頭空白領域の高さHである。また、情報量x5は文末空白領域の有無を示す値であり、例えば文書画像iに含まれる文末空白領域の高さHである。
【0041】
情報量x6は文書画像間での用紙サイズの相違を示す値である。例えば、文書画像iとその前頁とで用紙サイズが同じ場合は値0、異なる場合は値1を持つ。具体的に、図9に示す用紙サイズ抽出手段305の結果例において、文書画像D2は文書画像D1と同じ用紙サイズを持つためにx5=0、文書画像D7は文書画像D6と用紙サイズが異なるためにx5=1となる。
【0042】
情報量x7は文書画像間での平均文字サイズの相違を示す値であり、文字画像iの平均文字サイズと、その前頁の平均文字サイズとの差である。例えば、図10に示す文字サイズ・文字列方向算出手段306の処理結果例において、文書画像D2は文書画像D1と同じ平均文字サイズを持つためにx7=0、文書画像D4は文書画像D3よりも平均文字サイズが2大きいためにx7=2となる。
【0043】
情報量x8は文書画像間での文字列方向の相違を示す値であり、文書画像iとその前頁とで文字列方向が同じ場合は値0、異なる場合は値1を持つ。例えば、図10に示す文字サイズ・文字列方向算出手段306の処理結果例において、文書画像D2は文書画像D1と文字列方向が同じであるためx8=0、文書画像D6は文書画像D5と文字列方向が異なるためx8=1となる。
【0044】
情報量x9は文書画像間でのヘッダ領域の文字認識結果の相違を示す値であり、文書画像iとその前頁とでヘッダ領域の文字認識結果が同じ場合は値0、異なる場合は値1を持つ。例えば、図4に示す項目分類手段の結果例において、文書画像D2と文書画像D1のヘッダ領域では「報告書A」という同じ文字認識結果が得られているため、文書画像D2はx9=0となる。また、文書画像D4にはヘッダ領域がないが、文書画像D3ではヘッダ領域から「報告書A」という文字認識結果が選られているため、文書画像D4はx9=1となる。
【0045】
最後に、情報量x10は文書画像間での頁番号の連続性を示す値であり、文書画像iとその前頁とで頁番号領域の文字認識の値が連続値である場合は値0、不連続な場合は値1を持つ。例えば図4に示す項目分類手段の結果例において、文書画像D9の頁番号は732、文書画像D8の頁番号は731であり頁番号が連続している。そのために文書画像D9はx10=0となる。逆に、文書画像D10の頁番号は760であり、文書画像D9の頁番号は731とは不連続なため、文書画像D10はx10=1となる。同様に、文書画像D8では頁番号731が得られているが、文書画像D7には頁番号がないため、頁番号が不連続であり文書画像D8はx10=1となる。
以上が文書区切り情報抽出手段104の動作である。
【0046】
次に、文書区切り判定手段105の動作を説明する。
文書区切り判定手段105は、文書区切り情報抽出手段104で得た文書区切り情報Sを元に、文書の区切り位置を推定する。具体的には、ある文書画像iが、文書の先頭頁を意味する区切頁クラスと、文書の先頭頁でないことを意味する非区切頁クラスの、どちらに属するかを分類し、区切頁クラスに分類された文書画像を先頭頁として文書を分割する。例えば、この処理を図2の文書画像例に適用した結果、図11に示すように文書D1、D4、D6、D7、D8、D10が区切頁クラスに分類され、これらを先頭頁として区切られた文書群1101を得る。
【0047】
ここで、区切頁クラスと非区切頁クラスへの分類は、例えば「パソコン統計解析ハンドブックII多変量解析編」(共立出版株式会社)に記載の判別分析法を用いて実現できる。判別分析法は多変量解析手法の一つであり、予め用意した区切頁クラスに属する文書画像が持つ文書区切り情報Sの集合と、非区切頁クラスに属する文書画像が持つ文書区切り情報Sの集合を学習データとして識別関数を生成し、これを用いて未知の文書画像iがどのクラスに属するかを判別する方式である。具体的には、生成した識別関数に対して、文書画像iより得た文書区切り情報Siを入力すると、文書画像iと各クラスとのズレを示す距離値Giを計算し、距離値Giが小さい方のクラスに分類する。
【0048】
次に、文書区切り候補選択手段106は、文書区切り判定手段105で得た自動分割の結果をオペレータに表示して確認・修正を行う。ただし、オペレータが確認・修正を行う必要がない場合は、この文書区切り候補選択手段106を飛ばし、文書管理システム登録手段107により文書管理システムへ文書を登録してもよい。
【0049】
文書区切り候補選択手段106は、文書画像と文書区切りの判定結果をディスプレイに表示する。例えば、この処理を図2に示す文書画像例に適用した結果、図12の画面がディスプレイに表示される。図12において、1201は自動判定した文書の区切り位置を示すマークである。オペレータはこの表示内容を見て、文書区切りの判定結果に誤りがないかを確認し、誤りがある場合はキーボード等の操作によって修正する。具体的には、余計な個所を文書の区切りとして判定している場合は、その文書の区切りを削除する。逆に正しい文書の区切りが抽出されていない場合は、そこに文書の区切りを付加する。
【0050】
なお、ここでは、文書区切りの判定結果をディスプレイに表示する際、判定結果の信頼度を基準として、文書区切り毎に表示方法を変えても良い。ここで、信頼度の値は、例えば文書区切り判定手段105で求めた文書画像iと区切頁クラスとの距離値Giから算出できる。距離値Giが小さいほど文書画像iは文書区切りである可能性が高いため、信頼度=1/Giと定義できる。例えば、図13に示す表示画面は、信頼度が高いほど文書の区切り位置を示すマーク1301の線幅を太く表示したものである。これにより、オペレータは信頼性の低い個所のみを確認すれば良く、作業効率を高めることができる。
【0051】
最後に、文書管理システム登録手段107は、文書区切り判定手段105で得た文書の区切りの判定結果、または文書区切り候補選択手段106で修正した文書の区切りを用いて文書画像を文書単位に分割し、文書管理システムに登録する。
【0052】
以上が本装置の動作である。なお、前記実施の形態では、画像読込手段101の例としてスキャナを用いて説明したが、FAX等、他のデバイスを用いても良い。
【0053】
前記実施の形態によれば、文書画像を解析して文書区切り情報を抽出し、これをもとに文書の区切りを自動判定する。そのため、予め人手で文書間に仕切り用紙を挿入する必要がなく、作業を簡略化できる。また、文書区切り情報には、開始予約語の有無、記述内容の類似性、文頭・文末空白領域の高さ、用紙サイズの相違等、一般的な文書から抽出可能な多様な情報を用い、形式が既知の定型文書に特化したものでない。従って、形式が不明な雑多な文書が入力される場合でも、文書の区切りを自動判定できる。
【0054】
【発明の効果】
以上のように、この発明によれば、複数文書を読み込んで文書画像を作成する画像読込手段と、 前記画像読込手段により作成された文書画像を格納する文書画像格納バッファと、前記文書画像格納バッファに格納された文書画像中の文字を認識する文字認識手段と、前記文書画像格納バッファに格納された文書画像の解析結果と前記文字認識手段による文字認識結果から文書の区切りを判定するための文書区切り情報を抽出する文書区切り情報抽出手段と、前記文書区切り情報抽出手段により抽出された文書区切り情報を元にして文書の区切りを判定する文書区切り判定手段と、前記文書区切り判定手段による文書の区切り判定結果を表示して文書区切りの修正・確認を行う文書区切り候補選択手段と、前記文書区切り判定手段による文書の区切りの判定結果または前記文書区切り候補選択手段により修正した文書の区切りを用いて文書画像を文書単位に分けて文書管理システムに登録する文書管理システム登録手段とを備えたので、仕切り用紙が不要であり、かつ形式が不明な雑多な文書が入力される場合でも、文書の区切りを自動的に判定できる。
【0055】
また、前記文書区切り情報抽出手段は、文書の先頭頁に含まれる頻度の高い文字列である開始予約語と、文書の最終頁に含まれる頻度の高い文字列である終了予約語を文書画像の文字認識結果から抽出し、この開始予約語と終了予約語の有無を、文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0056】
また、前記文書区切り情報抽出手段は、文書画像の文字認識結果から文書の記述内容を表す代表的な単語群を抽出し、その前頁から同様な手段で抽出した単語群と比較することで文書画像間の記述内容の類似性を求め、これを文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0057】
また、前記文書区切り情報抽出手段は、文書画像を画像処理的に解析して、その上端と下端にある空白領域の大きさを求め、これを文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0058】
また、前記文書区切り情報抽出手段は、文書画像の用紙サイズを文書画像の幅と高さより求め、その前頁から求めた用紙サイズとの差異を文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0059】
また、前記文書区切り情報抽出手段は、文書画像の文字認識結果を元に、文書画像に含まれる文字の平均サイズを求め、その前頁から求めた文字の平均サイズとの差異を文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0060】
また、前記文書区切り情報抽出手段は、文書画像の文字認識結果を元に、文書画像に含まれる文字列の方向性(縦書き・横書き)を調べ、その前頁から求めた文字列の方向性との差異を文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0061】
また、前記文書区切り情報抽出手段は、対象とする文書画像から抽出したヘッダ領域の文字認識結果と、その前頁のヘッダ領域に対する文字認識結果との差異を文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0062】
また、前記文書区切り情報抽出手段は、対象とする文書画像から抽出した頁番号領域に対する文字認識結果と、その前頁の文書画像から抽出した頁番号領域に対する文字認識結果を調べ、その頁番号が連続するか不連続かを、文書区切り情報として用いるようにしたので、正確な文書区切り情報を抽出することが判定できる。
【0063】
また、前記文書区切り判定手段は、文書区切り情報を入力とした判別分析法により、対象とする文書画像が文書の先頭頁か、それ以外の頁であるかを判別し、文書の先頭頁と判別された文書画像を先頭頁として文書画像を文書単位に分割するようにしたので、文書の区切りを正確に判定できる。
【0064】
さらに、前記文書区切り候補選択手段は、文書区切り判定手段で得た文書区切りの判定結果をディスプレイに表示する際、判定結果の信頼度を基準として、文書区切り毎に表示方法を変えるようにしたので、文書区切り候補を正確に選択することができる。
【図面の簡単な説明】
【図1】 この発明の実施の形態に係る文書自動分割装置を示す構成図である。
【図2】 入力する文書画像の例を示す図である。
【図3】 図1の文書区切り情報抽出手段104の構成図である。
【図4】 項目分類手段の結果例を示す図である。
【図5】 開始終了予約語リストの例を示す図である。
【図6】 開始終了予約語抽出手段の結果例を示す図である。
【図7】 記述内容抽出手段の結果例を示す図である。
【図8】 文頭文末空白領域抽出手段の結果例を示す図である。
【図9】 用紙サイズ抽出手段の結果例を示す図である。
【図10】 文字サイズ・文字列方向算出手段の結果例を示す図である。
【図11】 文書区切り判定手段の結果例を示す図である。
【図12】 文書区切り候補の表示例1を示す図である。
【図13】 文書区切り候補の表示例2を示す図である。
【図14】 従来方式の処理フローチャートである。
【図15】 従来方式で登録する紙文書の例を示す図である。
【符号の説明】
101 画像読込手段、102 文書画像格納バッファ、103 文字認識手段、104 文書区切り情報抽出手段、105 文書区切り判定手段、106 文書区切り候補選択手段、107 文書管理システム登録手段、301 項目分類手段、302 開始終了予約語抽出手段、303 記述内容抽出手段、304文頭文末空白領域抽出手段、305 用紙サイズ抽出手段、306 文字サイズ・文字列方向算出手段、307 項目分類情報、308 開始終了予約語リスト、309 言語辞書、310 文書区切り情報生成処理、401 文書タイトル領域、402 ヘッダ領域、403 頁番号領域、601 開始予約語、602 終了予約語、801ヒストグラム、802 文頭空白領域、803 文末空白領域、1101 区切られた1文書、1201 文書の区切り位置を示すマーク、1301 文書の区切り位置を示すマーク、1501 仕切り用紙、1502 複数頁からなる1個の文書、1503 特定画像領域、1504 データ記載領域。

Claims (4)

  1. 複数文書を読み込んで文書画像を作成する画像読込手段と、
    前記画像読込手段により作成された文書画像を格納する文書画像格納バッファと、
    前記文書画像格納バッファに格納された文書画像中の文字を認識する文字認識手段と、
    前記文書画像格納バッファに格納された文書画像の解析結果と前記文字認識手段による文字認識結果から文書の区切りを判定するための文書区切り情報を抽出する文書区切り情報抽出手段と、
    前記文書区切り情報抽出手段により抽出された文書区切り情報を元にして文書の区切りを判定する文書区切り判定手段と、
    前記文書区切り判定手段による文書の区切り判定結果を表示して文書区切りの修正・確認を行う文書区切り候補選択手段と、
    前記文書区切り判定手段による文書の区切りの判定結果または前記文書区切り候補選択手段により修正した文書の区切りを用いて文書画像を文書単位に分けて文書管理システムに登録する文書管理システム登録手段と
    を備え、
    前記文書区切り情報抽出手段は、文書の先頭頁に含まれる頻度の高い文字列である開始予約語と、文書の最終頁に含まれる頻度の高い文字列である終了予約語を文書画像の文字認識結果から抽出し、この開始予約語と終了予約語の有無を、文書区切り情報として用いる
    ことを特徴とする文書自動分割装置。
  2. 複数文書を読み込んで文書画像を作成する画像読込手段と、
    前記画像読込手段により作成された文書画像を格納する文書画像格納バッファと、
    前記文書画像格納バッファに格納された文書画像中の文字を認識する文字認識手段と、
    前記文書画像格納バッファに格納された文書画像の解析結果と前記文字認識手段による文字認識結果から文書の区切りを判定するための文書区切り情報を抽出する文書区切り情報抽出手段と、
    前記文書区切り情報抽出手段により抽出された文書区切り情報を元にして文書の区切りを判定する文書区切り判定手段と、
    前記文書区切り判定手段による文書の区切り判定結果を表示して文書区切りの修正・確認を行う文書区切り候補選択手段と、
    前記文書区切り判定手段による文書の区切りの判定結果または前記文書区切り候補選択手段により修正した文書の区切りを用いて文書画像を文書単位に分けて文書管理システムに登録する文書管理システム登録手段と
    を備え、
    前記文書区切り情報抽出手段は、文書画像の文字認識結果から文書の記述内容を表す代表的な単語群を抽出し、その前頁から同様な手段で抽出した単語群と比較することで文書画像間の記述内容の類似性を求め、これを文書区切り情報として用いる
    ことを特徴とする文書自動分割装置。
  3. 請求項1または2に記載の文書自動分割装置において、
    前記文書区切り判定手段は、文書区切り情報を入力とした判別分析法により、対象とする文書画像が文書の先頭頁か、それ以外の頁であるかを判別し、文書の先頭頁と判別された文書画像を先頭頁として文書画像を文書単位に分割する
    ことを特徴とする文書自動分割装置。
  4. 請求項1ないしのいずれかに記載の文書自動分割装置において、
    前記文書区切り候補選択手段は、文書区切り判定手段で得た文書区切りの判定結果をディスプレイに表示する際、判定結果の信頼度を基準として、文書区切り毎に表示方法を変える
    ことを特徴とする文書自動分割装置。
JP2001119918A 2001-04-18 2001-04-18 文書自動分割装置 Expired - Fee Related JP3824209B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001119918A JP3824209B2 (ja) 2001-04-18 2001-04-18 文書自動分割装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001119918A JP3824209B2 (ja) 2001-04-18 2001-04-18 文書自動分割装置

Publications (2)

Publication Number Publication Date
JP2002312385A JP2002312385A (ja) 2002-10-25
JP3824209B2 true JP3824209B2 (ja) 2006-09-20

Family

ID=18970048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001119918A Expired - Fee Related JP3824209B2 (ja) 2001-04-18 2001-04-18 文書自動分割装置

Country Status (1)

Country Link
JP (1) JP3824209B2 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8693043B2 (en) 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
US7760372B2 (en) * 2005-01-11 2010-07-20 Xerox Corporation Method for automated document selection
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
JP4780184B2 (ja) * 2008-12-03 2011-09-28 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4793429B2 (ja) * 2008-12-03 2011-10-12 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
JP4843705B2 (ja) * 2009-11-20 2011-12-21 株式会社東芝 名刺読取装置
JP5653651B2 (ja) 2010-05-11 2015-01-14 シャープ株式会社 画像表示装置及びこれを備えた画像形成装置
JP5077413B2 (ja) 2010-09-30 2012-11-21 ブラザー工業株式会社 画像処理装置、画像処理方法、画像読取装置及び画像処理プログラム
JP5522024B2 (ja) 2010-12-27 2014-06-18 ブラザー工業株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
JP5583103B2 (ja) 2011-10-26 2014-09-03 シャープ株式会社 文書ファイル出力装置、文書ファイル出力方法、及びコンピュータプログラム
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
WO2014160426A1 (en) 2013-03-13 2014-10-02 Kofax, Inc. Classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
JP2016086450A (ja) * 2016-02-16 2016-05-19 シャープ株式会社 画像表示装置及び制御プログラム
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP7435020B2 (ja) 2020-02-26 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置、及び情報処理プログラム
US11295175B1 (en) 2020-09-25 2022-04-05 International Business Machines Corporation Automatic document separation
CN112733658B (zh) * 2020-12-31 2022-11-25 北京华宇信息技术有限公司 电子文档归档方法及其装置

Also Published As

Publication number Publication date
JP2002312385A (ja) 2002-10-25

Similar Documents

Publication Publication Date Title
JP3824209B2 (ja) 文書自動分割装置
KR100411697B1 (ko) 문자판독방법및주소판독방법
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US7120318B2 (en) Automatic document reading system for technical drawings
JP4996940B2 (ja) 帳票認識装置およびそのプログラム
KR100412317B1 (ko) 문자인식/수정방법및장치
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
US20020061135A1 (en) Pattern recognizing apparatus and method
JP3278471B2 (ja) 領域分割方法
US8225200B2 (en) Extracting a character string from a document and partitioning the character string into words by inserting space characters where appropriate
JPH1011531A (ja) 帳票読取装置
JP4280355B2 (ja) 文字認識装置
Chowdhury et al. Automated segmentation of math-zones from document images
JPH11161736A (ja) 文字認識方法
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006309347A (ja) 対象文書からキーワードを抽出する方法、システムおよびプログラム
CN116822634A (zh) 一种基于布局感知提示的文档视觉语言推理方法
JP2000181931A (ja) 自動オーサリング装置および記録媒体
KR100957508B1 (ko) 광학 문자 인식 시스템 및 방법
JPH11232439A (ja) 文書画像構造解析方法
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JPH0689365A (ja) 文書画像処理装置
CN113449763A (zh) 信息处理装置以及记录媒体
JPH07319880A (ja) キーワード抽出・検索装置
CN115131806B (zh) 一种基于深度学习的各类证件ocr图像信息识别方法、系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060622

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees