JP2002312385A - Document automated dividing device - Google Patents

Document automated dividing device

Info

Publication number
JP2002312385A
JP2002312385A JP2001119918A JP2001119918A JP2002312385A JP 2002312385 A JP2002312385 A JP 2002312385A JP 2001119918 A JP2001119918 A JP 2001119918A JP 2001119918 A JP2001119918 A JP 2001119918A JP 2002312385 A JP2002312385 A JP 2002312385A
Authority
JP
Japan
Prior art keywords
document
image
document image
break
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001119918A
Other languages
Japanese (ja)
Other versions
JP3824209B2 (en
Inventor
Takashi Hirano
敬 平野
Yasuhiro Okada
康裕 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2001119918A priority Critical patent/JP3824209B2/en
Publication of JP2002312385A publication Critical patent/JP2002312385A/en
Application granted granted Critical
Publication of JP3824209B2 publication Critical patent/JP3824209B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a document automated dividing device capable of omitting a partition sheet and automatically determining a break of a document even when various documents having unclear formats are inputted. SOLUTION: This document automated dividing device is provide with an image reading means 101 reading a plurality of documents and forming a document image, a document image storing buffer 102 storing the read document image, a letter identifying means 103 identifying a letter in the document image, a document dividing information extracting means 104 extracting document dividing information for determining a break of the document from an analysis result and a letter identification result of the document image, a document break determination means 105 determining the break of the document on the basis of the document dividing information, a document break possible selection means 106 displaying the document break determination result by the document break determination means to an operation for correction and confirmation, and a document management system registering means 107 dividing the document image into document units for registration in a document management system.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、複数文書の文書
画像を一括して文書管理システムに登録する際、文書の
区切りを自動判定して、それら文書画像を文書単位に分
割する文書自動分割装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an automatic document dividing apparatus for automatically judging a document break when registering document images of a plurality of documents collectively in a document management system and dividing the document images into document units. About.

【0002】[0002]

【従来の技術】従来の文書管理システムでは、スキャナ
で読込んだ文書画像群の内容をオペレータが目視でチェ
ックし、ツールを利用して文書の区切り位置を指定する
ことにより、文書画像群を文書単位に分割して登録して
いた。そのため、オペレータが文書の区切り位置を判定
するための労力を要し、文書登録時の妨げとなってい
た。
2. Description of the Related Art In a conventional document management system, an operator visually checks the contents of a document image group read by a scanner, and designates a document break position using a tool. It was divided into units and registered. For this reason, the operator needs effort to determine the break position of the document, which hinders the registration of the document.

【0003】この対策の一つとして、スキャナで文書を
読込む際、機械が容易に判別可能な仕切り用紙を予め文
書間に挟むことで、文書を半自動的に分割する方式が特
許2962961号に提示されている。以下、この文書
分割装置を従来例として、図14と図15を用いて説明
する。
As one of the countermeasures, Japanese Patent No. 2929661 proposes a method of semi-automatically dividing a document by sandwiching a separating paper which can be easily distinguished by a machine when the document is read by a scanner in advance. Have been. Hereinafter, this document division apparatus will be described as a conventional example with reference to FIGS. 14 and 15. FIG.

【0004】図14は従来方式における登録処理のフロ
ーチャートであり、図15は登録する紙文書の例を示
す。図15中の符号1501は仕切り用紙、1502は
複数頁からなる1連の文書、1503は特定画像領域、
1504はデータ記載領域を示す。以降、図14に示す
フローチャートを参照して従来例の動作を説明する。
FIG. 14 is a flowchart of a registration process in a conventional method, and FIG. 15 shows an example of a paper document to be registered. In FIG. 15, reference numeral 1501 denotes a partition sheet; 1502, a series of documents including a plurality of pages; 1503, a specific image area;
Reference numeral 1504 denotes a data description area. Hereinafter, the operation of the conventional example will be described with reference to the flowchart shown in FIG.

【0005】登録の際は、まず、登録する紙文書の束を
スキャナのADFにセットする(ST1401)。この
時、各文書の先頭には仕切り用紙を付ける。例えば、図
15に示す2つの文書1502を登録する場合、両文書
の先頭に仕切り用紙1501を付ける。
At the time of registration, first, a bundle of paper documents to be registered is set in the ADF of the scanner (ST1401). At this time, a partition sheet is attached to the head of each document. For example, when registering two documents 1502 shown in FIG. 15, a partition sheet 1501 is attached to the head of both documents.

【0006】次に、スキャナ読込み処理(ST140
2)では、スキャナのADFから1枚の紙文書を読込ん
で文書画像に変換する。そして、仕切り用紙判定処理
(ST1403)では、読込んだ文書画像が仕切り用紙
か、登録する文書かを判定する。具体的には、図15に
示す特定画像領域1503の内部を解析して、内部に文
字列「◆仕切り用紙◆」が記入されていれば仕切り用紙
と判定し、他の場合は登録する文書と判定する。
Next, a scanner reading process (ST140)
In 2), one paper document is read from the ADF of the scanner and converted into a document image. In the partition paper determination process (ST1403), it is determined whether the read document image is a partition paper or a document to be registered. Specifically, the inside of the specific image area 1503 shown in FIG. 15 is analyzed, and if the character string “{partition sheet}” is entered therein, it is determined that the sheet is a partition sheet. judge.

【0007】ここで、仕切り用紙と判定された場合は、
仕切り用紙情報読取処理(ST1404)を行う。この
処理では仕切り用紙上のデータ記載領域1504を解析
し、そこに記されている文書の登録先の情報を読取る。
逆に文書画像が登録する文書であると判定された場合
は、イメージ格納処理(ST1405)を行う。この処
理では既に仕切り用紙から読込まれた文書の登録先の情
報に従って文書画像を文書管理システムに登録する。
Here, if it is determined that the sheet is a partition sheet,
A partition paper information reading process (ST1404) is performed. In this process, the data description area 1504 on the partition paper is analyzed, and information on the registration destination of the document described therein is read.
Conversely, if it is determined that the document image is a document to be registered, image storage processing (ST1405) is performed. In this process, the document image is registered in the document management system according to the information of the registration destination of the document already read from the partition sheet.

【0008】その後、スキャナのADFに次の用紙があ
るかを確認し(ST1406)、用紙がなくなるまでス
キャナ読込み処理(ST1402)からの処理を繰り返
す。
[0008] Thereafter, it is confirmed whether or not the next sheet is present in the ADF of the scanner (ST1406), and the processing from the scanner reading process (ST1402) is repeated until there is no more sheet.

【0009】以上の処理によれば、各文書の先頭に仕切
り用紙を付けてスキャナから読込み、読込んだ文書画像
が仕切り用紙か否かを機械が自動判定することにより、
人手で文書の区切りを判定する作業なしに文書を文書管
理システムへ登録することができる。
According to the above-described processing, a partition sheet is added to the head of each document and read from the scanner, and the machine automatically determines whether or not the read document image is a partition sheet.
The document can be registered in the document management system without manually determining the break of the document.

【0010】[0010]

【発明が解決しようとする課題】しかしながら、上述し
た従来方式では、予め人間が文書間に仕切り用紙を入れ
ておく必要であり、仕切り用紙を入れる作業無しで文書
を自動分割することができない課題がある。
However, in the above-described conventional method, it is necessary for a human to insert a partition sheet between documents in advance, and the document cannot be automatically divided without an operation of inserting the partition sheet. is there.

【0011】この課題に対して、文書画像上の固定領域
内から文字を認識し、その認識結果に特定の文字列が含
まれていれば、その文書画像を文書の区切りと判定する
仕切り用紙の不要な文書自動分割装置が特開平11-0
39465号公報に示されている。例えば、文書画像の
上端に「社員名簿」という文字列が記入されている場
合、この文書画像を文書の先頭頁と判定する。しかし、
この方式は形式の明らかな定型の文書を前提としてお
り、形式が不明な雑多な文書が入力される場合には適用
が困難な課題がある。
In order to solve this problem, characters are recognized from within a fixed area on a document image, and if a specific character string is included in the recognition result, the document image is determined to be a document break. Unnecessary automatic document dividing device
No. 39465. For example, when a character string “employee list” is entered at the upper end of the document image, this document image is determined to be the first page of the document. But,
This method is based on a fixed-form document whose format is clear, and has a problem that it is difficult to apply when a variety of documents whose format is unknown are input.

【0012】この発明はかかる問題点を解決するもので
あり、仕切り用紙が不要であり、かつ形式が不明な雑多
な文書が入力される場合でも、文書の区切りを自動的に
判定できる文書自動分割装置の提供を目的とする。
The present invention has been made to solve the above problem, and has an automatic document dividing function that can automatically determine a document break even when a variety of documents whose format is unknown are not required. The purpose is to provide the device.

【0013】[0013]

【課題を解決するための手段】この発明に係る文書自動
分割装置は、複数文書を読み込んで文書画像を作成する
画像読込手段と、 前記画像読込手段により作成された
文書画像を格納する文書画像格納バッファと、前記文書
画像格納バッファに格納された文書画像中の文字を認識
する文字認識手段と、前記文書画像格納バッファに格納
された文書画像の解析結果と前記文字認識手段による文
字認識結果から文書の区切りを判定するための文書区切
り情報を抽出する文書区切り情報抽出手段と、前記文書
区切り情報抽出手段により抽出された文書区切り情報を
元にして文書の区切りを判定する文書区切り判定手段
と、前記文書区切り判定手段による文書の区切り判定結
果を表示して文書区切りの修正・確認を行う文書区切り
候補選択手段と、前記文書区切り判定手段による文書の
区切りの判定結果または前記文書区切り候補選択手段に
より修正した文書の区切りを用いて文書画像を文書単位
に分けて文書管理システムに登録する文書管理システム
登録手段とを備えたものである。
According to the present invention, there is provided an automatic document dividing apparatus, comprising: an image reading means for reading a plurality of documents to create a document image; and a document image storing means for storing the document image created by the image reading means. A buffer, character recognition means for recognizing characters in the document image stored in the document image storage buffer, and a document based on the analysis result of the document image stored in the document image storage buffer and the character recognition result by the character recognition means. Document delimiter information extracting means for extracting document delimiter information for determining a delimiter, document delimiter determining means for determining a document delimiter based on the document delimiter information extracted by the document delimiter information extracting means, A document break candidate selection means for displaying a document break determination result by the document break determination means to correct / confirm the document break; Document management system registration means for dividing a document image into document units and registering the document image in a document management system using a result of determination of a document break by the document break determination means or a break of the document corrected by the document break candidate selection means. Things.

【0014】また、前記文書区切り情報抽出手段は、文
書の先頭頁に含まれる頻度の高い文字列である開始予約
語と、文書の最終頁に含まれる頻度の高い文字列である
終了予約語を文書画像の文字認識結果から抽出し、この
開始予約語と終了予約語の有無を、文書区切り情報とし
て用いることを特徴とするものである。
[0014] The document delimiter information extracting means may include a start reserved word which is a frequently-used character string included in the first page of the document and an end reserved word which is a frequently-used character string included in the last page of the document. It is characterized in that it is extracted from the character recognition result of the document image, and the presence or absence of the reserved reserved words and the reserved reserved words is used as document delimiter information.

【0015】また、前記文書区切り情報抽出手段は、文
書画像の文字認識結果から文書の記述内容を表す代表的
な単語群を抽出し、その前頁から同様な手段で抽出した
単語群と比較することで文書画像間の記述内容の類似性
を求め、これを文書区切り情報として用いることを特徴
とするものである。
The document delimiter information extracting means extracts a representative word group representing the description content of the document from the result of character recognition of the document image, and compares it with the word group extracted from the previous page by the same means. Thus, the similarity of the description contents between the document images is obtained, and this is used as document delimiter information.

【0016】また、前記文書区切り情報抽出手段は、文
書画像を画像処理的に解析して、その上端と下端にある
空白領域の大きさを求め、これを文書区切り情報として
用いることを特徴とするものである。
Further, the document delimiter information extracting means analyzes the document image in an image processing manner, obtains the size of the blank area at the upper end and the lower end thereof, and uses this as the document delimiter information. Things.

【0017】また、前記文書区切り情報抽出手段は、文
書画像の用紙サイズを文書画像の幅と高さより求め、そ
の前頁から求めた用紙サイズとの差異を文書区切り情報
として用いることを特徴とするものである。
Further, the document separation information extracting means obtains the paper size of the document image from the width and height of the document image, and uses the difference between the paper size obtained from the previous page as the document separation information. Things.

【0018】また、前記文書区切り情報抽出手段は、文
書画像の文字認識結果を元に、文書画像に含まれる文字
の平均サイズを求め、その前頁から求めた文字の平均サ
イズとの差異を文書区切り情報として用いることを特徴
とするものである。
The document delimiter information extracting means obtains an average size of characters included in the document image based on the character recognition result of the document image, and determines a difference between the average size of the characters obtained from the previous page and the document. It is characterized in that it is used as delimiter information.

【0019】また、前記文書区切り情報抽出手段は、文
書画像の文字認識結果を元に、文書画像に含まれる文字
列の方向性(縦書き・横書き)を調べ、その前頁から求
めた文字列の方向性との差異を文書区切り情報として用
いることを特徴とするものである。
The document delimiter information extracting means checks the directionality (vertical writing / horizontal writing) of a character string included in the document image based on the character recognition result of the document image, and determines the character string obtained from the preceding page. Is used as document delimiter information.

【0020】また、前記文書区切り情報抽出手段は、対
象とする文書画像から抽出したヘッダ領域の文字認識結
果と、その前頁のヘッダ領域に対する文字認識結果との
差異を文書区切り情報として用いることを特徴とするも
のである。
Further, the document delimiter information extracting means uses a difference between a character recognition result of a header area extracted from a target document image and a character recognition result of a header area of the preceding page as document delimiter information. It is a feature.

【0021】また、前記文書区切り情報抽出手段は、対
象とする文書画像から抽出した頁番号領域に対する文字
認識結果と、その前頁の文書画像から抽出した頁番号領
域に対する文字認識結果を調べ、その頁番号が連続する
か不連続かを、文書区切り情報として用いることを特徴
とするものである。
The document delimiter information extracting means examines a character recognition result for the page number area extracted from the target document image and a character recognition result for the page number area extracted from the document image of the preceding page. It is characterized in that whether page numbers are continuous or discontinuous is used as document delimiter information.

【0022】また、前記文書区切り判定手段は、文書区
切り情報を入力とした判別分析法により、対象とする文
書画像が文書の先頭頁か、それ以外の頁であるかを判別
し、文書の先頭頁と判別された文書画像を先頭頁として
文書画像を文書単位に分割することを特徴とするもので
ある。
Further, the document break determining means determines whether the target document image is the first page of the document or another page by a discriminant analysis method in which the document break information is input. The document image is divided into document units with the document image determined to be a page as the top page.

【0023】さらに、前記文書区切り候補選択手段は、
文書区切り判定手段で得た文書区切りの判定結果をディ
スプレイに表示する際、判定結果の信頼度を基準とし
て、文書区切り毎に表示方法を変えることを特徴とする
ものである。
Further, the means for selecting a document break candidate includes:
When displaying the result of determination of a document break obtained by the document break determination means on a display, the display method is changed for each document break based on the reliability of the determination result.

【0024】[0024]

【発明の実施の形態】以下、この発明の実施の形態につ
いて図1〜図13を用いて説明する。図1は、この発明
の実施の形態に係る文書自動分割装置を示す構成図であ
る。図1において、101は複数文書を読み込んで文書
画像を作成する画像読込手段、102は読込んだ文書画
像を蓄える文書画像格納バッファ、103は文書画像中
の文字を認識する文字認識手段、104は文書画像の解
析結果と文字認識結果から文書の区切りを判定するため
の文書区切り情報を抽出する文書区切り情報抽出手段、
105は文書区切り情報を元にして文書の区切りを判定
する文書区切り判定手段、106は文書の区切り判定結
果を表示して文書区切りの修正・確認を行う文書区切り
候補選択手段、107は文書画像を文書単位に分けて文
書管理システムに登録する文書管理システム登録手段で
ある。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below with reference to FIGS. FIG. 1 is a configuration diagram showing an automatic document dividing apparatus according to an embodiment of the present invention. In FIG. 1, reference numeral 101 denotes an image reading unit that reads a plurality of documents to create a document image; 102, a document image storage buffer that stores the read document image; 103, a character recognition unit that recognizes characters in the document image; Document delimiter information extracting means for extracting document delimiter information for determining a document delimiter from a document image analysis result and a character recognition result,
Reference numeral 105 denotes a document delimiter determining unit that determines a document delimiter based on document delimiter information, 106 denotes a document delimiter candidate selector that displays a document delimitation determination result and corrects / confirms a document delimiter, and 107 denotes a document image. Document management system registration means for registering in the document management system in units of documents.

【0025】図2は、入力する文書画像の例を示す図で
ある。また、図3は、文書区切り情報抽出手段104の
構成図であり、301は項目分類手段、302は開始終
了予約語抽出手段、303は記述内容抽出手段、304
は文頭文末空白領域抽出手段、305は用紙サイズ抽出
手段、306は文字サイズ・文字列方向算出手段、30
7は項目分類情報、308は開始終了予約語リスト、3
09は言語辞書、310は文書区切り情報生成手段であ
る。
FIG. 2 is a diagram showing an example of an input document image. FIG. 3 is a block diagram of the document delimiter information extracting means 104, wherein 301 is an item classifying means, 302 is a start / end reserved word extracting means, 303 is a description content extracting means, 304
, 305 is a paper size extracting unit, 306 is a character size / character string direction calculating unit, 30 is
7 is item classification information, 308 is a list of reserved words for start and end, 3
Reference numeral 09 denotes a language dictionary, and reference numeral 310 denotes a document break information generating unit.

【0026】また、図4は、項目分類手段の結果例を示
す図であり、401は文書タイトル領域、402はヘッ
ダ領域、403は頁番号領域である。また、図5は、開
始終了予約語リストの例を示す図である。また、図6
は、開始終了予約語抽出結果の例を示す図であり、60
1は開始予約語、602は終了予約語を示す。
FIG. 4 is a diagram showing an example of the result of the item classifying means. Reference numeral 401 denotes a document title area, 402 denotes a header area, and 403 denotes a page number area. FIG. 5 is a diagram showing an example of a start / end reserved word list. FIG.
Is a diagram showing an example of a start / end reserved word extraction result;
1 indicates a start reserved word, and 602 indicates an end reserved word.

【0027】また、図7は、記述内容抽出手段の結果例
を示す図である。また、図8は、文頭文末空白領域抽出
手段の結果例を示す図であり、801はヒストグラム、
802は文頭空白領域、803は文末空白領域である。
また、図9は、用紙サイズ抽出手段の結果例を示す図で
ある。
FIG. 7 is a diagram showing an example of the result of the description content extracting means. FIG. 8 is a diagram showing an example of a result of the sentence end sentence end blank area extracting means.
802 is a sentence blank area, and 803 is a sentence blank area.
FIG. 9 is a diagram illustrating an example of the result of the sheet size extracting unit.

【0028】また、図10は、文字サイズ・文字列方向
算出手段の結果例を示す図である。また、図11は、文
書区切り判定手段の結果例を示す図であり、1101は
区切られた1文書である。また、図12は、文書区切り
候補の表示例1を示す図であり、1201は文書の区切
り位置を示すマークである。さらに、図13は、文書区
切り候補の表示例2を示す図であり、1301は文書の
区切り位置を示すマークである。
FIG. 10 is a diagram showing a result example of the character size / character string direction calculating means. FIG. 11 is a diagram showing an example of the result of the document break determination unit. Reference numeral 1101 denotes one divided document. FIG. 12 is a diagram showing a display example 1 of a document break candidate. Reference numeral 1201 denotes a mark indicating a document break position. Further, FIG. 13 is a diagram showing a display example 2 of the document break candidates, and 1301 is a mark indicating a break position of the document.

【0029】以降、図1〜13を用いて本実施の形態の
動作を説明する。まず、図1の画像読込手段101は、
文書管理システムに登録する文書の束をスキャナ等で読
込み、文書画像を作成する。そして、作成した文書画像
を文書画像格納バッファ102に格納する。ここで、文
書の束は、図2に示すような雑多な形式を持つ複数の文
書を束ねたものであり、例えば紙ファイルに閉じられて
いる文書群をそのまま取出した紙束である。
Hereinafter, the operation of this embodiment will be described with reference to FIGS. First, the image reading means 101 of FIG.
A bundle of documents to be registered in the document management system is read by a scanner or the like to create a document image. Then, the created document image is stored in the document image storage buffer 102. Here, the document bundle is a bundle of a plurality of documents having various formats as shown in FIG. 2, and is, for example, a paper bundle obtained by directly extracting a document group closed in a paper file.

【0030】次に、文字認識手段103は、文書画像格
納バッファ102に格納した文書画像に対して文字認識
処理を行い、文書の記入内容をテキストに変換する。次
に、文書区切り情報抽出手段104は、文字認識手段1
03で得た文字認識結果と、文書画像格納バッファ10
2に格納した文書画像を解析して、文書の区切りを判定
するための指標となる文書区切り情報を、文書画像毎に
抽出する。以降、この処理内容について、図3に示す構
成図に従い詳しく説明する。
Next, the character recognizing means 103 performs a character recognizing process on the document image stored in the document image storage buffer 102, and converts the contents of the document into text. Next, the document delimiter information extracting unit 104
03 and the document image storage buffer 10
The document image stored in the document image 2 is analyzed, and document delimiter information serving as an index for determining a document delimiter is extracted for each document image. Hereinafter, this processing content will be described in detail with reference to the configuration diagram shown in FIG.

【0031】まず、項目分類手段301は、文書画像上
から文書タイトル領域や、ヘッダ領域、頁番号領域を抽
出する。この処理は、特開平10-240901号公報
の「文書ファイリング装置及び文書ファイリング方法」
に記載の方式により実現できる。具体的には、項目分類
情報307に予め格納した文書構造のレイアウト規則
(文書タイトルは文書画像の上にある等)や、文書項目
ごとの記述内容(章節には数字が含まれる等)に従い、
文字認識結果を解析することで実現する。例えば、図2
の文書例に本処理を適用した結果、図4に示す文書タイ
トル領域401、ヘッダ領域402、頁番号領域403
を得る。
First, the item classifying means 301 extracts a document title area, a header area, and a page number area from a document image. This processing is described in "Document Filing Apparatus and Document Filing Method" in JP-A-10-240901.
Can be realized by the method described in (1). More specifically, according to the layout rules of the document structure stored in advance in the item classification information 307 (document title is above the document image), and the description contents of each document item (such as chapters containing numbers),
It is realized by analyzing the character recognition result. For example, FIG.
As a result of applying this processing to the document example of FIG. 4, a document title area 401, a header area 402, and a page number area 403 shown in FIG.
Get.

【0032】次に、開始終了予約語抽出手段302は、
まず、開始終了予約語リスト308に記述された開始予
約語と終了予約語を読み出す。ここで、開始予約語は、
文書の先頭頁に含まれる頻度の高い文字列を、終了予約
語は文書の最終頁に含まれる頻度の高い文字列である。
例えば、開始終了予約語リスト308には、図5に示す
ように開始予約語として「はじめに」や「アブストラク
ト」が、終了予約語として「まとめ」「以上」「最後
に」が記述されている。その後、開始終了予約語抽出手
段302は、文字認識結果のテキスト中から開始予約語
や終了予約語と一致する文字列を探す。例えば、図2の
文書例に本処理を適用した結果、図6に示すように開始
予約語に一致した文字列601と、終了予約語に一致し
た文字列602を得る。
Next, the start / end reserved word extracting means 302
First, a start reserved word and an end reserved word described in the start reserved end word list 308 are read. Here, the start reserved word is
The character string frequently included in the first page of the document, and the end reserved word is the character string frequently included in the last page of the document.
For example, in the start / end reserved word list 308, as shown in FIG. 5, "beginning" and "abstract" are described as start reserved words, and "summary", "over" and "finally" are described as end reserved words. Thereafter, the start / end reserved word extracting unit 302 searches the text of the character recognition result for a character string that matches the start reserved word or the end reserved word. For example, as a result of applying this processing to the document example in FIG. 2, a character string 601 matching the start reserved word and a character string 602 matching the end reserved word are obtained as shown in FIG.

【0033】次に、記述内容抽出手段303は、言語辞
書309の内容に従って、文書の内容に含まれる代表的
な単語群を抽出し、その前頁から同様な手段で抽出した
単語群と比較することで文書画像間の記述内容の類似性
を求める。例えば、言語情報309が単語のリストの場
合、その単語が文字認識結果のテキストに含まれるか否
かを調べる。この処理を図2の文書例に適用した結果を
図7に示す。図7は、帳票画像にどのような単語が含ま
れているかを示しており、図中の○印は単語が含まれて
いることを意味する。ここで、例えば帳票画像D1に
は、「顔画像」、「認識」、「調査」、「結果」が含ま
れ、帳票画像D2には、「顔画像」、「認識」、「調
査」が含まれていることが分かる。
Next, the description content extracting means 303 extracts a representative word group included in the contents of the document according to the contents of the language dictionary 309 and compares it with the word group extracted from the previous page by the same means. Thus, the similarity of the description contents between the document images is obtained. For example, when the language information 309 is a list of words, it is determined whether or not the words are included in the text of the character recognition result. FIG. 7 shows the result of applying this processing to the document example of FIG. FIG. 7 shows what words are included in the form image, and a circle in the figure means that a word is included. Here, for example, the form image D1 includes “face image”, “recognition”, “survey”, and “result”, and the form image D2 includes “face image”, “recognition”, and “survey”. You can see that it is.

【0034】次に、文頭文末空白領域抽出手段304で
は、文書画像を画像処理的に解析して文書の上端と下端
にある空白領域を検出する。ここで、文書の上端にある
空白領域を文頭空白領域、下端にある空白領域を文末空
白領域と呼ぶ。文頭空白領域の検出は、例えば図8に示
すように、まず、文書画像の横線上にある黒画素数をカ
ウントしたヒストグラム801を作成し、次に、文書の
上端から下端に向かってヒストグラムの値が0である横
線の本数を数える。この横線の本数が一定数以上である
場合、この横線を束ねた領域を文頭空白領域と判定す
る。ここでは、文頭空白領域の高さを、横線の本数Hで
表す。同様に、文末空白領域は前記処理を文書の下端か
ら上端に向かって行い抽出する。この処理を図2の文書
画像例に適用した結果、図8に示す文頭空白領域802
と文末空白領域803を得る。
Next, the head-end sentence end blank area extracting means 304 analyzes the document image by image processing and detects blank areas at the upper end and the lower end of the document. Here, the blank area at the upper end of the document is called the head blank area, and the blank area at the lower end is called the end blank area. For example, as shown in FIG. 8, the detection of the head blank region is performed by first creating a histogram 801 in which the number of black pixels on the horizontal line of the document image is counted. Count the number of horizontal lines where is 0. If the number of the horizontal lines is equal to or more than a certain number, the region where the horizontal lines are bundled is determined as the head blank region. Here, the height of the head blank area is represented by the number H of horizontal lines. Similarly, the end-of-sentence blank area is extracted by performing the above processing from the lower end to the upper end of the document. As a result of applying this processing to the example of the document image in FIG.
And a sentence end blank area 803 is obtained.

【0035】次に、用紙サイズ抽出手段305では、各
文書画像の用紙サイズ(A4縦、A4横、B5縦等)を
求める。この用紙サイズは各文書画像の幅と高さより容
易に求めることができる。例えば、この処理を図2の文
書画像例に適用することで図9に示す結果を得る。
Next, the paper size extracting means 305 obtains the paper size (A4 length, A4 width, B5 length, etc.) of each document image. This paper size can be easily obtained from the width and height of each document image. For example, by applying this processing to the document image example of FIG. 2, the result shown in FIG. 9 is obtained.

【0036】次に、文字サイズ・文字列方向算出手段3
06では、文書画像に含まれる文字の平均サイズと文字
列の方向(縦書、横書)を求める。文字の平均サイズ
は、文字認識処理した際に1文字として認識された文字
イメージの幅高さを平均することで算出できる。また、
文字列の方向は、文書画像中に縦書の文字列が多い場合
は縦書、横書きの文字列が多い場合は横書と判定する。
各文字列が縦書か横書かは、一般の文字認識処理の過程
において判定されているため、この結果を用いる。
Next, character size / character string direction calculating means 3
In step 06, the average size of the characters included in the document image and the direction of the character string (vertical writing, horizontal writing) are obtained. The average size of a character can be calculated by averaging the width and height of a character image recognized as one character during the character recognition process. Also,
The direction of the character string is determined as vertical writing when there are many vertical writing character strings in the document image, and as horizontal writing when there are many horizontal writing character strings.
Since the vertical and horizontal writing of each character string is determined in the course of general character recognition processing, this result is used.

【0037】最後に、文書区切り情報生成手段310
は、前記処理で求めた開始終了予約語の有無や、記述内
容に従って、各文書画像が持つ文書区切り情報を生成す
る。ここで、i番目の文書画像が持つ文書区切り情報S
iは、下式(1)に示す10次元のベクトルで表す。 文書区切り情報Si={x1,x2,・・・,x10} (1) ・x1:開始予約語の有無 ・x2:終了予約語の有無 ・x3:記述内容の類似性 ・x4:文頭空白領域の高さ ・x5:文末空白領域の高さ ・x6:用紙サイズの相違 ・x7:平均文字サイズの相違 ・x8:文字列方向の相違 ・x9:ヘッダ領域内文字認識結果の相違 ・x10:頁番号の連続性
Finally, the document break information generating means 310
Generates document delimiter information included in each document image according to the presence / absence of the start / end reserved words obtained in the above process and the description contents. Here, the document separation information S of the i-th document image
i is represented by a 10-dimensional vector shown in the following equation (1). Document delimiter information Si = {x1, x2,..., X10} (1)-x1: Presence or absence of reserved reserved word-x2: Presence or absence of reserved reserved word-x3: Similarity of description contents-x4: Blank of sentence head Height x5: Height of sentence end blank area x6: Difference in paper size x7: Difference in average character size x8: Difference in character string direction x9: Difference in character recognition result in header area x10: Page number Continuity

【0038】式(1)において、情報量x1は開始予約
語の有無を示す値であり、例えば文書画像iに含まれる
開始予約語の数である。同様に、情報量x2は、その前
頁に含まれる終了予約語の数である。
In equation (1), the information amount x1 is a value indicating the presence or absence of a reserved reserved word, for example, the number of reserved reserved words included in the document image i. Similarly, the information amount x2 is the number of end reserved words included in the previous page.

【0039】情報量x3は、文書画像間における記述内
容の類似性を示す値であり、文書画像iとその前頁とで
記述内容が類似するほど大きな値を持つ。この値とし
て、例えば文書画像iから記述内容抽出手段303で抽
出した単語群と、その前頁から記述内容抽出手段303
で抽出した単語群のうち、両方に含まれる単語の数を用
いることができる。この場合、例えば、図7に示す記述
内容抽出手段の結果例において、文書画像D2はx3=
3、文書画像D4はx3=0となる。
The information amount x3 is a value indicating the similarity of the description contents between the document images, and has a larger value as the description contents are more similar between the document image i and the previous page. As the value, for example, a word group extracted from the document image i by the description content extraction unit 303 and a word group extracted from the previous page.
The number of words included in both of the word groups extracted in step (1) can be used. In this case, for example, in the example of the result of the description content extracting means shown in FIG.
3. x3 = 0 for the document image D4.

【0040】次に、情報量x4は文頭空白領域の有無を
示す値であり、例えば文書画像iに含まれる文頭空白領
域の高さHである。また、情報量x5は文末空白領域の
有無を示す値であり、例えば文書画像iに含まれる文末
空白領域の高さHである。
Next, the information amount x4 is a value indicating the presence or absence of the head blank area, for example, the height H of the head blank area included in the document image i. The information amount x5 is a value indicating the presence or absence of the end-of-sentence blank area, for example, the height H of the end-of-sentence blank area included in the document image i.

【0041】情報量x6は文書画像間での用紙サイズの
相違を示す値である。例えば、文書画像iとその前頁と
で用紙サイズが同じ場合は値0、異なる場合は値1を持
つ。具体的に、図9に示す用紙サイズ抽出手段305の
結果例において、文書画像D2は文書画像D1と同じ用
紙サイズを持つためにx5=0、文書画像D7は文書画
像D6と用紙サイズが異なるためにx5=1となる。
The information amount x6 is a value indicating the difference in paper size between document images. For example, if the document image i and the previous page have the same paper size, the value is 0; Specifically, in the example of the result of the paper size extracting unit 305 shown in FIG. 9, the document image D2 has the same paper size as the document image D1, so x5 = 0, and the document image D7 has a different paper size from the document image D6. X5 = 1.

【0042】情報量x7は文書画像間での平均文字サイ
ズの相違を示す値であり、文字画像iの平均文字サイズ
と、その前頁の平均文字サイズとの差である。例えば、
図10に示す文字サイズ・文字列方向算出手段306の
処理結果例において、文書画像D2は文書画像D1と同
じ平均文字サイズを持つためにx7=0、文書画像D4
は文書画像D3よりも平均文字サイズが2大きいために
x7=2となる。
The information amount x7 is a value indicating the difference in the average character size between the document images, and is the difference between the average character size of the character image i and the average character size of the previous page. For example,
In the processing result example of the character size / character string direction calculating unit 306 shown in FIG. 10, since the document image D2 has the same average character size as the document image D1, x7 = 0, and the document image D4
Since the average character size is 2 larger than the document image D3, x7 = 2.

【0043】情報量x8は文書画像間での文字列方向の
相違を示す値であり、文書画像iとその前頁とで文字列
方向が同じ場合は値0、異なる場合は値1を持つ。例え
ば、図10に示す文字サイズ・文字列方向算出手段30
6の処理結果例において、文書画像D2は文書画像D1
と文字列方向が同じであるためx8=0、文書画像D6
は文書画像D5と文字列方向が異なるためx8=1とな
る。
The information amount x8 is a value indicating the difference in the character string direction between the document images. The information amount x8 has the value 0 when the character string direction is the same between the document image i and the previous page, and has the value 1 when the document image i is different. For example, the character size / character string direction calculating means 30 shown in FIG.
6, the document image D2 is the document image D1
And the character string direction is the same, x8 = 0, the document image D6
Since the character string direction is different from that of the document image D5, x8 = 1.

【0044】情報量x9は文書画像間でのヘッダ領域の
文字認識結果の相違を示す値であり、文書画像iとその
前頁とでヘッダ領域の文字認識結果が同じ場合は値0、
異なる場合は値1を持つ。例えば、図4に示す項目分類
手段の結果例において、文書画像D2と文書画像D1の
ヘッダ領域では「報告書A」という同じ文字認識結果が
得られているため、文書画像D2はx9=0となる。ま
た、文書画像D4にはヘッダ領域がないが、文書画像D
3ではヘッダ領域から「報告書A」という文字認識結果
が選られているため、文書画像D4はx9=1となる。
The information amount x9 is a value indicating the difference in the character recognition result in the header area between the document images. When the character recognition result in the header area is the same between the document image i and the previous page, the value 0 is set.
If different, it has the value 1. For example, in the example of the result of the item classifying means shown in FIG. 4, the same character recognition result as "report A" is obtained in the header area of the document image D2 and the document image D1, so that the document image D2 has x9 = 0. Become. Although the document image D4 has no header area, the document image D4
In No. 3, since the character recognition result “Report A” is selected from the header area, the document image D4 has x9 = 1.

【0045】最後に、情報量x10は文書画像間での頁
番号の連続性を示す値であり、文書画像iとその前頁と
で頁番号領域の文字認識の値が連続値である場合は値
0、不連続な場合は値1を持つ。例えば図4に示す項目
分類手段の結果例において、文書画像D9の頁番号は7
32、文書画像D8の頁番号は731であり頁番号が連
続している。そのために文書画像D9はx10=0とな
る。逆に、文書画像D10の頁番号は760であり、文
書画像D9の頁番号は731とは不連続なため、文書画
像D10はx10=1となる。同様に、文書画像D8で
は頁番号731が得られているが、文書画像D7には頁
番号がないため、頁番号が不連続であり文書画像D8は
x10=1となる。以上が文書区切り情報抽出手段10
4の動作である。
Finally, the information amount x10 is a value indicating the continuity of the page number between the document images. When the value of the character recognition of the page number area between the document image i and the preceding page is a continuous value, It has a value of 0, and a value of 1 if it is discontinuous. For example, in the result example of the item classifying means shown in FIG. 4, the page number of the document image D9 is 7
32, the page number of the document image D8 is 731 and the page numbers are continuous. Therefore, the document image D9 has x10 = 0. Conversely, the page number of the document image D10 is 760, and the page number of the document image D9 is discontinuous with 731. Therefore, the document image D10 has x10 = 1. Similarly, the page number 731 is obtained in the document image D8, but since there is no page number in the document image D7, the page numbers are discontinuous and the document image D8 has x10 = 1. The above is the document separation information extracting means 10
This is the operation of No. 4.

【0046】次に、文書区切り判定手段105の動作を
説明する。文書区切り判定手段105は、文書区切り情
報抽出手段104で得た文書区切り情報Sを元に、文書
の区切り位置を推定する。具体的には、ある文書画像i
が、文書の先頭頁を意味する区切頁クラスと、文書の先
頭頁でないことを意味する非区切頁クラスの、どちらに
属するかを分類し、区切頁クラスに分類された文書画像
を先頭頁として文書を分割する。例えば、この処理を図
2の文書画像例に適用した結果、図11に示すように文
書D1、D4、D6、D7、D8、D10が区切頁クラ
スに分類され、これらを先頭頁として区切られた文書群
1101を得る。
Next, the operation of the document break determination means 105 will be described. The document break determination unit 105 estimates a break position of a document based on the document break information S obtained by the document break information extraction unit 104. Specifically, a document image i
Is classified as a first page of the document, or a non-separator class, which means that it is not the first page of the document.The document image classified into the first page is classified as a first page. Split the document. For example, as a result of applying this processing to the document image example of FIG. 2, as shown in FIG. 11, the documents D1, D4, D6, D7, D8, and D10 are classified into the division page class, and these are divided as the first page. A document group 1101 is obtained.

【0047】ここで、区切頁クラスと非区切頁クラスへ
の分類は、例えば「パソコン統計解析ハンドブックII
多変量解析編」(共立出版株式会社)に記載の判別分析
法を用いて実現できる。判別分析法は多変量解析手法の
一つであり、予め用意した区切頁クラスに属する文書画
像が持つ文書区切り情報Sの集合と、非区切頁クラスに
属する文書画像が持つ文書区切り情報Sの集合を学習デ
ータとして識別関数を生成し、これを用いて未知の文書
画像iがどのクラスに属するかを判別する方式である。
具体的には、生成した識別関数に対して、文書画像iよ
り得た文書区切り情報Siを入力すると、文書画像iと
各クラスとのズレを示す距離値Giを計算し、距離値G
iが小さい方のクラスに分類する。
Here, the classification into the break page class and the non-break page class is described in, for example, "PC Statistical Analysis Handbook II".
Multivariate Analysis ”(Kyoritsu Shuppan Co., Ltd.). The discriminant analysis method is one of multivariate analysis methods, and includes a set of document delimiter information S included in a document image belonging to a preparatory page class and a set of document delimiter information S included in a document image belonging to a non-separable page class. Is used as learning data to generate an identification function, and using this to determine to which class the unknown document image i belongs.
Specifically, when the document separation information Si obtained from the document image i is input to the generated identification function, a distance value Gi indicating a deviation between the document image i and each class is calculated, and the distance value G is calculated.
Classify into the class with the smaller i.

【0048】次に、文書区切り候補選択手段106は、
文書区切り判定手段105で得た自動分割の結果をオペ
レータに表示して確認・修正を行う。ただし、オペレー
タが確認・修正を行う必要がない場合は、この文書区切
り候補選択手段106を飛ばし、文書管理システム登録
手段107により文書管理システムへ文書を登録しても
よい。
Next, the document break candidate selection means 106
The result of the automatic division obtained by the document break determination means 105 is displayed to the operator for confirmation and correction. However, when it is not necessary for the operator to confirm / correct the document, the document separation candidate selection unit 106 may be skipped and the document may be registered in the document management system by the document management system registration unit 107.

【0049】文書区切り候補選択手段106は、文書画
像と文書区切りの判定結果をディスプレイに表示する。
例えば、この処理を図2に示す文書画像例に適用した結
果、図12の画面がディスプレイに表示される。図12
において、1201は自動判定した文書の区切り位置を
示すマークである。オペレータはこの表示内容を見て、
文書区切りの判定結果に誤りがないかを確認し、誤りが
ある場合はキーボード等の操作によって修正する。具体
的には、余計な個所を文書の区切りとして判定している
場合は、その文書の区切りを削除する。逆に正しい文書
の区切りが抽出されていない場合は、そこに文書の区切
りを付加する。
The document segment candidate selection means 106 displays the document image and the result of the document segment decision on a display.
For example, as a result of applying this processing to the document image example shown in FIG. 2, the screen of FIG. 12 is displayed on the display. FIG.
In the figure, reference numeral 1201 denotes a mark indicating a document break position automatically determined. The operator looks at this display,
Check whether there is an error in the determination result of the document break, and if there is an error, correct it by operating a keyboard or the like. Specifically, when an extra portion is determined as a document break, the document break is deleted. Conversely, if the correct document break has not been extracted, the document break is added thereto.

【0050】なお、ここでは、文書区切りの判定結果を
ディスプレイに表示する際、判定結果の信頼度を基準と
して、文書区切り毎に表示方法を変えても良い。ここ
で、信頼度の値は、例えば文書区切り判定手段105で
求めた文書画像iと区切頁クラスとの距離値Giから算
出できる。距離値Giが小さいほど文書画像iは文書区
切りである可能性が高いため、信頼度=1/Giと定義
できる。例えば、図13に示す表示画面は、信頼度が高
いほど文書の区切り位置を示すマーク1301の線幅を
太く表示したものである。これにより、オペレータは信
頼性の低い個所のみを確認すれば良く、作業効率を高め
ることができる。
In this case, when displaying the determination result of the document break on the display, the display method may be changed for each document break based on the reliability of the determination result. Here, the value of the degree of reliability can be calculated, for example, from the distance value Gi between the document image i obtained by the document break determination means 105 and the page break class. Since the smaller the distance value Gi is, the more likely it is that the document image i is a document break, the reliability can be defined as 1 / Gi. For example, the display screen shown in FIG. 13 displays the line width of the mark 1301 indicating the document break position thicker as the reliability is higher. As a result, the operator only needs to check the places with low reliability, and the work efficiency can be improved.

【0051】最後に、文書管理システム登録手段107
は、文書区切り判定手段105で得た文書の区切りの判
定結果、または文書区切り候補選択手段106で修正し
た文書の区切りを用いて文書画像を文書単位に分割し、
文書管理システムに登録する。
Finally, the document management system registration means 107
Divides the document image into document units by using the document break determination result obtained by the document break determination means 105 or the document break corrected by the document break candidate selection means 106;
Register in the document management system.

【0052】以上が本装置の動作である。なお、前記実
施の形態では、画像読込手段101の例としてスキャナ
を用いて説明したが、FAX等、他のデバイスを用いて
も良い。
The above is the operation of the present apparatus. In the above embodiment, the scanner is described as an example of the image reading unit 101, but another device such as a facsimile may be used.

【0053】前記実施の形態によれば、文書画像を解析
して文書区切り情報を抽出し、これをもとに文書の区切
りを自動判定する。そのため、予め人手で文書間に仕切
り用紙を挿入する必要がなく、作業を簡略化できる。ま
た、文書区切り情報には、開始予約語の有無、記述内容
の類似性、文頭・文末空白領域の高さ、用紙サイズの相
違等、一般的な文書から抽出可能な多様な情報を用い、
形式が既知の定型文書に特化したものでない。従って、
形式が不明な雑多な文書が入力される場合でも、文書の
区切りを自動判定できる。
According to the embodiment, the document image is analyzed to extract the document separation information, and the separation of the document is automatically determined based on this information. Therefore, there is no need to manually insert a partition sheet between documents in advance, and the operation can be simplified. In addition, the document delimiter information uses various information that can be extracted from a general document, such as the presence or absence of a reserved reserved word, the similarity of the description content, the height of a blank area at the beginning and end of a sentence, the difference in paper size, and the like.
The format is not specific to known fixed-form documents. Therefore,
Even when a variety of unknown documents are input, the separation of the documents can be automatically determined.

【0054】[0054]

【発明の効果】以上のように、この発明によれば、複数
文書を読み込んで文書画像を作成する画像読込手段と、
前記画像読込手段により作成された文書画像を格納す
る文書画像格納バッファと、前記文書画像格納バッファ
に格納された文書画像中の文字を認識する文字認識手段
と、前記文書画像格納バッファに格納された文書画像の
解析結果と前記文字認識手段による文字認識結果から文
書の区切りを判定するための文書区切り情報を抽出する
文書区切り情報抽出手段と、前記文書区切り情報抽出手
段により抽出された文書区切り情報を元にして文書の区
切りを判定する文書区切り判定手段と、前記文書区切り
判定手段による文書の区切り判定結果を表示して文書区
切りの修正・確認を行う文書区切り候補選択手段と、前
記文書区切り判定手段による文書の区切りの判定結果ま
たは前記文書区切り候補選択手段により修正した文書の
区切りを用いて文書画像を文書単位に分けて文書管理シ
ステムに登録する文書管理システム登録手段とを備えた
ので、仕切り用紙が不要であり、かつ形式が不明な雑多
な文書が入力される場合でも、文書の区切りを自動的に
判定できる。
As described above, according to the present invention, image reading means for reading a plurality of documents to create a document image,
A document image storage buffer for storing a document image created by the image reading unit, a character recognition unit for recognizing characters in the document image stored in the document image storage buffer, and a character image stored in the document image storage buffer. Document delimiter information extracting means for extracting document delimiter information for determining a document delimiter from the analysis result of the document image and the character recognition result by the character recognizing means, and the document delimiter information extracted by the document delimiter information extracting means. Document delimiter judging means for judging a document delimiter based on the source, document delimiter candidate selecting means for displaying a document delimitation judgment result by the document delimiter and correcting and confirming the document delimiter; The document is determined using the determination result of the document break according to the document break or the document break corrected by the document break candidate selecting means. Document management system registration means for dividing images into document units and registering them in the document management system eliminates the need for partition paper and allows for the separation of documents even when a variety of unclear documents are input. Can be determined automatically.

【0055】また、前記文書区切り情報抽出手段は、文
書の先頭頁に含まれる頻度の高い文字列である開始予約
語と、文書の最終頁に含まれる頻度の高い文字列である
終了予約語を文書画像の文字認識結果から抽出し、この
開始予約語と終了予約語の有無を、文書区切り情報とし
て用いるようにしたので、正確な文書区切り情報を抽出
することが判定できる。
Further, the document delimiter information extracting means may include a start reserved word which is a character string frequently included in the first page of the document and an end reserved word which is a character string frequently included in the last page of the document. Since it is extracted from the character recognition result of the document image and the presence or absence of the reserved reserved word and the reserved end word is used as document delimiter information, it is possible to determine that accurate document delimiter information is to be extracted.

【0056】また、前記文書区切り情報抽出手段は、文
書画像の文字認識結果から文書の記述内容を表す代表的
な単語群を抽出し、その前頁から同様な手段で抽出した
単語群と比較することで文書画像間の記述内容の類似性
を求め、これを文書区切り情報として用いるようにした
ので、正確な文書区切り情報を抽出することが判定でき
る。
The document delimiter information extracting means extracts a representative word group representing the description content of the document from the result of character recognition of the document image, and compares it with the word group extracted from the previous page by the same means. Thus, the similarity of the description contents between the document images is obtained and used as the document delimiter information, so that it is possible to determine that accurate document delimiter information is extracted.

【0057】また、前記文書区切り情報抽出手段は、文
書画像を画像処理的に解析して、その上端と下端にある
空白領域の大きさを求め、これを文書区切り情報として
用いるようにしたので、正確な文書区切り情報を抽出す
ることが判定できる。
Further, the document separation information extracting means analyzes the document image by image processing, finds the size of the blank area at the upper end and the lower end, and uses this as the document separation information. It can be determined that accurate document separation information is extracted.

【0058】また、前記文書区切り情報抽出手段は、文
書画像の用紙サイズを文書画像の幅と高さより求め、そ
の前頁から求めた用紙サイズとの差異を文書区切り情報
として用いるようにしたので、正確な文書区切り情報を
抽出することが判定できる。
Further, the document separation information extracting means obtains the paper size of the document image from the width and height of the document image and uses the difference from the paper size obtained from the previous page as the document separation information. It can be determined that accurate document separation information is extracted.

【0059】また、前記文書区切り情報抽出手段は、文
書画像の文字認識結果を元に、文書画像に含まれる文字
の平均サイズを求め、その前頁から求めた文字の平均サ
イズとの差異を文書区切り情報として用いるようにした
ので、正確な文書区切り情報を抽出することが判定でき
る。
Further, the document delimiter information extracting means calculates the average size of the characters included in the document image based on the character recognition result of the document image, and determines the difference from the average size of the characters obtained from the previous page. Since it is used as delimiter information, it can be determined that accurate document delimiter information is extracted.

【0060】また、前記文書区切り情報抽出手段は、文
書画像の文字認識結果を元に、文書画像に含まれる文字
列の方向性(縦書き・横書き)を調べ、その前頁から求
めた文字列の方向性との差異を文書区切り情報として用
いるようにしたので、正確な文書区切り情報を抽出する
ことが判定できる。
The document delimiter information extracting means checks the directionality (vertical writing / horizontal writing) of a character string included in the document image based on the character recognition result of the document image, and determines the character string obtained from the previous page. Is used as document delimiter information, so that accurate document delimiter information can be determined to be extracted.

【0061】また、前記文書区切り情報抽出手段は、対
象とする文書画像から抽出したヘッダ領域の文字認識結
果と、その前頁のヘッダ領域に対する文字認識結果との
差異を文書区切り情報として用いるようにしたので、正
確な文書区切り情報を抽出することが判定できる。
Further, the document delimiter information extracting means uses the difference between the character recognition result of the header area extracted from the target document image and the character recognition result of the header area of the previous page as document delimiter information. Therefore, it can be determined that accurate document separation information is extracted.

【0062】また、前記文書区切り情報抽出手段は、対
象とする文書画像から抽出した頁番号領域に対する文字
認識結果と、その前頁の文書画像から抽出した頁番号領
域に対する文字認識結果を調べ、その頁番号が連続する
か不連続かを、文書区切り情報として用いるようにした
ので、正確な文書区切り情報を抽出することが判定でき
る。
The document delimiter information extracting means checks the character recognition result for the page number area extracted from the target document image and the character recognition result for the page number area extracted from the previous page document image. Since whether the page numbers are continuous or discontinuous is used as document delimiter information, it can be determined that accurate document delimiter information is to be extracted.

【0063】また、前記文書区切り判定手段は、文書区
切り情報を入力とした判別分析法により、対象とする文
書画像が文書の先頭頁か、それ以外の頁であるかを判別
し、文書の先頭頁と判別された文書画像を先頭頁として
文書画像を文書単位に分割するようにしたので、文書の
区切りを正確に判定できる。
The document break determining means determines whether the target document image is the first page of the document or another page by a discriminant analysis method using the document break information as an input. Since the document image is divided into document units with the document image determined to be a page as the top page, the break of the document can be accurately determined.

【0064】さらに、前記文書区切り候補選択手段は、
文書区切り判定手段で得た文書区切りの判定結果をディ
スプレイに表示する際、判定結果の信頼度を基準とし
て、文書区切り毎に表示方法を変えるようにしたので、
文書区切り候補を正確に選択することができる。
Further, the document segmenting candidate selection means includes:
When displaying the determination result of the document break obtained by the document break determination means on the display, the display method is changed for each document break based on the reliability of the determination result.
It is possible to accurately select a document break candidate.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 この発明の実施の形態に係る文書自動分割装
置を示す構成図である。
FIG. 1 is a configuration diagram showing an automatic document dividing apparatus according to an embodiment of the present invention.

【図2】 入力する文書画像の例を示す図である。FIG. 2 is a diagram showing an example of an input document image.

【図3】 図1の文書区切り情報抽出手段104の構成
図である。
FIG. 3 is a configuration diagram of a document separation information extraction unit 104 of FIG. 1;

【図4】 項目分類手段の結果例を示す図である。FIG. 4 is a diagram showing an example of a result of an item classifying unit.

【図5】 開始終了予約語リストの例を示す図である。FIG. 5 is a diagram showing an example of a start / end reserved word list.

【図6】 開始終了予約語抽出手段の結果例を示す図で
ある。
FIG. 6 is a diagram illustrating an example of a result of a start / end reserved word extracting unit;

【図7】 記述内容抽出手段の結果例を示す図である。FIG. 7 is a diagram illustrating an example of a result of a description content extracting unit.

【図8】 文頭文末空白領域抽出手段の結果例を示す図
である。
FIG. 8 is a diagram showing an example of a result of a sentence end sentence end blank area extracting unit.

【図9】 用紙サイズ抽出手段の結果例を示す図であ
る。
FIG. 9 is a diagram illustrating an example of a result of a paper size extracting unit;

【図10】 文字サイズ・文字列方向算出手段の結果例
を示す図である。
FIG. 10 is a diagram illustrating an example of a result of a character size / character string direction calculating unit.

【図11】 文書区切り判定手段の結果例を示す図であ
る。
FIG. 11 is a diagram illustrating an example of a result of a document break determination unit.

【図12】 文書区切り候補の表示例1を示す図であ
る。
FIG. 12 is a diagram showing a display example 1 of a document break candidate.

【図13】 文書区切り候補の表示例2を示す図であ
る。
FIG. 13 is a diagram showing a display example 2 of a document break candidate.

【図14】 従来方式の処理フローチャートである。FIG. 14 is a processing flowchart of a conventional method.

【図15】 従来方式で登録する紙文書の例を示す図で
ある。
FIG. 15 is a diagram showing an example of a paper document registered by a conventional method.

【符号の説明】[Explanation of symbols]

101 画像読込手段、102 文書画像格納バッフ
ァ、103 文字認識手段、104 文書区切り情報抽
出手段、105 文書区切り判定手段、106文書区切
り候補選択手段、107 文書管理システム登録手段、
301 項目分類手段、302 開始終了予約語抽出手
段、303 記述内容抽出手段、304文頭文末空白領
域抽出手段、305 用紙サイズ抽出手段、306 文
字サイズ・文字列方向算出手段、307 項目分類情
報、308 開始終了予約語リスト、309 言語辞
書、310 文書区切り情報生成処理、401 文書タ
イトル領域、402 ヘッダ領域、403 頁番号領
域、601 開始予約語、602 終了予約語、801
ヒストグラム、802 文頭空白領域、803 文末空
白領域、1101 区切られた1文書、1201 文書
の区切り位置を示すマーク、1301 文書の区切り位
置を示すマーク、1501 仕切り用紙、1502 複
数頁からなる1個の文書、1503 特定画像領域、1
504 データ記載領域。
101 image reading means, 102 document image storage buffer, 103 character recognizing means, 104 document break information extracting means, 105 document break determining means, 106 document break candidate selecting means, 107 document management system registration means,
301 item classification means, 302 start / end reserved word extraction means, 303 description content extraction means, 304 sentence end sentence blank area extraction means, 305 paper size extraction means, 306 character size / character string direction calculation means, 307 item classification information, 308 start End reserved word list, 309 language dictionary, 310 document break information generation processing, 401 document title area, 402 header area, 403 page number area, 601 start reserved word, 602 end reserved word, 801
Histogram, 802 blank area at the beginning of sentence, 803 blank area at the end of sentence, 1101 delimited document, 1201 mark indicating document break position, 1301 mark indicating document break position, 1501 partition paper, 1502 one document consisting of multiple pages , 1503 Specific image area, 1
504 Data description area.

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 1/387 H04N 1/387 Fターム(参考) 5B050 BA06 BA10 BA16 EA17 GA08 5B064 AA01 AA07 BA01 5B075 ND03 NR03 PP04 UU06 5C076 AA01 AA36 BA03 BA06 CA10──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) H04N 1/387 H04N 1/387 F-term (Reference) 5B050 BA06 BA10 BA16 EA17 GA08 5B064 AA01 AA07 BA01 5B075 ND03 NR03 PP04 UU06 5C076 AA01 AA36 BA03 BA06 CA10

Claims (11)

【特許請求の範囲】[Claims] 【請求項1】 複数文書を読み込んで文書画像を作成す
る画像読込手段と、 前記画像読込手段により作成された文書画像を格納する
文書画像格納バッファと、 前記文書画像格納バッファに格納された文書画像中の文
字を認識する文字認識手段と、 前記文書画像格納バッファに格納された文書画像の解析
結果と前記文字認識手段による文字認識結果から文書の
区切りを判定するための文書区切り情報を抽出する文書
区切り情報抽出手段と、 前記文書区切り情報抽出手段により抽出された文書区切
り情報を元にして文書の区切りを判定する文書区切り判
定手段と、 前記文書区切り判定手段による文書の区切り判定結果を
表示して文書区切りの修正・確認を行う文書区切り候補
選択手段と、 前記文書区切り判定手段による文書の区切りの判定結果
または前記文書区切り候補選択手段により修正した文書
の区切りを用いて文書画像を文書単位に分けて文書管理
システムに登録する文書管理システム登録手段とを備え
た文書自動分割装置。
An image reading unit that reads a plurality of documents to create a document image; a document image storage buffer that stores a document image created by the image reading unit; and a document image stored in the document image storage buffer. A character recognizing unit for recognizing a character in the document, and a document for extracting document delimiter information for determining a document delimiter from the analysis result of the document image stored in the document image storage buffer and the character recognition result by the character recognizing unit. Displaying a delimiter information extracting unit, a document delimiter determining unit that determines a document delimiter based on the document delimiter information extracted by the document delimiter information extracting unit, and displaying a document delimiter determination result by the document delimiter determining unit. A document break candidate selection unit for correcting and confirming a document break, and a determination result of a document break by the document break determination unit Alternatively, an automatic document dividing apparatus comprising: a document management system registration unit that divides a document image into document units and registers the document image in a document management system by using a document segment corrected by the document segment candidate selection unit.
【請求項2】 請求項1に記載の文書自動分割装置にお
いて、 前記文書区切り情報抽出手段は、文書の先頭頁に含まれ
る頻度の高い文字列である開始予約語と、文書の最終頁
に含まれる頻度の高い文字列である終了予約語を文書画
像の文字認識結果から抽出し、この開始予約語と終了予
約語の有無を、文書区切り情報として用いることを特徴
とする文書自動分割装置。
2. The automatic document dividing apparatus according to claim 1, wherein the document delimiter information extracting unit includes a start reserved word that is a frequently-used character string included in a first page of the document and a start reserved word included in a last page of the document. An automatic document segmentation apparatus characterized in that an end reserved word that is a frequently-used character string is extracted from a character recognition result of a document image, and the presence or absence of the start reserved word and the end reserved word is used as document delimiter information.
【請求項3】 請求項1または2に記載の文書自動分割
装置において、 前記文書区切り情報抽出手段は、文書画像の文字認識結
果から文書の記述内容を表す代表的な単語群を抽出し、
その前頁から同様な手段で抽出した単語群と比較するこ
とで文書画像間の記述内容の類似性を求め、これを文書
区切り情報として用いることを特徴とする文書自動分割
装置。
3. The automatic document dividing device according to claim 1, wherein the document delimiter information extracting unit extracts a representative word group representing the description content of the document from a character recognition result of the document image,
An automatic document segmentation apparatus characterized in that similarity of description content between document images is obtained by comparing with a word group extracted by a similar means from the previous page, and this is used as document delimiter information.
【請求項4】 請求項1ないし3のいずれかに記載の文
書自動分割装置において、 前記文書区切り情報抽出手段は、文書画像を画像処理的
に解析して、その上端と下端にある空白領域の大きさを
求め、これを文書区切り情報として用いることを特徴と
する文書自動分割装置。
4. The automatic document dividing apparatus according to claim 1, wherein said document delimiter information extracting means analyzes the document image in an image processing manner, and extracts a blank area at an upper end and a lower end thereof. An automatic document dividing apparatus for determining a size and using this as document delimiter information.
【請求項5】 請求項1ないし4のいずれかに記載の文
書自動分割装置において、 前記文書区切り情報抽出手段は、文書画像の用紙サイズ
を文書画像の幅と高さより求め、その前頁から求めた用
紙サイズとの差異を文書区切り情報として用いることを
特徴とする文書自動分割装置。
5. The automatic document dividing apparatus according to claim 1, wherein the document delimiter information extracting unit obtains a paper size of the document image from a width and a height of the document image, and obtains a paper size from a previous page. An automatic document dividing apparatus characterized in that a difference from the paper size is used as document separation information.
【請求項6】 請求項1ないし5のいずれかに記載の文
書自動分割装置において、 前記文書区切り情報抽出手段は、文書画像の文字認識結
果を元に、文書画像に含まれる文字の平均サイズを求
め、その前頁から求めた文字の平均サイズとの差異を文
書区切り情報として用いることを特徴とする文書自動分
割装置。
6. The automatic document dividing apparatus according to claim 1, wherein the document delimiter information extracting unit determines an average size of characters included in the document image based on a character recognition result of the document image. An automatic document dividing apparatus characterized in that a difference between the calculated character and the average size of characters obtained from the previous page is used as document delimiter information.
【請求項7】 請求項1ないし6のいずれかに記載の文
書自動分割装置において、 前記文書区切り情報抽出手段は、文書画像の文字認識結
果を元に、文書画像に含まれる文字列の方向性(縦書き
・横書き)を調べ、その前頁から求めた文字列の方向性
との差異を文書区切り情報として用いることを特徴とす
る文書自動分割装置。
7. The automatic document dividing device according to claim 1, wherein the document delimiter information extracting unit determines a direction of a character string included in the document image based on a character recognition result of the document image. An automatic document dividing apparatus which checks (vertical writing / horizontal writing) and uses the difference from the directionality of the character string obtained from the previous page as document separation information.
【請求項8】 請求項1ないし7のいずれかに記載の文
書自動分割装置において、 前記文書区切り情報抽出手段は、対象とする文書画像か
ら抽出したヘッダ領域の文字認識結果と、その前頁のヘ
ッダ領域に対する文字認識結果との差異を文書区切り情
報として用いることを特徴とする文書自動分割装置。
8. The automatic document dividing apparatus according to claim 1, wherein said document delimiter information extracting means includes a character recognition result of a header area extracted from a target document image, An automatic document dividing apparatus, wherein a difference from a character recognition result for a header area is used as document delimiter information.
【請求項9】 請求項1ないし8のいずれかに記載の文
書自動分割装置において、 前記文書区切り情報抽出手段は、対象とする文書画像か
ら抽出した頁番号領域に対する文字認識結果と、その前
頁の文書画像から抽出した頁番号領域に対する文字認識
結果を調べ、その頁番号が連続するか不連続かを、文書
区切り情報として用いることを特徴とする文書自動分割
装置。
9. The automatic document dividing apparatus according to claim 1, wherein said document delimiter information extracting means includes: a character recognition result for a page number area extracted from a target document image; An automatic document dividing apparatus for examining a character recognition result for a page number area extracted from a document image of a document, and using whether the page number is continuous or discontinuous as document delimiter information.
【請求項10】 請求項1ないし9のいずれかに記載の
文書自動分割装置において、 前記文書区切り判定手段は、文書区切り情報を入力とし
た判別分析法により、対象とする文書画像が文書の先頭
頁か、それ以外の頁であるかを判別し、文書の先頭頁と
判別された文書画像を先頭頁として文書画像を文書単位
に分割することを特徴とする文書自動分割装置。
10. The automatic document segmentation apparatus according to claim 1, wherein the document segment determination unit determines a target document image by a discriminant analysis method using document segment information as an input. An automatic document dividing apparatus which determines whether a page is a page or another page, and divides the document image into document units using the document image determined as the first page of the document as the first page.
【請求項11】 請求項1ないし10のいずれかに記載
の文書自動分割装置において、 前記文書区切り候補選択手段は、文書区切り判定手段で
得た文書区切りの判定結果をディスプレイに表示する
際、判定結果の信頼度を基準として、文書区切り毎に表
示方法を変えることを特徴とする文書自動分割装置。
11. The automatic document dividing apparatus according to claim 1, wherein the document segment candidate selecting unit performs a decision when displaying a document segment decision result obtained by the document segment determining unit on a display. An automatic document dividing apparatus, wherein a display method is changed for each document break based on the reliability of a result.
JP2001119918A 2001-04-18 2001-04-18 Automatic document divider Expired - Fee Related JP3824209B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001119918A JP3824209B2 (en) 2001-04-18 2001-04-18 Automatic document divider

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001119918A JP3824209B2 (en) 2001-04-18 2001-04-18 Automatic document divider

Publications (2)

Publication Number Publication Date
JP2002312385A true JP2002312385A (en) 2002-10-25
JP3824209B2 JP3824209B2 (en) 2006-09-20

Family

ID=18970048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001119918A Expired - Fee Related JP3824209B2 (en) 2001-04-18 2001-04-18 Automatic document divider

Country Status (1)

Country Link
JP (1) JP3824209B2 (en)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010135962A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Image processing apparatus and image processing program
JP2010136006A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Apparatus and program for processing image
JP2011108163A (en) * 2009-11-20 2011-06-02 Toshiba Corp Business card reader
JP2011239217A (en) * 2010-05-11 2011-11-24 Sharp Corp Image display apparatus, and image formation apparatus having the same
JP2011258215A (en) * 2005-01-11 2011-12-22 Xerox Corp Method for automatically selecting document
JP2012138811A (en) * 2010-12-27 2012-07-19 Brother Ind Ltd Image processing device, image processing method, and image processing program
JP2013093777A (en) 2011-10-26 2013-05-16 Sharp Corp Document file output device, document file output method and computer program
US8634114B2 (en) 2010-09-30 2014-01-21 Brother Kogyo Kabushiki Kaisha Image processing apparatus, image processing method and image scanning apparatus
US8855375B2 (en) 2012-01-12 2014-10-07 Kofax, Inc. Systems and methods for mobile image capture and processing
US8885229B1 (en) 2013-05-03 2014-11-11 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9141926B2 (en) 2013-04-23 2015-09-22 Kofax, Inc. Smart mobile application development platform
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
JP2016086450A (en) * 2016-02-16 2016-05-19 シャープ株式会社 Image display unit and control program
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9396388B2 (en) 2009-02-10 2016-07-19 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9747269B2 (en) 2009-02-10 2017-08-29 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US9910829B2 (en) 2003-12-19 2018-03-06 Kofax, Inc Automatic document separation
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN112733658A (en) * 2020-12-31 2021-04-30 北京华宇信息技术有限公司 Electronic document filing method and device
US11295175B1 (en) 2020-09-25 2022-04-05 International Business Machines Corporation Automatic document separation
JP7435020B2 (en) 2020-02-26 2024-02-21 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
JP7494510B2 (en) 2020-03-25 2024-06-04 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program

Cited By (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910829B2 (en) 2003-12-19 2018-03-06 Kofax, Inc Automatic document separation
JP2011258215A (en) * 2005-01-11 2011-12-22 Xerox Corp Method for automatically selecting document
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US8749854B2 (en) 2008-12-03 2014-06-10 Fuji Xerox Co., Ltd. Image processing apparatus, method for performing image processing and computer readable medium
JP2010135962A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Image processing apparatus and image processing program
JP2010136006A (en) * 2008-12-03 2010-06-17 Fuji Xerox Co Ltd Apparatus and program for processing image
CN101753753A (en) * 2008-12-03 2010-06-23 富士施乐株式会社 Image processing apparatus and image processing method
CN101753752A (en) * 2008-12-03 2010-06-23 富士施乐株式会社 Image processing apparatus and method for performing image processing
CN101753752B (en) * 2008-12-03 2014-07-23 富士施乐株式会社 Image processing apparatus and method for performing image processing
US8736912B2 (en) 2008-12-03 2014-05-27 Fuji Xerox Co., Ltd. Image processing apparatus, image processing method and computer readable medium
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9396388B2 (en) 2009-02-10 2016-07-19 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9747269B2 (en) 2009-02-10 2017-08-29 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
JP2011108163A (en) * 2009-11-20 2011-06-02 Toshiba Corp Business card reader
USRE48003E1 (en) 2010-05-11 2020-05-19 Sharp Kabushiki Kaisha Image display unit and image forming apparatus including the same
US8902157B2 (en) 2010-05-11 2014-12-02 Sharp Kabushiki Kaisha Image display unit and image forming apparatus including the same
JP2011239217A (en) * 2010-05-11 2011-11-24 Sharp Corp Image display apparatus, and image formation apparatus having the same
US9473652B2 (en) 2010-05-11 2016-10-18 Sharp Kabushiki Kaisha Image display unit and image forming apparatus including the same
US8634114B2 (en) 2010-09-30 2014-01-21 Brother Kogyo Kabushiki Kaisha Image processing apparatus, image processing method and image scanning apparatus
JP2012138811A (en) * 2010-12-27 2012-07-19 Brother Ind Ltd Image processing device, image processing method, and image processing program
US8743414B2 (en) 2010-12-27 2014-06-03 Brother Kogyo Kabushiki Kaisha Image processing apparatus, image processing method and recording medium for attaching additional information to images in an image file to faciltate searching the image file
US9858513B2 (en) 2011-10-26 2018-01-02 Sharp Kabushiki Kaisha Document file output apparatus, document file output method, and computer readable medium
JP2013093777A (en) 2011-10-26 2013-05-16 Sharp Corp Document file output device, document file output method and computer program
US8879120B2 (en) 2012-01-12 2014-11-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US10664919B2 (en) 2012-01-12 2020-05-26 Kofax, Inc. Systems and methods for mobile image capture and processing
US8855375B2 (en) 2012-01-12 2014-10-07 Kofax, Inc. Systems and methods for mobile image capture and processing
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US9342742B2 (en) 2012-01-12 2016-05-17 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US8971587B2 (en) 2012-01-12 2015-03-03 Kofax, Inc. Systems and methods for mobile image capture and processing
US8989515B2 (en) 2012-01-12 2015-03-24 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US9158967B2 (en) 2012-01-12 2015-10-13 Kofax, Inc. Systems and methods for mobile image capture and processing
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9514357B2 (en) 2012-01-12 2016-12-06 Kofax, Inc. Systems and methods for mobile image capture and processing
US9165187B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9311531B2 (en) 2013-03-13 2016-04-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9754164B2 (en) 2013-03-13 2017-09-05 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10127441B2 (en) 2013-03-13 2018-11-13 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9996741B2 (en) 2013-03-13 2018-06-12 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10146803B2 (en) 2013-04-23 2018-12-04 Kofax, Inc Smart mobile application development platform
US9141926B2 (en) 2013-04-23 2015-09-22 Kofax, Inc. Smart mobile application development platform
US8885229B1 (en) 2013-05-03 2014-11-11 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US9584729B2 (en) 2013-05-03 2017-02-28 Kofax, Inc. Systems and methods for improving video captured using mobile devices
US9253349B2 (en) 2013-05-03 2016-02-02 Kofax, Inc. Systems and methods for detecting and classifying objects in video captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
US9946954B2 (en) 2013-09-27 2018-04-17 Kofax, Inc. Determining distance between an object and a capture device based on captured image data
US9747504B2 (en) 2013-11-15 2017-08-29 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9386235B2 (en) 2013-11-15 2016-07-05 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
JP2016086450A (en) * 2016-02-16 2016-05-19 シャープ株式会社 Image display unit and control program
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
JP7435020B2 (en) 2020-02-26 2024-02-21 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
JP7494510B2 (en) 2020-03-25 2024-06-04 富士フイルムビジネスイノベーション株式会社 Information processing device and information processing program
US11295175B1 (en) 2020-09-25 2022-04-05 International Business Machines Corporation Automatic document separation
CN112733658A (en) * 2020-12-31 2021-04-30 北京华宇信息技术有限公司 Electronic document filing method and device
CN112733658B (en) * 2020-12-31 2022-11-25 北京华宇信息技术有限公司 Electronic document filing method and device

Also Published As

Publication number Publication date
JP3824209B2 (en) 2006-09-20

Similar Documents

Publication Publication Date Title
JP2002312385A (en) Document automated dividing device
US6996295B2 (en) Automatic document reading system for technical drawings
KR100411697B1 (en) Character reading method and address reading method
US8208765B2 (en) Search and retrieval of documents indexed by optical character recognition
US6341176B1 (en) Method and apparatus for character recognition
US8064703B2 (en) Property record document data validation systems and methods
US20040006467A1 (en) Method of automatic language identification for multi-lingual text recognition
US20090028445A1 (en) Character image feature dictionary preparation apparatus, document image processing apparatus having the same, character image feature dictionary preparation program, recording medium on which character image feature dictionary preparation program is recorded, document image processing program, and recording medium on which document image processing program is recorded
JPH05307638A (en) Method for converting bit map image document into encoded data
KR20100007722A (en) Method of character recongnition and translation based on camera image
JPH05143707A (en) Method and device for processing coded image data
JP3851742B2 (en) Form processing method and apparatus
US20050226516A1 (en) Image dictionary creating apparatus and method
JP2002015280A (en) Device and method for image recognition, and computer- readable recording medium with recorded image recognizing program
CN116740723A (en) PDF document identification method based on open source Paddle framework
CN111832497A (en) Text detection post-processing method based on geometric features
KR100957508B1 (en) System and method for recognizing optical characters
JPH11259597A (en) Format recognition device and character reader
JP2004164674A (en) Format recognition device and character reader
US7865130B2 (en) Material processing apparatus, material processing method, and material processing program product
JPH07319880A (en) Keyword extraction/retrieval device
CN115131806B (en) Method and system for identifying OCR (optical character recognition) image information of various certificates based on deep learning
JP4731748B2 (en) Image processing apparatus, method, program, and storage medium
CN115100672A (en) Character detection and identification method, device and equipment and computer readable storage medium
JP2003085477A (en) Character recognizing device and correcting method of character recognition result

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060509

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060620

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060622

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees