JP7059734B2 - Document reader and program - Google Patents

Document reader and program Download PDF

Info

Publication number
JP7059734B2
JP7059734B2 JP2018053866A JP2018053866A JP7059734B2 JP 7059734 B2 JP7059734 B2 JP 7059734B2 JP 2018053866 A JP2018053866 A JP 2018053866A JP 2018053866 A JP2018053866 A JP 2018053866A JP 7059734 B2 JP7059734 B2 JP 7059734B2
Authority
JP
Japan
Prior art keywords
document
reading
reading position
position information
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018053866A
Other languages
Japanese (ja)
Other versions
JP2019168747A (en
Inventor
茜 阿部
和宏 大谷
茂 岡田
邦彦 小林
淳一 清水
聡之 山口
真太郎 安達
慎也 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2018053866A priority Critical patent/JP7059734B2/en
Publication of JP2019168747A publication Critical patent/JP2019168747A/en
Application granted granted Critical
Publication of JP7059734B2 publication Critical patent/JP7059734B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Editing Of Facsimile Originals (AREA)

Description

本発明は、文書読取装置及びプログラムに関する。 The present invention relates to a document reader and a program.

特許文献1には、文字認識を行う端末と中央制御装置間で通信を行う通信システムにおいて、処理効率を向上する通信システムが記載されている。移動端末は、スキャナで読み取られた原稿の種類を示す原稿IDを含む画像データに対し、制御信号に基づいて文字認識部で文字認識を行い、原稿IDを原稿ID認識部で認識する。中央制御装置へ文字認識結果及び原稿ID認識結果を文字認識結果・原稿ID送信部で送信し、中央制御装置より画像信号の制御信号を閾値・位置情報受信部で受信する。中央制御装置は、移動端末より文字認識結果及び原稿ID認識結果を文字認識結果・原稿ID受信部で受信し、画像信号の制御信号を移動端末へ閾値・位置情報送信部で送信する。原稿ID認識結果に基づいて、画像信号の制御信号を閾値制御部で制御する。 Patent Document 1 describes a communication system that improves processing efficiency in a communication system that communicates between a terminal that recognizes characters and a central control device. The mobile terminal recognizes the image data including the document ID indicating the type of the document scanned by the scanner by the character recognition unit based on the control signal, and recognizes the document ID by the document ID recognition unit. The character recognition result and the manuscript ID recognition result are transmitted to the central control device by the character recognition result / manuscript ID transmission unit, and the control signal of the image signal is received from the central control device by the threshold value / position information reception unit. The central control device receives the character recognition result and the manuscript ID recognition result from the mobile terminal at the character recognition result / manuscript ID receiving unit, and transmits the image signal control signal to the mobile terminal at the threshold value / position information transmitting unit. Based on the document ID recognition result, the control signal of the image signal is controlled by the threshold value control unit.

特許文献2には、登録シートから文書属性を判断できるようにし、ユーザの作業の負担を軽減する文書管理システムが記載されている。文書管理サーバに記録されている文書属性に応じた文書保存先情報を記載した登録シートを印刷し、その登録シートを含む紙書類をスキャンすることで電子化されたイメージ文書を作成する。次にこのイメージ文書から登録シートを抽出した上で、OCR(Optical Character Recognition)処理を行い、この結果を用いて文書属性の判定処理をする。さらに、この文書属性に対応してイメージ文書をページ毎に体裁を整えるための整理処理、および、イメージ文書を分割し、文書管理サーバの所定の場所に記録する。 Patent Document 2 describes a document management system that makes it possible to determine document attributes from a registration sheet and reduces the work burden on the user. A registration sheet containing document storage destination information according to the document attributes recorded on the document management server is printed, and a paper document containing the registration sheet is scanned to create an electronic image document. Next, after extracting the registration sheet from this image document, OCR (Optical Character Recognition) processing is performed, and the document attribute determination processing is performed using this result. Further, an organizing process for arranging the appearance of the image document for each page corresponding to this document attribute, and the image document are divided and recorded in a predetermined place of the document management server.

特開平11-184966号公報Japanese Unexamined Patent Publication No. 11-184966 特開2008-165386号公報Japanese Unexamined Patent Publication No. 2008-165386

文書に対してOCR処理を実行する際に、文書の特定領域だけにOCR処理を実行して文字情報を抽出する所謂ゾーンOCRは、比較的大量の文書を処理する場合等に有効であるが、他方で、読み取るべき2以上の同一または類似形式の文書の全てに対して読取位置を設定するのは利用者にとって煩雑となる。 The so-called zone OCR, which executes OCR processing only on a specific area of a document to extract character information when executing OCR processing on a document, is effective when processing a relatively large amount of documents. On the other hand, setting the reading position for all of two or more documents of the same or similar format to be read is complicated for the user.

本発明は、かかる課題を解決することを目的とする。 An object of the present invention is to solve such a problem.

請求項1に記載の発明は、文書読取部と、読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、前記第1文書と同一または類似形式 であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部とを備え、前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含み、前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む、文書読取装置である。 The invention according to claim 1 is the same as the first document, that is, the document reading unit, the storage unit that reads the first document in which the reading position is set by the document reading unit, and stores the reading position information. Alternatively, the reading position when the document reading unit reads the second document, which has a similar format and the reading position is not set, is specified by using the reading position information stored in the storage unit. The reading position information includes a position specifying portion , the reading position information includes information on a relative position with respect to the specific position in the first document, and the relative position information includes information on position coordinates and a range thereof with respect to the specific position. , A document reader.

請求項2に記載の発明は、前記読取位置情報は、前記第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報を含む請求項1に記載の文書読取装置である。 The invention according to claim 2 is the document reading device according to claim 1, wherein the reading position information includes position coordinates including a certain number of characters in the first document and information in the range thereof.

請求項に記載の発明は、前記特定位置は、特定属性の位置である請求項に記載の文書読取装置である。 The invention according to claim 3 is the document reading device according to claim 1 , wherein the specific position is a position of a specific attribute.

請求項に記載の発明は、文書読取部と、読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、を備え、前記記憶部は、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて前記文書読取部で読み取り、読取位置情報として記憶する書読取装置である。 The invention according to claim 4 is the same as the first document, that is, the document reading unit, the storage unit that reads the first document in which the reading position is set by the document reading unit, and stores the reading position information. Alternatively, the reading position when the document reading unit reads the second document, which has a similar format and the reading position is not set, is specified by using the reading position information stored in the storage unit. A position specifying unit is provided, and when the second document constitutes a set consisting of a plurality of sheets, the storage unit reads and reads the first document in correspondence with the set. It is a document reading device that stores as position information.

請求項に記載の発明は、前記複数枚は、表面と裏面である請求項に記載の文書読取装置である。 The invention according to claim 5 is the document reading device according to claim 4 , wherein the plurality of sheets are a front surface and a back surface.

請求項に記載の発明は、前記複数枚は、1組の帳票を構成する請求項に記載の文書読取装置である。 The invention according to claim 6 is the document reading device according to claim 4 , wherein the plurality of sheets constitute a set of forms.

請求項に記載の発明は、前記複数枚からなる組は、前記読取位置が互いに異なる請求項に記載の文書読取装置である。 The invention according to claim 7 is the document reading device according to claim 4, wherein the set including the plurality of sheets is the document reading device according to claim 4 , wherein the reading positions are different from each other.

請求項に記載の発明は、前記第1文書における前記読取位置の設定は、マーキングによる請求項1、4のいずれかに記載の文書読取装置である。 The invention according to claim 8 is the document reading device according to any one of claims 1 and 4 , wherein the setting of the reading position in the first document is by marking.

請求項に記載の発明は、前記マーキングは、特定色による囲み、特定色による塗りつぶし、チェックマークの追加、無色透明による囲み、無色透明による塗りつぶしの少なくともいずれかである請求項に記載の文書読取装置である。 The document according to claim 9 , wherein the marking is at least one of a specific color enclosure, a specific color fill, a check mark addition, a colorless transparent enclosure, and a colorless transparent fill. It is a reading device.

請求項10に記載の発明は、前記第1文書の画像を表示する表示部と、前記第1文書の画像に対してマーキングする操作部とをさらに備える請求項に記載の文書読取装置である。 The invention according to claim 10 is the document reading device according to claim 8 , further comprising a display unit for displaying an image of the first document and an operation unit for marking the image of the first document. ..

請求項11に記載の発明は、文書読取部と、読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、を備え、前記第1文書は、前記第2文書に対する1または複数のヘッダシートである書読取装置である。 The invention according to claim 11 is the same as the first document, that is, the document reading unit, the storage unit that reads the first document in which the reading position is set by the document reading unit, and stores the reading position information. Alternatively, the reading position when the document reading unit reads the second document, which has a similar format and the reading position is not set, is specified by using the reading position information stored in the storage unit. The first document is a document reading device that includes a position specifying unit and is one or more header sheets for the second document.

請求項12に記載の発明は、前記ヘッダシートの枚数は、利用者により設定される請求項11に記載の文書読取装置である。 The invention according to claim 12 is the document reading device according to claim 11 , wherein the number of header sheets is set by the user.

請求項13に記載の発明は、前記ヘッダシートの枚数は、前記文書読取部で判定される請求項11に記載の文書読取装置である。 The invention according to claim 13 is the document reading apparatus according to claim 11 , wherein the number of header sheets is determined by the document reading unit.

請求項14に記載の発明は、コンピュータに、読取位置が設定されている第1文書を読み取るステップと、前記読取位置についての読取位置情報を生成するステップと、前記読取位置情報を記憶部に記憶するステップと、前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップを実行させるプログラムであり、前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含み、前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む、プログラムである。
請求項15に記載の発明は、コンピュータに、読取位置が設定されている第1文書を読み取るステップと、前記読取位置についての読取位置情報を生成するステップと、前記読取位置情報を記憶部に記憶するステップと、前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップを実行させるプログラムであり、前記記憶部に記憶するステップでは、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて読み取り、読取位置情報として記憶する、プログラムである。
請求項16に記載の発明は、コンピュータに、読取位置が設定されている第1文書を読み取るステップと、前記読取位置についての読取位置情報を生成するステップと、前記読取位置情報を記憶部に記憶するステップと、前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップを実行させるプログラムであり、前記第1文書は、前記第2文書に対する1または複数のヘッダシートである、プログラムである。
The invention according to claim 14 is a step of reading a first document in which a reading position is set in a computer, a step of generating reading position information about the reading position, and storing the reading position information in a storage unit. After storing the reading position information, the storage unit stores the reading position when reading the second document having the same or similar format as the first document and for which the reading position is not set. It is a program that executes a step to specify using the read position information , the read position information includes information on a relative position with respect to the specific position in the first document, and the information on the relative position is the above. A program that contains information about position coordinates and their range for a particular position.
The invention according to claim 15 has a step of reading a first document in which a reading position is set in a computer, a step of generating reading position information about the reading position, and storing the reading position information in a storage unit. After storing the reading position information, the storage unit stores the reading position when reading the second document having the same or similar format as the first document and for which the reading position is not set. It is a program for executing a step of specifying by using the read position information, and in the step of storing in the storage unit, when the second document constitutes a set consisting of a plurality of sheets, the first document is used. It is a program that reads in correspondence with the above-mentioned set and stores it as read position information.
The invention according to claim 16 is a step of reading a first document in which a reading position is set, a step of generating reading position information about the reading position, and storing the reading position information in a storage unit. After storing the reading position information, the storage unit stores the reading position when reading the second document having the same or similar format as the first document and for which the reading position is not set. It is a program that executes a specific step using the read position information, and the first document is a program that is one or more header sheets for the second document.

請求項1~16に記載の発明によれば、読み取るべき2以上の同一または類似する形式の文書の全てに対して読取位置を設定する手間が省かれる。 According to the inventions of claims 1 to 16, it is possible to save the trouble of setting the reading position for all of two or more documents of the same or similar format to be read.

請求項2に記載の発明によれば、さらに、第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報が利用され得る。 According to the second aspect of the present invention, further, information on the position coordinates including a certain number of characters and the range thereof in the first document can be used.

請求項1,5,14に記載の発明によれば、さらに、第1文書における特定位置に対する相対的位置の情報が利用され得る。 According to the inventions of claims 1, 5 and 14, further, information on the position relative to the specific position in the first document can be used.

請求項4~7、15に記載の発明によれば、さらに、第2文書が複数枚からなる組を構成する場合に対応し得る。 According to the inventions of claims 4 to 7 , 15, it is possible to further cope with the case where the second document constitutes a set consisting of a plurality of sheets.

請求項8~10に記載の発明によれば、さらに、第1文書における読取位置がマーキングにより設定され得る。 According to the inventions of claims 8 to 10 , the reading position in the first document can be further set by marking.

請求項11~13、16に記載の発明によれば、さらに、第1文書が1または複数のヘッダシートで構成され得る。 According to the inventions of claims 11 to 13 , 16, the first document may further be composed of one or more header sheets.

実施形態1のシステム構成図である。It is a system block diagram of Embodiment 1. FIG. 実施形態1の機能ブロック図である。It is a functional block diagram of Embodiment 1. FIG. ゾーンOCRの説明図である。It is explanatory drawing of a zone OCR. 実施形態1の処理を示す説明図(その1)である。It is explanatory drawing (the 1) which shows the process of Embodiment 1. FIG. 実施形態1の処理を示す説明図(その2)である。It is explanatory drawing (the 2) which shows the process of Embodiment 1. FIG. 実施形態1の処理を示す説明図(その3)である。It is explanatory drawing (the 3) which shows the process of Embodiment 1. FIG. 実施形態1の処理を示す説明図(その4)である。It is explanatory drawing (the 4) which shows the process of Embodiment 1. FIG. 実施形態1の処理フローチャートである。It is a processing flowchart of Embodiment 1. 実施形態1の他の処理フローチャートである。It is another processing flowchart of Embodiment 1. 実施形態2の処理を示す説明図(その1)である。It is explanatory drawing (the 1) which shows the process of Embodiment 2. 実施形態2の処理を示す説明図(その2)である。It is explanatory drawing (the 2) which shows the process of Embodiment 2. 実施形態2の処理フローチャートである。It is a processing flowchart of Embodiment 2. 実施形態3の処理を示す説明図(その1)である。It is explanatory drawing (the 1) which shows the process of Embodiment 3. 実施形態3の処理を示す説明図(その2)である。It is explanatory drawing (the 2) which shows the process of Embodiment 3. 変形例の読取位置説明図である。It is a reading position explanatory drawing of the modification.

以下、図面に基づき本発明の実施形態について、文書読取装置として画像処理装置を例にとり説明する。 Hereinafter, an embodiment of the present invention will be described with reference to the drawings, taking an image processing device as an example as a document reading device.

<実施形態1>
図1は、本実施形態における画像処理装置を含むシステムの構成ブロック図である。システムは、端末装置10及び画像処理装置12を備える。端末装置10と画像処理装置12は、通信回線14を介して接続され、通信回線14は、例えばLAN(ローカルエリアネットワーク)等のデータ通信ネットワークである。通信回線14は、有線、無線のいずれでもよい。
<Embodiment 1>
FIG. 1 is a block diagram of a system including an image processing device according to the present embodiment. The system includes a terminal device 10 and an image processing device 12. The terminal device 10 and the image processing device 12 are connected to each other via a communication line 14, and the communication line 14 is a data communication network such as a LAN (local area network). The communication line 14 may be either wired or wireless.

端末装置10は、PCやスマートフォン等であり、利用者の指示に従い、文書の印刷命令を含む印刷ジョブ等を送信する。 The terminal device 10 is a PC, a smartphone, or the like, and transmits a print job or the like including a document printing command according to a user's instruction.

画像処理装置12は、例えば複数の機能を実現する複合機であり、ROM121、RAM122、記憶装置123、1つ又は複数のプロセッサで構成される制御部124、入出力インターフェイス(I/F)125、操作部126、及び画像形成部127を備える。 The image processing device 12 is, for example, a multifunction device that realizes a plurality of functions, and is a ROM 121, a RAM 122, a storage device 123, a control unit 124 composed of one or a plurality of processors, an input / output interface (I / F) 125, and the like. It includes an operation unit 126 and an image forming unit 127.

1又は複数のプロセッサで構成される制御部124は、ROM121や記憶装置123に記憶された処理プログラムに従い、端末装置10から入出力I/F125を介して印刷ジョブ命令等を受け付け、PDLデータを解釈して中間データを生成し、生成した中間データからさらに描画データ(ラスターデータ)を生成する。また、制御部124は、操作部126から受け付けたコピー(Copy)、スキャン(Scan)、ファックス(Fax)、メール(mail)等の各種アプリケーションの命令を実行する。 The control unit 124 composed of one or a plurality of processors receives print job instructions and the like from the terminal device 10 via the input / output I / F 125 according to the processing program stored in the ROM 121 and the storage device 123, and interprets the PDL data. Then, intermediate data is generated, and drawing data (raster data) is further generated from the generated intermediate data. Further, the control unit 124 executes commands of various applications such as copy, scan, fax, and mail received from the operation unit 126.

画像形成部127は、文書読取部としてのスキャナモジュール128を備え、文書を読み取って電子データに変換する。また、画像形成部127は、スキャナモジュール128以外にもプリントモジュール、ファックスモジュール、メールモジュール、用紙給紙モジュール、原稿給紙モジュール、及び画像処理アクセラレータを備える。 The image forming unit 127 includes a scanner module 128 as a document reading unit, and reads a document and converts it into electronic data. In addition to the scanner module 128, the image forming unit 127 includes a print module, a fax module, a mail module, a paper feeding module, a document feeding module, and an image processing accelerator.

プリントモジュールは、画像を用紙に出力する機能を有するモジュールである。例えば、公知のインクジェット方式の構成を備え、描画データを用紙に印刷する。ノズル等から液体あるいは溶融固体インクを吐出し、紙、フィルム等に記録を行う。インクを吐出する方法には、静電誘引力を利用してインクを吐出させるドロップオンデマンド方式(圧力パルス方式)、高熱により気泡を形成・成長させることで生じる圧力を利用してインクを吐出させる熱インクジェット方式等がある。記録ヘッドは、例えば、シアンインクを吐出するヘッド、マゼンタインクを吐出するヘッド、イエローインクを吐出するヘッド、ブラックインクを吐出するヘッドを備え、各ヘッドが用紙の幅と少なくとも同等の幅を有するラインヘッドが用いられる。記録ヘッドにより各色のインク滴を中間転写体に吐出して記録し、その後に用紙に転写して印刷する。 The print module is a module having a function of outputting an image on paper. For example, it has a known inkjet method configuration and prints drawing data on paper. Liquid or molten solid ink is ejected from a nozzle or the like, and recording is performed on paper, film, or the like. Ink ejection methods include a drop-on-demand method (pressure pulse method) that ejects ink using electrostatic attraction, and ink ejection using the pressure generated by forming and growing bubbles due to high heat. There is a thermal inkjet method and the like. The recording head includes, for example, a head that ejects cyan ink, a head that ejects magenta ink, a head that ejects yellow ink, and a head that ejects black ink, and each head has a width at least equal to the width of the paper. The head is used. Ink droplets of each color are ejected to an intermediate transfer body by a recording head for recording, and then transferred to paper for printing.

ファックスモジュールは、モデムやファックス用画像処理モジュールを備え、ファックス機能を実行するモジュールである。 A fax module is a module that includes a modem and an image processing module for fax, and performs a fax function.

メールモジュールは、電子メール機能を実行するモジュールである。 A mail module is a module that executes an e-mail function.

用紙給紙モジュールは、用紙トレイからプリントモジュールに用紙を搬送するモジュールである。 The paper paper feed module is a module for transporting paper from a paper tray to a print module.

原稿給紙モジュールは、原稿トレイからファックスモジュールに用紙を搬送するモジュールである。 The document paper feed module is a module for transporting paper from a document tray to a fax module.

画像処理アクセラレータは、スキャナモジュール等と連動して圧縮/伸長処理を行うモジュールである。この画像処理アクセラレータは必須ではなく、付加的モジュールとしてもよい。 The image processing accelerator is a module that performs compression / decompression processing in conjunction with a scanner module or the like. This image processing accelerator is not essential and may be an additional module.

操作部126は、タッチパネルを含み、制御部124からの制御指令に応じて画像処理装置12が備える各種機能(コピー、スキャン、ファックス、メール、OCR等)に対応するアプリケーションアイコンを表示する。例えば、コピー機能に対応するコピーアイコン、ファックスに対応するファックスアイコン、文書をスキャンしてメール送信する機能に対応するスキャンtoメールアイコン等である。利用者は、操作部126をタッチ操作することで、アプリケーション毎に固有の設定情報を設定できる。 The operation unit 126 includes a touch panel, and displays application icons corresponding to various functions (copy, scan, fax, mail, OCR, etc.) included in the image processing device 12 in response to a control command from the control unit 124. For example, a copy icon corresponding to a copy function, a fax icon corresponding to a fax, a scan to mail icon corresponding to a function of scanning a document and sending an e-mail, and the like. The user can set the setting information unique to each application by touch-operating the operation unit 126.

記憶装置123は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等で構成され、処理プログラムや文書データを記憶する。また、本実施形態では、特に、特定文書(第1文書)に含まれる読取位置情報を記憶する。 The storage device 123 is composed of an HDD (Hard Disk Drive), an SSD (Solid State Drive), or the like, and stores processing programs and document data. Further, in the present embodiment, in particular, the reading position information included in the specific document (first document) is stored.

画像処理装置12は、これら以外にも、用紙のパンチやソート等を行うフィニッシャ、USB、ICカードリーダ等から構成され利用者の認証を行う認証部、課金部、人感センサや顔カメラ等を備えてもよい。また、画像処理装置12は、通信回線14を介してインターネット及び外部サーバ(ネットワークサーバ)に接続されてもよく、イーサネット(登録商標)やWiFiを備えてもよい。インターネットを介して外部サーバに接続する際には、認証プロセスが必要となるが、画像処理装置12は当該認証プロセスを実行するためのアプリケーションを備えていてもよい。 In addition to these, the image processing device 12 includes a finisher for punching and sorting paper, a USB, an IC card reader, and an authentication unit for authenticating users, a billing unit, a motion sensor, a face camera, and the like. You may prepare. Further, the image processing device 12 may be connected to the Internet and an external server (network server) via the communication line 14, and may be provided with Ethernet (registered trademark) or WiFi. When connecting to an external server via the Internet, an authentication process is required, and the image processing device 12 may include an application for executing the authentication process.

次に、文書読取装置としての画像処理装置12の文書読取機能(スキャン機能)について説明する。 Next, the document reading function (scanning function) of the image processing device 12 as the document reading device will be described.

図2は、制御部124の機能ブロック図を示す。制御部124は、スキャナモジュール128の動作を制御して、フィーダにセットされた1または複数の文書を取り込み、電子データに変換する。そして、利用者から操作部126を介してOCRの実行が指示された場合に、当該電子データを対象としてOCRを実行し、その結果を出力する。OCR処理は公知の手法が用いられ得る。一般に、OCR処理は、正規化処理、特徴抽出処理、マッチング処理、知識処理から構成される。正規化処理では、OCR対象の1つの文字を一定の大きさに変換する。特徴抽出処理では、正規化された文字を上下、左右、斜め方向の4つの成分に分解し、4つの成分を例えば7×7画素程度まで圧縮したものを個々の文字の特徴として抽出する。マッチング処理では、抽出された特徴と予め記憶された標準パターンと比較して照合する。知識処理では、認識すべき言語、例えば日本語の単語情報や構文情報を使用し、マッチング処理で得られた候補文字に対して予め登録してある単語辞書と照合することで誤読部分を訂正する。 FIG. 2 shows a functional block diagram of the control unit 124. The control unit 124 controls the operation of the scanner module 128 to capture one or more documents set in the feeder and convert them into electronic data. Then, when the user instructs the execution of the OCR via the operation unit 126, the OCR is executed for the electronic data and the result is output. A known method can be used for the OCR treatment. Generally, the OCR process is composed of a normalization process, a feature extraction process, a matching process, and a knowledge process. In the normalization process, one character to be OCR is converted to a certain size. In the feature extraction process, the normalized character is decomposed into four components in the vertical, horizontal, and diagonal directions, and the four components compressed to, for example, about 7 × 7 pixels are extracted as the features of each character. In the matching process, the extracted features are compared with the standard pattern stored in advance and collated. In the knowledge processing, the language to be recognized, such as Japanese word information and syntax information, is used, and the misread part is corrected by collating the candidate characters obtained in the matching process with the pre-registered word dictionary. ..

制御部124は、機能ブロックとして、読取位置検出部124aと、読取位置特定部124bと、OCR実行部124cを備える。 The control unit 124 includes a reading position detecting unit 124a, a reading position specifying unit 124b, and an OCR execution unit 124c as functional blocks.

読取位置検出部124aは、第1文書20を読み取って得られた電子データから、第1文書20に含まれる読取位置21を検出することで、読取位置を検出する。読取位置21は、予め第1文書20に対するマーキングで設定されており、例えば特定色マーカによる塗りつぶしや囲み等で設定される。読取位置検出部124aは、第1文書20における読取位置21の読取位置を検出すると、検出した読取位置の情報(読取位置情報)を記憶装置123に記憶する。 The reading position detection unit 124a detects the reading position by detecting the reading position 21 included in the first document 20 from the electronic data obtained by reading the first document 20. The reading position 21 is set in advance by marking the first document 20, and is set, for example, by filling or enclosing with a specific color marker. When the reading position detection unit 124a detects the reading position of the reading position 21 in the first document 20, the read position detection unit 124a stores the detected reading position information (reading position information) in the storage device 123.

読取位置特定部124bは、第1文書20と同一または類似形式の第2文書22に対してOCRを実行する場合の読取位置、すなわちOCR対象位置を特定する。具体的には、読取位置特定部124bは、記憶装置123に記憶された、第1文書20から検出された読取位置情報を読み出し、第2文書22に対する読取位置として特定し、OCR実行部124cに出力する。 The reading position specifying unit 124b specifies a reading position when performing OCR on a second document 22 having the same or similar format as the first document 20, that is, an OCR target position. Specifically, the reading position specifying unit 124b reads the reading position information stored in the storage device 123 from the first document 20, identifies it as a reading position for the second document 22, and causes the OCR execution unit 124c to specify the reading position information. Output.

OCR実行部124cは、第2文書22に対してOCRを実行する際に、読取位置特定部124bで特定された読取位置を対象としたOCR、すなわちゾーンOCRを実行し、その結果を出力する。第2文書22は、第1文書20と同一または類似形式を有するが、「同一形式」とは、第1文書20に含まれる項目と同一項目が同一位置に存在することを意味し、「類似形式」とは、第1文書20に含まれる項目と同一項目があるもののその位置が異なることを意味する。 When the OCR execution unit 124c executes the OCR for the second document 22, the OCR execution unit 124c executes the OCR targeting the reading position specified by the reading position specifying unit 124b, that is, the zone OCR, and outputs the result. The second document 22 has the same or similar format as the first document 20, but the "same format" means that the same items as the items included in the first document 20 exist at the same position, and "similar". "Format" means that there is an item that is the same as the item included in the first document 20, but the position is different.

図3は、従来のゾーンOCR処理を模式的に示す。第2文書22がゾーンOCR処理の対象とすると、利用者は、予め第2文書22を構成する全てのページに対して読取位置22をマーカ等で設定する。例えば、あるページの上部にある「No.1234」の領域をマーカで囲み、別のページの上部にある「NO.5678」の領域をマーカで囲み、さらに別のページの上部にある「NO.9990」の領域をマーカで囲む等である。そして、制御部124は、第2文書22を読み取って読取位置23を検出し、この読取位置23においてOCRを実行してその結果を「NO.1234」、「No.5678」、「No.9999」等と出力する。 FIG. 3 schematically shows the conventional zone OCR processing. When the second document 22 is the target of the zone OCR processing, the user sets the reading position 22 with a marker or the like in advance for all the pages constituting the second document 22. For example, the area "No. 1234" at the top of one page is surrounded by a marker, the area "NO. 5678" at the top of another page is surrounded by a marker, and the area "NO. 5678" at the top of another page is surrounded by a marker. The area of "9990" is surrounded by a marker, and the like. Then, the control unit 124 reads the second document 22 to detect the reading position 23, executes OCR at the reading position 23, and outputs the results to "NO.1234", "No.5678", and "No.9999". "Etc. is output.

このように、第2文書22の全てのページに対して読取位置をマーカ等で設定するのは煩雑であり、特に第2文書22が比較的大量のページから構成される場合にはその手間は膨大となり得る。また、文書の全てのページに対して読取位置をマーカ等で設定すると、文書自体がマーカで汚れてしまう。 As described above, it is complicated to set the reading position for all the pages of the second document 22 with a marker or the like, and it is troublesome especially when the second document 22 is composed of a relatively large number of pages. It can be huge. Further, if the reading position is set with a marker or the like for all pages of the document, the document itself becomes dirty with the marker.

これに対し、本実施形態では、第2文書22と同一または類似する形式の第1文書20に対して読取位置をマーカ等で設定しておけば、その読取位置は記憶装置123に記憶され、第2文書22の読取位置として利用されるので、利用者は、第1文書20に対してのみ読取位置を設定するだけでよく、第2文書22に対して読取位置をマーカ等で設定する必要がない。また、マーカによる汚れも抑制され得る。 On the other hand, in the present embodiment, if the reading position is set by a marker or the like for the first document 20 having the same or similar format as the second document 22, the reading position is stored in the storage device 123. Since it is used as the reading position of the second document 22, the user only needs to set the reading position for the first document 20, and it is necessary to set the reading position for the second document 22 with a marker or the like. There is no. In addition, stains caused by markers can be suppressed.

本実施形態の処理を具体的に説明する。 The processing of this embodiment will be specifically described.

図4は、第1文書20及び第2文書22を具体的に示す。第1文書20及び第2文書22は、ともに同一形式の帳票(請求書)であり、「請求書」の見出しに加え、「会社名」、「金額」、「請求日」の各項目が記載されている。第1文書20及び第2文書22の各項目名、及びその位置は同一である。第1文書20は、請求書の帳票の1ページ目に相当し、第2文書22は、請求書の帳票の2ページ目以降(2ページ目からMページ目まで)に相当する。画像処理装置12のスキャナモジュール128は、1ページ目としての第1文書20と、2ページ目以降の第2文書22を読取対象とする。 FIG. 4 specifically shows the first document 20 and the second document 22. Both the first document 20 and the second document 22 are forms (invoices) of the same format, and in addition to the heading of "invoice", each item of "company name", "amount", and "invoice date" is described. Has been done. The item names of the first document 20 and the second document 22 and their positions are the same. The first document 20 corresponds to the first page of the invoice form, and the second document 22 corresponds to the second and subsequent pages (from the second page to the M page) of the invoice form. The scanner module 128 of the image processing apparatus 12 targets the first document 20 as the first page and the second document 22 on the second and subsequent pages as reading targets.

1ページ目としての第1文書20の「会社名」、「金額」、「請求日」の各項目の領域は、特定色のマーカにより囲まれ、あるいは塗りつぶされることで読取位置21が設定される。2ページ目以降としての第2文書22には、読取位置21は設定されない。 The reading position 21 is set by surrounding or filling the area of each item of "company name", "amount", and "billing date" of the first document 20 as the first page with a marker of a specific color. .. The reading position 21 is not set in the second document 22 as the second and subsequent pages.

図5は、1ページ目としての第1文書20を読み取って電子データに変換し、電子データから読取位置21を検出する様子を示す。読取位置21は、特定色のマーカで設定されている場合には当該特定色を識別することで検出され得る。読取位置21は、第1文書20の中で一定数の文字が含まれる領域であり、第1文書20の一定位置、例えば左上を原点(0,0)としたときの読取位置21の基準位置(例えば左上)の二次元座標(X、Y)と、領域の範囲(サイズ)を示す幅及び高さで規定され得る。第1文書20に読取位置21が3箇所設定されている場合には、箇所毎にその読取位置が検出され、読取位置情報が生成される。読取位置情報は、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
等である。検出された読取位置21の読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
FIG. 5 shows a state in which the first document 20 as the first page is read, converted into electronic data, and the reading position 21 is detected from the electronic data. The reading position 21 can be detected by identifying the specific color when it is set by the marker of the specific color. The reading position 21 is an area containing a certain number of characters in the first document 20, and is a reference position of the reading position 21 when a certain position of the first document 20, for example, the upper left is the origin (0,0). It can be defined by two-dimensional coordinates (X, Y) (eg, upper left) and a width and height indicating the range (size) of the area. When the reading position 21 is set in three places in the first document 20, the reading position is detected for each place and the reading position information is generated. The reading position information is
(X, Y, width, height)
= (10,15,100,20)
= (10,70,120,10)
= (15,100,120,10)
And so on. The detected reading position information of the reading position 21 is stored in the storage device 123 in association with the first document 20.

図6は、2ページ目以降としての第2文書22を読み取って電子データに変換し、電子データを対象としてゾーンOCRを実行する様子を示す。記憶装置123には、第1文書20に関連付けて読取位置21の読取位置情報が記憶されているので、制御部124は、これらの読取位置情報を記憶装置123から読み出し、当該読取位置情報で特定される読取位置においてゾーンOCRを実行する。従って、2ページ目の請求書でも、1ページ目の請求書に設定された読取位置21と同一位置でOCRが実行され、具体的には、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、2ページ目のOCR実行結果として、「会社名」の項目から「株式会社XX」が文字列として抽出され、「金額」の項目から「¥32,400」が文字列として抽出され、「請求日」の項目から「2017/△△/△」が文字列として抽出される。
FIG. 6 shows a state in which the second document 22 as the second and subsequent pages is read, converted into electronic data, and zone OCR is executed for the electronic data. Since the storage device 123 stores the reading position information of the reading position 21 in association with the first document 20, the control unit 124 reads these reading position information from the storage device 123 and specifies the reading position information. Zone OCR is performed at the read position to be performed. Therefore, even in the invoice on the second page, OCR is executed at the same position as the reading position 21 set in the invoice on the first page.
(X, Y, width, height)
= (10,15,100,20)
= (10,70,120,10)
= (15,100,120,10)
OCR is performed at the three locations specified in. As a result, as the OCR execution result on the second page, "XX Co., Ltd." is extracted as a character string from the "company name" item, and "¥ 32,400" is extracted as a character string from the "amount" item. "2017 / △△ / △" is extracted as a character string from the item of "billing date".

同様に、3ページ目の請求書でも、1ページ目の請求書に設定された読取位置21と同一位置でOCRが実行され、具体的には、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、3ページ目のOCR実行結果として、「会社名」の項目から「株式会社○○」が文字列として抽出され、「金額」の項目から「¥10,800」が文字列として抽出され、「請求日」の項目から「2017/××/×」が文字列として抽出される。
Similarly, in the invoice on the third page, OCR is executed at the same position as the reading position 21 set in the invoice on the first page.
(X, Y, width, height)
= (10,15,100,20)
= (10,70,120,10)
= (15,100,120,10)
OCR is performed at the three locations specified in. As a result, as the OCR execution result on the third page, "○○ Co., Ltd." is extracted as a character string from the "company name" item, and "¥ 10,800" is extracted as a character string from the "amount" item. , "2017 / XXX / x" is extracted as a character string from the item of "billing date".

なお、1ページ目は第1文書20として機能するものの、同時に請求書の帳票として第2文書22としても機能する場合には、読取位置21を検出して読取位置情報を記憶装置123に記憶するとともに、記憶した読取位置情報を用いて1ページ目についてもゾーンOCRを実行してその結果を出力してもよい。 When the first page functions as the first document 20, but also functions as the second document 22 as an invoice form, the reading position 21 is detected and the reading position information is stored in the storage device 123. At the same time, the zone OCR may be executed for the first page using the stored read position information, and the result may be output.

図4では、請求書の帳票の1ページ目を第1文書20とし、2ページ目以降を第2文書22としているが、帳票にヘッダシートを付加し、ヘッダシートを第1文書20とし、1ページ目からMページ目の帳票自体を第2文書22としてもよい。 In FIG. 4, the first page of the invoice form is the first document 20, and the second and subsequent pages are the second document 22. However, a header sheet is added to the form, and the header sheet is the first document 20. The form itself from the page M to the page M may be the second document 22.

図7は、この場合の処理を模式的に示す。 FIG. 7 schematically shows the processing in this case.

ヘッダシートとしての第1文書20を読み取って電子データに変換し、電子データから読取位置21を検出する様子を示す。読取位置21は、特定色のマーカで設定されている場合には当該特定色を識別することで検出され得る。第1文書20に読取位置21が3箇所設定されている場合には、箇所毎にその読取位置が検出され読取位置情報が生成される。
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
等である。検出されたこれらの読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
It shows how the first document 20 as a header sheet is read, converted into electronic data, and the reading position 21 is detected from the electronic data. The reading position 21 can be detected by identifying the specific color when it is set by the marker of the specific color. When the reading position 21 is set in three places in the first document 20, the reading position is detected for each place and the reading position information is generated.
(X, Y, width, height)
= (10,15,100,20)
= (10,70,120,10)
= (15,100,120,10)
And so on. The detected reading position information is stored in the storage device 123 in association with the first document 20.

その後、1ページ目以降としての第2文書22を読み取って電子データに変換し、電子データを対象としてゾーンOCRを実行する様子を示す。記憶装置123には、第1文書20に関連付けて読取位置情報が記憶されているので、制御部124は、これらの読取位置情報を記憶装置123から読み出し、当該読取位置情報で特定される読取位置においてゾーンOCRを実行する。従って、1ページ目の請求書でも、ヘッダシートに設定された読取位置21と同一位置でOCRが実行され、具体的には、
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
で特定される3箇所においてOCRが実行される。この結果、1ページ目のOCR実行結果として、「会社名」の項目から「株式会社XX」が文字列として抽出され、「金額」の項目から「¥32,400」が文字列として抽出され、「請求日」の項目から「2017/△△/△」が文字列として抽出される。2ページ目~Mページ目についても同様である。
After that, the second document 22 as the first and subsequent pages is read, converted into electronic data, and the zone OCR is executed for the electronic data. Since the storage device 123 stores the reading position information in association with the first document 20, the control unit 124 reads the reading position information from the storage device 123 and the reading position specified by the reading position information. Perform zone OCR in. Therefore, even in the invoice on the first page, OCR is executed at the same position as the reading position 21 set in the header sheet, and specifically,
(X, Y, width, height)
= (10,15,100,20)
= (10,70,120,10)
= (15,100,120,10)
OCR is performed at the three locations specified in. As a result, as the OCR execution result on the first page, "XX Co., Ltd." is extracted as a character string from the "company name" item, and "¥ 32,400" is extracted as a character string from the "amount" item. "2017 / △△ / △" is extracted as a character string from the item of "billing date". The same applies to the second to M pages.

図8は、本実施形態の処理フローチャートを示す。第1文書20としてヘッダシートを用いる場合の処理である。 FIG. 8 shows a processing flowchart of the present embodiment. This is a process when a header sheet is used as the first document 20.

まず、利用者は、操作部126を操作して、ヘッダシートの枚数を入力する(S101)。なお、デフォルト枚数を1とし、ヘッダシートの枚数が1枚の場合には入力を省略してもよい。 First, the user operates the operation unit 126 to input the number of header sheets (S101). If the default number of sheets is 1, and the number of header sheets is 1, the input may be omitted.

次に、制御部124は、ヘッダシートをスキャナモジュール128で読み取り、OCR対象領域としての読取位置21を検知する(S102)。読取位置21が特定色のマーカで設定されている場合、当該特定色を検知する。OCR対象領域の検知は、当該ヘッダシートについてOCR対象領域が検知されるまで繰り返し実行され(S103)、当該ヘッダシートにおける全てのOCR対象領域が読取位置21として検知される。 Next, the control unit 124 reads the header sheet with the scanner module 128 and detects the reading position 21 as the OCR target area (S102). When the reading position 21 is set by a marker of a specific color, the specific color is detected. The detection of the OCR target area is repeatedly executed for the header sheet until the OCR target area is detected (S103), and all the OCR target areas in the header sheet are detected as the reading position 21.

全てのOCR対象領域が検知された後、検知されたOCR対象領域を読取位置情報として記憶装置123に記憶することでOCR対象領域リストを更新する(S104)。例えば、既述したように、読取位置21として3箇所存在すれば、当該ヘッダシートに関連付けて、
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
のリストが作成されて記憶装置123に記憶される。
After all the OCR target areas are detected, the OCR target area list is updated by storing the detected OCR target areas as reading position information in the storage device 123 (S104). For example, as described above, if there are three reading positions 21, they can be associated with the header sheet.
(10, 15, 100, 20)
(10,70,120,10)
(15,100,120,10)
Is created and stored in the storage device 123.

次に、当該ヘッダシートが、S101で入力された枚数の最終ヘッダシートであるか否かを判定する(S105)。最終ヘッダシートでなければ(S105でNO)、次のヘッダシートに対してS102以降の処理が繰り返し実行され、ヘッダシートに関連付けてOCR対象領域リストが作成され記憶装置123に記憶される。 Next, it is determined whether or not the header sheet is the final header sheet for the number of sheets input in S101 (S105). If it is not the final header sheet (NO in S105), the processing after S102 is repeatedly executed for the next header sheet, an OCR target area list is created in association with the header sheet, and is stored in the storage device 123.

全てのヘッダシートに対してOCR対象領域リストが記憶装置123に記憶されると(S105でYES)、最終ヘッダシートの次の頁をOCR対象ページに設定する(S106)。 When the OCR target area list is stored in the storage device 123 for all the header sheets (YES in S105), the next page of the final header sheet is set as the OCR target page (S106).

次に、制御部124は、記憶装置123に記憶されているOCR対象領域リストから1ページ分のOCR対象領域群を読み出して取得し(S107)、このOCR対象領域群を用いてOCR対象ページに対してゾーンOCR処理を実行する(S108)。ゾーンOCR処理を実行して文字列を抽出すると、抽出した文字列を記憶装置123に記憶する(S109)。なお、記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。 Next, the control unit 124 reads and acquires one page of the OCR target area group from the OCR target area list stored in the storage device 123 (S107), and uses the OCR target area group to display the OCR target area on the OCR target page. On the other hand, the zone OCR process is executed (S108). When the zone OCR process is executed and the character string is extracted, the extracted character string is stored in the storage device 123 (S109). It may be stored in the storage device 123 and displayed on the display device, or may be output to the terminal device 10 or the external device (external server) via the communication line 14.

次に、同一ページの最終領域か否かを判定し(S110)、最終領域でなければゾーンOCR処理を繰り返す。これにより、OCR対象領域が3箇所あればこれら3箇所の全てにおいてゾーンOCR処理が実行され、その結果が記憶装置123に記憶される。以上の処理は、全てのページに対して繰り返し実行される(S111)。 Next, it is determined whether or not it is the final area of the same page (S110), and if it is not the final area, the zone OCR process is repeated. As a result, if there are three OCR target areas, zone OCR processing is executed in all of these three locations, and the result is stored in the storage device 123. The above processing is repeatedly executed for all pages (S111).

図8の処理では、利用者が操作部126を操作してヘッダシートの枚数を入力しているが、制御部124がヘッダシートの枚数を検出してもよい。 In the process of FIG. 8, the user operates the operation unit 126 to input the number of header sheets, but the control unit 124 may detect the number of header sheets.

図9は、この場合の処理フローチャートを示す。 FIG. 9 shows a processing flowchart in this case.

まず、制御部124は、入力された文書に対してOCR対象領域を検知する(S201)。なお、図8に示すような、利用者が操作部126を操作してヘッダシートの枚数を入力する処理はない。 First, the control unit 124 detects an OCR target area for the input document (S201). As shown in FIG. 8, there is no process in which the user operates the operation unit 126 to input the number of header sheets.

次に、OCR対象領域が検知されたか否かを判定し(S202)、検知された場合には(S202でYES)、検知されたOCR対象領域を記憶装置123に記憶することでOCR対象領域リストを更新する(S203)。例えば、既述したように、読取位置21として3箇所存在すれば、当該ヘッダシートに関連付けて、
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
のリストが作成されて記憶装置123に記憶される。
Next, it is determined whether or not the OCR target area is detected (S202), and if it is detected (YES in S202), the detected OCR target area is stored in the storage device 123 to list the OCR target area. Is updated (S203). For example, as described above, if there are three reading positions 21, they can be associated with the header sheet.
(10,15,100,20)
(10,70,120,10)
(15,100,120,10)
Is created and stored in the storage device 123.

次に、当該ページが最終ページであるか否かを判定する(S204)。最終ページでなければ(S204でNO)、次のページに対してS201以降の処理が繰り返し実行され、OCR対象領域、すなわち読取位置21が設定された全てのページについてOCR対象領域リストが作成され記憶装置123に記憶される。 Next, it is determined whether or not the page is the final page (S204). If it is not the last page (NO in S204), the processing after S201 is repeatedly executed for the next page, and the OCR target area list is created and stored for all the pages for which the OCR target area, that is, the reading position 21 is set. It is stored in the device 123.

OCR対象領域、すなわち読取位置21が設定された全てのページについて処理が完了すると、もはやOCR対象領域が検知されなくなる(S202)。このページから第2文書22が始まることになるので、制御部124は、記憶装置123に記憶されているOCR対象領域リストから1ページ分のOCR対象領域群を読み出して取得し(S205)、このOCR対象領域群を用いてOCR対象ページに対してゾーンOCR処理を実行する(S206)。ゾーンOCR処理を実行して文字列を抽出すると、抽出した文字列を記憶装置123に記憶する(S207)。記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。 When the processing is completed for all the pages in which the OCR target area, that is, the reading position 21 is set, the OCR target area is no longer detected (S202). Since the second document 22 starts from this page, the control unit 124 reads and acquires one page of the OCR target area group from the OCR target area list stored in the storage device 123 (S205). Zone OCR processing is executed for the OCR target page using the OCR target region group (S206). When the zone OCR process is executed and the character string is extracted, the extracted character string is stored in the storage device 123 (S207). It may be stored in the storage device 123 and displayed on the display device, or may be output to the terminal device 10 or an external device (external server) via the communication line 14.

次に、同一ページの最終領域か否かを判定し(S208)、最終領域でなければゾーンOCR処理を繰り返す。これにより、OCR対象領域が3箇所あればこれら3箇所の全てにおいてゾーンOCR処理が実行され、その結果が記憶装置123に記憶される。以上の処理は、全てのページに対して繰り返し実行される(S209、S210)。 Next, it is determined whether or not it is the final area of the same page (S208), and if it is not the final area, the zone OCR process is repeated. As a result, if there are three OCR target areas, zone OCR processing is executed in all of these three locations, and the result is stored in the storage device 123. The above processing is repeatedly executed for all pages (S209, S210).

<実施形態2>
実施形態1では、第1文書20と第2文書22が同一形式の場合について説明したが、本実施形態では第1文書20と第2文書22が類似形式の場合、すなわち項目は共通するがその位置は異なる場合について説明する。
<Embodiment 2>
In the first embodiment, the case where the first document 20 and the second document 22 have the same format has been described, but in the present embodiment, the case where the first document 20 and the second document 22 have similar formats, that is, the items are common but the same. The case where the positions are different will be described.

図10は、本実施形態における第1文書20及び第2文書22を示す。第1文書20と第2文書22は、互いに異なる種類の帳票である。第1文書20には、項目として「お客様番号」、「有効期限」が含まれる。第2文書22にも、項目として「お客様番号」、「有効期限」が含まれるが、その位置は第1文書20と異なる。第1文書20の「お客様番号」及び「有効期限」はともに上部に位置しているが、第2文書22の一つは「お客様番号」が上部に位置しているものの「有効期限」は下部に位置し、第2文書22の他の一つは「お客様番号」が中央部に位置して「有効期限」は下部に位置している。 FIG. 10 shows the first document 20 and the second document 22 in this embodiment. The first document 20 and the second document 22 are different types of forms. The first document 20 includes "customer number" and "expiration date" as items. The second document 22 also includes the "customer number" and the "expiration date" as items, but their positions are different from those of the first document 20. The "customer number" and "expiration date" of the first document 20 are both located at the top, but in one of the second documents 22, the "customer number" is located at the top, but the "expiration date" is at the bottom. In the other one of the second document 22, the "customer number" is located in the central part and the "expiration date" is located in the lower part.

このように位置が異なる場合、項目の属性とその値に着目し、属性とその値を組として読取位置情報とする。例えば、第1文書20において、
「お客様番号 01234」
との項目がある場合、属性は「お客様番号」でその値は「01234」であり、値は属性の右側に位置している。そこで、属性とその値の相対的位置関係に着目し、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
等により読取位置情報を生成する。値の幅及び高さにより、値が記載されている領域のサイズが特定される。
When the positions are different in this way, attention is paid to the attribute of the item and its value, and the attribute and its value are used as a set as the reading position information. For example, in the first document 20,
"Customer number 01234"
If there is an item with, the attribute is "customer number", the value is "01234", and the value is located on the right side of the attribute. Therefore, paying attention to the relative positional relationship between the attribute and its value,
Attribute: "Customer number"
Positional relationship with value attribute: right side Value width: 100
High value: 20
The reading position information is generated by such means. The width and height of the value specifies the size of the area where the value is described.

ここで、値の属性との位置関係については、右側、左側、上側、下側、右下側等と規定され得るが、属性の基準位置からの相対的位置座標、例えば(10,10)等で規定してもよい。右側、下側等は、位置座標の一つの表現といえる。 Here, the positional relationship with the attribute of the value may be defined as right side, left side, upper side, lower side, lower right side, etc., but relative position coordinates from the reference position of the attribute, for example, (10, 10), etc. May be specified in. The right side, the lower side, etc. can be said to be one expression of the position coordinates.

図11は、第1文書20に設定された読取位置21を具体的に示す。制御部124は、特定色のマーカ等で設定された読取位置21を検出し、属性、その値の属性との位置関係、値の幅、値の高さを検出する。すなわち、「お客様番号 01234」の項目について設定された読取位置21に関して、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
と検出する。また、「有効期限 2018/3/10」の項目について設定された読取位置21に関して、有効期限の値が有効期限の下側に位置していることから
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
と検出する。制御部124は、検出した属性とその値の組データを、読取位置情報として記憶装置123に記憶する。
FIG. 11 specifically shows the reading position 21 set in the first document 20. The control unit 124 detects the reading position 21 set by the marker of a specific color or the like, and detects the attribute, the positional relationship with the attribute of the value, the width of the value, and the height of the value. That is, with respect to the reading position 21 set for the item of "customer number 01234".
Attribute: "Customer number"
Positional relationship with value attribute: right side Value width: 100
High value: 20
Is detected. Further, regarding the reading position 21 set for the item of "expiration date 2018/3/10", since the value of the expiration date is located below the expiration date, the attribute: "expiration date".
Positional relationship with value attribute: lower Value width: 80
High value: 30
Is detected. The control unit 124 stores the detected attribute and the set data of the value in the storage device 123 as read position information.

なお、実施形態1では、読取位置21は第1文書20内における2次元座標(X,Y)及び領域サイズで規定されているが、実施形態2では,読取位置21は第1文書20内における属性とその値の相対的位置関係で規定されているので、第2文書22において対応する属性を検出するために、まず第2文書22のページ全体を対象としてOCRを実行する。 In the first embodiment, the reading position 21 is defined by the two-dimensional coordinates (X, Y) and the area size in the first document 20, but in the second embodiment, the reading position 21 is in the first document 20. Since it is defined by the relative positional relationship between the attribute and its value, in order to detect the corresponding attribute in the second document 22, first, OCR is executed for the entire page of the second document 22.

図12は、本実施形態の処理フローチャートを示す。 FIG. 12 shows a processing flowchart of the present embodiment.

まず、利用者は、操作部126を操作して、ヘッダシートの枚数を入力する(S301)。なお、デフォルト枚数を1とし、ヘッダシートの枚数が1枚の場合には入力を省略してもよい。 First, the user operates the operation unit 126 to input the number of header sheets (S301). If the default number of sheets is 1, and the number of header sheets is 1, the input may be omitted.

次に、制御部124は、ヘッダシートをスキャナモジュール128で読み取り、OCR対象領域としての読取位置21を検知する(S302)。読取位置21が特定色のマーカで設定されている場合、当該特定色を検知する。OCR対象領域の検知は、当該ヘッダシートについてOCR対象領域が検知されるまで繰り返し実行され(S303)、当該ヘッダシートにおける全てのOCR対象領域が読取位置21として検知される。 Next, the control unit 124 reads the header sheet with the scanner module 128 and detects the reading position 21 as the OCR target area (S302). When the reading position 21 is set by a marker of a specific color, the specific color is detected. The detection of the OCR target area is repeatedly executed for the header sheet until the OCR target area is detected (S303), and all the OCR target areas in the header sheet are detected as the reading position 21.

全てのOCR対象領域が検知された後、検知されたOCR対象領域を記憶装置123に記憶することでOCR対象領域リストを更新する(S304)。例えば、既述したように、読取位置21として2箇所存在すれば、当該ヘッダシートに関連付けて、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
のリストが作成されて記憶装置123に記憶される。
After all the OCR target areas are detected, the OCR target area list is updated by storing the detected OCR target areas in the storage device 123 (S304). For example, as described above, if there are two reading positions 21, the header sheet may be associated with the reading position 21.
Attribute: "Customer number"
Positional relationship with value attribute: right side Value width: 100
High value: 20
Attribute: "Expiration date"
Positional relationship with value attribute: lower Value width: 80
High value: 30
Is created and stored in the storage device 123.

次に、当該ヘッダシートが、S101で入力された枚数の最終ヘッダシートであるか否かを判定する(S305)。最終ヘッダシートでなければ(S305でNO)、次のヘッダシートに対してS302以降の処理が繰り返し実行され、ヘッダシートに関連付けてOCR対象領域リストが作成され記憶装置123に記憶される。 Next, it is determined whether or not the header sheet is the final header sheet for the number of sheets input in S101 (S305). If it is not the final header sheet (NO in S305), the processing after S302 is repeatedly executed for the next header sheet, an OCR target area list is created in association with the header sheet, and is stored in the storage device 123.

全てのヘッダシートに対してOCR対象領域リストが記憶装置123に記憶されると(S305でYES)、最終ヘッダシートの次の頁をOCR対象ページに設定する(S306)。 When the OCR target area list is stored in the storage device 123 for all the header sheets (YES in S305), the next page of the final header sheet is set as the OCR target page (S306).

次に、制御部124は、記憶装置123に記憶されているOCR対象領域リストから1ページ分の属性と値の組を読み出して取得する(S307)。そして、OCR対象ページ全体に対してOCRを実行し、読み出した属性と一致する領域を検出し、さらに検出した属性の値の文字列を抽出する(S308)。例えば、読み出した属性と値が、
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
であれば、制御部124は、OCR対象ページの全体に対してOCRを実行し、文字列「お客様番号」を抽出する。そして、抽出した「お客様番号」を基準として、その右側に位置する幅100、高さ20の領域のOCR処理結果から文字列を抽出することで属性の値、例えば「01234」等を取得する。属性はページ全体のOCR処理結果から抽出されるが、当該属性の値は、属性との相対的位置関係から規定される特定領域に対するゾーンOCRで取得される。OCR処理を実行して属性とその値を抽出すると、抽出した属性とその値を記憶装置123に記憶する(S309)。なお、記憶装置123に記憶するとともに表示装置に表示してもよく、あるいは通信回線14を介して端末装置10あるいは外部装置(外部サーバ)に出力してもよい。
Next, the control unit 124 reads and acquires a set of attributes and values for one page from the OCR target area list stored in the storage device 123 (S307). Then, OCR is executed for the entire OCR target page, an area matching the read attribute is detected, and a character string of the value of the detected attribute is extracted (S308). For example, the read attributes and values are
Attribute: "Customer number"
Positional relationship with value attribute: right side Value width: 100
High value: 20
If so, the control unit 124 executes OCR for the entire OCR target page and extracts the character string “customer number”. Then, using the extracted "customer number" as a reference, an attribute value such as "01234" is acquired by extracting a character string from the OCR processing result of the area having a width of 100 and a height of 20 located on the right side thereof. The attribute is extracted from the OCR processing result of the entire page, and the value of the attribute is acquired by the zone OCR for a specific area defined by the relative positional relationship with the attribute. When the OCR process is executed to extract the attribute and its value, the extracted attribute and its value are stored in the storage device 123 (S309). It may be stored in the storage device 123 and displayed on the display device, or may be output to the terminal device 10 or the external device (external server) via the communication line 14.

次に、同一ページの最終領域か否かを判定し(S310)、最終領域でなければ処理を繰り返す。これにより、OCR対象領域が2箇所あればこれら2箇所の全てにおいてOCR処理が実行され、その結果が記憶装置123に記憶される。以上の処理は、全てのページに対して繰り返し実行される(S311)。 Next, it is determined whether or not it is the final area of the same page (S310), and if it is not the final area, the process is repeated. As a result, if there are two OCR target areas, the OCR process is executed in all of these two places, and the result is stored in the storage device 123. The above processing is repeatedly executed for all pages (S311).

本実施形態では、属性とその値の相対的位置関係が同一であれば、たとえ属性自体の位置が文書毎に変化していても対応し得る。 In the present embodiment, if the relative positional relationship between the attribute and its value is the same, even if the position of the attribute itself changes for each document, it can be dealt with.

なお、本実施形態において、読取位置21のデータとして属性とその値の相対的位置関係に許容範囲を設定しておくことで、文書毎に属性自体の位置が変化するのみならず属性とその値の相対的位置関係が変化している場合にも対応し得る。例えば、読取位置情報として
属性:「お客様番号」
値の属性との位置関係:右側または下側
値の幅:100
値の高さ:20
とする等である。この場合、S308では、検出された属性の右側、及び下側のゾーンOCR処理を実行して値の文字列を抽出する。
In the present embodiment, by setting an allowable range in the relative positional relationship between the attribute and its value as the data of the reading position 21, not only the position of the attribute itself changes for each document, but also the attribute and its value. It is also possible to deal with the case where the relative positional relationship of is changing. For example, as reading position information Attribute: "Customer number"
Positional relationship with value attribute: right or lower Value width: 100
High value: 20
And so on. In this case, in S308, the zone OCR processing on the right side and the lower side of the detected attribute is executed to extract the character string of the value.

<実施形態3>
実施形態1,2では、第2文書22が1ページ単位の帳票の場合について説明したが、第2文書22が複数ページで1組の帳票の場合もあり得る。あるいは、第2文書22が表と裏の両面文書の場合もあり得る。
<Embodiment 3>
In the first and second embodiments, the case where the second document 22 is a form in units of one page has been described, but the second document 22 may be a set of forms with a plurality of pages. Alternatively, the second document 22 may be a front and back double-sided document.

このような場合、第1文書20についても第2文書22のページ構成に対応させて複数ページを1組とする、あるいは表と裏の両面を1組とすればよい。 In such a case, the first document 20 may have a plurality of pages as one set corresponding to the page structure of the second document 22, or both the front and back sides may have one set.

図13は、本実施形態における第1文書20及び第2文書22を具体的に示す。第1文書20及び第2文書22は、ともに同一形式の帳票(契約書)であり、表面及び裏面を1組として構成される。表面には「契約書」の見出しに加え、「会社名」、「担当者」の各項目が記載され、裏面には「契約日」の項目が記載されている。第1文書20及び第2文書22の各項目名、及びその位置は同一である。第1文書20は、契約書の帳票の1ページ目の表面20a及び裏面20bに相当し、第2文書22は、契約書の帳票の2ページ目以降(2ページ目からMページ目まで)の表面22a及び裏面22bに相当する。画像処理装置12のスキャナモジュール128は、1ページ目としての第1文書20の表面20a及び裏面20bと、2ページ目以降の第2文書22の表面22a及び裏面22bを読取対象とする。 FIG. 13 specifically shows the first document 20 and the second document 22 in this embodiment. The first document 20 and the second document 22 are both forms (contracts) of the same format, and the front surface and the back surface are configured as one set. In addition to the heading of "contract", each item of "company name" and "person in charge" is described on the front side, and the item of "contract date" is described on the back side. The item names of the first document 20 and the second document 22 and their positions are the same. The first document 20 corresponds to the front surface 20a and the back surface 20b of the first page of the contract form, and the second document 22 is the second and subsequent pages (from the second page to the M page) of the contract form. It corresponds to the front surface 22a and the back surface 22b. The scanner module 128 of the image processing apparatus 12 targets the front surface 20a and the back surface 20b of the first document 20 as the first page, and the front surface 22a and the back surface 22b of the second document 22 on the second and subsequent pages.

1ページ目としての第1文書20の表面20aの「会社名」、「担当者」、及び裏面20bの「契約日」の各項目の領域は、特定色のマーカにより囲まれ、あるいは塗りつぶされることで読取位置21が設定される。2ページ目以降としての第2文書22には、読取位置21は設定されない。 The area of each item of "company name", "person in charge" on the front side 20a of the first document 20 as the first page, and "contract date" on the back side 20b shall be surrounded or filled with a marker of a specific color. The reading position 21 is set with. The reading position 21 is not set in the second document 22 as the second and subsequent pages.

図14は、1ページ目としての第1文書20を読み取って電子データに変換し、電子データから読取位置21を検出する様子を示す。読取位置21は、特定色のマーカで設定されている場合には当該特定色を識別することで検出され得る。読取位置情報は、第1文書20の一定位置、例えば左上を原点(0,0)としたときの読取領域の左上の二次元座標(X、Y)と、読取領域のサイズを示す幅及び高さで規定され得る。第1文書20の表面20aに読取位置21が3箇所設定され、裏面20bに1箇所設定されている場合には、箇所毎にその読取位置情報が生成される。
表面20a:
(X、Y、幅、高さ)
=(10,15,100,20)
=(10,70,120,10)
=(15,100,120,10)
裏面20b:
(X、Y、幅、高さ)
=(15,100,140,10)
等である。検出されたこれらの読取位置情報は、第1文書20に関連付けて記憶装置123に記憶される。
FIG. 14 shows a state in which the first document 20 as the first page is read, converted into electronic data, and the reading position 21 is detected from the electronic data. The reading position 21 can be detected by identifying the specific color when it is set by the marker of the specific color. The reading position information includes the two-dimensional coordinates (X, Y) on the upper left of the reading area when a fixed position of the first document 20, for example, the upper left is the origin (0,0), and the width and height indicating the size of the reading area. Can be specified by. When three reading positions 21 are set on the front surface 20a of the first document 20 and one reading position is set on the back surface 20b, the reading position information is generated for each location.
Surface 20a:
(X, Y, width, height)
= (10,15,100,20)
= (10,70,120,10)
= (15,100,120,10)
Back side 20b:
(X, Y, width, height)
= (15,100,140,10)
And so on. The detected reading position information is stored in the storage device 123 in association with the first document 20.

なお、本実施形態では、読取位置情報を実施形態1と同様に第1文書20の一定位置を原点(0,0)としたときの読取領域の左上の二次元座標(X、Y)と、読取領域のサイズを示す幅及び高さで規定しているが、実施形態2と同様に属性とその値の相対的位置関係と、値領域のサイズを示す幅及び高さで規定してもよい。例えば、
表面20a:
属性:「お客様番号」
値の属性との位置関係:右側
値の幅:100
値の高さ:20
裏面20b:
属性:「有効期限」
値の属性との位置関係:下側
値の幅:80
値の高さ:30
等である。
In this embodiment, the reading position information is the two-dimensional coordinates (X, Y) on the upper left of the reading area when the origin (0,0) is a fixed position of the first document 20 as in the first embodiment. Although it is specified by the width and height indicating the size of the reading area, it may be specified by the relative positional relationship between the attribute and its value and the width and height indicating the size of the value area as in the second embodiment. .. for example,
Surface 20a:
Attribute: "Customer number"
Positional relationship with value attribute: right side Value width: 100
High value: 20
Back side 20b:
Attribute: "Expiration date"
Positional relationship with value attribute: lower Value width: 80
High value: 30
And so on.

以上、本発明の実施形態について説明したが、本発明はこれらの実施形態に限定されるものではなく、種々の変形が可能である。以下、変形例について説明する。 Although the embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and various modifications are possible. Hereinafter, a modified example will be described.

<変形例1>
実施形態では、第1文書20の中の属性とその値の組に着目して読取位置情報を生成し記憶装置123に記憶しているが、属性としては「お客様番号」や「有効期限」等の特定文字列の他に、特定色や特定形状としてもよい。
<Modification 1>
In the embodiment, the reading position information is generated and stored in the storage device 123 by focusing on the set of the attribute and its value in the first document 20, but the attributes include "customer number" and "expiration date". In addition to the specific character string of, a specific color or a specific shape may be used.

<変形例2>
実施形態では、第1文書20に対するマーキングとして、特定色のマーカによる囲みや塗りつぶし、チェックマークの追加等を例示したが、これ以外にも、無色透明による塗りつぶしや囲みによるマーキングでもよく、制御部124は、第1文書20に対してブラックライトを照射することで第1文書20の無色透明マーキングを検出して読取位置情報を生成してもよい。特定色のマーカによる囲みでは、表を構成する特定色の罫線と区別すべく、当該罫線色以外の色とするのが望ましい。
<Modification 2>
In the embodiment, as markings for the first document 20, enclosing and filling with a marker of a specific color, adding a check mark, and the like are exemplified. May detect the colorless and transparent marking of the first document 20 by irradiating the first document 20 with a black light and generate reading position information. When surrounded by a marker of a specific color, it is desirable to use a color other than the ruled line color in order to distinguish it from the ruled line of the specific color constituting the table.

また、第1文書20に対するマーキングとしては、1種類のみならず、複数種類が混在していてもよい。例えば、特定色のマーカによる囲みと塗りつぶしの組合せ、特定色マーカによる囲みとチェックマークの組合せ等である。 Further, as the marking for the first document 20, not only one type but also a plurality of types may be mixed. For example, a combination of a box and a fill with a marker of a specific color, a combination of a box and a check mark with a marker of a specific color, and the like.

図15は、複数種類が混在するマーキングの例を示す。第1文書20の読取位置21は、特定色(例えば黄色や赤)マーカによる囲み、塗りつぶし、及びチェックマークにより設定され得る。 FIG. 15 shows an example of marking in which a plurality of types are mixed. The reading position 21 of the first document 20 may be set by enclosing, filling, and checking marks with a specific color (eg, yellow or red) marker.

さらに、第1文書20に対するマーキングは、利用者が第1文書20に対して直接行ってもよいが、第1文書20をスキャナモジュール128で電子データに変換して得られた電子画像を操作部126に表示し、利用者が操作部126を操作することで行ってもよい。 Further, the marking on the first document 20 may be performed by the user directly on the first document 20, but the electronic image obtained by converting the first document 20 into electronic data by the scanner module 128 is used as an operation unit. It may be displayed on 126 and the user may operate the operation unit 126.

<変形例3>
実施形態1では、図5に示すように読取位置情報として位置座標、幅、高さを規定し、実施形態2では、図11に示すように読取位置情報として属性、属性との相対的位置関係、幅、高さを規定しているが、これらを組み合わせてもよい。すなわち、ある読取位置21については図5に示す形式とし、別の読取位置21については図11に示す形式とする等である。
<Modification 3>
In the first embodiment, the position coordinates, the width, and the height are defined as the reading position information as shown in FIG. 5, and in the second embodiment, the attributes and the relative positional relationship with the attributes are defined as the reading position information as shown in FIG. , Width and height are specified, but these may be combined. That is, one reading position 21 has the format shown in FIG. 5, another reading position 21 has the format shown in FIG. 11, and the like.

<変形例4>
実施形態では、第1文書20の読取位置21を検出して生成された読取位置情報を用いて、第2文書22の読取位置を特定しているが、読取位置の特定には、厳密に一致する位置の他、許容範囲内にある最近位置も含まれ得る。従って、第2文書22において読取位置情報で特定される位置に文字列が存在しない場合(例えばチェックマークの場合)には、読取位置情報で特定される位置に最も近い文字列をOCRの対象とすればよい。
<Modification example 4>
In the embodiment, the reading position of the second document 22 is specified by using the reading position information generated by detecting the reading position 21 of the first document 20, but the reading position is exactly the same. In addition to the position to be used, the latest position within the allowable range may be included. Therefore, when the character string does not exist at the position specified by the reading position information in the second document 22 (for example, in the case of a check mark), the character string closest to the position specified by the reading position information is targeted for OCR. do it.

<変形例5>
実施形態1では、第2文書22のページ毎にゾーンOCRを実行してOCR結果を出力しているが、第2文書22が同一形式の場合には、第2文書22の全てのページについて読取位置情報で特定される読取位置を一括して読み取り、その後にページ毎にOCRを実行してその結果を出力してもよい。
<Modification 5>
In the first embodiment, the zone OCR is executed for each page of the second document 22 and the OCR result is output. However, when the second document 22 has the same format, all the pages of the second document 22 are read. The reading positions specified by the position information may be collectively read, and then OCR may be executed for each page and the result may be output.

10 端末装置、12 画像処理装置、14 通信回線、20 第1文書、22 第2文書、123 記憶装置、124 制御部、128 スキャナモジュール。
10 terminal device, 12 image processing device, 14 communication line, 20 first document, 22 second document, 123 storage device, 124 control unit, 128 scanner module.

Claims (16)

文書読取部と、
読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、
前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、
を備え
前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含み、
前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む、
文書読取装置。
Document reader and
A storage unit that reads the first document for which a reading position is set by the document reading unit and stores it as reading position information, and a storage unit.
The reading position information stored in the storage unit is the reading position when the document reading unit reads the second document which has the same or similar format as the first document and the reading position is not set. The reading position specifying part specified by using
Equipped with
The reading position information includes information on a position relative to a specific position in the first document.
The relative position information includes position coordinates with respect to the specific position and information on the range thereof.
Document reader.
前記読取位置情報は、前記第1文書の中で一定数の文字が含まれる位置座標とその範囲の情報を含む
請求項1に記載の文書読取装置。
The document reading device according to claim 1, wherein the reading position information includes information on position coordinates including a certain number of characters in the first document and a range thereof.
前記特定位置は、特定属性の位置である
請求項に記載の文書読取装置。
The document reading device according to claim 1 , wherein the specific position is a position of a specific attribute.
文書読取部と、
読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、
前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、
を備え、
前記記憶部は、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて前記文書読取部で読み取り、読取位置情報として記憶する
書読取装置。
Document reader and
A storage unit that reads the first document for which a reading position is set by the document reading unit and stores it as reading position information, and a storage unit.
The reading position information stored in the storage unit is the reading position when the document reading unit reads the second document which has the same or similar format as the first document and the reading position is not set. The reading position specifying part specified by using
Equipped with
When the second document constitutes a set consisting of a plurality of sheets, the storage unit reads the first document in correspondence with the set and stores it as reading position information.
Document reader.
前記複数枚は表面と裏面である
請求項に記載の文書読取装置。
The document reading device according to claim 4 , wherein the plurality of sheets are a front surface and a back surface.
前記複数枚は、1組の帳票を構成する
請求項に記載の文書読取装置。
The document reading device according to claim 4 , wherein the plurality of sheets form a set of forms.
前記複数枚からなる組は、前記読取位置が互いに異なる
請求項に記載の文書読取装置。
The document reading device according to claim 4 , wherein the set including the plurality of sheets has different reading positions from each other.
前記第1文書における前記読取位置の設定は、マーキングによる
請求項1、4のいずれかに記載の文書読取装置。
The document reading device according to any one of claims 1 and 4 by marking the setting of the reading position in the first document.
前記マーキングは、特定色による囲み、特定色による塗りつぶし、チェックマークの追加、無色透明による囲み、無色透明による塗りつぶしの少なくともいずれかである
請求項に記載の文書読取装置。
The document reading device according to claim 8 , wherein the marking is at least one of enclosing with a specific color, filling with a specific color, adding a check mark, enclosing with colorless and transparent, and filling with colorless and transparent.
前記第1文書の画像を表示する表示部と、
前記第1文書の画像に対してマーキングする操作部と、
をさらに備える請求項に記載の文書読取装置。
A display unit that displays the image of the first document, and
An operation unit for marking the image of the first document,
The document reading apparatus according to claim 8 .
文書読取部と、
読取位置が設定されている第1文書に対して前記文書読取部で読み取り、読取位置情報として記憶する記憶部と、
前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書に対して前記文書読取部で読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定する読取位置特定部と、
を備え、
前記第1文書は、前記第2文書に対する1または複数のヘッダシートである
書読取装置。
Document reader and
A storage unit that reads the first document for which a reading position is set by the document reading unit and stores it as reading position information, and a storage unit.
The reading position information stored in the storage unit is the reading position when the document reading unit reads the second document which has the same or similar format as the first document and the reading position is not set. The reading position specifying part specified by using
Equipped with
The first document is one or more header sheets for the second document.
Document reader.
前記ヘッダシートの枚数は、利用者により設定される
請求項11に記載の文書読取装置。
The document reading device according to claim 11 , wherein the number of header sheets is set by the user.
前記ヘッダシートの枚数は、前記文書読取部で判定される
請求項11に記載の文書読取装置。
The document reading device according to claim 11 , wherein the number of header sheets is determined by the document reading unit.
コンピュータに、
読取位置が設定されている第1文書を読み取るステップと、
前記読取位置についての読取位置情報を生成するステップと、
前記読取位置情報を記憶部に記憶するステップと、
前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップ
を実行させるプログラムであり、前記読取位置情報は、前記第1文書における特定位置に対する相対的位置の情報を含み、
前記相対的位置の情報は、前記特定位置に対する位置座標とその範囲の情報を含む、プログラム。
On the computer
The step of reading the first document for which the reading position is set, and
A step of generating reading position information about the reading position, and
The step of storing the read position information in the storage unit,
After storing the reading position information, the reading position when reading the second document which is the same as or similar to the first document and the reading position is not set is stored in the storage unit. It is a program that executes a step of specifying using position information , and the read position information includes information of a position relative to a specific position in the first document.
The relative position information is a program including information on the position coordinates and the range thereof with respect to the specific position.
コンピュータに、 On the computer
読取位置が設定されている第1文書を読み取るステップと、 The step of reading the first document for which the reading position is set, and
前記読取位置についての読取位置情報を生成するステップと、 A step of generating reading position information about the reading position, and
前記読取位置情報を記憶部に記憶するステップと、 The step of storing the read position information in the storage unit,
前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップ After storing the reading position information, the reading position when reading the second document which is the same as or similar to the first document and the reading position is not set is stored in the storage unit. Steps to identify using location information
を実行させるプログラムであり、前記記憶部に記憶するステップでは、前記第2文書が複数枚からなる組を構成する場合に、前記第1文書に対して前記組に対応させて読み取り、読取位置情報として記憶する、プログラム。 In the step of storing in the storage unit, when the second document constitutes a set consisting of a plurality of sheets, the first document is read in correspondence with the set, and the reading position information is read. A program to remember as.
コンピュータに、 On the computer
読取位置が設定されている第1文書を読み取るステップと、 The step of reading the first document for which the reading position is set, and
前記読取位置についての読取位置情報を生成するステップと、 A step of generating reading position information about the reading position, and
前記読取位置情報を記憶部に記憶するステップと、 The step of storing the read position information in the storage unit,
前記読取位置情報を記憶した後に、前記第1文書と同一または類似形式であって、前記読取位置が設定されていない第2文書を読み取る際の読取位置を、前記記憶部に記憶された前記読取位置情報を用いて特定するステップ After storing the reading position information, the reading position when reading the second document which is the same as or similar to the first document and the reading position is not set is stored in the storage unit. Steps to identify using location information
を実行させるプログラムであり、前記第1文書は、前記第2文書に対する1または複数のヘッダシートである、プログラム。 The first document is one or more header sheets for the second document.
JP2018053866A 2018-03-22 2018-03-22 Document reader and program Active JP7059734B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018053866A JP7059734B2 (en) 2018-03-22 2018-03-22 Document reader and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018053866A JP7059734B2 (en) 2018-03-22 2018-03-22 Document reader and program

Publications (2)

Publication Number Publication Date
JP2019168747A JP2019168747A (en) 2019-10-03
JP7059734B2 true JP7059734B2 (en) 2022-04-26

Family

ID=68107458

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018053866A Active JP7059734B2 (en) 2018-03-22 2018-03-22 Document reader and program

Country Status (1)

Country Link
JP (1) JP7059734B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116402070B (en) * 2023-05-31 2023-08-08 中电长城(长沙)信息技术有限公司 SP service realization method and system for multiple certificates

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237840A (en) 2010-04-30 2011-11-24 Murata Mach Ltd Document processing device
JP2015159456A (en) 2014-02-25 2015-09-03 富士ゼロックス株式会社 Image processing apparatus, image processing system, and image processing program
JP2016200967A (en) 2015-04-09 2016-12-01 キヤノン株式会社 Image processing apparatus, image processing method, and program
JP2017058732A (en) 2015-09-14 2017-03-23 富士ゼロックス株式会社 Information processing device and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011237840A (en) 2010-04-30 2011-11-24 Murata Mach Ltd Document processing device
JP2015159456A (en) 2014-02-25 2015-09-03 富士ゼロックス株式会社 Image processing apparatus, image processing system, and image processing program
JP2016200967A (en) 2015-04-09 2016-12-01 キヤノン株式会社 Image processing apparatus, image processing method, and program
JP2017058732A (en) 2015-09-14 2017-03-23 富士ゼロックス株式会社 Information processing device and program

Also Published As

Publication number Publication date
JP2019168747A (en) 2019-10-03

Similar Documents

Publication Publication Date Title
US8610929B2 (en) Image processing apparatus, control method therefor, and program
US8054495B2 (en) Digital documents, apparatus, methods and software relating to associating an identity of paper printed with digital pattern with equivalent digital documents
US8310689B2 (en) Document managing apparatus, document managing system, and document managing method
US7982918B2 (en) Image annotation using barcodes
US9454696B2 (en) Dynamically generating table of contents for printable or scanned content
JP2009104590A (en) Printing apparatus and system
US20180160009A1 (en) Image processing apparatus and image forming apparatus
JP2010211466A (en) Image processing apparatus, image processing method, and program
US9424498B2 (en) Information processing apparatus, information processing method, and recording medium for conversion of vendor-specific print data
JP4562740B2 (en) On-demand printing of coding patterns
US8477368B2 (en) Printing apparatus and print data processing system combining stored pattern-based print drawing data with newly-received print drawing data
JP2010211465A (en) Apparatus, method and program for processing image
JP7059734B2 (en) Document reader and program
US20210287187A1 (en) Image processing apparatus and non-transitory computer readable medium storing program
US8339625B2 (en) Secure print job management using machine-readable markings in an image production device
JP5143059B2 (en) Image processing apparatus, control method therefor, and program
US8330969B2 (en) Print data generation apparatus
JP2011159179A (en) Image processing apparatus and processing method thereof
JP2007316795A (en) Copy form for electronic pen
US20110157659A1 (en) Information processing apparatus, method for controlling the information processing apparatus, and storage medium
US10839206B2 (en) Information processing device and method performing character recognition on document image data masked or not based on text image count
US10084938B2 (en) Reading apparatus and non-transitory storage medium storing instructions executable by reading apparatus
US20110134494A1 (en) Image scanning apparatus, control method for image scanning apparatus, and storage medium
CN102737372A (en) Proofreading apparatus, proofreading method, and recording medium
US20200202156A1 (en) Information processing device and information processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220328

R150 Certificate of patent or registration of utility model

Ref document number: 7059734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150