JP2013182459A - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP2013182459A JP2013182459A JP2012046408A JP2012046408A JP2013182459A JP 2013182459 A JP2013182459 A JP 2013182459A JP 2012046408 A JP2012046408 A JP 2012046408A JP 2012046408 A JP2012046408 A JP 2012046408A JP 2013182459 A JP2013182459 A JP 2013182459A
- Authority
- JP
- Japan
- Prior art keywords
- area
- image data
- information
- definition
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、情報処理装置、情報処理方法、及び、プログラムの技術に関する。 The present invention relates to an information processing apparatus, an information processing method, and a program technique.
特許文献1には、予めフォームが定義されている、手書きされた筆記情報を有する紙文書から、手書きされた部分の情報である筆記画像情報を抽出する技術が開示されている。
従来、ユーザは、手作業で、帳票の認識処理に用いる定義データを作成していた。この定義データを作成するためには、ユーザは、該定義データ作成に関する知識を習得しなければならなかった。そのため、従来の技術では、当該帳票の定義データを作成する手間がかかるという問題点があった。 Conventionally, a user manually creates definition data used for form recognition processing. In order to create the definition data, the user has to acquire knowledge about the definition data creation. Therefore, the conventional technique has a problem that it takes time to create definition data of the form.
一側面では、本発明は、このような問題点を考慮してなされたものであり、帳票の定義データを作成する手間を削減することを目的とする。 In one aspect, the present invention has been made in consideration of such a problem, and an object thereof is to reduce the trouble of creating form definition data.
本発明の一側面に係る情報処理装置は、第1帳票のイメージデータと、該第1帳票と同種の帳票であって、該第1帳票には存在しない情報が存在する帳票である第2帳票のイメージデータとを取得する取得部と、前記第1帳票のイメージデータと前記第2帳票のイメージデータとの差分から、前記第2帳票において前記情報が存在する領域を抽出する抽出部と、前記第2帳票における前記抽出された領域の位置を情報の読み取り位置として設定した、前記第1帳票及び第2帳票と同種の帳票の読み取り処理に用いる定義データを作成する定義作成部と、を備える。 An information processing apparatus according to an aspect of the present invention provides a second form that is an image data of a first form and a form that is the same type of form as the first form and includes information that does not exist in the first form. An acquisition unit for acquiring the image data, an extraction unit for extracting an area where the information exists in the second form from a difference between the image data of the first form and the image data of the second form, A definition creating unit configured to create definition data used for reading the same form as the first form and the second form, in which the position of the extracted area in the second form is set as an information reading position.
上記本発明の一側面に係る情報処理装置によれば、第1帳票と第2帳票との差分から得られる情報を用いて、該第1帳票及び第2帳票と同種の帳票の認識処理に用いる定義データが作成される。 According to the information processing apparatus according to one aspect of the present invention, information obtained from the difference between the first form and the second form is used for recognition processing of the same type of form as the first form and the second form. Definition data is created.
従って、ユーザは、手作業で、帳票の認識処理に用いる定義データを作成する必要が無くなる。また、ユーザは、定義データを作成するためには、第1帳票と第2帳票のイメージデータを用意するだけでよい。そのため、ユーザは、定義データの作成に関する知識が無くても、定義データを作成することができる。その結果、上記本発明の一側面に係る情報処理装置によれば、当該帳票の定義データを作成する手間を削減することが可能となる。 Therefore, the user does not need to manually create definition data used for the form recognition process. Further, in order to create definition data, the user only needs to prepare image data of the first form and the second form. Therefore, the user can create definition data without knowledge about creation of definition data. As a result, according to the information processing apparatus according to one aspect of the present invention, it is possible to reduce the trouble of creating definition data for the form.
また、上記情報処理装置の別の形態として、前記定義作成部は、前記抽出された領域に対して所定の認識処理を適用することで得られる、前記抽出された領域に存在する情報の属性を、前記抽出された領域に関する属性として前記定義データに設定してもよい。 Further, as another form of the information processing apparatus, the definition creating unit obtains an attribute of information existing in the extracted area obtained by applying a predetermined recognition process to the extracted area. The definition data may be set as an attribute relating to the extracted area.
また、上記各情報処理装置の別の形態として、前記抽出部は、前記第1帳票又は前記第2帳票において、前記抽出した領域の位置周辺に存在する、文字が印字されている印字領
域を特定し、前記定義作成部は、前記印字領域から取得される文字により示される名称を、前記抽出された領域の項目名として前記定義データに設定してもよい。
As another form of each of the information processing apparatuses, the extraction unit specifies a print area in which characters are printed in the vicinity of the extracted area in the first form or the second form. The definition creating unit may set a name indicated by characters acquired from the print area in the definition data as an item name of the extracted area.
また、上記情報処理装置の別の形態として、前記定義作成部は、帳票に含まれる領域の項目名として使用される名称が登録された辞書データを参照し、前記印字領域から取得される文字により示される名称が該参照した辞書データに登録されていなかった場合、前記印字領域から取得される文字により示される名称を、登録されている名称のうち、前記印字領域から取得される文字により示される名称に類似する名称に修正して、前記抽出された領域の項目名として前記定義データに設定してもよい。 As another form of the information processing apparatus, the definition creation unit refers to dictionary data in which names used as item names of areas included in the form are registered, and uses characters acquired from the print area. If the indicated name is not registered in the referenced dictionary data, the name indicated by the character acquired from the print area is indicated by the character acquired from the print area among the registered names. It may be modified to a name similar to the name and set in the definition data as the item name of the extracted area.
また、上記各情報処理装置の別の形態として、前記取得部は、前記第1帳票及び前記第2帳票と同種の帳票であって、前記第1帳票及び前記第2帳票には存在しない情報が存在する帳票である第3帳票のイメージデータを更に取得し、前記抽出部は、前記第1帳票のイメージデータと前記第3帳票のイメージデータとの差分から、前記第3帳票において前記第1帳票及び前記第2帳票には存在しない情報が存在する領域を更に抽出し、前記定義作成部は、前記第3帳票のイメージデータから抽出された領域が前記第2帳票のイメージデータから抽出された領域と重なる場合、前記第2帳票のイメージデータから抽出された領域により設定された前記情報の読み取り位置を、前記第2帳票及び前記第3帳票のイメージデータから抽出された領域を含む領域の位置に修正してもよい。 As another form of each of the information processing apparatuses, the acquisition unit is a form of the same type as the first form and the second form, and there is information that does not exist in the first form and the second form. Further, image data of a third form, which is an existing form, is further acquired, and the extraction unit calculates the first form in the third form from the difference between the image data of the first form and the image data of the third form. And an area where information that does not exist in the second form is further extracted, and the definition creating unit extracts an area extracted from the image data of the third form from the image data of the second form The information reading position set by the area extracted from the image data of the second form, the area extracted from the image data of the second form and the third form It may be modified to a position of a region including.
なお、上記各情報処理装置の別態様としては、以上の各構成を実現する情報処理方法であってもよいし、プログラムであってもよいし、このようなプログラムを記録したコンピュータその他装置、機械等が読み取り可能な記憶媒体であってもよい。ここで、コンピュータ等が読み取り可能な記録媒体とは、プログラム等の情報を、電気的、磁気的、光学的、機械的、又は、化学的作用によって蓄積する媒体である。 In addition, as another aspect of each said information processing apparatus, the information processing method which implement | achieves each said structure may be sufficient, a program may be sufficient, and the computer other apparatus and machine which recorded such a program May be a readable storage medium. Here, the computer-readable recording medium is a medium that stores information such as programs by electrical, magnetic, optical, mechanical, or chemical action.
本発明によれば、帳票の定義データを作成する手間を削減するができる。 According to the present invention, it is possible to reduce the trouble of creating form definition data.
以下、本発明の一側面に係る実施の形態(以下、「本実施形態」とも表記する)を、図面に基づいて説明する。ただし、以下で説明する本実施形態は、あらゆる点において本発明の例示に過ぎず、その範囲を限定しようとするものではない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、本実施形態に応じた具体的構成が適宜採用されてもよい。 Hereinafter, an embodiment according to an aspect of the present invention (hereinafter, also referred to as “this embodiment”) will be described with reference to the drawings. However, the present embodiment described below is merely an example of the present invention in all points, and is not intended to limit the scope thereof. It goes without saying that various improvements and modifications can be made without departing from the scope of the present invention. That is, in implementing the present invention, a specific configuration according to the present embodiment may be employed as appropriate.
なお、本実施形態において登場するデータを自然言語により説明しているが、より具体的には、コンピュータが認識可能な疑似言語、コマンド、パラメタ、マシン語等で指定される。 Although data appearing in the present embodiment is described in a natural language, more specifically, it is specified by a pseudo language, a command, a parameter, a machine language, or the like that can be recognized by a computer.
§1 情報処理装置
図1は、実施形態に係る定義データの作成場面を例示する。本実施形態に係る情報処理装置は、スキャナ等の装置から、第1帳票50のイメージデータと第2帳票60のイメージデータとを取得する。第2帳票60は、第1帳票50と同種の帳票であって、当該第1帳票50には存在しない情報が存在する帳票である。
§1 Information processing apparatus FIG. 1 illustrates a creation scene of definition data according to the embodiment. The information processing apparatus according to the present embodiment acquires the image data of the
ここで、帳票に存在する情報とは、帳票に記入、押印、印字、又は、貼付等された文字、記号、又は、図形等である。帳票に存在する情報とは、例えば、手書きで記入された文字、印字されたバーコード等である。なお、本実施形態において、文字の数は限定されない。以下、「文字」という表現には、1文字の場合と、複数文字の場合とが含まれる。 Here, the information existing in the form is a character, symbol, figure, or the like that has been entered, stamped, printed, or pasted on the form. The information existing in the form is, for example, handwritten characters, printed bar codes, and the like. In the present embodiment, the number of characters is not limited. Hereinafter, the expression “character” includes a case of one character and a case of a plurality of characters.
また、第1帳票50には存在しない情報が第2帳票60には存在する状態とは、例えば、第1帳票50に記入等されていない文字又はバーコードが第2帳票60に存在する状態、第1帳票50と第2帳票60とでは対応する領域において異なる文字の記入等がされている状態等である。
The state in which information that does not exist in the
第1帳票50に存在しない情報が第2帳票60には存在する状態の具体例を、図1を用いて説明する。図1に示される第2帳票60は、「○○書」という名称の、第1帳票50と同種の帳票である。第2帳票60の欄61及び欄62は、それぞれ、第1帳票50の欄51及び欄52に対応する。
A specific example of a state in which information that does not exist in the
欄51及び欄61には、例えば、欄52及び欄62に記入等される情報の項目名を示す文字(図中の「A項目」)が印字される。また、欄52及び欄62には、例えば、欄51及び欄61に印字等された項目名により示される情報が手書き等で記入される。図1では、欄52には何も記入されておらず、欄62の領域63には「AAAA」という文字が記入されている。
In the
また、図1に示される例では、第2帳票60の領域64において、第1帳票50には印字されていないバーコードが印字されている。なお、本実施形態において、帳票に印字されるバーコードの種類は限定されない。例えば、第2帳票60の領域64には、12桁の数値を示す、NW−7規格のバーコードが印字されているとする。
In the example shown in FIG. 1, a bar code not printed on the
この図1において、第1帳票50には存在しないが第2帳票60には存在する情報とは、具体的には、領域63に存在する文字「AAAA」と領域64に存在するバーコードである。なお、例えば、欄52に「AAAA」と異なる文字が記入されていたとしても、本実施形態では、領域63に存在する文字「AAAA」は、第1帳票50には存在しないが第2帳票60には存在する情報と見なされる。
In FIG. 1, the information that does not exist in the
このような第1帳票50には存在しない情報が第2帳票60に存在する場合、第1帳票50と第2帳票60との差分から、例えば、領域63及び領域64のような当該情報が存在する領域を特定することができる。本実施形態に係る情報処理装置は、第1帳票50のイメージデータと第2帳票60のイメージデータとの差分から、領域63及び領域64のような、第2帳票60において当該情報が存在する領域を抽出する。この抽出された領域は、第1帳票50及び第2帳票60と同種の帳票において、情報が記入等される領域(情報が存在する領域)と推定される。すなわち、この領域に所定の認識処理を適用することにより、当該情報が得られると推定される。
When such information that does not exist in the
そこで、本実施形態に係る情報処理装置は、第2帳票60において抽出された領域63及び領域64の位置を情報の読み取り位置として設定した、第1帳票50及び第2帳票60と同種の帳票の読み取り処理に用いる定義データを作成する。つまり、本実施形態に係る情報処理装置によれば、第1帳票50と第2帳票60との差分から得られる情報が用いられて、当該第1帳票50及び第2帳票60と同種の帳票の認識処理に用いられる定義データが作成される。なお、本実施形態では、領域の位置は、イメージデータ上の座標として表現される。しかしながら、領域の位置の表現方法は、限定されるものではなく、適宜選択される。
Therefore, the information processing apparatus according to the present embodiment uses the same type of form as the
このように定義データが作成されるため、本実施形態に係る情報処理装置によれば、ユーザは、手作業で、帳票の認識処理に用いる定義データを作成する必要がなくなる。また、ユーザは、定義データを作成するためには、第1帳票50及び第2帳票60のような関係にある、同種の帳票のイメージデータを少なくとも2つ用意すればよい。そのため、ユーザは、定義データの作成に関する知識が無くても、定義データを作成することができる。その結果、本実施形態によれば、帳票の定義データを作成する手間を削減することが可能となる。
Since the definition data is created in this way, according to the information processing apparatus according to the present embodiment, the user does not need to manually create definition data used for form recognition processing. Further, in order to create the definition data, the user only needs to prepare at least two image data of the same type of form having a relationship such as the
なお、本実施形態において定義データの作成対象である帳票の種類は限定されるものではない。また、帳票のイメージデータは、スキャナ等により帳票を電子化したデータであってもよいし、コンピュータ上で作成された文書や画像などのデータであってもよい。 In the present embodiment, the type of form for which definition data is to be created is not limited. The image data of the form may be data obtained by digitizing the form by a scanner or the like, or may be data such as a document or an image created on a computer.
また、第1帳票50のイメージデータと第2帳票60のイメージデータは、1つの帳票(紙)から取得されるイメージデータであってもよい。例えば、ユーザは、記入前の帳票をスキャナに読み込ませることにより、第1帳票50のイメージデータを取得することができる。そして、ユーザは、第1帳票50のイメージデータを取得するために用いた帳票の欄(例えば、欄52)に文字を記入した後にスキャナに読み込ませることにより、第2帳票60のイメージデータを取得することができる。
Further, the image data of the
本実施形態に係る情報処理装置は、第1帳票50と第2帳票60との差分を抽出することで、当該第1帳票50及び第2帳票60と同種の帳票の認識処理に用いる定義データを作成する。そのため、第1帳票50と第2帳票60との差分が明らかな方が好ましい。つまり、第1帳票50は、例えば、情報を記入等する欄に何ら記入等されていない未記入の帳票である方が好ましい。
The information processing apparatus according to the present embodiment extracts the difference between the
また、本実施形態に係る情報処理装置は、第1帳票50又は第2帳票60において、前記差分に基づいて抽出した領域の位置周辺に存在する、文字が印字されている印字領域を特定してもよい。そして、本実施形態に係る情報処理装置は、当該印字領域から取得される文字により示される名称を、当該抽出された領域の項目名として定義データに設定してもよい。
In addition, the information processing apparatus according to the present embodiment specifies a print area in which characters are printed that exist around the position of the area extracted based on the difference in the
例えば、本実施形態に係る情報処理装置は、第1帳票50における領域63に対応する領域の位置の、又は、第2帳票60における領域63の位置の、周辺を検索し、文字が印字されている印字領域を特定してもよい。この場合、例えば、第1帳票50では欄51の領域が、第2帳票60では欄61の領域が印字領域として特定される。
For example, the information processing apparatus according to the present embodiment searches the periphery of the position of the area corresponding to the
本実施形態に係る情報処理装置は、当該印字領域において、例えば、OCR(光学文字認識:Optical Character Recognition)処理を実行することで、文字「A項目」を認識
してもよい。そして、情報処理装置は、認識した文字「A項目」を、領域63に基づいて設定される帳票の読み取り領域の項目名として設定してもよい。
The information processing apparatus according to the present embodiment may recognize the character “A item” by executing, for example, OCR (Optical Character Recognition) processing in the print area. Then, the information processing apparatus may set the recognized character “A item” as the item name of the reading area of the form set based on the
この場合に、情報処理装置は、帳票に含まれる領域の項目名として使用される名称が登録された辞書データを参照してもよい。そして、情報処理装置は、印字領域から取得される文字により示される名称が参照した辞書データに登録されていなかった場合、当該印字領域から取得される文字により示される名称を、辞書データに登録されている名称に基づいて、修正してもよい。これにより、情報処理装置は、第1帳票50と第2帳票60との差分から抽出した領域の項目名として、当該修正した名称を定義データに設定してもよい。
In this case, the information processing apparatus may refer to dictionary data in which names used as item names of areas included in the form are registered. When the name indicated by the character acquired from the print area is not registered in the referenced dictionary data, the information processing apparatus registers the name indicated by the character acquired from the print area in the dictionary data. You may correct based on the name. Thereby, the information processing apparatus may set the corrected name in the definition data as the item name of the area extracted from the difference between the
また、本実施形態に係る情報処理装置は、少なくとも第1帳票50及び第2帳票60のいずれかにおいて所定の条件を満たす文字を探査することで、第1帳票50及び第2帳票60と同種の帳票の名称(帳票名)を取得してもよい。
In addition, the information processing apparatus according to the present embodiment searches for a character that satisfies a predetermined condition in at least one of the
例えば、本実施形態に係る情報処理装置は、第1帳票50から、フォントサイズの最も大きい文字を探査し、当該条件を満たす文字により示される名称を帳票名として取得してもよい。第2帳票60は第1帳票50と同種の帳票であるため、第1帳票50において当該帳票名が取得された位置に対応する第2帳票60上の位置に、当該帳票名を示す文字が存在するはずである。よって、本実施形態に係る情報処理装置は、第1帳票50において当該帳票名が取得された位置に対応する第2帳票60上の位置に、当該帳票名を示す文字が存在するか否かを判定することによって、第1帳票50から取得された帳票名が真に正しい帳票名であるか否かを判定してもよい。このような処理により、例えば、図1により示される例では、情報処理装置は、帳票名として、「○○書」という名称を取得してもよい。
For example, the information processing apparatus according to the present embodiment may search the
また、本実施形態に係る情報処理装置は、第1帳票50及び第2帳票60の差分に基づいて抽出した領域に対して、所定の認識処理を適用してもよい。所定の認識処理とは、例えば、OCR処理、バーコード認識処理等である。情報処理装置は、当該所定の認識処理を適用することで得られる、当該抽出した領域に存在する情報の属性を、当該抽出した領域に関する属性として定義データに設定してもよい。
In addition, the information processing apparatus according to the present embodiment may apply a predetermined recognition process to an area extracted based on the difference between the
例えば、図1に示される例では、本実施形態に係る情報処理装置は、領域63に対してOCR処理を適用することにより、領域63(欄52及び欄62)に記入される、文字の種類に関する属性(文字種)と、文字の数に関する属性(文字数)とを得ることができる。また、情報処理装置は、領域64に対してバーコード認識処理を適用することにより、領域64に印字される、バーコードの種類に関する属性(バーコード種別)と、バーコードにより示される文字の数に関する属性(文字数)とを得ることができる。なお、情報処理装置は、各領域に適用する認識処理を特定せず、各領域に対して複数の認識処理を適用してよい。この場合、情報処理装置は、エラーが発生しなかった認識処理の結果に基づいて、各領域の属性の値を特定してもよい。
For example, in the example shown in FIG. 1, the information processing apparatus according to the present embodiment applies the OCR process to the
また、本実施形態に係る情報処理装置は、定義データを作成するために、3枚以上の帳
票のイメージデータを用いてもよい。
In addition, the information processing apparatus according to the present embodiment may use image data of three or more forms in order to create definition data.
例えば、情報処理装置は、第2帳票60が複数枚存在すると扱うことで、3枚以上の帳票のイメージデータに基づいて、定義データを作成してもよい。この場合、情報処理装置は、第1帳票50と各第2帳票60との差分に基づいて、定義データを作成する。
For example, the information processing apparatus may create definition data based on the image data of three or more forms by treating that there are a plurality of
また、例えば、情報処理装置は、第1帳票50及び第2帳票60と同種の帳票であって、当該第1帳票50及び第2帳票60には存在しない情報が存在する帳票である第3帳票のイメージデータを取得してもよい。この場合、情報処理装置は、第1帳票50のイメージデータと第3帳票のイメージデータとの差分から、当該第3帳票において第1帳票50及び第2帳票60には存在しない情報が存在する領域を更に抽出してもよい。そして、情報処理装置は、当該第3帳票のイメージデータから抽出された領域が第2帳票60のイメージデータから抽出した領域と重なる場合、第2帳票60のイメージデータから抽出した領域により設定された情報の読み取り位置を、第2帳票60及び第3帳票のイメージデータから抽出された領域を含む領域の位置に修正してもよい(後述する図10〜12)。
Further, for example, the information processing apparatus is the same form as the
以下では、本実施形態に係る情報処理装置1が、第1帳票50と第2帳票60との差分に基づいて、情報の読み取り位置(座標)、情報の属性(文字種、文字数等)、項目名、帳票名を設定した定義データを作成する例を示す。
In the following, the
[構成例]
図2は、本実施形態に係る情報処理装置1を例示する。情報処理装置1は、図2に示されるとおり、そのハードウェア構成として、バス13に接続される、記憶部11、制御部12、入出力部14、及び、通信部15等を有する。
[Configuration example]
FIG. 2 illustrates the
記憶部11は、制御部12で実行される処理で利用される各種データ及びプログラムを記憶する(不図示)。記憶部11は、例えば、ハードディスク、フラッシュメモリ等の記憶装置によって実現される。
The
また、記憶部11は、辞書データ21を格納する。辞書データには、帳票に含まれる領域の項目名として使用される可能性のある名称が登録されている。例えば、辞書データ21は、帳票に含まれる領域の項目名として使用される可能性のある名称のリストである。
The
なお、当該辞書データは、本実施形態のように、情報処理装置1に保持されていなくてもよい。例えば、辞書データ21は、情報処理装置1がアクセス可能な他の情報処理装置に保持されていてもよい。また、後述する辞書データに基づく項目名の修正処理が実施されない場合、情報処理装置1は、当該辞書データ21を保持していなくてもよいし、当該辞書データ21にアクセスしなくてもよい。
The dictionary data may not be held in the
制御部12は、マイクロプロセッサ又はCPU(Central Processing Unit)等の1又
は複数のプロセッサと、当該1又は複数のプロセッサの処理に利用される周辺回路(ROM(Read Only Memory)、RAM(Random Access Memory)、インタフェース回路等)と、を有する。制御部12は、記憶部11に格納されている各種データ及びプログラムを実行することにより、本実施形態における情報処理装置1の処理を実現する。ROM、RAM等は、制御部12内のプロセッサが取り扱うアドレス空間に配置されているという意味で主記憶装置と呼ばれてもよい。
The
図2に示されるとおり、制御部12は、取得部31、抽出部32、及び、定義作成部33を含む。取得部31、抽出部32、及び、定義作成部33は、例えば、記憶部11に格納されたプログラム等が制御部12の周辺回路であるRAM等に展開され、制御部12の
プロセッサにより実行されることによって実現される。
As shown in FIG. 2, the
取得部31は、第1帳票のイメージデータと、該第1帳票と同種の帳票であって、該第1帳票には存在しない情報が存在する帳票である第2帳票のイメージデータとを取得する。
The
抽出部32は、第1帳票のイメージデータと第2帳票のイメージデータとの差分に基づいて、第1帳票には存在しない情報が存在する領域を第2帳票から抽出する。 Based on the difference between the image data of the first form and the image data of the second form, the extraction unit 32 extracts an area where information that does not exist in the first form exists from the second form.
定義作成部33は、第2帳票において抽出された領域の位置を情報の読み取り位置として設定した、第1帳票及び第2帳票と同種の帳票の読み取り処理に用いる定義データを作成する。 The definition creating unit 33 creates definition data used for the reading process of the same form as the first form and the second form, in which the position of the area extracted in the second form is set as the information reading position.
なお、定義作成部33は、第2帳票において抽出された領域に対して所定の認識処理を適用することで得られる、当該抽出された領域に存在する情報の属性を、当該抽出された領域に関する属性として定義データに設定してもよい。ここで、所定の認識処理とは、例えば、OCR処理、バーコード認識処理等、画像解析によりその領域に存在する情報を認識する処理である。 Note that the definition creation unit 33 relates the attribute of the information existing in the extracted area obtained by applying a predetermined recognition process to the area extracted in the second form, regarding the extracted area. It may be set in the definition data as an attribute. Here, the predetermined recognition process is a process for recognizing information existing in the region by image analysis, such as an OCR process or a barcode recognition process.
当該領域に存在する情報が文字で表現されている場合、定義作成部33は、当該領域にOCR処理を適用すると、当該領域に存在する情報をエラーなく取得することができる。このとき、定義作成部33は、エラーなく読み取れた文字(取得した情報)の種別(アルファベット、数字等)、読み取れた文字の数等を、当該領域に関する属性として、定義データに設定してもよい。 When the information existing in the area is expressed by characters, the definition creating unit 33 can acquire the information existing in the area without error by applying the OCR process to the area. At this time, the definition creation unit 33 may set the type (alphabet, number, etc.) of the characters (acquired information) read without error, the number of characters read, and the like as the attributes related to the area in the definition data. .
一方、当該領域に存在する情報がバーコードで表現されている場合、定義作成部33は、当該領域にバーコード認識処理を適用すると、当該領域に存在する情報をエラーなく取得することができる。このとき、定義作成部33は、エラーなく読み取れたバーコード(取得した情報)の種別、読み取れたバーコードにより示される文字の数等を、当該領域に関する属性として、定義データに設定してもよい。 On the other hand, when the information existing in the area is expressed by a barcode, the definition creating unit 33 can acquire the information existing in the area without error by applying the barcode recognition process to the area. At this time, the definition creating unit 33 may set the type of the barcode (acquired information) read without error, the number of characters indicated by the read barcode, and the like as the attributes related to the area in the definition data. .
また、抽出部32は、第1帳票又は第2帳票において、前記抽出した領域の位置周辺に存在する、文字が印字されている印字領域を特定してもよい。この場合、定義作成部33は、当該印字領域から取得される文字により示される名称を、前記抽出された領域の項目名として定義データに設定してもよい。 In addition, the extraction unit 32 may specify a print area in which characters are printed that exist around the position of the extracted area in the first form or the second form. In this case, the definition creation unit 33 may set the name indicated by the characters acquired from the print area in the definition data as the item name of the extracted area.
また、この場合、定義作成部33は、辞書データ21を参照し、当該印字領域から取得される文字により示される名称が参照した辞書データ21に登録されていなかった場合、当該印字領域から取得される文字により示される名称を、登録されている名称のうち、当該印字領域から取得される文字により示される名称に類似する名称に修正して、前記抽出された領域の項目名として定義データに設定してもよい。
Further, in this case, the definition creation unit 33 refers to the
また、取得部31は、第1帳票及び第2帳票と同種の帳票であって、当該第1帳票及び当該第2帳票には存在しない情報が存在する帳票である第3帳票のイメージデータを更に取得してもよい。抽出部32は、当該第1帳票のイメージデータと第3帳票のイメージデータとの差分から、当該第3帳票において、第1帳票及び第2帳票には存在しない情報が存在する領域を更に抽出してもよい。そして、第3帳票のイメージデータから抽出された領域が第2帳票のイメージデータから抽出された領域と重なる場合、定義作成部33は、第2帳票のイメージデータから抽出された領域により設定された情報の読み取り位置を、第2帳票及び第3帳票のイメージデータから抽出された領域を含む領域の位置に修正して
もよい。
Further, the
入出力部14は、情報処理装置1の外部に存在する装置とデータの送受信を行うための1又は複数のインタフェースである。入出力部14は、例えば、入力装置及び出力装置等のユーザインタフェースと接続するためのインタフェース、若しくは、USB(Universal Serial Bus)メモリ等の装置とUSB接続するためのインタフェース、又は、これらのインタフェースの組合せである。入出力部14は、例えば、不図示のユーザインタフェース(タッチパネル、テンキー、キーボード、マウス、ディスプレイ等の入出力装置)と接続してもよい。また、入出力部14は、スキャナ2と接続してもよい。この場合、情報処理装置1は、当該入出力部14を介して、スキャナ2からデータを取得する。
The input /
通信部15は、ネットワークを介して、他の装置とデータ通信を行うための1又は複数のインタフェースである。情報処理装置1とスキャナ2とがネットワークを介して接続される場合、情報処理装置1は、当該通信部15を介して、スキャナ2からデータを取得する。
The
本実施形態に係る情報処理装置1は、これらの構成を備える装置である。情報処理装置1は、例えば、PC等の汎用コンピュータや仮想環境のコンピュータである。
The
§2 動作例
次に、図3〜9を用いて、本実施形態に係る情報処理装置1の動作例を説明する。なお、以下で説明する動作例は、本実施形態に係る情報処理装置1の情報処理の一例に過ぎず、各処理は、当該各処理の前に実行された処理の結果を用いる等の従属関係がない等、可能な限り入れ替えられてよい。
§2 Operation Example Next, an operation example of the
図3は、本実施形態に係る情報処理装置1の処理手順の一例を示す。なお、図3では、ステップを「S」と略称する。図4〜7、9、並びに、後述する図11及び12においても同様の略称を用いる。
FIG. 3 shows an example of a processing procedure of the
まず、例えば、ユーザによる操作に応じて、記憶部11に格納されたプログラムが、制御部12のRAM等に展開される。そして、制御部12のRAM等に展開された当該プログラムが、制御部12のプロセッサにより実行される。このようにして、情報処理装置1は、処理を開始する。
First, for example, a program stored in the
ステップ100では、取得部31によって、帳票のイメージデータが取得される。例えば、取得部31は、記憶部11等に格納されているイメージデータのうち、帳票の定義データを作成するために用いるイメージデータの選択操作を受け付ける。または、取得部31は、情報処理装置1に接続されるスキャナ2において帳票の読み取りを受け付ける。本実施形態では、これにより、取得部31は、第1帳票50のイメージデータと第2帳票60のイメージデータとを取得する。
In step 100, the image data of the form is acquired by the
ステップ200では、第1帳票50と第2帳票60とが比較され、その差分が抽出され、抽出された差分に基づいて、当該第1帳票50及び第2帳票60と同種の帳票の定義データが作成される。当該定義データ作成処理の具体例は、図4〜6に示される。
In step 200, the
図4は、本実施形態に係る情報処理装置1による定義データ作成処理を例示するフローチャートである。本動作例では、抽出部32によって、ステップ100において取得された第1帳票50のイメージデータと第2帳票60のイメージデータとの差分に基づいて、第2帳票60における、第1帳票50には存在しない情報が存在する領域が抽出される。そして、当該抽出結果に基づいて、定義作成部33によって、第1帳票50及び第2帳票
60と同種の帳票に係る定義データが作成される。具体的には、以下のとおりに処理が実行される。
FIG. 4 is a flowchart illustrating definition data creation processing by the
ステップ210では、抽出部32によって、第2帳票60における、第1帳票50には存在しない情報が存在する領域の座標が取得される。当該座標取得処理の具体例は、図5により示される。
In step 210, the extraction unit 32 acquires the coordinates of an area in the
図5は、本実施形態に係る情報処理装置1による座標取得処理を例示するフローチャートである。本動作例では、第1帳票50から取得されるレイアウトに関する情報(レイアウト情報)に基づいて、第1帳票50と第2帳票60との差分領域が抽出され、抽出された領域の座標が取得される。具体的には、以下のとおりに処理が実行される。
FIG. 5 is a flowchart illustrating the coordinate acquisition process by the
ステップ211では、第1帳票50のレイアウト情報が取得される。例えば、抽出部32は、第1帳票50のイメージデータを解析し、罫線の情報、文字等が印字されている領域(プレ印字領域)を特定するための情報、円等の特定の条件を満たす図形の領域を特定するための情報等を含むレイアウト情報を取得する。罫線、プレ印字領域、特定の条件を満たす図形の領域を特定する方法は、特に限定されるものではなく、適宜選択される。例えば、罫線は、始点の座標、縦方向の長さ(高さ)、横方向の長さ(幅)、太さ等で表現される。また、プレ印字領域及び特定の条件を満たす図形の領域は、それぞれ、文字、図形等を含む矩形の左上端の座標、及び、右下端の座標等で表現される。罫線、プレ印字領域、特定の条件を満たす図形の領域の表現方法は、特に限定されるものではなく、適宜選択される。
In step 211, the layout information of the
ステップ212では、第1帳票50のプレ印字領域から帳票名が取得される。例えば、定義作成部33は、プレ印字領域のうち、フォントサイズの最も大きい文字が印字されているプレ印字領域の文字により示される名称を帳票名として取得する。また、例えば、定義作成部33は、所定の位置に存在するプレ印字領域の文字により示される名称を帳票名として取得する。図1に示される例では、定義作成部33は、帳票名として、「○○書」という名称を取得する。
In step 212, the form name is acquired from the pre-print area of the
なお、定義作成部33は、例えば、OCR処理をプレ印字領域に適用することで、プレ印字領域に印字されている文字の情報を取得する。定義作成部33は、取得した帳票名を、例えば、作成する定義データのファイル名等に利用する。 Note that the definition creating unit 33 acquires information on characters printed in the pre-printing area by applying OCR processing to the pre-printing area, for example. The definition creation unit 33 uses the acquired form name, for example, as a file name of definition data to be created.
ステップ213では、第1帳票50のレイアウト情報が用いられて、第1帳票50と第2帳票60との照合作業が実行される。抽出部32は、例えば、ステップ211で取得した第1帳票50のレイアウト情報を用いて、第1帳票50と第2帳票60とを照合する。このとき、抽出部32は、例えば、第1帳票50のレイアウトと第2帳票60のレイアウトが異なるほど、第1帳票50と第2帳票60とは一致しないと判定してもよい。また、抽出部32は、例えば、第1帳票50には存在しない記載等が第2帳票に存在するほど、第1帳票50と第2帳票60とは一致しないと判定してもよい。
In step 213, the layout information of the
ここで、抽出部32は、第1帳票50と第2帳票60とを照合した結果を、帳票の一致率として、完全に一致していることを示す数値から全く一致していないことを示す数値の範囲に含まれる数値で表現してもよい。そして、抽出部32は、当該帳票の一致率が、第1帳票50と第2帳票60とが同一のイメージデータであると判定するための閾値を超える場合、処理対象となっている2つのイメージデータは同一のデータであると判定してもよい。この場合、制御部12は、情報処理装置1に接続される表示装置(不図示)に、同一のデータが処理対象となっていることを伝えるためのエラーメッセージを表示してもよい。
Here, the extraction unit 32 uses a result obtained by comparing the
ステップ214では、第1帳票50と第2帳票60との照合作業が更に詳細に実行される。例えば、抽出部32は、第2帳票60のイメージデータを8×8画素単位に分割する。そして、抽出部32は、第2帳票60のイメージデータにおいて、第1帳票50のレイアウト情報により示される罫線、プレ印字領域、特定の条件を満たす図形の領域それぞれに対応する罫線、領域を特定する。これにより、抽出部32は、第1帳票50に含まれる罫線、プレ印字領域、特定の条件を満たす図形の領域それぞれに対応する第2帳票60上の罫線、領域の座標を特定する。なお、抽出部32は、第2帳票60を8×8画素単位等に分割して第1帳票50と照合することで、第2帳票60における局所的なズレ等による照合ミスを可能な範囲で防止する。
In step 214, the collation operation between the
ステップ215では、ステップ214で実行された詳細な照合作業の結果に基づいて、第2帳票60のイメージデータから、第1帳票50に含まれる罫線に対応する罫線が消去される(定型消去)。抽出部32は、例えば、第2帳票60の罫線の太さを特定しながら、第2帳票60のイメージデータの各分割領域において、第1帳票50に含まれる罫線に対応する罫線を消去する。
In step 215, ruled lines corresponding to the ruled lines included in the
ステップ216では、ステップ214で実行された詳細な照合作業の結果に基づいて、第2帳票60のイメージデータから、第1帳票50に含まれるプレ印字領域の文字等、特定の条件を満たす図形に対応する印字、図形等が消去される(非定型消去)。抽出部32は、例えば、第2帳票60のイメージデータの各分割領域において、第1帳票50に含まれるプレ印字領域及び特定の条件を満たす図形の領域それぞれに対応する領域内の画像を消去する。
In step 216, based on the result of the detailed collation performed in step 214, the image data of the
ステップ215及び216では、第2帳票60のイメージデータから、第1帳票50のイメージデータに含まれる罫線、文字、図形等に対応するものが消去される。よって、これらの消去処理の後に第2帳票60のイメージデータに残るものは、例えば、領域63に記入された文字、領域64に印字されたバーコードであり、第1帳票50には存在しないものである。これらは、第1帳票50と第2帳票60の差分に対応し、第1帳票50には存在しない、第2帳票60に存在する情報に該当する。
In steps 215 and 216, those corresponding to the ruled lines, characters, graphics, etc. included in the image data of the
なお、本動作例では、領域63に対応する第1帳票50の領域には、何ら記載がないことを前提としている。しかしながら、上述のとおり、領域63に対応する第1帳票50の領域には、領域63に記入されている「AAAA」とは異なる文字が記入されていてもよい。この場合、本実施形態では、領域63に対応する第1帳票50の領域は、プレ印字領域、又は、特定の条件を満たす図形の領域として扱われる。そうすると、上記ステップ216の消去処理を実行した場合、領域63に記入されている「AAAA」は、第1帳票50には存在しない情報であるにも関わらず、消去されてしまう可能性がある。
In this operation example, it is assumed that there is no description in the area of the
抽出部32は、当該可能性を考慮して、第2帳票60のイメージデータにおいて第1帳票50のプレ印字領域等に対応する領域の消去処理を実行する前に、当該消去処理を実行するか否かを判断するための検証処理を実行してもよい。
Whether the extraction unit 32 performs the erasure process before executing the erasure process of the area corresponding to the pre-print area of the
抽出部32は、例えば、当該検証処理として、第1帳票50のプレ印字領域等と当該プレ印字領域等に対応する第2帳票60の領域との一致具合を示す一致率を求めてもよい。第1帳票50のプレ印字領域等に記入されている文字と当該プレ印字領域等に対応する第2帳票60の領域に記入されている文字とが異なるほど、当該一致率は低くなる。
For example, as the verification process, the extraction unit 32 may obtain a coincidence rate indicating the degree of coincidence between the pre-print area of the
したがって、抽出部32は、これらの領域に異なる文字が記入されているか否かを検証するために、これらの領域の一致率が所定の閾値よりも低くなるか否かを判定してもよい
。当該閾値は、第1帳票50のプレ印字領域等に記入されている文字と当該プレ印字領域等に対応する第2帳票60の領域に記入されている文字とが異なるか否かを検証するために、適宜設定される。
Therefore, in order to verify whether or not different characters are written in these areas, the extraction unit 32 may determine whether or not the matching rate of these areas is lower than a predetermined threshold. The threshold value is used to verify whether the characters entered in the pre-print area of the
抽出部32は、所定の閾値よりも当該一致率が低くなると判定した場合、第1帳票50のプレ印字領域等と当該プレ印字領域等に対応する第2帳票60の領域とには異なる文字が記入されていると判断する。そして、このように判断した場合、抽出部32は、当該プレ印字領域等に対応する第2帳票60の領域に対して、上記ステップ216の消去処理の実行をスキップする。これにより、上述のような可能性を防止することが可能である。なお、この点は、文字以外の場合であっても同様である。
When the extraction unit 32 determines that the coincidence rate is lower than a predetermined threshold, different characters are present in the pre-print area of the
ステップ217では、ステップ215及び216の消去処理で消去されなかった文字、バーコード等が存在する領域の座標が取得される。上述のとおり、ステップ215及び216の消去処理で消去されなかった文字、バーコード等は、第1帳票50には存在しない情報である。抽出部32は、第2帳票60において当該情報が存在する領域を特定し、特定した領域の座標を取得する。
In step 217, the coordinates of the area in which characters, barcodes, etc. that have not been erased by the erasure processing in steps 215 and 216 exist are obtained. As described above, characters, barcodes, and the like that have not been erased by the erasure processing in steps 215 and 216 are information that does not exist in the
例えば、抽出部32は、ステップ215及び216の消去処理で消去されなかった文字、バーコード等を覆う矩形領域を特定する。そして、抽出部32は、当該矩形領域を表現する座標を取得する。例えば、当該矩形領域は、矩形の左上端の座標と右下端の座標で表現される。これにより、抽出部32は、ステップ215及び216の消去処理で消去されなかった文字、バーコード等が存在する領域の座標を取得する。 For example, the extraction unit 32 identifies a rectangular area that covers characters, barcodes, and the like that have not been erased by the erasure processing in steps 215 and 216. And the extraction part 32 acquires the coordinate expressing the said rectangular area. For example, the rectangular area is represented by the coordinates of the upper left corner and the coordinates of the lower right corner of the rectangle. As a result, the extraction unit 32 acquires the coordinates of an area where characters, barcodes, and the like that have not been erased by the erasure processing in steps 215 and 216 exist.
なお、本実施形態では、抽出部32は、ステップ215及び216の消去処理で消去されなかった文字、バーコード等を覆う矩形領域を特定する際に、それぞれの間の距離を考慮する。例えば、抽出部32は、所定の距離離れているものは、それぞれ別の領域に含まれるものと判定する。これにより、抽出部32は、第2帳票60において、領域63と領域64とを区別して抽出し、それぞれの座標を取得する。
In the present embodiment, the extraction unit 32 considers the distance between the respective areas when specifying a rectangular area that covers characters, barcodes, and the like that have not been erased by the erasure processing in steps 215 and 216. For example, the extraction unit 32 determines that those that are separated by a predetermined distance are included in different regions. Thereby, the extraction part 32 distinguishes and extracts the area |
これらの処理により、第2帳票60における、第1帳票50には存在しない情報が存在する領域の座標が取得される。図1に示される例では、領域63及び領域64それぞれを表現する座標が取得される。これにより、座標取得処理は終了する。そして、処理は、ステップ220に進む。
Through these processes, the coordinates of the area in the
なお、抽出部32は、領域63のような欄(欄52、欄62)に含まれる領域を抽出した場合、抽出した領域を表現する座標に代えて、抽出した領域を含む欄を表現する座標を取得してもよい。抽出部32は、例えば、ステップ211において作成したレイアウト情報に含まれる罫線情報を参照することで、当該抽出した領域を含む欄を特定する。
In addition, when the extraction unit 32 extracts a region included in a column such as the region 63 (
図4に戻り、ステップ220では、第2帳票60において抽出された領域の座標を情報の読み取り位置として設定した、第1帳票50及び第2帳票60と同種の帳票の読み取り処理に用いる定義データが作成される。例えば、定義作成部33は、内容が空の定義データを用意し、ステップ210で取得した座標を情報の読み取り位置として、用意した定義データに設定する。図1に示される例では、領域63及び領域64それぞれの座標が、第1帳票50及び第2帳票60と同種の帳票において、当該帳票に存在する情報をOCR処理、バーコード認識処理等で読み取り位置として設定された定義データが作成される。
Returning to FIG. 4, in step 220, definition data used for reading the same type of form as the
なお、定義作成部33は、ステップ211で作成された第1帳票50のレイアウト情報を、第1帳票50及び第2帳票60と同種の帳票のレイアウト情報として、作成する定義データに設定してもよい。この場合、定義作成部33は、ステップ211で作成された第
1帳票50のレイアウト情報の一部を削除した後に、一部を削除したレイアウト情報を定義データに登録してもよい。例えば、定義作成部33は、ステップ211で作成された第1帳票50のレイアウト情報において、第1帳票50において手書きで記入された文字の領域等を特定するための情報を削除する。このように、定義作成部33は、第1帳票50と同種の他の帳票において存在しない可能性のある領域を極力省いた上で、レイアウト情報を定義データに登録してもよい。
The definition creation unit 33 may set the layout information of the
ステップ230では、第2帳票60において抽出された領域63、領域64等の領域に対して所定の認識処理が実行される。所定の認識処理とは、OCR処理、バーコード認識処理等である。定義作成部33は、第2帳票60において抽出された領域63、領域64等の各領域に対して、OCR処理、バーコード認識処理等設定された所定の認識処理を順次実行する。
In step 230, a predetermined recognition process is executed for the
例えば、対象の領域に存在する情報が文字で表現されている場合、バーコード認識処理は成功しないが(エラーとなる)、OCR処理は成功する。他方、対象の領域に存在する情報がバーコードで表現されている場合、文字認識のためのOCR処理は成功しないが、バーコード認識処理は成功する。 For example, when the information existing in the target area is expressed by characters, the barcode recognition process does not succeed (results in an error), but the OCR process succeeds. On the other hand, when the information existing in the target area is expressed by a barcode, the OCR process for character recognition is not successful, but the barcode recognition process is successful.
ステップ240及び250では、定義作成部33によって、ステップ230で実行した所定の認識処理が成功した場合に(ステップ240の「YES」)、当該認識処理によって得られた、対象の領域に存在する情報の属性が、当該対象の領域に関する属性として定義データに設定される(ステップ250)。他方、ステップ230で実行した所定の認識処理が失敗した場合(ステップ240の「NO」)、ステップ250の処理は省略される。 In steps 240 and 250, when the predetermined recognition process executed in step 230 is successful by the definition creating unit 33 ("YES" in step 240), information existing in the target region obtained by the recognition process. Is set in the definition data as an attribute relating to the target area (step 250). On the other hand, when the predetermined recognition process executed in step 230 fails (“NO” in step 240), the process in step 250 is omitted.
図1に示される例では、領域63において、OCR処理が成功する。定義作成部33は、当該OCR処理によって、領域63に記入されている文字の種類に関する属性(文字種)と、文字の数に関する属性(文字数)とを特定することができる。具体的には、定義作成部33は、領域63に対するOCR処理の結果として、文字種の属性値「アルファベット」と、文字数の属性値「4」とを取得する。
In the example shown in FIG. 1, the OCR process is successful in the
また、領域64において、バーコード認識処理が成功する。定義作成部33は、当該バーコード認識処理によって、領域64に印字されているバーコードの種類に関する属性(バーコード種別)と、バーコードにより示される文字の数に関する属性(文字数)とを特定することができる。具体的には、定義作成部33は、バーコード種別の属性値「NW−7」と、文字数の属性値「12」とを取得する。
In the
ステップ260では、第1帳票50又は第2帳票60において、第2帳票60において抽出された領域周辺の印字領域が捜索され、発見された印字領域から当該抽出された領域に係る項目名が取得される。当該項目名取得処理の具体例は、図6により示される。
In step 260, in the
図6は、本実施形態に係る情報処理装置1による項目名取得処理を例示するフローチャートである。本動作例では、ステップ210において第2帳票60から抽出された領域を対象領域として、当該対象領域周辺から印字領域が捜査され、発見された印字領域から項目名が取得される。ステップ210において第2帳票60から複数の領域が抽出された場合は、当該複数の領域それぞれが対象領域として処理される。具体的には、以下のとおりに処理が実行される。
FIG. 6 is a flowchart illustrating an item name acquisition process by the
ステップ261では、第1帳票50又は第2帳票60において、対象領域の周辺に存在する印字領域が捜索される。例えば、定義作成部33は、第1帳票50のレイアウト情報
を参照して、対象領域の周囲で所定の距離内にあるプレ印字領域を検索する。また、例えば、定義作成部33は、第2帳票60のイメージデータにおいて、対象領域の周辺で所定の距離内にある印字領域を検索する。
In step 261, in the
対象領域に存在する情報の内容を示す項目名が印字された印字領域は、一般的に、当該対象領域の上、又は、左に隣接して存在する。この点を考慮し、定義作成部33は、対象領域の周囲で所定の距離内にあるプレ印字領域を検索する際、その検索範囲を対象領域の上側、又は、左側に限定してもよい。 A print area in which an item name indicating the content of information existing in the target area is printed generally exists on the target area or adjacent to the left. Considering this point, the definition creating unit 33 may limit the search range to the upper side or the left side of the target area when searching for a pre-print area within a predetermined distance around the target area.
ステップ262では、定義作成部33によって、対象領域の周辺に印字領域が存在するか否か判定される。対象領域の周辺に1又は複数の印字領域が存在する場合、処理はステップ263に進む。 In step 262, the definition creating unit 33 determines whether a print area exists around the target area. If one or more print areas exist around the target area, the process proceeds to step 263.
図1に示される例では、領域63の周辺には、「A項目」が印字されたプレ印字領域が存在する。当該処理において、定義作成部33は、領域63の周辺に存在する印字領域として、「A項目」が印字された領域を発見する。
In the example shown in FIG. 1, a pre-print area in which “Item A” is printed exists around the
一方、対象領域の周辺に印字領域が存在しない場合、項目名取得処理は終了する。この場合、定義作成部33は、対象領域の周辺から項目名を取得することはできない。このとき、定義作成部33は、項目名を任意の方法で定めてもよい。 On the other hand, if there is no print area around the target area, the item name acquisition process ends. In this case, the definition creation unit 33 cannot acquire the item name from the periphery of the target area. At this time, the definition creation unit 33 may determine the item name by any method.
図1に示される例では、領域64の周辺には項目名が印字された領域は存在しない。そのため、定義作成部33は、領域64に存在する情報を示す項目名を当該領域64の周辺から取得することはできない。この場合、定義作成部33は、例えば、「(対象物の名称)_(追番)」と項目名を定めてもよい。このとき、定義作成部33は、領域64に存在する情報を示す項目名を「バーコード_1」と決定する。
In the example shown in FIG. 1, there is no area where the item name is printed around the
ステップ263では、定義作成部33によって、対象領域の周辺に存在する印字領域に含まれる文字列が、項目名の候補として取得される。定義作成部33は、対象領域の周辺に存在する印字領域に対してOCR処理を適用することにより、当該印字領域に含まれる文字列を取得する。ステップ261の処理において複数の印字領域が発見された場合、項目名の候補として、複数の文字列が取得される。 In step 263, the definition creating unit 33 acquires a character string included in the print area around the target area as a candidate item name. The definition creation unit 33 acquires the character string included in the print area by applying the OCR process to the print area existing around the target area. If a plurality of print areas are found in the process of step 261, a plurality of character strings are acquired as item name candidates.
ステップ264では、定義作成部33は、項目名として使用される可能性のある名称が登録されている、記憶部11に格納された辞書データ21にアクセスする。情報処理装置1がネットワークを介してアクセス可能な他の装置に辞書データ21が保持されている場合、定義作成部33は、ネットワークを介して、当該他の装置が保持する辞書データ21にアクセスしてもよい。
In step 264, the definition creation unit 33 accesses the
ステップ265では、辞書データ21が参照され、ステップ263で取得された項目名候補と完全一致する文字列が辞書データ21に登録されているか判定される。完全一致する文字列が辞書データ21に登録されていない項目名候補については、ステップ266の処理が適用される(ステップ265の「NO」)。他方、完全一致する文字列が辞書データ21に登録されている項目名候補については、ステップ266の処理が省略される(ステップ265の「YES」)。
In step 265, the
ステップ266では、辞書データ21に登録されている文字列に基づいて、項目名候補の文字列が修正される。例えば、定義作成部33は、項目名候補の文字列を、辞書データ21に登録されている文字列のうち、項目名候補の文字列に類似する文字列に修正する。項目名候補の文字列に類似する文字列は、例えば、項目名候補の文字列と一致する文字が
一番多い文字列、項目名候補の文字列と前方一致する文字列、項目名候補の文字列と後方一致する文字列等である。項目名候補の文字列に類似するか否かの判定方法は、適宜選択される。
In step 266, the character string of the item name candidate is corrected based on the character string registered in the
ステップ267では、定義作成部33によって、対象領域に係る項目名候補から、当該対象領域の項目名が特定される。対象領域に係る項目名候補の文字列が1つである場合、定義作成部33は、その文字列を対象領域の項目名と特定する。他方、対象領域に係る項目名候補の文字列が複数ある場合、定義作成部33は、その複数の文字列の中から1つの文字列を選択して、選択した文字列を対象領域の項目名と特定する。例えば、定義作成部33は、項目名候補をユーザに提示することで、対象領域の項目名に設定する文字列の選択を受け付けてもよい。また、定義作成部33は、辞書データに登録されていない項目名候補の文字列を除外した後に、対象領域の項目名を特定してもよい。 In step 267, the definition creation unit 33 identifies the item name of the target area from the item name candidates related to the target area. When there is one item name candidate character string related to the target area, the definition creating unit 33 identifies that character string as the item name of the target area. On the other hand, when there are a plurality of item name candidate character strings related to the target area, the definition creating unit 33 selects one character string from the plurality of character strings, and selects the selected character string as the item name of the target area. Is specified. For example, the definition creation unit 33 may accept selection of a character string to be set as the item name of the target area by presenting the item name candidate to the user. Further, the definition creation unit 33 may specify the item name of the target area after excluding the character string of the item name candidate that is not registered in the dictionary data.
これらの処理により、第2帳票60から抽出された領域に係る項目名が取得される。図1では、例えば、領域63の項目名として、「A項目」という名称が取得される。これにより、項目名取得処理は、終了する。そして、処理は、ステップ270に進む。
By these processes, the item name related to the area extracted from the
図4に戻り、ステップ270では、ステップ260において取得された項目名が、対象領域に存在する情報の内容を示す項目名として、定義データに設定される。 Returning to FIG. 4, in step 270, the item name acquired in step 260 is set in the definition data as an item name indicating the content of the information existing in the target area.
これらの処理により、情報の読み取り位置(座標)、情報の属性(文字種、文字数等)、項目名、及び、帳票名が設定された、第1帳票50及び第2帳票60と同種の帳票の定義データが作成される。そして、定義データ作成処理は終了する。なお、定義データに属性を設定しない場合、ステップ230〜250の処理は省略可能である。また、定義データに項目名を設定しない場合、ステップ260及び270の処理は省略可能である。当該定義データ作成処理が終了すると、処理は、ステップ300に進む。
Through these processes, the definition of the same form as the
図3に戻り、ステップ300では、制御部12によって、定義データ修正処理が実行される。当該定義データ修正処理の具体例は、図7及び8により示される。
Returning to FIG. 3, in step 300, definition data correction processing is executed by the
図7は、本実施形態に係る情報処理装置1による定義データ修正処理を例示するフローチャートである。本動作例では、ステップ200で作成された定義データがユーザに提示される。そして、ユーザは、提示された情報に基づいて、作成された定義データを手動で修正する。具体的には、以下のとおりに処理が実行される。
FIG. 7 is a flowchart illustrating definition data correction processing by the
ステップ301では、ステップ200で作成された定義データが、情報処理装置1に接続される表示装置(不図示)に表示される。表示画面例は、図8により示される。
In step 301, the definition data created in step 200 is displayed on a display device (not shown) connected to the
図8は、本実施形態に係る情報処理装置1により作成された定義データの表示画面を例示する。図8に示される例では、画面の右側において定義データの作成に使用された帳票が表示されている。表示される帳票は、第1帳票50又は第2帳票60のいずれでもよい。また、例えば、制御部12は、第1帳票50及び第2帳票60の両方が表示されるように、第1帳票50及び第2帳票60の各イメージデータのアルファ値を調整して、当該各イメージデータを重ね合わせて表示してもよい。
FIG. 8 illustrates a display screen of definition data created by the
また、画面の左側において、定義データの各パラメタ値が、ユーザの操作により変更可能な状態で、表示されている。例えば、ユーザは、情報処理装置1に接続される入力装置(不図示)を操作して、パラメタ値を入力したり、プルダウンリスト表示されるパラメタ値を選択したりすることで、定義データに設定されている各パラメタ値を修正する。なお、ユーザは、入力装置を操作して、ボタン80を押下することで、当該修正操作を終了す
る。
On the left side of the screen, each parameter value of the definition data is displayed in a state that can be changed by a user operation. For example, the user operates the input device (not shown) connected to the
ステップ302では、制御部12によって、このようなユーザの修正操作が受け付けられる。そして、ステップ303では、制御部12は、当該修正操作を終了するか否かを判定する。ボタン80が押下された場合、制御部12は、当該修正操作を終了すると判定し(ステップ303の「YES」)、定義データ修正処理を終了する。定義データ修正処理が終了すると、処理は、ステップ400に進む。他方、ボタン80が押下されていない場合、制御部12は、当該修正操作を終了しないと判定し(ステップ303の「NO」)、引き続き修正操作が受け付けられる(ステップ302)。
In step 302, the
図3に戻り、ステップ400では、定義データ保存処理が実行される。当該定義データ保存処理の具体例は、図9により示される。 Returning to FIG. 3, in step 400, a definition data storage process is executed. A specific example of the definition data storage process is shown in FIG.
図9は、本実施形態に係る情報処理装置1による定義データ保存処理を例示するフローチャートである。本動作例では、作成された定義データにエラーが発生していないか否かが判定される。そして、エラーが発生していない場合、作成された定義データが保存される。具体的には、以下のとおりに処理が実行される。
FIG. 9 is a flowchart illustrating definition data storage processing by the
ステップ401では、制御部12は、同じ項目名の領域が複数存在するか否かを判定する。例えば、制御部12は、作成された定義データを参照し、複数の領域において、項目名に同じパラメタ値(名称)が設定されているか否かを判定する。制御部12は、複数の領域において、項目名に同じパラメタ値が設定されていると判定した場合(ステップ401の「YES」)、表示装置に、同じ項目名の領域が複数存在することを示すエラーメッセージを出力する(ステップ404)。他方、制御部12は、複数の領域において、項目名に同じパラメタ値が設定されていないと判定した場合(ステップ401の「NO」)、ステップ402に処理を進める。
In step 401, the
ステップ402では、制御部12は、作成された定義データにおいて、異常な値のパラメタ値が設定されているか否かを判定する。例えば、複数の読み取り領域が重なり合っている場合、読み取り領域として設定されている領域がイメージデータの範囲外である場合等、設定されているパラメタ値が所定の条件を満たしている場合、制御部12は、異常な値のパラメタ値が存在すると判定する(ステップ402の「YES」)。そして、制御部12は、当該異常な値と判定された理由を示すエラーメッセージを出力する(ステップ404)。他方、異常な値のパラメタ値が存在しないと判定した場合(ステップ402の「NO」)、制御部12は、ステップ403に処理を進める。
In step 402, the
ステップ403では、作成された定義データが保存される。例えば、制御部12は、これまでの処理で作成された定義データを記憶部11に格納する。これにより、定義データ格納処理は終了する。そして、情報処理装置1は、本動作例に係る処理を終了する。
In step 403, the created definition data is saved. For example, the
<その他>
なお、本実施形態に係る情報処理装置1は、定義データを作成する際に、複数の第2帳票60を利用してもよい。複数の第2帳票60を利用する場合、例えば、情報処理装置1は、複数の第2帳票60それぞれに、上記処理を適用することで、定義データを作成する。
<Others>
Note that the
この場合、例えば、欄52等の同じ対象領域が、複数の第2帳票60から取得される可能性がある。このとき、例えば、抽出部32は、それぞれの第2帳票60から取得された領域が重なる場合、これらの領域を含む1つの領域として抽出してもよい。これにより、情報処理装置1は、複数の第2帳票60から抽出される領域について、可能な限り、同じ
対象領域として認識する。
In this case, for example, the same target area such as the
§3変形例
なお、本実施形態に係る情報処理装置1は、第3帳票を更に取得し、当該第3帳票を用いて定義データを修正してもよい。当該第3帳票に基づく定義データの修正処理を、図10〜12を用いて説明する。
§3 Modification Note that the
図10は、本実施形態に係る定義データの修正場面を例示する。第3帳票70は、第1帳票50及び第2帳票60と同種の帳票であって、第1帳票50及び第2帳票60には存在しない情報が存在する帳票である。具体的には、第1帳票50及び第2帳票60には存在しない情報は、第3帳票70の領域73と領域74とに存在する。領域73には「12345」という文字が記入されている。また、領域74には、領域64とは同じ規格で異なる内容を示すバーコードが印字されているとする。例えば、領域74には、10桁の数値を示す、NW−7規格のバーコードが印字されているとする。なお、第3帳票70の欄71及び欄72は、それぞれ、第1帳票50の欄51及び欄52に対応する。
FIG. 10 illustrates a definition scene of definition data according to this embodiment. The
図11は、本実施形態に係る情報処理装置1による第3帳票70に基づく定義データ修正処理の一例を示す。
FIG. 11 shows an example of definition data correction processing based on the
ステップ500では、取得部31によって、第3帳票70のイメージデータが取得される。取得部31は、ステップ100と同様の方法で、第3帳票70のイメージデータを取得する。
In step 500, the image data of the
ステップ600では、定義作成部33によって、記憶部11に格納されている定義データのうち、修正対象の定義データが特定される。例えば、定義作成部33は、修正対象の定義データの指定を受け付けてもよい。この指定により、定義作成部33は、修正対象の定義データを特定してもよい。また、定義作成部33は、記憶部11に格納されている定義データに設定されている帳票のレイアウト情報を参照して、ステップ500において取得された第3帳票70と最も合致するレイアウト情報が設定されている定義データが修正対象であると特定してもよい。
In step 600, the definition creation unit 33 identifies the definition data to be corrected among the definition data stored in the
ステップ700では、第1帳票50と第3帳票70との差分に基づいて、ステップ600で特定された定義データが修正される。当該抽出した差分に基づく定義データ修正処理の具体例は、図12により示される。
In step 700, the definition data specified in step 600 is corrected based on the difference between the
図12は、本実施形態に係る情報処理装置1による、抽出した差分に基づく定義データ修正処理を例示するフローチャートである。なお、ステップ710〜770の処理は、第2帳票60を第3帳票70に置き換えることで、上述したステップ210〜270の処理に対応する。よって、ステップ710〜770の詳細な説明は省略する。
FIG. 12 is a flowchart illustrating definition data correction processing based on the extracted difference by the
ただし、ステップ720、750、及び、770では、定義データに設定された情報の読み取り位置(座標)、情報の属性(文字種、文字数等)、及び、項目名のパラメタ値が、それぞれ、第3帳票70から抽出した情報に基づき、必要に応じて、修正される。 However, in steps 720, 750, and 770, the reading position (coordinates) of information set in the definition data, the attribute of information (character type, number of characters, etc.), and the parameter value of the item name are respectively in the third form. Based on the information extracted from 70, it is corrected as necessary.
例えば、情報の読み取り位置(座標)について、定義作成部33は、第3帳票70から抽出された領域が第2帳票60から抽出された領域と重なる場合、第2帳票60から抽出された領域により設定した情報の読み取り位置を、第2帳票60及び第3帳票70から抽出された領域を含む領域の位置に修正する。これにより、図10に示される例では、例えば、欄52に係る読み取り領域について、領域63を示す座標が、領域63及び領域73を含む領域を示す座標に修正される。
For example, with respect to the information reading position (coordinates), the definition creating unit 33 uses the area extracted from the
また、例えば、情報の属性(文字種、文字数等)について、定義作成部33は、第3領域70から抽出された領域に存在する情報の属性を満たすように、当該属性のパラメタ値を修正する。これにより、図10に示される例では、例えば、定義作成部33は、領域63及び領域73について、文字種「アルファベット」を「アルファベット及び数字」に、文字数「4」を「5」に修正する。他方、領域74に存在するバーコードは、10桁の数値を示す、NW−7規格のバーコードであるため、定義作成部33は、領域64及び74について、バーコード種別「NW−7」、文字数「12」のままで、パラメタ値を修正しなくてよい。なお、定義作成部33は、当該属性の修正と同様の方法で、項目名についても修正してもよい。
Further, for example, for the information attribute (character type, number of characters, etc.), the definition creating unit 33 corrects the parameter value of the attribute so as to satisfy the attribute of the information existing in the area extracted from the
これらの処理により、第1帳票50と第3帳票70との差分に基づいて、ステップ600で特定された定義データが修正される。そして、処理は、ステップ800に進む。
With these processes, the definition data specified in step 600 is corrected based on the difference between the
図11に戻り、ステップ800では、制御部12によって、手動による定義データの修正が受け付けられる。ステップ800の処理は、ステップ300の処理とほぼ同様に説明可能である。よって、ステップ800の詳細な説明は、省略する。
Returning to FIG. 11, in step 800, manual correction of definition data is accepted by the
ステップ900では、制御部12によって、修正した定義データの保存処理が実行される。ステップ900の処理は、上述したステップ400の処理とほぼ同様に説明可能である。よって、ステップ900の詳細な説明は、省略する。これにより、情報処理装置1は、本動作例に係る処理を終了する。
In step 900, the
1…情報処理装置、2…スキャナ、
11…記憶部、12…制御部、13…バス、14…入出力部、15…通信部、
21…辞書データ、
31…取得部、32…抽出部、33…定義作成部、
50…第1帳票、51〜52…欄、
60…第2帳票、61〜62…欄、63〜64…領域、
70…第3帳票、71〜72…欄、73〜74…領域、
1 ... information processing device, 2 ... scanner,
DESCRIPTION OF
21 ... Dictionary data,
31 ... Acquisition unit, 32 ... Extraction unit, 33 ... Definition creation unit,
50 ... first form 51-52 ... column,
60 ... 2nd form, 61-62 ... column, 63-64 ... area,
70 ... 3rd form, 71 to 72 ... column, 73 to 74 ... area,
Claims (7)
前記第1帳票のイメージデータと前記第2帳票のイメージデータとの差分から、前記第2帳票において前記情報が存在する領域を抽出する抽出部と、
前記第2帳票における前記抽出された領域の位置を情報の読み取り位置として設定した、前記第1帳票及び第2帳票と同種の帳票の読み取り処理に用いる定義データを作成する定義作成部と、
を備える情報処理装置。 An acquisition unit that acquires image data of a first form and image data of a second form that is a form of the same type as the first form and includes information that does not exist in the first form;
An extraction unit for extracting an area where the information exists in the second form from the difference between the image data of the first form and the image data of the second form;
A definition creating unit that creates definition data used for reading processing of the same form as the first form and the second form, in which the position of the extracted area in the second form is set as an information reading position;
An information processing apparatus comprising:
請求項1に記載の情報処理装置。 The definition creation unit uses the attribute of information existing in the extracted area obtained by applying a predetermined recognition process to the extracted area as the attribute related to the extracted area. Set to
The information processing apparatus according to claim 1.
前記定義作成部は、前記印字領域から取得される文字により示される名称を、前記抽出された領域の項目名として前記定義データに設定する、
請求項1又は2に記載の情報処理装置。 The extraction unit specifies a print area in which characters are printed in the vicinity of the position of the extracted area in the first form or the second form,
The definition creation unit sets a name indicated by characters acquired from the print area in the definition data as an item name of the extracted area.
The information processing apparatus according to claim 1 or 2.
請求項3に記載の情報処理装置。 The definition creation unit refers to dictionary data in which names used as item names of areas included in the form are registered, and names indicated by characters acquired from the print area are registered in the referenced dictionary data. If not, the name indicated by the character acquired from the print area is corrected to a name similar to the name indicated by the character acquired from the print area among the registered names, and the extraction is performed. Set in the definition data as the item name of the designated area,
The information processing apparatus according to claim 3.
前記抽出部は、前記第1帳票のイメージデータと前記第3帳票のイメージデータとの差分から、前記第3帳票において前記第1帳票及び前記第2帳票には存在しない情報が存在する領域を更に抽出し、
前記定義作成部は、前記第3帳票のイメージデータから抽出された領域が前記第2帳票のイメージデータから抽出された領域と重なる場合、前記第2帳票のイメージデータから抽出された領域により設定された前記情報の読み取り位置を、前記第2帳票及び前記第3帳票のイメージデータから抽出された領域を含む領域の位置に修正する、
請求項1から4のいずれか1項に記載の情報処理装置。 The acquisition unit further includes image data of a third form that is a form of the same type as the first form and the second form, and is a form in which information that does not exist in the first form and the second form exists. Acquired,
The extraction unit further includes an area in the third form in which information that does not exist in the first form and the second form exists based on a difference between the image data of the first form and the image data of the third form. Extract and
The definition creating unit is set by the area extracted from the image data of the second form when the area extracted from the image data of the third form overlaps with the area extracted from the image data of the second form. The information reading position is corrected to the position of the area including the area extracted from the image data of the second form and the third form.
The information processing apparatus according to any one of claims 1 to 4.
第1帳票のイメージデータと、該第1帳票と同種の帳票であって、該第1帳票には存在しない情報が存在する帳票である第2帳票のイメージデータとを取得するステップと、
前記第1帳票のイメージデータと前記第2帳票のイメージデータとの差分から、前記第2帳票において前記情報が存在する領域を抽出するステップと、
前記第2帳票における前記抽出された領域の位置を情報の読み取り位置として設定した、前記第1帳票及び第2帳票と同種の帳票の読み取り処理に用いる定義データを作成するステップと、
を実行する情報処理方法。 Computer
Obtaining image data of a first form and image data of a second form, which is a form of the same type as the first form and has information that does not exist in the first form;
Extracting a region where the information exists in the second form from the difference between the image data of the first form and the image data of the second form;
Creating definition data used for reading processing of the same form as the first form and the second form, wherein the position of the extracted area in the second form is set as an information reading position;
Information processing method to execute.
第1帳票のイメージデータと、該第1帳票と同種の帳票であって、該第1帳票には存在しない情報が存在する帳票である第2帳票のイメージデータとを取得するステップと、
前記第1帳票のイメージデータと前記第2帳票のイメージデータとの差分から、前記第2帳票において前記情報が存在する領域を抽出するステップと、
前記第2帳票における前記抽出された領域の位置を情報の読み取り位置として設定した、前記第1帳票及び第2帳票と同種の帳票の読み取り処理に用いる定義データを作成するステップと、
を実行させるためのプログラム。 On the computer,
Obtaining image data of a first form and image data of a second form, which is a form of the same type as the first form and has information that does not exist in the first form;
Extracting a region where the information exists in the second form from the difference between the image data of the first form and the image data of the second form;
Creating definition data used for reading processing of the same form as the first form and the second form, wherein the position of the extracted area in the second form is set as an information reading position;
A program for running
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012046408A JP2013182459A (en) | 2012-03-02 | 2012-03-02 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012046408A JP2013182459A (en) | 2012-03-02 | 2012-03-02 | Information processing apparatus, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013182459A true JP2013182459A (en) | 2013-09-12 |
Family
ID=49273056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012046408A Pending JP2013182459A (en) | 2012-03-02 | 2012-03-02 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013182459A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019194774A (en) * | 2018-05-01 | 2019-11-07 | 富士ゼロックス株式会社 | Information processing device and program |
JP7400543B2 (en) | 2020-02-28 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001243423A (en) * | 2000-02-28 | 2001-09-07 | Toshiba Corp | Device and method for detecting character recording area of document, storage medium, and document format generating device |
JP2005107679A (en) * | 2003-09-29 | 2005-04-21 | Seiko Epson Corp | Method and device for creating format information |
JP2008003647A (en) * | 2006-06-20 | 2008-01-10 | Fuji Xerox Co Ltd | Postscript information processing method, postscript information processor, and program |
-
2012
- 2012-03-02 JP JP2012046408A patent/JP2013182459A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001243423A (en) * | 2000-02-28 | 2001-09-07 | Toshiba Corp | Device and method for detecting character recording area of document, storage medium, and document format generating device |
JP2005107679A (en) * | 2003-09-29 | 2005-04-21 | Seiko Epson Corp | Method and device for creating format information |
JP2008003647A (en) * | 2006-06-20 | 2008-01-10 | Fuji Xerox Co Ltd | Postscript information processing method, postscript information processor, and program |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019194774A (en) * | 2018-05-01 | 2019-11-07 | 富士ゼロックス株式会社 | Information processing device and program |
JP7119544B2 (en) | 2018-05-01 | 2022-08-17 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
JP7400543B2 (en) | 2020-02-28 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7929770B2 (en) | Handwriting processing apparatus and method | |
JP5402099B2 (en) | Information processing system, information processing apparatus, information processing method, and program | |
CN111898411B (en) | Text image labeling system, method, computer device and storage medium | |
JP6878034B2 (en) | Information processing equipment, control methods, and programs | |
KR100570224B1 (en) | Form definition data creation method and form handling machines | |
US11475688B2 (en) | Information processing apparatus and information processing method for extracting information from document image | |
US20220222292A1 (en) | Method and system for ideogram character analysis | |
JP2013182459A (en) | Information processing apparatus, information processing method, and program | |
JP2008282094A (en) | Character recognition processing apparatus | |
JP6432179B2 (en) | Document file generation apparatus and document file generation method | |
JP4935459B2 (en) | Character recognition method, character recognition program, and character recognition device | |
JP2008027133A (en) | Form processor, form processing method, program for executing form processing method, and recording medium | |
US20170091596A1 (en) | Electronic apparatus and method | |
US20170249299A1 (en) | Non-transitory computer readable medium and information processing apparatus and method | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
JP2021140831A (en) | Document image processing system, document image processing method, and document image processing program | |
JP7035474B2 (en) | Document processing equipment and programs | |
JP6561876B2 (en) | Information processing apparatus and program | |
JP6994727B1 (en) | Reading system, reading program and reading method | |
JP6960646B6 (en) | Reading system, reading program and reading method | |
US20220383023A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
JP6489041B2 (en) | Information processing apparatus and program | |
US20230123071A1 (en) | Techniques for modifying markings on a digitized document | |
WO2021117128A1 (en) | Form image processing system | |
JPH01292586A (en) | Back-up device for recognition of character |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140701 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150309 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20150324 |