JP2021135670A - Information processing apparatus and program - Google Patents
Information processing apparatus and program Download PDFInfo
- Publication number
- JP2021135670A JP2021135670A JP2020030618A JP2020030618A JP2021135670A JP 2021135670 A JP2021135670 A JP 2021135670A JP 2020030618 A JP2020030618 A JP 2020030618A JP 2020030618 A JP2020030618 A JP 2020030618A JP 2021135670 A JP2021135670 A JP 2021135670A
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- definition data
- common
- definition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 40
- 238000000034 method Methods 0.000 description 18
- 230000000052 comparative effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、情報処理装置及びプログラムに関する。 The present invention relates to an information processing device and a program.
文書を読み取って文字認識を行う技術が知られている。 A technique for reading a document and performing character recognition is known.
特許文献1には、帳票の項目名称及び記入枠の論理レイアウト情報を定義し、帳票の画像から抽出した枠領域の相対的位置関係を物理レイアウト情報と照らし合わせることで、帳票画像の項目名称及び記入枠に相当する枠領域を同定し、少なくとも記入枠として同定された枠領域の文字認識を行う装置が記載されている。 In Patent Document 1, the item name of the form and the logical layout information of the entry frame are defined, and the relative positional relationship of the frame area extracted from the image of the form is compared with the physical layout information to obtain the item name of the form image and the logical layout information. A device that identifies a frame area corresponding to an entry frame and at least recognizes characters in the frame area identified as an entry frame is described.
特許文献2には、入力帳票のイメージデータから白画素の連続に外接する四角形を抽出し、閾値以上の大きさを有する四角形を記入枠として決定し、決定した記入枠から得られた項目の物理的な配置関係と定義情報とを照合し、記入枠の種別を判断する装置が記載されている。 In Patent Document 2, a quadrangle circumscribing a series of white pixels is extracted from the image data of the input form, a quadrangle having a size equal to or larger than the threshold value is determined as an entry frame, and the physics of the items obtained from the determined entry frame. A device for determining the type of entry frame by collating the standard arrangement relationship with the definition information is described.
ところで、文書から読み取られる項目の内容等がユーザによって予め定義され、その定義に従って文書の読み取りが行われる場合がある。この場合、複数の種類の文書を対象として、読み取られる項目の内容等を個々の文書毎に別々に定義することが考えられる。しかし、このような定義のやり方では、複数の種類の文書間において共通している定義も、文書毎に定義し直す必要があり、文書の種類が増えるほどユーザの負担は増大する。 By the way, the contents of items to be read from the document may be defined in advance by the user, and the document may be read according to the definition. In this case, it is conceivable to define the contents of the items to be read separately for each document for a plurality of types of documents. However, in such a definition method, it is necessary to redefine the definition common to a plurality of types of documents for each document, and the burden on the user increases as the types of documents increase.
本発明の目的は、複数の種類の文書から読み取られる項目のうち共通した項目の内容を、個々の文書毎に別々に定義する場合と比べて、ユーザの定義時の操作の負担を軽減することにある。 An object of the present invention is to reduce the burden of operations at the time of user definition as compared with the case where the contents of common items among the items read from a plurality of types of documents are defined separately for each individual document. It is in.
請求項1に係る発明は、プロセッサを有し、前記プロセッサは、文書において読み取られる項目のうち、複数の文書に共通した項目の内容を定義する共通定義データと、文書において読み取られる項目のうち、文書毎に個別に項目の内容を定義する個別定義データとを、文書毎に、文書を表す文書データに紐付ける、情報処理装置である。 The invention according to claim 1 has a processor, and the processor includes common definition data that defines the contents of items common to a plurality of documents among items read in a document, and items read in a document. It is an information processing device that associates individual definition data, which individually defines the contents of items for each document, with document data representing the document for each document.
請求項2に係る発明は、前記個別定義データは、文書における前記項目のレイアウトを定義するデータである、ことを特徴とする請求項1に記載の情報処理装置である。 The invention according to claim 2 is the information processing apparatus according to claim 1, wherein the individually defined data is data that defines the layout of the item in a document.
請求項3に係る発明は、複数の異なる共通定義データと複数の異なる個別定義データとが定められており、前記プロセッサは、前記複数の共通定義データの中の、紐付け対象の文書に含まれる項目に対応する項目の内容を定義する共通定義データと、前記複数の個別定義データの中の、前記紐付け対象の文書が有するレイアウトに対応するレイアウトを定義する個別定義データとを、前記紐付け対象の文書を表す文書データに紐付ける、ことを特徴とする請求項2に記載の情報処理装置である。
The invention according to
請求項4に係る発明は、前記プロセッサは、更に、複数の文書において読み取られる共通の項目の内容を、表示する、ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置である。 The invention according to claim 4, wherein the processor further displays the contents of common items read in a plurality of documents, according to any one of claims 1 to 3. It is an information processing device.
請求項5に係る発明は、前記プロセッサは、更に、前記複数の文書を表示装置に表示させ、前記複数の文書の中で、前記共通の項目の内容を、他の項目の内容と区別して前記表示装置に表示させる、ことを特徴とする請求項4に記載の情報処理装置である。
In the invention according to
請求項6に係る発明は、前記プロセッサは、更に、共通定義データが編集された場合、その編集を、共通定義データに紐付けられている各文書に反映させる、ことを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置である。
The invention according to claim 6 is characterized in that, when the common definition data is edited, the processor further reflects the editing in each document associated with the common definition data. The information processing apparatus according to any one of
請求項7に係る発明は、コンピュータに、文書において読み取られる項目のうち、複数の文書に共通した項目の内容を定義する共通定義データと、文書において読み取られる項目のうち、文書毎に個別に項目の内容を定義する個別定義データとを、文書毎に、文書を表す文書データに紐付けさせる、プログラムである。 The invention according to claim 7 includes common definition data that defines the contents of items that are common to a plurality of documents among the items that can be read in a document by a computer, and items that are individually read for each document among the items that can be read in the document. It is a program that associates the individual definition data that defines the contents of the document with the document data that represents the document for each document.
請求項1,7に係る発明によれば、複数の種類の文書から読み取られる項目のうち共通した項目の内容を、個々の文書毎に別々に定義する場合と比べて、ユーザの定義時の操作の負担を軽減することができる。 According to the inventions of claims 1 and 7, the operation at the time of user definition is compared with the case where the contents of common items among the items read from a plurality of types of documents are defined separately for each individual document. The burden on the user can be reduced.
請求項2に係る発明によれば、項目のレイアウトを文書毎に定義することができる。 According to the invention of claim 2, the layout of items can be defined for each document.
請求項3に係る発明によれば、共通定義データと個別定義データとを文書データに紐付けることができる。
According to the invention of
請求項4に係る発明によれば、ユーザは複数の文書において共通する項目の内容を、ユーザに知らせることができる。 According to the invention of claim 4, the user can inform the user of the contents of items common to a plurality of documents.
請求項5に係る発明によれば、複数の文書中の共通の項目の内容を他の項目の内容と区別してユーザに知らせることができる。
According to the invention of
請求項6に係る発明によれば、文書毎に共通定義データを編集しなくても、その編集が、各文書の共通定義データに反映される。 According to the invention of claim 6, the editing is reflected in the common definition data of each document without editing the common definition data for each document.
<第1実施形態>
図1を参照して、第1実施形態に係る情報処理装置のハードウェアの構成について説明する。図1には、第1実施形態に係る情報処理装置10のハードウェアの構成の一例が示されている。
<First Embodiment>
The hardware configuration of the information processing apparatus according to the first embodiment will be described with reference to FIG. FIG. 1 shows an example of the hardware configuration of the
情報処理装置10は、文書から読み取られる項目の内容等を定義するデータである文書定義データを作成するために用いられる装置であり、例えば、デスクトップ型又はノート型のパーソナルコンピュータ、ワークステーション、タブレット端末、スマートフォン、スキャナ、複合機(例えばスキャナとプリンタとを含む装置)、又は、デジタルカメラ等である。例えば、文書を読み取って文字認識(例えばOCR(Optical Character Recognition))を行うために、文書定義データが用いられる。
The
ここで、文書定義データについて説明する。文書定義データは、文書を表すデータである文書データと共通定義データと個別定義データとが紐付けられているデータである。より詳しく説明すると、文書データから枠が抽出され、その枠を表すデータである枠データと共通定義データと個別定義データとが紐付けられることで、文書定義データが作成される。枠は、線や記号(例えば括弧等の記号)等で囲まれた領域であり、例えば、文字等が記入されることが想定されている領域(例えば、帳票等に記載されている記入欄等)や、文字等が記入されることが想定されていない領域等である。情報処理装置10は、その紐付けを行う。
Here, the document definition data will be described. The document definition data is data in which document data, which is data representing a document, common definition data, and individual definition data are associated with each other. More specifically, a frame is extracted from the document data, and the document definition data is created by associating the frame data, which is the data representing the frame, the common definition data, and the individual definition data. The frame is an area surrounded by lines and symbols (for example, symbols such as parentheses), and for example, an area where characters and the like are expected to be entered (for example, an entry field described in a form and the like). ) And areas where characters are not expected to be entered. The
文書データの種類や形式は特に限定されない。文書データの概念には、例えば、文書を表す画像データ、テキストデータ、ワードプロセッサソフトウェアによって作成されたドキュメントデータ、表計算ソフトウェアによって作成されたスプレッドシートデータ、及び、ウェブブラウザによって表示されるデータ等が含まれる。 The type and format of document data are not particularly limited. The concept of document data includes, for example, image data representing a document, text data, document data created by word processor software, spreadsheet data created by table calculation software, data displayed by a web browser, and the like. Is done.
共通定義データは、複数の文書において読み取られる項目のうち共通した項目の内容を定義するデータである。文書において読み取られる項目は、OCR処理等の文字認識処理の対象となる項目、つまり、文字認識処理によって文字や記号等が読み取られる項目である。例えば、読み取られる項目は、文書中の枠に対応している。具体的には、共通定義データは、読み取られる項目の名称、読み取られる項目の辞書の種類(例えば、英数字、数字、企業名、その他一般的な辞書等の、文字認識処理に用いられる辞書の種類)、及び、読み取られる項目の形式(例えば、文字や数値等の形式)等を定義するデータである。これらは一例に過ぎず、これら以外であっても、複数の文書の間で共通した内容が、共通定義データに定義されてもよい。 The common definition data is data that defines the contents of common items among the items that can be read in a plurality of documents. The items read in the document are items that are subject to character recognition processing such as OCR processing, that is, items in which characters, symbols, and the like are read by the character recognition processing. For example, the item to be read corresponds to the frame in the document. Specifically, the common definition data is the name of the item to be read, the type of dictionary of the item to be read (for example, alphanumeric characters, numbers, company names, and other general dictionaries, which are dictionaries used for character recognition processing. Type) and data that defines the format of the item to be read (for example, the format of characters, numbers, etc.). These are only examples, and other than these, contents common to a plurality of documents may be defined in the common definition data.
個別定義データは、文書において読み取られる項目のうち、文書毎に個別に項目の内容を定義するデータである。例えば、個別定義データは、文書における項目のレイアウトを定義するデータである。具体的には、個別定義データは、文書から抽出される枠のレイアウト(例えば文書中の位置)、枠の種類、及び、文字認識処理にて用いられる辞書の種類(例えば、手書きに適用される辞書や、活字に適用される辞書等)等を定義するデータである。その他、読み取りマスクの設定や確信度閾値等が、個別定義データに定義されてもよい。上述したように、文書から抽出される項目は、読み取られる項目に対応しており、枠のレイアウトは、当該枠に対応する項目のレイアウト(例えば文書中の位置)に対応する。枠の位置は、文書中の絶対的な座標によって定められてもよいし、枠間の相対的な位置であってもよい。個別定義データによって定義される辞書の種類は、共通定義データによって定義されない辞書の種類である。これらは一例に過ぎず、これら以外であっても、文書毎に個別に定義すべき項目の内容が、個別定義データに定義されてもよい。例えば、複数の文書の間で共通しない項目の内容が、個々の文書についての個別定義データに定義されてもよい。 The individual definition data is data that individually defines the contents of the items for each document among the items that can be read in the document. For example, individually defined data is data that defines the layout of items in a document. Specifically, the individually defined data is applied to the layout of the frame extracted from the document (for example, the position in the document), the type of the frame, and the type of the dictionary used in the character recognition process (for example, handwriting). It is data that defines dictionaries, dictionaries applied to print, etc.). In addition, the setting of the reading mask, the certainty threshold value, and the like may be defined in the individually defined data. As described above, the items extracted from the document correspond to the items to be read, and the layout of the frame corresponds to the layout of the items corresponding to the frame (for example, the position in the document). The position of the frame may be determined by the absolute coordinates in the document, or may be the relative position between the frames. The type of dictionary defined by the individually defined data is the type of dictionary not defined by the common definition data. These are only examples, and other than these, the contents of items to be individually defined for each document may be defined in the individually defined data. For example, the contents of items that are not common among a plurality of documents may be defined in the individually defined data for each document.
以上のように、定義データとして、共通定義データと個別定義データとが用いられる。例えば、複数の文書で共通する項目の名称は、共通定義データに定義され、その項目のレイアウトは、個々の文書毎の個別定義データに定義される。例えば、読み取られる項目の名称は複数の文書で共通しているが、その項目のレイアウトが文書毎に異なる場合がある。具体例を挙げて説明すると、文書A,Bの両方に、氏名が記入される欄が記載されている場合、その欄は、文書A,Bで共通する項目に該当し、氏名は、文書A,Bで共通する項目の名称に該当する。一方で、その欄が、文書Aでは上部に記載され、文書Bでは下部に記載されるように、その欄のレイアウトが文書A,Bで異なる場合がある。このように、読み取られる項目の名称は文書A,Bで共通するが、その項目のレイアウトが文書A,Bで異なる場合がある。この場合、その項目の名称は、文書A,Bに共通する共通定義データに定義され、文書A中のその項目のレイアウトは、文書Aの個別定義データに定義され、文書B中のその項目のレイアウトは、文書Bの個別定義データに定義される。つまり、その項目のレイアウトは、別々の個別定義データに定義される。 As described above, the common definition data and the individual definition data are used as the definition data. For example, the name of an item common to a plurality of documents is defined in the common definition data, and the layout of the item is defined in the individual definition data for each individual document. For example, the name of the item to be read is common to a plurality of documents, but the layout of the item may be different for each document. To explain with a specific example, if both documents A and B have a column in which a name is entered, that column corresponds to an item common to documents A and B, and the name is document A. , B corresponds to the common item name. On the other hand, the layout of the column may be different between the documents A and B, as described in the upper part of the document A and in the lower part of the document B. In this way, the names of the items to be read are common to the documents A and B, but the layout of the items may differ between the documents A and B. In this case, the name of the item is defined in the common definition data common to the documents A and B, and the layout of the item in the document A is defined in the individual definition data of the document A, and the layout of the item in the document B is defined. The layout is defined in the individually defined data of document B. That is, the layout of the item is defined in separate individually defined data.
なお、文書定義データにおいては、複数の異なる共通定義データや複数の異なる個別定義データが、枠データに紐付けられてもよい。 In the document definition data, a plurality of different common definition data and a plurality of different individual definition data may be associated with the frame data.
図1に示すように、情報処理装置10は、例えば、通信装置12と、UI14と、メモリ16と、プロセッサ18とを含む。情報処理装置10は、これら以外の構成を含んでもよい。例えば、情報処理装置10が複合機である場合、情報処理装置10はスキャナとプリンタとを含んでもよい。
As shown in FIG. 1, the
通信装置12は、通信チップ等を有する通信インターフェース(例えばネットワークインターフェース等)であり、他の装置にデータを送信する機能、及び、他の装置から送信されてきたデータを受信する機能を有する。
The
UI14はユーザインターフェースであり、表示装置及び操作装置の中の少なくとも1つを含む。表示装置は、液晶ディスプレイやELディスプレイ等である。操作装置は、キーボードや入力キーや操作パネル等である。UI14は、表示装置と操作装置とを兼ね備えたタッチパネル等のUIであってもよい。
The
メモリ16は、データを記憶する1又は複数の記憶領域を構成する装置である。メモリ16は、例えば、ハードディスクドライブ、各種のメモリ(例えばRAMやDRAMやROM等)、その他の記憶装置(例えば光ディスク等)、又は、それらの組み合わせである。
The
プロセッサ18は、情報処理装置10の各部の動作を制御するように構成されている。プロセッサ18は、メモリを含んでもよい。プロセッサ18は、文書毎に、共通定義データと個別定義データとを枠データに紐付けるように構成されている。
The
以下、図2を参照して、第1実施形態に係る情報処理装置10の機能的な構成について説明する。図2には、情報処理装置10の機能的な構成の一例が示されている。
Hereinafter, the functional configuration of the
共通定義作成部20は、複数の文書に共通する共通定義データを作成するように構成されている。例えば、共通定義データに定義されるべき項目の名称、辞書の種類、及び、形式等が、作業者によって指定されると、共通定義作成部20は、それらを定義する共通定義データを作成する。また、共通定義作成部20は、作成済みの共通定義データの編集、削除又は選択を行ってもよい。共通定義作成部20は、複数の異なる共通定義データを作成してもよい。
The common
共通定義記憶部22は、共通定義作成部20によって作成された共通定義データを記憶するように構成されている。例えば、共通定義データは、当該共通定義データを識別するための情報である共通定義識別情報が紐付けられて共通定義記憶部22に記憶される。
The common
個別定義作成部24は、文書毎に個別定義データを作成するように構成されている。例えば、個別定義データに定義されるべき枠のレイアウト(つまり枠に対応する項目のレイアウト)、枠の種類、及び、辞書の種類等が、作業者によって指定されると、個別定義作成部24は、それらを定義する個別定義データを作成する。例えば、個別定義データを識別するための情報である個別定義識別情報が個別定義データに紐付けられる。個別定義作成部24は、複数の異なる個別定義データを作成してもよい。
The individual
文書受付部26は、文書データを受け付けるように構成されている。例えば、文書がスキャナ等によって読み取られることで当該文書を表す画像データが作成され、文書受付部26は当該画像データを受け付ける。もちろん、文書受付部26は、画像データ以外の形式を有する文書データを受け付けてもよい。
The
枠抽出部28は、文書受付部26によって受け付けられた文書データから、当該文書データが表す文書に含まれる枠を抽出し、その枠を表すデータである枠データを作成するように構成されている。枠を抽出する技術として、例えば公知の技術が用いられる。
The
枠同定部30は、文書定義データの紐付けの対象である文書毎に、枠を同定するように構成されている。枠の同定は、共通定義データによって定義される項目に対応する枠であって、個別定義データによって定義されるレイアウトを有する枠を特定することである。例えば、枠同定部30は、複数の異なる個別定義データの中から、紐付け対象の文書データから抽出された枠のレイアウトに対応するレイアウト(例えば、抽出された枠のレイアウトに一致するレイアウト)を定義する個別定義データを特定し、複数の異なる共通定義データの中から、紐付け対象の文書データが表す文書に含まれる項目に対応する項目(例えば、文書に含まれる項目に一致する項目)を定義する共通定義データを特定する。なお、枠の同定は、作業者によって行われてもよい。
The
文書定義作成部32は、紐付け対象の文書データの枠データと、枠同定部30によって特定された共通定義データ及び個別定義データとを紐付けることで、文書定義データを作成するように構成されている。
The document
文書定義記憶部34は、文書定義作成部32によって作成された文書定義データを記憶するように構成されている。例えば、文書定義データを識別するための情報である文書定義識別情報が文書定義データに紐付けられる。
The document
なお、文書定義データに含まれる共通定義データ自体は、共通定義記憶部22に記憶され、その共通定義データを参照するための情報(例えば共通定義識別情報)が、文書定義データに含まれて文書定義記憶部34に記憶されてもよい。つまり、枠データと共通定義識別情報と個別定義データとが紐付けられて文書定義記憶部34に記憶されてもよい。この場合、共通定義識別情報を参照することで、枠データと個別定義データとの組み合わせに紐付けられている共通定義データを特定し、当該共通定義データを共通定義記憶部22から取得することができる。
The common definition data itself included in the document definition data is stored in the common
共通定義作成部20、個別定義作成部24、文書受付部26、枠抽出部28、枠同定部30、及び、文書定義作成部32は、プロセッサ18によって実現される。その実現においてメモリ16が用いられてもよい。また、共通定義記憶部22及び文書定義記憶部34は、メモリ16によって実現される。
The common
以下、図3を参照して、第1実施形態に係る情報処理装置10による処理について説明する。図3には、その処理を示すフローチャートが示されている。
Hereinafter, the processing by the
まず、共通定義データが作成されているか否かが判断される(S01)。この判断は、プロセッサ18によって行われる。
First, it is determined whether or not the common definition data is created (S01). This determination is made by the
共通定義データが作成されている場合(S01,Yes)、共通定義データが選択される(S02)。例えば、1又は複数の共通定義データがUI14の表示装置に表示され、作業者によって1又は複数の共通定義データが選択されてもよいし、プロセッサ18によって1又は複数の共通定義データが選択されてもよい。なお、作成済みの共通定義データは、共通定義記憶部22に記憶されている。
When the common definition data is created (S01, Yes), the common definition data is selected (S02). For example, one or more common definition data may be displayed on the display device of the
共通定義データが作成されていない場合(S01,No)、共通定義データが作成される(S03)。例えば、共通定義作成部20は、作業者によって指定された内容を定義する1又は複数の共通定義データを作成する。作成された共通定義データは、共通定義記憶部22に記憶される。
If the common definition data has not been created (S01, No), the common definition data is created (S03). For example, the common
また、個別定義作成部24は、個別定義データを作成する(S04)。例えば、個別定義作成部24は、作業者によって指定された内容を定義する1又は複数の個別定義データを作成する。
In addition, the individual
次に、文書受付部26は、紐付け対象の文書データを受け付ける(S05)。
Next, the
次に、枠抽出部28は、紐付け対象の文書データから枠を抽出することで、当該枠を表すデータである枠データを作成する(S06)。
Next, the
次に、枠同定部30は、枠を同定する処理を行うことで、共通定義データ、個別定義データ及び枠データに基づいて、紐付け対象の文書データの枠データに紐付けられる共通定義データと個別定義データとを特定する(S07)。
Next, the
次に、文書定義作成部32は、紐付け対象の文書データから抽出された枠データと、枠同定部30によって特定された共通定義データ及び個別定義データとを紐付けることで、文書定義データを作成する(S08)。この文書定義データは、文書定義記憶部34に記憶される。
Next, the document
ここで、図4を参照して、文書定義データの構造について説明する。図4には、その構造の一例が示されている。 Here, the structure of the document definition data will be described with reference to FIG. FIG. 4 shows an example of the structure.
ここでは、共通定義データ36及び個別定義データ38が作成されている。紐付け対象の文書データ40が受け付けられ、その文書データ40から枠が抽出されることで、その枠を表すデータである枠データ42が作成される。枠の同定が行われることで、枠データ42に紐付けられる共通定義データ36と個別定義データ38とが特定される。そして、枠データ42と共通定義データ36と個別定義データ38とが紐付けられることで、文書定義データ44が作成される。
Here, the
以下、共通定義データについて具体例を挙げて説明する。ここでは一例として、文書の一例である帳票を例に挙げて具体例を説明する。 Hereinafter, the common definition data will be described with specific examples. Here, as an example, a specific example will be described by taking a form as an example of a document as an example.
例えば、帳票が請求書である場合、以下に示す1又は複数の項目が、帳票から読み取られる項目であり、共通定義データに定義され得る項目である。
1.請求書番号:英数字、辞書[英数字]、10桁
2.商品名:文字列、辞書[一般]
3.金額:数値(金額)、辞書[数字]
4.取引先名:文字列、辞書[企業名]
5.数量:数値、辞書[数字]
6.支払い納期:日付、辞書[日付]
For example, when the form is an invoice, one or more items shown below are items that can be read from the form and can be defined in the common definition data.
1. 1. Invoice number: alphanumeric, dictionary [alphanumeric], 10 digits 2. Product name: Character string, dictionary [general]
3. 3. Amount: Number (amount), dictionary [number]
4. Business partner name: Character string, dictionary [company name]
5. Quantity: numbers, dictionaries [numbers]
6. Payment delivery date: date, dictionary [date]
[1.請求書番号]、[2.商品名]、[3.金額]、[4.取引先]、[5.数量]、及び、[6.支払い納期]は、読み取られる項目の名称の一例である。この帳票には、[1.請求書番号]、[2.商品名]、[3.金額]、[4.取引先]、[5.数量]及び[6.支払い納期]のそれぞれの記入欄が記載されており、各記入欄に文字や記号等が記入されることが想定されている。各項目の記入欄は、枠によって構成されている。つまり、枠の内側が記入欄に相当する。その枠のレイアウトは、個別定義データに定義される。各項目の辞書の種類は、文字認識処理にて用いられる辞書の種類の一例である。例えば、辞書[英数字]は、英数字に特化した辞書である。文字列や数値は、読み取られる内容の形式の一例である。また、文字数や桁数が定義される。 [1. Invoice number], [2. Product name], [3. Amount], [4. Business partners], [5. Quantity] and [6. Payment delivery date] is an example of the name of the item to be read. In this form, [1. Invoice number], [2. Product name], [3. Amount], [4. Business partners], [5. Quantity] and [6. Each entry field of [Payment delivery date] is described, and it is assumed that characters, symbols, etc. are entered in each entry field. The entry fields for each item are composed of frames. That is, the inside of the frame corresponds to the entry field. The layout of the frame is defined in the individually defined data. The type of dictionary for each item is an example of the type of dictionary used in the character recognition process. For example, the dictionary [alphanumeric characters] is a dictionary specialized for alphanumeric characters. Character strings and numbers are examples of the format of the content to be read. In addition, the number of characters and the number of digits are defined.
例えば、帳票中の項目[1.請求書番号]の入力欄は、10桁の英数字が記入されることが想定される入力欄である。英数字が記入されることが想定されているため、英数字に特化した辞書が、項目[1.請求書番号]に定義されている。また、項目[2.商品名]の入力欄は、文字列が記入されることが想定される入力欄である。文字列が記入されることが想定されているため、一般的な辞書が、項目[2.商品名]に定義されている。その他の項目についても同様である。例えば、各項目の名称、用いられる辞書及び形式等は、作業者によって定義され、共通定義作成部20は、その定義を表す共通定義データを作成する。
For example, items in the form [1. The input field of [Invoice number] is an input field where 10-digit alphanumeric characters are expected to be entered. Since it is assumed that alphanumeric characters will be entered, a dictionary specializing in alphanumeric characters will be available in the item [1. Invoice number] is defined. In addition, item [2. The input field of [Product name] is an input field where a character string is expected to be entered. Since it is assumed that a character string is entered, a general dictionary has an item [2. Product name] is defined. The same applies to other items. For example, the name of each item, the dictionary to be used, the format, and the like are defined by the worker, and the common
以下、個別定義データについて具体例を挙げて説明する。 Hereinafter, the individually defined data will be described with reference to specific examples.
例えば、帳票の1行目に[1.請求書番号]の入力欄が記載され、2行目に[4.取引先名]、[2.商品名]、[5.数量]及び[3.金額]のそれぞれの入力欄がその順番で記載され、3行目に[6.支払い納期]の入力欄が記載されているものとする。この場合、この帳票における各項目のレイアウトは、以下のように定義される。
1{活字、はしご枠}
4{活字、テキスト枠}&2{手書き、テキスト枠}&5{手書き、テキスト枠}&3{手書き、はしご枠}
6{活字、テキスト枠}
For example, [1. The input field for [Invoice number] is described, and [4. Customer name], [2. Product name], [5. Quantity] and [3. Each input field of [Amount] is described in that order, and [6. It is assumed that the input field of [Payment delivery date] is described. In this case, the layout of each item in this form is defined as follows.
1 {type, ladder frame}
4 {type, text frame} & 2 {handwriting, text frame} & 5 {handwriting, text frame} & 3 {handwriting, ladder frame}
6 {type, text frame}
例えば、帳票中の項目[1.請求書番号]の入力欄は、1行目に記載される入力欄であり、手書きで英数字が記載されることが想定される入力欄である。「はしご枠」は、枠の形式の一例である。例えば、複数の枠が連なることで、全体で1つの枠が構成され、その1つの枠が「はしご枠」として定義される。項目[1.請求書番号]の入力欄は、はしご枠によって構成された入力欄であり、手書きで英数字が記載されることが想定される入力欄である。「テキスト枠」は、枠の形式の一例であり、例えば、1つの枠のみよって構成される枠である。例えば、活字又は手書きの形式や枠の形式等は、作業者によって定義され、個別定義作成部24は、その定義を表す個別定義データを作成する。
For example, items in the form [1. The input field of [Invoice number] is an input field described in the first line, and is an input field in which alphanumeric characters are expected to be handwritten. The "ladder frame" is an example of the frame format. For example, by connecting a plurality of frames, one frame is configured as a whole, and the one frame is defined as a "ladder frame". Item [1. The input field of [Invoice number] is an input field composed of a ladder frame, and is an input field where alphanumeric characters are expected to be written by hand. The "text frame" is an example of the frame format, and is, for example, a frame composed of only one frame. For example, the type or handwriting format, the frame format, and the like are defined by the worker, and the individual
以下、帳票の具体例を挙げて、共通定義データと個別定義データについて詳しく説明する。図5には、帳票、共通定義データ及び個別定義データの一例が示されている。図5には、一例として、帳票A,B,Cが示されている。帳票A,B,Cには、項目[1.請求書番号]、項目[2.商品名]及び項目[3.金額]のそれぞれの入力欄が形成されている。 Hereinafter, the common definition data and the individual definition data will be described in detail with reference to specific examples of forms. FIG. 5 shows an example of a form, common definition data, and individual definition data. In FIG. 5, forms A, B, and C are shown as an example. Items [1. Invoice number], item [2. Product name] and item [3. Each input field of [amount] is formed.
個別定義データ46は帳票Aの個別定義データであり、個別定義データ48は帳票Bの個別定義データであり、個別定義データ50は帳票Cの個別定義データである。個別定義データ46,48,50は、それぞれ異なる個別定義データである。
The
各個別定義データにおいては、項目[1.請求書番号]の入力欄、項目[2.商品名]の入力欄、及び、項目[3.金額]の入力欄のそれぞれについての、レイアウト(例えば帳票中の座標)、枠の形式、及び、文字の形式が定義されている。 In each individually defined data, the item [1. Input field of [Invoice number], item [2. Input field of [Product name] and item [3. The layout (for example, the coordinates in the form), the frame format, and the character format are defined for each of the input fields of [Amount].
例えば、帳票Aにおける項目[1.請求書番号]の入力欄のレイアウト(例えば、帳票A中の座標)、その入力欄の枠の形式が「はしご枠」であること、及び、文字の形式が「手書き」形式であることが、個別定義データ46に定義されている。他の項目についても同様である。また、個別定義データ48,50についても同様である。
For example, the item in Form A [1. The layout of the input field of [Invoice number] (for example, the coordinates in Form A), the format of the frame of the input field is "ladder frame", and the format of the characters is "handwritten" format. It is defined in the
共通定義データ52は、帳票A,B,Cにおいて読み取られる項目のうち共通した内容を定義するデータである。帳票A,B,Cには、項目[1.請求書番号]、項目[2.商品名]及び項目[3.金額]のそれぞれの入力欄が記載されており、各項目の名称、各項目にて用いられる辞書、及び、形式等が、帳票A,B,Cの間で共通している。例えば、帳票A,B,Cにおいて、項目[1.請求書番号]の入力欄には、10桁の英数字が記入されることが想定されており、文字認識処理においては英数字に特化した辞書が用いられることが想定されている。これらの内容は帳票A,B,Cの間で共通しているため、これらの内容が、帳票A,B,Cの共通定義データ52に定義されている。項目[2.商品名]及び項目[3.金額]についても同様である。
The
帳票定義データ54は、帳票Aの文書定義データである。つまり、帳票定義データ54は、帳票Aから抽出された枠を表すデータである枠データと、個別定義データ46と、共通定義データ52とが紐付けられた定義データである。
The
帳票定義データ56は、帳票Bの文書定義データである。つまり、帳票定義データ56は、帳票Bから抽出された枠を表すデータである枠データと、個別定義データ48と、共通定義データ52とが紐付けられた定義データである。
The
帳票定義データ58は、帳票Cの文書定義データである。つまり、帳票定義データ58は、帳票Cから抽出された枠を表すデータである枠データと、個別定義データ50と、共通定義データ52とが紐付けられた定義データである。
The
例えば、枠同定部30は、個別定義データ46,48,50の中から、帳票Aから抽出された各枠のレイアウトに一致するレイアウトを定義する個別定義データ46を特定する。また、枠同定部30は、複数の異なる共通定義データの中から、帳票A中の項目に一致する項目を定義する共通定義データ52を特定する。例えば、枠同定部30は、帳票Aを表す文書データに対して文字認識処理を実行することで、帳票A中の各項目の名称を示す文字列を抽出し、その抽出された名称の項目を定義する共通定義データ52を特定する。そして、文書定義作成部32は、帳票Aから抽出された各枠を表すデータである枠データに、個別定義データ46と共通定義データ52とを紐付ける。もちろん、作業者が、帳票Aの枠データに個別定義データ46と共通定義データ52とを紐付けてもよい。帳票B,Cについても同様である。
For example, the
帳票Aの枠データと、共通定義データ52を識別するための情報である共通定義識別情報と、個別定義データ46とが紐付けられて、文書定義記憶部34に記憶される。同様に、帳票Bの枠データと、共通定義データ52の共通定義識別情報と、個別定義データ48とが紐付けられて、文書定義記憶部34に記憶される。同様に、帳票Cの枠データと、共通定義データ52の共通定義識別情報と、個別定義データ48とが紐付けられて、文書定義記憶部34に記憶される。共通定義データ52は、共通定義記憶部22に記憶される。
The frame data of the form A, the common definition identification information which is the information for identifying the
例えば、記入者によって帳票Aに文字や記号等が記入され、その記入済みの帳票Aに対してOCR処理等の文字認識処理が行われる場合、その文字認識処理にて帳票定義データ54が用いられる。具体的には、共通定義記憶部22に記憶されている共通定義データであって、帳票Aの枠データに紐付けられている共通定義識別情報によって識別される共通定義データ52と、文書定義記憶部34に記憶されている個別定義データであって、帳票Aの枠データに紐付けられている個別定義データ46とを用いて、記入済みの帳票Aに対して文字認識処理が行われる。例えば、記入済みの帳票Aに関して、項目[1.請求書番号]の入力欄の位置、枠の形式及び文字の形式等が、個別定義データ46の定義内容から特定され、項目[1.請求書番号]の入力欄に対して、共通定義データ52の定義内容に従って、英数字に特化した辞書を用いた文字認識処理が行われる。帳票B,Cについても同様である。
For example, when characters, symbols, etc. are entered in the form A by the writer and character recognition processing such as OCR processing is performed on the completed form A, the
以上のように、共通定義データ52は、各帳票の帳票定義データにて共有される。例えば、共通定義作成部20によって共通定義データ52が編集された場合、文書定義作成部32は、その編集を、共通定義データ52に紐付けられている各帳票(例えば帳票A,B,C)に反映させる。具体的には、文書定義作成部32は、その編集を、共通定義データ52の共通定義識別情報を含む帳票定義データ54,56,58に反映させる。つまり、1つの共通定義データ52の共通定義識別情報に、帳票定義データ54,56,58が紐付けられているため、共通定義データ52が編集された場合、帳票定義データ54,56,58をそれぞれ個別的に編集しなくても、共通定義データ52に対する編集が、帳票定義データ54,56,58に反映される。
As described above, the
ここで、図6を参照して比較例について説明する。図6には、比較例に係る定義データが示されている。定義データ60は、帳票Aについての比較例に係る定義データであり、定義データ62は、帳票Bについての比較例に係る定義データであり、定義データ64は、帳票Cについての比較例に係る定義データである。図6に示されている帳票A,B,Cは、図5に示されている帳票A,B,Cと同じ帳票である。比較例においては、共通定義データと個別定義データとが区別されておらず、帳票毎に、すべての定義内容を含む定義データが作成される。
Here, a comparative example will be described with reference to FIG. FIG. 6 shows definition data related to the comparative example. The
比較例においては、定義データを編集する場合、帳票A,B,Cに共通の内容を変える場合であっても、帳票毎に定義データを編集する必要がある。これに対して、本実施形態では、共通定義データ52が編集された場合、その編集が、帳票A,B,Cのそれぞれの帳票定義データに反映される。
In the comparative example, when editing the definition data, it is necessary to edit the definition data for each form even when the contents common to the forms A, B, and C are changed. On the other hand, in the present embodiment, when the
以下、第1実施形態の変形例について説明する。 Hereinafter, a modified example of the first embodiment will be described.
プロセッサ18は、複数の文書において読み取られる共通の項目をユーザ(例えば作業者)に表示してもよい。この点について、図7を参照して詳しく説明する。図7には、表示装置に表示される画面の一例が示されている。
The
一例として、帳票A,B,Cが紐付け対象の文書であり、帳票A,B,Cのそれぞれの文書データが文書受付部26によって受け付けられている。プロセッサ18は、帳票A,B,Cのそれぞれの画像を並べて画面66に表示する。なお、画面66は、UI14の表示装置に表示されてもよいし、作業者が利用する端末装置(例えばパーソナルコンピュータ等)に表示されてもよい。
As an example, forms A, B, and C are documents to be linked, and document data of each of forms A, B, and C is received by the
帳票A,B,Cには、項目[請求書番号]、項目[商品名]及び項目[金額]のそれぞれの入力欄(例えば、枠によって構成される入力欄)が記載されており、文字列「請求書番号」、文字列「商品名」及び文字列「金額」が記載されている。プロセッサ18は、帳票A,B,Cのそれぞれの文書データに対して文字認識処理を実行することで、これらの文字列を抽出する。これらの文字列は、帳票A,B,Cのそれぞれから抽出される共通の文字列である。この場合、プロセッサ18は、符号68が指し示すように、これらの文字列を、帳票A,B,Cに共通するキーワードとして、画面66に表示する。また、プロセッサ18は、帳票A,B,Cに共通する項目(例えば、項目[請求書番号]、項目[商品名]及び項目[金額])を共通定義データに含めることを作業者に提案するメッセージを画面66に表示してもよい。
In the forms A, B, and C, each input field (for example, an input field composed of a frame) of the item [invoice number], the item [product name], and the item [amount] is described, and is a character string. The "invoice number", the character string "product name" and the character string "amount" are described. The
作業者が、UI14等を用いて、共通のキーワードの中から特定のキーワードを選択した場合、プロセッサ18は、その選択されたキーワードに対応する項目を共通定義データに含めてもよい。例えば、項目[1.請求書番号]が作業者によって選択された場合、プロセッサ18は、項目[1.請求書番号]を共通定義データに含める。
When the worker selects a specific keyword from the common keywords by using the
また、プロセッサ18は、複数の文書の中で、複数の文書において共通する項目と、そうでない他の項目とを区別して、表示装置に表示させてもよい。この点について、図8を参照して詳しく説明する。図8には、表示装置に表示される画面の一例が示されている。
Further, in the plurality of documents, the
一例として、帳票A,D,Eが紐付け対象の文書であり、帳票A,D,Eのそれぞれの文書データが文書受付部26によって受け付けられている。プロセッサ18は、帳票A,D,Eのそれぞれの画像を並べて画面66に表示する。
As an example, the forms A, D, and E are documents to be linked, and the document data of each of the forms A, D, and E is received by the
帳票A,D,Eには、項目[請求書番号]の入力欄と項目[金額]の入力欄とが記載されており、帳票A,D,Eにおいて、これらの項目が共通している。この場合、プロセッサ18は、図8中の破線で示すように、共通の項目を、共通しない項目よりも強調して表示する。例えば、プロセッサ18は、共通の項目を特定の色を有する線で囲んだり、共通しない項目をグレーアウトしたりする。
The forms A, D, and E include an input field for the item [invoice number] and an input field for the item [amount], and these items are common to the forms A, D, and E. In this case, the
また、複数の共通定義データが枠データに紐付けられてもよい。この点について、図9を参照して詳しく説明する。図9には、帳票と共通定義データの一例が示されている。例えば、帳票A,B,C,D,Eのそれぞれの枠データには、共通定義データ70が紐付けられている。また、帳票D,Eのそれぞれの枠データには、共通定義データ72が紐付けられている。つまり、帳票D,Eのそれぞれの枠データには、共通定義データ70,72が紐付けられている。共通定義データ70は、項目1,2,3の内容を定義するデータであり、共通定義データ72は、項目4,5の内容を定義する定義データである。項目1,2,3の内容が、帳票A,B,C,D,Eに共通しているため、共通定義データ70が、帳票A,B,C,D,Eのそれぞれの枠データに紐付けられる。項目4,5の内容が、帳票D,Eに共通しているため、共通定義データ72が、帳票D,Eのそれぞれの枠データに紐付けられる。こうすることで、項目1,2,3,4,5のすべてを定義する共通定義データを別途作成せずに、帳票D,Eに対する文字認識処理が行われる。
Further, a plurality of common definition data may be associated with the frame data. This point will be described in detail with reference to FIG. FIG. 9 shows an example of the form and the common definition data. For example,
<第2実施形態>
以下、第2実施形態について説明する。第2実施形態では、共通定義データが紐付けられた文書と、ユーザ(例えば作業者)が個別定義データを当該文書に紐付けるための画面とが、同一画面に表示される。作業者は、当該同一画面に表示された文書を参照しながら、個別定義データを設定することができる。
<Second Embodiment>
Hereinafter, the second embodiment will be described. In the second embodiment, the document to which the common definition data is associated and the screen for the user (for example, the worker) to associate the individual definition data with the document are displayed on the same screen. The worker can set the individually defined data while referring to the document displayed on the same screen.
以下、図10を参照して、第2実施形態に係る情報処理装置10Aの機能的な構成について説明する。図10には、情報処理装置10Aの機能的な構成の一例が示されている。なお、情報処理装置10Aのハードウェアの構成は、第1実施形態に係る情報処理装置10のハードウェアの構成と同じであるため、その説明を省略する。
Hereinafter, the functional configuration of the
共通定義作成部74は、第1実施形態に係る共通定義作成部20と同様に、共通定義データを作成するように構成されている。
The common
共通定義記憶部76は、第1実施形態に係る共通定義記憶部76と同様に、共通定義作成部74によって作成された共通定義データを記憶するように構成されている。
The common
文書受付部78は、第1実施形態に係る文書受付部26と同様に、文書データを受け付けるように構成されている。
The
枠抽出部80は、第1実施形態に係る枠抽出部28と同様に、文書受付部78によって受け付けられた文書データから枠を抽出し、その枠を表すデータである枠データを作成するように構成されている。
Similar to the
枠同定部82は、文書定義データの紐付けの対象である文書毎に、共通定義データによって定義される項目に対応する枠を特定するように構成されている。例えば、枠同定部82は、複数の異なる共通定義データの中から、紐付け対象の文書データが表す文書に含まれる項目に対応する項目(例えば、文書に含まれる項目に一致する項目)を定義する共通定義データを特定する。なお、特開2004−258706号公報等に記載されている公知技術を用いることで、個別定義データを用いずに共通定義データを用いて枠を同定してもよい。例えば、枠同定部82は、紐付け対象の文書データから枠を抽出し、その枠の近傍に存在する文字列を抽出し、その抽出された文字列が示す項目の名称と、共通定義データが定義する項目の名称とを対比することで、当該文書データが表す文書に含まれる項目に対応する項目を定義する共通定義データを特定する。例えば、枠同定部82は、抽出された文字列が示す項目の名称と同じ名称を有する項目を定義する共通定義データを特定する。
The
文書定義作成部84は、紐付け対象の文書データの枠データと、枠同定部82によって特定された共通定義データとを紐付けるように構成されている。互いに紐付けられた枠データと共通定義データは、文書定義記憶部86に記憶される。
The document
文書定義記憶部86は、文書定義作成部84によって紐付けられた枠データと共通定義データとを記憶するように構成されている。第1実施形態と同様に、共通定義データ自体は、共通定義記憶部76に記憶され、その共通定義データを参照するための情報である共通定義識別情報が、枠データに紐付けられて文書定義記憶部86に記憶されてもよい。
The document
個別定義作成部88は、第1実施形態に係る個別定義作成部24と同様に、文書毎に個別に個別定義データを作成するように構成されている。第2実施形態では、個別定義作成部88は、互いに紐付けられた枠データと共通定義データとに対する個別定義データを作成する。作成された個別定義データは、文書定義作成部84に出力される。
The individual
文書定義作成部84は、個別定義作成部88から個別定義データを受けると、互いに紐付けられた枠データと共通定義データとに当該個別定義データを紐付けることで、文書定義データを生成する。その文書定義データは、文書定義記憶部86に記憶される。
When the document
共通定義作成部74、文書受付部78、枠抽出部80、枠同定部82、文書定義作成部84、及び、個別定義作成部88は、プロセッサ18によって実現される。その実現においてメモリ16が用いられてもよい。また、共通定義記憶部76及び文書定義記憶部86は、メモリ16によって実現される。
The common
以下、図11を参照して、第2実施形態に係る情報処理装置10Aによる処理について説明する。図11には、その処理を示すフローチャートが示されている。
Hereinafter, the processing by the
まず、共通定義データが作成されているか否かが判断される(S10)。この判断は、プロセッサ18によって行われる。
First, it is determined whether or not the common definition data is created (S10). This determination is made by the
共通定義データが作成されている場合(S10,Yes)、共通定義データが選択される(S11)。作成済みの共通定義データは、共通定義記憶部76に記憶される。
When the common definition data is created (S10, Yes), the common definition data is selected (S11). The created common definition data is stored in the common
共通定義データが作成されていない場合(S10,No)、共通定義データが作成される(S12)。作成された共通定義データは、共通定義記憶部76に記憶される。
If the common definition data has not been created (S10, No), the common definition data is created (S12). The created common definition data is stored in the common
次に、文書受付部78は、紐付け対象の文書データを受け付ける(S13)。
Next, the
次に、枠抽出部80は、紐付け対象の文書データから枠を抽出することで、当該枠を表すデータである枠データを作成する(S14)。
Next, the
次に、枠同定部82は、枠を同定する処理を行うことで、共通定義データと枠データとに基づいて、紐付け対象の文書データの枠データに紐付けられる共通定義データを特定する(S15)。
Next, the
次に、文書定義作成部84は、紐付け対象の文書データから抽出された枠データと、枠同定部82によって特定された共通定義データとを紐付ける(S16)。互いに紐付けられた枠データと共通定義データは、文書定義記憶部86に記憶される。
Next, the document
次に、プロセッサ18は、紐付け対象の文書データが表す文書と、ユーザ(例えば作業者)が当該文書に個別定義データを紐付けるための画面とを、同一画面に表示させる(S17)。より詳しく説明すると、プロセッサ18は、紐付け対象の文書データが表す文書と、当該文書データの枠データに個別定義データを紐付けるための画面とを、同一画面に表示させる。以下、枠データに個別定義データを紐付けるための画面を、「個別定義設定画面」と称することとする。例えば、UI14の表示装置において、文書と個別定義設定画面とが同一画面に表示される。
Next, the
次に、作業者は、UI14を用いて、同一画面に表示されている文書に対する個別定義データを設定する(S18)。 Next, the worker sets the individual definition data for the document displayed on the same screen by using the UI 14 (S18).
文書定義作成部84は、ステップS18にて設定された個別定義データを、当該文書を表す文書データの枠データと共通定義データとに紐付けることで、文書定義データを作成する(S19)。この文書定義データは、文書定義記憶部86に記憶される。
The document
ここで、図12を参照して、文書定義データの構造について説明する。図12には、その構造の一例が示されている。 Here, the structure of the document definition data will be described with reference to FIG. FIG. 12 shows an example of the structure.
ここでは、共通定義データ90が作成されている。紐付け対象の文書データ92が受け付けられ、その文書データ92から枠が抽出されることで、その枠を表すデータである枠データ94が作成される。枠の同定が行われることで、枠データ94に紐付けられる共通定義データ90が特定される。そして、枠データ94と共通定義データ90とが紐付けられる。また、別途、個別定義データ96が作成され、その個別定義データ96が、枠データ94と共通定義データ90とに紐付けられる。これにより、文書定義データ98が作成される。
Here, the
以下、図13を参照して、個別定義設定画面について説明する。図13には、紐付け対象の文書と個別定義設定画面とが示されている。 Hereinafter, the individual definition setting screen will be described with reference to FIG. FIG. 13 shows a document to be linked and an individual definition setting screen.
画面100は、例えば、UI14の表示装置や作業者の端末装置に表示される。例えば、作業者が、紐付け対象の文書データを識別するための情報(例えばファイル名等)を指定して紐付け対象の文書データを選択し、個別定義データを当該文書データの枠データに紐付ける操作を行うことを指示すると、プロセッサ18は、画面100を表示装置に表示させる。
The
画面100には、作業者によって選択された紐付け対象の文書102と、作業者が個別定義データを文書102の枠データに紐付けるための個別定義設定画面104とが表示される。つまり、文書102と個別定義設定画面104は、同一の画面100に並んで表示される。
On the
個別定義設定画面104では、個別定義データを設定することができる。例えば、表示されている文書102上の領域が作業者によって指定された場合、プロセッサ18は、その指定された領域に対する個別定義データを設定するための画面である個別定義設定画面104を、画面100に表示させる。具体例を挙げて説明すると、符号106が指し示すように、項目「氏名(フリガナ)」の入力欄が作業者によって指定されている。例えば、その入力欄を構成する枠が作業者によってクリックされている。この場合、プロセッサ18は、その入力欄に対する個別定義データを設定するための個別定義設定画面104を画面100に表示させる。個別定義設定画面104には、指定された項目の名称、その項目に既に設定されている共通定義(つまり、文書102の枠データに紐付けられている共通定義データの定義内容)、及び、個別定義データを設定するための設定欄等が表示される。ここでは一例として、項目「氏名(フリガナ)」が指定されているため、項目名「氏名(フリガナ)」が表示され、既に設定されている共通定義としての「種別」が表示されている。また、項目「氏名(フリガナ)」の入力欄の座標(つまり、当該項目のレイアウト)、辞書の種類(例えば、手書き用又は活字用の辞書)、タグ、及び、文字数制限が、個別定義データとして設定することが可能となっている。例えば、プルダウン方式によって、辞書の候補の一覧(例えば、手書き用辞書と活字用辞書とを示す一覧)が表示される。プロセッサ18は、共通定義データによって定められた内容に応じて、辞書の候補を変えて表示してもよい。例えば、項目「名称(フリガナ)」が指定されている場合、その項目「氏名(フリガナ)」に対応する辞書の候補の一覧が表示される。個別定義設定画面104には共通定義データの定義内容も表示されるが、個別定義設定画面104では、共通定義データの定義内容を変更することは禁止されており、その定義内容を変更することはできない。
Individual definition data can be set on the individual
プロセッサ18は、作業者によって指定された枠の線を太くして表示したり、枠の線の色を変えたりすることで、指定された枠と指定されていない枠とを区別して表示してもよい。
The
なお、複数の枠が連なって構成される「はしご枠」については、当該複数の枠がまとめて作業者によって選択されると、プロセッサ18は、当該複数の枠によって構成される「はしご枠」を1つの枠として認識する。そして、プロセッサ18は、その「はしご枠」によって構成される入力欄に対する個別定義データを設定するための個別定義設定画面104を表示する。
Regarding the "ladder frame" composed of a plurality of frames in a row, when the plurality of frames are collectively selected by the operator, the
また、個別定義設定画面104には、設定の対象の項目(例えば項目「氏名(フリガナ)」)に、設定される属性を追加するためのボタンである追加ボタン108と、その項目に含まれる属性を削除するためのボタンである削除ボタン110とが表示される。図14に示す例では、属性は、タグや文字数制限等である。作業者が画面100上で追加ボタン108を押すと、新たな属性を定義するための設定欄が個別定義設定画面104に表示される。また、作業者が画面100上で削除ボタン110を押すと、設定の対象の項目に含まれる属性を削除するための画面が個別定義設定画面104に表示される。なお、全属性が個別定義設定画面104に表示されてもよい。
Further, on the individual
画面100に表示されている「OK」ボタンが作業者によって押されると、文書定義作成部84は、個別定義設定画面104上にて設定された個別定義データを、紐付け対象の文書データの枠データと共通定義データとに紐付けて、それらを含む文書定義データを文書定義記憶部86に記憶させる。「キャンセル」ボタンが作業者によって押されると、個別定義設定画面104上にて設定された個別定義データは、枠データと共通定義データとに紐付けられず、個別定義データを設定する処理は終了する。
When the "OK" button displayed on the
また、画面100には、共通定義データを設定するための共通定義設定ボタン112が表示されている。作業者が画面100上で共通定義設定ボタン112を押すと、紐付け対象の文書102の文書データに紐付けられている共通定義データを設定するための画面である共通定義設定画面(例えば画面100とは異なる別の画面)が表示される。図14には、その共通定義設定画面の一例が示されている。
Further, on the
共通定義設定画面114には、設定の対象となる共通定義データの名称(例えば「共通定義1」)が表示される。
On the common
共通定義設定画面114には、共通定義データに既に定義されている項目の一覧116が表示される。作業者は、一覧116の中から設定の対象となる項目を選択し、その項目の定義内容を編集することができる。
On the common
共通定義設定画面114には、定義される項目を共通定義データに追加するためのボタンである追加ボタン118と、共通定義データに含まれる項目を削除するためのボタンである削除ボタン120とが表示される。作業者が共通定義設定画面114上で追加ボタン118を押すと、新たな項目を定義するための設定欄が共通定義設定画面114に表示される。また、作業者が共通定義設定画面114上で削除ボタン120を押すと、共通定義データに含まれる項目を削除するための画面が共通定義設定画面114に表示される。
On the common
また、共通定義設定画面114には、設定の対象となる共通定義データに紐付けられている枠データを有する文書データの一覧122が表示される。例えば、名称が「共通定義1」の共通定義データには、帳票A,B,Cのそれぞれの枠データが紐付けられている。つまり、名称が「共通定義1」の共通定義データは、帳票A,B,Cに共通する定義データとして用いられる。名称が「共通定義1」の共通定義データが編集されると、その編集は、帳票A,B,Cに反映される。つまり、名称が「共通定義1」の共通定義データが、帳票A,B,Cのそれぞれの枠データに紐付けられているため、その共通定義データが編集されると、その編集が、帳票A,B,Cのそれぞれに反映される。
Further, on the common
共通定義設定画面114に表示されている「OK」ボタンが作業者によって押されると、文書定義作成部84は、共通定義設定画面114上にて設定された内容を、設定の対象である共通定義データに反映させる。「キャンセル」ボタンが作業者によって押されると、文書定義作成部84は、共通定義設定画面114上にて設定された内容を、設定の対象である共通定義データに反映させない。
When the "OK" button displayed on the common
例えば、作業者が、一覧116の中から項目「氏名(フリガナ)」を選択し、その項目の編集を指示すると、その編集を行うための画面である編集画面が表示される。図15には、その編集画面の一例が示されている。
For example, when a worker selects an item "name (phonetic)" from the
編集画面124には、項目名、種別、辞書、タグ、及び、文字数制限等の設定項目が表示される。作業者は、編集画面124にて各項目に設定されている内容を編集することができる。例えば、作業者は、辞書の種類等を変更することができる。
On the
編集画面124には、設定の対象の項目(例えば項目「氏名(フリガナ)」)に、設定される属性を追加するためのボタンである追加ボタン126と、その項目に含まれる属性を削除するためのボタンである削除ボタン128とが表示される。作業者が編集画面124上で追加ボタン126を押すと、新たな属性を定義するための設定欄が編集画面124に表示される。また、作業者が編集画面124上で削除ボタン128を押すと、属性を削除するための画面が編集画面124に表示される。なお、全属性が編集画面124に表示されてもよい。
On the
編集画面124に表示されている「OK」ボタンが作業者によって押されると、文書定義作成部84は、編集画面124上にて編集された内容を共通定義データに反映させる。編集画面124に表示されている「キャンセル」ボタンが作業者によって押されると、文書定義作成部84は、編集画面124上にて編集された内容を共通定義データに反映させない。
When the "OK" button displayed on the
以下、第2実施形態の変形例について説明する。 Hereinafter, a modified example of the second embodiment will be described.
プロセッサ18は、文書に紐付けられる定義データを、共通定義データ又は個別定義データのいずれかに切り替えるための画面を表示装置に表示させてもよい。例えば、プロセッサ18は、個別定義データに定義されている内容を共通定義データに定義される内容に切り替えるための画面や、共通定義データに定義されている内容を個別定義データに定義される内容に切り替えるための画面を表示装置に表示させる。例えば、作業者は、それらの画面にて、個別定義データに定義されている内容を共通定義データに定義される内容に変更したり、共通定義データに定義されている内容を個別定義データに定義される内容に変更したりすることができる。
The
具体例を挙げて説明する。例えば、項目[1.請求書番号]の内容(例えば、英数字、辞書[英数字]、10桁)が共通定義データとして定義されている場合において、作業者が、この内容を個別定義データとして定義することを指示した場合、プロセッサ18は、この内容を共通定義データではなく個別定義データとして定義する。例えば、項目[1.請求書番号]の内容が、文書A,Bの共通定義データに定義されている場合において、作業者が、この内容を文書A,Bのそれぞれの個別定義データとして定義することを指示した場合、プロセッサ18は、この内容を文書Aの個別定義データと文書Bの個別定義データとにそれぞれ定義し、文書A,Bの共通定義データから削除する。例えば、作業者が文書A,Bを指定し、共通定義データを個別定義データに切り替えることを指示すると、文書A,Bの共通定義データに定義されている各項目の内容がUI14の表示装置に表示される。作業者が、表示されている各項目の中から、文書A,Bのそれぞれの個別定義データに定義する項目の内容を指定すると、プロセッサ18は、その指定された項目の内容を文書A,Bのそれぞれの個別定義データに定義し、文書A,Bの共通定義データからその項目の内容を削除する。
A specific example will be described. For example, item [1. Invoice number] content (for example, alphanumeric characters, dictionary [alphabetic characters], 10 digits) is defined as common definition data, and the worker has instructed to define this content as individual definition data. In the case, the
上記の例とは逆に、作業者が、文書A,Bに共通する内容であって文書A,Bのそれぞれの個別定義データに定義されている内容を共通定義データとして定義することを指示した場合、プロセッサ18は、その内容を文書A,Bの共通定義データに定義し、文書A,Bのそれぞれの個別定義データから削除する。例えば、作業者が文書A,Bを指定し、個別定義データを共通定義データに切り替えることを指示すると、文書A,Bのそれぞれの個別定義データに定義されている各項目の内容がUI14の表示装置に表示される。作業者が、表示されている各項目の中から、文書A,Bの共通定義データに定義する項目の内容を指定すると、プロセッサ18は、その指定された項目の内容を文書A,Bの共通定義データに定義し、文書A,Bのそれぞれの個別定義データからその項目の内容を削除する。
Contrary to the above example, the worker instructed to define the contents common to the documents A and B and defined in the individual definition data of the documents A and B as the common definition data. In this case, the
プロセッサ18は、複数の文書において共通する個別定義データを共通定義データとしてユーザ(例えば作業者)に提案してもよい。例えば、複数の文書データにおいて共通する内容の項目が存在する場合、プロセッサ18は、その項目の内容を、当該複数の文書データの共通定義データとして作業者に提案する。具体的には、プロセッサ18は、その項目の内容をUI14の表示装置に表示させる。具体例を挙げて説明する。文書A,Bにおいて共通する内容の項目が存在する場合、プロセッサ18は、その項目の内容を、文書A,Bの共通定義データとして作業者に提案する。また、ある項目の内容が、予め定められた閾値以上の数の複数の文書データにおいて共通する場合、プロセッサ18は、その項目の内容を、当該複数の文書データの共通定義データとして作業者に提案してもよい。その項目の内容が、当該複数の文書データのそれぞれの個別定義データとして別々に定義されている場合に、プロセッサ18は、その項目の内容を当該複数の文書データの共通定義データとして作業者に提案してもよい。
The
プロセッサ18は、複数の文書を同一画面に表示させ、共通定義データの項目に対して、表示された各文書上の領域がユーザ(例えば作業者)によって指定された場合、その指定された領域を、当該項目の内容が読み取られる領域として、各文書の個別定義データに定義してもよい。この点について、図16を参照して詳しく説明する。図16には、画面が示されている。
The
例えば、作業者が、紐付け対象の文書として帳票A,B,Cを指定し、個別定義データの定義を行うことを指示すると、プロセッサ18は、画面130を表示装置に表示させる。画面130には、帳票A,B,Cが表示される。作業者が、画面130上で、帳票A,B,Cのそれぞれの項目「請求書番号」の入力欄を構成する枠を指定すると、個別定義作成部88は、指定された枠で構成される入力欄を、項目「請求書番号」の内容が読み取られる領域として、帳票A,B,Cのそれぞれの個別定義データに定義する。
For example, when the worker specifies forms A, B, and C as the documents to be linked and instructs to define the individually defined data, the
この処理について更に詳しく説明する。例えば、作業者によって、項目「請求書番号」のレイアウトを設定することが指示されると、個別定義作成部88はその指示を受け付ける。次に、作業者によって、帳票Aでは枠132が指定され、帳票Bでは枠134が指定され、帳票Cでは枠136が指定されると、個別定義作成部88は、帳票A中の枠132の位置を、帳票Aについての項目「請求書番号」の位置(つまりレイアウト)として受け付け、帳票B中の枠134の位置を、帳票Bについての項目「請求書番号」の位置として受け付け、帳票C中の枠136の位置を、帳票Cについての項目「請求書番号」の位置として受け付ける。つまり、個別定義作成部88は、帳票A中の枠132の位置(つまりレイアウト)を、帳票Aから項目「請求書番号」の内容が読み取られる領域の位置として、帳票Aの個別定義データに定義する。同様に、個別定義作成部88は、帳票B中の枠134の位置を、帳票Bから項目「請求書番号」の内容が読み取られる領域の位置として、帳票Bの個別定義データに定義する。同様に、個別定義作成部88は、帳票C中の枠136の位置を、帳票Cから項目「請求書番号」の内容が読み取られる領域の位置として、帳票Cの個別定義データに定義する。
This process will be described in more detail. For example, when the worker is instructed to set the layout of the item "invoice number", the individual
上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU: Central Processing Unit、等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。 In each of the above embodiments, the processor refers to a processor in a broad sense, such as a general-purpose processor (for example, CPU: Central Processing Unit, etc.) or a dedicated processor (for example, GPU: Graphics Processing Unit, ASIC: Application Specific Integrated Circuit, etc.). FPGA: Includes Field Programmable Gate Array, programmable logic device, etc.). Further, the operation of the processor in each of the above embodiments may be performed not only by one processor but also by a plurality of processors existing at physically separated positions in cooperation with each other. Further, the order of each operation of the processor is not limited to the order described in each of the above embodiments, and may be changed as appropriate.
10 情報処理装置、18 プロセッサ、20,74 共通定義作成部、24,88 個別定義作成部、26,84 文書定義作成部。
10 Information processing device, 18 processors, 20,74 common definition creation unit, 24,88 individual definition creation unit, 26,84 document definition creation unit.
Claims (7)
前記プロセッサは、
文書において読み取られる項目のうち、複数の文書に共通した項目の内容を定義する共通定義データと、文書において読み取られる項目のうち、文書毎に個別に項目の内容を定義する個別定義データとを、文書毎に、文書を表す文書データに紐付ける、
情報処理装置。 Has a processor and
The processor
Among the items read in the document, the common definition data that defines the contents of the items common to a plurality of documents, and the individual definition data that defines the contents of the items individually for each document among the items read in the document, For each document, link it to the document data that represents the document,
Information processing device.
ことを特徴とする請求項1に記載の情報処理装置。 The individually defined data is data that defines the layout of the item in the document.
The information processing apparatus according to claim 1.
前記プロセッサは、
前記複数の共通定義データの中の、紐付け対象の文書に含まれる項目に対応する項目の内容を定義する共通定義データと、前記複数の個別定義データの中の、前記紐付け対象の文書が有するレイアウトに対応するレイアウトを定義する個別定義データとを、前記紐付け対象の文書を表す文書データに紐付ける、
ことを特徴とする請求項2に記載の情報処理装置。 Multiple different common definition data and multiple different individual definition data are defined,
The processor
The common definition data that defines the contents of the items corresponding to the items included in the document to be linked in the plurality of common definition data and the document to be linked in the plurality of individual definition data are The individual definition data that defines the layout corresponding to the layout to be possessed is linked to the document data representing the document to be linked.
The information processing apparatus according to claim 2.
複数の文書において読み取られる共通の項目の内容を、表示する、
ことを特徴とする請求項1から請求項3のいずれか一項に記載の情報処理装置。 The processor further
Display the contents of common items that can be read in multiple documents,
The information processing device according to any one of claims 1 to 3, wherein the information processing device is characterized by the above.
前記複数の文書を表示装置に表示させ、
前記複数の文書の中で、前記共通の項目の内容を、他の項目の内容と区別して前記表示装置に表示させる、
ことを特徴とする請求項4に記載の情報処理装置。 The processor further
The plurality of documents are displayed on the display device, and the documents are displayed on the display device.
In the plurality of documents, the contents of the common item are displayed on the display device separately from the contents of other items.
The information processing apparatus according to claim 4.
共通定義データが編集された場合、その編集を、共通定義データに紐付けられている各文書に反映させる、
ことを特徴とする請求項1から請求項5のいずれか一項に記載の情報処理装置。 The processor further
When the common definition data is edited, the edit is reflected in each document associated with the common definition data.
The information processing device according to any one of claims 1 to 5, wherein the information processing device is characterized.
文書において読み取られる項目のうち、複数の文書に共通した項目の内容を定義する共通定義データと、文書において読み取られる項目のうち、文書毎に個別に項目の内容を定義する個別定義データとを、文書毎に、文書を表す文書データに紐付けさせる、
プログラム。
On the computer
Among the items read in the document, the common definition data that defines the contents of the items common to a plurality of documents, and the individual definition data that defines the contents of the items individually for each document among the items read in the document, For each document, link it to the document data that represents the document,
program.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030618A JP2021135670A (en) | 2020-02-26 | 2020-02-26 | Information processing apparatus and program |
US16/983,049 US20210264099A1 (en) | 2020-02-26 | 2020-08-03 | Information processing device and computer readable medium |
CN202010959789.9A CN113313103A (en) | 2020-02-26 | 2020-09-14 | Information processing apparatus and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020030618A JP2021135670A (en) | 2020-02-26 | 2020-02-26 | Information processing apparatus and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021135670A true JP2021135670A (en) | 2021-09-13 |
Family
ID=77661253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020030618A Pending JP2021135670A (en) | 2020-02-26 | 2020-02-26 | Information processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021135670A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02280288A (en) * | 1989-04-21 | 1990-11-16 | Oki Electric Ind Co Ltd | Document reader and processor |
JPH07152858A (en) * | 1993-10-04 | 1995-06-16 | Internatl Business Mach Corp <Ibm> | Method and system for management of character recognition ofplurality of document format images with common data type |
JP2016126796A (en) * | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | Type ocr system |
-
2020
- 2020-02-26 JP JP2020030618A patent/JP2021135670A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02280288A (en) * | 1989-04-21 | 1990-11-16 | Oki Electric Ind Co Ltd | Document reader and processor |
JPH07152858A (en) * | 1993-10-04 | 1995-06-16 | Internatl Business Mach Corp <Ibm> | Method and system for management of character recognition ofplurality of document format images with common data type |
JP2016126796A (en) * | 2014-12-27 | 2016-07-11 | 株式会社 ハンモック | Type ocr system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7610274B2 (en) | Method, apparatus, and program for retrieving data | |
US8885951B1 (en) | System and method for data identification and extraction of forms | |
JP4461769B2 (en) | Document retrieval / browsing technique and document retrieval / browsing device | |
US11303769B2 (en) | Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium | |
JP4867941B2 (en) | Form processing method, form processing program, form processing apparatus, and form processing system | |
JPS63155386A (en) | Document data reader | |
JP2017151916A (en) | Information processing device,information processing method, and program | |
JP7380319B2 (en) | Information processing device and program | |
JP2021135670A (en) | Information processing apparatus and program | |
US20210264099A1 (en) | Information processing device and computer readable medium | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP2019133370A (en) | Apparatus and program for image processing | |
US20210182477A1 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
US11074392B2 (en) | Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode | |
US11971852B2 (en) | File management device, file management method, and non-transitory computer readable medium | |
CN114611475A (en) | Information processing apparatus, information processing method, and computer readable medium | |
CN110909723B (en) | Information processing apparatus and computer-readable storage medium | |
JP4517822B2 (en) | Image processing apparatus and program | |
CN113111881A (en) | Information processing apparatus and recording medium | |
JP7222766B2 (en) | META INFORMATION TRANSMISSION SYSTEM VIA PRINTED MATERIAL, PRINT CONTROL DEVICE, PRINTED MATERIAL READING DEVICE, METHOD FOR ADDING META INFORMATION TO PRINTED MATERIAL AND METHOD FOR ACQUIRING META INFORMATION FROM PRINTED MATERIAL | |
US20220383023A1 (en) | Information processing apparatus, non-transitory computer readable medium storing program, and information processing method | |
US11354496B2 (en) | Information processing apparatus and non-transitory computer readable medium storing program | |
JP7439553B2 (en) | Control program, information processing device | |
JP7504674B2 (en) | Information processing device, information processing method, and program | |
US11960530B2 (en) | File management device, file management method, and non-transitory computer readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230120 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231114 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240507 |