JP2021086479A - Information processing system, information processing method, and program - Google Patents

Information processing system, information processing method, and program Download PDF

Info

Publication number
JP2021086479A
JP2021086479A JP2019216251A JP2019216251A JP2021086479A JP 2021086479 A JP2021086479 A JP 2021086479A JP 2019216251 A JP2019216251 A JP 2019216251A JP 2019216251 A JP2019216251 A JP 2019216251A JP 2021086479 A JP2021086479 A JP 2021086479A
Authority
JP
Japan
Prior art keywords
item
detail
information
keyword
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019216251A
Other languages
Japanese (ja)
Other versions
JP7456131B2 (en
Inventor
石倉 浩二
Koji Ishikura
浩二 石倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2019216251A priority Critical patent/JP7456131B2/en
Publication of JP2021086479A publication Critical patent/JP2021086479A/en
Application granted granted Critical
Publication of JP7456131B2 publication Critical patent/JP7456131B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To improve accuracy of form recognition.SOLUTION: An information processing system includes: an item extraction unit which extracts detail items included in a detail part and values of the detail items from read result data formed by associating character strings read from an area indicating the detail part of a form image with information indicating positions of the character strings; and an output unit which outputs the extracted detail items and the values of the detail items as recognition results. The item extraction unit extracts the detail items and the values of the detail items by referring to first detail definition information formed by defining detail items used in a form, keywords to be extracted as the detail items, and positions of the keywords in the form.SELECTED DRAWING: Figure 21

Description

本発明は、帳票の認識を行う情報処理システム、情報処理方法及びプログラムに関する。 The present invention relates to an information processing system, an information processing method and a program for recognizing forms.

従来では、帳票を認識する際に、帳票画像上における読取対象文字列の記載位置及びその属性を登録した「帳票定義」を用い、読取対象文字列の読み取りとその属性の認識を行うことが知られている。 Conventionally, when recognizing a form, it is known that the reading target character string is read and its attribute is recognized by using the "form definition" in which the description position of the reading target character string on the form image and its attribute are registered. Has been done.

また、従来では、多様なレイアウトが混在する帳票が存在することから、処理対象とする帳票のレイアウトが未知である場合等を想定した帳票の認識の手法が知られている。具体的には、例えば、読み取り対象となる項目の項目名を予め定義し、帳票画像において認識された文字列から、項目名を特定し、特定した項目名の周辺の文字列から、項目の値を抽出することが知られている。 Further, conventionally, since there is a form in which various layouts are mixed, a method of recognizing a form assuming a case where the layout of the form to be processed is unknown is known. Specifically, for example, the item name of the item to be read is defined in advance, the item name is specified from the character string recognized in the form image, and the item value is specified from the character string around the specified item name. Is known to extract.

帳票の中でも、特に明細部に記載される項目名は、帳票を取り扱う組織や帳票の用途等によって、多種多様である。このため、従来の汎用的な定義では、明細部の項目を正しく抽出することが困難な場合があった。 Among the forms, the item names described in the detail section are diverse depending on the organization handling the forms and the purpose of the forms. Therefore, it may be difficult to correctly extract the items of the detail part by the conventional general-purpose definition.

本発明は、上記事情に鑑みて成されたものであり、帳票の認識の精度を向上させることを目的としている。 The present invention has been made in view of the above circumstances, and an object of the present invention is to improve the accuracy of form recognition.

開示の技術は、帳票画像の明細部を示す領域から読み取った文字列と、文字列の位置を示す情報とを対応付けた読取結果データから、前記明細部に含まれる明細項目及び明細項目の値を抽出する項目抽出部と、抽出された前記明細項目及び明細項目の値を認識結果として、前記端末装置へ出力する出力部と、を有し、前記項目抽出部は、帳票で用いられる明細項目と、前記明細項目として抽出するキーワードと、前記帳票における前記キーワードの位置と、を定義した第一の明細定義情報を参照して、前記明細項目及び明細項目の値を抽出する。 The disclosed technique is a detail item and a value of the detail item included in the detail part from the reading result data in which the character string read from the area indicating the detail part of the form image and the information indicating the position of the character string are associated with each other. The item extraction unit has an item extraction unit for extracting the item and an output unit for outputting the extracted item and the value of the item to the terminal device as a recognition result, and the item extraction unit is used for the item in the form. And, the value of the detail item and the detail item is extracted by referring to the first detail definition information that defines the keyword to be extracted as the detail item and the position of the keyword in the form.

帳票の認識の精度を向上させることができる。 It is possible to improve the accuracy of form recognition.

帳票認識システムのシステム構成の一例を示す図である。It is a figure which shows an example of the system configuration of the form recognition system. サーバ装置のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware configuration of a server device. 業種判定データベースの一例を示す図である。It is a figure which shows an example of the industry judgment database. 帳票定義データベースに格納される明細定義情報の種類を示す図である。It is a figure which shows the type of the detail definition information stored in the form definition database. 汎用明細定義情報の一例を示す図である。It is a figure which shows an example of the general-purpose detail definition information. 業種明細定義情報の一例を示す図である。It is a figure which shows an example of the industry detail definition information. 個社明細定義情報の一例を示す図である。It is a figure which shows an example of the individual company detailed definition information. サーバ装置の機能を説明する図である。It is a figure explaining the function of a server device. 帳票認識システムの動作を説明するシーケンス図である。It is a sequence diagram explaining the operation of the form recognition system. ジョブリストの一例を示す図である。It is a figure which shows an example of a job list. 帳票認識部の処理を説明する第一のフローチャートである。It is a 1st flowchart explaining the process of a form recognition part. 帳票認識部の処理を説明する第二のフローチャートである。It is a 2nd flowchart explaining the process of a form recognition part. 帳票認識部の処理を説明する第三のフローチャートである。It is a 3rd flowchart explaining the process of a form recognition part. 明細情報の抽出を説明する第一の図である。It is the first figure explaining the extraction of the detailed information. 明細情報の抽出を説明する第二の図である。It is a 2nd figure explaining the extraction of the detailed information. 定義登録部の処理を説明する第一のフローチャートである。It is a 1st flowchart explaining the process of a definition registration part. 定義登録部の処理を説明する第二のフローチャートである。It is a 2nd flowchart explaining the process of the definition registration part. 表示例を示す第一の図である。It is the first figure which shows the display example. 表示例を示す第二の図である。It is a second figure which shows the display example. 表示例を示す第三の図である。It is a third figure which shows the display example. 表示例を示す第四の図である。It is a fourth figure which shows the display example. 表示例を示す第五の図である。It is a fifth figure which shows the display example.

以下に図面を参照して、実施形態について説明する。図1は、帳票認識システムのシステム構成の一例を示す図である。 The embodiment will be described below with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of a form recognition system.

本実施形態の帳票認識システム100は、サーバ装置200、画像形成装置300、端末装置400を有する。本実施形態の帳票認識システム100において、サーバ装置200と、画像形成装置300と、端末装置400とは、ネットワークを介して接続される。本実施形態の帳票認識システム100は、情報処理システムの一例である。 The form recognition system 100 of the present embodiment includes a server device 200, an image forming device 300, and a terminal device 400. In the form recognition system 100 of the present embodiment, the server device 200, the image forming device 300, and the terminal device 400 are connected via a network. The form recognition system 100 of this embodiment is an example of an information processing system.

また、本実施形態の端末装置400は、例えば、ネットワークを介して基幹システム500と接続される。基幹システム500とは、例えば、本実施形態の帳票認識システム100において帳票を認識した結果を用いて、特定の処理を行うシステムである。具体的には、例えば、基幹システム500は、会計システムや、見積もり作成システム等であっても良い。 Further, the terminal device 400 of the present embodiment is connected to the core system 500 via a network, for example. The core system 500 is, for example, a system that performs a specific process using the result of recognizing a form in the form recognition system 100 of the present embodiment. Specifically, for example, the core system 500 may be an accounting system, a quotation preparation system, or the like.

本実施形態の帳票認識システム100において、サーバ装置200は、画像形成装置300のスキャナ機能によって読み取られた帳票の画像を示す画像データから、帳票に含まれる項目と項目の値とを抽出し、項目と項目の値とを対応付けたテキストデータとする。 In the form recognition system 100 of the present embodiment, the server device 200 extracts the items included in the form and the values of the items from the image data indicating the image of the form read by the scanner function of the image forming device 300, and the items. It is text data in which and the value of the item are associated with each other.

以下の説明では、画像形成装置300のスキャナ機能によって読み取られた帳票の画像を帳票画像と呼び、帳票画像を示す画像データを帳票画像データと呼ぶ。 In the following description, the image of the form read by the scanner function of the image forming apparatus 300 is referred to as a form image, and the image data indicating the form image is referred to as the form image data.

また、以下の説明では、帳票画像に含まれる項目と、この項目の値とを抽出し、項目と項目の値とをテキストデータに変換して対応付けることを、帳票認識と呼ぶ。 Further, in the following description, extracting the item included in the form image and the value of this item, converting the item and the value of the item into text data, and associating them with each other is called form recognition.

本実施形態のサーバ装置200は、記憶部210と、帳票認識処理部220とを有する。記憶部210には、帳票画像データベース230、業種判定データベース240、明細定義データベース250、認識結果データベース260が設けられている。 The server device 200 of the present embodiment has a storage unit 210 and a form recognition processing unit 220. The storage unit 210 is provided with a form image database 230, an industry determination database 240, a detail definition database 250, and a recognition result database 260.

帳票画像データベース230は、帳票画像データが格納される。業種判定データベース240は、帳票の発行元の業種を判別する際に参照される情報が格納される。明細定義データベース250は、帳票認識処理部220による帳票認識を行う際に参照される明細定義情報が格納される。認識結果データベース260は、帳票認識処理部220による帳票認識の結果を示す情報である認識結果データが格納される。 The form image database 230 stores the form image data. The industry determination database 240 stores information that is referred to when determining the industry of the issuer of the form. The detail definition database 250 stores detail definition information that is referred to when the form recognition processing unit 220 performs form recognition. The recognition result database 260 stores recognition result data, which is information indicating the result of form recognition by the form recognition processing unit 220.

本実施形態の帳票認識処理部220は、帳票画像データベース230に格納された帳票画像データを取得し、業種判定データベース240を参照して帳票の発行元の業種の判定と、参照すべき明細定義情報の特定を行う。そして、帳票認識処理部220は、明細定義データベース250において、特定された明細定義情報を用いて帳票認識を行い、その結果を認識結果データベース260へ格納する。明細定義情報とは、帳票に含まれる明細項目の項目名と項目名の記載位置を示す情報と、を含む。 The form recognition processing unit 220 of the present embodiment acquires the form image data stored in the form image database 230, refers to the industry determination database 240, determines the industry of the issuer of the form, and details definition information to be referred to. To identify. Then, the form recognition processing unit 220 performs form recognition in the detail definition database 250 using the specified detail definition information, and stores the result in the recognition result database 260. The detail definition information includes the item name of the detail item included in the form and the information indicating the description position of the item name.

ここで、本実施形態の帳票認識処理部220は、帳票認識を行う際に、明細定義データベース250に格納された、個社明細定義情報と、業種明細定義情報と、汎用明細定義情報と、を参照する。 Here, when the form recognition processing unit 220 of the present embodiment performs form recognition, the individual company detail definition information, the industry detail definition information, and the general-purpose detail definition information stored in the detail definition database 250 are stored. refer.

本実施形態の汎用明細定義情報とは、一般的な帳票における明細項目名に対応する単語を定義した情報である。業種明細定義情報は、業種毎の帳票における明細項目名に対応する単語を定義した情報である。個社明細定義情報とは、帳票認識システム100を利用する利用者固有の帳票における明細項目名に対応する単語と帳票画像から抽出する情報を定義した情報である。業種判定データベース240と、明細定義データベース250の詳細は後述する。 The general-purpose detail definition information of the present embodiment is information that defines words corresponding to the detail item names in a general form. The industry detail definition information is information that defines words corresponding to the detail item names in the form for each industry. The individual company detail definition information is information that defines information extracted from the word and the form image corresponding to the detail item name in the user-specific form using the form recognition system 100. Details of the industry determination database 240 and the detail definition database 250 will be described later.

本実施形態では、このように、帳票認識の際に、3種類の明細定義情報を用いることで、汎用的な帳票に加えて、帳票の明細部を認識することができ、帳票の認識の精度を向上させることができる。 In the present embodiment, in this way, by using three types of detail definition information when recognizing a form, it is possible to recognize the detail part of the form in addition to the general-purpose form, and the accuracy of the recognition of the form. Can be improved.

以下に、帳票における明細部について説明する。帳票の明細部は、データの集計結果等を示す部分であり、明細項目毎に、同じ形式のデータが縦方向に繰り返し印刷された部分である。明細項目とは、明細部で集計されるデータの項目である。一般的な明細項目としては、商品名、数量、単価、金額等が含まれる。明細部の具体的例は後述する。 The details of the form will be described below. The detail part of the form is a part showing the data aggregation result and the like, and is a part in which data of the same format is repeatedly printed in the vertical direction for each detail item. The detail item is an item of data aggregated in the detail section. General item items include a product name, quantity, unit price, amount of money, and the like. A specific example of the detail part will be described later.

本実施形態の帳票認識システム100において、画像形成装置300は、スキャナ機能を有する複合機である。画像形成装置300は、コピー機能、FAX機能、スキャナ機能等を実現するためのアプリケーションが搭載されており、各機能と対応するアプリケーションを選択することで、これらの機能が実現される。 In the form recognition system 100 of the present embodiment, the image forming apparatus 300 is a multifunction device having a scanner function. The image forming apparatus 300 is equipped with applications for realizing a copy function, a fax function, a scanner function, and the like, and these functions are realized by selecting an application corresponding to each function.

本実施形態の端末装置400は、帳票認識システム100を利用する利用者によって使用される。また、端末装置400には、サーバ装置200による帳票認識の結果が表示されても良い。 The terminal device 400 of this embodiment is used by a user who uses the form recognition system 100. Further, the terminal device 400 may display the result of form recognition by the server device 200.

尚、本実施形態における利用者とは、例えば、帳票の発行元となる企業等である。より具体的には、例えば、利用者とは、帳票認識システム100が提供するサービスを利用するための契約を締結している事業所や企業、団体等である。 The user in this embodiment is, for example, a company or the like that is the issuer of the form. More specifically, for example, the user is a business establishment, a company, an organization, or the like that has concluded a contract for using the service provided by the form recognition system 100.

尚、図1の例では、サーバ装置200は、記憶部210内に4つのデータベースを有する構成としたが、これに限定されない。各データベースは、一部がサーバ装置200の外部装置に設けられていても良いし、各データベース全てが外部装置に設けられていても良い。 In the example of FIG. 1, the server device 200 has a configuration having four databases in the storage unit 210, but the present invention is not limited to this. A part of each database may be provided in the external device of the server device 200, or all the databases may be provided in the external device.

また、図1の例では、サーバ装置200が帳票認識処理部220を実現するものとしたが、これに限定されない。帳票認識処理部220は、複数の情報処理装置によって実現されても良い。 Further, in the example of FIG. 1, the server device 200 realizes the form recognition processing unit 220, but the present invention is not limited to this. The form recognition processing unit 220 may be realized by a plurality of information processing devices.

また、図1の例では、帳票認識システム100に含まれる画像形成装置300と端末装置400とは、それぞれ1台としているが、帳票認識システム100に含まれる画像形成装置300と端末装置400の台数は、任意の数であって良い。 Further, in the example of FIG. 1, the image forming device 300 and the terminal device 400 included in the form recognition system 100 are each one, but the number of image forming devices 300 and the terminal device 400 included in the form recognition system 100 is one. Can be any number.

次に、図2を参照して、本実施形態のサーバ装置200のハードウェア構成について説明する。図2は、サーバ装置のハードウェア構成の一例を示す図である。 Next, the hardware configuration of the server device 200 of the present embodiment will be described with reference to FIG. FIG. 2 is a diagram showing an example of the hardware configuration of the server device.

本実施形態のサーバ装置200は、コンピュータによって構築されており、図2に示されているように、CPU201、ROM202、RAM203、HD204、HDD(Hard Disk Drive)コントローラ205、ディスプレイ206、外部機器接続I/F(Interface)208、ネットワークI/F209、データバスB、キーボード211、ポインティングデバイス212、DVD−RW(Digital Versatile Disk Rewritable)ドライブ214、メディアI/F216を備えている。 The server device 200 of the present embodiment is constructed by a computer, and as shown in FIG. 2, the CPU 201, ROM 202, RAM 203, HD 204, HDD (Hard Disk Drive) controller 205, display 206, and external device connection I. It includes a / F (Interface) 208, a network I / F 209, a data bus B, a keyboard 211, a pointing device 212, a DVD-RW (Digital Versatile Disk Rewritable) drive 214, and a media I / F 216.

これらのうち、CPU201は、サーバ装置200全体の動作を制御する。ROM202は、IPL等のCPU201の駆動に用いられるプログラムを記憶する。RAM203は、CPU201のワークエリアとして使用される。HD204は、プログラム等の各種データを記憶する。HDDコントローラ205は、CPU201の制御にしたがってHD204に対する各種データの読み出し又は書き込みを制御する。ディスプレイ206は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する表示部である。 Of these, the CPU 201 controls the operation of the entire server device 200. The ROM 202 stores a program used to drive the CPU 201 such as an IPL. The RAM 203 is used as a work area of the CPU 201. The HD204 stores various data such as programs. The HDD controller 205 controls reading or writing of various data to the HD 204 according to the control of the CPU 201. The display 206 is a display unit that displays various information such as a cursor, a menu, a window, characters, or an image.

外部機器接続I/F208は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F209は、通信ネットワークNを利用してデータ通信をするためのインターフェースである。データバスBは、図2に示されているCPU201等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。 The external device connection I / F 208 is an interface for connecting various external devices. The external device in this case is, for example, a USB (Universal Serial Bus) memory, a printer, or the like. The network I / F 209 is an interface for performing data communication using the communication network N. The data bus B is an address bus, a data bus, or the like for electrically connecting each component such as the CPU 201 shown in FIG.

また、キーボード211は、文字、数値、各種指示などの入力のための複数のキーを備えた入力手段の一種である。ポインティングデバイス212は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。DVD−RWドライブ214は、着脱可能な記録媒体の一例としてのDVD−RW213に対する各種データの読み出し又は書き込みを制御する。尚、DVD−RWに限らず、DVD−R等であってもよい。メディアI/F216は、フラッシュメモリ等の記録メディア215に対するデータの読み出し又は書き込み(記憶)を制御する。 Further, the keyboard 211 is a kind of input means including a plurality of keys for inputting characters, numerical values, various instructions and the like. The pointing device 212 is a kind of input means for selecting and executing various instructions, selecting a processing target, moving a cursor, and the like. The DVD-RW drive 214 controls reading or writing of various data to the DVD-RW 213 as an example of the removable recording medium. In addition, it is not limited to DVD-RW, and may be DVD-R or the like. The media I / F 216 controls reading or writing (storage) of data to a recording medium 215 such as a flash memory.

本実施形態のサーバ装置200は、例えば、スマートフォン、タブレット端末、PDA(Personal Digital Assistant)、ウェアラブルPC等であっても良い。 The server device 200 of the present embodiment may be, for example, a smartphone, a tablet terminal, a PDA (Personal Digital Assistant), a wearable PC, or the like.

本実施形態の端末装置400は、演算処理装置と記憶装置とを有するコンピュータであり、例えば、タブレット型の端末装置や、スマートフォン等であっても良い。 The terminal device 400 of the present embodiment is a computer having an arithmetic processing unit and a storage device, and may be, for example, a tablet-type terminal device, a smartphone, or the like.

次に、本実施形態のサーバ装置200の有する業種判定データベース240と明細定義データベース250について説明する。 Next, the industry determination database 240 and the detail definition database 250 included in the server device 200 of the present embodiment will be described.

図3は、業種判定データベースの一例を示す図である。本実施形態の業種判定データベース240は、各種の業種毎に設けられる。 FIG. 3 is a diagram showing an example of an industry determination database. The industry determination database 240 of this embodiment is provided for each of various industries.

業種判定データベース240では、業種と、帳票の発行元とが対応付けられている。図3の例では、業種「人材派遣」と、A社、B社、C社とが対応付けられている。したがって、A社、B社、C社は、人材派遣業を行っている組織であることがわかる。 In the industry determination database 240, the industry and the issuer of the form are associated with each other. In the example of FIG. 3, the industry “dispatched labor” is associated with companies A, B, and C. Therefore, it can be seen that Company A, Company B, and Company C are organizations engaged in the dispatching business.

次に、図4乃至図7を参照して、本実施形態の明細定義データベース250について説明する。図4は、帳票定義データベースに格納される明細定義情報の種類を示す図である。 Next, the detailed definition database 250 of the present embodiment will be described with reference to FIGS. 4 to 7. FIG. 4 is a diagram showing the types of detailed definition information stored in the form definition database.

本実施形態の明細定義データベース250には、個社明細定義情報251と、業種明細定義情報252と、汎用明細定義情報253と、が格納されている。尚、本実施形態の個社明細定義情報251は、第一の明細定義情報であり、業種明細定義情報252は、第二の明細定義情報であり、汎用明細定義情報253は、第三の明細定義情報である。 The detail definition database 250 of the present embodiment stores individual company detail definition information 251, industry detail definition information 252, and general-purpose detail definition information 253. The individual company detail definition information 251 of the present embodiment is the first detail definition information, the industry detail definition information 252 is the second detail definition information, and the general-purpose detail definition information 253 is the third detail. Definition information.

本実施形態の個社明細定義情報251とは、帳票の中でも、利用者が独自に設計した帳票に含まれる明細項目名と記載位置を定義した明細定義情報であり、利用者専用の明細定義情報である。個社明細定義情報251は、3つの明細定義情報のうち、最も尊重されるべき定義であり、最も優先度が高い明細定義情報である。 The individual company detail definition information 251 of the present embodiment is the detail definition information that defines the detail item name and the description position included in the form originally designed by the user among the forms, and is the detail definition information dedicated to the user. Is. The individual company detail definition information 251 is the definition that should be respected most among the three detail definition information, and is the detail definition information having the highest priority.

本実施形態の業種明細定義情報252は、帳票の中でも、各業界において一般的に利用される帳票に含まれる明細項目名と記載位置を定義した明細定義情報である。業種明細定義情報252の優先度は、3つの明細定義情報のうちの中間となる。 The industry detail definition information 252 of the present embodiment is detail definition information that defines the detail item name and the description position included in the form generally used in each industry among the forms. The priority of the industry detail definition information 252 is intermediate among the three detail definition information.

本実施形態の汎用明細定義情報253とは、帳票の中でも、複数の利用者により利用される汎用性の高い帳票に含まれる明細項目名と記載位置を定義した明細定義情報である。汎用明細定義情報253は、3つの明細定義情報のうち、最も優先度の低い明細定義情報である。 The general-purpose detailed definition information 253 of the present embodiment is detailed definition information that defines the detailed item names and description positions included in the highly versatile form used by a plurality of users among the forms. The general-purpose detail definition information 253 is the detail definition information having the lowest priority among the three detail definition information.

本実施形態の帳票認識処理部220は、この3つの明細定義情報を参照して、帳票画像データの認識を行う。したがって、本実施形態では、例えば、帳票画像データが、個社明細定義情報251において定義されていない明細項目名を含む帳票のものであった場合でも、業種明細定義情報252や汎用明細定義情報253で定義されていれば、この帳票画像データを認識できる。 The form recognition processing unit 220 of the present embodiment recognizes the form image data with reference to the three detail definition information. Therefore, in the present embodiment, for example, even if the form image data is for a form including a detail item name that is not defined in the individual company detail definition information 251, the industry detail definition information 252 and the general-purpose detail definition information 253. If it is defined in, this form image data can be recognized.

尚、以下の説明では、請求書を帳票の一例として説明する。尚、帳票は、明細部を含むものであれば、どのような帳票であっても良い。具体的には、例えば、帳票は、納品書や見積書等であっても良い。 In the following description, the invoice will be described as an example of the form. The form may be any form as long as it includes a detailed part. Specifically, for example, the form may be a delivery note, a quotation, or the like.

図5は、汎用明細定義情報の一例を示す図である。汎用明細定義情報253は、一般的な請求書の明細部で採用される明細項目名を定義するものであり、汎用明細定義情報253は、情報の項目として、項目名と、キーワードとを有し、両者は対応付けられている。 FIG. 5 is a diagram showing an example of general-purpose detailed definition information. The general-purpose detail definition information 253 defines a detail item name adopted in the detail portion of a general invoice, and the general-purpose detail definition information 253 has an item name and a keyword as information items. , Both are associated.

項目「明細項目名」の値は、請求書の明細部で用いられる明細項目の名称を示す。項目「キーワード」の値は、明細部の明細項目名と同義と見なされるキーワード(単語)を示す。 The value of the item "detail item name" indicates the name of the detail item used in the detail part of the invoice. The value of the item "keyword" indicates a keyword (word) that is considered to be synonymous with the detail item name of the detail part.

つまり、汎用明細定義情報253は、一般的な帳票で用いられる明細項目、帳票から明細項目として抽出するキーワードと、を定義した情報である。 That is, the general-purpose detail definition information 253 is information that defines a detail item used in a general form and a keyword extracted as a detail item from the form.

図5の例では、明細項目名「商品名」は、「商品」、「製品」、「品名」等のキーワードと同義として扱われることを示している。また、図5の例では、明細項目名「金額」は、「金額」、「総額」、「合計」等のキーワードと同義として扱われることを示している。 In the example of FIG. 5, it is shown that the detailed item name "product name" is treated as synonymous with keywords such as "product", "product", and "product name". Further, in the example of FIG. 5, it is shown that the item name "amount" is treated as synonymous with keywords such as "amount", "total amount", and "total".

図6は、業種明細定義情報の一例を示す図である。業種明細定義情報252は、業種毎に設けられる情報であり、業種が示す業界における一般的な請求書の明細部で採用される項目名を定義するものである。 FIG. 6 is a diagram showing an example of industry detail definition information. The industry detail definition information 252 is information provided for each industry, and defines an item name adopted in the detail section of a general invoice in the industry indicated by the industry.

業種明細定義情報252は、業種を特定する情報と、項目「明細項目名」と、項目「キーワード」とを有し、両者は対応付けられている。図6の例では、業種が「人材派遣」であることを示している。 The industry detail definition information 252 has information for specifying the industry, an item "detailed item name", and an item "keyword", both of which are associated with each other. In the example of FIG. 6, it is shown that the industry is “dispatched labor”.

項目「明細項目名」の値は、一般的な請求書の明細部で用いられる明細項目の名称を示す。項目「キーワード」の値は、請求元が人材派遣業の請求書において、一般的な明細項目名に相当するキーワード(単語)を示す。 The value of the item "detail item name" indicates the name of the detail item used in the detail part of a general invoice. The value of the item "keyword" indicates a keyword (word) corresponding to a general detailed item name in the invoice of the dispatching business by the billing source.

つまり、業種明細定義情報252は、業種と、帳票で用いられる明細項目、帳票から明細項目として抽出するキーワードと、を定義した情報である。 That is, the industry detail definition information 252 is information that defines the industry, the detail items used in the form, and the keywords extracted as the detail items from the form.

図6の例では、一般的な帳票の明細項目名「商品名」は、発行元が人材派遣業の請求書の明細部では、「氏名」、「スタッフ」、「メンバー」等のキーワードに置き換えられる場合があることを示している。 In the example of FIG. 6, the detailed item name "product name" of a general form is replaced with keywords such as "name", "staff", and "member" in the detailed part of the invoice issued by the dispatching business. Indicates that it may be possible.

図7は、個社明細定義情報の一例を示す図である。本実施形態の個社明細定義情報251は、利用者毎に登録されるものである。ここでの利用者は、請求書の発行元(請求元)である。 FIG. 7 is a diagram showing an example of individual company detailed definition information. The individual company detail definition information 251 of this embodiment is registered for each user. The user here is the issuer (billing source) of the invoice.

個社明細定義情報251では、請求元を特定する情報と、項目「明細項目名」と、項目「抽出情報」とが対応付けられている。 In the individual company detail definition information 251, the information for specifying the billing source, the item "detail item name", and the item "extracted information" are associated with each other.

請求元を特定する情報とは、請求元の名称、電話番号、口座番号等を含む。尚、図7の例では、請求元を特定する情報に、請求元の名称、電話番号、口座番号が含まれるものとしたが、請求元を特定する情報は、これらの情報のうち何れか1つであっても良い。 The information that identifies the billing source includes the name of the billing source, a telephone number, an account number, and the like. In the example of FIG. 7, it is assumed that the information for identifying the billing source includes the name, telephone number, and account number of the billing source, but the information for identifying the billing source is any one of these information. It may be one.

項目「明細項目名」の値は、一般的な請求書の明細部で用いられる明細項目の名称を示す。言い換えれば、個社明細定義情報251における明細項目名とは、帳票で用いられる明細項目を示す。 The value of the item "detail item name" indicates the name of the detail item used in the detail part of a general invoice. In other words, the detail item name in the individual company detail definition information 251 indicates the detail item used in the form.

項目「抽出情報」の値は、請求元から発行される請求書において、一般的な明細項目に相当するキーワード(単語)として抽出するキーワードと、請求書を示す帳票画像において、このキーワードが記載されている位置を示す情報とを含む。 The value of the item "extracted information" is a keyword extracted as a keyword (word) corresponding to a general detailed item in an invoice issued by a billing source, and this keyword is described in a form image showing an invoice. Includes information indicating the location of the image.

つまり、個社明細定義情報251における抽出情報は、帳票から明細項目として抽出するキーワードと、帳票におけるキーワードの位置を示す情報とを含む。したがって、個社明細定義情報251は、帳票で用いられる明細項目と、明細項目として抽出するキーワードと、帳票におけるキーワードの位置を示す情報とを定義した情報である。 That is, the extracted information in the individual company detail definition information 251 includes a keyword extracted as a detail item from the form and information indicating the position of the keyword in the form. Therefore, the individual company detail definition information 251 is information that defines the detail items used in the form, the keywords to be extracted as the detail items, and the information indicating the position of the keywords in the form.

図7の例では、一般的な帳票の明細項目名「商品名」は、請求元がA社である請求書の明細部では、「氏名」、等のキーワードに置き換えられる場合があることを示している。 In the example of FIG. 7, it is shown that the detail item name “product name” of a general form may be replaced with a keyword such as “name” in the detail part of the invoice whose billing source is company A. ing.

また、図7の例では、請求元がA社である請求書を示す帳票画像におけるキーワード「氏名」の位置を示す情報として、キーワードの座標を示すキーワード座標、キーワード「氏名」が記入されたセルの座標を示すセル座標、キーワード「氏名」が記入された列の座標を示す列座標が抽出されることを示している。 Further, in the example of FIG. 7, the cell in which the keyword coordinates indicating the coordinates of the keyword and the keyword "name" are entered as the information indicating the position of the keyword "name" in the form image indicating the invoice whose billing source is company A. It is shown that the cell coordinates indicating the coordinates of and the column coordinates indicating the coordinates of the column in which the keyword "name" is entered are extracted.

尚、請求書を示す帳票画像において、キーワードが記載されている位置を示す情報とは、キーワードの座標値、セルの値座標、列の座標値のうち、少なくとも何れか一種類の座標が取得されていれば良い。 In the form image showing the invoice, the information indicating the position where the keyword is described is obtained by acquiring at least one of the coordinate value of the keyword, the coordinate value of the cell, and the coordinate value of the column. I just need to be there.

具体的には、キーワードの座標値とは、キーワードに外接する矩形において対角線上にある2点の座標であっても良い。この座標から、キーワードに外接する矩形の幅と高さがわかる。 Specifically, the coordinate value of the keyword may be the coordinates of two points diagonally in the rectangle circumscribing the keyword. From these coordinates, the width and height of the rectangle circumscribing the keyword can be found.

次に、図8を参照して、本実施形態のサーバ装置200の機能について説明する。図8は、サーバ装置の機能を説明する図である。 Next, the function of the server device 200 of the present embodiment will be described with reference to FIG. FIG. 8 is a diagram illustrating the function of the server device.

本実施形態のサーバ装置200では、例えば、メモリ装置25や補助記憶装置24等に格納された情報処理プログラムを演算処理装置26が読み出して実行することで、後述する各部の機能が実現される。 In the server device 200 of the present embodiment, for example, the arithmetic processing device 26 reads and executes the information processing program stored in the memory device 25, the auxiliary storage device 24, and the like, thereby realizing the functions of each part described later.

本実施形態のサーバ装置200は、帳票認識処理部220、定義登録部290を有する。帳票認識処理部220は、入力受付部221、認証処理部222、帳票認識部270を有する。 The server device 200 of this embodiment has a form recognition processing unit 220 and a definition registration unit 290. The form recognition processing unit 220 includes an input reception unit 221, an authentication processing unit 222, and a form recognition unit 270.

入力受付部221は、サーバ装置200に対する各種の入力を受け付ける。具体的には、入力受付部221は、帳票認識システム100にログインするための認証情報の入力を受け付ける。認証情報とは、例えば、利用者IDとパスワード等である。また、入力受付部221は、例えば、画像形成装置300から送信された帳票画像データの入力を受け付ける。 The input receiving unit 221 receives various inputs to the server device 200. Specifically, the input reception unit 221 accepts the input of the authentication information for logging in to the form recognition system 100. The authentication information is, for example, a user ID and a password. Further, the input receiving unit 221 receives, for example, the input of the form image data transmitted from the image forming apparatus 300.

認証処理部222は、入力受付部221が入力を受け付けた認証情報に基づき、認証を行う。尚、認証処理部222は、例えば、サーバ装置200の外部に設けられた認証サーバに対して、入力された認証情報を送信し、認証サーバによる認証の結果を取得しても良い。認証処理部222は、利用者が認証されると、入力受付部221が受け付けた帳票画像データを帳票認識部270に渡しても良い。 The authentication processing unit 222 authenticates based on the authentication information received by the input receiving unit 221. The authentication processing unit 222 may transmit the input authentication information to, for example, an authentication server provided outside the server device 200, and acquire the authentication result by the authentication server. When the user is authenticated, the authentication processing unit 222 may pass the form image data received by the input reception unit 221 to the form recognition unit 270.

本実施形態の帳票認識部270は、画像データ格納部271、ジョブリスト生成部272、画像データ取得部273、前処理部274、文字認識部275、定義特定部276、項目抽出部277、表示画面生成部278、出力部279を有する。 The form recognition unit 270 of the present embodiment includes an image data storage unit 271, a job list generation unit 272, an image data acquisition unit 273, a preprocessing unit 274, a character recognition unit 275, a definition identification unit 276, an item extraction unit 277, and a display screen. It has a generation unit 278 and an output unit 279.

画像データ格納部271は、画像形成装置300から帳票画像データを受信すると、帳票画像データベース230に格納する。 When the image data storage unit 271 receives the form image data from the image forming apparatus 300, the image data storage unit 271 stores the form image data in the form image database 230.

ジョブリスト生成部272は、入力受付部221が画像形成装置300から帳票画像データの入力を受け付けて、ジョブリストにジョブを登録し、ジョブリストを管理する。ジョブリストの詳細は後述する。 In the job list generation unit 272, the input reception unit 221 receives the input of the form image data from the image forming apparatus 300, registers the job in the job list, and manages the job list. The details of the job list will be described later.

画像データ取得部273は、帳票画像データベース230に格納された帳票画像データを取得する。前処理部274は、画像データ取得部273が取得した帳票画像データに対して、帳票認識を行うための前処理を行う。 The image data acquisition unit 273 acquires the form image data stored in the form image database 230. The pre-processing unit 274 performs pre-processing for performing form recognition on the form image data acquired by the image data acquisition unit 273.

文字認識部275は、帳票画像データから、文字列と、文字列が配置された位置を示す情報とを抽出し、読取結果データとして保持する。読取結果データの詳細は後述する。 The character recognition unit 275 extracts the character string and the information indicating the position where the character string is arranged from the form image data, and holds it as the reading result data. The details of the reading result data will be described later.

定義特定部276は、読取結果データに含まれる文字列に基づき、帳票認識の際に参照する明細定義情報を特定し、特定した明細定義情報を明細定義データベース250から取得する取得部である。 The definition specifying unit 276 is an acquisition unit that specifies the detailed definition information to be referred to at the time of form recognition based on the character string included in the reading result data, and acquires the specified detailed definition information from the detailed definition database 250.

項目抽出部277は、読取結果データに基づき、帳票画像データに含まれる項目と、項目の値とを抽出して対応付けを行った認識結果データを生成し、認識結果データベース260へ格納する。 Based on the reading result data, the item extraction unit 277 extracts the items included in the form image data and the values of the items, generates the recognition result data in which the items are associated with each other, and stores the recognition result data in the recognition result database 260.

このとき、本実施形態の項目抽出部277は、定義特定部276により特定された明細定義情報を参照し、帳票の明細部に記載された明細項目名と、明細項目の値とを対応付けて抽出する。 At this time, the item extraction unit 277 of the present embodiment refers to the detail definition information specified by the definition specification unit 276, and associates the detail item name described in the detail section of the form with the value of the detail item. Extract.

以下の説明では、帳票の明細部に記載された明細項目名と、明細項目の値とを対応付けた情報を明細情報と呼ぶ場合がある。本実施形態の明細情報は、認識結果データに含まれる情報であり、認識結果データの一部である。 In the following description, information in which the detail item name described in the detail section of the form and the value of the detail item are associated with each other may be referred to as detail information. The detailed information of the present embodiment is information included in the recognition result data and is a part of the recognition result data.

また、本実施形態の認識結果データは、帳票に記載された帳票の発行元を示す情報(発行元情報)等を含む。つまり、認識結果データには、帳票に記載された文字列が示す情報が含まれる。 In addition, the recognition result data of the present embodiment includes information (issuer information) indicating the issuer of the form described in the form. That is, the recognition result data includes the information indicated by the character string described in the form.

表示画面生成部278は、認識結果データベース260に格納された認識結果データを用いて、認識結果の確認画面を生成する。 The display screen generation unit 278 generates a recognition result confirmation screen using the recognition result data stored in the recognition result database 260.

出力部279は、表示画面生成部278が生成した認識結果の確認画面を出力する。言い換えれば、出力部279は、表示画面生成部278が生成した認識結果の確認画面を端末装置400のウェブブラウザ上で表示させる。 The output unit 279 outputs a confirmation screen of the recognition result generated by the display screen generation unit 278. In other words, the output unit 279 displays the recognition result confirmation screen generated by the display screen generation unit 278 on the web browser of the terminal device 400.

本実施形態の定義登録部290は、表示制御部291、定義生成部292、定義更新部293を有する。 The definition registration unit 290 of the present embodiment includes a display control unit 291, a definition generation unit 292, and a definition update unit 293.

表示制御部291は、個社明細定義情報を生成するための画面を端末装置400に表示させる。具体的には、表示制御部291は、画面を表示させるためのXML形式のファイルを生成し、端末装置400のウェブブラウザ上に入力画面を表示させる。 The display control unit 291 causes the terminal device 400 to display a screen for generating individual company detailed definition information. Specifically, the display control unit 291 generates an XML format file for displaying the screen, and displays the input screen on the web browser of the terminal device 400.

尚、本実施形態では、表示制御部291は、個社明細定義情報を生成するための画面を端末装置400に表示させるものとしたが、これに限定されない。表示制御部291が画面を表示させる装置は、サーバ装置200であっても良いし、端末装置400以外の装置あっても良く、表示機能を有する表示装置であれば良い。 In the present embodiment, the display control unit 291 displays a screen for generating individual company detail definition information on the terminal device 400, but the present invention is not limited to this. The device on which the display control unit 291 displays the screen may be a server device 200, a device other than the terminal device 400, or any display device having a display function.

定義生成部292は、入力画面に対して端末装置400から入力された情報に基づき、個社明細定義情報を生成して明細定義データベース250へ格納する。 The definition generation unit 292 generates individual company detail definition information based on the information input from the terminal device 400 to the input screen and stores it in the detail definition database 250.

定義更新部293は、既に明細定義データベース250に登録された個社明細定義情報に対する修正を反映させて、個社明細定義情報を更新する。 The definition update unit 293 updates the individual company detail definition information by reflecting the modification to the individual company detail definition information already registered in the detail definition database 250.

以下に、図9を参照して、本実施形態の帳票認識システム100の動作について説明する。図9は、帳票認識システムの動作を説明するシーケンス図である。 Hereinafter, the operation of the form recognition system 100 of the present embodiment will be described with reference to FIG. FIG. 9 is a sequence diagram illustrating the operation of the form recognition system.

帳票認識システム100において、画像形成装置300は、利用者から帳票認識を行うためのアプリケーションの起動要求を受け付けると(ステップS901)、このアプリケーションを起動させる(ステップS902)。 In the form recognition system 100, when the image forming apparatus 300 receives a request for starting an application for performing form recognition from a user (step S901), the image forming apparatus 300 starts this application (step S902).

続いて、画像形成装置300は、利用者から認証情報の入力を受け付けると(ステップS903)、この認証情報をサーバ装置200へ送信し、認証要求を行う(ステップS904)。 Subsequently, when the image forming apparatus 300 receives the input of the authentication information from the user (step S903), the image forming apparatus 300 transmits the authentication information to the server device 200 and makes an authentication request (step S904).

サーバ装置200は、認証要求を受けて、認証処理部222により認証を行い、その結果を画像形成装置300へ通知する(ステップS905)。尚、ここでは、利用者が認証された場合の動作を示している。 Upon receiving the authentication request, the server device 200 authenticates by the authentication processing unit 222, and notifies the image forming device 300 of the result (step S905). Here, the operation when the user is authenticated is shown.

続いて、画像形成装置300は、帳票のスキャン指示を受け付け(ステップS906)、帳票のスキャンを行い、帳票画像データを取得する(ステップS907)。続いて、画像形成装置300は、帳票画像データをサーバ装置200へ送信する(ステップS908)。 Subsequently, the image forming apparatus 300 receives the form scanning instruction (step S906), scans the form, and acquires the form image data (step S907). Subsequently, the image forming apparatus 300 transmits the form image data to the server apparatus 200 (step S908).

サーバ装置200は、入力受付部221が帳票画像データの入力を受け付けると、認証処理部222がこの帳票画像データを帳票認識部270へ渡す(ステップS909)。尚、図9の例では、認証処理部222を介して帳票画像データが帳票認識部270へ渡されるものとしたが、これに限定されない。帳票画像データは、認証処理部222を介さずに帳票認識部270に渡されても良い。 When the input receiving unit 221 receives the input of the form image data in the server device 200, the authentication processing unit 222 passes the form image data to the form recognition unit 270 (step S909). In the example of FIG. 9, the form image data is passed to the form recognition unit 270 via the authentication processing unit 222, but the present invention is not limited to this. The form image data may be passed to the form recognition unit 270 without going through the authentication processing unit 222.

サーバ装置200の帳票認識部270は、帳票画像データを受け取ると、ジョブリスト生成部272により、ジョブリストにジョブを登録する(ステップS910)。続いて、帳票認識部270は、画像データ格納部271により、帳票画像データを帳票画像データベース230へ格納する(ステップS911)。 When the form recognition unit 270 of the server device 200 receives the form image data, the job list generation unit 272 registers the job in the job list (step S910). Subsequently, the form recognition unit 270 stores the form image data in the form image database 230 by the image data storage unit 271 (step S911).

続いて、帳票認識部270は、画像データ取得部273により、帳票画像データベース230から認識する対象となる帳票画像データを取得し(ステップS912)、帳票画像を認識する処理を実行する(ステップS913)。ステップS912の処理の詳細は後述する。 Subsequently, the form recognition unit 270 acquires the form image data to be recognized from the form image database 230 by the image data acquisition unit 273 (step S912), and executes a process of recognizing the form image (step S913). .. Details of the process in step S912 will be described later.

続いて、帳票認識部270は、項目抽出部277が生成した認識結果データを認識結果データベース260に格納する(ステップS914)。 Subsequently, the form recognition unit 270 stores the recognition result data generated by the item extraction unit 277 in the recognition result database 260 (step S914).

帳票認識システム100において、端末装置400は、利用者からのブラウザの表示指示の入力を受け付けると(ステップS915)、サーバ装置200に対して認識結果データを表示させるブラウザの表示要求を行う(ステップS916)。 In the form recognition system 100, when the terminal device 400 receives the input of the browser display instruction from the user (step S915), the terminal device 400 makes a browser display request for displaying the recognition result data to the server device 200 (step S916). ).

また、端末装置400は、利用者から認証情報の入力を受け付けて(ステップS917)、この認証情報をサーバ装置200へ送信する(ステップS918)。 Further, the terminal device 400 receives the input of the authentication information from the user (step S917), and transmits the authentication information to the server device 200 (step S918).

サーバ装置200は、認証処理部222により、利用者の認証を行い(ステップS919)、その結果を端末装置400へ通知する(ステップS920)。尚、ここでは、利用者が認証された場合の処理を示す。 The server device 200 authenticates the user by the authentication processing unit 222 (step S919), and notifies the terminal device 400 of the result (step S920). Here, the processing when the user is authenticated is shown.

続いて、端末装置400は、利用者から、帳票画像の認識結果の閲覧指示の入力を受け付けると(ステップS921)、サーバ装置200に対して閲覧要求を行う(ステップS922)。 Subsequently, when the terminal device 400 receives the input of the viewing instruction of the recognition result of the form image from the user (step S921), the terminal device 400 makes a viewing request to the server device 200 (step S922).

サーバ装置200は、閲覧要求を受けて、認識結果データベース260に格納されている認識結果データを取得し(ステップS923)、認識結果の確認画面を生成して端末装置400のブラウザ上に表示させ(ステップS924)、利用者に、表示された認識結果の確認画面で認識結果を確認させる。 Upon receiving the browsing request, the server device 200 acquires the recognition result data stored in the recognition result database 260 (step S923), generates a recognition result confirmation screen, and displays it on the browser of the terminal device 400 (step S923). Step S924), the user is made to confirm the recognition result on the displayed recognition result confirmation screen.

続いて、端末装置400は、利用者から、個社明細定義情報の登録指示の入力を受け付けると(ステップS925)、個社明細定義情報の登録要求をサーバ装置200へ送信する(ステップS926)。 Subsequently, when the terminal device 400 receives the input of the registration instruction of the individual company detailed definition information from the user (step S925), the terminal device 400 transmits the registration request of the individual company detailed definition information to the server device 200 (step S926).

サーバ装置200は、この登録要求を受け付けると、定義登録部290の表示制御部291により、端末装置400に個社明細定義情報の登録画面を表示させる(ステップS927)。 When the server device 200 receives this registration request, the display control unit 291 of the definition registration unit 290 causes the terminal device 400 to display the registration screen of the individual company detail definition information (step S927).

続いて、端末装置400は、個社明細定義情報の入力を受け付けると(ステップS928)、入力された情報をサーバ装置200へ送信する(ステップS929)。サーバ装置200は、定義生成部292により、端末装置400から送信された情報に基づき、個社明細定義情報を生成し(ステップS930)、明細定義データベース250に格納して(ステップS931)、処理を終了する。尚、定義登録部290による処理の詳細は後述する。 Subsequently, when the terminal device 400 receives the input of the individual company detailed definition information (step S928), the terminal device 400 transmits the input information to the server device 200 (step S929). The server device 200 generates individual company detail definition information based on the information transmitted from the terminal device 400 by the definition generation unit 292 (step S930), stores it in the detail definition database 250 (step S931), and performs processing. finish. The details of the processing by the definition registration unit 290 will be described later.

ここで、図10を参照して、本実施形態のジョブリスト生成部272により生成されるジョブリストについて説明する。図10は、ジョブリストの一例を示す図である。 Here, the job list generated by the job list generation unit 272 of the present embodiment will be described with reference to FIG. FIG. 10 is a diagram showing an example of a job list.

本実施形態のサーバ装置200は、画像形成装置300から帳票画像データが入力されると、ジョブリスト生成部272により、帳票画像データとジョブIDとを対応付けたジョブリストとして保持する。 When the form image data is input from the image forming device 300, the server device 200 of the present embodiment holds the form image data and the job ID as a job list associated with each other by the job list generation unit 272.

本実施形態のジョブリスト101は、情報の項目として、ジョブID、利用者ID、帳票画像ファイルパス、認識結果ファイルパス、ステータスを有する。 The job list 101 of the present embodiment has a job ID, a user ID, a form image file path, a recognition result file path, and a status as information items.

項目「ジョブID」の値は、ジョブを特定する識別子である。言い換えれば、項目「ジョブID」の値は、画像形成装置300から受信した帳票画像データを特定するための識別子である。 The value of the item "job ID" is an identifier that identifies the job. In other words, the value of the item "job ID" is an identifier for identifying the form image data received from the image forming apparatus 300.

項目「利用者ID」の値は、帳票認識システム100にログインした利用者を特定するための識別子である。 The value of the item "user ID" is an identifier for identifying the user who has logged in to the form recognition system 100.

項目「画像ファイルパス」の値は、帳票画像データが格納されている場所を示す情報である。項目「認識結果ファイルパス」の値は、帳票画像を認識した結果の認識結果データが格納されている場所を示す情報である。 The value of the item "image file path" is information indicating the location where the form image data is stored. The value of the item "recognition result file path" is information indicating the location where the recognition result data of the result of recognizing the form image is stored.

項目「ステータス」の値は、帳票画像の認識の進捗を示す。言い換えれば、項目「ステータス」の値は、ジョブの状態を示す。 The value of the item "status" indicates the progress of recognition of the form image. In other words, the value of the item "status" indicates the status of the job.

本実施形態では、項目「ステータス」の値として、未処理状態、下書き保存状態、確定済み状態、外部出力済み状態の4つがある。各状態は、以下の通りである。 In the present embodiment, there are four values of the item "status": an unprocessed state, a draft save state, a confirmed state, and an external output completed state. Each state is as follows.

・未処理状態(状態1) 帳票認識によって認識結果データが取得された直後であり、認識結果の確認等が行われていない状態。 -Unprocessed state (state 1) A state in which recognition result data has not been confirmed immediately after the recognition result data has been acquired by form recognition.

・下書き保存状態(状態2) 認識結果データの確認等の作業の途中等であり、認識結果データが確定される前の状態。 -Draft save state (state 2) A state that is in the middle of work such as confirmation of recognition result data and before the recognition result data is confirmed.

・確定済み状態(状態3) 認識結果データの確認等の作業が完了し、確定された情報として認識結果データベース260へ格納された状態。
・外部出力済み状態(状態4) 帳票認識システム100と連携する会計システム等への認識結果データの出力が完了した状態。
-Confirmed state (state 3) A state in which work such as confirmation of recognition result data is completed and stored in the recognition result database 260 as confirmed information.
-External output completed state (state 4) A state in which the output of the recognition result data to the accounting system or the like linked with the form recognition system 100 is completed.

本実施形態のサーバ装置200は、画像形成装置300から帳票画像データを受信すると、ジョブリスト生成部272により、ジョブIDを付与し、認証情報として取得した利用者IDを対応付けて、ジョブリスト101にレコードを追加する。そして、ジョブリスト生成部272は、帳票画像データが帳票画像データベース230に格納されると、この格納先を示す情報を項目「画像ファイルパス」の値として、追加する。 When the server device 200 of the present embodiment receives the form image data from the image forming device 300, the job list generation unit 272 assigns a job ID and associates the user ID acquired as authentication information with the job list 101. Add a record to. Then, when the form image data is stored in the form image database 230, the job list generation unit 272 adds information indicating the storage destination as the value of the item "image file path".

さらに、ジョブリスト生成部272は、認識結果データが認識結果データベース260に格納されると、この格納先を示す情報を項目「認識結果ファイルパス」の値として追加し、項目「ステータス」の値を確定済み状態とする。 Further, when the recognition result data is stored in the recognition result database 260, the job list generation unit 272 adds the information indicating the storage destination as the value of the item "recognition result file path" and sets the value of the item "status". Make it a confirmed state.

本実施形態では、例えば、ジョブリスト生成部272によって生成されたジョブリストを表示しても良い。この場合、利用者は、ジョブリストに基づいて表示されたジョブリスト画面を介して、帳票画像の認識の進捗を確認することができる。 In the present embodiment, for example, the job list generated by the job list generation unit 272 may be displayed. In this case, the user can confirm the progress of recognition of the form image through the job list screen displayed based on the job list.

次に、図11を参照して、本実施形態の帳票認識部270の処理について説明する。図11は、帳票認識部の処理を説明する第一のフローチャートである。図11では、図9のステップS913の処理の詳細を示している。また、図11では、複数の帳票画像データを画像形成装置300から受け取った場合の処理を示している。 Next, the process of the form recognition unit 270 of the present embodiment will be described with reference to FIG. FIG. 11 is a first flowchart illustrating the processing of the form recognition unit. FIG. 11 shows the details of the process of step S913 of FIG. Further, FIG. 11 shows a process when a plurality of form image data are received from the image forming apparatus 300.

本実施形態の帳票認識部270は、ジョブリストから1つのジョブの選択を受け付けると(ステップS1101)、前処理部274により、画像データ取得部273が取得した帳票画像データに対して、帳票認識を行うための前処理を行う(ステップS1102)。前処理とは、具体的には、例えば、帳票画像の向きを揃える補正処理等である。 When the form recognition unit 270 of the present embodiment receives the selection of one job from the job list (step S1101), the preprocessing unit 274 performs form recognition for the form image data acquired by the image data acquisition unit 273. Preprocessing for this is performed (step S1102). Specifically, the pre-processing is, for example, a correction processing for aligning the orientation of the form image.

続いて、帳票認識部270は、文字認識部275により、帳票画像から、文字が形成されている領域(以下、文字フィールド)の中の文字を切り取り、文字認識する(ステップS1103)。このとき、文字認識部275は、切り出した文字の位置を示す座標も取得する。 Subsequently, the form recognition unit 270 cuts out the characters in the area where the characters are formed (hereinafter, the character field) from the form image by the character recognition unit 275, and recognizes the characters (step S1103). At this time, the character recognition unit 275 also acquires the coordinates indicating the position of the cut out character.

続いて、帳票認識部270は、文字認識部275により認識された各文字列の位置関係に基づいて読取結果データを生成して、保持する(ステップS1104)。具体的に、帳票認識部270は、認識された各文字の座標に基づいて、互いの距離が予め設定された閾値以内の文字を1つの文字列として認識し、文字列と、文字列が形成された領域の位置を示す座標などの情報とを対応付けて読取結果データを生成する。 Subsequently, the form recognition unit 270 generates and holds the reading result data based on the positional relationship of each character string recognized by the character recognition unit 275 (step S1104). Specifically, the form recognition unit 270 recognizes characters whose distances from each other are within a preset threshold based on the coordinates of each recognized character as one character string, and forms a character string and a character string. The reading result data is generated by associating with information such as coordinates indicating the position of the area.

続いて、帳票認識部270は、定義特定部276により、読取結果データに含まれる請求元を特定する情報(以下、請求元情報)と、業種判定データベース240とを参照し、請求元の業種を特定する(ステップS1105)。 Subsequently, the form recognition unit 270 refers to the information for specifying the billing source included in the reading result data (hereinafter, billing source information) and the industry determination database 240 by the definition specifying unit 276, and determines the industry of the billing source. Identify (step S1105).

続いて、帳票認識部270は、定義特定部276により、明細定義データベース250に、請求元情報と対応する個社明細定義情報251が存在するか否かを判定する(ステップS1106)。 Subsequently, the form recognition unit 270 determines whether or not the individual company detail definition information 251 corresponding to the billing source information exists in the detail definition database 250 by the definition identification unit 276 (step S1106).

ステップS1106において、個社明細定義情報251が存在する場合、帳票認識部270は、項目抽出部277により、個社明細定義情報251に基づき明細情報を抽出し(ステップS1107)、後述するステップS1111へ進む。ステップS1107の処理の詳細は後述する。 In step S1106, when the individual company detailed definition information 251 exists, the form recognition unit 270 extracts the detailed information based on the individual company detailed definition information 251 by the item extraction unit 277 (step S1107), and proceeds to step S1111 described later. move on. Details of the process in step S1107 will be described later.

ステップS1106において、個社明細定義情報251が存在しない場合、定義特定部276は、明細定義データベース250に、ステップS1105で特定された業種と対応する業種明細定義情報252が存在するか否かを判定する(ステップS1108)。 In step S1106, when the individual company detail definition information 251 does not exist, the definition specifying unit 276 determines whether or not the industry detail definition information 252 corresponding to the industry specified in step S1105 exists in the detail definition database 250. (Step S1108).

ステップS1107において、業種明細定義情報252が存在する場合、帳票認識部270は、項目抽出部277により、業種明細定義情報252に基づき明細情報を抽出し(ステップS1109)、後述するステップS1111へ進む。ステップS1109の処理の詳細は後述する。 In step S1107, when the industry detail definition information 252 exists, the form recognition unit 270 extracts the detail information based on the industry detail definition information 252 by the item extraction unit 277 (step S1109), and proceeds to step S1111 described later. Details of the process in step S1109 will be described later.

ステップS1108において、業種明細定義情報252が存在しない場合、帳票認識部270は、項目抽出部277により、汎用明細定義情報253に基づき明細情報を抽出し(ステップS1110)、後述するステップS1111へ進む。ステップS1110の処理の詳細は後述する。 In step S1108, when the industry detail definition information 252 does not exist, the form recognition unit 270 extracts the detail information based on the general-purpose detail definition information 253 by the item extraction unit 277 (step S1110), and proceeds to step S1111 described later. Details of the process in step S1110 will be described later.

帳票認識部270は、明細情報の抽出に成功したか否かを判定する(ステップS1111)。具体的には、帳票認識部270は、ステップS1107、ステップS1109、ステップS1110の何れかの処理で抽出された明細情報が存在するか否かを判定している。 The form recognition unit 270 determines whether or not the detailed information has been successfully extracted (step S1111). Specifically, the form recognition unit 270 determines whether or not the detailed information extracted by any of the processes of step S1107, step S1109, and step S1110 exists.

ステップS1111において、明細情報の抽出に失敗した場合、帳票認識部270は、端末装置400又は画像形成装置300に対してエラーを通知し(ステップS1112)、処理を終了する。 If the extraction of the detailed information fails in step S1111, the form recognition unit 270 notifies the terminal device 400 or the image forming device 300 of an error (step S1112), and ends the process.

ステップS1111において、明細情報の抽出に成功した場合、帳票認識部270は、項目抽出部277により、抽出された明細情報をマージした認識結果データを生成し、認識結果データベース260に格納する(ステップS1113)。 If the detail information is successfully extracted in step S1111, the form recognition unit 270 generates the recognition result data in which the extracted detail information is merged by the item extraction unit 277, and stores the recognition result data in the recognition result database 260 (step S1113). ).

続いて、帳票認識部270は、ジョブリスト生成部272により、認識結果データの格納先をジョブリスト101に登録する(ステップS1114)。 Subsequently, the form recognition unit 270 registers the storage destination of the recognition result data in the job list 101 by the job list generation unit 272 (step S1114).

続いて、帳票認識部270は、表示画面生成部278により、認識結果データを用いて生成された認識結果の確認画面を端末装置400に表示させ(ステップS1115)、処理を終了する。 Subsequently, the form recognition unit 270 causes the display screen generation unit 278 to display the recognition result confirmation screen generated using the recognition result data on the terminal device 400 (step S1115), and ends the process.

尚、図11の例では、認識結果データを表示させる処理までを一連の動作として説明したが、これに限定されない。帳票認識部270は、端末装置400から、認識結果データの閲覧要求を受け付けてから、認識結果データを表示させても良い。 In the example of FIG. 11, the process of displaying the recognition result data has been described as a series of operations, but the present invention is not limited to this. The form recognition unit 270 may display the recognition result data after receiving a viewing request for the recognition result data from the terminal device 400.

次に、図12と図13を参照して、本実施形態の項目抽出部277による明細情報の抽出について説明する。図12は、帳票認識部の処理を説明する第二のフローチャートである。図12は、図11のステップS1107の処理の詳細を示している。 Next, with reference to FIGS. 12 and 13, the extraction of detailed information by the item extraction unit 277 of the present embodiment will be described. FIG. 12 is a second flowchart illustrating the processing of the form recognition unit. FIG. 12 shows the details of the process of step S1107 of FIG.

本実施形態の帳票認識部270において、項目抽出部277は、読取結果データが保持されると、各文字の座標値を抽出する(ステップS1201)。続いて、項目抽出部277は抽出した各文字の座標からキーワード(文字列)を特定し、キーワードと対応する座標値を特定する(ステップS1202)。 In the form recognition unit 270 of the present embodiment, the item extraction unit 277 extracts the coordinate values of each character when the reading result data is held (step S1201). Subsequently, the item extraction unit 277 specifies a keyword (character string) from the coordinates of each extracted character, and specifies a coordinate value corresponding to the keyword (step S1202).

続いて、項目抽出部277は、特定したキーワードで、個社明細定義情報251に含まれる明細項目名を検索し(ステップS1203)、検索結果が存在するか否かを判定する(ステップS1204)。具体的には、項目抽出部277は、個社明細定義情報251に、特定したキーワードと一致する明細項目名が存在するか否かを判定している。 Subsequently, the item extraction unit 277 searches for the detail item name included in the individual company detail definition information 251 with the specified keyword (step S1203), and determines whether or not the search result exists (step S1204). Specifically, the item extraction unit 277 determines whether or not the detail item name that matches the specified keyword exists in the individual company detail definition information 251.

ステップS1204において、該当する明細項目名が存在しない場合、帳票認識部270は、処理を終了する。また、ステップS1204において、該当する明細項目名が存在する場合、特定したキーワードを明細部の明細項目名とし、特定したキーワードの下に縦方向な並ぶキーワードを明細項目名の項目値を抽出し(ステップS1205)、処理を終了する。 In step S1204, if the corresponding item item name does not exist, the form recognition unit 270 ends the process. Further, in step S1204, when the corresponding detail item name exists, the specified keyword is used as the detail item name of the detail part, and the item values of the detail item names are extracted from the keywords vertically arranged under the specified keyword ( Step S1205), the process is terminated.

尚、図11のステップS1109の処理は、図12のステップS1203において、参照する明細定義情報が業種明細定義情報252である点以外は、図12の処理と同様であるから、説明を省略する。 The process of step S1109 of FIG. 11 is the same as the process of FIG. 12 except that the detail definition information to be referred to in step S1203 of FIG. 12 is the industry detail definition information 252, and thus the description thereof will be omitted.

図13は、帳票認識部の処理を説明する第三のフローチャートである。図13は、図11のステップS1110の処理の詳細を示している。言い換えれば、図13は、請求元と対応する個社明細定義情報251も汎用明細定義情報253も存在しない場合に、汎用明細定義情報253を参照して明細情報を抽出する処理を示している。 FIG. 13 is a third flowchart illustrating the processing of the form recognition unit. FIG. 13 shows the details of the process of step S1110 of FIG. In other words, FIG. 13 shows a process of extracting detailed information by referring to the general-purpose detailed definition information 253 when neither the individual company detailed definition information 251 nor the general-purpose detailed definition information 253 corresponding to the billing source exists.

図13のステップS1301とステップS1302の処理は、図12のステップS1201とステップS1202の処理と同様であるから、説明を省略する。 Since the processes of steps S1301 and S1302 of FIG. 13 are the same as the processes of steps S1201 and S1202 of FIG. 12, the description thereof will be omitted.

項目抽出部277は、キーワードと座標値を特定すると、帳票画像データに表が存在するか否かを判定する(ステップS1303)。ステップS1303において、表が存在しない場合、項目抽出部277は、後述するステップS1310へ進む。 When the item extraction unit 277 specifies the keyword and the coordinate value, the item extraction unit 277 determines whether or not a table exists in the form image data (step S1303). If the table does not exist in step S1303, the item extraction unit 277 proceeds to step S1310, which will be described later.

ステップS1303において、表が存在する場合、項目抽出部277は、表の各セルの座標値を抽出する(ステップS1304)。尚、このとき、項目抽出部277は、各セルに、各セルを識別する識別情報(ID)を付与しても良い。また、識別情報は、例えば、表の列を特定する列ID及び表の行を特定する行IDとして付与されても良い。このように、列IDと行IDとを付与すれば、列IDと行IDとの組み合わせにより、セルを特定できる。 In step S1303, if the table exists, the item extraction unit 277 extracts the coordinate values of each cell of the table (step S1304). At this time, the item extraction unit 277 may give each cell identification information (ID) for identifying each cell. Further, the identification information may be given as, for example, a column ID for specifying a table column and a row ID for specifying a table row. By assigning the column ID and the row ID in this way, the cell can be specified by the combination of the column ID and the row ID.

続いて、項目抽出部277は、表の各セルに含まれるキーワードを特定し、セルの座標値と対応付けて保持する(ステップS1305)。 Subsequently, the item extraction unit 277 identifies a keyword included in each cell of the table and holds it in association with the coordinate value of the cell (step S1305).

続いて、項目抽出部277は、表の先頭行(一番上の行)の各セルに含まれるキーワードを特定する(ステップS1306)。続いて、項目抽出部277は、先頭行に各セルに含まれるキーワードで、汎用明細定義情報253を検索する(ステップS1307)。 Subsequently, the item extraction unit 277 identifies a keyword included in each cell in the first row (top row) of the table (step S1306). Subsequently, the item extraction unit 277 searches for the general-purpose detail definition information 253 with the keyword included in each cell in the first row (step S1307).

続いて、項目抽出部277は、汎用明細定義情報253に、先頭行に各セルに含まれるキーワードと一致する明細項目名が存在するか否かを判定する(ステップS1308)。ステップS1308において、先頭行に各セルに含まれるキーワードと一致する明細項目名が存在しない場合、項目抽出部277は、処理を終了する。 Subsequently, the item extraction unit 277 determines whether or not the general-purpose detail definition information 253 has a detail item name that matches the keyword included in each cell in the first row (step S1308). In step S1308, if there is no detail item name matching the keyword included in each cell in the first row, the item extraction unit 277 ends the process.

ステップS1308において、先頭行に各セルに含まれるキーワードと一致する明細項目名が存在する場合、項目抽出部277は、先頭行に各セルに含まれるキーワードを明細項目名とし、このキーワードを含む列に含まれるキーワードを、明細項目の項目値として抽出し(ステップS1309)、処理を終了する。 In step S1308, when a detail item name matching the keyword included in each cell exists in the first row, the item extraction unit 277 sets the keyword included in each cell in the first row as the detail item name, and the column including this keyword. The keyword included in is extracted as the item value of the detail item (step S1309), and the process is terminated.

ステップS1303において、表が存在しない場合、帳票認識部270は帳票画像における明細部の領域を特定する(ステップS1310)。具体的には、帳票認識部270は、例えば、キーワードが縦方向に並んでいる領域を、明細部の領域と特定しても良い。 In step S1303, when the table does not exist, the form recognition unit 270 specifies the area of the detail unit in the form image (step S1310). Specifically, the form recognition unit 270 may specify, for example, an area in which keywords are arranged in the vertical direction as an area of the detail unit.

続いて、帳票認識部270は、項目抽出部277により、明細部に特定された領域における一行目のキーワードを特定し、特定したキーワードの座標値と対応付けて保持する(ステップS1311)。特定された領域における一行目のキーワードとは、特定された領域なにおいて、一番上に位置するキーワードである。 Subsequently, the form recognition unit 270 identifies the keyword in the first line in the area specified in the detail unit by the item extraction unit 277, and holds it in association with the coordinate value of the specified keyword (step S1311). The keyword on the first line in the specified area is the keyword located at the top of the specified area.

続いて、項目抽出部277は、ステップS1311で特定したキーワードで、汎用明細定義情報253を検索する(ステップS1312)。続いて、項目抽出部277は、汎用明細定義情報253に、特定したキーワードと一致する明細項目名が存在するか否かを判定する(ステップS1313)。 Subsequently, the item extraction unit 277 searches for the general-purpose detail definition information 253 with the keyword specified in step S1311 (step S1312). Subsequently, the item extraction unit 277 determines whether or not the detail item name matching the specified keyword exists in the general-purpose detail definition information 253 (step S1313).

ステップS1313において、一致する明細項目名が存在しない場合、帳票認識部270は、処理を終了する。 If there is no matching item item name in step S1313, the form recognition unit 270 ends the process.

ステップS1313において、一致する明細項目名が存在する場合、項目抽出部277は、ステップS1311で特定したキーワードの座標値から、キーワードが外接する領域の幅を取得し、この幅において縦方向に並んでいるキーワードを明細項目の項目値として抽出し(ステップS1314)、処理を終了する。 In step S1313, when a matching item item name exists, the item extraction unit 277 acquires the width of the area where the keyword circumscribes from the coordinate value of the keyword specified in step S1311, and arranges them vertically in this width. The keyword is extracted as the item value of the detail item (step S1314), and the process is terminated.

尚、図13の例では、帳票画像に表が存在する場合には、セルの座標値を抽出するものとしたが、表の代わりに縦線を用いても良い。その場合、帳票認識部270は、帳票画像に縦線が存在するか否かを判定し、縦線が存在する場合には、縦線と縦線の間に位置するキーワードと、キーワードの座標を特定すれば良い。 In the example of FIG. 13, when a table exists in the form image, the coordinate values of the cells are extracted, but vertical lines may be used instead of the table. In that case, the form recognition unit 270 determines whether or not a vertical line exists in the form image, and if a vertical line exists, the keyword located between the vertical line and the coordinates of the keyword are determined. You just have to identify it.

そして、帳票認識部270は、縦線と縦線の間のキーワードのうち、一番上のキーワードと一致する明細項目名が汎用明細定義情報253に存在する場合には、この縦線と縦線の間にある2番目以降のキーワードを明細項目の値とすれば良い。 Then, when the detail item name matching the top keyword among the keywords between the vertical lines and the vertical lines exists in the general-purpose detail definition information 253, the form recognition unit 270 performs the vertical lines and the vertical lines. The second and subsequent keywords between and may be set as the value of the detail item.

以下に、図14と図15を参照して、帳票認識部270の処理についてさらに説明する。図14は、明細情報の抽出を説明する第一の図である。 Hereinafter, the processing of the form recognition unit 270 will be further described with reference to FIGS. 14 and 15. FIG. 14 is a first diagram illustrating the extraction of detailed information.

図14は、明細情報の抽出を説明する第一の図である。図14に示す請求書141には、請求元を特定する請求元情報141aと、明細項目毎に同じ形式のデータが縦方向に繰り返し印刷された明細部141bとが含まれる。図14(A)に示す請求書141は、請求元情報141aは、請求元の名称であり、明細部141bは、表形式で記載されている。 FIG. 14 is a first diagram illustrating the extraction of detailed information. The invoice 141 shown in FIG. 14 includes billing source information 141a for specifying the billing source, and detail unit 141b in which data in the same format is repeatedly printed in the vertical direction for each detail item. In the invoice 141 shown in FIG. 14 (A), the invoice source information 141a is the name of the invoice source, and the detail unit 141b is described in a table format.

本実施形態では、請求書141を画像形成装置300で読み取って帳票画像データとし、帳票画像データに対して帳票認識部270の処理を実行することで、認識結果データが生成される。 In the present embodiment, the invoice 141 is read by the image forming apparatus 300 to obtain the form image data, and the form recognition unit 270 processes the form image data to generate the recognition result data.

図15は、明細情報の抽出を説明する図である。図15(A)に示す情報151は、請求書141を示す帳票画像データに対し、文字認識部275による文字認識を行った結果である。 FIG. 15 is a diagram illustrating extraction of detailed information. The information 151 shown in FIG. 15A is the result of character recognition by the character recognition unit 275 on the form image data showing the invoice 141.

情報151は、請求書141のうち、明細部141bから文字フィールドを切り取り、文字フィールドの中の文字を認識した結果と、文字の位置を示す座標とから抽出した例を示す。 Information 151 shows an example of cutting out a character field from the detail unit 141b of the invoice 141, recognizing a character in the character field, and extracting from the coordinates indicating the position of the character.

本実施形態の文字認識部275は、この情報151から、隣り合う位置にある文字同士をつなげて文字列(文字列)を認識する。具体的には、文字認識部275は、文字と文字との間の距離が、所定ピクセル以内である文字の組み合わせを、1つ単語として認識しても良い。 From this information 151, the character recognition unit 275 of the present embodiment recognizes a character string (character string) by connecting characters at adjacent positions. Specifically, the character recognition unit 275 may recognize a combination of characters whose distance between characters is within a predetermined pixel as one word.

図15(A)示す情報152は、文字認識部275により認識された文字列と、文字列の領域とを示す情報であり、文字認識部275による帳票画像の読取結果データである。 The information 152 shown in FIG. 15A is information indicating the character string recognized by the character recognition unit 275 and the area of the character string, and is the reading result data of the form image by the character recognition unit 275.

また、文字認識部275は、帳票画像データから、縦線と横線で区切られた領域を1つのセルとして認識し、セル毎にセルを識別する識別情報(セルID)を付与する。 Further, the character recognition unit 275 recognizes the area separated by the vertical line and the horizontal line as one cell from the form image data, and adds identification information (cell ID) for identifying the cell for each cell.

図15(A)に示す情報153は、明細部141bから認識されたセル毎の領域とセルIDとの対応付けを示す情報である。 The information 153 shown in FIG. 15A is information indicating the correspondence between the area for each cell recognized from the detail unit 141b and the cell ID.

図15(A)では、例えば、キーワード「氏名」が認識された領域は、情報152において、X座標とY座標によって示される位置を基準として、高さと幅とから特定される。 In FIG. 15A, for example, the region in which the keyword “name” is recognized is specified from the height and the width with reference to the position indicated by the X coordinate and the Y coordinate in the information 152.

また、情報153において、キーワード「氏名」が認識された領域は、セルID「2」に含まれることがわかる。したがって、キーワード「氏名」は、明細部141bに含まれるキーワードして、セルID「2」と対応付けられる。尚、情報153では、キーワード「氏名」が認識された領域に対してセルIDを対応付けるものとしたが、これに限定されない。セルIDは、キーワードが縦方向に並ぶ列を特定する列IDと、キーワードが横方向に並ぶ行IDとによって特定されても良い。 Further, in the information 153, it can be seen that the area in which the keyword "name" is recognized is included in the cell ID "2". Therefore, the keyword "name" is associated with the cell ID "2" as a keyword included in the detail unit 141b. In the information 153, the cell ID is associated with the area in which the keyword "name" is recognized, but the present invention is not limited to this. The cell ID may be specified by a column ID that specifies a column in which keywords are arranged in the vertical direction and a row ID in which keywords are arranged in the horizontal direction.

本実施形態の帳票認識部270は、このようにして、帳票画像データから、キーワードとセルとを対応付ける。 In this way, the form recognition unit 270 of the present embodiment associates the keyword with the cell from the form image data.

図15(B)に示す情報154は、請求書141と対応する読取結果データに基づき生成された、明細部141bの明細情報である。したがって、図15(B)に示す明細情報154は、帳票画像データ全体の認識結果データの一部である。 The information 154 shown in FIG. 15B is detailed information of the detail unit 141b generated based on the reading result data corresponding to the invoice 141. Therefore, the detailed information 154 shown in FIG. 15B is a part of the recognition result data of the entire form image data.

図15(B)に示す明細情報154は、項目抽出部277によって生成されるものであり、情報の項目として、列ID、項目名、列の座標、行ID、項目値、明細項目指定とを有する。 The detailed information 154 shown in FIG. 15B is generated by the item extraction unit 277, and includes column ID, item name, column coordinates, row ID, item value, and detailed item designation as information items. Have.

項目「列ID」の値は、明細部141b(表)に含まれる列を特定する識別情報であり、項目「明細項目名」の値は、表の一番上の行の各セル内のキーワードである。項目「列の座標」の値は、列の座標を示す。尚、本実施形態では、列の座標を、帳票画像における明細の列の左上の点の座標値と右下の点の座標値とをする。 The value of the item "column ID" is the identification information for identifying the column included in the detail unit 141b (table), and the value of the item "detail item name" is the keyword in each cell in the top row of the table. Is. The value of the item "column coordinates" indicates the coordinates of the column. In the present embodiment, the coordinates of the column are the coordinate values of the upper left point and the lower right point of the detail column in the form image.

項目「行ID」の値は、行を特定する識別情報であり、項目「項目値」の値は、明細項目と対応する項目値を示す。 The value of the item "row ID" is the identification information for identifying the row, and the value of the item "item value" indicates the item value corresponding to the detail item.

項目「明細項目指定」の値は、対応する項目名と、項目名の位置を示す座標とを、個社明細定義情報251に登録するか否かを示す。項目名の位置を示す座標とは、例えば、列の座標と行IDとの組み合わせ等によって示される。 The value of the item "detailed item designation" indicates whether or not the corresponding item name and the coordinates indicating the position of the item name are registered in the individual company detailed definition information 251. The coordinates indicating the position of the item name are indicated by, for example, a combination of the column coordinates and the row ID.

明細情報154では、項目名の値である「氏名」に項目「明細項目指定」の値である「商品名」が対応付けられている。また、「氏名」の位置を示す座標を、列の座標としたとする。 In the detailed information 154, the "name" which is the value of the item name is associated with the "product name" which is the value of the item "specified item". Further, it is assumed that the coordinates indicating the position of the "name" are the coordinates of the column.

この場合、「氏名」と「氏名」の列の座標とは、個社明細定義情報251に、項目「明細項目名」の値である「商品名」のと対応する項目「抽出情報」の値として、登録される。 In this case, the coordinates of the columns of "name" and "name" are the values of the item "extracted information" corresponding to the value of the item "detailed item name" in the individual company detail definition information 251. Is registered as.

尚、図15(B)の明細情報154の例では、情報の項目として、列の座標、列ID、行IDを含むものとしたが、これに限定されない。明細情報154は、情報の項目として、路委細項目名と、項目値とが含まれていれば良く、それ以外の項目は、明細情報154に含まれなくても良い。 In the example of the detailed information 154 of FIG. 15B, the items of the information include the column coordinates, the column ID, and the row ID, but the information is not limited to this. The detailed information 154 may include a road detailed item name and an item value as information items, and other items may not be included in the detailed information 154.

また、本実施形態では、認識結果の確認画面に明細情報154を表示させる場合には、明細項目名と項目値のみを表示させれば良い。 Further, in the present embodiment, when displaying the detailed information 154 on the recognition result confirmation screen, it is sufficient to display only the detailed item name and the item value.

以下に、項目抽出部277による明細情報154の生成について具体的に説明する。 The generation of the detailed information 154 by the item extraction unit 277 will be specifically described below.

始めに、項目抽出部277が個社明細定義情報251を参照して、明細情報154を生成した場合を説明する。以下の説明は、図12の処理を具体的に示している。 First, a case where the item extraction unit 277 generates the detailed information 154 with reference to the individual company detailed definition information 251 will be described. The following description specifically illustrates the process of FIG.

この場合、項目抽出部277は、例えば、情報153においてキーワード「氏名」とキーワード座標値が特定されると、キーワード「氏名」で、個社明細定義情報251を検索する。 In this case, for example, when the keyword "name" and the keyword coordinate value are specified in the information 153, the item extraction unit 277 searches for the individual company detail definition information 251 by the keyword "name".

ここで、個社明細定義情報251には、キーワード「氏名」が存在するため(図7参照)、項目抽出部277は、キーワード「氏名」を明細項目名として抽出する。また、項目抽出部277は、キーワード「氏名」のキーワード座標値から求められるキーワード「氏名」の下に並ぶキーワードを明細項目の項目値として抽出する。 Here, since the keyword "name" exists in the individual company detail definition information 251 (see FIG. 7), the item extraction unit 277 extracts the keyword "name" as the detail item name. Further, the item extraction unit 277 extracts the keywords arranged under the keyword "name" obtained from the keyword coordinate values of the keyword "name" as the item values of the detailed items.

このとき、項目抽出部277は、キーワード「氏名」の位置を示す座標(列ID、列の座標)を抽出し、明細項目名であるキーワード「氏名」と対応付ける。また、項目抽出部277は、項目値として抽出されたキーワード(例えば、「A」)と、このキーワード(項目値)の位置を示す座標(列ID、行ID)を対応付ける。 At this time, the item extraction unit 277 extracts coordinates (column ID, column coordinates) indicating the position of the keyword “name” and associates them with the keyword “name” which is a detailed item name. Further, the item extraction unit 277 associates the keyword extracted as the item value (for example, "A") with the coordinates (column ID, row ID) indicating the position of the keyword (item value).

次に、項目抽出部277が業種明細定義情報252を参照して、明細情報154を生成した場合を説明する。 Next, a case where the item extraction unit 277 generates the detailed information 154 with reference to the industry detailed definition information 252 will be described.

この場合も、項目抽出部277は、例えば、情報153においてキーワード「氏名」とキーワード座標値が特定されると、キーワード「氏名」で、個社明細定義情報251を検索する。また、業種明細定義情報252には、キーワード「氏名」が存在するため(図6参照)、項目抽出部277は、キーワード「氏名」を明細項目名として抽出する。また、項目抽出部277は、キーワード「氏名」のキーワード座標値から求められるキーワード「氏名」の下に並ぶキーワードを明細項目の項目値として抽出する。 Also in this case, for example, when the keyword "name" and the keyword coordinate value are specified in the information 153, the item extraction unit 277 searches for the individual company detail definition information 251 by the keyword "name". Further, since the keyword "name" exists in the industry detail definition information 252 (see FIG. 6), the item extraction unit 277 extracts the keyword "name" as the detail item name. Further, the item extraction unit 277 extracts the keywords arranged under the keyword "name" obtained from the keyword coordinate values of the keyword "name" as the item values of the detailed items.

ここでも、項目抽出部277は、明細項目名であるキーワード「氏名」と、キーワード「氏名」の位置を示す座標とを対応付ける。また、項目抽出部277は、項目値として抽出されたキーワードと、このキーワード(項目値)の位置を示す座標を対応付ける。 Here, too, the item extraction unit 277 associates the keyword “name”, which is the detailed item name, with the coordinates indicating the position of the keyword “name”. Further, the item extraction unit 277 associates the keyword extracted as the item value with the coordinates indicating the position of the keyword (item value).

次に、項目抽出部277が汎用明細定義情報253を参照して、明細情報154を生成した場合を説明する。以下の説明は、図13の処理を具体的に示している。 Next, a case where the item extraction unit 277 generates the detail information 154 with reference to the general-purpose detail definition information 253 will be described. The following description specifically illustrates the process of FIG.

この場合、項目抽出部277は、例えば、情報153においてキーワード「氏名」とキーワード座標値が特定されると、明細部141bに表が存在するか否かを判定する。ここでは、明細部141bは、図14に示すように、表形式としているため、表が存在することとなる。 In this case, for example, when the keyword "name" and the keyword coordinate value are specified in the information 153, the item extraction unit 277 determines whether or not a table exists in the detail unit 141b. Here, as shown in FIG. 14, the detail unit 141b has a table format, so that a table exists.

したがって、項目抽出部277は、情報153のうち、明細部141bを示す表に含まれる各セルの座標値を抽出し、各セルの座標値と、セル内のキーワードとを対応付けて保持する。 Therefore, the item extraction unit 277 extracts the coordinate values of each cell included in the table showing the detail unit 141b from the information 153, and holds the coordinate values of each cell in association with the keywords in the cells.

図15の例では、セルID「2」の座標値とキーワード「氏名」、セルID「7」の座標値とキーワード「最終金額」というように、対応付けて保持する。 In the example of FIG. 15, the coordinate value of the cell ID “2” and the keyword “name”, the coordinate value of the cell ID “7” and the keyword “final amount” are stored in association with each other.

次に、項目抽出部277は、表の一番上の行に含まれるキーワードを特定する。ここでは、キーワード「氏名」、「最終金額」が一番上の行に含まれるキーワードとして特定される。 Next, the item extraction unit 277 identifies the keywords included in the top row of the table. Here, the keywords "name" and "final amount" are specified as keywords included in the top line.

次に、項目抽出部277は、特定したキーワードで、汎用明細定義情報253を検索する。ここで、キーワード「氏名」は、汎用明細定義情報253に存在しない(図7参照)。したがって、項目抽出部277は、キーワード「氏名」に対しては、項目値を抽出しない。 Next, the item extraction unit 277 searches for the general-purpose detail definition information 253 with the specified keyword. Here, the keyword "name" does not exist in the general-purpose detail definition information 253 (see FIG. 7). Therefore, the item extraction unit 277 does not extract the item value for the keyword "name".

また、キーワード「最終金額」は、汎用明細定義情報253に存在する(図7参照)。したがって、項目抽出部277は、キーワード「最終金額」を明細項目名として抽出する。また、項目抽出部277は、キーワード「最終金額」キーワード座標値から求められるキーワード「最終金額」の下に並ぶキーワードを明細項目の項目値として抽出する。 Further, the keyword "final amount" exists in the general-purpose detail definition information 253 (see FIG. 7). Therefore, the item extraction unit 277 extracts the keyword "final amount" as the detail item name. Further, the item extraction unit 277 extracts the keywords arranged under the keyword "final amount" obtained from the keyword "final amount" keyword coordinate value as the item value of the detail item.

このとき、項目抽出部277は、キーワード「最終金額」の位置を示す座標(列ID、列の座標)を抽出し、明細項目名であるキーワード「最終金額」と対応付ける。また、項目抽出部277は、項目値として抽出されたキーワード(例えば、「300,000」)と、このキーワード(項目値)の位置を示す座標(列ID、行ID)を対応付ける。 At this time, the item extraction unit 277 extracts the coordinates (column ID, column coordinates) indicating the position of the keyword "final amount" and associates them with the keyword "final amount" which is the detailed item name. Further, the item extraction unit 277 associates the keyword extracted as the item value (for example, "300,000") with the coordinates (column ID, row ID) indicating the position of the keyword (item value).

このように、本実施形態では、始めに個社明細定義情報251を参照して、明細部141bから明細項目名を抽出する。したがって、本実施形態によれば、請求元毎に独自で用いる明細項目名と項目値とを対応付けて抽出することができる。言い換えれば、本実施形態によれば、個社明細定義情報251を参照して、帳票の明細部から明細情報を抽出することができる。 As described above, in the present embodiment, the detail item name is first extracted from the detail unit 141b with reference to the individual company detail definition information 251. Therefore, according to the present embodiment, it is possible to extract the item name and the item value, which are uniquely used for each billing source, in association with each other. In other words, according to the present embodiment, the detailed information can be extracted from the detailed portion of the form by referring to the individual company detailed definition information 251.

また、本実施形態では、個社明細定義情報251が存在しない場合には、請求元の業種と対応した業種明細定義情報252を参照して、明細項目名と項目値を抽出する。したがって、本実施形態によれば、個社明細定義情報251が存在しない場合でも、請求元の業種特有の明細項目類と項目値を対応付けて抽出することができる。言い換えれば、本実施形態によれば、業種明細定義情報252を参照して、帳票の明細部から明細情報を抽出することができる。 Further, in the present embodiment, when the individual company detail definition information 251 does not exist, the detail item name and the item value are extracted by referring to the industry detail definition information 252 corresponding to the industry of the billing source. Therefore, according to the present embodiment, even when the individual company detail definition information 251 does not exist, the detail items specific to the industry of the billing source and the item values can be extracted in association with each other. In other words, according to the present embodiment, the detailed information can be extracted from the detailed portion of the form with reference to the industry detailed definition information 252.

また、本実施形態では、個社明細定義情報251と業種明細定義情報252とが存在しない場合には、汎用明細定義情報253を参照する。そして、本実施形態では、汎用明細定義情報253に、明細部141bに記載された明細項目名が存在しない場合には、新たに抽出すべき明細項目名と、帳票画像において明細項目名が記載された位置を示す情報とを、個社明細定義情報251として登録することができる。 Further, in the present embodiment, when the individual company detail definition information 251 and the industry detail definition information 252 do not exist, the general-purpose detail definition information 253 is referred to. Then, in the present embodiment, when the detail item name described in the detail unit 141b does not exist in the general-purpose detail definition information 253, the detail item name to be newly extracted and the detail item name in the form image are described. The information indicating the position can be registered as the individual company detailed definition information 251.

以下に、図16と図17を参照して、定義登録部290による個社明細定義情報251の登録について説明する。 The registration of the individual company detailed definition information 251 by the definition registration unit 290 will be described below with reference to FIGS. 16 and 17.

図16は、定義登録部の処理を説明する第一のフローチャートである。図16では、図9のステップS924からステップS931までの処理の詳細を示している。 FIG. 16 is a first flowchart illustrating the processing of the definition registration unit. FIG. 16 shows the details of the processes from step S924 to step S931 of FIG.

本実施形態のサーバ装置200は、帳票認識部270による帳票の認識結果の確認画面において、端末装置400から、認識結果の登録要求を受け付けたか否かを判定する(ステップS1601)。具体的には、サーバ装置200は、認識結果データベース260に対する、確認画面に表示された認識結果データの格納が指示されたか否かを判定している。 The server device 200 of the present embodiment determines whether or not a registration request for the recognition result has been received from the terminal device 400 on the form recognition result confirmation screen by the form recognition unit 270 (step S1601). Specifically, the server device 200 determines whether or not the recognition result database 260 is instructed to store the recognition result data displayed on the confirmation screen.

ステップS1601において、認識結果の登録要求を受け付けていない場合、サーバ装置200は、後述するステップS1605へ進む。 If the recognition result registration request is not accepted in step S1601, the server device 200 proceeds to step S1605, which will be described later.

ステップS1601において、認識結果の登録要求を受け付けた場合、サーバ装置200は、確認画面上で、認識結果データが修正されたか否かを判定する(ステップS1602)。尚、本実施形態における認識結果データの修正とは、主に明細部の認識結果データに対する修正を示す。 When the recognition result registration request is received in step S1601, the server device 200 determines on the confirmation screen whether or not the recognition result data has been corrected (step S1602). The modification of the recognition result data in the present embodiment mainly means the modification of the recognition result data of the detailed part.

ステップS1602において、認識結果データが修正されていない場合、サーバ装置200は、処理を終了する。 If the recognition result data has not been modified in step S1602, the server device 200 ends the process.

ステップS1602において、認識結果データが修正されていた場合、定義登録部290は、定義生成部292により、帳票画像データの認識において、個社明細定義情報251が用いられたか否かを判定する(ステップS1603)。具体的には、定義生成部292は、請求元と対応付けられた個社明細定義情報251が存在するか否かを判定している。 When the recognition result data is modified in step S1602, the definition registration unit 290 determines whether or not the individual company detail definition information 251 is used in the recognition of the form image data by the definition generation unit 292 (step). S1603). Specifically, the definition generation unit 292 determines whether or not the individual company detail definition information 251 associated with the billing source exists.

ステップS1603において、個社明細定義情報251が用いられていない場合、定義登録部290は、後述するステップS1606へ進む。 If the individual company detail definition information 251 is not used in step S1603, the definition registration unit 290 proceeds to step S1606, which will be described later.

ステップS1603において、個社明細定義情報251が用いられていた場合、定義更新部293は、明細定義データベース250に格納されたこの個社明細定義情報251を更新し(ステップS1604)、処理を終了する。 When the individual company detail definition information 251 is used in step S1603, the definition update unit 293 updates the individual company detail definition information 251 stored in the detail definition database 250 (step S1604), and ends the process. ..

ステップS1601において、認識結果データの登録要求を受け付けない場合、サーバ装置200は、端末装置400から、帳票定義(個社明細定義情報251)の登録要求を受け付けたか否かを判定する(ステップS1605)。 When the registration request for the recognition result data is not accepted in step S1601, the server device 200 determines whether or not the registration request for the form definition (individual company detail definition information 251) has been accepted from the terminal device 400 (step S1605). ..

ステップS1605において、帳票定義の登録要求を受け付けていない場合、サーバ装置200は、ステップS1601へ戻る。 If the registration request for the form definition is not accepted in step S1605, the server device 200 returns to step S1601.

ステップS1605において、帳票定義の登録要求を受け付けた場合、定義登録部290は、定義生成部292により、個社明細定義情報251を生成する(ステップS1606)。ステップS1606の処理の詳細は後述する。 When the registration request for the form definition is received in step S1605, the definition registration unit 290 generates the individual company detail definition information 251 by the definition generation unit 292 (step S1606). Details of the process in step S1606 will be described later.

続いて、サーバ装置200は、端末装置400から、請求元情報の入力を受け付ける(ステップS1607)。続いて、定義生成部292は、入力された請求元情報と、個社明細定義情報251とを対応付けて、明細定義データベース250に登録(格納)して(ステップS1608)、処理を終了する。 Subsequently, the server device 200 receives the input of the billing source information from the terminal device 400 (step S1607). Subsequently, the definition generation unit 292 associates the input billing source information with the individual company detail definition information 251 and registers (stores) it in the detail definition database 250 (step S1608), and ends the process.

以下に、図17を参照して、定義生成部292による個社明細定義情報251の生成について説明する。図17は、定義登録部の処理を説明する第二のフローチャートである。図17では、図16のステップS1606の処理の詳細を示している。 Hereinafter, the generation of the individual company detailed definition information 251 by the definition generation unit 292 will be described with reference to FIG. FIG. 17 is a second flowchart illustrating the processing of the definition registration unit. FIG. 17 shows the details of the process of step S1606 of FIG.

本実施形態の定義登録部290において、定義生成部292は、確認画面において、明細情報の表示欄に表示された明細項目名の選択を受け付ける(ステップS1701)。 In the definition registration unit 290 of the present embodiment, the definition generation unit 292 accepts the selection of the detail item name displayed in the detail information display field on the confirmation screen (step S1701).

続いて、定義登録部290は、表示制御部291により、確認画面に表示されている帳票画像において、明細情報の項目に該当する領域をハイライト等で表示させる(ステップS1702)。 Subsequently, the definition registration unit 290 causes the display control unit 291 to display the area corresponding to the item of the detailed information by highlighting or the like in the form image displayed on the confirmation screen (step S1702).

続いて、定義登録部290は、帳票画像上で、項目の選択を受け付けると(ステップS1703)、表示制御部291により、帳票画像上に、選択された項目の値としてキーワードが抽出される領域を示す画像を表示させる(ステップS1704)。 Subsequently, when the definition registration unit 290 accepts the selection of an item on the form image (step S1703), the display control unit 291 sets an area on the form image in which the keyword is extracted as the value of the selected item. The image to be shown is displayed (step S1704).

続いて、定義登録部290は、帳票画像上で列の選択を受け付けると(ステップS1705)、定義生成部292により、ステップS1703で選択された項目の項目名と、選択された列の座標とを取得し、確認画面の明細情報の表示欄において選択された明細項目名と対応付ける(ステップS1706)。 Subsequently, when the definition registration unit 290 accepts the column selection on the form image (step S1705), the definition generation unit 292 selects the item name of the item selected in step S1703 and the coordinates of the selected column. It is acquired and associated with the detail item name selected in the detail information display field of the confirmation screen (step S1706).

つまり、ここでは、明細情報の表示欄に表示された明細項目名とは、個社明細定義情報251における項目「明細項目名」の値である。また、ステップS1703で選択された項目の項目名と、選択された列の座標とは、個社明細定義情報251における項目「抽出情報」の値である。したがって、定義生成部292は、ステップS1706において、個社明細定義情報251の項目「明細項目名」の値と、項目「抽出情報」の値とを取得している。 That is, here, the detail item name displayed in the detail information display column is the value of the item "detail item name" in the individual company detail definition information 251. Further, the item name of the item selected in step S1703 and the coordinates of the selected column are the values of the item "extracted information" in the individual company detailed definition information 251. Therefore, in step S1706, the definition generation unit 292 has acquired the value of the item "detailed item name" of the individual company detailed definition information 251 and the value of the item "extracted information".

続いて、定義登録部290は、表示制御部291により、ステップS1705で選択された列の項目値を、確認画面の明細情報の表示欄に反映させ(ステップS1707)、処理を終了する。 Subsequently, the definition registration unit 290 reflects the item value of the column selected in step S1705 in the display column of the detailed information on the confirmation screen by the display control unit 291 (step S1707), and ends the process.

以下に、図18乃至図22を参照して、認識結果の確認画面の表示例について説明する。図18は、表示例を示す第一の図である。図18に示す画面181は、例えば、図9のステップS924で端末装置400に表示される認識結果の確認画面の一例である。 A display example of the recognition result confirmation screen will be described below with reference to FIGS. 18 to 22. FIG. 18 is a first diagram showing a display example. The screen 181 shown in FIG. 18 is an example of a recognition result confirmation screen displayed on the terminal device 400 in step S924 of FIG. 9, for example.

画面181は、表示欄182、表示欄183と、操作ボタン190、191とを含む。表示欄182には、帳票画像データが示す帳票画像が表示される。図18の例では、帳票が請求書であり、帳票画像に明細部(表)を示す領域184が含まれる。 The screen 181 includes a display field 182, a display field 183, and operation buttons 190 and 191. In the display field 182, the form image indicated by the form image data is displayed. In the example of FIG. 18, the form is an invoice, and the form image includes an area 184 showing a detail portion (table).

表示欄183は、表示欄182に表示された帳票画像を示す帳票画像データに対して帳票認識部270による帳票認識を行った結果の認識結果データが表示される。 In the display field 183, the recognition result data as a result of performing the form recognition by the form recognition unit 270 on the form image data indicating the form image displayed in the display field 182 is displayed.

表示欄183は、表示欄185、186、187、188を含む。表示欄185は、ジョブリスト101の項目「ステータス」の値が表示される。表示欄186は、請求元情報が表示される。請求元情報は、認識結果データの一部である。 The display field 183 includes display fields 185, 186, 187, and 188. In the display field 185, the value of the item "status" of the job list 101 is displayed. In the display field 186, billing source information is displayed. The billing source information is a part of the recognition result data.

表示欄187は、明細情報に含まれる明細項目名の一覧が表示される。尚、図18の例では、帳票画像データから認識結果データを生成する際に個社明細定義情報251が参照されておらず、帳票画像データから明細情報が抽出されていない。このため、表示欄187には、汎用明細定義情報253で定義された一般的な明細項目名が表示されている。 In the display field 187, a list of detail item names included in the detail information is displayed. In the example of FIG. 18, when the recognition result data is generated from the form image data, the individual company detail definition information 251 is not referred to, and the detail information is not extracted from the form image data. Therefore, in the display field 187, a general detail item name defined in the general-purpose detail definition information 253 is displayed.

尚、表示欄183に表示される認識結果データが、個社明細定義情報251を参照して生成された場合には、表示欄187には、個社明細定義情報251に定義された明細項目名が表示される。また、表示欄183に表示される認識結果データが、業種明細定義情報252を参照して生成された場合には、表示欄187には、業種明細定義情報252に定義された明細項目名が表示される。 When the recognition result data displayed in the display column 183 is generated with reference to the individual company detailed definition information 251, the detailed item name defined in the individual company detailed definition information 251 is displayed in the display column 187. Is displayed. When the recognition result data displayed in the display field 183 is generated with reference to the industry detail definition information 252, the detail item name defined in the industry detail definition information 252 is displayed in the display field 187. Will be done.

表示欄188は、明細情報が表示される。具体的には、表示欄188は、表示欄187に表示された明細項目毎に、項目値を表示させる表示欄を含む。具体的には、表示欄188には、明細項目「商品名」の項目値が表示される欄、明細項目「金額」の項目値が表示される欄、明細項目「備考」の項目値が表示される欄等が含まれる。 Detailed information is displayed in the display field 188. Specifically, the display field 188 includes a display field for displaying the item value for each detail item displayed in the display field 187. Specifically, in the display column 188, a column in which the item value of the detailed item "product name" is displayed, a column in which the item value of the detailed item "amount" is displayed, and an item value of the detailed item "remarks" are displayed. Columns to be used are included.

画面181では、表示欄188に含まれる各欄には、初期状態として、対応する明細項目名が表示される。具体的には、表示欄188において、明細項目「商品名」の項目値が表示される欄には、明細項目名である「商品名」が初期設定として表示される。 On the screen 181 and each column included in the display column 188, the corresponding item name is displayed as an initial state. Specifically, in the display field 188, in the field where the item value of the detail item "product name" is displayed, the detail item name "product name" is displayed as an initial setting.

また、図18の例では、帳票認識により明細部を示す領域184に4行の表が存在することが判明しているため、表示欄188には、3行分の項目値の表示欄が表示されている。 Further, in the example of FIG. 18, since it is found by the form recognition that the table of 4 rows exists in the area 184 showing the detail part, the display column 188 displays the display column of the item values for 3 rows. Has been done.

定義登録部290は、例えば、画面181の表示欄187において、明細項目「商品名」が選択されると、表示欄182に表示された帳票画像において、明細部を示す領域184内の表の先頭の行(一番上の行)192がハイライトされる。 For example, when the detail item "product name" is selected in the display field 187 of the screen 181, the definition registration unit 290 heads the table in the area 184 indicating the detail part in the form image displayed in the display field 182. Line (top line) 192 is highlighted.

本実施形態では、このように、領域184内の表の先頭の行192をハイライトすることで、帳票画像において、明細部における明細項目が記載されていると想定される領域を、利用者に提示することができる。尚、先頭の行192の表示態様は、ハイライトに限定されない。本実施形態では、表示欄187において項目の選択を受け付けて、行192の表示態様を、領域184内の表の他の行の表示態様と異ならせれば良い。 In the present embodiment, by highlighting the first row 192 of the table in the area 184 in this way, in the form image, the area where the detailed items in the detailed part are assumed to be described is provided to the user. Can be presented. The display mode of the first line 192 is not limited to highlights. In the present embodiment, the selection of the item may be accepted in the display field 187, and the display mode of the row 192 may be different from the display mode of the other rows of the table in the area 184.

本実施形態では、先頭の行192において、項目の選択を受け付けると、項目と対応する項目値を示す領域にマーカが表示される。 In the present embodiment, when the item selection is accepted in the first line 192, a marker is displayed in the area indicating the item value corresponding to the item.

操作ボタン190は、ジョブリスト101のステータスの値を、未処理状態から下書き保存状態とするための操作ボタンである。操作ボタン190が操作されると、表示欄185は、「未処理」から「下書き保存」に変化する。 The operation button 190 is an operation button for changing the status value of the job list 101 from the unprocessed state to the draft save state. When the operation button 190 is operated, the display field 185 changes from "unprocessed" to "save draft".

操作ボタン191は、ジョブリスト101のステータスの値を、確定状態とするための操作ボタンである。本実施形態では、表示欄188に表示された明細情報が変更された場合には、操作ボタン191が操作された際に、請求元情報を入力するための画面が表示される。 The operation button 191 is an operation button for setting the status value of the job list 101 to a fixed state. In the present embodiment, when the detailed information displayed in the display field 188 is changed, a screen for inputting the billing source information is displayed when the operation button 191 is operated.

図19は、表示例を示す第一の図である。図19に示す画面181Aは、図18に示す画面181において、領域184内の先頭の行192から、キーワード「氏名」が選択された場合を示している。 FIG. 19 is a first diagram showing a display example. The screen 181A shown in FIG. 19 shows a case where the keyword “name” is selected from the first line 192 in the area 184 on the screen 181 shown in FIG.

画面181Aでは、領域184内の表において、キーワード「氏名」の下に縦方向に並んだ3つセルを含む領域193にマークが付されている。これは、領域193が、キーワード「氏名」の項目値を抽出する対象の領域であることを示している。 On the screen 181A, in the table in the area 184, the area 193 including the three cells arranged vertically under the keyword "name" is marked. This indicates that the area 193 is a target area for extracting the item value of the keyword “name”.

図20は、表示例を示す第三の図である。図20に示す画面181Bは、領域184内の表において、キーワード「氏名」の列195が選択された場合を示している。 FIG. 20 is a third diagram showing a display example. The screen 181B shown in FIG. 20 shows the case where the column 195 of the keyword “name” is selected in the table in the area 184.

本実施形態では、領域184内の表において、列195が選択されると、列195に含まれるキーワード「氏名」と、表示欄187で選択された明細項目「商品名」とが対応付けられる。そして、表示欄188Aに含まれる、明細項目「商品名」の項目値が表示される欄188aに、領域193から抽出されたキーワードが表示される。 In the present embodiment, when column 195 is selected in the table in area 184, the keyword "name" included in column 195 is associated with the detail item "product name" selected in display column 187. Then, the keyword extracted from the area 193 is displayed in the field 188a in which the item value of the detailed item "product name" included in the display field 188A is displayed.

つまり、領域184内の表から、キーワード「氏名」が明細項目「氏名」として抽出され、キーワード「氏名」の下のセル内のキーワードが、明細項目「氏名」の項目値として抽出される。 That is, the keyword "name" is extracted as the detail item "name" from the table in the area 184, and the keyword in the cell under the keyword "name" is extracted as the item value of the detail item "name".

表示欄188Aでは、領域184内の表から抽出されたが明細項目「氏名」と、明細項目「氏名」の項目値とが対応付けられて表示される。具体的には、表示欄188Aでは、明細項目「商品名」の項目値が表示される欄188aに、領域193から抽出されたキーワード「A」、「B」、「C」が表示される。 In the display field 188A, although extracted from the table in the area 184, the item value of the detailed item "name" and the item value of the detailed item "name" are displayed in association with each other. Specifically, in the display column 188A, the keywords "A", "B", and "C" extracted from the area 193 are displayed in the column 188a in which the item value of the detailed item "product name" is displayed.

このとき、定義登録部290は、定義生成部292により、帳票画像におけるキーワード「氏名」の位置を示すキーワード座標、キーワード「氏名」を含むセルのセル座標、列195の座標の少なくとも何れか1つを取得する。そして、定義生成部292は、キーワード「氏名」と、キーワード座標、セル座標、列の座標の何れかと、を、個社明細定義情報251の抽出情報とする。 At this time, the definition registration unit 290 uses the definition generation unit 292 to at least one of the keyword coordinates indicating the position of the keyword "name" in the form image, the cell coordinates of the cell including the keyword "name", and the coordinates of the column 195. To get. Then, the definition generation unit 292 uses the keyword "name" and any of the keyword coordinates, cell coordinates, and column coordinates as the extracted information of the individual company detailed definition information 251.

また、定義生成部292は、表示欄187において選択された明細項目「商品名」と、抽出情報とを対応付けて、保持しておく。 Further, the definition generation unit 292 stores the detailed item "product name" selected in the display field 187 in association with the extracted information.

図21は、表示例を示す第三の図である。図21に印す画面181Cでは、表示欄187から、明細項目「金額」が選択された後に、領域184内の表の先頭の行において、キーワード「最終金額」を含む列194が選択された場合を示している。 FIG. 21 is a third diagram showing a display example. In the screen 181C marked with FIG. 21, when the detail item "amount" is selected from the display field 187, and then the column 194 including the keyword "final amount" is selected in the first row of the table in the area 184. Is shown.

この場合、明細項目「金額」と、キーワード「最終金額」とが対応付けられる。したがって、表示欄188Bにおける、明細項目「金額」の項目値が表示される欄188bに、列194において、キーワード「最終金額」の下に縦方向に並んだセル内のキーワードが表示される。 In this case, the detail item "amount" and the keyword "final amount" are associated with each other. Therefore, in the display column 188B, in the column 188b where the item value of the detail item "amount" is displayed, the keywords in the cells arranged vertically under the keyword "final amount" in column 194 are displayed.

このとき、定義登録部290は、定義生成部292により、帳票画像におけるキーワード「最終金額」の位置を示すキーワード座標、キーワード「最終金額」を含むセルのセル座標、列194の座標の少なくとも何れか1つを取得する。そして、定義生成部292は、キーワード「最終金額」と、キーワード座標、セル座標、列の座標の何れかと、を、個社明細定義情報251の抽出情報とする。 At this time, the definition registration unit 290 uses the definition generation unit 292 to at least one of the keyword coordinates indicating the position of the keyword "final amount" in the form image, the cell coordinates of the cell including the keyword "final amount", and the coordinates of column 194. Get one. Then, the definition generation unit 292 uses the keyword "final amount" and any of the keyword coordinates, cell coordinates, and column coordinates as the extracted information of the individual company detailed definition information 251.

また、定義生成部292は、表示欄187において選択された明細項目「金額」と、抽出情報とを対応付けて、保持しておく。 Further, the definition generation unit 292 stores the item "amount" selected in the display field 187 in association with the extracted information.

そして、画面181Cにおいて、操作ボタン191が操作されると、定義登録部290の表示制御部291は、請求元情報を入力するためのウィンドウ等が表示させる。定義生成部292は、請求元情報の入力が完了し、登録指示がなされると、保持している明細項目と抽出情報とに、入力された請求元情報を対応付けた個社明細定義情報251を生成し、明細定義データベース250に格納する。 Then, when the operation button 191 is operated on the screen 181C, the display control unit 291 of the definition registration unit 290 displays a window or the like for inputting the billing source information. When the input of the billing source information is completed and the registration instruction is given, the definition generation unit 292 associates the input billing source information with the retained detail items and the extracted information, and the individual company detail definition information 251. Is generated and stored in the detail definition database 250.

このように、本実施形態では、明細項目の選択と、明細項目として抽出するキーワードの指定とが行われると、指定されたキーワードと、キーワードの位置を示す情報と、選択された明細項目とを含む個社明細定義情報251を生成する。 As described above, in the present embodiment, when the detail item is selected and the keyword to be extracted as the detail item is specified, the designated keyword, the information indicating the position of the keyword, and the selected detail item are displayed. Generate individual company detail definition information 251 including.

このため、本実施形態によれば、個社明細定義情報251を参照して、帳票画像データに含まれる利用者独自の明細部から、明細情報を抽出することができる。したがって、本実施形態では、帳票の認識の精度を向上させることができる。 Therefore, according to the present embodiment, the detailed information can be extracted from the user's own detailed portion included in the form image data by referring to the individual company detailed definition information 251. Therefore, in the present embodiment, the accuracy of form recognition can be improved.

尚、表示欄187の表示態様は、図18乃至図21に示す表示態様に限定されない。図22は、表示例を示す第四の図である。 The display mode of the display column 187 is not limited to the display mode shown in FIGS. 18 to 21. FIG. 22 is a fourth diagram showing a display example.

図22に示す画面181Dでは、表示欄183において、汎用明細定義情報253で定義された一般的な明細項目名が表示された表示欄187Aと、明細情報が表示される表示欄188Cとが、表形式で表示される。 In the screen 181D shown in FIG. 22, in the display field 183, the display field 187A on which the general detail item names defined in the general-purpose detail definition information 253 are displayed and the display field 188C on which the detail information is displayed are displayed. Displayed in format.

また、図22の例では、表示欄187Aの項目名である「金額」は、領域184内の表に含まれる項目「最終金額」と部分一致する。このため、図22の例では、領域184内の表における項目「最終金額」の列196の各項目値を、表示欄188Cの項目「金額」と対応付けて表示させる。つまり、図22の例では、個社明細定義情報251を用いて一部の明細情報の認識に失敗し、一部が成功したことになる。 Further, in the example of FIG. 22, the item name “amount” in the display column 187A partially matches the item “final amount” included in the table in the area 184. Therefore, in the example of FIG. 22, each item value in column 196 of the item "final amount" in the table in the area 184 is displayed in association with the item "amount" in the display column 188C. That is, in the example of FIG. 22, the recognition of a part of the detailed information is failed by using the individual company detailed definition information 251 and a part is successful.

また、本実施形態では、領域184内の表において、ハイライトされた行192から項目を選択する際に、複数の項目を選択しても良い。言い換えれば、領域184内の表において、項目と対応する列を選択する際に、複数列が選択されても良い。 Further, in the present embodiment, when selecting an item from the highlighted row 192 in the table in the area 184, a plurality of items may be selected. In other words, in the table in the area 184, a plurality of columns may be selected when selecting the columns corresponding to the items.

図22の例では、表示欄187Aの明細項目「商品名」と対応するキーワードとして、領域184内の表から、キーワード「スタッフID」を含む列と、キーワード「氏名」を含む列とが選択されている。この場合、表示欄187Aの明細項目「商品名」と、領域184内の表のキーワード「スタッフID」、「氏名」とが対応付けられる。 In the example of FIG. 22, a column including the keyword "staff ID" and a column including the keyword "name" are selected from the table in the area 184 as keywords corresponding to the detailed item "product name" in the display field 187A. ing. In this case, the detailed item "product name" in the display field 187A is associated with the keywords "staff ID" and "name" in the table in the area 184.

そして、表示欄188Cの明細項目「商品名」と対応する表示欄には、領域184内の表におけるキーワード「スタッフID」と対応する項目値と、キーワード「氏名」と対応する項目値とが表示される。 Then, in the display column corresponding to the detailed item "product name" in the display column 188C, the item value corresponding to the keyword "staff ID" in the table in the area 184 and the item value corresponding to the keyword "name" are displayed. Will be done.

図22の例では、具体的には、表示欄188Cの明細項目「商品名」と対応する表示欄には、「0012A」が表示される。尚、複数列を選択する操作は、例えば、「Ctrl」キーを押した状態で、マウスで2つの列を選択すれば良い。 In the example of FIG. 22, specifically, "0012A" is displayed in the display column corresponding to the detailed item "product name" in the display column 188C. The operation of selecting a plurality of columns may be performed by, for example, selecting two columns with the mouse while pressing the "Ctrl" key.

上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。 Each function of the embodiment described above can be realized by one or more processing circuits. Here, the "processing circuit" in the present specification is a processor programmed to execute each function by software such as a processor implemented by an electronic circuit, or a processor designed to execute each function described above. It shall include devices such as ASIC (Application Specific Integrated Circuit), DSP (digital signal processor), FPGA (field programmable gate array) and conventional circuit modules.

また、実施形態に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。 Further, the device group described in the embodiment is only one of a plurality of computing environments for implementing the embodiment disclosed in the present specification.

ある実施形態では、サーバ装置200は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。同様に、サーバ装置200は、互いに通信するように構成された複数のコンピューティングデバイスを含むことができる。 In certain embodiments, the server device 200 includes a plurality of computing devices, such as a server cluster. The plurality of computing devices are configured to communicate with each other via any type of communication link, including networks, shared memory, and the like, and perform the processes disclosed herein. Similarly, the server device 200 can include a plurality of computing devices configured to communicate with each other.

さらに、サーバ装置200は、開示された処理ステップを様々な組み合わせで共有するように構成できる。例えば、サーバ装置200によって実行されるプロセスは、他のサーバ装置によって実行され得る。同様に、サーバ装置200の機能は、他のサーバ装置によって実行することができる。また、サーバ装置と他のサーバ装置の各要素は、1つのサーバ装置にまとめられていても良いし、複数の装置に分けられていても良い。 Further, the server device 200 can be configured to share the disclosed processing steps in various combinations. For example, a process executed by the server device 200 may be executed by another server device. Similarly, the function of the server device 200 can be executed by another server device. Further, each element of the server device and the other server device may be integrated into one server device, or may be divided into a plurality of devices.

また、明細書中の対応テーブルは、機械学習の学習効果によって生成されたものでもよい。また、取引内容の記載に含まれうるキーワードと勘定項目とを機械学習にて分類付けすることで、対応テーブルを使用しなくてもよい。 Further, the correspondence table in the specification may be generated by the learning effect of machine learning. Further, by classifying the keywords and account items that can be included in the description of the transaction contents by machine learning, it is not necessary to use the correspondence table.

ここで、機械学習とは、コンピュータに人のような学習能力を獲得させるための技術であり,コンピュータが、データ識別等の判断に必要なアルゴリズムを、事前に取り込まれる学習データから自律的に生成し,新たなデータについてこれを適用して予測を行う技術のことをいう。機械学習のための学習方法は、教師あり学習、教師なし学習、半教師学習、強化学習、深層学習のいずれかの方法でもよく、さらに、これらの学習方法を組み合わせた学習方法でもよく、機械学習のための学習方法は問わない。 Here, machine learning is a technology for making a computer acquire learning ability like a human being, and the computer autonomously generates an algorithm necessary for judgment such as data identification from learning data taken in advance. However, it refers to a technology that applies this to new data to make predictions. The learning method for machine learning may be any of supervised learning, unsupervised learning, semi-supervised learning, enhanced learning, and deep learning, and may be a learning method that combines these learning methods. Machine learning It doesn't matter how you learn for.

以上、各実施形態に基づき本発明の説明を行ってきたが、上記実施形態に示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することができ、その応用形態に応じて適切に定めることができる。 Although the present invention has been described above based on each embodiment, the present invention is not limited to the requirements shown in the above embodiments. With respect to these points, the gist of the present invention can be changed without impairing the gist of the present invention, and can be appropriately determined according to the application form thereof.

100 帳票認識システム
200 サーバ装置
210 記憶部
220 帳票認識処理部
230 帳票画像データベース
240 業種判定データベース
250 明細定義データベース
260 認識結果データベース
270 帳票認識部
271 画像データ格納部
272 ジョブリスト生成部
273 画像データ取得部
274 前処理部
275 文字認識部
276 定義特定部
277 項目抽出部
278 表示画面生成部
279 出力部
300 画像形成装置
400 端末装置
500 基幹システム
100 Form recognition system 200 Server device 210 Storage unit 220 Form recognition processing unit 230 Form image database 240 Industry judgment database 250 Detail definition database 260 Recognition result database 270 Form recognition unit 271 Image data storage unit 272 Job list generation unit 273 Image data acquisition unit 274 Preprocessing unit 275 Character recognition unit 276 Definition specification unit 277 Item extraction unit 278 Display screen generation unit 279 Output unit 300 Image forming device 400 Terminal device 500 Core system

特開2016−51339号公報Japanese Unexamined Patent Publication No. 2016-51339

Claims (11)

帳票画像の明細部を示す領域から読み取った文字列と、文字列の位置を示す情報とを対応付けた読取結果データから、前記領域に含まれる明細項目及び明細項目の値を抽出する項目抽出部と、
抽出された前記明細項目及び明細項目の値を認識結果として出力する出力部と、を有し、
前記項目抽出部は、
帳票で用いられる明細項目と、前記明細項目として抽出するキーワードと、前記帳票における前記キーワードの位置と、を定義した第一の明細定義情報を参照して、前記領域に含まれる明細項目及び明細項目の値を抽出する、情報処理システム。
Item extraction unit that extracts the detail items included in the area and the values of the detail items from the reading result data in which the character string read from the area indicating the detail part of the form image and the information indicating the position of the character string are associated with each other. When,
It has an output unit that outputs the extracted detailed item and the value of the detailed item as a recognition result.
The item extraction unit
The detail item and the detail item included in the area with reference to the first detail definition information that defines the detail item used in the form, the keyword extracted as the detail item, and the position of the keyword in the form. An information processing system that extracts the value of.
前記項目抽出部は、
前記第一の明細定義情報に含まれるキーワードに、前記領域から読み取った文字列と一致するキーワードが存在しない場合に、
帳票の発行元の業種毎に、帳票で用いられる明細項目と、前記明細項目として抽出するキーワードとを対応付けた第二の明細定義情報を参照して、前記明細部に含まれる項目及び項目の値を抽出する、請求項1記載の情報処理システム。
The item extraction unit
When there is no keyword matching the character string read from the area among the keywords included in the first detail definition information.
For each type of business from which the form is issued, refer to the second detail definition information in which the detail item used in the form and the keyword extracted as the detail item are associated with each other, and the items and items included in the detail section. The information processing system according to claim 1, wherein a value is extracted.
前記項目抽出部は、
前記第二の明細定義情報に含まれるキーワードに、前記領域から読み取った文字列と一致するキーワードが存在しない場合に、
帳票に用いられる明細項目と、前記明細項目として抽出するキーワードとを対応付けた第三の明細定義情報を参照して、前記明細部に含まれる項目及び項目の値を抽出する、請求項2記載の情報処理システム。
The item extraction unit
When there is no keyword matching the character string read from the area in the keywords included in the second detail definition information,
The item according to claim 2, wherein the item and the value of the item included in the detail part are extracted by referring to the third detail definition information in which the detail item used in the form and the keyword to be extracted as the detail item are associated with each other. Information processing system.
前記第一の明細定義情報に含まれる前記明細項目は、前記第三の明細定義情報に含まれる明細項目を含む、請求項3記載の情報処理システム。 The information processing system according to claim 3, wherein the item included in the first item definition information includes the item item included in the third item definition information. 前記帳票画像と、前記項目抽出部により抽出された前記明細項目及び明細項目の値とを含む画面データを生成する表示画面生成部を有し、
前記出力部は、
前記表示画面生成部が生成した画面データを前記認識結果の確認画面として端末装置に表示させる、請求項4の何れか一項に記載の情報処理システム。
It has a display screen generation unit that generates screen data including the form image and the detail items and the values of the detail items extracted by the item extraction unit.
The output unit
The information processing system according to any one of claims 4, wherein the screen data generated by the display screen generation unit is displayed on the terminal device as a confirmation screen of the recognition result.
前記表示画面生成部は、
前記明細項目及び明細項目の値が抽出されなかった場合に、前記第三の明細定義情報に含まれる明細項目を前記帳票画像と共に前記確認画面に表示させる、請求項5に記載の情報処理システム。
The display screen generator
The information processing system according to claim 5, wherein when the item and the value of the item are not extracted, the item included in the third item definition information is displayed on the confirmation screen together with the form image.
前記第一の明細定義情報を生成する定義生成部を有し、
前記定義生成部は、
前記確認画面において、前記第三の明細定義情報に含まれる明細項目に対する選択と、前記帳票画像の明細部を含む領域内のキーワードに対する指定とを受け付けて、選択された前記明細項目と、指定された前記キーワードと、前記帳票画像における前記キーワードの位置と、を対応づける、請求項6記載の情報処理システム。
It has a definition generation unit that generates the first detail definition information.
The definition generator
On the confirmation screen, the selected item is designated by accepting the selection for the item included in the third item definition information and the designation for the keyword in the area including the item part of the form image. The information processing system according to claim 6, wherein the keyword is associated with the position of the keyword in the form image.
前記定義生成部は、
前記帳票の発行元を特定する発行元情報の入力を受けて、前記発行元情報に、選択された前記明細項目と、指定された前記キーワードと、前記帳票画像における前記キーワードの位置と、を対応付けた第一の明細定義情報を生成し、記憶部に格納する、請求項7記載の情報処理システム。
The definition generator
In response to the input of the issuer information that identifies the issuer of the form, the issuer information corresponds to the selected detailed item, the designated keyword, and the position of the keyword in the form image. The information processing system according to claim 7, wherein the attached first detail definition information is generated and stored in a storage unit.
サーバ装置と、端末装置とを有する情報処理システムであって、
前記サーバ装置は、
帳票画像の明細部を示す領域から読み取った文字列と、文字列の位置を示す情報とを対応付けた読取結果データから、前記明細部に含まれる明細項目及び明細項目の値を抽出する項目抽出部と、
抽出された前記明細項目及び明細項目の値を認識結果として、前記端末装置へ出力する出力部と、を有し、
前記項目抽出部は、
帳票で用いられる明細項目と、前記明細項目として抽出するキーワードと、前記帳票における前記キーワードの位置と、を定義した第一の明細定義情報を参照して、前記明細項目及び明細項目の値を抽出する、情報処理システム。
An information processing system having a server device and a terminal device.
The server device
Item extraction to extract the detail item and the value of the detail item included in the detail part from the reading result data in which the character string read from the area indicating the detail part of the form image and the information indicating the position of the character string are associated with each other. Department and
It has an output unit that outputs the extracted detailed item and the value of the detailed item to the terminal device as a recognition result.
The item extraction unit
The value of the detail item and the detail item is extracted by referring to the first detail definition information that defines the detail item used in the form, the keyword to be extracted as the detail item, and the position of the keyword in the form. Information processing system.
コンピュータによる情報処理方法であって、前記コンピュータが、
帳票画像の明細部を示す領域から読み取った文字列と、文字列の位置を示す情報とを対応付けた読取結果データから、前記明細部に含まれる明細項目及び明細項目の値を抽出する手順と、
抽出された前記明細項目及び明細項目の値を認識結果として出力する手順と、を有し、
前記抽出する手順は、
帳票で用いられる明細項目と、前記明細項目として抽出するキーワードと、前記帳票における前記キーワードの位置と、を定義した第一の明細定義情報を参照して、前記明細項目及び明細項目の値を抽出する、情報処理方法。
Information processing method by computer, the computer
A procedure for extracting the detail items and the values of the detail items included in the detail part from the reading result data in which the character string read from the area indicating the detail part of the form image and the information indicating the position of the character string are associated with each other. ,
It has a procedure for outputting the extracted detailed item and the value of the detailed item as a recognition result.
The extraction procedure is
The value of the detail item and the detail item is extracted by referring to the first detail definition information that defines the detail item used in the form, the keyword to be extracted as the detail item, and the position of the keyword in the form. Information processing method.
帳票画像の明細部を示す領域から読み取った文字列と、文字列の位置を示す情報とを対応付けた読取結果データから、前記明細部に含まれる明細項目及び明細項目の値を抽出する処理と、
抽出された前記明細項目及び明細項目の値を認識結果として出力する処理と、をコンピュータに実行させ、
前記抽出する処理は、
帳票で用いられる明細項目と、前記明細項目として抽出するキーワードと、前記帳票における前記キーワードの位置と、を定義した第一の明細定義情報を参照して、前記明細項目及び明細項目の値を抽出する、プログラム。
A process of extracting the detail item and the value of the detail item included in the detail part from the reading result data in which the character string read from the area indicating the detail part of the form image and the information indicating the position of the character string are associated with each other. ,
A computer is made to execute a process of outputting the extracted detailed item and the value of the detailed item as a recognition result.
The extraction process is
The value of the detail item and the detail item is extracted by referring to the first detail definition information that defines the detail item used in the form, the keyword to be extracted as the detail item, and the position of the keyword in the form. Program.
JP2019216251A 2019-11-29 2019-11-29 Information processing system, information processing method and program Active JP7456131B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019216251A JP7456131B2 (en) 2019-11-29 2019-11-29 Information processing system, information processing method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019216251A JP7456131B2 (en) 2019-11-29 2019-11-29 Information processing system, information processing method and program

Publications (2)

Publication Number Publication Date
JP2021086479A true JP2021086479A (en) 2021-06-03
JP7456131B2 JP7456131B2 (en) 2024-03-27

Family

ID=76088862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019216251A Active JP7456131B2 (en) 2019-11-29 2019-11-29 Information processing system, information processing method and program

Country Status (1)

Country Link
JP (1) JP7456131B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01269189A (en) * 1988-04-21 1989-10-26 Oki Electric Ind Co Ltd Optical reader
JP2005100079A (en) * 2003-09-25 2005-04-14 Casio Comput Co Ltd Form data inputting device and program
JP2007213551A (en) * 2005-08-24 2007-08-23 System Produce:Kk Data management system
JP2011123825A (en) * 2009-12-14 2011-06-23 Fujitsu Frontech Ltd Character recognition method, character recognition device, and character recognition program
JP2012252657A (en) * 2011-06-06 2012-12-20 Toshiba Corp Business form identification system, business form identification method and business form processing program
JP2014016762A (en) * 2012-07-09 2014-01-30 Hitachi Omron Terminal Solutions Corp Form recognition apparatus and form recognition method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01269189A (en) * 1988-04-21 1989-10-26 Oki Electric Ind Co Ltd Optical reader
JP2005100079A (en) * 2003-09-25 2005-04-14 Casio Comput Co Ltd Form data inputting device and program
JP2007213551A (en) * 2005-08-24 2007-08-23 System Produce:Kk Data management system
JP2011123825A (en) * 2009-12-14 2011-06-23 Fujitsu Frontech Ltd Character recognition method, character recognition device, and character recognition program
JP2012252657A (en) * 2011-06-06 2012-12-20 Toshiba Corp Business form identification system, business form identification method and business form processing program
JP2014016762A (en) * 2012-07-09 2014-01-30 Hitachi Omron Terminal Solutions Corp Form recognition apparatus and form recognition method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
平山 淳一、外3名: ""仮説検証型アプローチを用いた定義レス非定型帳票認識技術"", 電子情報通信学会論文誌D, vol. 97, no. 12, JPN6023029920, 1 December 2014 (2014-12-01), JP, pages 1797 - 1808, ISSN: 0005113140 *

Also Published As

Publication number Publication date
JP7456131B2 (en) 2024-03-27

Similar Documents

Publication Publication Date Title
US11354490B1 (en) Systems, methods, and computer readable media for creating slide presentations
JP7131488B2 (en) Information processing device, information processing method and information processing program
US11468226B2 (en) Systems and methods for presentation of a terminal application screen
US20210166284A1 (en) Information processing system, information processing method, and non-transitory recording medium
JP2021140788A (en) Information processing system, information processing method and program
US11887390B2 (en) Information processing apparatus, information processing system, information processing method, and non-transitory recording medium
JP7346931B2 (en) Information processing device, information processing method, and information processing program
JP7456131B2 (en) Information processing system, information processing method and program
JP7211276B2 (en) Information processing device, information processing method and information processing program
JP2021196840A (en) Information processing apparatus, information processing method, program, and information processing system
US20210409550A1 (en) Data input support apparatus, data input support method, and storage medium
JP7447928B2 (en) Information processing device, program, information processing system, information processing method
JP2012146147A (en) Document processing device and document processing program
JP2017084198A (en) System, program, and control method
JP7380653B2 (en) Information processing device, information processing method, information processing program, information processing system
JP2021064209A (en) Information processor and information processing program
JP2020115260A (en) Information processing device and information processing program
JP2023081132A (en) Information processing system, form recognition method, program, form recognition system
US20210157969A1 (en) Information processing system, information processing apparatus, and non-transitory computer readable medium storing program
JP2021149336A (en) Information processing apparatus, information processing method, program, and information processing system
JP7458816B2 (en) Data input support device, data input support method, display device, and program
US20220311894A1 (en) Information processing apparatus, non-transitory computer readable medium storing program, and information processing method
JP2023111566A (en) Information processing device, information processing method, program, and information processing system
JP2020113120A (en) Electronic form system, information processor, method, and program
JP2022096490A (en) Image-processing device, and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230922

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20231010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240110

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240226

R151 Written notification of patent or utility model registration

Ref document number: 7456131

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151