JP2022039640A - Business form processing apparatus, business form processing program and business form processing method - Google Patents
Business form processing apparatus, business form processing program and business form processing method Download PDFInfo
- Publication number
- JP2022039640A JP2022039640A JP2020144775A JP2020144775A JP2022039640A JP 2022039640 A JP2022039640 A JP 2022039640A JP 2020144775 A JP2020144775 A JP 2020144775A JP 2020144775 A JP2020144775 A JP 2020144775A JP 2022039640 A JP2022039640 A JP 2022039640A
- Authority
- JP
- Japan
- Prior art keywords
- reading
- text data
- master
- reading area
- form processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、帳票処理装置、帳票処理プログラム、および帳票処理方法に関する。 The present invention relates to a form processing device, a form processing program, and a form processing method.
画像データから文字データを抽出するOCR(Optical Character Recognition)という技術がある。また、帳票等の紙を複合機等でスキャンして画像データに変換した後、画像データからOCRで文字を抽出して業務システムへ送信する技術が開発されている。 There is a technology called OCR (Optical Character Recognition) that extracts character data from image data. Further, a technique has been developed in which paper such as a form is scanned by a multifunction device or the like, converted into image data, and then characters are extracted from the image data by OCR and transmitted to a business system.
OCRを利用して帳票の文字を業務システムへ取り込む一般的な処理は、以下の流れに従って行われる。(1)帳票毎に、読取領域および読取候補リスト等のマスタデータを設定する。ここで、読取候補リストは、OCRによって抽出する文字のリストである。(2)届いた書類(帳票)を複合機等でスキャンする。(3)マスタデータを参照して、書類をスキャンして得られる画像データに対してOCRを実行する。(4)OCRにより抽出した文字をテキストデータに変換する。(5)文字から変換されたテキストデータに含まれる誤りを、人間が補正する。 The general process of importing the characters of the form into the business system using OCR is performed according to the following flow. (1) Set master data such as a reading area and a reading candidate list for each form. Here, the reading candidate list is a list of characters extracted by OCR. (2) Scan the received documents (forms) with a multifunction device or the like. (3) With reference to the master data, OCR is executed on the image data obtained by scanning the document. (4) The characters extracted by OCR are converted into text data. (5) Humans correct errors contained in the text data converted from characters.
しかし、初期/運用コストが、帳票からのテキストデータの読取処理に対するOCRの導入の妨げになる場合がある。具体的には、OCRの導入時においては、帳票の読取領域毎にマスタデータを設定する必要がある。また、OCRの運用時においては、OCRにより抽出した文字から変換されたテキストデータに含まれる誤りを人間が補正する必要がある。 However, initial / operational costs may hinder the introduction of OCR for the process of reading text data from forms. Specifically, when introducing OCR, it is necessary to set master data for each form reading area. Further, during the operation of OCR, it is necessary for a human to correct an error contained in the text data converted from the characters extracted by OCR.
また、OCRの文字認識エンジンには、機械学習モデルを利用して、画像データから文字データを認識する技術が開発されている。機械学習モデルを利用した文字認識エンジンによる文字認識の精度は、学習データセットによって決まるため、文字認識する文字の種類(例えば、平仮名、カタカナ、漢字、数字、アルファベット)によって機械学習モデルを使い分けること適切である。例えば、「L」と「し」等の似ている文字を誤って文字認識しないようにするため、英語用の学習データセットと、日本語用の学習データセットと、を分けて、機械学習モデルを生成して、文字認識する文字の種類に応じて、機械学習モデルを使い分ける。 Further, in the character recognition engine of OCR, a technique of recognizing character data from image data by using a machine learning model has been developed. Since the accuracy of character recognition by the character recognition engine using the machine learning model is determined by the training data set, it is appropriate to use the machine learning model properly according to the type of character to be recognized (for example, hiragana, katakana, kanji, numbers, alphabet). Is. For example, in order to prevent erroneous character recognition of similar characters such as "L" and "", a machine learning model is created by separating the learning data set for English and the learning data set for Japanese. Is generated, and the machine learning model is used properly according to the type of character recognized.
しかしながら、似ている文字の読取精度を向上させる場合、マスタデータの設定が複雑化する。具体的には、文字認識する文字の種類毎に機械学習モデルを作成することが好ましいが、機械学習モデルの学習に時間がかかるため、全ての文字の種類について機械学習モデルの学習を行うことは現実的ではなく、日本語や英語といった言語単位で機械学習モデルを作成することが多いが、この場合、「L」と「し」等の似ている文字を見極めることが難しく、読取候補リストを用いて、似ている文字の誤認識を回避する必要がある。例えば、電話番号欄の文字認識を行う場合、読取候補リスト:「TEL.-0123456789:を用いることで、似ている文字の読取精度を向上させることができる。しかし、商品名等の文字認識を行う場合は、いずれの読取候補リストを用いるかを指定することが困難なため、読取候補リストを利用できていないことが多い。 However, when improving the reading accuracy of similar characters, the setting of master data becomes complicated. Specifically, it is preferable to create a machine learning model for each type of character that recognizes characters, but since it takes time to learn the machine learning model, it is not possible to learn the machine learning model for all types of characters. It is not realistic, and machine learning models are often created for each language such as Japanese and English, but in this case, it is difficult to identify similar characters such as "L" and "", so the reading candidate list is displayed. It should be used to avoid misrecognition of similar characters. For example, when performing character recognition in a telephone number field, reading candidate list: "TEL.-0123456789: can be used to improve the reading accuracy of similar characters. However, character recognition such as a product name can be performed. When doing so, it is difficult to specify which read candidate list to use, so the read candidate list is often not available.
さらに、読取候補リスト等の仕組みを文字認識に活用したとしても、スキャナによって読み取った画像データ内の文字が擦れていたり、傾いていたりすると、文字の認識ミスが発生する。OCRのベンダーでは、文字の認識ミスの内容を専用の画面から補正可能としているが、間違って認識した文字を探して補正するコストが高くなると、帳票のテキストデータへの変換処理に対するOCRの導入のメリットが得られ難く、可能な限り、間違って認識した文字の補正を行うことなく、OCRを利用して帳票の文字情報を業務システムに登録する仕組みが求められている。 Further, even if a mechanism such as a reading candidate list is used for character recognition, if the characters in the image data read by the scanner are rubbed or tilted, a character recognition error occurs. OCR vendors allow the content of character recognition errors to be corrected from a dedicated screen, but when the cost of finding and correcting characters that are mistakenly recognized becomes high, the introduction of OCR for the conversion process of forms to text data is introduced. It is difficult to obtain merits, and there is a demand for a mechanism for registering the character information of a form in a business system using OCR without correcting the characters recognized by mistake as much as possible.
本発明は、上記に鑑みてなされたものであって、OCRを利用して帳票の文字認識を行う場合に誤って認識した文字の補正に要するコストを削減することができる帳票処理装置、帳票処理プログラム、および帳票処理方法を提供することを目的とする。 The present invention has been made in view of the above, and is a form processing device and a form processing that can reduce the cost required for correction of characters erroneously recognized when character recognition of a form is performed using OCR. The purpose is to provide a program and a form processing method.
上述した課題を解決し、目的を達成するために、本発明に係る帳票処理装置は、制御部を備える帳票処理装置であって、前記制御部は、帳票の読取領域への記載が想定されるテキストデータを読取領域毎に保持するための読取候補リストデータに対し、読取領域と関連付けられている、業務システムの管理下にあるマスタに設定されているテキストデータを、読取領域毎に設定する設定手段と、前記帳票の画像データを基に、前記設定手段による設定後の前記読取候補リストデータの参照を伴う文字認識処理を実行することにより、読取領域毎にテキストデータを読み取る読取手段と、読取領域毎に、前記読取手段で読み取られたテキストデータと類似する、前記マスタに設定されているテキストデータを取得する名寄せ手段と、を備えること、を特徴とする。 In order to solve the above-mentioned problems and achieve the object, the form processing device according to the present invention is a form processing device including a control unit, and the control unit is expected to be described in a form reading area. For the read candidate list data for holding the text data for each read area, the text data set in the master under the control of the business system, which is associated with the read area, is set for each read area. A reading means for reading text data for each reading area by executing a character recognition process accompanied by reference to the reading candidate list data after setting by the setting means based on the means and the image data of the form, and reading. Each area is provided with a name identification means for acquiring text data set in the master, which is similar to the text data read by the reading means.
また、本発明に係る帳票処理プログラムは、制御部を備える帳票処理装置の前記制御部に実行させるための、帳票の読取領域への記載が想定されるテキストデータを読取領域毎に保持するための読取候補リストデータに対し、読取領域と関連付けられている、業務システムの管理下にあるマスタに設定されているテキストデータを、読取領域毎に設定する設定ステップと、前記帳票の画像データを基に、前記設定ステップによる設定後の前記読取候補リストデータの参照を伴う文字認識処理を実行することにより、読取領域毎にテキストデータを読み取る読取ステップと、読取領域毎に、前記読取ステップで読み取られたテキストデータと類似する、前記マスタに設定されているテキストデータを取得する名寄せステップと、を含む。 Further, the form processing program according to the present invention is for holding text data expected to be described in the form reading area for each reading area to be executed by the control unit of the form processing device including the control unit. Based on the setting step of setting the text data set in the master under the control of the business system, which is associated with the reading area, for each reading area for the reading candidate list data, and the image data of the form. By executing the character recognition process accompanied by the reference of the reading candidate list data after the setting by the setting step, the text data is read in each reading area and the reading step is read in each reading area. It includes a name identification step for acquiring text data set in the master, which is similar to text data.
また、本発明に係る帳票処理方法は、制御部を備える帳票処理装置の前記制御部が実行する、帳票の読取領域への記載が想定されるテキストデータを読取領域毎に保持するための読取候補リストデータに対し、読取領域と関連付けられている、業務システムの管理下にあるマスタに設定されているテキストデータを、読取領域毎に設定する設定ステップと、前記帳票の画像データを基に、前記設定ステップによる設定後の前記読取候補リストデータの参照を伴う文字認識処理を実行することにより、読取領域毎にテキストデータを読み取る読取ステップと、読取領域毎に、前記読取ステップで読み取られたテキストデータと類似する、前記マスタに設定されているテキストデータを取得する名寄せステップと、を含む。 Further, the form processing method according to the present invention is a reading candidate for holding text data, which is executed by the control unit of the form processing device including the control unit and is expected to be described in the reading area of the form, for each reading area. With respect to the list data, the text data set in the master under the control of the business system, which is associated with the reading area, is set for each reading area. A reading step of reading text data for each reading area by executing a character recognition process accompanied by reference to the reading candidate list data after setting by the setting step, and a reading step of the text data read in the reading step for each reading area. A name identification step for acquiring text data set in the master, which is similar to the above, is included.
本発明は、OCRを利用して帳票の文字認識を行う場合に誤って認識した文字の補正に要するコストを削減することができる、という効果を奏する。 INDUSTRIAL APPLICABILITY The present invention has an effect that it is possible to reduce the cost required for correction of characters erroneously recognized when character recognition of a form is performed using OCR.
以下に、本発明に係る帳票処理装置、帳票処理プログラム、および帳票処理方法の実施形態を、図面に基づいて詳細に説明する。なお、本実施形態により本発明が限定されるものではない。 Hereinafter, embodiments of a form processing device, a form processing program, and a form processing method according to the present invention will be described in detail with reference to the drawings. The present invention is not limited to the present embodiment.
本実施形態に係る帳票処理装置の構成の一例について、図1等を参照して説明する。図1は、本実施形態にかかる帳票処理装置の構成の一例を示すブロック図である。 An example of the configuration of the form processing device according to the present embodiment will be described with reference to FIG. 1 and the like. FIG. 1 is a block diagram showing an example of the configuration of the form processing device according to the present embodiment.
帳票処理装置100は、市販のデスクトップ型パーソナルコンピュータを基に構築したものである。なお、帳票処理装置100は、デスクトップ型パーソナルコンピュータのような据置型情報処理装置を基に構築したものに限らず、市販のノート型パーソナルコンピュータ、PDA(Personal Digital Assistants)、スマートフォンまたはタブレット型パーソナルコンピュータなどの携帯型情報処理装置を基に構築したものであってもよい。 The form processing device 100 is constructed based on a commercially available desktop personal computer. The form processing device 100 is not limited to a device constructed based on a stationary information processing device such as a desktop personal computer, but is not limited to a commercially available notebook personal computer, a PDA (Personal Digital Assistants), a smartphone or a tablet personal computer. It may be constructed based on a portable information processing device such as.
帳票処理装置100は、制御部102と通信インターフェース部104と記憶部106と入出力インターフェース部108と、を備えている。帳票処理装置100が備えている各部は、任意の通信路を介して通信可能に接続されている。
The form processing device 100 includes a control unit 102, a
通信インターフェース部104は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、帳票処理装置100をネットワーク300に通信可能に接続する。通信インターフェース部104は、他の装置と通信回線を介してデータを通信する機能を有する。ここで、ネットワーク300は、帳票処理装置100とサーバ200とを相互に通信可能に接続する機能を有し、例えばインターネットやLAN(Local Area Network)等である。なお、記憶部106に格納されるデータは、例えばサーバ200に格納されてもよい。
The
入出力インターフェース部108には、入力装置112および出力装置114が接続されている。出力装置114には、モニタ(家庭用テレビを含む)の他、スピーカやプリンタを用いることができる。入力装置112には、キーボード、マウス、及びマイクの他、マウスと協働してポインティングデバイス機能を実現するモニタを用いることができる。なお、以下では、出力装置114をモニタ114とし、入力装置112をキーボード112またはマウス112として記載する場合がある。
An input device 112 and an output device 114 are connected to the input /
記憶部106には、各種のデータベース、テーブルおよびファイルなどが格納される。記憶部106には、OS(Operating System)と協働してCPU(Central Processing Unit)に命令を与えて各種処理を行うためのコンピュータプログラムが記録される。記憶部106として、例えば、RAM(Random Access Memory)・ROM(Read Only Memory)等のメモリ装置、ハードディスクのような固定ディスク装置、フレキシブルディスク、および光ディスク等を用いることができる。 Various databases, tables, files, and the like are stored in the storage unit 106. In the storage unit 106, a computer program for giving an instruction to a CPU (Central Processing Unit) in cooperation with an OS (Operating System) to perform various processes is recorded. As the storage unit 106, for example, a memory device such as a RAM (Random Access Memory) / ROM (Read Only Memory), a fixed disk device such as a hard disk, a flexible disk, an optical disk, or the like can be used.
本実施形態では、記憶部106には、OCR読取候補リスト設定マスタ106a、取引先マスタ106c、OCRレイアウトマスタ106b、名寄せマッピングマスタ106d等が格納されている。
In the present embodiment, the storage unit 106 stores the OCR reading candidate
図2は、本実施形態にかかる帳票処理装置が記憶するOCR読取候補リスト設定マスタのデータ構成の一例を示す図である。図2に示すように、OCR読取候補リスト設定マスタ106a(読取候補リストデータの一例)は、帳票の読取領域のうちOCRによる文字認識処理を実行する読取領域のID(以下、画面IDという)と、当該読取領域への記載が想定される対象列の順番であるSEQと、対象列を記憶する対象テーブルと、対象列の名称と、を対応付けて記憶する。
FIG. 2 is a diagram showing an example of the data configuration of the OCR reading candidate list setting master stored in the form processing apparatus according to the present embodiment. As shown in FIG. 2, the OCR reading candidate
図3は、本実施形態にかかる帳票処理装置が記憶する取引先マスタのデータ構成の一例を示す図である。図3に示すように、取引先マスタ106cは、業務システムの管理下にあるマスタ(対象テーブル)の一例であり、取引先のコードである取引先CDと、対象列(テキストデータの一例)と、を対応付けて記憶する。
FIG. 3 is a diagram showing an example of a data structure of a business partner master stored in the form processing device according to the present embodiment. As shown in FIG. 3, the
図4は、本実施形態にかかる帳票処理装置が記憶するOCRレイアウトマスタのデータ構成の一例を示す図である。図4に示すように、OCRレイアウトマスタ106bは、帳票の読取領域への記載が想定される対象列を当該読取領域毎に記憶する読取候補リストデータの一例であり、画面IDと、SEQと、読取領域の名称であるエリア名と、当該読取領域に対して読取候補リスト(例えば、想定される英字や数字)を設定するか否かを示す読取候補リスト設定マスタ使用FLGと、当該読取候補リストのIDである読取候補リストIDと、当該読取領域に対して設定された読取候補リストと、を対応付けて記憶する。 FIG. 4 is a diagram showing an example of the data structure of the OCR layout master stored in the form processing apparatus according to the present embodiment. As shown in FIG. 4, the OCR layout master 106b is an example of reading candidate list data that stores a target column that is expected to be described in the reading area of a form for each reading area, and includes a screen ID, a SEQ, and a screen ID. An area name that is the name of the reading area, a reading candidate list setting master used FLG that indicates whether or not to set a reading candidate list (for example, an assumed alphabet or number) for the reading area, and the reading candidate list. The reading candidate list ID, which is the ID of the above, and the reading candidate list set for the reading area are stored in association with each other.
図5は、本実施形態にかかる帳票処理装置が記憶する名寄せマスタのデータ構成の一例を示す図である。図5に示すように、名寄せマッピングマスタ106dは、画面IDと、SEQと、OCRを実行する際に参照する対象テーブルの名称であるマスタテーブル名と、取引先の取引先CDと、OCRの実行の際に参照した対象列の名称であるマスタカラム名称1,2と、OCRにより読み取ったテキストデータのテーブルの名称であるトランザクションテーブル名と、OCRにより読み取ったテキストデータの名称であるトランザクションカラム名称1,2と、を対応付けて記憶する。
FIG. 5 is a diagram showing an example of the data structure of the name identification master stored in the form processing apparatus according to the present embodiment. As shown in FIG. 5, the name identification mapping master 106d has a screen ID, a SEQ, a master table name which is a name of a target table to be referred to when executing OCR, a business partner CD of a business partner, and execution of OCR. The
図1に戻り、制御部102は、帳票処理装置100を統括的に制御するCPU等である。制御部102は、OS等の制御プログラム・各種の処理手順等を規定したプログラム・所要データなどを格納するための内部メモリを有し、格納されているこれらのプログラムに基づいて種々の情報処理を実行する。 Returning to FIG. 1, the control unit 102 is a CPU or the like that collectively controls the form processing device 100. The control unit 102 has an internal memory for storing a control program such as an OS, a program that defines various processing procedures, required data, and the like, and performs various information processing based on these stored programs. Execute.
制御部102は、機能概念的に、設定部102a、読取部102b、名寄せ部102c等を備える。
The control unit 102 is functionally conceptually provided with a
設定部102aは、OCRレイアウトマスタ106bに対して、帳票の読取領域と関連付けられている、OCR読取候補リスト設定マスタ106aを介して特定される取引先マスタ106cに設定されている読取候補リストを、読取領域毎に設定する設定部の一例である。これにより、業務システムに登録されている取引先マスタ106c等の対象テーブルに設定されている対象列を用いて、OCRレイアウトマスタ106bに対して読取候補リストを設定することができる。その結果、顧客ごとに最適な読取候補リストをOCRレイアウトマスタ106bに設定できる。また、OCRを利用した帳票の文字認識処理による文字の誤認識が低減されるので、OCRを利用した帳票の文字認識処理によって誤認識された文字の補正に要するコストを削減することができる。
The
ただし、後述する読取部102bにより読み取る文字が、電話番号のように、数字および特定の文字であることが事前に分かっている場合には、入力装置112から手動で、OCRレイアウトマスタ106bに対して読取候補リストを設定することが可能であり、必ずしも、OCR読取候補リスト設定マスタ106aを用いて、OCRレイアウトマスタ106bに対する読取候補リストの設定を行う必要はない。
However, if it is known in advance that the characters read by the
読取部102bは、図示しない複合機等によって読み取られる帳票の画像データを基に、設定部102aによる読取候補リストの設定後のOCRレイアウトマスタ106bの参照を伴う文字認識処理(OCR)を実行することにより、読取領域毎にテキストデータを読み取る読取部の一例である。
The
名寄せ部102cは、帳票の読取領域毎に、読取部102bにより読み取られるテキストデータと類似する、取引先マスタに設定されている読取候補リストを取得する名寄せ部の一例である。これにより、読取部102bによる文字認識処理によって文字を誤って認識された場合でも、名寄せ処理によって、誤って認識された文字のテキストデータに類似する、業務システムに登録される名称等の読取候補リストを取得することができる。その結果、OCRを利用した帳票の文字認識処理によって誤認識された文字の補正に要するコストを削減することができる。
The
図6は、本実施形態にかかる帳票処理装置における帳票の文字認識処理の流れの一例を示すフローチャートである。次に、図6を用いて、本実施形態にかかる帳票処理装置100における帳票の文字認識処理の流れの一例について説明する。 FIG. 6 is a flowchart showing an example of the flow of character recognition processing of a form in the form processing apparatus according to the present embodiment. Next, an example of the flow of the character recognition processing of the form in the form processing apparatus 100 according to the present embodiment will be described with reference to FIG.
まず、設定部102aは、OCRレイアウトマスタ106bに対して、取引先マスタ106cにおいて、帳票の各読取領域と関連付けられている読取候補リストを、当該読取領域毎に設定する(ステップS601)。
First, the
図7は、本実施形態にかかる帳票処理装置におけるOCRレイアウトマスタに対する読取候補リストの設定処理の一例を説明するための図である。例えば、設定部102aは、図7に示すように、OCRレイアウトマスタ106bに対して、帳票の読取領域毎に、画面ID、SEQ、およびエリア名に対応付けて、読取領域の座標情報、および読取候補リストを設定する。
FIG. 7 is a diagram for explaining an example of a reading candidate list setting process for the OCR layout master in the form processing device according to the present embodiment. For example, as shown in FIG. 7, the
図6に戻り、次に、図示しない複合機等によって、帳票を読み取り、当該帳票の画像データを生成する(ステップS602)。図8は、複合機により生成される画像データの一例を示す図である。複合機は、図8に示すように、帳票を読み取って、当該帳票の画像データを生成する。 Returning to FIG. 6, next, the form is read by a multifunction device or the like (not shown), and the image data of the form is generated (step S602). FIG. 8 is a diagram showing an example of image data generated by the multifunction device. As shown in FIG. 8, the multifunction device reads the form and generates image data of the form.
読取部102bは、設定部102aによる読取候補リストの設定後のOCRレイアウトマスタ106bを参照して、帳票の画像データに対する文字認識処理を実行し(ステップS603)、かつ、文字認識処理によって認識した文字をテキストデータに変換する(ステップS604)。
The
図9は、本実施形態にかかる帳票処理装置における文字認識処理の一例を説明するための図である。図10は、本実施形態にかかる帳票処理装置におけるテキストデータへの変換処理の一例を説明するための図である。例えば、読取部102bは、OCRレイアウトマスタ106bにおいて画面ID:1と対応付けられる読取領域(Consignee名)の座標情報および読取候補リストに従って、図8に示す画像データに対して文字認識処理を実行して、図9に示す文字を読み取る。さらに、読取部102bは、図10に示すように、読み取った文字をテキストデータ(例えば、「KINOSHITA TRADING GOMPANY」)に変換する。
FIG. 9 is a diagram for explaining an example of character recognition processing in the form processing apparatus according to the present embodiment. FIG. 10 is a diagram for explaining an example of conversion processing into text data in the form processing apparatus according to the present embodiment. For example, the
図6に戻り、次に、名寄せ部102cは、取引先マスタ106cに設定されている読取候補リストから、読取部102bによって変換されるテキストデータと類似する読取候補リストを取得する名寄せ処理を実行する(ステップS605)。
Returning to FIG. 6, next, the
図11は、本実施形態にかかる帳票処理装置における名寄せ処理の一例を説明するための図である。例えば、名寄せ部102cは、図10に示すような誤りのあるテキストデータ(例えば、「KINOSHITA TRADING GOMPANY」)に対して名寄せ処理を実行する。具体的には、エリア名:Consignee名は、取引先を表すため、名寄せ部102cは、図11に示すように、図10に示すテキストデータに類似する読取候補リストとして、取引先マスタ106cから、取引先CD:11001000と対応付けられる英語取引先正式名1:「KINOSHITA TRADING COMPANY」を取得する。
FIG. 11 is a diagram for explaining an example of name identification processing in the form processing apparatus according to the present embodiment. For example, the
次に、図12を用いて、本実施形態にかかる帳票処理装置100における読取候補リストの設定処理の一例について説明する。図12は、本実施形態にかかる帳票処理装置における読取候補リストの設定処理の一例を説明するための図である。 Next, an example of the reading candidate list setting process in the form processing device 100 according to the present embodiment will be described with reference to FIG. 12. FIG. 12 is a diagram for explaining an example of a reading candidate list setting process in the form processing device according to the present embodiment.
設定部102aは、まず、OCR読取候補リスト設定マスタ106aにおいて、読取候補リストの設定(自動追加)処理を実行する帳票の読取領域のうち文字認識処理を実行する読取領域の画面IDと対応付けられる対象テーブル(例えば、取引先マスタ106c)および対象列(例えば、英語取引先正式名1および英語取引先住所1)を特定する。次に、設定部102aは、特定した取引先マスタ106cにおいて、取引先の取引先CDと対応付けられる英語取引先正式名1(例えば、「KINOSHITA TRADING COMPANY」、「KINOSHITA TRADING COMPANY TK」)および英語取引先住所1(例えば、「8-8-2,MAMIZUKA,」、「1-8-2,HARUMI,CHUO-KU,TOKYO JAPAN」)を選択する。そして、設定部102aは、図12に示すように、OCRレイアウトマスタ106bにおいて、画面ID:1と対応付けられる読取候補リストに対して、選択した英語取引先正式名1および英語取引先住所1を設定(追加)する。
First, the
次に、本実施形態にかかる帳票処理装置100による名寄せ処理の一例について説明する。 Next, an example of name identification processing by the form processing device 100 according to the present embodiment will be described.
名寄せ部102cは、まず、名寄せマッピングマスタ106dにおいて、名寄せ処理を実行する読取領域の画面IDと対応付けられるマスタテーブル名、マスタカラムCD、およびマスタカラム名称1,2を用いて、取引先マスタ106cから、マスタデータとして英語取引先名称1および英語取引先住所1選択する。また、名寄せ部102cは、名寄せマスタにおいて、当該画面IDと対応付けられるトランザクションテーブル名、およびトランザクションカラム名称1,2を用いて、OCR受入データ(すなわち、読取部102bにより文字認識により読み取った文字のテキストデータ)から、名寄せ処理を実行するテキストデータとして英語取引先名称1および英語取引先住所1を選択する。
First, in the name identification mapping master 106d, the
次に、名寄せ部102cは、取引先マスタ106cから選択したマスタカラム名称1,2(英語取引先名称1および英語取引先住所1)と、OCR受入データから選択したトランザクションカラム名称1,2(英語取引先名称1および英語取引先住所1)と、を比較する。さらに、名寄せ部102cは、例えば、レーベンシュタイン距離等を用いて、取引先マスタ106cから選択したマスタカラム名称1,2のうち、トランザクションカラム名称1,2と最も似ているマスタカラム名称1,2と対応付けられるマスタカラムCD(すなわち、取引先CD)を特定する。そして、名寄せ部102cは、取引先マスタ106cから、特定したマスタカラムCDと対応付けられる英語取引先名称1および英語取引先住所1を取得する。
Next, the
このように、本実施形態にかかる帳票処理装置100によれば、読取部102bによる文字認識処理によって文字を誤って認識された場合でも、名寄せ処理によって、誤って認識された文字のテキストデータに類似する、業務システムに登録される名称等の読取候補リストを取得することができる。その結果、OCRを利用した帳票の文字認識処理によって誤認識された文字の補正に要するコストを削減することができる。
As described above, according to the form processing device 100 according to the present embodiment, even if a character is erroneously recognized by the character recognition process by the
本発明は、上述した実施形態以外にも、特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施形態にて実施されてよいものである。 In addition to the above-described embodiments, the present invention may be implemented in various different embodiments within the scope of the technical ideas described in the claims.
例えば、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。 For example, of each of the processes described in the embodiments, all or part of the processes described as being automatically performed may be manually performed, or all of the processes described as being performed manually. Alternatively, a part can be automatically performed by a known method.
また、本明細書中や図面中で示した処理手順、制御手順、具体的名称、各処理の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。 In addition, processing procedures, control procedures, specific names, information including parameters such as registration data and search conditions for each processing, screen examples, and database configurations shown in this specification and drawings are not specified unless otherwise specified. Can be changed arbitrarily.
また、帳票処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。 Further, with respect to the form processing device 100, each component shown in the figure is a functional concept and does not necessarily have to be physically configured as shown in the figure.
例えば、帳票処理装置100が備える処理機能、特に制御部にて行われる各処理機能については、その全部または任意の一部を、CPUおよび当該CPUにて解釈実行されるプログラムにて実現してもよく、また、ワイヤードロジックによるハードウェアとして実現してもよい。尚、プログラムは、本実施形態で説明した処理を情報処理装置に実行させるためのプログラム化された命令を含む一時的でないコンピュータ読み取り可能な記録媒体に記録されており、必要に応じて帳票処理装置100に機械的に読み取られる。すなわち、ROMまたはHDD(Hard Disk Drive)などの記憶部などには、OSと協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、RAMにロードされることによって実行され、CPUと協働して制御部を構成する。 For example, with respect to the processing functions included in the form processing device 100, particularly each processing function performed by the control unit, even if all or any part thereof is realized by the CPU and a program interpreted and executed by the CPU. Well, it may be realized as hardware by wired logic. The program is recorded on a non-temporary computer-readable recording medium including a programmed instruction for causing the information processing apparatus to execute the processing described in the present embodiment, and the form processing apparatus is required. Read mechanically to 100. That is, a computer program for giving instructions to the CPU in cooperation with the OS and performing various processes is recorded in a storage unit such as a ROM or an HDD (Hard Disk Drive). This computer program is executed by being loaded into RAM, and cooperates with the CPU to form a control unit.
また、このコンピュータプログラムは、帳票処理装置100に対して任意のネットワークを介して接続されたアプリケーションプログラムサーバに記憶されていてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。 Further, this computer program may be stored in an application program server connected to the form processing device 100 via an arbitrary network, and all or part of the computer program may be downloaded as needed. be.
また、本実施形態で説明した処理を実行するためのプログラムを、一時的でないコンピュータ読み取り可能な記録媒体に格納してもよく、また、プログラム製品として構成することもできる。ここで、この「記録媒体」とは、メモリーカード、USB(Universal Serial Bus)メモリ、SD(Secure Digital)カード、フレキシブルディスク、光磁気ディスク、ROM、EPROM(Erasable Programmable Read Only Memory)、EEPROM(登録商標)(Electrically Erasable and Programmable Read Only Memory)、CD-ROM(Compact Disk Read Only Memory)、MO(Magneto-Optical disk)、DVD(Digital Versatile Disk)、および、Blu-ray(登録商標) Disc等の任意の「可搬用の物理媒体」を含むものとする。 Further, the program for executing the process described in the present embodiment may be stored in a non-temporary computer-readable recording medium, or may be configured as a program product. Here, the "recording medium" includes a memory card, a USB (Universal Serial Bus) memory, an SD (Secure Digital) card, a flexible disk, a magneto-optical disk, a ROM, an EPROM (Erasable Programmable Read Only Memory), and an EEPROM (registration). Trademarks) (Electrically Erasable and Probe Read Only Memory), CD-ROM (Compact Disk Read Only Memory), MO (Magnet-Optical Disc), MO (Magnet-Optical Disc), DVD (Digital), DVD (Digital) It shall include any "portable physical medium".
また、「プログラム」とは、任意の言語または記述方法にて記述されたデータ処理方法であり、ソースコードまたはバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OSに代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施形態に示した各装置において記録媒体を読み取るための具体的な構成および読み取り手順ならびに読み取り後のインストール手順等については、周知の構成や手順を用いることができる。 Further, the "program" is a data processing method described in any language or description method, regardless of the format such as source code or binary code. The "program" is not necessarily limited to a single program, but is distributed as multiple modules or libraries, or cooperates with a separate program represented by the OS to achieve its function. Including things. It should be noted that well-known configurations and procedures can be used for specific configurations and reading procedures for reading the recording medium in each apparatus shown in the embodiment, installation procedures after reading, and the like.
記憶部に格納される各種のデータベース等は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、および、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラム、テーブル、データベース、および、ウェブページ用ファイル等を格納する。 Various databases and the like stored in the storage unit are memory devices such as RAM and ROM, fixed disk devices such as hard disks, flexible disks, and storage means such as optical disks, and are used for various processes and website provision. Stores programs, tables, databases, files for web pages, etc.
また、帳票処理装置100は、既知のパーソナルコンピュータまたはワークステーション等の情報処理装置として構成してもよく、また、任意の周辺装置が接続された当該情報処理装置として構成してもよい。また、帳票処理装置100は、当該装置に本実施形態で説明した処理を実現させるソフトウェア(プログラムまたはデータ等を含む)を実装することにより実現してもよい。 Further, the form processing device 100 may be configured as an information processing device such as a known personal computer or workstation, or may be configured as the information processing device to which an arbitrary peripheral device is connected. Further, the form processing device 100 may be realized by mounting software (including a program or data) that realizes the processing described in the present embodiment on the device.
更に、装置の分散・統合の具体的形態は図示するものに限られず、その全部または一部を、各種の付加等に応じてまたは機能負荷に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。すなわち、上述した実施形態を任意に組み合わせて実施してもよく、実施形態を選択的に実施してもよい。 Furthermore, the specific form of distribution / integration of the device is not limited to that shown in the figure, and all or part of the device may be functionally or physically in any unit according to various additions or functional loads. It can be distributed and integrated. That is, the above-described embodiments may be arbitrarily combined and implemented, or the embodiments may be selectively implemented.
本発明は、特に物流業界において有用である。 The present invention is particularly useful in the logistics industry.
100 帳票処理装置
102 制御部
102a 設定部
102b 読取部
102c 名寄せ部
104 通信インターフェース部
106 記憶部
106a OCR読取候補リスト設定マスタ
106b OCRレイアウトマスタ
106c 取引先マスタ
106d 名寄せマッピングマスタ
108 入出力インターフェース部
112 入力装置
114 出力装置
200 サーバ
300 ネットワーク
100 Forms processing device 102 Control unit
102a setting unit
102b reader
102c Name
106a OCR reading candidate list setting master
106b OCR layout master
106c Account Master
106d Name
Claims (3)
前記制御部は、
帳票の読取領域への記載が想定されるテキストデータを読取領域毎に保持するための読取候補リストデータに対し、読取領域と関連付けられている、業務システムの管理下にあるマスタに設定されているテキストデータを、読取領域毎に設定する設定手段と、
前記帳票の画像データを基に、前記設定手段による設定後の前記読取候補リストデータの参照を伴う文字認識処理を実行することにより、読取領域毎にテキストデータを読み取る読取手段と、
読取領域毎に、前記読取手段で読み取られたテキストデータと類似する、前記マスタに設定されているテキストデータを取得する名寄せ手段と、
を備えること、
を特徴とする帳票処理装置。 It is a form processing device equipped with a control unit.
The control unit
For the reading candidate list data for holding the text data expected to be described in the reading area of the form for each reading area, it is set in the master under the control of the business system associated with the reading area. Setting means for setting text data for each reading area,
Based on the image data of the form, the reading means for reading the text data for each reading area by executing the character recognition process accompanied by the reference of the reading candidate list data after the setting by the setting means.
For each reading area, a name identification means for acquiring text data set in the master, which is similar to the text data read by the reading means, and
To prepare for
A form processing device characterized by.
帳票の読取領域への記載が想定されるテキストデータを読取領域毎に保持するための読取候補リストデータに対し、読取領域と関連付けられている、業務システムの管理下にあるマスタに設定されているテキストデータを、読取領域毎に設定する設定ステップと、
前記帳票の画像データを基に、前記設定ステップによる設定後の前記読取候補リストデータの参照を伴う文字認識処理を実行することにより、読取領域毎にテキストデータを読み取る読取ステップと、
読取領域毎に、前記読取ステップで読み取られたテキストデータと類似する、前記マスタに設定されているテキストデータを取得する名寄せステップと、
を含む帳票処理プログラム。 To be executed by the control unit of a form processing device including a control unit,
For the reading candidate list data for holding the text data expected to be described in the reading area of the form for each reading area, it is set in the master under the control of the business system associated with the reading area. Setting steps to set text data for each reading area,
Based on the image data of the form, the reading step of reading the text data for each reading area by executing the character recognition process accompanied by the reference of the reading candidate list data after the setting by the setting step.
For each reading area, a name identification step for acquiring text data set in the master, which is similar to the text data read in the reading step, and
A form processing program that includes.
帳票の読取領域への記載が想定されるテキストデータを読取領域毎に保持するための読取候補リストデータに対し、読取領域と関連付けられている、業務システムの管理下にあるマスタに設定されているテキストデータを、読取領域毎に設定する設定ステップと、
前記帳票の画像データを基に、前記設定ステップによる設定後の前記読取候補リストデータの参照を伴う文字認識処理を実行することにより、読取領域毎にテキストデータを読み取る読取ステップと、
読取領域毎に、前記読取ステップで読み取られたテキストデータと類似する、前記マスタに設定されているテキストデータを取得する名寄せステップと、
を含む帳票処理方法。 The control unit of the form processing device including the control unit executes the operation.
For the reading candidate list data for holding the text data expected to be described in the reading area of the form for each reading area, it is set in the master under the control of the business system associated with the reading area. Setting steps to set text data for each reading area,
Based on the image data of the form, the reading step of reading the text data for each reading area by executing the character recognition process accompanied by the reference of the reading candidate list data after the setting by the setting step.
For each reading area, a name identification step for acquiring text data set in the master, which is similar to the text data read in the reading step, and
Form processing method including.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020144775A JP2022039640A (en) | 2020-08-28 | 2020-08-28 | Business form processing apparatus, business form processing program and business form processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020144775A JP2022039640A (en) | 2020-08-28 | 2020-08-28 | Business form processing apparatus, business form processing program and business form processing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022039640A true JP2022039640A (en) | 2022-03-10 |
Family
ID=80499143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020144775A Pending JP2022039640A (en) | 2020-08-28 | 2020-08-28 | Business form processing apparatus, business form processing program and business form processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022039640A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022118817A1 (en) | 2021-07-29 | 2023-02-02 | Canon Kabushiki Kaisha | Image pickup device used as an action camera, control method for the same, and storage medium storing a control program for the same |
JP7339708B1 (en) | 2022-09-29 | 2023-09-06 | 株式会社トランザック | PROGRAM, BUSINESS INFORMATION CONFIRMATION METHOD AND BUSINESS INFORMATION CONFIRMATION SYSTEM |
-
2020
- 2020-08-28 JP JP2020144775A patent/JP2022039640A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102022118817A1 (en) | 2021-07-29 | 2023-02-02 | Canon Kabushiki Kaisha | Image pickup device used as an action camera, control method for the same, and storage medium storing a control program for the same |
JP7339708B1 (en) | 2022-09-29 | 2023-09-06 | 株式会社トランザック | PROGRAM, BUSINESS INFORMATION CONFIRMATION METHOD AND BUSINESS INFORMATION CONFIRMATION SYSTEM |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4366108B2 (en) | Document search apparatus, document search method, and computer program | |
US9384389B1 (en) | Detecting errors in recognized text | |
US7961943B1 (en) | Integrated document editor | |
US20190294912A1 (en) | Image processing device, image processing method, and image processing program | |
JP2022039640A (en) | Business form processing apparatus, business form processing program and business form processing method | |
JP6743445B2 (en) | Portable information device and program | |
KR102442350B1 (en) | Information analyzing method for performing autamatic generating of document based on artificial intelligence and apparatus therefor | |
US20210397798A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP2021077332A (en) | Information processing apparatus, server, system, information processing method, and program | |
CN111274458B (en) | Multi-language checking method and system for application software | |
CN113449732A (en) | Information processing apparatus, image reading apparatus, recording medium, and information processing method | |
US20200026915A1 (en) | Information processing apparatus and information processing method | |
JP7027757B2 (en) | Information processing equipment and information processing programs | |
JP5380970B2 (en) | Document processing apparatus and program | |
JP2018101327A (en) | Data registering apparatus and data registering method | |
US20220207900A1 (en) | Information processing apparatus, information processing method, and storage medium | |
JP6870159B1 (en) | Data processing equipment, data processing methods and programs | |
WO2022004097A1 (en) | Information processing device, information processing method, and computer program | |
KR20230013849A (en) | Character recognition method and system robust to errors of character recognition that recognize information included in tables | |
JP2021018520A (en) | Information processor, information processing method, and program | |
TWI648685B (en) | A system and method for identifying a form and establishing a dynamic form automatically | |
JP6682827B2 (en) | Information processing apparatus and information processing program | |
JP2011008584A (en) | Apparatus and program for processing information | |
JP2019175509A (en) | Data input device, data input program, and data input system | |
JP2007052614A (en) | Documentat management device, document management system and document management method |