JP2022032831A - Information processing device and program - Google Patents

Information processing device and program Download PDF

Info

Publication number
JP2022032831A
JP2022032831A JP2020137068A JP2020137068A JP2022032831A JP 2022032831 A JP2022032831 A JP 2022032831A JP 2020137068 A JP2020137068 A JP 2020137068A JP 2020137068 A JP2020137068 A JP 2020137068A JP 2022032831 A JP2022032831 A JP 2022032831A
Authority
JP
Japan
Prior art keywords
information processing
unit
item
processing device
items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020137068A
Other languages
Japanese (ja)
Inventor
隆司 小池
Takashi Koike
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infordio Co Ltd
Original Assignee
Infordio Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infordio Co Ltd filed Critical Infordio Co Ltd
Priority to JP2020137068A priority Critical patent/JP2022032831A/en
Publication of JP2022032831A publication Critical patent/JP2022032831A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

To provide an information processing device and program for enabling machine learning to make a description subject of a document correspond to a prescribed item without defining the document.SOLUTION: According to an embodiment of the present invention, an information processing device for processing a document by text mapping is provided. The information processing device includes a learned model holding part, a correspondence determination part, and a provision part. The learned model holding part holds a learned model which performs machine learning of a set of description subjects of a document and an item names of description subjects as teacher data. The correspondence determination part is configured to be able to determine which of the prescribed item names each of the description subjects included in a document file corresponds to. The provision part is configured to be able to provide the set of the description subject and the item name determined by the correspondence determination part.SELECTED DRAWING: Figure 3

Description

本発明は、情報処理装置及びプログラムに関する。 The present invention relates to an information processing apparatus and a program.

企業等の組織においては、多くの帳票が用いられている。一方で、これらの組織においては、コンピュータを利用して業務が遂行されることが多く、帳票の内容をコンピュータで利用可能な電子データとして入力する必要があり、この入力作業が軽減されることが望まれている。 Many forms are used in organizations such as companies. On the other hand, in these organizations, business is often carried out using a computer, and it is necessary to input the contents of the form as electronic data that can be used by the computer, and this input work may be reduced. It is desired.

このため、帳票の画像からOCR(Optical Character Recognition:光学的文字認識)を利用して文字を認識し、帳票の電子化作業を軽減することが行われており、OCRの制度を向上させるための技術も提案されている(例えば、特許文献1を参照)。 For this reason, characters are recognized from the image of the form using OCR (Optical Character Recognition) to reduce the digitization work of the form, in order to improve the OCR system. Techniques have also been proposed (see, for example, Patent Document 1).

特開2019-82814号公報Japanese Unexamined Patent Publication No. 2019-82814

ところで、一般的に、帳票は、項目名と項目内容の組み合わせにより構成されるが、項目名が省略され、項目内容のみが帳票に記載されている場合が多い。例えば、項目名が「帳票種別」であり、項目内容が「請求書」である場合、帳票には、「帳票種別」が省略され、「請求書」の文字列のみが記載される。 By the way, in general, a form is composed of a combination of an item name and an item content, but in many cases, the item name is omitted and only the item content is described in the form. For example, when the item name is "form type" and the item content is "invoice", the "form type" is omitted in the form and only the character string of "invoice" is described.

また、帳票のフォーマットは、統一されておらず、発行者によって異なるフォーマットの帳票が用いられることが一般的である。 In addition, the format of the form is not unified, and it is common that a form having a different format is used depending on the issuer.

このため、帳票に記載されている文字や文字列を認識することができたとしても、認識した文字や文字列が、どの項目に相当するものであるか(テキストマッピング)を人の判断に委ねることが多い。 Therefore, even if the characters and character strings described in the form can be recognized, it is left to the judgment of the person to determine which item the recognized characters and character strings correspond to (text mapping). Often.

また、比較的よく利用されるフォーマットの帳票に対しては、位置指定等の定義を行うことで、自動抽出を行うことが可能であるが、この場合でも、帳票のフォーマット毎の定義が必要であり、フォーマットの些細な変更があった場合でも、定義の変更が必要となる場合が多い。 In addition, it is possible to perform automatic extraction by defining the position designation etc. for the form of the format that is relatively often used, but even in this case, it is necessary to define each form format. Yes, even if there is a minor change in the format, it is often necessary to change the definition.

本発明では上記事情を鑑み、帳票に対する定義をすることなく、機械学習により帳票の記載事項を所定の項目に対応させることのできる情報処理装置及びプログラムを提供することとした。 In view of the above circumstances, the present invention has determined to provide an information processing device and a program capable of making the items described in a form correspond to a predetermined item by machine learning without defining the form.

本発明の一態様によれば、テキストマッピングによる帳票の処理を行う情報処理装置が提供される。この情報処理装置は、学習済モデル保持部と、対応判定部と、提供部とを備える。学習済モデル保持部は、帳票の記載事項と該記載事項の項目名との組を教師データとして機械学習した学習済モデルを保持する。対応判定部は、学習済モデルに基づいて、帳票ファイルに含まれる記載事項のそれぞれが所定の項目名のいずれに対応するかを判定可能に構成される。提供部は、対応判定部が判定した記載事項と項目名との組を提供可能に構成される。 According to one aspect of the present invention, there is provided an information processing apparatus that processes a form by text mapping. This information processing device includes a trained model holding unit, a correspondence determination unit, and a providing unit. The trained model holding unit holds a trained model that has been machine-learned using the set of the items described in the form and the item names of the items as teacher data. The correspondence determination unit is configured to be able to determine which of the predetermined item names each of the items described in the form file corresponds to, based on the trained model. The providing unit is configured to be able to provide a set of the description items and the item names determined by the correspondence determination unit.

本発明の一態様によれば、予め帳票に対する定義を行うことなく、帳票の記載事項を所定の項目に対応させて抽出することが可能となる。 According to one aspect of the present invention, it is possible to extract the items described in the form in correspondence with the predetermined items without defining the form in advance.

本発明の実施形態に係る情報処理装置1と他の装置との接続構成を示した図である。It is a figure which showed the connection structure of the information processing apparatus 1 which concerns on embodiment of this invention, and other apparatus. 情報処理装置1の構成の概略を示した図である。It is a figure which showed the outline of the structure of the information processing apparatus 1. 情報処理装置1の機能的な構成を示すブロック図である。It is a block diagram which shows the functional structure of an information processing apparatus 1. 情報処理装置1の動作の流れを示すアクティビティ図である。It is an activity diagram which shows the flow of operation of an information processing apparatus 1. 判定結果を示す画面例を示した図である。It is a figure which showed the screen example which shows the determination result. 学習と判定の例を説明するための図である。It is a figure for demonstrating an example of learning and judgment. 学習と判定の例を説明するための図である。It is a figure for demonstrating an example of learning and judgment. 学習と判定の例を説明するための図である。It is a figure for demonstrating an example of learning and judgment.

以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. The various features shown in the embodiments shown below can be combined with each other.

ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。 By the way, the program for realizing the software appearing in the present embodiment may be provided as a non-temporary recording medium readable by a computer, may be provided as a downloadable form from an external server, or may be provided. It may be provided to start the program on an external computer and realize the function on the client terminal (so-called cloud computing).

また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。 Further, in the present embodiment, the "part" may include, for example, a combination of hardware resources implemented by a circuit in a broad sense and information processing of software specifically realized by these hardware resources. .. In addition, various information is handled in this embodiment, and these information are, for example, physical values of signal values representing voltage and current, and signal values as a bit aggregate of a binary number composed of 0 or 1. It is represented by high-low or quantum superposition (so-called qubit), and communication / operation can be executed on a circuit in a broad sense.

また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。 Further, a circuit in a broad sense is a circuit realized by at least appropriately combining a circuit, a circuit, a processor, a memory, and the like. That is, an integrated circuit for a specific application (Application Specific Integrated Circuit: ASIC), a programmable logic device (for example, a simple programmable logic device (Simple Programmable Logic Device: SPLD), a composite programmable logic device (Complex Programg)). It includes a programmable gate array (Field Programmable Gate Array: FPGA) and the like.

1.全体構成
図1は、本発明の実施形態に係る情報処理装置1と他の装置との接続構成を示した図である。同図に示すように、情報処理装置1は、ネットワーク5に接続されている。ネットワーク5は、例えば、組織内のLAN(Local Area Network)やインターネットである。この情報処理装置1は、ネットワーク5を介して、情報処理端末2、情報処理端末4と通信可能に接続される。
1. 1. Overall Configuration FIG. 1 is a diagram showing a connection configuration between the information processing apparatus 1 according to the embodiment of the present invention and another apparatus. As shown in the figure, the information processing apparatus 1 is connected to the network 5. The network 5 is, for example, a LAN (Local Area Network) or the Internet in an organization. The information processing device 1 is communicably connected to the information processing terminal 2 and the information processing terminal 4 via the network 5.

情報処理端末2は、帳票の処理を行う担当者等が用いる端末であり、帳票ファイルの情報処理装置1へのアップロードや、当該帳票ファイルから抽出された記載事項の取得等を行うことができるものである。 The information processing terminal 2 is a terminal used by a person in charge of processing a form, and can upload a form file to the information processing device 1 and acquire items to be described extracted from the form file. Is.

また、情報処理端末2には、スキャナ3が接続されるようにしてもよく、スキャナ3により紙面に印刷された帳票等を光学的に読み取って画像化した帳票ファイルを生成し、生成した帳票ファイルを情報処理端末2から情報処理装置1へアップロードすることができる。なお、スキャナ3は、情報処理端末2を介さずに、直接、帳票ファイルを情報処理装置1へアップロードするようにすることもできる。 Further, the scanner 3 may be connected to the information processing terminal 2, and the form file printed by the scanner 3 on the paper surface is optically read to generate an imaged form file, and the generated form file is generated. Can be uploaded from the information processing terminal 2 to the information processing device 1. The scanner 3 can also upload the form file directly to the information processing apparatus 1 without going through the information processing terminal 2.

なお、情報処理端末2は、ウェブブラウザ又は専用のソフトウェアが動作するパーソナルコンピュータ等である。専用のソフトウェアを利用する場合には、情報処理端末2と情報処理装置1との間の通信は、API(Application Programming Interface)を介して行うようにすることができる。 The information processing terminal 2 is a web browser, a personal computer on which dedicated software is operated, or the like. When the dedicated software is used, the communication between the information processing terminal 2 and the information processing apparatus 1 can be performed via API (Application Programming Interface).

情報処理端末4は、情報処理端末2と同様の処理を行うが、カメラが搭載されたスマートフォン、タブレット等であり、搭載されたカメラで、帳票を撮影することで、帳票ファイルを生成する。 The information processing terminal 4 performs the same processing as the information processing terminal 2, but is a smartphone, tablet, or the like equipped with a camera, and a form file is generated by taking a form with the mounted camera.

2.情報処理装置1の構成
図2は、情報処理装置1の構成の概略を示した図である。同図に示すように、情報処理装置1は、処理部11と、記憶部12と、一時記憶部13と、外部装置接続部14と、通信部15とを有しており、これらの構成要素が情報処理装置1の内部において通信バス16を介して電気的に接続されている。
2. 2. Configuration of Information Processing Device 1 FIG. 2 is a diagram showing an outline of the configuration of information processing device 1. As shown in the figure, the information processing apparatus 1 has a processing unit 11, a storage unit 12, a temporary storage unit 13, an external device connection unit 14, and a communication unit 15, and these components are included. Is electrically connected to the inside of the information processing apparatus 1 via the communication bus 16.

処理部11は、例えば、中央処理装置(Central Processing Unit:CPU)により実現されるもので、記憶部12に記憶された所定のプログラムに従って動作し、種々の機能を実現する。 The processing unit 11 is realized by, for example, a central processing unit (CPU), operates according to a predetermined program stored in the storage unit 12, and realizes various functions.

記憶部12は、様々な情報を記憶する不揮発性の記憶媒体である。これは、例えばハードディスクドライブ(Hard Disk Drive:HDD)やソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスにより実現される。なお、記憶部12は、情報処理装置1と通信可能な別の装置に配するようにすることも可能である。 The storage unit 12 is a non-volatile storage medium that stores various information. This is realized by a storage device such as a hard disk drive (Hard Disk Drive: HDD) or a solid state drive (Solid State Drive: SSD). The storage unit 12 can be arranged in another device capable of communicating with the information processing device 1.

一時記憶部13は、揮発性の記憶媒体である。これは、例えばランダムアクセスメモリ(Random Access Memory:RAM)等のメモリにより実現され、処理部11が動作する際に一時的に必要な情報(引数、配列等)を記憶する。 The temporary storage unit 13 is a volatile storage medium. This is realized by, for example, a memory such as a random access memory (Random Access Memory: RAM), and temporarily stores information (arguments, arrays, etc.) required when the processing unit 11 operates.

外部装置接続部14は、例えばユニバーサルシリアルバス(Universal Serial Bus:USB)や高精細度マルチメディアインターフェース(High-Definition Multimedia Interface:HDMI)といった規格に準じた接続部であり、モニタ等の表示装置やキーボード等の入力装置を接続可能としている。 The external device connection unit 14 is a connection unit conforming to a standard such as a universal serial bus (USB) or a high-definition multimedia interface (HDMI), and may be a display device such as a monitor or the like. An input device such as a keyboard can be connected.

通信部15は、例えばローカルエリアネットワーク(Local Area Network:LAN)規格に準じた通信手段であり、情報処理装置1とローカルエリアネットワークやこれを介したインターネット等のネットワーク5との間の通信を実現する。 The communication unit 15 is, for example, a communication means conforming to a local area network (LAN) standard, and realizes communication between the information processing device 1 and a network 5 such as a local area network or the Internet via the information processing device 1. do.

なお、情報処理装置1には、汎用のサーバ向けのコンピュータやパーソナルコンピュータ等を利用することが可能であり、複数のコンピュータを用いて情報処理装置1を構成することも可能である。
3.情報処理装置の機能
次に、情報処理装置1の機能について説明する。情報処理装置1は、プログラムにしたがって動作することで、後述する各機能部を実現する。このプログラムは、コンピュータを情報処理装置1として動作又は機能させるプログラムである。情報処理装置1は、帳票の処理を行う情報処理装置である。
As the information processing device 1, a computer for a general-purpose server, a personal computer, or the like can be used, and the information processing device 1 can be configured by using a plurality of computers.
3. 3. Functions of Information Processing Device Next, the functions of the information processing device 1 will be described. The information processing apparatus 1 operates according to a program to realize each functional unit described later. This program is a program that operates or functions the computer as the information processing device 1. The information processing device 1 is an information processing device that processes forms.

図3は、情報処理装置1の機能的な構成を示すブロック図である。同図に示すように、情報処理装置1は、受付部101と、帳票データ保持部102と、文字判定部103と、学習部104と、学習済モデル保持部105と、対応判定部106と、提供部107とを備える。 FIG. 3 is a block diagram showing a functional configuration of the information processing apparatus 1. As shown in the figure, the information processing apparatus 1 includes a reception unit 101, a form data holding unit 102, a character determination unit 103, a learning unit 104, a learned model holding unit 105, and a correspondence determination unit 106. It is provided with a providing unit 107.

受付部101は、情報処理端末2や情報処理端末4から処理対象となる帳票ファイルを受け付ける。帳票ファイルは、スキャナ3で読み込まれた画像や情報処理端末4のカメラで撮影された画像であってもよく、テキスト(文字コード)を含むPDF(Portable Document Format)形式等であってもよい。 The reception unit 101 receives the form file to be processed from the information processing terminal 2 or the information processing terminal 4. The form file may be an image read by the scanner 3 or an image taken by the camera of the information processing terminal 4, or may be in a PDF (Portable Document Form) format including a text (character code).

また、受付部101は、提供部107が提供した記載事項と項目名との組に対する確認指示を受け付け可能に構成される。確認指示は、提供部107が提供した記載事項と項目名との組に誤りが無かったことを確認した旨を示す指示である。さらに、受付部101は、提供部107が提供した記載事項と項目名との組に対する訂正指示を受け付け可能に構成される。訂正指示は、提供部107が提供した記載事項と項目名との組に誤りがあった場合に、その訂正を指示するものである。なお、確認指示や訂正指示は、情報処理端末2や情報処理端末4から発せられるものである。 Further, the reception unit 101 is configured to be able to receive confirmation instructions for the set of the description items and the item names provided by the provision unit 107. The confirmation instruction is an instruction indicating that it has been confirmed that there is no error in the set of the description item and the item name provided by the providing unit 107. Further, the reception unit 101 is configured to be able to receive correction instructions for the set of the description items and the item names provided by the provision unit 107. The correction instruction is to instruct the correction when there is an error in the set of the description item and the item name provided by the providing unit 107. The confirmation instruction and the correction instruction are issued from the information processing terminal 2 and the information processing terminal 4.

帳票データ保持部102は、受付部101が受け付けた帳票ファイルや、この帳票ファイルに対して文字判定部103が文字の判定を行った結果であるテキストに関する情報、対応判定部106が判定した記載事項と項目名との組、提供部107が受け付けた訂正指示に含まれる訂正された記載事項と項目名との組等を、保持する。なお、帳票データ保持部102は、情報処理装置1とは別の情報処理装置に配設することも可能である。 The form data holding unit 102 includes information about the form file received by the reception unit 101, text related to the result of character determination by the character determination unit 103 for the form file, and description items determined by the correspondence determination unit 106. The set of the item name and the item name, the set of the corrected description item and the item name included in the correction instruction received by the providing unit 107, and the like are retained. The form data holding unit 102 can also be arranged in an information processing device different from the information processing device 1.

文字判定部103は、帳票ファイルが画像を含んで構成される場合に、該画像中の文字を光学的認識により判定可能に構成される。文字判定部103により判定された文字又は文字列は、テキストとして帳票ファイルに関連付けられて、帳票データ保持部102で保持される。 When the form file includes an image, the character determination unit 103 is configured to be able to determine the characters in the image by optical recognition. The character or character string determined by the character determination unit 103 is associated with the form file as text and is held by the form data holding unit 102.

学習部104は、受付部101が確認指示を受け付けた場合に、提供部107が提供した記載事項と項目名との組を教師データに加えて機械学習を行い、学習済モデル保持部105が保持している学習済モデルを更新可能に構成される。また、学習部104は、受付部101が訂正指示を受け付けた場合に、該訂正指示により訂正された記載事項と項目名との組を教師データに加えて機械学習を行い、学習済モデル保持部105が保持している学習済モデルを更新可能に構成される。学習済モデルは、帳票の各記載事項が、どのような項目であるのかを判定する際に、対応判定部106が用いるものである。なお、学習及び学習済モデルの例については、後述する。 When the reception unit 101 receives the confirmation instruction, the learning unit 104 adds the set of the description items and the item names provided by the providing unit 107 to the teacher data to perform machine learning, and the trained model holding unit 105 holds the learning unit 104. The trained model is configured to be updatable. Further, when the reception unit 101 receives the correction instruction, the learning unit 104 performs machine learning by adding the set of the description item corrected by the correction instruction and the item name to the teacher data, and performs machine learning, and the trained model holding unit The trained model held by 105 is configured to be updatable. The trained model is used by the correspondence determination unit 106 when determining what kind of item each item of the form is. Examples of the trained and trained models will be described later.

学習済モデル保持部105は、帳票の記載事項と該記載事項の項目名との組を教師データとして機械学習した学習済モデルを保持する。学習済モデル保持部105が保持する学習済モデルは、学習部104で学習が行われる毎に更新される。 The trained model holding unit 105 holds a trained model that has been machine-learned using a set of the items described in the form and the item names of the items as teacher data. The trained model held by the trained model holding unit 105 is updated every time learning is performed by the learning unit 104.

対応判定部106は、学習済モデル保持部105が保持する学習済モデルに基づいて、帳票ファイルに含まれる記載事項のそれぞれが所定の項目名のいずれに対応するかを判定可能に構成される。このとき、対応判定部106は、記載事項と項目名との組に対する確信度を算出するようにしてもよい。確信度は、記載事項と項目名との組が正しい確率である。 The correspondence determination unit 106 is configured to be able to determine which of the predetermined item names each of the items described in the form file corresponds to, based on the trained model held by the trained model holding unit 105. At this time, the correspondence determination unit 106 may calculate the degree of certainty for the set of the description item and the item name. Conviction is the probability that the set of items and item names is correct.

提供部107は、対応判定部106が判定した記載事項と項目名との組を提供可能に構成される。このとき、提供部107は、対応判定部106が判定した記載事項と項目名との組とともに、該組に対する確信度を提供するようにしてもよく、対応判定部106が判定した記載事項と項目名との組を、確信度に応じて設定された色により表現するようにしてもよい。また、提供部107は、記載事項と項目名との組を、CSV(Comma Separated Value)形式等のファイルとして提供してもよい。 The providing unit 107 is configured to be able to provide a set of the description items and the item names determined by the correspondence determination unit 106. At this time, the providing unit 107 may provide the conviction for the set together with the set of the description item and the item name determined by the correspondence determination unit 106, and the description item and the item determined by the correspondence determination unit 106. The pair with the name may be expressed by the color set according to the degree of conviction. Further, the providing unit 107 may provide a set of the description items and the item names as a file in CSV (Comma Separated Value) format or the like.

4.情報処理装置の動作
次に、情報処理装置1の動作について説明する。図4は、情報処理装置1の動作の流れを示すアクティビティ図である。
4. Operation of Information Processing Device Next, the operation of the information processing device 1 will be described. FIG. 4 is an activity diagram showing an operation flow of the information processing apparatus 1.

情報処理装置1は、情報処理端末2又は情報処理端末4から帳票ファイルがアップロードされると、受付部101が当該帳票ファイルを受け付けて(A101)、帳票データ保持部102に保持する。そして、受け付けた帳票ファイルが画像であった場合には、文字判定部103が、OCR処理により文字の判定を行う(A102)。 When the form file is uploaded from the information processing terminal 2 or the information processing terminal 4, the information processing apparatus 1 receives the form file (A101) by the reception unit 101 and holds it in the form data holding unit 102. Then, when the received form file is an image, the character determination unit 103 determines the character by OCR processing (A102).

続いて、対応判定部106が、帳票ファイルに含まれる記載事項と項目名との対応を判定し(A103)、その判定結果を提供部107が、情報処理端末2又は情報処理端末4に提供する(A104)。 Subsequently, the correspondence determination unit 106 determines the correspondence between the description items included in the form file and the item name (A103), and the provision unit 107 provides the determination result to the information processing terminal 2 or the information processing terminal 4. (A104).

提供部107は、例えば、図5に示す画面Sを、情報処理端末2又は情報処理端末4に表示させることで、判定結果を提供する。図5は、判定結果を示す画面例を示した図である。同図に示すように、画面Sには、帳票ファイルに基づく帳票画像501とともに、判定結果を示すテーブルTが表示されている。テーブルTは、例えば、項目名として「請求日」、対応する記載事項として「2020年8月1日」、これらの対応の確信度として「82.5」が表示されている。記載事項の「2020年8月1日」は、帳票画像501中の記載事項C1に対応するものである。 The providing unit 107 provides a determination result by displaying the screen S shown in FIG. 5 on the information processing terminal 2 or the information processing terminal 4, for example. FIG. 5 is a diagram showing a screen example showing the determination result. As shown in the figure, on the screen S, a table T showing a determination result is displayed together with a form image 501 based on the form file. In the table T, for example, "billing date" is displayed as the item name, "August 1, 2020" is displayed as the corresponding description item, and "82.5" is displayed as the certainty of these correspondences. The item "August 1, 2020" corresponds to the item C1 in the form image 501.

また、帳票画像501中の記載事項C1、記載事項C2、記載事項C3は、それぞれ対応する確信度に応じて、異なる色で表示させるようにしてもよい。 Further, the description item C1, the description item C2, and the description item C3 in the form image 501 may be displayed in different colors according to the corresponding certainty degrees.

項目名と記載事項の組に誤りがあった場合、例えば、項目名「請求日」に対する記載事項に誤りがあった場合には、テーブルTの項目名「請求日」が含まれている行を選択した上で、帳票画像中の記載事項C2等を選択することで、情報処理端末2又は情報処理端末4を操作している担当者は、項目名と記載事項の組の訂正を指示することができる。また、訂正が不要である場合には、担当者は、確認指示を通知する操作を行う。この操作は、図示しない確認ボタンの押下により行われる。 If there is an error in the set of the item name and the description item, for example, if there is an error in the description item for the item name "billing date", the row containing the item name "billing date" in the table T is inserted. After selecting, by selecting the entry item C2 or the like in the form image, the person in charge of operating the information processing terminal 2 or the information processing terminal 4 shall instruct the correction of the set of the item name and the entry item. Can be done. If correction is not necessary, the person in charge performs an operation of notifying the confirmation instruction. This operation is performed by pressing a confirmation button (not shown).

担当者が、項目名と記載事項の組の訂正を指示した場合には、受付部101が訂正指示を受け付けて、対応判定部106が、当該訂正指示に基づいて、項目名と記載事項の組の訂正を行う(A105)。 When the person in charge instructs to correct the set of the item name and the description item, the reception unit 101 receives the correction instruction, and the response determination unit 106 receives the correction instruction, and the response determination unit 106 receives the correction instruction and sets the item name and the description item based on the correction instruction. Is corrected (A105).

その後、学習部104が、対応判定部106が判定した項目名と記載事項の組又は訂正された項目名と記載事項の組を教師データとして学習を行い、その結果に応じて、学習済モデル保持部105が保持する学習済モデルを更新し(A106)、情報処理装置1は、A101で受け付けた帳票ファイルに対する処理を終了する。 After that, the learning unit 104 learns the set of the item name and the description item determined by the correspondence determination unit 106 or the set of the corrected item name and the description item as teacher data, and holds the trained model according to the result. The trained model held by the unit 105 is updated (A106), and the information processing apparatus 1 ends the processing for the form file received by the A101.

5.学習と判定の例
次に、学習部104による学習と、対応判定部106による判定の例について説明する。図6乃至図8は、学習と判定の例を説明するための図である。
5. Example of learning and determination Next, an example of learning by the learning unit 104 and determination by the correspondence determination unit 106 will be described. 6 to 8 are diagrams for explaining an example of learning and determination.

学習部104は、まず、帳票ファイルに含まれる各記載事項の特徴量を求める。特徴量は、例えば、文字又は文字列の配置された位置、字体(フォント)、内容、色、周辺の罫線の有無等のN種類のものが求められる。具体的には、機械学習のための特徴量は、記載事項の絶対座標と、記載事項の相対座標と、項目名の類義語との位置ベクトル位置と、記載事項の文字ベクトルとのいずれか2つ以上の組み合わせである。したがてって特徴量は、N次元の値となり、これをN次元の空間で表したとすれば、図6に示すようになる。図6は、帳票画像502中の記載事項C4、記載事項C5、記載事項C6のそれぞれに対応する特徴量F4、特徴量F5、特徴量F6がN次元空間に配置されている例を示している。なお、特徴量F4、特徴量F5、特徴量F6のN次元空間への配置は、説明のためのものであり、学習部104が特徴量F4、特徴量F5、特徴量F6のN次元空間への配置を行う必要はない。 First, the learning unit 104 obtains the feature amount of each description item included in the form file. As the feature amount, for example, N types such as the position where the character or the character string is arranged, the font, the content, the color, and the presence or absence of the peripheral ruled line are required. Specifically, there are two feature quantities for machine learning: the absolute coordinates of the items to be described, the relative coordinates of the items to be described, the position vector position of the synonym of the item name, and the character vector of the items to be described. The above combination. Therefore, the feature amount becomes an N-dimensional value, and if this is expressed in an N-dimensional space, it will be as shown in FIG. FIG. 6 shows an example in which the feature amount F4, the feature amount F5, and the feature amount F6 corresponding to each of the description item C4, the description item C5, and the description item C6 in the form image 502 are arranged in the N-dimensional space. .. The arrangement of the feature amount F4, the feature amount F5, and the feature amount F6 in the N-dimensional space is for explanation, and the learning unit 104 moves to the N-dimensional space of the feature amount F4, the feature amount F5, and the feature amount F6. There is no need to place.

学習部104は、複数の帳票ファイルに含まれる各記載事項の特徴量を求めると、これらの特徴量から各項目が配置されると推定される範囲を特定する。この範囲をN次元空間で表すと、図7に示すようになる。図7に示す範囲R1は、特徴量F4と同じ「請求日」に対応する特徴量を多く含む領域であり、範囲R2は、特徴量F5と同じ「請求金額」に対応する特徴量を多く含む領域である。また、範囲R3は、特徴量F6と同じ「銀行口座」に対応する特徴量を多く含む領域である。学習済モデル保持部105が保持する学習済モデルは、範囲R1、範囲R2、範囲R3を示す値となる。 When the learning unit 104 obtains the feature amount of each description item included in the plurality of form files, the learning unit 104 specifies a range in which each item is estimated to be arranged from these feature amounts. When this range is expressed in N-dimensional space, it is as shown in FIG. The range R1 shown in FIG. 7 is a region containing a large amount of features corresponding to the same “billing date” as the feature amount F4, and the range R2 includes a large amount of features corresponding to the same “billing amount” as the feature amount F5. It is an area. Further, the range R3 is a region containing a large amount of features corresponding to the same "bank account" as the feature amount F6. The trained model held by the trained model holding unit 105 has values indicating a range R1, a range R2, and a range R3.

一方、対応判定部106は、まず、対象となる帳票ファイルに含まれる各記載事項の特徴量を求める。そして、求めた特徴量が学習済モデルのどの範囲に含まれるかによって、各記載事項に対応する項目名を判定する。例えば、図8に示すように、帳票画像503の記載事項C7、記載事項C8、記載事項C9のそれぞれから求めた特徴量F7、特徴量F8、特徴量F9が、それぞれ、範囲R1、範囲R2、範囲R3に含まれた場合、範囲R1に含まれる特徴量F7に対応する記載事項C7の項目名は「請求日」であると判定し、範囲R2に含まれる特徴量F8に対応する記載事項C8の項目名は「請求金額」であると判定し、範囲R3に含まれる特徴量F9に対応する記載事項C9の項目名は「銀行口座」であると判定する。 On the other hand, the correspondence determination unit 106 first obtains the feature amount of each description item included in the target form file. Then, the item name corresponding to each description item is determined depending on the range of the trained model in which the obtained feature amount is included. For example, as shown in FIG. 8, the feature amount F7, the feature amount F8, and the feature amount F9 obtained from each of the description item C7, the description item C8, and the description item C9 of the form image 503 are the range R1, the range R2, respectively. When it is included in the range R3, it is determined that the item name of the item C7 corresponding to the feature amount F7 included in the range R1 is "billing date", and the item name C8 corresponding to the feature amount F8 included in the range R2 is determined. It is determined that the item name of the item C9 corresponding to the feature amount F9 included in the range R3 is "bank account".

また、対応判定部106は、記載事項の特徴量が学習済モデルの範囲中のどの位置に存在するかによって確信度を求めることができる。具体的には、記載事項の特徴量が存在する位置が、学習済モデルの範囲の中心に近いほど、確信度が高くなる。 Further, the correspondence determination unit 106 can determine the degree of certainty depending on the position in the range of the trained model where the feature amount of the described item exists. Specifically, the closer the position where the feature quantity of the description item exists to the center of the range of the trained model, the higher the conviction.

5.その他
本発明は、次に記載の各態様で提供されてもよい。
前記情報処理装置において、文字判定部を備え、前記文字判定部は、前記帳票ファイルが画像を含んで構成される場合に、該画像中の文字を光学的認識により判定可能に構成される情報処理装置。
前記情報処理装置において、受付部と、学習部とを備え、前記受付部は、前記提供部が提供した記載事項と項目名との組に対する確認指示を受け付け可能に構成され、前記学習部は、前記受付部が確認指示を受け付けた場合に、前記提供部が提供した記載事項と項目名との組を教師データに加えて機械学習を行い、前記学習済モデルを更新可能に構成される情報処理装置。
前記情報処理装置において、受付部と、学習部とを備え、前記受付部は、前記提供部が提供した記載事項と項目名との組に対する訂正指示を受け付け可能に構成され、前記学習部は、前記受付部が訂正指示を受け付けた場合に、該訂正指示により訂正された記載事項と項目名との組を教師データに加えて機械学習を行い、前記学習済モデルを更新可能に構成される情報処理装置。
前記情報処理装置において、前記対応判定部は、記載事項と項目名との組に対する確信度を算出し、前記提供部は、前記対応判定部が判定した記載事項と項目名との組とともに、該組に対する確信度を提供する情報処理装置。
前記情報処理装置において、前記提供部は、前記対応判定部が判定した記載事項と項目名との組を、前記確信度に応じて設定された色により表現する情報処理装置。
前記情報処理装置において、前記機械学習のための特徴量は、記載事項の絶対座標と、記載事項の相対座標と、項目名の類義語との位置ベクトル位置と、記載事項の文字ベクトルとのいずれか2つ以上の組み合わせである情報処理装置。
コンピュータを情報処理装置として動作させるプログラムであって、コンピュータを前記情報処理装置として機能させるプログラム。
もちろん、この限りではない。
5. Others The present invention may be provided in each of the following embodiments.
The information processing apparatus includes a character determination unit, and the character determination unit is configured to be capable of determining characters in an image by optical recognition when the form file includes an image. Device.
The information processing apparatus includes a reception unit and a learning unit, and the reception unit is configured to be able to receive confirmation instructions for a set of description items and item names provided by the information processing unit. Information processing configured so that when the reception unit receives a confirmation instruction, machine learning is performed by adding a set of the description items and item names provided by the provision unit to the teacher data, and the trained model can be updated. Device.
The information processing apparatus includes a reception unit and a learning unit, and the reception unit is configured to be able to receive correction instructions for a set of description items and item names provided by the information processing unit. When the reception unit receives a correction instruction, the set of the description item corrected by the correction instruction and the item name is added to the teacher data to perform machine learning, and the trained model can be updated. Processing equipment.
In the information processing apparatus, the correspondence determination unit calculates the certainty of the set of the description item and the item name, and the provision unit together with the set of the description item and the item name determined by the correspondence determination unit. An information processing device that provides confidence in a pair.
In the information processing device, the providing unit is an information processing device that expresses a set of a description item and an item name determined by the correspondence determination unit with colors set according to the certainty.
In the information processing apparatus, the feature quantity for the machine learning is one of the absolute coordinates of the description item, the relative coordinates of the description item, the position vector position of the synonym of the item name, and the character vector of the description item. An information processing device that is a combination of two or more.
A program that operates a computer as an information processing device, and is a program that causes the computer to function as the information processing device.
Of course, this is not the case.

これらの各態様によれば、帳票の処理を行う毎に、学習を行うため、事前に多量の教師データを準備することなく、情報処理装置1を利用することが可能となり、また、帳票の処理を繰り返す毎に、学習の効果が大きくなり、判定に対する確信度が向上することとなる。 According to each of these aspects, since learning is performed every time the form is processed, the information processing device 1 can be used without preparing a large amount of teacher data in advance, and the form is processed. Each time the above is repeated, the learning effect is increased and the certainty of the judgment is improved.

1 :情報処理装置
2 :情報処理端末
3 :スキャナ
4 :情報処理端末
5 :ネットワーク
11 :処理部
12 :記憶部
13 :一時記憶部
14 :外部装置接続部
15 :通信部
16 :通信バス
101 :受付部
102 :帳票データ保持部
103 :文字判定部
104 :学習部
105 :学習済モデル保持部
106 :対応判定部
107 :提供部
501 :帳票画像
502 :帳票画像
503 :帳票画像
C1 :記載事項
C2 :記載事項
C3 :記載事項
C4 :記載事項
C5 :記載事項
C6 :記載事項
C7 :記載事項
C8 :記載事項
C9 :記載事項
F4 :特徴量
F5 :特徴量
F6 :特徴量
F7 :特徴量
F8 :特徴量
F9 :特徴量
R1 :範囲
R2 :範囲
R3 :範囲
S :画面
T :テーブル
1: Information processing device 2: Information processing terminal 3: Scanner 4: Information processing terminal 5: Network 11: Processing unit 12: Storage unit 13: Temporary storage unit 14: External device connection unit 15: Communication unit 16: Communication bus 101: Reception unit 102: Form data holding unit 103: Character judgment unit 104: Learning unit 105: Learned model holding unit 106: Correspondence judgment unit 107: Providing unit 501: Form image 502: Form image 503: Form image C1: Items to be described C2 : Description item C3: Description item C4: Description item C5: Description item C6: Description item C7: Description item C8: Description item C9: Description item F4: Feature amount F5: Feature amount F6: Feature amount F7: Feature amount F8: Feature Amount F9: Feature amount R1: Range R2: Range R3: Range S: Screen T: Table

Claims (8)

テキストマッピングによる帳票の処理を行う情報処理装置であって、
学習済モデル保持部と、対応判定部と、提供部とを備え、
前記学習済モデル保持部は、帳票の記載事項と該記載事項の項目名との組を教師データとして機械学習した学習済モデルを保持し、
前記対応判定部は、前記学習済モデルに基づいて、帳票ファイルに含まれる記載事項のそれぞれが所定の項目名のいずれに対応するかを判定可能に構成され、
前記提供部は、前記対応判定部が判定した記載事項と項目名との組を提供可能に構成される
情報処理装置。
An information processing device that processes forms by text mapping.
It has a trained model holding unit, a correspondence determination unit, and a providing unit.
The trained model holding unit holds a trained model that has been machine-learned using the set of the items described in the form and the item names of the items as teacher data.
The correspondence determination unit is configured to be able to determine which of the predetermined item names each of the items described in the form file corresponds to, based on the learned model.
The providing unit is an information processing device configured to be able to provide a set of a description item determined by the correspondence determination unit and an item name.
請求項1に記載の情報処理装置において、
文字判定部を備え、
前記文字判定部は、前記帳票ファイルが画像を含んで構成される場合に、該画像中の文字を光学的認識により判定可能に構成される
情報処理装置。
In the information processing apparatus according to claim 1,
Equipped with a character judgment unit
The character determination unit is an information processing device configured so that when the form file includes an image, the characters in the image can be determined by optical recognition.
請求項1又は請求項2に記載の情報処理装置において、
受付部と、学習部とを備え、
前記受付部は、前記提供部が提供した記載事項と項目名との組に対する確認指示を受け付け可能に構成され、
前記学習部は、前記受付部が確認指示を受け付けた場合に、前記提供部が提供した記載事項と項目名との組を教師データに加えて機械学習を行い、前記学習済モデルを更新可能に構成される
情報処理装置。
In the information processing apparatus according to claim 1 or 2.
It has a reception department and a learning department.
The reception unit is configured to be able to receive confirmation instructions for a set of items and item names provided by the provision unit.
When the reception unit receives the confirmation instruction, the learning unit performs machine learning by adding the set of the description items and the item names provided by the provision unit to the teacher data, and makes it possible to update the trained model. Information processing device to be composed.
請求項1又は請求項2に記載の情報処理装置において、
受付部と、学習部とを備え、
前記受付部は、前記提供部が提供した記載事項と項目名との組に対する訂正指示を受け付け可能に構成され、
前記学習部は、前記受付部が訂正指示を受け付けた場合に、該訂正指示により訂正された記載事項と項目名との組を教師データに加えて機械学習を行い、前記学習済モデルを更新可能に構成される
情報処理装置。
In the information processing apparatus according to claim 1 or 2.
It has a reception department and a learning department.
The reception unit is configured to be able to receive correction instructions for a set of items and item names provided by the provision unit.
When the reception unit receives a correction instruction, the learning unit can perform machine learning by adding a set of a description item corrected by the correction instruction and an item name to the teacher data, and can update the trained model. Information processing device configured in.
請求項1乃至請求項4のいずれか1項に記載の情報処理装置において、
前記対応判定部は、記載事項と項目名との組に対する確信度を算出し、
前記提供部は、前記対応判定部が判定した記載事項と項目名との組とともに、該組に対する確信度を提供する
情報処理装置。
The information processing apparatus according to any one of claims 1 to 4.
The correspondence determination unit calculates the degree of conviction for the set of the description item and the item name, and obtains the conviction.
The providing unit is an information processing device that provides a set of description items and item names determined by the correspondence determination unit and a degree of certainty for the set.
請求項5に記載の情報処理装置において、
前記提供部は、前記対応判定部が判定した記載事項と項目名との組を、前記確信度に応じて設定された色により表現する
情報処理装置。
In the information processing apparatus according to claim 5,
The providing unit is an information processing device that expresses a set of description items and item names determined by the correspondence determination unit in colors set according to the certainty.
請求項1乃至請求項6のいずれか1項に記載の情報処理装置において、
前記機械学習のための特徴量は、記載事項の絶対座標と、記載事項の相対座標と、項目名の類義語との位置ベクトル位置と、記載事項の文字ベクトルとのいずれか2つ以上の組み合わせである
情報処理装置。
The information processing apparatus according to any one of claims 1 to 6.
The feature quantity for machine learning is a combination of two or more of the absolute coordinates of the items to be described, the relative coordinates of the items to be described, the position vector position of the synonym of the item name, and the character vector of the items to be described. An information processing device.
コンピュータを情報処理装置として動作させるプログラムであって、
コンピュータを請求項1乃至請求項7のいずれか1項に記載の情報処理装置として機能させる
プログラム。
A program that operates a computer as an information processing device.
A program that causes a computer to function as the information processing device according to any one of claims 1 to 7.
JP2020137068A 2020-08-14 2020-08-14 Information processing device and program Pending JP2022032831A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020137068A JP2022032831A (en) 2020-08-14 2020-08-14 Information processing device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020137068A JP2022032831A (en) 2020-08-14 2020-08-14 Information processing device and program

Publications (1)

Publication Number Publication Date
JP2022032831A true JP2022032831A (en) 2022-02-25

Family

ID=80350147

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020137068A Pending JP2022032831A (en) 2020-08-14 2020-08-14 Information processing device and program

Country Status (1)

Country Link
JP (1) JP2022032831A (en)

Similar Documents

Publication Publication Date Title
JP6507472B2 (en) Processing method, processing system and computer program
US10372666B2 (en) Calculator, recording medium and compute server
US20160253303A1 (en) Digital processing and completion of form documents
CN112036295B (en) Bill image processing method and device, storage medium and electronic equipment
CN111209909B (en) Construction method, device, equipment and storage medium for qualification recognition template
US10643022B2 (en) PDF extraction with text-based key
US20210397798A1 (en) Information processing apparatus and non-transitory computer readable medium
EP3316173B1 (en) System and method for cheque image data masking
CN111552829A (en) Method and apparatus for analyzing image material
JP2022032831A (en) Information processing device and program
JP2020052570A (en) Information processing apparatus and program
JP7328797B2 (en) Terminal device, character recognition system and character recognition method
WO2021059848A1 (en) Information processing device, information processing method, and information processing program
JP2021034778A (en) Information processing device and information processing program
JP6682827B2 (en) Information processing apparatus and information processing program
CN111079403B (en) Page comparison method and device
JP2024005744A (en) Information processing method, information processing apparatus, and program
US20230297543A1 (en) Data management device, data management system, and recording medium
EP4027674A1 (en) Method and apparatus for document processing
US11462014B2 (en) Information processing apparatus and non-transitory computer readable medium
US20210289078A1 (en) Information processing apparatus, method, and non-transitory computer readable medium
US20220198060A1 (en) Information processing apparatus and non-transitory computer readable medium
JP7383882B2 (en) Information processing device and information processing program
JP2018116520A (en) Document processing system
AU2016102049A4 (en) A System and Method for Facilitating Document Signing

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231219

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231220