JP2020016946A - Information processing device, information processing method, program, and document reading system - Google Patents

Information processing device, information processing method, program, and document reading system Download PDF

Info

Publication number
JP2020016946A
JP2020016946A JP2018137833A JP2018137833A JP2020016946A JP 2020016946 A JP2020016946 A JP 2020016946A JP 2018137833 A JP2018137833 A JP 2018137833A JP 2018137833 A JP2018137833 A JP 2018137833A JP 2020016946 A JP2020016946 A JP 2020016946A
Authority
JP
Japan
Prior art keywords
item
item name
value
specified
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018137833A
Other languages
Japanese (ja)
Other versions
JP6736012B2 (en
Inventor
浩之 仲田
Hiroyuki Nakada
浩之 仲田
俊之 曽根田
Toshiyuki Soneda
俊之 曽根田
広則 落合
Hironori Ochiai
広則 落合
宗一郎 酉家
Soichiro Toriya
宗一郎 酉家
健司 平木
Kenji Hiraki
健司 平木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissay Information Technology Co Ltd
Nippon Life Insurance Co
Original Assignee
Nissay Information Technology Co Ltd
Nippon Life Insurance Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissay Information Technology Co Ltd, Nippon Life Insurance Co filed Critical Nissay Information Technology Co Ltd
Priority to JP2018137833A priority Critical patent/JP6736012B2/en
Publication of JP2020016946A publication Critical patent/JP2020016946A/en
Application granted granted Critical
Publication of JP6736012B2 publication Critical patent/JP6736012B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Input (AREA)

Abstract

To provide an information processing device and a method capable of identifying an item name of each item of a document and an item value with respect to character data subjected to character recognition on an image of an atypical document.SOLUTION: An information processing device 100 includes: a storage unit which stores item name registration information and a mapping model representing correlation values between a position of an item name of each item of a document and a position of an item value corresponding to the item name; an acquisition unit which acquires image data of an atypical document; a character recognition unit which recognizes each character on the image data; an item name identification unit which identifies the item name of the document on the basis of recognized character information and the item name registration information; a range identification unit which identifies a range where item values having correlation values exceeding a threshold exist from item values corresponding to the identified item names; an item value identification unit which extracts each of characters belonging to the identified range and identifies item values corresponding to the identified item names on the basis of each of the characters; and an output information generation unit which generates output information for outputting information on the identified item names and information on the identified item values in association with each other.SELECTED DRAWING: Figure 2

Description

本発明は、情報処理装置、情報処理方法、プログラム及び帳票読取システムに関する。   The present invention relates to an information processing device, an information processing method, a program, and a form reading system.

従来、人の手で行っていた帳票を用いる業務をコンピュータ等により自動化する技術が知られている。このような技術の例として、OCR(Optical Character Recognition)を用いて、スキャナー等で読み取った帳票の画像を画像解析して帳票の文字を認識(文字認識)することが行われている。 2. Description of the Related Art Conventionally, there is known a technology for automating a task using a form, which has been performed manually, by a computer or the like. Examples of such techniques, using OCR (O ptical C haracter R ecognition ), has been conducted to and Image image analysis of a form read by a scanner or the like to recognize the form of the character (character recognition) .

さらに、上記のような技術に関して、上記認識された文字に対して帳票のどの項目に対応するものなのか特定する場合、予め記憶された帳票のレイアウト情報に示された各項目の項目名と項目値の配置により、文字データに対する項目の項目名又は項目値を特定する方法が知られている。   Further, with respect to the above-described technology, when specifying which item of the form corresponds to the recognized character, the item name and item of each item indicated in the layout information of the form stored in advance. There is known a method of specifying an item name or an item value of an item for character data by arranging values.

下記特許文献1には、公的身分証明書の画像データに対して、公的身分証明書の種類ごとに定められたレイアウト情報を用いて当該画像データを分割し、光学文字認識を用いて当該分割された画像データをテキストデータ化する情報入力装置が示されている。このレイアウト情報は、公的身分証明書の各項目の項目名「姓名」、「住所」、「生年月日」が含まれる。この情報入力装置は、このようなレイアウト情報に基づいて、公的身分証明書の画像データの項目の項目名及び項目値を特定する。   Japanese Patent Application Laid-Open No. H11-163,086 discloses that, with respect to image data of a public ID card, the image data is divided using layout information defined for each type of public ID card, and the image data is divided using optical character recognition. An information input device for converting divided image data into text data is shown. This layout information includes the item names “first and last name”, “address”, and “birth date” of each item of the public identification card. The information input device specifies the item names and item values of the items of the image data of the public identification card based on such layout information.

特開2016−173710号公報JP-A-176-173710

しかしながら、上記のような帳票のレイアウト情報を用いた項目名及び項目値の特定方法は、予め特定対象の帳票のレイアウトが定まっている必要があり、発行機関が複数存在してレイアウトが定まらない非定型の帳票の画像には適用できない問題があった。   However, the method of specifying item names and item values using the form layout information as described above requires that the layout of the form to be specified needs to be determined in advance. There was a problem that could not be applied to fixed form images.

そこで、本発明は、非定型の帳票の画像上の文字認識された文字に対して、帳票の項目の項目名と項目値とを特定することができる情報処理装置、情報処理方法及びプログラム等を提供することを目的とする。   Therefore, the present invention provides an information processing apparatus, an information processing method, a program, and the like, which can specify an item name and an item value of an item of a form with respect to a character recognized on a non-standard form image. The purpose is to provide.

本発明の一態様に係る情報処理装置は、帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、項目名を示す項目名登録情報を記憶する記憶部と、非定型の帳票の画像データを取得する取得部と、画像データ上の各文字を認識する文字認識部と、認識された各文字を示す文字情報と項目名登録情報とに基づいて、帳票の各項目の項目名を特定する項目名特定部と、マッピングモデルを用いて、特定された項目名の位置に対応する項目値のうち、相関値が閾値以上の項目値が位置し得る範囲を特定する範囲特定部と、特定された範囲に属する各文字を抽出し、当該抽出された各文字に基づいて特定された項目名に対応する項目値を特定する項目値特定部と、特定された項目名を示す情報と特定された項目値を示す情報とを関連付けて出力するための出力情報を生成する出力情報生成部と、を備える。   An information processing apparatus according to an aspect of the present invention includes a mapping model representing a correlation value between a position of an item name of each item of a form and a position of an item value corresponding to the item name, and an item name indicating the item name. A storage unit for storing registration information, an acquisition unit for acquiring image data of an irregular form, a character recognition unit for recognizing each character on the image data, and registration of character information and an item name indicating each recognized character. An item name specifying unit that specifies an item name of each item on a form based on the information, and an item whose correlation value is equal to or greater than a threshold value among item values corresponding to the position of the specified item name using a mapping model. A range specifying unit that specifies a range in which a value can be located, and an item value that extracts each character belonging to the specified range and specifies an item value corresponding to an item name specified based on the extracted character Identifying part and information indicating the identified item name And an output information generation unit that generates output information for outputting in association with information indicating a constant item value.

本発明の一態様に係る情報処理方法は、コンピュータが、帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、項目名を示す項目名登録情報を記憶するステップと、非定型の帳票の画像データを取得するステップと、画像データ上の各文字を認識するステップと、認識された各文字を示す文字情報と項目名登録情報とに基づいて、帳票の各項目の項目名を特定するステップと、マッピングモデルを用いて、特定された項目名の位置に対応する項目値のうち、相関値が閾値以上の項目値が位置し得る範囲を特定するステップと、特定された範囲に属する各文字を抽出し、当該抽出された各文字に基づいて特定された項目名に対応する項目値を特定するステップと、特定された項目名を示す情報と特定された項目値を示す情報とを関連付けて出力するための出力情報を生成するステップと、を含む。   In an information processing method according to an aspect of the present invention, a computer includes a mapping model representing a correlation value between a position of an item name of each item of a form and a position of an item value corresponding to the item name; Storing the item name registration information shown, acquiring image data of an irregular form, recognizing each character on the image data, character information indicating each recognized character, and item name registration information Identifying the item name of each item on the form based on the above, and using a mapping model, among the item values corresponding to the position of the identified item name, an item value whose correlation value is equal to or greater than a threshold is located. Specifying a range to obtain, extracting each character belonging to the specified range, specifying an item value corresponding to the item name specified based on each extracted character, and specifying the item name Shows And generating an output information for outputting in association with the information indicating the item value specified as information.

本発明の一態様に係るプログラムは、コンピュータに、帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、項目名を示す項目名登録情報を記憶する記憶機能と、非定型の帳票の画像データを取得する取得機能と、画像データ上の各文字を認識する文字認識機能と、認識された各文字を示す文字情報と項目名登録情報とに基づいて、帳票の各項目の項目名を特定する項目名特定機能と、マッピングモデルを用いて、特定された項目名の位置に対応する項目値のうち、相関値が閾値以上の項目値が位置し得る範囲を特定する範囲特定機能と、特定された範囲に属する各文字を抽出し、当該抽出された各文字に基づいて特定された項目名に対応する項目値を特定する項目値特定機能と、特定された項目名を示す情報と特定された項目値を示す情報とを関連付けて出力するための出力情報を生成する出力情報生成機能と、を実現させる。   A program according to an aspect of the present invention provides a computer with: a mapping model representing a correlation value between a position of an item name of each item of a form and an item value position corresponding to the item name; and an item indicating an item name. A storage function for storing name registration information, an acquisition function for acquiring image data of an irregular form, a character recognition function for recognizing each character on the image data, character information indicating each recognized character, and an item name An item name specifying function for specifying the item name of each item on the form based on the registration information, and a mapping model, wherein, among the item values corresponding to the position of the specified item name, the correlation value is equal to or greater than the threshold value. A range specifying function for specifying a range in which an item value can be located, and an item for extracting each character belonging to the specified range and specifying an item value corresponding to an item name specified based on each extracted character Value identification function and special It is an output information generating function item name information and in association with information indicating the specified field values indicating generate output information for outputting a, to realize.

上記の態様によれば、情報処理装置は、非定型の帳票における各項目の項目名の位置を特定し、これらの項目名に対応する項目値については各項目における項目名の位置と項目値の位置との間の相関を用いて特定する。具体的には、情報処理装置は、それぞれの項目名において相関値が閾値以上の項目値が位置し得る範囲を特定して、その範囲に属する項目値をこれらの項目名に対応するものとして特定する。このため、情報処理装置は、各項目の項目名と項目値の配置が分からなくとも帳票上の各文字に対して各項目の項目名と項目値を特定することができる。よって、情報処理装置は、非定型の帳票においても、帳票上の文字認識された各文字に対して各項目の項目名と項目値を特定することができる。   According to the above aspect, the information processing apparatus specifies the position of the item name of each item in the non-standard form, and regarding the item value corresponding to these item names, the position of the item name in each item and the item value It specifies using the correlation with a position. Specifically, the information processing apparatus specifies a range in which an item value having a correlation value equal to or larger than a threshold value can be located in each item name, and specifies item values belonging to the range as corresponding to these item names. I do. Therefore, the information processing apparatus can specify the item name and item value of each item for each character on the form without knowing the arrangement of the item name and item value of each item. Therefore, the information processing apparatus can specify the item name and the item value of each item for each character recognized on the form, even in an irregular form.

本発明によれば、非定型の帳票の画像上の文字認識された文字に対して、帳票の各項目の項目名と項目値を特定することができる情報処理装置、情報処理方法及びプログラム等を提供することができる。   According to the present invention, there is provided an information processing apparatus, an information processing method, a program, and the like that can specify an item name and an item value of each item of a form with respect to a character whose character is recognized on an image of an irregular form. Can be provided.

第1実施形態に係る帳票読取システムのシステム構成例を説明するための図である。It is a figure for explaining the example of system composition of the form reading system concerning a 1st embodiment. 第1実施形態に係るサーバ装置の機能構成の一例を示す図である。FIG. 3 is a diagram illustrating an example of a functional configuration of the server device according to the first embodiment. 第1実施形態に係るサーバ装置のペアリングの概要を説明するための図である。FIG. 4 is a diagram for describing an outline of pairing of the server device according to the first embodiment. 第1実施形態に係るサーバ装置のペアリングの概要を説明するための図である。FIG. 4 is a diagram for describing an outline of pairing of the server device according to the first embodiment. 第1実施形態に係るサーバ装置のペアリングの概要を説明するための図である。FIG. 4 is a diagram for describing an outline of pairing of the server device according to the first embodiment. 第1実施形態に係るサーバ装置の動作例を示す図である。FIG. 4 is a diagram illustrating an operation example of the server device according to the first embodiment. 第1実施形態に係るサーバ装置及び端末のハードウェア構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of a hardware configuration of a server device and a terminal according to the first embodiment. 第2実施形態に係る帳票読取システムの概要を説明するための図である。It is a figure for explaining the outline of the form reading system concerning a 2nd embodiment. 第2実施形態に係るサーバ装置の機能構成の一例を示す図である。It is a figure showing an example of functional composition of a server device concerning a 2nd embodiment. 第2実施形態に係るサーバ装置のペアリング実施条件の一例を示す表である。It is a table | surface which shows an example of the pairing execution condition of the server apparatus which concerns on 2nd Embodiment. 第2実施形態に係るサーバ装置の年月挿入条件の一例を示す表である。It is a table | surface which shows an example of the year / month insertion condition of the server apparatus which concerns on 2nd Embodiment.

添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。   A preferred embodiment of the present invention will be described with reference to the accompanying drawings. In each of the drawings, the components denoted by the same reference numerals have the same or similar configurations.

[第1実施形態]
まず、本発明の第1実施形態について説明する。本実施形態では、非定型の紙媒体の帳票を画像で読み取り、当該画像から帳票の各項目の項目名と項目値とを特定してテキスト形式のデータ(以下、「テキストデータ」ともいう)にして出力する例を説明する。また、ここでいう「非定型」とは、対象とする帳票のフォーマットが定まっていない状態をいい、非定型の帳票には、発行機関が複数存在して複数パターン存在するためにレイアウトが一定とならない帳票も含まれる。
[First Embodiment]
First, a first embodiment of the present invention will be described. In the present embodiment, a non-standard paper medium form is read as an image, and the item name and item value of each item of the form are specified from the image and converted into text data (hereinafter, also referred to as “text data”). An example in which the output is performed will be described. The term "atypical" as used herein refers to a state in which the format of the target form is not fixed, and the non-standard form has a plurality of issuing organizations and a plurality of patterns, so that the layout is fixed. Also includes forms that do not have to be.

<1.システム構成>
図1を参照して、本実施形態に係る帳票読取システム1のシステム構成例を説明する。
<1. System Configuration>
An example of a system configuration of a form reading system 1 according to the embodiment will be described with reference to FIG.

帳票読取システム1は、紙媒体の帳票を読み取りテキストデータ化するためのシステムである。図1に示すように、帳票読取システム1は、サーバ装置100と、ユーザが使用する端末200と、スキャナー300とを含む。サーバ装置100と、端末200と、スキャナー300とは、ネットワークNを介して互いに接続されている。   The form reading system 1 is a system for reading a form on a paper medium and converting it into text data. As shown in FIG. 1, the form reading system 1 includes a server device 100, a terminal 200 used by a user, and a scanner 300. The server device 100, the terminal 200, and the scanner 300 are connected to each other via a network N.

ネットワークNは、無線ネットワークや有線ネットワークにより構成される。ネットワークの一例としては、携帯電話網や、PHS(Personal Handy−phone System)網、無線LAN(Local Area Network)、3G(3rd Generation)、LTE(Long Term Evolution)、4G(4th Generation)、WiMax(登録商標)、赤外線通信、Bluetooth(登録商標)、有線LAN、電話線、電灯線ネットワーク、IEEE1394等に準拠したネットワークがある。   The network N is configured by a wireless network or a wired network. Examples of the network include a mobile phone network, a PHS (Personal Handy-phone System) network, a wireless LAN (Local Area Network), 3G (3rd Generation), LTE (Long Term Evolution), and 4G (4th Generation (M)). (Registered trademark), infrared communication, Bluetooth (registered trademark), a wired LAN, a telephone line, a power line network, a network conforming to IEEE 1394, and the like.

サーバ装置100は、端末200及びスキャナー300との通信や画像解析等のデータ解析/分析処理が可能な情報処理装置である。サーバ装置100は、所定のプログラムを実行することにより、スキャナー300と連携してスキャナー300が紙媒体の帳票を読み取って出力した帳票の画像データを画像解析したり、帳票の各項目の項目名と当該項目名に対応する項目値を分析したりする機能を実現する。   The server device 100 is an information processing device capable of performing data analysis / analysis processing such as communication with the terminal 200 and the scanner 300 and image analysis. By executing a predetermined program, the server device 100 performs image analysis on image data of a form read and output by the scanner 300 in cooperation with the scanner 300, and performs an image analysis on the form data. A function of analyzing an item value corresponding to the item name is realized.

端末200は、サーバ装置100との通信やユーザに対して帳票の各項目の項目名と項目値とをテキストデータで出力が可能なスマートフォン、ラップトップ端末又はデスクトップ端末等の端末装置である。端末200は、所定のプログラムを実行することにより、サーバ装置100と連携して帳票に関する情報を送受信したり帳票に関する画面を出力したりする機能を実現する。   The terminal 200 is a terminal device such as a smartphone, a laptop terminal, or a desktop terminal capable of communicating with the server device 100 and outputting an item name and an item value of each item of the form to the user as text data. By executing a predetermined program, the terminal 200 realizes a function of transmitting and receiving information on a form and outputting a screen on a form in cooperation with the server apparatus 100.

スキャナー300は、文字や写真、絵などの原稿をデジタル画像データに変換する画像入力装置である。なお、スキャナー300に関して、紙媒体の帳票を読み取って画像データに変換できればどのような装置でもよく、カメラ機能を備えたスマートフォン、ラップトップ端末等の端末装置であってもよい。   The scanner 300 is an image input device that converts a document such as a character, a photograph, or a picture into digital image data. Note that the scanner 300 may be any device as long as it can read a paper medium form and convert it into image data, and may be a terminal device such as a smartphone or a laptop terminal having a camera function.

<2.機能構成>
図2を参照して、本実施形態に係るサーバ装置100の機能構成を説明する。図2に示すように、サーバ装置100は、制御部110と、記憶部120と、通信部130とを備える。サーバ装置100は、取得した帳票の画像から、帳票の各項目における項目名と項目値とを特定する。サーバ装置100は、この特定結果を端末200に出力させる。このようにサーバ装置100が各項目の項目名と当該項目名に対応する項目値を特定することを、「項目名と項目値をペアリングする」又は単に「ペアリングする」ともいう。
<2. Functional Configuration>
The functional configuration of the server device 100 according to the present embodiment will be described with reference to FIG. As shown in FIG. 2, the server device 100 includes a control unit 110, a storage unit 120, and a communication unit 130. The server device 100 specifies an item name and an item value of each item of the form from the acquired image of the form. The server device 100 causes the terminal 200 to output the specified result. Specifying the item name of each item and the item value corresponding to the item name in this way by the server apparatus 100 is also referred to as “pairing the item name and the item value” or simply “pairing”.

制御部110は、取得部111と、文字認識部113と、項目名特定部114と、範囲特定部115と、項目値特定部116と、出力情報生成部117とを備える。また、制御部110は、例えば、パターン分類部112又は構築部118を備えてもよい。   The control unit 110 includes an acquisition unit 111, a character recognition unit 113, an item name specification unit 114, a range specification unit 115, an item value specification unit 116, and an output information generation unit 117. Further, the control unit 110 may include, for example, a pattern classification unit 112 or a construction unit 118.

取得部111は、帳票の画像データを取得する。取得部111は、具体的には、通信部130を介してスキャナー300が紙媒体の帳票を読み取って画像データに変換したものを取得してもよいし、予め記憶部120に記憶されている帳票の画像データを取得してもよい。   The acquisition unit 111 acquires image data of a form. More specifically, the acquisition unit 111 may acquire a paper form read by the scanner 300 via the communication unit 130 and converted into image data, or a form stored in the storage unit 120 in advance. May be obtained.

パターン分類部112は、取得部111により取得された帳票の画像データに基づいて、当該画像データに示された帳票のパターンを分類する。パターン分類部112は、例えば、畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)を用いて上記画像データの特徴量を抽出して、画像分類を行ってもよい。パターン分類部112は、具体的には、上記画像データを細分化し畳み込み演算及びサンプリングを繰り返し実行することで特徴量を抽出する。また、パターン分類部112は、予め記憶部120に記憶する帳票のフォーマットパターンを示すパターン情報に基づいて、当該フォーマットパターンごとに分類してもよい。さらに、パターン分類部112は、上記フォーマットパターンごとに分類することで、上記取得された画像データが示す帳票が、領収書、診断書、住民票、健康保険証又は免許証等といった帳票の種類のどの種類に相当するのか分類してもよい。項目名特定部114、範囲特定部115及び項目値特定部116における項目名と項目値のペアリングに関する処理は、パターン分類部112により分類された帳票のパターンごとに処理してもよい。 The pattern classification unit 112 classifies the form pattern indicated in the image data based on the form image data acquired by the acquisition unit 111. Pattern classification unit 112, for example, a convolutional neural network (C onvolutional N eural N etwork: CNN) using extracts the feature quantity of the image data may be performed from the image classification. Specifically, the pattern classification unit 112 extracts a feature amount by subdividing the image data and repeatedly executing a convolution operation and sampling. In addition, the pattern classification unit 112 may classify each format pattern based on pattern information indicating a format pattern of a form stored in the storage unit 120 in advance. Further, the pattern classifying unit 112 classifies each of the format patterns so that the form indicated by the acquired image data is a type of form such as a receipt, a medical certificate, a resident's card, a health insurance card or a license. You may classify to what kind. The processing related to pairing of the item name and the item value in the item name specifying unit 114, the range specifying unit 115, and the item value specifying unit 116 may be performed for each pattern of the form classified by the pattern classification unit 112.

文字認識部113は、取得部111により取得された帳票の画像データ上の各文字を認識する。さらに、文字認識部113は、例えば、パターン分類部112により分類されたパターンごとに帳票の画像データ上の各文字を認識してもよい。文字認識部113は、具体的には、帳票の画像データ上の各文字を表す画素値を抽出し、当該抽出された画素値に基づいて帳票上の各文字を認識してもよい。文字認識部113は、より具体的には、帳票の画像データから特徴量となる画素値を抽出し、当該抽出された画素値に対してパターン認識を行うことで帳票上の各文字を認識してもよい。   The character recognition unit 113 recognizes each character on the image data of the form acquired by the acquisition unit 111. Further, the character recognition unit 113 may recognize each character on the image data of the form for each pattern classified by the pattern classification unit 112, for example. Specifically, the character recognizing unit 113 may extract a pixel value representing each character on the image data of the form, and recognize each character on the form based on the extracted pixel value. More specifically, the character recognizing unit 113 recognizes each character on the form by extracting a pixel value serving as a feature amount from the image data of the form and performing pattern recognition on the extracted pixel value. You may.

文字認識部113は、さらに、上記画素値の抽出の前処理として(1)帳票上の文字領域、画像領域及び罫線を識別する帳票のレイアウト解析処理、(2)上記識別された文字領域の行の切り出し処理、(3)上記切り出された行ごとの文字の切り出し処理等を行ってもよい。   The character recognizing unit 113 further performs (1) a layout analysis process of a form for identifying a character area, an image area, and a ruled line on the form as pre-processing for extracting the pixel value, and (2) a line of the identified character area. (3) The above-described character extraction processing for each extracted line may be performed.

項目名特定部114は、文字認識部113により認識された各文字を示す文字情報と記憶部120に記憶されている項目名登録情報とに基づいて、帳票の各項目の項目名を特定する。ここで「項目名登録情報」とは、予め登録された帳票の各項目の項目名を示す情報である。項目名登録情報は、例えば帳票が医療機関発行の領収書(以下、「医療費領収書」ともいう)であった場合、医療費領収書が発行された日付を示す項目の「発行日」、医師の診察を受けたときにかかる費用を示す項目の「初・再診料」、又は手術にかかった費用の項目を示す項目の「手術」等といった各項目を識別するための項目名をリストアップした情報である。   The item name specifying unit 114 specifies the item name of each item of the form based on the character information indicating each character recognized by the character recognizing unit 113 and the item name registration information stored in the storage unit 120. Here, the “item name registration information” is information indicating the item name of each item of the form registered in advance. The item name registration information includes, for example, when the form is a receipt issued by a medical institution (hereinafter also referred to as “medical cost receipt”), “issue date” of an item indicating a date on which the medical expense receipt was issued, A list of item names to identify each item, such as "Initial re-examination fee", which indicates the cost required when consulting a doctor, or "Surgery", which indicates the cost of surgery This is information that has been uploaded.

項目名特定部114は、例えば、項目名登録情報に登録されている項目名の一部又は全部を検索キーワードとして文字情報を検索し、当該検索キーワードに合致する各文字又は各文字を組み合わせた文字列を項目名と特定してもよい。項目名特定部114は、この検索において、例えば、表記揺れや同義語の違い、別名での表現、主テーマと検索語のずれ又は誤植等のさまざまなノイズを吸収して検索する、いわゆるあいまい検索を含めてもよい。   The item name specifying unit 114 searches character information using, for example, a part or all of the item names registered in the item name registration information as a search keyword, and matches each character or a character obtained by combining each character that matches the search keyword. A column may be specified as an item name. In this search, the item name specifying unit 114 performs a search by absorbing various noises such as a swaying of a spelling, a difference in a synonym, an expression by a different name, a deviation from a main theme and a search word, or a typographical error. May be included.

範囲特定部115は、記憶部120に記憶されたマッピングモデルを用いて、項目名特定部114により特定された項目名の位置に対応する項目値のうち、当該項目名の位置と当該項目値の位置との間の相関値(以下、「位置相関値」ともいう)が閾値以上の項目値が位置し得る範囲を特定する。さらに、範囲特定部115は、上記特定された項目名が位置する範囲を除外して当該項目名に対応する項目値が位置し得る範囲を特定してもよい。範囲特定部115は、この項目名が位置する範囲について、例えば、項目名を構成する文字列の文字枠の座標に基づいて特定してもよい。このような構成によれば、サーバ装置100は、項目値が位置し得る範囲を絞ることができるため、冗長な文字の抽出処理や項目値の特定処理を省くことができる。   The range specifying unit 115 uses the mapping model stored in the storage unit 120 to set the position of the item name and the item value corresponding to the position of the item name specified by the item name specifying unit 114. A range in which an item value whose correlation value with the position (hereinafter, also referred to as “position correlation value”) is equal to or larger than a threshold is specified. Furthermore, the range specifying unit 115 may specify a range in which an item value corresponding to the item name can be located, excluding a range in which the specified item name is located. The range specifying unit 115 may specify the range in which the item name is located, for example, based on the coordinates of a character frame of a character string forming the item name. According to such a configuration, the server device 100 can narrow the range in which the item value can be located, and thus can omit redundant character extraction processing and item value identification processing.

「マッピングモデル」とは、帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値(位置相関値)を表すモデルである。マッピングモデルは、例えば、パターン分類部112により分類された帳票のパターンごとに、帳票上に帳票の各項目の項目名の位置と項目値の位置との相関値がマッピングされたものである。この相関値は、後述の構築部118によって、学習データである各項目の項目名と項目値との複数の相対位置情報を統計解析して算出されたものである。また、このマッピングモデルは、上記統計解析にあたって上記相対位置のデータを平滑化処理したものであってもよい。また、マッピングモデルは、各項目の項目名と項目値との相対位置のデータを表現した可視化グラフであるヒートマップであってもよく、項目名に対応する複数の項目値の相対位置の相関レベルを二次元で表したものでもあってもよい。マッピングモデルの詳細について、後述の構築部118にて説明する。   The “mapping model” is a model representing a correlation value (position correlation value) between the position of the item name of each item of the form and the position of the item value corresponding to the item name. The mapping model is, for example, a model in which the correlation value between the position of the item name of each item of the form and the position of the item value is mapped on the form for each form pattern classified by the pattern classification unit 112. The correlation value is calculated by the later-described constructing unit 118 by statistically analyzing a plurality of pieces of relative position information between the item name and the item value of each item, which is learning data. In addition, the mapping model may be obtained by smoothing the data of the relative position in the statistical analysis. Further, the mapping model may be a heat map which is a visualization graph expressing data of a relative position between an item name and an item value of each item, and a correlation level of a relative position of a plurality of item values corresponding to the item name. May be represented in two dimensions. Details of the mapping model will be described later in the construction unit 118.

範囲特定部115は、さらに、パターン分類部112により分類された帳票のパターンに該当するマッピングモデルを用いて、特定された項目名の位置に対応する所定の位置相関値以上の項目値の位置を示す範囲を特定してよい。このような構成によれば、サーバ装置100は、帳票のパターンごとに、学習された標準的な項目名と項目値の相対位置によって項目値を特定することができる。   The range specifying unit 115 further uses the mapping model corresponding to the form pattern classified by the pattern classification unit 112 to determine the position of the item value equal to or more than the predetermined position correlation value corresponding to the position of the specified item name. The indicated range may be specified. According to such a configuration, the server device 100 can specify the item value based on the relative position between the learned standard item name and the item value for each form pattern.

項目値特定部116は、範囲特定部115により特定された範囲に属する各文字を抽出する。項目値特定部116は、このように各文字を抽出することで、後述の項目名とのペアリング実施対象の文字を絞っている。さらに、項目値特定部116は、項目名特定部114により特定された項目名に対応する項目値が取り得る文字種に限定して上記各文字を抽出してもよい。項目値特定部116は、具体的には、上記特定された項目名が「手術」の場合、上記特定された範囲に属する各文字からさらに、項目値が取り得る文字種である、0〜9の数字、「点」及び「円」のいずれかの文字のみ抽出する。   The item value specifying unit 116 extracts each character belonging to the range specified by the range specifying unit 115. By extracting each character in this way, the item value specifying unit 116 narrows down characters to be paired with an item name described later. Further, the item value specifying unit 116 may extract each of the above-mentioned characters by limiting the character type to the item value corresponding to the item name specified by the item name specifying unit 114. Specifically, when the specified item name is “surgery”, the item value specifying unit 116 further specifies a character type from 0 to 9 that is a character type that can take an item value from each character belonging to the specified range. Only characters of numbers, "dots" and "circles" are extracted.

項目値特定部116は、上記抽出された文字に基づいて項目名特定部114により特定された項目名に対応する項目値を特定する。項目値特定部116は、当該項目値の特定方法として、例えば、(1)上記抽出された文字から項目値の文字列を構築する、(2)当該構築された項目値の文字列及び項目名に対する項目値の位置相関値(ペアらしさ)に基づいて項目名と項目値のペアリングを実施する、といった方法を用いることが考えられる。   The item value specifying unit 116 specifies an item value corresponding to the item name specified by the item name specifying unit 114 based on the extracted characters. The item value specifying unit 116 may specify the item value by, for example, (1) constructing a character string of the item value from the extracted characters, (2) a character string and an item name of the constructed item value It is conceivable to use a method of performing pairing of the item name and the item value based on the position correlation value (pair-likeness) of the item value with respect to.

項目値特定部116における上記(1)の構築の方法として、例えば、(ア)上記抽出された文字を行単位で結合し、(イ)当該行単位に結合された文字を所定の規則に基づいて分割し、(ウ)当該分割されたグループ内で文字を再結合し、(エ)当該結合された文字が数値であった場合、当該数値と当該数値の単位との結合を実施する、といった方法を用いて構築してもよい。   The method of constructing the above (1) in the item value specifying unit 116 includes, for example, (a) combining the extracted characters in units of lines, and (a) combining the characters combined in units of lines with a predetermined rule. (C) recombining the characters in the divided group, (d) if the combined character is a number, combine the number with the unit of the number, etc. It may be constructed using a method.

より具体的な構築の方法として、上記(ア)の上記抽出された文字の行単位の結合にあたっては、項目値特定部116は、例えば、一方の文字の文字枠の座標bbox(xmin,ymin,xmax,ymax)のy方向の範囲に対して、他方の文字の文字枠座標のy座標の中心が含まれるか判定していくことで行単位にグループ分けを行う。 As a more specific construction method, when combining the extracted characters in (a) above on a line-by-line basis, the item value specifying unit 116 may use, for example, the coordinate bbox (x min , y Min , x max , y max ) are grouped on a line-by-line basis by determining whether the center of the y-coordinate of the character frame coordinates of the other character is included in the y-direction range of min .

上記(イ)の行単位に結合された文字の分割にあたっては、項目値特定部116は、所定の閾値に基づいて分割する。この所定の閾値に基づいて結合された文字を分割する方法の例として、(a)「平」、「成」、「年」及び「月」と数値との間の閾値は緩める、(b)「平」、「H」及び「〜」は文字列の先頭と判定する、(c)「日」、「点」、「円」及び「〜」は文字列の終了と判定する、(d)結合された文字において一番前の文字の座標bboxと一番後ろの座標bboxの間に罫線がある場合はグループを分割する、といった方法が考えらえる。また、項目値特定部116は、自然言語処理を用いて単語分割を行うことで、上記結合された文字の分割を行ってもよい。この自然言語処理を用いて単語分割を行う方法の例として、確率的言語モデルの一つである、対象を単語単位で分割し連続する単語n個組を単位としてモデル化した単語n−gramモデルを用いてn−gram確率を求めることで分割する方法が考えられる。   In dividing the characters combined in line units (a), the item value specifying unit 116 divides the characters based on a predetermined threshold. As an example of a method of dividing a combined character based on the predetermined threshold, (a) loosening the threshold between “flat”, “composed”, “year”, and “month” and a numerical value, (b) "Flat", "H" and "~" are determined to be the beginning of the character string. (C) "Day", "dot", "yen" and "~" are determined to be the end of the character string. (D) In the combined characters, if there is a ruled line between the coordinate bbox of the first character and the coordinate bbox of the last character, the group may be divided. In addition, the item value specifying unit 116 may perform the word division using natural language processing to divide the combined characters. As an example of a method of performing word division using this natural language processing, a word n-gram model, which is one of probabilistic language models, is obtained by dividing an object in units of words and modeling the set in units of n consecutive words. A method of dividing by finding the n-gram probability using is considered.

上記(ウ)の分割されたグループ内の文字の再結合にあたっては、項目値特定部116は、例えば、同一グループ内に「手」及び「術」といった文字があった場合、これらの文字を再結合して「手術」といった文字列を構築する。   In recombining the characters in the divided groups in (c) above, when there are characters such as “hand” and “jutsu” in the same group, for example, the item value specifying unit 116 Combine to construct a string such as "surgery".

上記(エ)の数値と当該数値の単位との結合にあたっては、項目値特定部116は、例えば、帳票が医療費領収書であって上記(ウ)で構築された文字列が各診療報酬点数を表す数値「48」の場合、当該数値と当該数値の単位を表す「点」との結合を実施して「48点」とする項目値の文字列を構築する。   When combining the numerical value of (d) and the unit of the numerical value, the item value specifying unit 116 determines, for example, that the form is a medical expense receipt and the character string constructed in (c) is each medical fee score. In the case of the numerical value “48” representing “”, a combination of the numerical value and “point” representing the unit of the numerical value is performed to construct a character string of the item value of “48 points”.

ここで、図3〜5を参照して、サーバ装置100が、マッピングモデルを使用して項目名に対応する項目値が位置し得る範囲を特定する方法、当該特定された範囲に属する各文字を抽出する方法及び当該抽出された各文字に基づいて項目値を特定する方法の例を説明する。本例において、処理対象の帳票を医療費領収書とし、特定対象の項目は手術にかかった費用を示す項目とし、項目名は「手術」とする。   Here, referring to FIGS. 3 to 5, a method in which server apparatus 100 specifies a range in which an item value corresponding to an item name can be located using a mapping model, and specifies each character belonging to the specified range. An example of an extraction method and a method of specifying an item value based on each extracted character will be described. In this example, the form to be processed is a medical expense receipt, the specific target item is an item indicating the cost of the operation, and the item name is “surgery”.

図3は、マッピングモデルによる位置相関値がマッピングされていない状態の医療費領収書の画像の例を示す模式図である。説明を簡単にするために、図3に示すように、項目名T1「手術」に対応する項目値の候補の文字列を、文字列C1「55(点)」と、文字列C2「麻酔」と、文字列C3「32(点)」とする。   FIG. 3 is a schematic diagram illustrating an example of an image of a medical expense receipt in a state where the position correlation value according to the mapping model is not mapped. For simplicity of description, as shown in FIG. 3, the character strings of the item value candidates corresponding to the item name T1 “surgery” are represented by a character string C1 “55 (dot)” and a character string C2 “anesthesia”. And the character string C3 “32 (dots)”.

図4は、図3で示した医療費領収書の画像上に位置相関値がマッピングされてる状態の例を示す模式図である。図4は、図3で示した領域Fにおける拡大図でもある。図4に示すように、マッピングモデルが示すマッピングエリアA1は、項目名T1に対応する複数の項目値の相対位置を、当該項目値の幅及び高さをふまえてマッピングした領域である。また、この相対位置における位置相関値は、マッピングエリアA1内一律に設定されている。例えば、相関有りは位置相関値「0.1」と相関無しは位置相関値「0」とした場合、マッピングエリアA1内にマッピングされた位置相関値は一律「0.1」となる。   FIG. 4 is a schematic diagram showing an example of a state in which a position correlation value is mapped on the image of the medical expense receipt shown in FIG. FIG. 4 is also an enlarged view of the area F shown in FIG. As shown in FIG. 4, the mapping area A1 indicated by the mapping model is an area in which the relative positions of a plurality of item values corresponding to the item name T1 are mapped based on the width and height of the item value. Further, the position correlation value at this relative position is set uniformly within the mapping area A1. For example, if the position correlation value is “0.1” when there is a correlation and the position correlation value is “0” when there is no correlation, the position correlation value mapped in the mapping area A1 is uniformly “0.1”.

具体的な方法として、まず範囲特定部115は、項目名「手術」を基にマッピングモデルを用いて、位置相関値が閾値「0」より大きい項目値が位置し得る範囲としてマッピングエリアA1を特定する。つぎに範囲特定部115がこのマッピングエリアA1を特定すると、項目値特定部116は、このマッピングエリアA1の領域内に中心位置が属する文字C11「5」及び文字C12「5」、並びに文字C21「麻」及び文字C22「酔」を抽出する。次に、項目値特定部116は、文字C11「5」及び文字C12「5」から文字列C1「55」を、文字C21「麻」及び文字C22「酔」から文字列C2「麻酔」を構築する。   As a specific method, first, the range specifying unit 115 uses the mapping model based on the item name “surgery” to specify the mapping area A1 as a range in which an item value whose position correlation value is larger than the threshold “0” can be located. I do. Next, when the range specifying unit 115 specifies the mapping area A1, the item value specifying unit 116 specifies the characters C11 “5” and C12 “5” to which the center position belongs in the area of the mapping area A1, and the character C21 “ "Hemp" and the character C22 "Drunken" are extracted. Next, the item value specifying unit 116 constructs a character string C1 “55” from the characters C11 “5” and C12 “5” and a character string C2 “anaesthesia” from the characters C21 “hemp” and the character C22 “drunk”. I do.

図5は、図3で示した医療費領収書の画像上に相関値がマッピングされてる状態の例を示す模式図である。図5も、図3で示した領域Fにおける拡大図でもある。本例のマッピングモデルが示すマッピングエリアA2及びA3について、図4のA1の例と差異点は、(1)項目名T1「手術」に対応する項目値の相対位置をそれぞれの位置相関値の大きさをふまえてマッピングした点、(2)当該項目値の幅及び高さをふまえていない点である。例えば、マッピングエリアA2及びA3は、位置相関値の大きさに応じて色の濃淡を色分けさせたヒートマップでもある。マッピングエリアA2及びA3は、色が濃い灰色に近づくほど位置相関値が小さく、色が白に近づくほど位置相関値が大きいことを示す。   FIG. 5 is a schematic diagram showing an example of a state where the correlation value is mapped on the image of the medical expense receipt shown in FIG. FIG. 5 is also an enlarged view of the area F shown in FIG. Regarding the mapping areas A2 and A3 indicated by the mapping model of this example, the difference from the example of A1 in FIG. 4 is that (1) the relative position of the item value corresponding to the item name T1 “surgery” is the magnitude of each position correlation value. (2) The point where the width and height of the item value are not taken into account. For example, the mapping areas A2 and A3 are also heat maps in which light and shade of colors are classified according to the magnitude of the position correlation value. The mapping areas A2 and A3 indicate that the position correlation value decreases as the color approaches dark gray, and increases as the color approaches white.

具体的な方法として、まず範囲特定部115は、項目名T1「手術」を基にマッピングモデルを用いて、相関値が閾値「0」より大きい項目値が位置し得る範囲としてマッピングエリアA2及びA3を特定する。つぎに項目値特定部116は、このマッピングエリアA2及びA3の領域内に中心位置が属する文字C1「55」及び文字C2「麻酔」において、マッピングエリアA2及びA3上のそれぞれの文字の中心位置における位置相関値を取得する。本例においては、文字列C1「55(点)」の中心位置は位置相関値「0.9」、文字列C2「麻酔」の中心位置は位置相関値「0.5」とする。項目値として特定するための位置相関値の閾値を「0.85」と設定していた場合、項目値特定部116は、0.85以上の位置相関値の文字列C1「55(点)」を取得して、0.85より小さい位置相関値の文字列C2「麻酔」は切り捨てる。よって、項目値特定部116は、項目名T1「手術」に対応する項目値として文字列C1「55(点)」を特定する。   As a specific method, first, the range specifying unit 115 uses a mapping model based on the item name T1 “surgery” to set mapping areas A2 and A3 as ranges in which an item value having a correlation value larger than the threshold “0” can be located. To identify. Next, in the character C1 “55” and the character C2 “anesthesia” to which the center position belongs in the areas of the mapping areas A2 and A3, the item value specifying unit 116 determines the position of the center position of each character on the mapping areas A2 and A3. Get the position correlation value. In this example, the center position of the character string C1 “55 (point)” is a position correlation value “0.9”, and the center position of the character string C2 “anesthesia” is a position correlation value “0.5”. When the threshold value of the position correlation value for specifying as the item value is set to “0.85”, the item value specifying unit 116 acquires the character string C1 “55 (point)” of the position correlation value of 0.85 or more. , The character string C2 “anesthesia” of the position correlation value smaller than 0.85 is discarded. Therefore, the item value specifying unit 116 specifies the character string C1 “55 (dot)” as the item value corresponding to the item name T1 “surgery”.

項目値特定部116は、さらに(1)項目名を構成する文字種又は単語と項目値を構成する文字種又は単語との間の相関値と、(2)罫線情報に基づく各文字又は各文字列間の相関値と、の少なくともいずれか一つを位置相関値に加えて合計値を算出してもよい。項目値特定部116は、当該算出された合計値のうち最も高い値の文字列を項目値として特定してもよい。   The item value specifying unit 116 further includes: (1) a correlation value between a character type or a word forming an item name and a character type or a word forming an item value; and (2) an inter-character value or a character string based on ruled line information. May be added to the position correlation value to calculate the total value. The item value specifying unit 116 may specify the character string having the highest value among the calculated total values as the item value.

上記(1)の文字種又は単語間の相関値において、項目値特定部116は、具体的には、帳票が医療費領収書の場合、項目名「手術」や項目名「麻酔」などの各治療名を表す単語においては、数値を示す文字種で構成されている項目値との相関値を相対的に高く、数値以外の文字種で構成されている項目値との相関値を相対的に低くなるように設定してもよい。   In the correlation value between the character type and the word in the above (1), the item value specifying unit 116 specifically specifies each treatment such as the item name “surgery” and the item name “anesthesia” when the form is a medical expense receipt. For words representing names, the correlation value with item values composed of character types indicating numerical values is relatively high, and the correlation value with item values composed of character types other than numerical values is relatively low. May be set.

上記(2)の罫線情報に基づく各文字又は各文字列間の相関値において、項目値特定部116は、具体的には、項目名を囲う罫線を介して隣接する項目値の相関値を相対的に高く、それ以外の項目値の相関値を相対的に低くなるように設定してもよい。   In the correlation value between each character or each character string based on the ruled line information of (2), the item value specifying unit 116 specifically compares the correlation value of the adjacent item value via the ruled line surrounding the item name. May be set to be relatively high and the correlation values of the other item values to be relatively low.

出力情報生成部117は、項目名特定部114により特定された項目名を示す情報(以下、「項目名特定情報」ともいう)と項目値特定部116により特定された項目値を示す情報(以下、「項目値特定情報」ともいう)とを関連付けて端末200等で出力するための出力情報を生成する。この出力情報は、例えば、帳票の各項目の項目名と項目値とをリストアップした固定長又は可変長のテキストデータであってもよい。   The output information generating unit 117 includes information indicating the item name specified by the item name specifying unit 114 (hereinafter, also referred to as “item name specifying information”) and information indicating the item value specified by the item value specifying unit 116 (hereinafter, referred to as “item name specifying information”). , Which is also referred to as “item value specifying information”), and generates output information to be output by the terminal 200 or the like. This output information may be, for example, fixed-length or variable-length text data listing the item names and item values of each item on the form.

構築部118は、パターン分類部112により分類された帳票のパターンごとに、各項目の項目名と項目値との複数の相対位置情報を統計解析してマッピングモデルを算出する。この相対位置情報は、マッピングモデルの構築における、いわゆる学習データである。マッピングモデルは、例えば、1pxl単位で学習データとする項目名と項目値の相対位置の度数に応じた位置相関値を設定されてもよい。   The construction unit 118 calculates a mapping model by statistically analyzing a plurality of pieces of relative position information between the item name and the item value of each item for each pattern of the form classified by the pattern classification unit 112. This relative position information is so-called learning data in constructing a mapping model. In the mapping model, for example, a position correlation value corresponding to the frequency of the relative position between the item name and the item value to be the learning data in units of 1pxl may be set.

構築部118は、具体的には、帳票のパターンごとに、下記(1)〜(5)のプロセスによってマッピングモデルを構築してもよい。(1)まず構築部118は、複数の学習データとする各項目の項目名と項目値との相対位置として、当該項目名と当該項目値の文字列枠の中心座標(x,y)のx成分とy成分それぞれの差分を求める。以下、このそれぞれの差分をxedges及びyedgesとする。(2)つぎに構築部118は、xedges及びyedgesそれぞれについて、外れ値を除外する処理を行う。当該除外処理の方法として、例えばスミルノフ・グラブス検定を用いて、外れ値が検出されなくなるまで検定を繰り返す方法が考えられる。 Specifically, the construction unit 118 may construct a mapping model by the following processes (1) to (5) for each form pattern. (1) First, the construction unit 118 calculates the relative position between the item name and the item value of each item to be a plurality of learning data, x of the center coordinates (x, y) of the character string frame of the item name and the item value. The difference between the component and the y component is obtained. Hereinafter, the respective differences will be referred to as x edges and y edges . (2) Next, the construction unit 118 performs a process of excluding outliers for each of the x edges and the y edges . As a method of the exclusion processing, for example, a method of repeating a test using an Smirnov-Grubbs test until an outlier is not detected can be considered.

(3)つぎに構築部118は、外れ値を除外して残ったxedges及びyedgesの最小値及び最大値を求める。(4)つぎに構築部118は、求めた最小値及び最大値に所定のマージンを加えて、二次元ヒストグラム化してマッピングモデルを構築する。(4)さらに構築部118は、当該構築されたマッピングモデルに対して、ガウシアンフィルターをかけて平滑化処理、いわゆるぼかす処理を行ってもよい。(5)さらに構築部118は、当該平滑化されたマッピングモデルに対して最大値1とするよう正規化してもよい。 (3) Next, the construction unit 118 obtains the minimum and maximum values of the remaining x edges and y edges excluding outliers. (4) Next, the construction unit 118 constructs a mapping model by adding a predetermined margin to the obtained minimum value and maximum value and forming a two-dimensional histogram. (4) Further, the construction unit 118 may apply a Gaussian filter to the constructed mapping model to perform a smoothing process, that is, a so-called blurring process. (5) Further, the construction unit 118 may normalize the smoothed mapping model to have a maximum value of 1.

記憶部120は、項目名登録情報と、マッピングモデルとを記憶する。さらに、記憶部120は、帳票の画像データ、帳票パターン情報、項目名特定情報、項目値特定情報、項目名特定情報と項目値特定情報との関連付けの情報、文字種もしくは単語間の相関値を示す情報、又は罫線情報に基づく各文字もしくは各文字列間の相関値を示す情報を記憶してもよい。   The storage unit 120 stores the item name registration information and the mapping model. Further, the storage unit 120 indicates the image data of the form, the form pattern information, the item name specifying information, the item value specifying information, the information on the association between the item name specifying information and the item value specifying information, the character type or the correlation value between words. Information or information indicating a correlation value between each character or each character string based on the ruled line information may be stored.

通信部130は、ネットワークNを介して、スキャナー300から帳票の画像データを受信したり、端末200に出力情報を送信したりする。   The communication unit 130 receives image data of a form from the scanner 300 and transmits output information to the terminal 200 via the network N.

<3.動作例>
図6を参照して、本実施形態に係るサーバ装置100の動作例を説明する。図6は、サーバ装置100において、帳票の画像データを読み取ってテキストデータ処理の流れを示すフロー図である。なお、図6に示す処理は、予め記憶部120にマッピングモデル及び項目名登録情報が記憶された状態で開始される。なお、以下に示す処理の順番は一例であって、適宜、変更されてもよい。
<3. Operation example>
An operation example of the server device 100 according to the present embodiment will be described with reference to FIG. FIG. 6 is a flowchart showing the flow of text data processing by reading image data of a form in server device 100. The process illustrated in FIG. 6 is started in a state where the mapping model and the item name registration information are stored in the storage unit 120 in advance. The order of the processing described below is an example, and may be changed as appropriate.

取得部111は、帳票の画像データを取得する(S10)。取得部111が当該帳票の画像データを取得すると、文字認識部113は、当該画像データ上の各文字を認識する(S11)。   The acquisition unit 111 acquires the image data of the form (S10). When the acquisition unit 111 acquires the image data of the form, the character recognition unit 113 recognizes each character on the image data (S11).

文字認識部113が上記各文字を認識すると、当該認識された各文字を示す文字情報と記憶部120に記憶された項目名登録情報とに基づいて、項目名特定部114は帳票の各項目の項目名を特定する(S12)。項目名特定部114が当該項目名を特定すると、範囲特定部115は、記憶部120に記憶されたマッピングモデルを用いて、当該特定された項目名の位置に対応する項目値のうち、帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値が閾値以上の項目値が位置し得る範囲を特定する(S13)。   When the character recognizing unit 113 recognizes each of the above-mentioned characters, the item name specifying unit 114 uses the character information indicating the recognized character and the item name registration information stored in the storage unit 120 to store each item of the form. The item name is specified (S12). When the item name specifying unit 114 specifies the item name, the range specifying unit 115 uses the mapping model stored in the storage unit 120 to output, from the item values corresponding to the position of the specified item name, the form A range in which an item value whose correlation value between the position of the item name of each item and the position of the item value corresponding to the item name is equal to or larger than a threshold is specified is specified (S13).

項目値特定部116は、範囲特定部115により特定された範囲に属する上記各文字を抽出し、当該抽出された文字に基づいて特定された項目名に対応する項目値を特定する(S14)。項目値特定部116が当該項目値を特定すると、出力情報生成部117は、上記特定された項目名を示す情報と上記特定された項目値を示す情報とを関連付けて出力するための出力情報を生成する(S15)。   The item value specifying unit 116 extracts each of the characters belonging to the range specified by the range specifying unit 115, and specifies an item value corresponding to the specified item name based on the extracted characters (S14). When the item value specifying unit 116 specifies the item value, the output information generating unit 117 outputs output information for outputting the information indicating the specified item name and the information indicating the specified item value in association with each other. It is generated (S15).

<4.ハードウェア構成>
図7を参照して、上述してきたサーバ装置100及び端末200をコンピュータ800により実現する場合のハードウェア構成の一例を説明する。なお、それぞれの装置の機能は、複数台の装置に分けて実現することもできる。
<4. Hardware Configuration>
With reference to FIG. 7, an example of a hardware configuration when the above-described server device 100 and terminal 200 are realized by a computer 800 will be described. Note that the function of each device can also be realized by being divided into a plurality of devices.

図7に示すように、コンピュータ800は、プロセッサ801と、メモリ803と、記憶装置805と、入力I/F部807と、データI/F部809と、通信I/F部811、及び表示装置813とを含む。   As shown in FIG. 7, the computer 800 includes a processor 801, a memory 803, a storage device 805, an input I / F unit 807, a data I / F unit 809, a communication I / F unit 811 and a display device. 813.

プロセッサ801は、メモリ803に記憶されているプログラムを実行することによりコンピュータ800における様々な処理を制御する。例えば、サーバ装置100の制御部110が備える各機能部や端末200の制御部が備える各機能部などは、メモリ803に一時記憶された上で、主にプロセッサ801上で動作するプログラムとして実現可能である。また、プロセッサ801は、マッピングモデルの構築にあたって、GPU(Graphics Processing Unit)を用いてもよい。 The processor 801 controls various processes in the computer 800 by executing a program stored in the memory 803. For example, each function unit included in the control unit 110 of the server device 100 and each function unit included in the control unit of the terminal 200 can be realized as a program that is temporarily stored in the memory 803 and that mainly operates on the processor 801. It is. The processor 801, for construction of mapping model may be used GPU (G raphics P rocessing U nit ).

メモリ803は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ803は、プロセッサ801によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。   The memory 803 is a storage medium such as a RAM (Random Access Memory). The memory 803 temporarily stores a program code of a program executed by the processor 801 and data necessary for executing the program.

記憶装置805は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置805は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。この他、記憶装置805は、項目名登録情報を登録するテーブルと、当該テーブルを管理するDBを記憶することも可能である。このようなプログラムやデータは、必要に応じてメモリ803にロードされることにより、プロセッサ801から参照される。   The storage device 805 is a non-volatile storage medium such as a hard disk drive (HDD) or a flash memory. The storage device 805 stores an operating system and various programs for implementing the above-described configurations. In addition, the storage device 805 can also store a table for registering item name registration information and a DB for managing the table. Such programs and data are loaded into the memory 803 as needed, and are referred to by the processor 801.

入力I/F部807は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部807の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部807は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ800に接続されても良い。   The input I / F unit 807 is a device for receiving an input from a user. Specific examples of the input I / F unit 807 include a keyboard, a mouse, a touch panel, various sensors, and a wearable device. The input I / F unit 807 may be connected to the computer 800 via an interface such as a USB (Universal Serial Bus).

データI/F部809は、コンピュータ800の外部からデータを入力するためのデバイスである。データI/F部809の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部809は、コンピュータ800の外部に設けられることも考えられる。その場合、データI/F部809は、例えばUSB等のインタフェースを介してコンピュータ800へと接続される。   The data I / F unit 809 is a device for inputting data from outside the computer 800. A specific example of the data I / F unit 809 includes a drive device for reading data stored in various storage media. The data I / F unit 809 may be provided outside the computer 800. In that case, the data I / F unit 809 is connected to the computer 800 via an interface such as a USB.

通信I/F部811は、コンピュータ800の外部の装置と有線又は無線により、ネットワークNを介したデータ通信を行うためのデバイスである。通信I/F部811は、コンピュータ800の外部に設けられることも考えられる。その場合、通信I/F部811は、例えばUSB等のインタフェースを介してコンピュータ800に接続される。   The communication I / F unit 811 is a device for performing data communication with a device external to the computer 800 via a network N by wire or wirelessly. The communication I / F unit 811 may be provided outside the computer 800. In that case, the communication I / F unit 811 is connected to the computer 800 via an interface such as a USB, for example.

表示装置813は、各種情報を表示するためのデバイスである。表示装置813の具体例としては、例えば液晶ディスプレイや有機EL(Electro−Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置813は、コンピュータ800の外部に設けられても良い。その場合、表示装置813は、例えばディスプレイケーブル等を介してコンピュータ800に接続される。また、入力I/F部807としてタッチパネルが採用される場合には、表示装置813は、入力I/F部807と一体化して構成することが可能である。   The display device 813 is a device for displaying various information. Specific examples of the display device 813 include, for example, a liquid crystal display, an organic EL (Electro-Luminescence) display, and a display of a wearable device. The display device 813 may be provided outside the computer 800. In that case, the display device 813 is connected to the computer 800 via, for example, a display cable or the like. In the case where a touch panel is employed as the input I / F unit 807, the display device 813 can be configured to be integrated with the input I / F unit 807.

[第2実施形態]
つぎに、本発明の第2実施形態について説明する。本実施形態は、本発明に係る帳票読取システムを保険会社の医療保険の給付金支払い業務に用いた例を説明する。以下、第1実施形態と異なる点を中心に説明する。なお、本発明に係る帳票読取システムは、医療保険の給付金支払い手続きだけではなく、保険の各種手続き全般に用いることができる。
[Second embodiment]
Next, a second embodiment of the present invention will be described. In the present embodiment, an example in which the form reading system according to the present invention is used for payment of medical insurance benefits by an insurance company will be described. Hereinafter, the points different from the first embodiment will be mainly described. It should be noted that the form reading system according to the present invention can be used not only for payment of medical insurance benefits but also for various insurance procedures.

本実施形態において、説明を簡単にするために、上記支払い業務において医療保険の給付金を請求するために被保険者が保険会社に提出する請求書類は、(a)医療保険の給付金を請求する旨を示す請求書、(b)請求対象の入院/治療の内容を報告するための入院/治療内容報告書、(c)請求対象の入院/治療について発行された医療費領収書の3点とする。本例において帳票読取システムの読取対象の帳票は、上記(c)の医療費領収書とする。なお、この帳票読取システムの読取対象の帳票は、医療保険に関する帳票であればどのような帳票でもよく、例えば、診療明細書や退院証明書、公的期間が発行した書類であってもよい。   In this embodiment, for the sake of simplicity, in order to claim medical insurance benefits in the payment operation, the insured submits a claim to the insurance company as (a) claiming medical insurance benefits. (B) Inpatient / treatment report to report the contents of hospitalization / treatment to be billed, and (c) Medical expenses receipt issued for hospitalization / treatment to be billed And In this example, the form to be read by the form reading system is the medical expense receipt described in (c) above. The form to be read by the form reading system may be any form as long as it is a form related to medical insurance, and may be, for example, a medical statement, a discharge certificate, or a document issued during a public period.

<1.概要>
図8を参照して、本実施形態に係る帳票読取システムを用いた医療保険の給付金支払い業務の流れを下記(1)〜(7)のプロセスをもって説明する。
<1. Overview>
With reference to FIG. 8, the flow of the medical insurance benefit payment operation using the form reading system according to the present embodiment will be described with the following processes (1) to (7).

図8に示すように、(1)まず医療保険の給付金請求の申請を行うため、被保険者から提出された上記(a)及び上記(b)の紙媒体の請求書類の内容をデータエントリーする者(以下、「入力者」ともいう)は、端末200aを用いてこの申請登録のためのWeb画面で上記(a)及び上記(b)の内容を示すデータ(以下、「申請データ」ともいう)を入力する。なお、この給付金請求の申請にあたって紙媒体の請求書類ではなくWeb画面からの当該申請を受け付けていた場合には、被保険者がこの申請データの入力者となってもよい。   As shown in FIG. 8, (1) First, in order to apply for a medical insurance benefit claim, the contents of the paper-based claim documents (a) and (b) submitted by the insured are data-entry. The user (hereinafter, also referred to as “input person”) uses the terminal 200a to display data (hereinafter, also referred to as “application data”) indicating the contents of the above (a) and (b) on the Web screen for this application registration. "). In the case where the application for this claim has been received from a Web screen instead of a paper claim document, the insured person may be the input person of the application data.

(2)つぎに、スキャナー300は、入力者からの操作により、上記(a)及び上記(b)と併せて提出された上記(c)の紙媒体の医療費領収書を読み取り画像データに変換する。   (2) Next, the scanner 300 reads the medical expense receipt of the paper medium (c) submitted together with the above (a) and (b) and converts it into image data by the operation of the input person. I do.

(3)つぎに、本実施形態に係るサーバ装置500は、この変換された医療費領収書の画像データを取得して、医療費領収書に記載されている手術点数や診療日/入院期間等の各項目の項目名と項目値を特定する。   (3) Next, the server device 500 according to the present embodiment acquires the converted image data of the medical expense receipt, and calculates the number of operations, the medical treatment date / hospitalization period, etc. described in the medical expense receipt. Identify the item name and item value of each item.

(4)つぎに、サーバ装置500は、特定した項目名と項目値を関連付けてテキストデータとして出力する。   (4) Next, the server device 500 associates the specified item name with the item value and outputs it as text data.

(5)つぎに、サーバ装置500は、上記(1)で入力された上記(b)の報告内容と上記(4)で出力された領収書のテキストデータとを照合する。サーバ装置500は、具体的には、照合対象の項目を上記報告内容の「診療日」とした場合、この診療日の入力値「2012/08/15」と、一方この診療日に該当する項目としてサーバ装置500が特定した項目名「発行日」の項目値とを照合し、どの程度合致しているかの度合いを示す合致度を算出する。なお、本例の請求対象の治療において診療日と発行日は同日とする。   (5) Next, the server device 500 collates the report content of (b) input in (1) with the text data of the receipt output in (4). Specifically, when the item to be compared is the “medical treatment day” of the report content, the server device 500 specifies the input value “2012/08/15” of the medical treatment date and the item corresponding to the medical treatment date. Is compared with the item value of the item name “issue date” specified by the server device 500, and the degree of matching indicating the degree of matching is calculated. It should be noted that the medical treatment date and the issue date are the same in the treatment of the claim target in this example.

(6a)予め設定した所定の合致度が80%とした際、サーバ装置500は、上記照合の結果、上記合致度が95%で所定の合致度を超えている場合、上記(1)で入力された診療日の報告内容に入力エラーの可能性はないと判定して次の報告項目のチェックに進む。(6b)一方、サーバ装置500は、上記照合の結果、上記合致度が60%で所定の合致度以下の場合、上記(1)で入力された診療日の報告内容に入力エラーの可能性があると判定する。サーバ装置500は、ユーザに当該判定結果として診療日の入力エラーの可能性について通知するため、診療日を示す入力エラー情報を生成する。端末200bは、サーバ500で生成された入力エラー情報を画面等で出力する。   (6a) When the predetermined degree of matching is set to 80%, the server apparatus 500 inputs the information in (1) above if the matching result indicates that the degree of matching is 95% and exceeds the predetermined degree of matching. It is determined that there is no possibility of an input error in the contents of the report on the medical treatment date, and the process proceeds to the next report item check. (6b) On the other hand, when the matching result indicates that the matching degree is 60% and equal to or less than the predetermined matching degree, the server apparatus 500 may indicate an input error in the medical treatment day report content input in (1). It is determined that there is. The server device 500 generates input error information indicating the medical treatment date in order to notify the user of the possibility of an input error of the medical treatment date as the determination result. The terminal 200b outputs the input error information generated by the server 500 on a screen or the like.

(7)ユーザは、端末200bを用いて出力された上記入力エラー情報を画面等で確認し、この給付金請求の申請登録のためのWeb画面で入院/治療内容報告書の報告内容を再入力する。   (7) The user confirms the input error information output using the terminal 200b on a screen or the like, and re-enters the contents of the hospitalization / treatment report on the Web screen for registering the application for a benefit claim. I do.

上記構成によれば、サーバ装置500は、被保険者が記入又は入力者が入力した報告内容について、入力エラー(不一致)となった項目のみ人による再点検や再入力すればよい。このため、サーバ装置500は、領収書のテキストデータ化の精度が100%ではなくとも、人の手で領収書の内容をデータエントリーする負荷や人の目で報告内容と領収書の内容とを照合する負荷を低減することができる。また、サーバ装置500は、人の目で報告内容と領収書の内容を照合するよりも精度よく照合することができるため、業務品質を向上させることもできる。ひいては、保険会社は、本実施形態に係る帳票読取システムを用いることで、生命保険の給付金支払い業務において、上記データエントリー業務や照合業務の負荷を低減させ、業務品質を向上させることができる。   According to the above configuration, the server device 500 only needs to manually re-check or re-enter the report contents entered by the insured person or entered by the input person, for only the items having an input error (mismatch). For this reason, even if the accuracy of converting the receipt into text data is not 100%, the server device 500 can compare the report content and the receipt content with the load of manually inputting the contents of the receipt data and the human eyes. The load for collation can be reduced. In addition, the server device 500 can more accurately collate the contents of the report and the contents of the receipt with the eyes of a person, so that the quality of work can be improved. In addition, by using the form reading system according to the present embodiment, the insurance company can reduce the load of the data entry business and the collation business in the life insurance benefit payment business and improve the business quality.

<2.機能構成>
図9を参照して、本実施形態に係るサーバ装置500の機能構成の一例について説明する。サーバ装置500は、図9に示すように、第1実施形態に係るサーバ装置100の機能部に加えて照合部119を備える。また、サーバ装置500の範囲特定部115、項目値特定部116、出力情報生成部117及び記憶部120は、第1実施形態に係るこれらの機能部が有する機能に加えて以下の機能を有する。
<2. Functional Configuration>
An example of a functional configuration of the server device 500 according to the present embodiment will be described with reference to FIG. As shown in FIG. 9, the server device 500 includes a collating unit 119 in addition to the functional units of the server device 100 according to the first embodiment. The range specifying unit 115, the item value specifying unit 116, the output information generating unit 117, and the storage unit 120 of the server device 500 have the following functions in addition to the functions of these functional units according to the first embodiment.

範囲特定部115は、診療日項目及び入院期間項目の両方についてペアリングを実施する場合、診療日項目のペアリングを実施した結果に基づいて、入院期間項目の項目値が位置し得る範囲を、診療日項目の文字列の文字列枠の座標bbox(xmin,ymin,xmax,ymax)が示す範囲を除外して特定してもよい。このような構成によれば、サーバ装置500は、診療日/入院期間項目の項目値特定において、診療日項目と入院期間項目の項目値が重複してしまうことを抑止し、さらに入院期間項目の項目値の特定精度を向上させることができる。 When performing pairing for both the medical treatment day item and the hospitalization period item, the range specifying unit 115 specifies a range in which the item value of the hospitalization period item can be located based on the result of performing the pairing of the medical treatment day item, The range may be specified by excluding the range indicated by the coordinates bbox (x min , y min , x max , y max ) of the character string frame of the character string of the medical treatment date item. According to such a configuration, in specifying the item values of the medical treatment day / hospitalization period item, the server device 500 prevents the item values of the medical treatment day item and the hospitalization period item from overlapping, and furthermore, the The accuracy of specifying the item value can be improved.

項目値特定部116は、医療費領収書の所定の項目において項目値を特定する際に、当該項目の特性等に応じて項目ごとのペアリングの実施条件(以下、「ペアリング実施条件」ともいう)を付加してもよい。項目値特定部116は、このペアリング実施条件を満たした場合にペアリングを実施(項目値を特定)する。   When specifying an item value in a predetermined item of the medical expense receipt, the item value specifying unit 116 performs a pairing execution condition (hereinafter, also referred to as a “pairing execution condition”) for each item according to the characteristics or the like of the item. ) May be added. The item value specifying unit 116 performs the pairing (specifies the item value) when the pairing execution condition is satisfied.

図10を参照して、上記所定の項目ごとのペアリング実施条件の例について説明する。本例では、所定の項目として、医療費領収書の診療日及び入院期間を示す項目を用いて説明する。診療日及び入院期間を示す項目は、医療費領収書において、対象の治療が入院治療か外来治療かによって当該項目の項目名の取得の有無が変わってきたり、また当該項目の項目名が「発行日」や「出産日」等の「診療」や「入院」とは全く異なる表記で示されていたりする特性をもつ。よって、項目値特定部116は、診療日及び入院期間を示す項目について、この特性に応じたペアリング実施条件を設定する。以下、診療日及び入院期間を示す項目は、それぞれ「診療日項目」及び「入院期間項目」ともいい、総称して「診療日/入院期間項目」ともいう。   With reference to FIG. 10, an example of the pairing execution condition for each of the predetermined items will be described. In this example, description will be given using items indicating a medical treatment date and a hospitalization period in a medical expense receipt as predetermined items. Items indicating the medical treatment day and hospitalization period vary depending on whether the target treatment is inpatient treatment or outpatient treatment in the medical receipt, or whether the item name is `` issued '' It has the characteristic of being shown in a completely different notation from "medical care" and "hospitalization" such as "day" and "birth date". Therefore, the item value specifying unit 116 sets a pairing execution condition according to the characteristics for the item indicating the medical treatment day and the hospitalization period. Hereinafter, the items indicating the medical treatment day and the hospitalization period are also referred to as “medical treatment day item” and “hospitalization period item”, respectively, and are also collectively referred to as “medical treatment day / hospitalization period item”.

図10に示すように、診療日/入院期間項目におけるペアリング実施条件の例をリストアップしたペアリング実施条件表700は、各条件を識別するための条件No701と、項目名の取得の有無の条件を示す項目名取得有無条件702と、項目名取得有無以外の条件を示すその他条件703と、項目名取得有無条件702とその他条件703とのAND条件に応じて設定したペアリングを実施するか否か等を示すペアリング実施有無704とを含んで構成されている。   As shown in FIG. 10, a pairing execution condition table 700 listing examples of the pairing execution conditions in the medical treatment day / hospitalization period item includes a condition No. 701 for identifying each condition, and whether or not an item name is acquired. Whether to execute the pairing set according to the item name acquisition condition 702 indicating the condition, the other condition 703 indicating the condition other than the item name acquisition condition, and the AND condition of the item name acquisition condition 702 and the other condition 703 And a pairing execution status 704 indicating whether or not the pairing is performed.

図10に示すように、一例として、条件No701が「P003」のペアリング実施条件は、(1)項目名取得有無条件702では診療日項目の項目名の取得が無く入院期間の項目名の取得が有った場合、及び(2)その他条件703では入外区分が「外来」の場合を示す。項目値特定部116は、このペアリング実施条件において、診療日項目のペアリングは実施せず入院期間項目のペアリングを実施する。ここで、「入外区分」とは、対象の治療が入院治療か外来治療かを示す項目である。   As shown in FIG. 10, as an example, the pairing execution condition when the condition No. 701 is “P003” is as follows: (1) In the item name acquisition presence / absence condition 702, there is no acquisition of the item name of the medical treatment day item and the acquisition of the item name of the hospitalization period And (2) Other condition 703 indicates a case where the entry / exit category is “outpatient”. Under this pairing execution condition, the item value specifying unit 116 does not perform the pairing of the medical treatment day item, but performs the pairing of the hospitalization period item. Here, the “outside / outside division” is an item indicating whether the target treatment is inpatient treatment or outpatient treatment.

他の例として、条件No701が「P005」のペアリング実施条件は、(1)項目名取得有無条件702では診療日項目の項目名の取得が有り入院期間の項目名の取得が無かった場合、及び(2)その他条件703では入外区分が「入院」かつ上記取得した診療日項目の項目名が「発行日」及び「出産日」以外の場合を示す。項目値特定部116は、このペアリング実施条件において、入院期間項目について上記取得した診療日項目の項目名をもってペアリングを実施する。一方、項目値特定部116は、このペアリング実施条件において、診療日項目について、複数の診療日項目の項目名があった場合に、二つ目の項目名(入院期間項目でペアリングを実施した項目名以外)でペアリングを実施する。   As another example, the pairing execution condition whose condition No. 701 is “P005” is as follows: (1) In the item name acquisition presence / absence condition 702, when the item name of the medical treatment day item is acquired and the item name of the hospitalization period is not acquired, And (2) Other conditions 703 indicate a case where the entrance / exit category is “hospitalization” and the name of the acquired medical treatment day item is other than “issue date” and “childbirth date”. Under this pairing execution condition, the item value specifying unit 116 performs pairing using the acquired medical treatment day item name for the hospitalization period item. On the other hand, if there are a plurality of medical day items for the medical day items in the pairing execution conditions, the item value specifying unit 116 performs the second item name (performs the pairing with the hospitalization period item). (Other than the item name).

他の例として、条件Noが「P006」のペアリング実施条件は、(1)項目名取得有無条件702では診療日項目の項目名の取得が有り入院期間の項目名の取得が無かった場合、及び(2)その他条件703では入外区分が「入院」かつ上記取得した診療日項目の項目名が「発行日」又は「出産日」の場合を示す。項目値特定部116は、このペアリング実施条件において、診療日項目のペアリングは実施し入院期間項目のペアリングを実施しない。   As another example, the pairing execution condition whose condition number is “P006” is as follows: (1) In the item name acquisition presence / absence condition 702, when the item name of the medical treatment day item is acquired and the item name of the hospitalization period is not acquired, And (2) Other condition 703 indicates a case where the out-of-service category is “hospitalization” and the acquired medical treatment day item name is “issue date” or “birth date”. Under this pairing execution condition, the item value specifying unit 116 executes the pairing of the medical treatment day item and does not execute the pairing of the hospitalization period item.

上記構成によれば、サーバ装置500は、ペアリング対象の項目が他の項目の内容によって項目名の取得の有無が変わってきたり、またペアリング対象の項目の項目名が抽出された文字からは予測しづらい全く異なる表記で示されている項目名が相当したりする場合でもペアリング対象の項目の特性に応じてペアリングを実施することができる。   According to the above configuration, the server device 500 determines whether or not the item name of the item to be paired changes depending on the content of another item, or the character from which the item name of the item to be paired is extracted. Pairing can be performed according to the characteristics of the item to be paired even when an item name indicated by a completely different notation that is difficult to predict corresponds.

項目値特定部116は、期間を表す項目において、特定した項目値において当該期間の開始と終了のタイミングが反転していた場合に開始と終了のタイミングの値を入れ替えてもよい。項目値特定部116は、例えば、入院期間項目において、特定した開始日付が「2018/11/15」で終了日付が「2018/11/1」と反転している場合には、開始日付と終了日付の値を入れ替えて開始日付が「2018/11/1」と終了日付が「2018/11/15」としてもよい。このような構成によれば、期間を表す項目において特定した項目値を訂正することができるため、サーバ装置500は精度よく項目値を特定することができる。   The item value specifying unit 116 may exchange the values of the start and end timings when the start and end timings of the period are reversed in the specified item value in the item indicating the period. For example, in the hospitalization period item, if the specified start date is “2018/11/15” and the end date is inverted to “2018/11/1”, the item value specifying unit 116 The start date may be "2018/11/1" and the end date may be "2018/11/15" by exchanging the date values. According to such a configuration, the item value specified in the item indicating the period can be corrected, so that the server device 500 can specify the item value with high accuracy.

項目値特定部116は、日付や期間を表す項目において、項目値を特定する際に重複することがない所定の文字又は文字列が連続していた場合、項目値の文字列の一部を削除してもよい。項目値特定部116は、具体的には、上記重複がすることがない所定の文字又は文字列として「平成」、「月」、「平」、「年」、「日」、「成」又は「H」の少なくともいずれか一つ設定し、これらの文字又は文字列が連続していた場合には一つ目の文字又は文字列のみ残して残りは削除してもよい。   The item value specifying unit 116 deletes a part of the character string of the item value when a predetermined character or character string that does not overlap when specifying the item value is continuous in the item indicating the date or the period. May be. Specifically, the item value specifying unit 116 determines that the predetermined characters or character strings that do not overlap are “Heisei”, “Month”, “Flat”, “Year”, “Day”, “Naru” or At least one of "H" is set, and when these characters or character strings are continuous, only the first character or character string may be left and the rest may be deleted.

項目値特定部116は、日付や期間を表す項目(以下、「日付項目」ともいう)において、項目値を特定する際に「年」又は「月」の少なくとも一つが含まれていない場合、「年」又は「月」の区切り位置を判定して挿入してもよい。ここで図11を参照して、「年」又は「月」の挿入の例について説明する。図11に示すように、「年」又は「月」の挿入の例をリストアップした年月挿入条件表900は、各条件を識別するための条件No901と、当該挿入の条件を示す条件902と、条件902に応じて設定した「年」又は「月」の少なくともいずれか一つを挿入する処理の内容を示す処理内容903とを含んで構成されている。   The item value specifying unit 116 determines whether an item representing a date or a period (hereinafter, also referred to as a “date item”) does not include at least one of “year” and “month” when specifying the item value. The break position of “year” or “month” may be determined and inserted. Here, an example of inserting “year” or “month” will be described with reference to FIG. As shown in FIG. 11, a year / month insertion condition table 900 listing examples of insertion of “year” or “month” includes a condition No. 901 for identifying each condition, and a condition 902 indicating the condition of the insertion. And processing contents 903 indicating the contents of processing for inserting at least one of "year" and "month" set according to the condition 902.

図11に示すように、一例として、条件No901が「D002」の挿入条件において、条件902の年月有無について月のみ有りの場合、項目値特定部116は、日付項目の項目値として抽出された数字の数及び距離から区切り位置を判定し、当該判定された区切り位置に「年」の文字を挿入する。   As illustrated in FIG. 11, as an example, when the condition No. 901 is “D002” and the insertion condition is “D002”, and the condition 902 includes only the month for the presence or absence of the date, the item value specifying unit 116 is extracted as the item value of the date item. The break position is determined from the number and distance of the numbers, and the character “year” is inserted at the determined break position.

他の例として、条件No901が「D003」の挿入条件において、条件902の年月有無について「年」及び「月」が両方なく、また抽出された数字桁数が8桁の場合、項目値特定部116は、日付項目の項目値はYYYYMMDD(年=YYYY、月=MM、日=DD)形式で表記されていると推測し、当該形式にそって「年」及び「月」の文字を挿入する。   As another example, if the condition No. 901 is "D003" and the insertion condition is "D003", there is no "year" and "month" for the presence / absence of the condition 902, and if the number of extracted digits is eight, the item value is specified. The unit 116 estimates that the item value of the date item is represented in the format of YYYYMMDD (year = YYYY, month = MM, day = DD), and inserts the characters “year” and “month” according to the format. I do.

出力情報生成部117は、ユーザに対して、後述の照合部119により算出された合致度が所定の合致度以下の帳票に関連する手続きの入力データ(例えば、上記図8の例の申請データ)の項目の項目名を示す入力エラー情報を生成する。このような構成によれば、入力者が入力した報告内容について入力エラー(不一致)となった項目のみ人による再点検や再入力すればよいため、人がデータエントリーしたり照合したりする負荷を低減することができる。   The output information generation unit 117 provides the user with input data of a procedure relating to a form whose matching degree calculated by the matching unit 119 described below is equal to or less than a predetermined matching degree (for example, the application data in the example of FIG. 8 described above). Generate input error information indicating the item name of the item. According to such a configuration, the report content entered by the input person may be re-checked or re-input by a person only for an item having an input error (mismatch). Can be reduced.

ここで、「入力エラー情報」とは、帳票に関連する手続きの入力データの各項目に対して、ユーザが入力した値にエラーがあることを示す情報である。入力エラー情報は、例えば、入力エラーに該当する項目の項目名のみをリストアップしたものでもよいし、それぞれの項目名に加えて合致度を付加してもよい。ここで「合致度」とは、比較する二つの項目値のマッチングの度合いを示すものであり、これらの項目値の集合要素においてどの程度合致しているかを数量化したものである。また、ここで「所定の合致度」とは、入力された項目値をエラーとみなすか否かの閾値を設定したものである。所定の合致度の具体的な値については、本実施形態に係る帳票読取システムを用いた業務内容等に応じて80や90%といった値を適宜設定すればよい。   Here, “input error information” is information indicating that there is an error in a value input by a user for each item of input data of a procedure related to a form. The input error information may list, for example, only the item names of the items corresponding to the input errors, or may add the degree of matching in addition to each item name. Here, the “matching degree” indicates the degree of matching between two item values to be compared, and is a quantification of the degree of matching in a set element of these item values. Here, the “predetermined degree of matching” is a value that sets a threshold value for determining whether or not an input item value is regarded as an error. As a specific value of the predetermined matching degree, a value such as 80 or 90% may be appropriately set according to the contents of the business using the form reading system according to the present embodiment.

照合部119は、帳票に関連する手続きの入力データの各項目の入力された項目値と、当該各項目の項目名に該当する項目名特定部114により特定された項目名の項目値特定部116により特定された項目値とを照合し、当該入力された項目値と当該特定された項目値とのマッチングの度合いを示す合致度を算出する。   The collation unit 119 includes an input item value of each item of the input data of the procedure related to the form and an item value specifying unit 116 of the item name specified by the item name specifying unit 114 corresponding to the item name of each item. Is compared with the specified item value, and the degree of matching indicating the degree of matching between the input item value and the specified item value is calculated.

記憶部120は、保険の手続きの申請データ等の帳票に関連する手続きの入力データの各項目における項目名と入力者から入力された項目値とを示す項目入力情報を記憶する。ここで、「項目入力情報」とは、帳票に関連する手続きの入力データの各項目における項目名と当該項目名に対応する入力者から入力された項目値とを関連付けて示す情報である。項目入力情報は、例えば、DBのテーブルの場合、上記図8の例における項目名「診療日」と当該項目名に対応する入力者から入力された項目値(入力値)「2012/08/15」とを同一レコードに含めたテーブルである。   The storage unit 120 stores item input information indicating an item name and an item value input by an input user in each item of input data of a procedure related to a form such as insurance application data. Here, the “item input information” is information indicating an item name of each item of input data of a procedure related to a form associated with an item value input by an input person corresponding to the item name. For example, in the case of a DB table, the item input information is the item name “medical date” in the example of FIG. 8 and the item value (input value) “2012/08/15” input by the input person corresponding to the item name. Is included in the same record.

記憶部120は、例えば、上記図10の例で示したペアリング実施条件表700や図11の例で示した年月挿入条件表900を示す情報を記憶してもよい。   The storage unit 120 may store, for example, information indicating the pairing execution condition table 700 shown in the example of FIG. 10 and the year / month insertion condition table 900 shown in the example of FIG.

なお、本実施形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、さまざまな変形が可能である。さらに、当業者であれば、以下に述べる各要素を均等なものに置換した実施の形態を採用することが可能であり、かかる実施の形態も本発明の範囲に含まれる。   Note that the present embodiment is an exemplification for describing the present invention, and is not intended to limit the present invention to only the embodiment. Further, the present invention can be variously modified without departing from the gist thereof. Further, those skilled in the art can adopt an embodiment in which each element described below is replaced with an equivalent one, and such an embodiment is also included in the scope of the present invention.

[変形例]
なお、本発明を上記実施の形態に基づいて説明してきたが、以下のような場合も本発明に含まれる。
[Modification]
Although the present invention has been described based on the above embodiment, the following cases are also included in the present invention.

(1)上記実施形態に係る項目値特定部116は、特定された項目名に対しペアリングされた項目値が複数存在する場合等において、対象の文字種や範囲を限定して再特定処理を行ってもよい。項目値特定部116は、具体的には、(1)ペアリングされた複数の項目値の文字列枠の範囲に属する各文字を、項目名特定部114により特定された項目名に対応する項目値が取り得る文字種に限定して抽出する。(2)当該抽出された各文字の文字枠の座標をつなげて範囲を特定する。(3)以降は、上記実施形態と同様に、当該特定された範囲に属する各文字を抽出し、当該抽出された各文字に基づいて項目値の再特定を行う。このような構成によれば、より精度よく各項目の項目名に対する項目値を特定することができる。   (1) The item value specifying unit 116 according to the above-described embodiment performs the re-specifying process by limiting the target character type and range when a plurality of item values paired with the specified item name exist. You may. The item value specifying unit 116 specifically (1) converts each character belonging to the range of the character string frame of a plurality of paired item values into an item corresponding to the item name specified by the item name specifying unit 114. Extract only characters that can take values. (2) A range is specified by connecting the coordinates of the character frames of the extracted characters. (3) Thereafter, similarly to the above embodiment, each character belonging to the specified range is extracted, and the item value is specified again based on the extracted characters. According to such a configuration, the item value for the item name of each item can be specified with higher accuracy.

(2)上記実施形態に係るサーバ装置100、500における各構成の少なくとも一部は、端末200(200a、200b)が備えていてもよい。例えば、サーバ装置500の照合部119の機能は、端末200の制御部に備えてもよい。すなわち、端末200が、帳票に関連する手続きの入力データの各項目の入力された項目値と、当該各項目の項目名に該当する上記特定された項目名の上記特定された項目値とを照合してもよい。この端末200側での照合処理にあたって、サーバ装置500は、項目名特定情報及び項目値特定情報を端末200に送信する。また、例えば、サーバ装置100、500の出力情報生成部117の機能は、端末200の制御部に備えてもよい。すなわち、端末200が、画面等で出力するための出力情報や入力エラー情報を生成してもよい。この端末200側での生成処理のため、サーバ装置100、500は、例えば、項目名特定情報と項目値特定情報とを関連付けた情報を端末200に送信する。また、サーバ装置100、500は、この端末200側での入力エラー情報の生成処理のため、照合部119の機能がサーバ装置側にあった場合には、帳票に関連する手続きの入力データの各項目の入力された項目値と上記特定された各項目の項目値との照合結果を示す情報を端末200に送信する。   (2) At least a part of each configuration in the server devices 100 and 500 according to the above embodiment may be included in the terminal 200 (200a, 200b). For example, the function of the matching unit 119 of the server device 500 may be provided in the control unit of the terminal 200. That is, the terminal 200 compares the input item value of each item of the input data of the procedure related to the form with the specified item value of the specified item name corresponding to the item name of each item. May be. In the collation processing on the terminal 200 side, the server device 500 transmits the item name specifying information and the item value specifying information to the terminal 200. Further, for example, the function of the output information generation unit 117 of the server device 100 or 500 may be provided in the control unit of the terminal 200. That is, the terminal 200 may generate output information or input error information to be output on a screen or the like. For the generation processing on the terminal 200 side, the server devices 100 and 500 transmit, for example, information in which the item name specifying information and the item value specifying information are associated with each other to the terminal 200. In addition, when the function of the matching unit 119 is provided on the server device side, the server devices 100 and 500 generate input error information on the terminal 200 side. Information indicating the collation result between the input item value of the item and the item value of each of the specified items is transmitted to the terminal 200.

1…帳票読取システム、100、500…サーバ装置(情報処理装置)、110…制御部、111…取得部、112…パターン分類部、113…文字認識部、114…項目名特定部、115…範囲特定部、116…項目値特定部、117…出力情報生成部、118…構築部、119…照合部、120…記憶部、130…通信部、200、200a、200b…端末、300…スキャナー、800…コンピュータ、801…プロセッサ、803…メモリ、805…記憶装置、807…入力I/F部、809…データI/F部、811…通信I/F部、813…表示装置   DESCRIPTION OF SYMBOLS 1 ... Form reading system, 100, 500 ... Server apparatus (information processing apparatus), 110 ... Control part, 111 ... Acquisition part, 112 ... Pattern classification part, 113 ... Character recognition part, 114 ... Item name specification part, 115 ... Range Specification unit, 116: item value specification unit, 117: output information generation unit, 118: construction unit, 119: collation unit, 120: storage unit, 130: communication unit, 200, 200a, 200b: terminal, 300: scanner, 800 ... Computer, 801 ... Processor, 803 ... Memory, 805 ... Storage device, 807 ... Input I / F unit, 809 ... Data I / F unit, 811 ... Communication I / F unit, 813 ... Display device

Claims (7)

帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、前記項目名を示す項目名登録情報を記憶する記憶部と、
非定型の帳票の画像データを取得する取得部と、
前記画像データ上の各文字を認識する文字認識部と、
前記認識された各文字を示す文字情報と前記項目名登録情報とに基づいて、前記帳票の各項目の項目名を特定する項目名特定部と、
前記マッピングモデルを用いて、前記特定された項目名の位置に対応する項目値のうち、前記相関値が閾値以上の項目値が位置し得る範囲を特定する範囲特定部と、
前記特定された範囲に属する前記各文字を抽出し、当該抽出された各文字に基づいて前記特定された項目名に対応する項目値を特定する項目値特定部と、
前記特定された項目名を示す情報と前記特定された項目値を示す情報とを関連付けて出力するための出力情報を生成する出力情報生成部と、を備える、
情報処理装置。
A mapping model representing a correlation value between the position of the item name of each item of the form and the position of the item value corresponding to the item name, and a storage unit for storing item name registration information indicating the item name,
An acquisition unit that acquires image data of an irregular form,
A character recognition unit that recognizes each character on the image data,
An item name specifying unit that specifies an item name of each item of the form based on the character information indicating the recognized characters and the item name registration information;
Using the mapping model, of the item values corresponding to the position of the specified item name, a range specifying unit that specifies a range in which the correlation value can be located at an item value equal to or greater than a threshold,
An item value specifying unit that extracts the characters belonging to the specified range and specifies an item value corresponding to the specified item name based on the extracted characters.
An output information generation unit that generates output information for outputting information indicating the specified item name and information indicating the specified item value in association with each other,
Information processing device.
前記記憶部は、前記帳票のパターンを示す帳票パターン情報を記憶し、
前記画像データに基づいて、前記画像データに示された帳票のパターンを分類するパターン分類部と、
前記マッピングモデルは、前記帳票のパターンごとに、各項目の項目名と項目値との複数の相対位置情報を統計解析して算出された前記項目名の位置と前記項目値の位置の相関値が前記帳票上にマッピングされたものであり、
前記範囲特定部は、前記分類された帳票のパターンに該当する前記マッピングモデルを用いて、前記特定された項目名の位置に対応する所定の前記相関以上の項目値の位置を示す範囲を特定する、
請求項1に記載の情報処理装置。
The storage unit stores form pattern information indicating a pattern of the form,
Based on the image data, a pattern classification unit that classifies the pattern of the form shown in the image data,
The mapping model is configured such that, for each pattern of the form, a correlation value between the position of the item name and the position of the item value calculated by statistically analyzing a plurality of pieces of relative position information of the item name and the item value of each item. Is mapped on the form,
The range specifying unit specifies, using the mapping model corresponding to the classified form pattern, a range indicating a position of an item value equal to or more than the predetermined correlation corresponding to the position of the specified item name. ,
The information processing device according to claim 1.
前記範囲特定部は、前記特定された項目名が位置する範囲を除外して、前記特定された項目名に対応する項目値が位置し得る範囲を特定する、
請求項1又は2に記載の情報処理装置。
The range specifying unit excludes a range in which the specified item name is located, and specifies a range in which an item value corresponding to the specified item name can be located,
The information processing device according to claim 1.
前記記憶部は、前記帳票に関連する手続きの入力データの各項目における項目名と入力者から入力された項目値とを示す項目入力情報を記憶し、
前記入力データの各項目の前記入力された項目値と、当該各項目の項目名に該当する前記特定された項目名の前記特定された項目値とを照合し、前記入力された項目値と前記特定された項目値とのマッチングの度合いを示す合致度を算出する照合部と、
前記出力情報生成部は、ユーザに対して、前記算出された合致度が所定の合致度以下の前記入力データの項目の項目名を示す入力エラー情報を生成する、
請求項1から3のいずれか一項に記載の情報処理装置。
The storage unit stores item input information indicating an item name and an item value input by an input user in each item of input data of a procedure related to the form,
The input item value of each item of the input data is compared with the specified item value of the specified item name corresponding to the item name of each item, and the input item value and the input item value are compared. A matching unit that calculates a degree of matching indicating the degree of matching with the specified item value;
The output information generation unit generates, for a user, input error information indicating an item name of an item of the input data in which the calculated matching degree is equal to or less than a predetermined matching degree,
The information processing device according to claim 1.
コンピュータが、
帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、前記項目名を示す項目名登録情報を記憶するステップと、
非定型の帳票の画像データを取得するステップと、
前記画像データ上の各文字を認識するステップと、
前記認識された各文字を示す文字情報と前記項目名登録情報とに基づいて、前記帳票の各項目の項目名を特定するステップと、
前記マッピングモデルを用いて、前記特定された項目名の位置に対応する項目値のうち、前記相関値が閾値以上の項目値が位置し得る範囲を特定するステップと、
前記特定された範囲に属する前記各文字を抽出し、当該抽出された各文字に基づいて前記特定された項目名に対応する項目値を特定するステップと、
前記特定された項目名を示す情報と前記特定された項目値を示す情報とを関連付けて出力するための出力情報を生成するステップと、を含む、
情報処理方法。
Computer
Storing a mapping model representing a correlation value between the position of the item name of each item of the form and the position of the item value corresponding to the item name, and storing item name registration information indicating the item name;
Obtaining image data of an irregular form,
Recognizing each character on the image data;
Identifying the item name of each item of the form based on the character information indicating the recognized characters and the item name registration information;
Using the mapping model, among the item values corresponding to the position of the specified item name, specifying a range in which the correlation value can be located at an item value equal to or greater than a threshold,
Extracting the characters belonging to the specified range, and specifying an item value corresponding to the specified item name based on the extracted characters;
Generating output information for outputting information indicating the specified item name and information indicating the specified item value in association with each other,
Information processing method.
コンピュータに、
帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、前記項目名を示す項目名登録情報を記憶する記憶機能と、
非定型の帳票の画像データを取得する取得機能と、
前記画像データ上の各文字を認識する文字認識機能と、
前記認識された各文字を示す文字情報と前記項目名登録情報とに基づいて、前記帳票の各項目の項目名を特定する項目名特定機能と、
前記マッピングモデルを用いて、前記特定された項目名の位置に対応する項目値のうち、前記相関値が閾値以上の項目値が位置し得る範囲を特定する範囲特定機能と、
前記特定された範囲に属する前記各文字を抽出し、当該抽出された各文字に基づいて前記特定された項目名に対応する項目値を特定する項目値特定機能と、
前記特定された項目名を示す情報と前記特定された項目値を示す情報とを関連付けて出力するための出力情報を生成する出力情報生成機能と、を実現させる、
プログラム。
On the computer,
A mapping model representing a correlation value between the position of the item name of each item of the form and the position of the item value corresponding to the item name, and a storage function of storing item name registration information indicating the item name,
An acquisition function for acquiring image data of an irregular form,
A character recognition function for recognizing each character on the image data,
An item name specifying function for specifying an item name of each item of the form based on the character information indicating the recognized characters and the item name registration information;
Using the mapping model, of the item values corresponding to the positions of the specified item names, a range specifying function for specifying a range in which the correlation value can be located at or above a threshold item value,
An item value specifying function of extracting the characters belonging to the specified range and specifying an item value corresponding to the specified item name based on the extracted characters;
An output information generation function of generating output information for outputting information indicating the specified item name and information indicating the specified item value in association with each other,
program.
保険に関する帳票の各項目の項目名の位置と当該項目名に対応する項目値の位置との間の相関値を表すマッピングモデルと、前記項目名を示す項目名登録情報と、前記帳票に関連する保険の手続きの申請データの各項目における項目名と入力者から入力された項目値とを示す項目入力情報と、を記憶する記憶部と、
非定型の保険に関する帳票の画像データを取得する取得部と、
前記画像データ上の各文字を認識する文字認識部と、
前記認識された各文字を示す文字情報と前記項目名登録情報とに基づいて、前記帳票の各項目の項目名を特定する項目名特定部と、
前記マッピングモデルを用いて、前記特定された項目名の位置に対応する項目値のうち、前記相関値が閾値以上の項目値が位置し得る範囲を特定する範囲特定部と、
前記特定された範囲に属する前記各文字を抽出し、当該抽出された各文字に基づいて前記特定された項目名に対応する項目値を特定する項目値特定部と、
前記申請データの前記入力者から入力された各項目の項目値と、当該各項目の項目名に該当する前記帳票の画像データから前記特定された項目名の前記特定された項目値とを照合し、前記入力された項目値と前記特定された項目値とのマッチングの度合いを示す合致度を算出する照合部と、
ユーザに対して、前記算出された合致度が所定の合致度以下の前記申請データの項目名を示す入力エラー情報を生成する出力情報生成部と、を備える、
帳票読取システム。
A mapping model representing a correlation value between the position of the item name of each item of the insurance-related form and the position of the item value corresponding to the item name; item name registration information indicating the item name; A storage unit that stores an item name and an item input information indicating an item value input by an input person in each item of the application data of the insurance procedure,
An acquisition unit that acquires image data of a form related to atypical insurance,
A character recognition unit that recognizes each character on the image data,
An item name specifying unit that specifies an item name of each item of the form based on the character information indicating the recognized characters and the item name registration information;
Using the mapping model, of the item values corresponding to the position of the specified item name, a range specifying unit that specifies a range in which the correlation value can be located at an item value equal to or greater than a threshold,
An item value specifying unit that extracts the characters belonging to the specified range and specifies an item value corresponding to the specified item name based on the extracted characters.
The item value of each item input from the input person of the application data is compared with the specified item value of the specified item name from the image data of the form corresponding to the item name of each item. A matching unit that calculates a degree of matching indicating the degree of matching between the input item value and the specified item value;
An output information generating unit that generates input error information indicating an item name of the application data in which the calculated degree of match is equal to or less than a predetermined degree of match for the user.
Form reading system.
JP2018137833A 2018-07-23 2018-07-23 Information processing apparatus, information processing method, program, and form reading system Active JP6736012B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018137833A JP6736012B2 (en) 2018-07-23 2018-07-23 Information processing apparatus, information processing method, program, and form reading system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018137833A JP6736012B2 (en) 2018-07-23 2018-07-23 Information processing apparatus, information processing method, program, and form reading system

Publications (2)

Publication Number Publication Date
JP2020016946A true JP2020016946A (en) 2020-01-30
JP6736012B2 JP6736012B2 (en) 2020-08-05

Family

ID=69580271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018137833A Active JP6736012B2 (en) 2018-07-23 2018-07-23 Information processing apparatus, information processing method, program, and form reading system

Country Status (1)

Country Link
JP (1) JP6736012B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642352A (en) * 2020-04-27 2021-11-12 菜鸟智能物流控股有限公司 Method and device for acquiring text information of express bill and terminal equipment
WO2022004097A1 (en) * 2020-06-30 2022-01-06 横河電機株式会社 Information processing device, information processing method, and computer program
KR102650072B1 (en) * 2023-03-13 2024-03-20 박경민 Method for extracting input data from image document using deep learning program

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243423A (en) * 2000-02-28 2001-09-07 Toshiba Corp Device and method for detecting character recording area of document, storage medium, and document format generating device
JP2004086782A (en) * 2002-08-29 2004-03-18 Hitachi Ltd Apparatus for supporting integration of heterogeneous database
JP2007233913A (en) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd Image processor and program
JP2008021068A (en) * 2006-07-12 2008-01-31 Hitachi Computer Peripherals Co Ltd Business form recognition apparatus and business form recognition program
JP2018092459A (en) * 2016-12-06 2018-06-14 株式会社アイリックコーポレーション Image analyzing device, image analyzing method, and image analyzing program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001243423A (en) * 2000-02-28 2001-09-07 Toshiba Corp Device and method for detecting character recording area of document, storage medium, and document format generating device
JP2004086782A (en) * 2002-08-29 2004-03-18 Hitachi Ltd Apparatus for supporting integration of heterogeneous database
JP2007233913A (en) * 2006-03-03 2007-09-13 Fuji Xerox Co Ltd Image processor and program
JP2008021068A (en) * 2006-07-12 2008-01-31 Hitachi Computer Peripherals Co Ltd Business form recognition apparatus and business form recognition program
JP2018092459A (en) * 2016-12-06 2018-06-14 株式会社アイリックコーポレーション Image analyzing device, image analyzing method, and image analyzing program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
細田聖人, 外3名: ""相関値差分比較方式によるマッピングモデルSplit判定"", FIT2010 第9回情報科学技術フォーラム 講演論文集 第2分冊, JPN6020016661, 20 August 2010 (2010-08-20), pages 157 - 158, ISSN: 0004268648 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642352A (en) * 2020-04-27 2021-11-12 菜鸟智能物流控股有限公司 Method and device for acquiring text information of express bill and terminal equipment
CN113642352B (en) * 2020-04-27 2023-12-19 菜鸟智能物流控股有限公司 Method and device for acquiring text information of express delivery bill and terminal equipment
WO2022004097A1 (en) * 2020-06-30 2022-01-06 横河電機株式会社 Information processing device, information processing method, and computer program
KR102650072B1 (en) * 2023-03-13 2024-03-20 박경민 Method for extracting input data from image document using deep learning program

Also Published As

Publication number Publication date
JP6736012B2 (en) 2020-08-05

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
US10915788B2 (en) Optical character recognition using end-to-end deep learning
US9158744B2 (en) System and method for automatically extracting multi-format data from documents and converting into XML
US20200226510A1 (en) Method and System for Determining Risk Score for a Contract Document
EP3879475A1 (en) Method of classifying medical documents
JP6736012B2 (en) Information processing apparatus, information processing method, program, and form reading system
US20210192129A1 (en) Method, system and cloud server for auto filing an electronic form
JP2016048444A (en) Document identification program, document identification device, document identification system, and document identification method
US9305245B2 (en) Methods and systems for evaluating handwritten documents
US9710769B2 (en) Methods and systems for crowdsourcing a task
US11763588B2 (en) Computing system for extraction of textual elements from a document
JP6529254B2 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, PROGRAM, AND STORAGE MEDIUM
US9311529B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
US11899727B2 (en) Document digitization, transformation and validation
JP7021496B2 (en) Information processing equipment and programs
US20220301072A1 (en) Systems and methods for processing claims
KR100957508B1 (en) System and method for recognizing optical characters
US10522246B2 (en) Concepts for extracting lab data
CN112446367A (en) Information processing apparatus and recording medium
US20240046676A1 (en) Systems and methods for detecting user created circular shaped indications using machine learning models
JP7452809B1 (en) Information processing device, information processing method and program
KR102507534B1 (en) Method and apparatus for accounting management using ocr recognition based on artificial intelligence
JP7491022B2 (en) Document identification device, document identification method, and computer program
US11881041B2 (en) Automated categorization and processing of document images of varying degrees of quality
JP2024068871A (en) Drawing Management System

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191218

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200424

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200513

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200625

R150 Certificate of patent or registration of utility model

Ref document number: 6736012

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250