JP2018092459A - Image analyzing device, image analyzing method, and image analyzing program - Google Patents

Image analyzing device, image analyzing method, and image analyzing program Download PDF

Info

Publication number
JP2018092459A
JP2018092459A JP2016236433A JP2016236433A JP2018092459A JP 2018092459 A JP2018092459 A JP 2018092459A JP 2016236433 A JP2016236433 A JP 2016236433A JP 2016236433 A JP2016236433 A JP 2016236433A JP 2018092459 A JP2018092459 A JP 2018092459A
Authority
JP
Japan
Prior art keywords
image
character information
image analysis
target image
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016236433A
Other languages
Japanese (ja)
Inventor
伸弘 勝本
Nobuhiro Katsumoto
伸弘 勝本
隆司 小池
Takashi Koike
隆司 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Infordio Co Ltd
IRRC CORP
Original Assignee
Infordio Co Ltd
IRRC CORP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Infordio Co Ltd, IRRC CORP filed Critical Infordio Co Ltd
Priority to JP2016236433A priority Critical patent/JP2018092459A/en
Publication of JP2018092459A publication Critical patent/JP2018092459A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

PROBLEM TO BE SOLVED: To improve accuracy in extraction of character information from an image as an analysis subject such as an insurance policy.SOLUTION: An image analyzing device 10 for analyzing an object image, comprises an image analysis part 23 and a structure analysis part 25. The image analysis part 23 extracts character information from the object image. The structure analysis part 25 associates the character information with character information pairing with the character information. The association of the character information is performed on the basis of a structure distance obtained as a function of an image of a peripheral region in which the distance in the object image of two pieces of character information and the character information of the object image are extracted. The image analyzing device may further construct a mapping part that displays a combination of the character information associated by the image analysis part 23 in accordance with the object image, and receives an input of correction by a user in a case of including an error in the combination of the character information.SELECTED DRAWING: Figure 1

Description

本発明は、保険証券などの分析対象画像を分析する画像分析装置、画像分析方法および画像分析プログラムに関する。   The present invention relates to an image analysis apparatus, an image analysis method, and an image analysis program for analyzing an analysis target image such as an insurance policy.

生命保険や損害保険を提供する保険会社は、複数存在し、また、それぞれの保険会社は複数の保険商品を販売している。それぞれの保険商品には、保障額や保険期間などのパラメータがある。さらに、主たる保険契約に付随して特約が締結されることも多い。このため、保険の取り扱いにそれほど慣れていない保険契約人は、自分が契約した保険が自分にとって適切かどうかを判断することが難しい。   There are multiple insurance companies that provide life insurance and non-life insurance, and each insurance company sells multiple insurance products. Each insurance product has parameters such as the amount of insurance and the insurance period. In addition, special agreements are often signed with the main insurance contract. For this reason, it is difficult for policyholders who are not so used to handling insurance to determine whether or not the insurance he / she has contracted is appropriate for him / her.

複数の保険会社の保険商品を取り扱う保険代理店は、保険証券に基づいて顧客がすでに契約している保険の内容を把握し、顧客に適切な保険を提案する場合がある。   An insurance agent that handles insurance products of a plurality of insurance companies may grasp the contents of insurance that the customer has already contracted based on the insurance policy and propose appropriate insurance to the customer.

特開2015−46027号公報JP 2015-46027 A

保険代理店による顧客に対する適切な保険の提案は、担当者のノウハウに依存していることが多い。しかし、保険商品を提供する会社や保険の種類によっても保険証券のフォーマットや使われる用語などが多岐にわたり、すべてを記憶しておくことは難しい。そこで、保険の分析や提案の作成には、コンピュータを利用して品質の均一化および向上が望まれる。   Insurers are often dependent on the know-how of the person in charge to offer appropriate insurance to customers. However, depending on the company that provides insurance products and the type of insurance, the format of insurance policies and terms used are diverse, and it is difficult to memorize all of them. Therefore, for insurance analysis and proposal creation, it is desirable to use a computer to equalize and improve quality.

しかし、生命保険や損害保険の契約の内容は、1枚程度の保険証券に記載されることが多い。保険証券は、一般に、紙媒体に印刷されており、契約内容は保険会社が電子データとして保管しているとしても、保険会社の相手方の契約者は電子データとして保険内容を有していることはほとんどない。このため、契約内容を計算機に入力するためには、担当者などが手入力しなければならず、契約の分析や提案の作成に割く時間が削られる場合がある。   However, the contents of life insurance and non-life insurance contracts are often written on about one insurance policy. Insurance policy is generally printed on paper media, and even if the contract contents are stored as electronic data by the insurance company, the contractor of the other party of the insurance company has the insurance contents as electronic data. rare. For this reason, in order to input the contract contents to the computer, the person in charge or the like has to input it manually, and the time required for contract analysis and proposal creation may be reduced.

そこで、本発明は、保険証券などの分析対象画像から文字情報を抽出する精度を向上させることを目的とする。   Accordingly, an object of the present invention is to improve the accuracy of extracting character information from an analysis target image such as an insurance policy.

上述の目的を達成するため、本発明は、対象画像を分析する画像分析装置において、前記対象画像から文字情報を抽出する画像解析部と、前記文字情報の前記対象画像中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析部と、を有することを特徴とする。   In order to achieve the above-described object, the present invention provides an image analysis apparatus that analyzes a target image, an image analysis unit that extracts character information from the target image, and a position of the character information in the target image. And a structure analysis unit that associates character information with a pair of character information.

また、本発明は、コンピュータに対象画像を分析させる画像分析プログラムにおいて、コンピュータに、前記対象画像から文字情報を抽出する画像解析機能と、前記文字情報の前記対象画像中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析機能と、を実現させる。   According to another aspect of the present invention, there is provided an image analysis program for causing a computer to analyze a target image. The computer analyzes an image analysis function for extracting character information from the target image, and the character information based on the position of the character information in the target image. And a structure analysis function for associating the character information paired with the information.

また、本発明は、対象画像を分析する画像分析方法において、前記対象画像から文字情報を抽出する画像解析ステップと、前記文字情報の前記対象画像中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析ステップと、を有することを特徴とする。   According to another aspect of the present invention, there is provided an image analysis method for analyzing a target image, wherein an image analysis step for extracting character information from the target image is paired with the character information based on a position of the character information in the target image. And a structural analysis step for linking the character information.

本発明によれば、保険証券などの分析対象画像から文字情報を抽出する精度を向上させることができる。   ADVANTAGE OF THE INVENTION According to this invention, the precision which extracts character information from analysis object images, such as insurance policy, can be improved.

本発明に係る画像分析装置の一実施の形態におけるブロック図である。It is a block diagram in one embodiment of an image analysis device concerning the present invention. 本発明に係る画像分析装置の一実施の形態の分析対象の保険証券画像の平面図である。It is a top view of the insurance policy image of the analysis object of one embodiment of the image analysis device concerning the present invention. 本発明に係る画像分析装置の一実施の形態の分析の流れを示すフローチャートである。It is a flowchart which shows the flow of the analysis of one Embodiment of the image analyzer which concerns on this invention. 本発明に係る画像分析装置の一実施の形態における保険証券画像の一部分の例である。It is an example of a part of insurance policy image in one embodiment of an image analysis device concerning the present invention. 本発明に係る画像分析装置の一実施の形態における前処理済画像の一部分の例である。It is an example of a part of a preprocessed image in an embodiment of an image analysis apparatus according to the present invention. 本発明に係る画像分析装置の一実施の形態における保険証券画像の一部分の例である。It is an example of a part of insurance policy image in one embodiment of an image analysis device concerning the present invention. 本発明に係る画像分析装置の一実施の形態における保険証券画像の一部分の例である。It is an example of a part of insurance policy image in one embodiment of an image analysis device concerning the present invention. 本発明に係る画像分析装置の一実施の形態におけるマッピング画面である。It is a mapping screen in one embodiment of the image analysis apparatus according to the present invention.

本発明に係る画像分析装置の一実施の形態を、図面を参照して説明する。なお、この実施の形態は単なる例示であり、本発明はこれに限定されない。同一または類似の構成には同一の符号を付し、重複する説明は省略する。   An image analysis apparatus according to an embodiment of the present invention will be described with reference to the drawings. This embodiment is merely an example, and the present invention is not limited to this. The same or similar components are denoted by the same reference numerals, and redundant description is omitted.

図1は、本発明に係る画像分析装置の一実施の形態におけるブロック図である。   FIG. 1 is a block diagram of an image analysis apparatus according to an embodiment of the present invention.

本実施の形態の画像分析装置10は、画像記憶部20と画像解析前処理部21と前処理済画像記憶部22と画像解析部23と画像解析後処理部24と構造解析部25とマッピング部26とパターン分類部27とパターン記憶部28と抽出文字列記憶部29と辞書30とスキャナー12とディスプレイ13とキーボード14とマウス15とを有している。画像分析装置10は、たとえば1台のコンピュータ上に構成される。画像分析装置10の一部、たとえば画像記憶部20、画像解析前処理部21、前処理済画像記憶部22、画像解析部23、画像解析後処理部24、構造解析部25、マッピング部26、パターン分類部27、パターン記憶部28、抽出文字列記憶部29、および、辞書30の一部または全部は、ネットワークで互いに接続された複数のコンピュータ上に分散して配置されていてもよい。   The image analysis apparatus 10 according to the present embodiment includes an image storage unit 20, an image analysis preprocessing unit 21, a preprocessed image storage unit 22, an image analysis unit 23, an image analysis post-processing unit 24, a structure analysis unit 25, and a mapping unit. 26, a pattern classification unit 27, a pattern storage unit 28, an extracted character string storage unit 29, a dictionary 30, a scanner 12, a display 13, a keyboard 14, and a mouse 15. The image analysis apparatus 10 is configured on a single computer, for example. A part of the image analysis device 10, for example, an image storage unit 20, an image analysis pre-processing unit 21, a pre-processed image storage unit 22, an image analysis unit 23, an image analysis post-processing unit 24, a structure analysis unit 25, a mapping unit 26, Part or all of the pattern classification unit 27, the pattern storage unit 28, the extracted character string storage unit 29, and the dictionary 30 may be distributed on a plurality of computers connected to each other via a network.

図2は、本実施の形態の画像分析装置の分析対象の保険証券画像の平面図である。   FIG. 2 is a plan view of an insurance policy image to be analyzed by the image analysis apparatus of the present embodiment.

本実施の形態の画像分析装置10は、たとえば紙に印刷された保険証券の画像(保険証券画像90)を分析する。また、紙に印刷されたものだけではなく、スマートフォンやコンピュータのディスプレイに表示された内容を分析することもできる。   The image analysis apparatus 10 according to the present embodiment analyzes, for example, an insurance policy image (insurance policy image 90) printed on paper. Moreover, not only what was printed on paper but the content displayed on the display of a smart phone or a computer can also be analyzed.

次に、本実施の形態の画像分析装置10を用いた保険証券画像90の分析処理の流れを説明する。   Next, a flow of analysis processing of the insurance policy image 90 using the image analysis apparatus 10 of the present embodiment will be described.

図3は、本実施の形態の画像分析装置の分析の流れを示すフローチャートである。   FIG. 3 is a flowchart showing an analysis flow of the image analysis apparatus according to the present embodiment.

保険証券画像90は、たとえばスキャナー12でスキャンされて画像分析装置10の画像記憶部20に記憶される(S1)。スキャナー12の代わりに、スマートフォンなどのカメラで撮像してもよい。カメラで撮像する場合には、画像に台形補正や水平補正を施すなどしてもよい。   The insurance policy image 90 is scanned by, for example, the scanner 12 and stored in the image storage unit 20 of the image analysis apparatus 10 (S1). You may image with a camera, such as a smart phone, instead of the scanner 12. FIG. When imaging with a camera, trapezoidal correction or horizontal correction may be performed on the image.

次に、画像解析前処理部21は、画像記憶部20に記憶された保険証券画像90に対して前処理を施す(S2)。   Next, the image analysis preprocessing unit 21 performs preprocessing on the insurance policy image 90 stored in the image storage unit 20 (S2).

具体的には、まず、画像解析前処理部21は、保険証券画像90から、表組みの領域91を検出する。表組みの領域は、たとえば所定の長さ以上の直線およびそれらの直線をつなぐ曲線、すなわち罫線92で囲まれた領域を探すことにより検出することができる。   Specifically, first, the image analysis preprocessing unit 21 detects a table-set area 91 from the insurance policy image 90. The table area can be detected by searching for a straight line having a predetermined length or more and a curve connecting the straight lines, that is, an area surrounded by the ruled line 92.

図4は、本実施の形態における保険証券画像の一部分の例である。図5は、本実施の形態における前処理済画像の一部分の例である。   FIG. 4 is an example of a part of an insurance policy image in the present embodiment. FIG. 5 is an example of a part of the preprocessed image in the present embodiment.

次に、画像解析前処理部21は、表組みの領域91から罫線92を除去し、前処理済画像93を生成する。前処理済画像93は、画像解析前処理部21から出力され、前処理済画像記憶部22に記憶される。   Next, the image analysis preprocessing unit 21 removes the ruled line 92 from the table region 91 to generate a preprocessed image 93. The preprocessed image 93 is output from the image analysis preprocessing unit 21 and stored in the preprocessed image storage unit 22.

図6は、本実施の形態における前処理済画像の一部分の他の例である。   FIG. 6 is another example of a part of the preprocessed image in the present embodiment.

さらに、画像解析前処理部21は、図6に示すように、前処理済画像93に含まれる画像の並べ替えを行ってもよい。画像の並べ替えにおいては、文字列が含まれる画像を塊ごとに分割する。文字列が含まれる画像の塊をたとえば上下に並べる。   Further, the image analysis preprocessing unit 21 may rearrange the images included in the preprocessed image 93 as shown in FIG. In rearranging images, an image including a character string is divided into chunks. For example, image blocks including character strings are arranged vertically.

この画像の並べ替えは、表組みの領域91の各セル94を、項目名に対して項目の内容が横に並ぶようにしてもよい。あるいは、それぞれのセル94を縦に並べてもよい。並べ替えを行う際には、並べ替えを行う前のそれぞれのセル94の位置をセル94の画像とともに記憶させておく。   The rearrangement of the images may be such that the contents of the items are arranged side by side with respect to the item names in the cells 94 of the table region 91. Alternatively, the cells 94 may be arranged vertically. When rearrangement is performed, the position of each cell 94 before the rearrangement is stored together with the image of the cell 94.

画像解析前処理部21が前処理済画像93に含まれる画像の並べ替えを行う際、それぞれのセル94の間に、「======」などの区切り文字(デリミタ)を画像として挿入してもよい。   When the image analysis preprocessing unit 21 rearranges the images included in the preprocessed image 93, a delimiter (delimiter) such as “======” is inserted between the cells 94 as an image. May be.

次に、画像解析部23は、前処理済画像93を画像処理して、文字情報を抽出する(S3)。画像解析部23は、一般的なOCR(光学式文字認識:Optical Character Recognition)のエンジンを用いることができる。OCRエンジンとして、インターネット上で公開されているものを用いてもよい。   Next, the image analysis unit 23 performs image processing on the preprocessed image 93 and extracts character information (S3). The image analysis unit 23 can use a general OCR (Optical Character Recognition) engine. As the OCR engine, an OCR engine published on the Internet may be used.

画像解析前処理部21が罫線92を除去しておくことにより文字認識の精度が向上する。また、画像解析前処理部21が画像をたとえばセル94を単位として並べ替えておくことにより、一群とすべき文字を認識しやすくなるため、文字認識の精度が全体として向上する。   Since the image analysis preprocessing unit 21 removes the ruled lines 92, the accuracy of character recognition is improved. In addition, since the image analysis preprocessing unit 21 rearranges the images in units of cells 94, for example, it becomes easier to recognize characters that should be grouped, so that the accuracy of character recognition is improved as a whole.

画像解析部23が抽出した文字情報は、その文字情報の保険証券画像90上の位置とともに、抽出文字列記憶部29に記憶される。画像解析前処理部21が前処理済画像93に含まれる画像の並べ替えを行っていた場合には、前処理済画像93上の文字情報の位置に基づいて記憶しておいたセル94の位置と紐づけることにより、文字情報の保険証券画像90上の位置がわかる。   The character information extracted by the image analysis unit 23 is stored in the extracted character string storage unit 29 together with the position of the character information on the insurance policy image 90. When the image analysis preprocessing unit 21 has rearranged the images included in the preprocessed image 93, the position of the cell 94 stored based on the position of the character information on the preprocessed image 93 , The position of the character information on the insurance policy image 90 is known.

前処理済画像93に区切り文字(デリミタ)を画像として挿入していた場合には、その区切り文字も文字情報として抽出される。その結果、区切り文字で文字情報を分割していくことにより、各セル94に含まれる文字列を容易に取り出すことができる。   When a delimiter (delimiter) is inserted as an image in the preprocessed image 93, the delimiter is also extracted as character information. As a result, the character string included in each cell 94 can be easily extracted by dividing the character information by the delimiter characters.

次に、画像解析後処理部24は、抽出した文字情報に対して後処理を施す(S4)。後処理では、たとえば抽出した文字情報の認識の正誤を辞書30を用いてチェックする。   Next, the image analysis post-processing unit 24 performs post-processing on the extracted character information (S4). In the post-processing, for example, the dictionary 30 is used to check whether the extracted character information is recognized correctly.

図7は、本実施の形態における保険証券画像の一部分の例である。   FIG. 7 is an example of a part of an insurance policy image in the present embodiment.

たとえば図7に示される画像をOCRした結果、「入院拾付金日額」と認識した場合について考える。この結果文字列「入院拾付金日額」を、連続するたとえば2文字ずつ、先頭文字が結果文字列の先頭から1文字ずつ右に進むように複数のサブ文字列に分割する。つまり、「入院」、「院拾」、「拾付」、「付金」、「金日」、「日額」、という6つのサブ文字列に分割する。したがって、結果文字列の中で先頭文字が隣り合うサブ文字列は、たとえば1文字の重複文字を有することになる。   For example, consider the case where the image shown in FIG. 7 is recognized as “daily amount for hospitalization” as a result of OCR. The result character string “daily amount for hospitalization pick-up” is divided into a plurality of sub character strings so that the first character advances to the right one character at a time from the beginning of the result character string, for example, two consecutive characters. That is, it is divided into six sub-character strings of “hospitalization”, “hospital pick-up”, “pick-up”, “payment”, “gold day”, and “daily amount”. Therefore, the sub character string in which the first character is adjacent in the result character string has, for example, one overlapping character.

次に、それぞれの分割文字列「入院」、「院拾」、「拾付」、「付金」、「金日」および「日額」について、辞書30に記憶された辞書での出現頻度を調べる。その結果、たとえば、出現頻度が、「入院」については200、「院拾」については0、「拾付」については5、「付金」については100、「金日」については50、「日額」については100となる。このように、OCRでの誤りを含む文字列である「院拾」および「拾付」については、出現頻度が極端に小さくなる。そこで、所定の閾値よりも出現頻度が小さい文字列に共通した部分(重複文字)、すなわち3番目の文字である「拾」は、OCRの誤りであると判定する。   Next, with respect to each divided character string “hospital”, “hospital pick-up”, “pick-up”, “payment”, “gold day” and “daily amount”, the appearance frequency in the dictionary stored in the dictionary 30 is determined. Investigate. As a result, for example, the appearance frequency is 200 for “hospitalization”, 0 for “hospital pick-up”, 5 for “pickup”, 100 for “payment”, 50 for “Friday”, “day “Forehead” is 100. As described above, the appearance frequency of the character string including the error in the OCR, that is, “pick-up” and “pick-up” becomes extremely small. Therefore, a portion (duplicate character) common to character strings whose appearance frequency is lower than a predetermined threshold, that is, “pickup” that is the third character is determined to be an OCR error.

さらに、「院」の後に1文字付加した文字列、および「付」の前に1文字付加した文字列について辞書で出現頻度を調べて、付加すべき文字が共通する文字列であって、出現頻度が最も高い文字列を抽出する。抽出された文字列に共通する文字(付加すべき文字)が正しい文字であるとする。   Furthermore, the appearance frequency of the character string added with one character after “in” and the character string added with one character before “attached” is checked in the dictionary, and the character string to be added is a common character string. Extract the string with the highest frequency. It is assumed that a character common to the extracted character string (a character to be added) is a correct character.

このように、画像解析後処理部24が画像解析によって得られた文字列をN−gram方式で分割して辞書と突き合わせることにより、文字情報の認識精度が向上する。特に、日本語、韓国語、中国語などの単語の区切りがない言語が記述された文書の画像の分析に有効である。再帰型ニューラルネットワーク(RNN:Recurrent Neural Network)を用いて、文字認識の正誤を学習し、文字の認識の正誤を判定してもよい。   In this way, the character analysis recognition accuracy is improved by the image analysis post-processing unit 24 dividing the character string obtained by the image analysis by the N-gram method and matching it with the dictionary. In particular, it is effective for analyzing images of documents in which languages such as Japanese, Korean, Chinese, and the like that do not have word breaks are described. A recursive neural network (RNN) may be used to learn the correctness of character recognition and determine the correctness of character recognition.

また、後処理において、抽出した文字情報の形態素解析を行ってもよい。形態素解析によって、抽出した文字情報に含まれる文字列の品詞を分析することができる。分析した結果は、文字列とともに記憶しておく。品詞だけではなく、固有名詞に該当するか否か、日付に該当するか否か、数量に該当するか否かなどを分析してもよい。   In post-processing, morphological analysis of the extracted character information may be performed. By morphological analysis, the part of speech of the character string included in the extracted character information can be analyzed. The analysis result is stored together with the character string. You may analyze not only a part of speech but whether it corresponds to a proper noun, whether it corresponds to a date, whether it corresponds to a quantity, etc.

次に、パターン分類部27は、保険証券画像90のパターンを判定する(S5)。具体的には、保険証券画像90が、パターン記憶部28に記憶された書類のパターンのうち、どのパターンに該当するかを判定する。   Next, the pattern classification unit 27 determines the pattern of the insurance policy image 90 (S5). Specifically, it is determined which of the document patterns stored in the pattern storage unit 28 the insurance policy image 90 corresponds to.

ここでパターンとは、特定の保険会社や保険商品などの種類ごとに共通に用いられる文書の形式である。保険証券画像90の特徴とは、たとえば罫線・枠線などの配置や、会社名・保険商品名が保険証券に記載されているか否かなどである。たとえば、保険証券画像90のそれぞれの画素の値を横方向に足し合わせたものを縦方向の位置ごとに並べた横方向画素濃度スペクトル、および、保険証券画像90のそれぞれの画素の値を縦方向に足し合わせたものを横方向の位置ごとに並べた縦方向画素濃度スペクトルを用いてフォーマットを特定することができる。横方向画素濃度スペクトルおよび縦方向画素濃度スペクトルを、パターン記憶部28にあらかじめ記憶しておいた基準となるパターンのものと比較し、類似度を算出することにより、パターンを特定することができる。パターンの特定あるいは罫線・枠線の認識には、カスケード型分類器(Haar分類器)を用いてもよい。パターンの判定に、会社名や商品名などの特定の文字列が特定の位置に記載されていることを用いてもよい。   Here, the pattern is a document format commonly used for each type of a specific insurance company or insurance product. The features of the insurance policy image 90 include, for example, the arrangement of ruled lines and frame lines, and whether or not the company name / insurance product name is described in the insurance policy. For example, the horizontal pixel density spectrum in which values obtained by adding the pixel values of the insurance policy image 90 in the horizontal direction are arranged for each position in the vertical direction, and the pixel values of the insurance policy image 90 are set in the vertical direction. The format can be specified by using the vertical pixel density spectrum in which the sum of the values is arranged for each position in the horizontal direction. The pattern can be specified by comparing the horizontal pixel density spectrum and the vertical pixel density spectrum with the reference pattern stored in advance in the pattern storage unit 28 and calculating the similarity. A cascade type classifier (Haar classifier) may be used for pattern identification or ruled line / frame line recognition. For pattern determination, it may be used that a specific character string such as a company name or a product name is described at a specific position.

次に、構造解析部25は、画像解析部23が抽出し、必要に応じて画像解析後処理部24が修正した文字情報のそれぞれについて、項目名のキーと、その項目名の項目の値のバリューとを組として組み合わせる(紐づけする)(S6)。   Next, the structure analysis unit 25 extracts the item name key and the value of the item name item for each piece of character information extracted by the image analysis unit 23 and corrected by the image analysis post-processing unit 24 as necessary. The value is combined (linked) as a set (S6).

項目名となりうる文字列を記憶したデータベースに対象とする文字列が含まれるか否かを検索することにより、キーを特定することができる。あるいは、表組の領域91の左側あるいは上側のセル94に記載された文字列をキーとしてもよい。   A key can be specified by searching whether or not a target character string is included in a database storing character strings that can be item names. Or it is good also considering the character string described in the cell 94 of the left side or the upper side of the area | region 91 of a table | surface group as a key.

キーとバリューの紐づけには、構造化距離を用いる。構造化距離とは、実際の記載位置間の距離に、文書上の語句の記載位置の制約を加味した仮想的な距離である。文書上の語句の記載位置の制約とは、日本語の横書きの場合には、文字は、左から右に向かって、上から下に向かって記載されること、罫線が存在する場合には罫線に沿って記載されること、枠線で囲まれている領域内に存在する文字は一群の意味を形成していること、などである。   A structured distance is used to associate a key and a value. The structured distance is a virtual distance obtained by adding a restriction on a description position of a word on a document to a distance between actual description positions. What is the restriction on the position of words in a document? In Japanese horizontal writing, characters are written from left to right and from top to bottom, and when there are ruled lines, ruled lines And the characters existing in the area surrounded by the frame form a group of meanings.

構造化距離は、物理的距離(文字列間の距離)、文字列の位置および文字列周辺の画像の関数である。たとえば構造化距離は、物理的距離に構造化係数を乗じたものである。構造化距離を物理的距離に構造化バイアスを加えた値としてもよい。物理的距離とは、第1文字列の最後、すなわち、横書きの場合には右端の文字と、第2文字列の最初、すなわち、横書きの場合には左端の文字との間の距離である。   The structured distance is a function of the physical distance (distance between character strings), the position of the character string, and the image around the character string. For example, the structured distance is the physical distance multiplied by the structuring factor. The structured distance may be a physical distance plus a structured bias. The physical distance is the distance between the end of the first character string, that is, the rightmost character in the case of horizontal writing, and the first character of the second character string, that is, the leftmost character in the case of horizontal writing.

構造化係数は、第1文字列と第2文字列との間に水平方向の罫線92があると大きくなるようにする。また、構造化係数は、項目と考えられる第1文字列が上下に配列されている場合には、第1文字列と第2文字列との間に垂直方向の罫線92が複数存在すると大きくなるようにしてもよい。構造化係数は、項目と考えられる第1文字列が左右に配列されている場合には、第1文字列と第2文字列との間に水平方向の罫線92が複数存在すると大きくなるようにしてもよい。また、右側に向かう場合には、構造化係数を正とし、左側に向かう場合には構造化係数を負としてもよい。   The structuring coefficient is increased when there is a horizontal ruled line 92 between the first character string and the second character string. In addition, when the first character strings considered as items are arranged one above the other, the structuring coefficient increases when there are a plurality of vertical ruled lines 92 between the first character string and the second character string. You may do it. When the first character string considered as an item is arranged on the left and right, the structuring coefficient is increased when there are a plurality of horizontal ruled lines 92 between the first character string and the second character string. May be. In addition, when going to the right side, the structuring coefficient may be positive, and when going to the left side, the structuring coefficient may be negative.

キーとバリューの組み合わせには、第1文字列から第2文字列へ向かうベクトルを用いてもよい。   For the combination of key and value, a vector from the first character string to the second character string may be used.

また、項目名が記載されていないバリューの候補リストを、「商品名」などの記載されない項目名とともに、予め記憶しておいてもよい。抽出した文字情報が、この候補リストの中の一つに該当する場合には、その抽出した文字情報をバリューとし、対応する項目名をキーとして記憶してもよい。   In addition, a value candidate list in which no item name is described may be stored in advance together with an item name not described such as “product name”. When the extracted character information corresponds to one of the candidate lists, the extracted character information may be stored as a value and the corresponding item name may be stored as a key.

後処理(S4)において形態素解析などを行っていた場合には、品詞などの文字列の特徴を紐づけに用いてもよい。たとえば、特定のキーに対するバリューとしては数量しか対応しないなどのルールを用いて紐づけすることもできる。   When morphological analysis or the like is performed in post-processing (S4), character string features such as part of speech may be used for association. For example, it can be linked using a rule that only a quantity corresponds to a value for a specific key.

キーとバリューとは、単純な一対一の関係でなくてもよい。たとえば、一つのキーに対して複数のバリューを組み合わせてもよい。キーは、メインキーにサブキーを従属させたような階層構造(ツリー構造)になっていてもよい。この場合、階層は3以上であってもよい。   Keys and values do not have to be a simple one-to-one relationship. For example, a plurality of values may be combined for one key. The key may have a hierarchical structure (tree structure) in which a sub key is subordinate to a main key. In this case, the number of hierarchies may be three or more.

次に、マッピング部26は、元の保険証券画像90上に抽出した文字列をマッピングする(S7)。   Next, the mapping unit 26 maps the extracted character string on the original insurance policy image 90 (S7).

図8は、本実施の形態の画像分析装置におけるマッピング画面である。   FIG. 8 is a mapping screen in the image analysis apparatus of the present embodiment.

マッピング画面40は、ディスプレイ13に表示される。マッピング画面40は、画像表示部41と対応表示部42とを備えている。画像表示部41には、保険証券画像90が表示される。対応表示部42には、キーとバリューの組み合わせが表示される。   The mapping screen 40 is displayed on the display 13. The mapping screen 40 includes an image display unit 41 and a correspondence display unit 42. An insurance policy image 90 is displayed on the image display unit 41. The correspondence display unit 42 displays combinations of keys and values.

抽出した文字列は、キーおよびバリューの組として表示される。マッピング部26は、さらに、構造解析部25が組み合わせたキーおよびバリューの対応関係の確認をユーザーに促し、誤りがある場合には修正できるようにする。   The extracted character string is displayed as a set of key and value. The mapping unit 26 further prompts the user to confirm the correspondence relationship between the key and the value combined by the structure analysis unit 25 so that it can be corrected if there is an error.

具体的には、まず、たとえば保険証券画像90および抽出した文字情報をディスプレイ13の画像表示部41に表示する。抽出した文字情報は、たとえば保険証券画像90の左側の対応表示部42に、キーおよびバリューの組として表示される。ここで最初に表示されたキーおよびバリューの組は、構造解析部25が作成したものである。   Specifically, first, for example, the insurance policy image 90 and the extracted character information are displayed on the image display unit 41 of the display 13. The extracted character information is displayed, for example, as a key and value pair on the correspondence display section 42 on the left side of the insurance policy image 90. Here, the key and value pairs displayed first are created by the structure analysis unit 25.

また、文字情報を抽出した部分に色付けをする。色付けされた部分にマウスの操作などでポインターを移動させてクリックした場合には、キーおよびバリューの組が表示された部分においてその部分に該当するキーまたはバリューの文字情報が他と区別できるように、たとえば色を変化させることにより表示される。この際、保険証券画像90上では、選択された部分に対応するキーまたはバリューと紐づけられている文字情報が読み取られた部分が他と区別できるように、たとえば色を変化させることにより表示される。ユーザーは、この対応関係に間違いがない場合には、放置し、あるいは、間違いがないことを入力する。この対応関係に間違いがある場合には、キーおよびバリューの組が表示された部分において、キーまたはバリューの値を修正する。   In addition, the portion where the character information is extracted is colored. When the pointer is moved to the colored part by mouse operation etc. and clicked, the character information of the key or value corresponding to that part can be distinguished from the part where the key and value pair is displayed. For example, it is displayed by changing the color. At this time, on the insurance policy image 90, for example, it is displayed by changing the color so that the portion from which the character information associated with the key or value corresponding to the selected portion is read can be distinguished from the others. The If there is no mistake in this correspondence, the user leaves it or inputs that there is no mistake. If there is an error in the correspondence, the key or value value is corrected in the portion where the key and value pair is displayed.

修正に際しては、文字認識の誤りであれば、キーボードなどから入力する。対応付け(紐づけ)に誤りがある場合には、対応するキーまたはバリューが記されている部分を保険証券画像90上でクリックするなどして、対応関係を修正してもよい。   When correcting, if there is an error in character recognition, input from the keyboard or the like. If there is an error in the association (association), the correspondence relationship may be corrected by clicking on the portion of the insurance policy image 90 where the corresponding key or value is written.

このように、本実施の形態では、文字認識の結果をユーザーが修正することにより、誤りを低減することができる。   Thus, in the present embodiment, errors can be reduced by the user correcting the result of character recognition.

さらに、ユーザーによる修正を学習することにより、文字認識の精度およびマッピング(紐づけ)の精度を向上させることができる。たとえば、特定の文字を他の文字と誤認識していて、それをユーザーが修正する回数が増えていくことにより、その特定の文字を正しく認識させるようにすることができる。また、マッピングが誤っていた場合は、ユーザーが紐づけを修正することにより、正しくキーとバリューを組み合わせられるようになっていく。   Further, by learning the correction by the user, the accuracy of character recognition and the accuracy of mapping (linking) can be improved. For example, when a specific character is misrecognized as another character and the number of times the user corrects it increases, the specific character can be recognized correctly. Also, if the mapping is incorrect, the user can correctly combine the key and value by correcting the association.

保険証券画像90がすでに記憶しているフォーマットと適合しているとパターン分類部27が認識できた場合には、その保険証券画像90上のキーの位置およびバリューの位置が把握されたことになる。したがって、この場合には、構造解析部25では、キーとバリューの紐づけをすることが容易にできる。   If the pattern classification unit 27 can recognize that the insurance policy image 90 matches the format already stored, the key position and the value position on the insurance policy image 90 have been grasped. . Therefore, in this case, the structure analysis unit 25 can easily associate the key and the value.

保険証券画像90がすでに記憶しているフォーマットと適合しているとパターン分類部27が認識できない場合には、その保険証券画像90上のキーの位置およびバリューの位置を把握する必要がある。しかし、マッピング部26によるマッピングおよびマッピングされたキーおよびバリューの組み合わせをユーザーが必要に応じて修正することにより、キーとバリューの組み合わせの誤りをきわめて少なくすることができる。   If the pattern classification unit 27 cannot recognize that the insurance policy image 90 matches the format already stored, it is necessary to grasp the key position and the value position on the insurance policy image 90. However, the user corrects the mapping by the mapping unit 26 and the combination of the mapped key and value as necessary, so that errors in the combination of key and value can be extremely reduced.

このように本実施の形態の画像分析装置10は、文字情報の保険証券画像90中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析部25を有している。このため、分析対象画像である保険証券画像90で表される文書の構造、すなわち、項目名とそれに対応する値との対応関係を把握することができる。その結果、項目名とそれに対応する値との対応関係に基づいて、文字情報の認識精度を向上させることができる。   As described above, the image analysis apparatus 10 according to the present embodiment has the structure analysis unit 25 that associates character information with a pair of character information based on the position of the character information in the insurance policy image 90. . Therefore, it is possible to grasp the structure of the document represented by the insurance policy image 90 that is the analysis target image, that is, the correspondence between the item name and the corresponding value. As a result, the recognition accuracy of character information can be improved based on the correspondence between the item name and the corresponding value.

また、構造解析部25は、2つの文字情報の保険証券画像90中の距離とその画像中の文字情報が抽出された周辺の領域の画像との関数として求められる構造化距離に基づいて紐づけを行っている。このため、単に文字列相互の関係だけでなく、2つの文字列の位置関係や、間に罫線があることなどの情報に基づいて、項目名とそれに対応する値との対応関係をより正確に把握することができる。   Further, the structure analysis unit 25 associates the two character information based on the structured distance obtained as a function of the distance in the insurance policy image 90 and the image of the surrounding area from which the character information in the image is extracted. It is carried out. Therefore, based on information such as not only the relationship between character strings but also the positional relationship between two character strings and the presence of ruled lines between them, the relationship between item names and corresponding values can be more accurately determined. I can grasp it.

さらに、本実施の形態において、マッピング部26は、構造解析部25が紐づけした文字情報の組を保険証券画像90と対応付けて表示し、文字情報の組の組み合わせに誤りがある場合にユーザーによる修正の入力を受け付ける。このため、項目名とそれに対応する値との対応関係をより正確に把握することができる。さらに、ユーザーによる修正の履歴を学習していくことにより、項目名とそれに対応する値との対応関係の把握の精度を向上させることができる。   Further, in the present embodiment, the mapping unit 26 displays the character information set linked by the structure analysis unit 25 in association with the insurance policy image 90, and when there is an error in the combination of character information Accepts correction input by. For this reason, the correspondence between the item name and the value corresponding thereto can be grasped more accurately. Furthermore, by learning the correction history by the user, it is possible to improve the accuracy of grasping the correspondence relationship between the item name and the value corresponding thereto.

学習においては、キーおよびバリューのそれぞれの画像上の位置そのもの、あるいは、キーからバリューに向かうベクトルを学習しておくことにより、対応関係の把握精度を向上させることもできる。   In learning, it is possible to improve the accuracy of grasping the correspondence relationship by learning the position of each of the key and value on the image itself or the vector from the key to the value.

パターン分類部27は、保険証券画像90がパターン記憶部28に記憶されたパターンのいずれに該当するか判定する。このため、保険証券画像90がパターン記憶部28に記憶されたパターンと適合する場合には、項目名とそれに対応する値との対応関係を容易に把握することができる。したがって、構造解析部25は、項目名とそれに対応する値との対応関係を容易に紐づけすることができる。   The pattern classification unit 27 determines which of the patterns stored in the pattern storage unit 28 the insurance policy image 90 corresponds to. For this reason, when the insurance policy image 90 matches the pattern stored in the pattern storage unit 28, it is possible to easily grasp the correspondence between the item name and the value corresponding thereto. Therefore, the structure analysis unit 25 can easily associate the correspondence between the item name and the corresponding value.

また、本実施の形態は、保険証券を対象として分析するシステムを例として説明したが、ある程度定型で記載される用語がある程度限定された他の印刷物等に記載された内容を分析するシステムにも適用できる。たとえば、運転免許証の記載内容を分析したり、マンションのパンフレットを分析したり、預金通帳から預金の流れを分析したり、登記簿謄本の記載内容を分析したり、健康診断の結果を分析したりすることができる。   In addition, although the present embodiment has been described with respect to an example of a system that analyzes insurance policies, it is also applicable to a system that analyzes contents described in other printed materials, etc., in which terms that are described in a certain form are limited to some extent. Applicable. For example, you can analyze the contents of a driver's license, analyze a pamphlet of an apartment, analyze the flow of deposits from a bank passbook, analyze the contents of a registered copy, and analyze the results of a health checkup. Can be.

10…画像分析装置、12…スキャナー、13…ディスプレイ、14…キーボード、15…マウス、20…画像記憶部、21…画像解析前処理部、22…前処理済画像記憶部、23…画像解析部、24…画像解析後処理部、25…構造解析部、26…マッピング部、27…パターン分類部、28…パターン記憶部、29…抽出文字列記憶部、30…辞書、40…マッピング画面、41…画像表示部、42…対応表示部、90…保険証券画像、91…表組みの領域、92…罫線、93…前処理済画像、94…セル DESCRIPTION OF SYMBOLS 10 ... Image analyzer, 12 ... Scanner, 13 ... Display, 14 ... Keyboard, 15 ... Mouse, 20 ... Image storage part, 21 ... Image analysis pre-processing part, 22 ... Pre-processed image storage part, 23 ... Image analysis part , 24 ... Image analysis post-processing unit, 25 ... Structure analysis unit, 26 ... Mapping unit, 27 ... Pattern classification unit, 28 ... Pattern storage unit, 29 ... Extracted character string storage unit, 30 ... Dictionary, 40 ... Mapping screen, 41 ... Image display section, 42 ... Corresponding display section, 90 ... Insurance policy image, 91 ... Table layout area, 92 ... Ruled line, 93 ... Pre-processed image, 94 ... Cell

Claims (9)

対象画像を分析する画像分析装置において、
前記対象画像から文字情報を抽出する画像解析部と、
前記文字情報の前記対象画像中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析部と、
を有することを特徴とする画像分析装置。
In an image analysis apparatus for analyzing a target image,
An image analysis unit for extracting character information from the target image;
A structure analysis unit for associating the character information paired with the character information based on the position of the character information in the target image;
An image analyzing apparatus comprising:
前記構造解析部は2つの前記文字情報の前記対象画像中の距離と前記対象画像の前記文字情報が抽出された周辺の領域の画像との関数として求められる構造化距離に基づいて紐づけを行うことを特徴とする請求項1に記載の画像分析装置。   The structural analysis unit performs association based on a structured distance obtained as a function of a distance between the two pieces of character information in the target image and an image of a peripheral region from which the character information of the target image is extracted. The image analysis apparatus according to claim 1. 前記構造解析部が紐づけした前記文字情報の組を前記対象画像と対応付けて表示し、前記文字情報の組の組み合わせに誤りがある場合にユーザーによる修正の入力を受け付けるマッピング部、をさらに有することを特徴とする請求項2に記載の画像分析装置。   A mapping unit that displays the set of character information linked by the structural analysis unit in association with the target image, and that receives a correction input by a user when the combination of the set of character information includes an error; The image analysis apparatus according to claim 2. 前記構造解析部は前記マッピング部が受け付けた前記修正の入力の履歴を学習して前記紐づけに反映させることを特徴とする請求項3に記載の画像分析装置。   The image analysis apparatus according to claim 3, wherein the structure analysis unit learns the correction input history received by the mapping unit and reflects it in the association. 前記対象画像の複数のパターンとそれぞれのパターンで前記文字情報の対が記載されている位置とを記憶するパターン記憶部と、
前記対象画像が前記パターン記憶部に記憶された前記パターンのいずれに該当するか判定するパターン分類部と、をさらに有し、
前記対象画像が前記パターン記憶部に記憶されたいずれかの前記パターンに該当すると判定された場合に前記構造解析部は当該パターンで前記文字情報の対が記載されている位置に基づいて前記文字情報の紐づけを行うことを特徴とする請求項2ないし請求項4のいずれか1項に記載の画像分析装置。
A pattern storage unit that stores a plurality of patterns of the target image and positions where the pairs of character information are described in the respective patterns;
A pattern classification unit that determines which of the patterns stored in the pattern storage unit the target image corresponds to,
When it is determined that the target image corresponds to any one of the patterns stored in the pattern storage unit, the structure analysis unit performs the character information based on a position where the pair of character information is described in the pattern. The image analysis apparatus according to claim 2, wherein the linking is performed.
前記対象画像は文字および文字以外の図形を含むものであって、
前記対象画像から前記文字以外の図形の少なくとも一部を除去する画像解析前処理部をさらに有することを特徴とする請求項1ないし請求項5のいずれか1項に記載の画像分析装置。
The target image includes characters and graphics other than characters,
The image analysis apparatus according to claim 1, further comprising an image analysis preprocessing unit that removes at least a part of a figure other than the characters from the target image.
前記文字情報の少なくとも一部の対象文字列から互いに一部が重複する2以上の分割文字数のサブ文字列を生成し、前記サブ文字列の前記辞書中の出現頻度を求め、その出現頻度が所定の値よりも小さい前記サブ文字列に共通する重複文字は前記画像解析部による前記文字情報の誤りであると判定する画像解析後処理部をさらに有することを特徴とする請求項1ないし請求項6のいずれか1項に記載の画像分析装置。   A sub-character string having two or more divided characters that partially overlap each other is generated from at least a part of the target character string of the character information, an appearance frequency of the sub-character string in the dictionary is obtained, and the appearance frequency is predetermined The image analysis post-processing unit further determines that a duplicate character common to the sub-character string smaller than the value of the character string is an error in the character information by the image analysis unit. The image analysis apparatus according to any one of the above. コンピュータに対象画像を分析させる画像分析プログラムにおいて、コンピュータに、
前記対象画像から文字情報を抽出する画像解析機能と、
前記文字情報の前記対象画像中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析機能と、
を実現させる画像分析プログラム。
In an image analysis program for causing a computer to analyze a target image,
An image analysis function for extracting character information from the target image;
A structure analysis function for associating the character information paired with the character information based on the position of the character information in the target image;
An image analysis program that realizes
対象画像を分析する画像分析方法において、
前記対象画像から文字情報を抽出する画像解析ステップと、
前記文字情報の前記対象画像中の位置に基づいてその文字情報と対をなす文字情報とを紐づけする構造解析ステップと、
を有することを特徴とする画像分析方法。
In an image analysis method for analyzing a target image,
An image analysis step of extracting character information from the target image;
A structural analysis step for associating the character information paired with the character information based on the position of the character information in the target image;
An image analysis method characterized by comprising:
JP2016236433A 2016-12-06 2016-12-06 Image analyzing device, image analyzing method, and image analyzing program Pending JP2018092459A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016236433A JP2018092459A (en) 2016-12-06 2016-12-06 Image analyzing device, image analyzing method, and image analyzing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016236433A JP2018092459A (en) 2016-12-06 2016-12-06 Image analyzing device, image analyzing method, and image analyzing program

Publications (1)

Publication Number Publication Date
JP2018092459A true JP2018092459A (en) 2018-06-14

Family

ID=62565628

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016236433A Pending JP2018092459A (en) 2016-12-06 2016-12-06 Image analyzing device, image analyzing method, and image analyzing program

Country Status (1)

Country Link
JP (1) JP2018092459A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020016946A (en) * 2018-07-23 2020-01-30 日本生命保険相互会社 Information processing device, information processing method, program, and document reading system
US11206335B2 (en) 2019-09-02 2021-12-21 Fujifilm Business Innovation Corp. Information processing apparatus, method and non-transitory computer readable medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169844A (en) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd Table recognition method and table recognition device
JP2009230498A (en) * 2008-03-24 2009-10-08 Oki Electric Ind Co Ltd Business form processing method, program, device, and system
JP2016115088A (en) * 2014-12-12 2016-06-23 株式会社エヌ・ティ・ティ・データ Document definition device, document definition method, and document definition program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169844A (en) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd Table recognition method and table recognition device
JP2009230498A (en) * 2008-03-24 2009-10-08 Oki Electric Ind Co Ltd Business form processing method, program, device, and system
JP2016115088A (en) * 2014-12-12 2016-06-23 株式会社エヌ・ティ・ティ・データ Document definition device, document definition method, and document definition program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020016946A (en) * 2018-07-23 2020-01-30 日本生命保険相互会社 Information processing device, information processing method, program, and document reading system
US11206335B2 (en) 2019-09-02 2021-12-21 Fujifilm Business Innovation Corp. Information processing apparatus, method and non-transitory computer readable medium

Similar Documents

Publication Publication Date Title
CA2774989C (en) A method and system for extraction
US8468167B2 (en) Automatic data validation and correction
US20160041987A1 (en) Method and system for extraction
CA2777930C (en) System and method for increasing the accuracy of optical character recognition (ocr)
JP6887233B2 (en) Insurance policy image analysis system, description content analysis device, mobile terminal and program for mobile terminal
CN112185520A (en) Text structured processing system and method for medical pathology report picture
JP2008259156A (en) Information processing device, information processing system, information processing method, program, and storage medium
JP7088661B2 (en) Paper form data conversion system, OCR engine learning image generator and image analyzer
JP4782346B2 (en) Method and apparatus for processing electronic documents
JP2013073439A (en) Character recognition device and character recognition method
US20230206675A1 (en) Systems and methods for information retrieval and extraction
KR20220133434A (en) Method and system for recognizing tables
JP2015069256A (en) Character identification system
JP2018092459A (en) Image analyzing device, image analyzing method, and image analyzing program
US20230334889A1 (en) Systems and methods for spatial-aware information extraction from electronic source documents
CN116030469A (en) Processing method, processing device, processing equipment and computer readable storage medium
JP4356908B2 (en) Automatic financial statement input device
US9443139B1 (en) Methods and apparatus for identifying labels and/or information associated with a label and/or using identified information
US20220044048A1 (en) System and method to recognise characters from an image
JPH0689365A (en) Document image processor
Alzuru et al. Cooperative human-machine data extraction from biological collections
JP2006252575A (en) Financial statement automatic input apparatus and method therefore
JP4466241B2 (en) Document processing method and document processing apparatus
Wattar Analysis and Comparison of invoice data extraction methods
AU2022287590B2 (en) Systems and methods for information retrieval and extraction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210608