JP6590355B1 - Learning model generation device, character recognition device, learning model generation method, character recognition method, and program - Google Patents

Learning model generation device, character recognition device, learning model generation method, character recognition method, and program Download PDF

Info

Publication number
JP6590355B1
JP6590355B1 JP2019086630A JP2019086630A JP6590355B1 JP 6590355 B1 JP6590355 B1 JP 6590355B1 JP 2019086630 A JP2019086630 A JP 2019086630A JP 2019086630 A JP2019086630 A JP 2019086630A JP 6590355 B1 JP6590355 B1 JP 6590355B1
Authority
JP
Japan
Prior art keywords
learning model
character
learning
data
handwritten
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019086630A
Other languages
Japanese (ja)
Other versions
JP2020184109A (en
Inventor
昂平 安田
昂平 安田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arithmer Inc
Original Assignee
Arithmer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=68235000&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6590355(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Arithmer Inc filed Critical Arithmer Inc
Priority to JP2019086630A priority Critical patent/JP6590355B1/en
Application granted granted Critical
Publication of JP6590355B1 publication Critical patent/JP6590355B1/en
Priority to PCT/JP2020/017696 priority patent/WO2020218512A1/en
Publication of JP2020184109A publication Critical patent/JP2020184109A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

【課題】帳票に記入された手書き文字列の認識処理の精度を改善することができる。【解決手段】学習モデル生成装置は、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたコーパス3と、1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部12と、学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部13と、を備える。【選択図】図3An object of the present invention is to improve the accuracy of recognition processing of a handwritten character string entered in a form. A learning model generation device includes a character string based on a corpus in which one or more words that can be entered in a handwritten character area of a form are registered, and a data set DS1 of a handwritten character image for each character. A learning data generation unit 12 that generates learning data including an image and a correct answer label, and a learning model generation unit 13 that generates a learning model by first learning using the learning data. [Selection] Figure 3

Description

本発明は、学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラムに関する。   The present invention relates to a learning model generation device, a character recognition device, a learning model generation method, a character recognition method, and a program.

従来、手書き文字が記入された帳票をイメージスキャナ等で読み取った画像データについて、光学的文字認識処理、つまりОCR(Optical Character Recognition)処理することにより、所定の文字コードに変換したデジタルデータを生成する手法が知られている。   Conventionally, digital data converted into a predetermined character code is generated by performing optical character recognition processing, that is, ОCR (Optical Character Recognition) processing, on image data obtained by reading a form in which handwritten characters are written by an image scanner or the like. Techniques are known.

例えば、特許文献1には、手書きや活字等の文書や、映像や写真などの画像において文字を認識するシステム及び関連サービスが開示されている。より具体的には、特許文献1には、見本文字画像の入力を受け付ける文字画像入力受付部と、見本文字画像に基づいて文字部品を抽出する文字部品抽出と、文字部品に基づいて擬似文字モデルを生成する擬似文字モデル生成部と、擬似文字モデルに基づいて文字識別パターンを生成して識別辞書を生成する識別辞書生成と、を含むことを特徴とする文字識別システムが記載されている。   For example, Patent Document 1 discloses a system and related services for recognizing characters in documents such as handwritten characters and printed characters, and images such as videos and photographs. More specifically, Patent Document 1 discloses a character image input receiving unit that receives an input of a sample character image, a character component extraction that extracts a character component based on the sample character image, and a pseudo character model based on the character component. There is described a character identification system including a pseudo character model generation unit that generates a character identification pattern and an identification dictionary generation that generates a character identification pattern based on the pseudo character model and generates an identification dictionary.

特開2015−069256号公報Japanese Patent Application Laid-Open No. 2015-069256

特許文献1に記載の従来システムにおいては、少数の見本画像をもとに、外字または新しい文字画像として登録された文字を学習して、当該文字をより高精度に認識することが記載されている。しかしながら、特許文献1に記載の文字認識技術は、1つ1つの文字を個別に認識するためのものであって、複数の文字からなる文字列を高精度に読み取るためのものではない。   In the conventional system described in Patent Document 1, it is described that a character registered as an external character or a new character image is learned based on a small number of sample images and the character is recognized with higher accuracy. . However, the character recognition technique described in Patent Document 1 is for individually recognizing each character, and is not for reading a character string composed of a plurality of characters with high accuracy.

そこで、本発明のいくつかの態様はかかる事情に鑑みてなされたものであり、帳票に記入された手書き文字列の認識処理の精度を改善する学習モデル生成装置、文字認識装置、学習モデル生成方法、文字認識方法、及びプログラムを提供することを目的とする。   Accordingly, some aspects of the present invention have been made in view of such circumstances, and a learning model generation device, a character recognition device, and a learning model generation method that improve the accuracy of recognition processing of a handwritten character string entered in a form. An object of the present invention is to provide a character recognition method and a program.

本発明の一態様に係る学習モデル生成装置は、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部と、を備える。   A learning model generation apparatus according to an aspect of the present invention is based on a database in which one or more words that can be entered in a handwritten character area of a form are registered, and a data set of handwritten character images in units of characters. A learning data generation unit that generates learning data including a sequence image and a correct label, and a learning model generation unit that generates a learning model by first learning using the learning data.

本発明の一態様に係る文字認識装置は、帳票に記入された手書き文字を認識する文字認識装置であって、帳票の画像データを取得する画像データ取得部と、取得した画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える。   A character recognition device according to an aspect of the present invention is a character recognition device that recognizes handwritten characters entered in a form, based on an image data acquisition unit that acquires image data of the form, and the acquired image data, Handwritten characters using a learning model having a network structure in which one or more handwritten character regions including a character string written in handwritten characters are specified, and a first neural network and a second neural network are combined. And a character recognition unit for recognizing the contents of the character string entered in the area.

本発明の一態様に係る学習モデル生成方法は、学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、学習用データを用いた第1学習により、学習モデルを生成するステップと、を含む。   A learning model generation method according to an aspect of the present invention is a learning model generation method executed by a computer that generates a learning model, and includes a database in which one or a plurality of words that can be written in a handwritten character area of a form are registered A step of generating learning data including a character string image and a correct answer label based on a data set of handwritten character images in units of one character, and a step of generating a learning model by first learning using the learning data And including.

本発明の一態様に係る文字認識方法は、帳票に記入された手書き文字を認識するコンピュータが実行する文字認識方法であって、帳票の画像データを取得するステップと、取得した画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定するステップと、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、手書き文字領域に記入された文字列の内容を認識するステップと、を含む。   A character recognition method according to an aspect of the present invention is a character recognition method executed by a computer for recognizing handwritten characters entered in a form, based on the step of obtaining image data of the form, and based on the obtained image data Using a learned model having a network structure in which one or a plurality of handwritten character regions including a character string written with handwritten characters is identified and the first neural network and the second neural network are combined. Recognizing the contents of the character string entered in the area.

本発明の一態様に係るプログラムは、コンピュータを、帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、学習用データを用いた第1学習により、学習モデルを生成する、学習モデル生成部と、して機能させる。   A program according to an aspect of the present invention is a program that uses a computer based on a database in which one or more words that can be entered in a handwritten character area of a form are registered, and a data set of handwritten character images for each character. It functions as a learning data generation unit that generates learning data including a sequence image and a correct answer label, and a learning model generation unit that generates a learning model by first learning using the learning data.

本発明の一態様に係るプログラムは、帳票に記入された手書き文字を認識するコンピュータを、帳票の画像データを取得する画像データ取得部と、取得した画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習済モデルを用いて、手書き文字領域に記入された文字列の内容を認識する文字認識部と、して機能させる。   A program according to an aspect of the present invention is a computer that recognizes handwritten characters entered in a form, an image data obtaining unit that obtains image data of the form, and handwritten characters based on the obtained image data. Using a learned model having a network structure in which one or a plurality of handwritten character regions including a character string are specified and a first neural network and a second neural network are combined, the handwritten character region is filled It functions as a character recognition unit that recognizes the contents of a character string.

なお、本発明において、「部」とは、単に物理的手段を意味するものではなく、その「部」が有する機能をソフトウェアによって実現する場合も含む。また、1つの「部」や装置が有する機能が2つ以上の物理的手段や装置により実現されても、2つ以上の「部」や装置の機能が1つの物理的手段や装置により実現されても良い。   In the present invention, the “part” does not simply mean a physical means, but includes a case where the function of the “part” is realized by software. Also, even if the functions of one “unit” or device are realized by two or more physical means or devices, the functions of two or more “units” or devices are realized by one physical means or device. May be.

本発明によれば、帳票に記入された手書き文字列の認識処理の精度を改善することができる。   ADVANTAGE OF THE INVENTION According to this invention, the precision of the recognition process of the handwritten character string entered in the form can be improved.

第1実施形態に係る文字認識装置の概略構成図(システム構成図)である。It is a schematic block diagram (system block diagram) of the character recognition apparatus which concerns on 1st Embodiment. 第1実施形態に係る証券の一例を示す図である。It is a figure showing an example of securities concerning a 1st embodiment. 第1実施形態に係る学習用データ生成処理、及び、学習モデル生成処理の一例を示す概念図である。It is a conceptual diagram which shows an example of the data generation process for learning which concerns on 1st Embodiment, and a learning model generation process. 第1実施形態に係る住所コーパスの一例を示す図である。It is a figure which shows an example of the address corpus concerning 1st Embodiment. 第1実施形態に係る学習モデル強化(更新)処理の一例を示す概念図である。It is a conceptual diagram which shows an example of the learning model reinforcement | strengthening (update) process which concerns on 1st Embodiment. 第1実施形態に係るレイアウト情報の一例を示す概念図である。It is a conceptual diagram which shows an example of the layout information which concerns on 1st Embodiment. 第1実施形態に係る文字認識処理の一例を示すフローチャートである。It is a flowchart which shows an example of the character recognition process which concerns on 1st Embodiment. 第1実施形態に係る学習モデル生成処理の一例を示すフローチャートである。It is a flowchart which shows an example of the learning model production | generation process which concerns on 1st Embodiment. 第2実施形態に係る透かしが印刷された帳票の一例を示す図である。It is a figure which shows an example of the form on which the watermark based on 2nd Embodiment was printed. 第2実施形態に係る、文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳した学習用データの一例を示す図である。It is a figure which shows an example of the data for learning which superimposes at least one part of the watermark printed on a form on the character string image based on 2nd Embodiment. 第3実施形態に係る文字認識装置の概略構成図(システム構成図)である。It is a schematic block diagram (system block diagram) of the character recognition apparatus which concerns on 3rd Embodiment. 第4実施形態に係る文字認識装置及び学習モデル生成装置の概略構成図(システム構成図)である。It is a schematic block diagram (system block diagram) of the character recognition apparatus and learning model production | generation apparatus which concern on 4th Embodiment. 第5実施形態に係る文字認識装置及び外部装置の概略構成図(システム構成図)である。It is a schematic block diagram (system block diagram) of the character recognition apparatus which concerns on 5th Embodiment, and an external device. 本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the computer which concerns on embodiment of this invention. 第1実施形態に係る文字認識装置の変形例を示す概略構成図(システム構成図)である。It is a schematic block diagram (system block diagram) which shows the modification of the character recognition apparatus which concerns on 1st Embodiment.

以下、添付図面を参照しながら本発明の実施の形態について説明する。以下の実施の形態は、本発明を説明するための例示であり、本発明をその実施の形態のみに限定する趣旨ではない。また、本発明は、その要旨を逸脱しない限り、様々な変形が可能である。さらに、各図面において同一の構成要素に対しては可能な限り同一の符号を付し、重複する説明は省略する。   Hereinafter, embodiments of the present invention will be described with reference to the accompanying drawings. The following embodiments are exemplifications for explaining the present invention, and are not intended to limit the present invention only to the embodiments. The present invention can be variously modified without departing from the gist thereof. Furthermore, in each drawing, the same components are denoted by the same reference numerals as much as possible, and redundant description is omitted.

<第1実施形態>
図1は、本発明の第1実施形態に係る文字認識装置の概略構成図(システム構成図)である。図1に示すように、文字認識装置100Aは、帳票に記入された手書き文字を認識する装置であり、例えばサーバ等の情報処理装置である。文字認識装置100Aは、例えば、ラップトップ又はノートブック型コンピュータ等の他の情報処理装置であってもよい。文字認識装置100Aは、例示的に、帳票に記入された手書き文字を認識するための情報処理を実行する情報処理部1、辞書データベース(DB)としてのコーパス3、1文字単位の手書き文字データセットDB5、文字列画像単位の手書き文字データセットDB7、及びレイアウト情報DB9を備えて構成されている。なお、文字認識装置100Aは、帳票に記入された手書き文字以外の文字を認識してもよい。また、コーパス3、手書き文字データセットDB5、手書き文字データセットDB7、又は、レイアウト情報DB9の少なくとも一つは、文字認識装置100Aとは別個の装置、又は、データベースとして構成されてもよい。
<First Embodiment>
FIG. 1 is a schematic configuration diagram (system configuration diagram) of a character recognition device according to a first embodiment of the present invention. As shown in FIG. 1, the character recognition device 100A is a device that recognizes handwritten characters entered in a form, and is an information processing device such as a server. The character recognition device 100A may be another information processing device such as a laptop or a notebook computer. The character recognition device 100A exemplarily includes an information processing unit 1 that performs information processing for recognizing handwritten characters entered in a form, a corpus 3 as a dictionary database (DB), and a handwritten character data set for each character. It comprises DB5, handwritten character data set DB7 for each character string image, and layout information DB9. Note that the character recognition device 100A may recognize characters other than the handwritten characters entered in the form. Further, at least one of the corpus 3, the handwritten character data set DB5, the handwritten character data set DB7, or the layout information DB9 may be configured as a device separate from the character recognition device 100A or as a database.

「帳票」とは、文字列が記入された書類をいい、帳簿や伝票の総称である。帳票とは、例えば、証券会社等が扱う証券、申請書、又は、契約書等の書類を含む。   “Form” means a document in which a character string is written, and is a general term for books and slips. The form includes documents such as securities handled by securities companies, application forms, or contracts, for example.

図2は、第1実施形態に係る証券(帳票)の一例を示す図である。図2に示すように、証券C1は、特定の保険会社「○○損害保険株式会社」の自動車保険証券である。   FIG. 2 is a diagram illustrating an example of a security (form) according to the first embodiment. As shown in FIG. 2, the security C1 is a car insurance policy of a specific insurance company “XX Insurance Co., Ltd.”.

証券C1は、手書き文字が記入されたフィールド(手書き文字領域)として、例えば、住所フィールド20(住所に関する手書き文字領域)、及び、氏名フィールド22を含む。これらのフィールドは、文字認識装置100Aで文字を認識するフィールドを例示したものであって、証券C1は他にも文字が記載されたフィールドを有してもよい。例えば、証券C1は、「ご契約内容」に含まれる、保険の開始日及び保険の満期日を手書きで記入するための保険期間フィールド(不図示)を有してもよい。さらに、証券C1は、「ご契約のお車」に含まれる、車台番号を手書きで記入するための車台番号フィールド(不図示)、及び、登録番号を手書きで記入するための登録番号フィールド(不図示)等を更に有してもよい。また、文字認識装置100Aは、他のフィールドの手書き文字を認識してもよい。なお、例示した上記フィールドのすべてについて手書き文字を認識しなければならないわけではない。   The securities C1 includes, for example, an address field 20 (handwritten character region relating to an address) and a name field 22 as fields (handwritten character regions) in which handwritten characters are entered. These fields are examples of fields for recognizing characters by the character recognition device 100A, and the securities C1 may have other fields in which characters are described. For example, the securities C1 may have an insurance period field (not shown) for hand-filling the insurance start date and the insurance maturity date included in the “contract details”. Further, the securities C1 includes a chassis number field (not shown) for handwritten entry of the chassis number and a registration number field (not shown) for entering the registration number, which are included in the "contracted car". And the like. Further, the character recognition device 100A may recognize handwritten characters in other fields. It should be noted that handwritten characters are not necessarily recognized for all the above-described fields.

図1に戻り、情報処理部1は、例えば、機能的に、画像データ取得部11、学習用データ生成部12、学習モデル生成部13、学習モデル更新部14、領域特定部15、及び、文字認識部16を含んで構成されている。   Returning to FIG. 1, for example, the information processing unit 1 functionally includes an image data acquisition unit 11, a learning data generation unit 12, a learning model generation unit 13, a learning model update unit 14, a region specification unit 15, and characters. The recognition unit 16 is included.

なお、情報処理部1の上記各部は、例えば、メモリやハードディスク等の記憶領域を用いたり、記憶領域に格納されているプログラムをプロセッサが実行したりすることにより実現することができる。また、文字認識装置100Aのコーパス3、並びに、各DB5、7及び9は、プロセッサが実行することにより実現することができる。   The above-described units of the information processing unit 1 can be realized by using a storage area such as a memory or a hard disk, or by executing a program stored in the storage area by a processor. Further, the corpus 3 and the DBs 5, 7, and 9 of the character recognition device 100A can be realized by being executed by a processor.

画像データ取得部11は、証券C1の画像データを取得する。また、画像データ取得部11は、例えば、画像データ取得部11は、図14を参照して後述する入出力インターフェース44の一例であるカメラ等の撮像装置で撮像することによって生成される画像データを取得してもよい。   The image data acquisition unit 11 acquires image data of the securities C1. Further, the image data acquisition unit 11, for example, the image data acquisition unit 11 captures image data generated by imaging with an imaging device such as a camera which is an example of the input / output interface 44 described later with reference to FIG. 14. You may get it.

図15に示すように、画像データ取得部11は、証券C1をカメラ等の撮像装置を含む外部装置50で撮像することによって生成される画像データを、所定の通信ネットワークNを介して取得してもよい。通信ネットワークNは、例えばインターネット等を含む情報処理に係る通信回線又は通信網であり、その具体的な構成は、文字認識装置100Aと外部装置50との間でデータの送受信が可能なように構成されていれば特に制限されない。   As shown in FIG. 15, the image data acquisition unit 11 acquires image data generated by imaging the securities C <b> 1 with an external device 50 including an imaging device such as a camera via a predetermined communication network N. Also good. The communication network N is a communication line or a communication network related to information processing including the Internet, for example, and its specific configuration is configured so that data can be transmitted and received between the character recognition device 100A and the external device 50. If it is done, it is not particularly limited.

図3は、第1実施形態に係る学習用データ生成処理、及び、学習モデル生成処理の一例を示す概念図である。図1及び図3に示すように、学習用データ生成部12は、証券C1における1又は複数の手書き文字領域に記入されうる1又は複数の単語が登録されたコーパス3と、手書き文字データセットDB5に記録されている1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する。   FIG. 3 is a conceptual diagram illustrating an example of learning data generation processing and learning model generation processing according to the first embodiment. As shown in FIGS. 1 and 3, the learning data generation unit 12 includes a corpus 3 in which one or more words that can be entered in one or more handwritten character areas in the securities C1 are registered, and a handwritten character data set DB5. The learning data including the character string image and the correct answer label is generated based on the data set DS1 of the handwritten character image in units of one character recorded in (1).

図4は、第1実施形態に係る住所コーパスの一例を示す図である。図4に示すように、図1及び図3に示すコーパス3には、例えば、都道府県名、市区町村名、地域名、及び建物名の可能な組み合わせが階層化されて登録されている住所コーパスが含まれる。つまり、各都道府県名の下位階層には、当該都道府県に属する市区町村名が含まれる。同様に、各市区町村名の下位階層には、当該市区町村に属する地域名が含まれる。住所コーパスにはさらに、行政上の変更があった都道府県名、市区町村名および地域名について、旧名称と現名称とが対応付けられて登録されてもよい。   FIG. 4 is a diagram illustrating an example of an address corpus according to the first embodiment. As shown in FIG. 4, in the corpus 3 shown in FIGS. 1 and 3, for example, addresses in which possible combinations of prefecture names, city names, area names, and building names are layered and registered. Corpus is included. In other words, the name of a city belonging to the prefecture is included in the lower hierarchy of each prefecture name. Similarly, the lower level of each city name includes the name of the area belonging to the city. Further, the old name and the current name may be associated with each other and registered in the address corpus with respect to the name of the prefecture, city, town and village where the administrative change has occurred.

図1及び図3に示すコーパス3には、住所に特化した住所コーパスの他、氏名、車名、職業、保険期間、車台番号、及び登録番号等に特化した各種コーパスが含まれてもよい。   The corpus 3 shown in FIGS. 1 and 3 may include various corpora specialized in name, car name, occupation, insurance period, chassis number, registration number, etc. in addition to the address corpus specialized in address. Good.

図3及び図4に示すように、学習用データ生成部12は、証券C1における1又は複数のフィールドに記入されうる1又は複数の単語のテキスト情報CL1をコーパス3から抽出する。図3に示す例では、例えば住所テキスト情報「トウキョウト」を住所コーパスから抽出する。次に、コーパス3から抽出したテキスト情報CL1に含まれる各文字の手書き文字画像を手書き文字データセットDB5からそれぞれ読み出して、手書き文字列画像CSI1「トウキョウト」を生成する。ここで、図3に示すように、手書き文字データセットDB5には、ひらがな、カタカナ、漢字等の文字(1文字)ごとに、対応する手書き文字画像が複数対応付けられて格納されている。具体的には、テキスト情報「ア」に対して、複数の手書き文字画像「ア」(すなわち、手書きで「ア」と記載された画像)が格納されている。手書き文字データセットDB5には、テキスト情報「ア」以外の各文字についても同様に、複数の手書き文字画像(1文字単位の手書き文字画像)が対応付けられたデータセットDS1が格納されている。
すなわち、学習用データ生成部12は、コーパス3から抽出されたテキスト情報CL1に含まれる文字ごとに、手書き文字データセットDB5から、対応する手書き文字画像を読みだして、手書き文字列画像CSI1を生成する。例えば、テキスト情報CL1が「トウキョウト」のとき、テキスト情報「ト」に対応する手書き文字画像「ト」を手書き文字データセットDB5から任意に1つ抽出する。続いて、テキスト情報「ウ」に対応する手書き文字画像「ウ」を手書き文字データセットDB5から任意に1つ抽出する。残りの、テキスト情報「キ」「ョ」「ウ」「ト」についても同様にして、対応する手書き文字画像「キ」「ョ」「ウ」「ト」を手書き文字データセットDB5からそれぞれ任意に1つ抽出する。そして、抽出された手書き文字画像「ト」「ウ」「キ」「ョ」「ウ」「ト」を1つにまとめて、文字列画像CSI1「トウキョウト」を生成する。このようにして生成された手書き文字列画像CSI1「トウキョウト」に対して、コーパス3から抽出されたテキスト情報CL1「トウキョウト」を正解ラベルとする学習用データを生成する。なお、手書き文字列画像CSI1を生成する際に、任意に抽出された手書き文字画像「ト」「ウ」「キ」「ョ」「ウ」「ト」のそれぞれを、回転、拡大、縮小、移動、又は、歪みを付加させてもよい。
As shown in FIGS. 3 and 4, the learning data generation unit 12 extracts text information CL1 of one or more words that can be entered in one or more fields in the securities C1 from the corpus 3. In the example shown in FIG. 3, for example, address text information “Tokyo” is extracted from the address corpus. Next, the handwritten character image of each character included in the text information CL1 extracted from the corpus 3 is read from the handwritten character data set DB 5 to generate a handwritten character string image CSI1 “Tokyo”. Here, as shown in FIG. 3, the handwritten character data set DB 5 stores a plurality of corresponding handwritten character images in association with each character (one character) such as hiragana, katakana, and kanji. Specifically, a plurality of handwritten character images “A” (that is, images handwritten as “A”) are stored for the text information “A”. Similarly, for each character other than the text information “A”, the handwritten character data set DB5 stores a data set DS1 in which a plurality of handwritten character images (one character-by-character handwritten character image) are associated.
That is, for each character included in the text information CL1 extracted from the corpus 3, the learning data generation unit 12 reads a corresponding handwritten character image from the handwritten character data set DB5 and generates a handwritten character string image CSI1. To do. For example, when the text information CL1 is “Tokyo”, one handwritten character image “G” corresponding to the text information “G” is arbitrarily extracted from the handwritten character data set DB5. Subsequently, one handwritten character image “U” corresponding to the text information “U” is arbitrarily extracted from the handwritten character data set DB 5. Similarly for the remaining text information “ki”, “yo”, “u” and “to”, the corresponding handwritten character images “ki”, “yo”, “u” and “to” are respectively arbitrarily selected from the handwritten character data set DB 5. Extract one. Then, the extracted handwritten character images “T”, “U”, “K”, “K”, “U”, and “G” are combined into one to generate a character string image CSI1 “Tokyo”. For the handwritten character string image CSI1 “Tokyo” generated in this way, learning data is generated with the text information CL1 “Tokyo” extracted from the corpus 3 as the correct answer label. When the handwritten character string image CSI1 is generated, each of the arbitrarily extracted handwritten character images “t”, “c”, “ki”, “c”, “c”, “g” is rotated, enlarged, reduced, moved. Alternatively, distortion may be added.

手書き文字データセットDB5には、1文字単位の手書き文字画像のデータセットとして、ひらがな又は漢字のテキスト情報と、ひらがな又は漢字のテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。また、手書き文字データセットDB5には、外国語の1文字単位の手書き文字画像のデータセットが含まれてもよい。例えば、1文字単位の手書き文字画像のデータセットとして、アルファベットのテキスト情報と、アルファベットのテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。   In the handwritten character data set DB 5, as a data set of handwritten character images for each character, a set of hiragana or kanji text information and a plurality of handwritten character images corresponding to each of the hiragana or kanji text information. May be included. The handwritten character data set DB5 may include a data set of handwritten character images in units of foreign characters. For example, as a data set of handwritten character images in character units, alphabetic text information and a plurality of handwritten character images corresponding to the alphabetic text information may be included in a set.

学習モデル生成部13は、学習用データ生成部12が生成した学習用データを用いた第1学習により、学習モデルを生成する。図3に示すように、学習モデル生成部13は、例えば、CRNN(Convolutional Recurrent Neural Network)を含むネットワーク構造から学習モデルLM1を生成する。CRNNは、例えば、畳み込みニューラルネットワーク(第1ニューラルネットワーク)、つまりCNN(Convolutional Neural Network)と、リカレントニューラルネットワーク(第2ニューラルネットワーク)、つまりRNN(Recurrent Neural Network)とが結合されたネットワーク構造である。CNNでは、証券C1における1又は複数のフィールドに含まれる手書き文字列に関する特徴量マップを算出する。RNNでは、動画像・音声などの時系列データを扱うことができるニューラルネットワークであり、再帰構造をもつため過去の情報を含めた予測が可能となる。RNNを用いて、特徴量マップから得られた複数の連続的な特徴データの前後関係を踏まえて文字列インデックスを算出する。なお、ネットワーク構造は上記以外の構成を採用してもよい。また、ニューラルネットワークについても、CNN及びRNN以外のニューラルネットワークを採用してもよい。   The learning model generation unit 13 generates a learning model by first learning using the learning data generated by the learning data generation unit 12. As illustrated in FIG. 3, the learning model generation unit 13 generates a learning model LM1 from a network structure including, for example, CRNN (Convolutional Recurrent Neural Network). The CRNN is, for example, a network structure in which a convolutional neural network (first neural network), that is, a CNN (Convolutional Neural Network) and a recurrent neural network (second neural network), that is, an RNN (Recurrent Neural Network) are combined. . In CNN, the feature-value map regarding the handwritten character string contained in the 1 or several field in the securities | curds C1 is calculated. The RNN is a neural network that can handle time-series data such as moving images and sounds, and has a recursive structure, so that prediction including past information is possible. Using RNN, a character string index is calculated based on the context of a plurality of continuous feature data obtained from the feature map. The network structure may adopt a configuration other than the above. As the neural network, neural networks other than CNN and RNN may be adopted.

この構成によれば、学習モデル生成部13は、CRNNを含むネットワーク構造から学習モデルを生成するので、高精度に手書き文字列を認識することができる。   According to this configuration, the learning model generation unit 13 generates a learning model from a network structure including CRNN, and thus can recognize a handwritten character string with high accuracy.

上記したとおり、学習モデル生成部13は、住所CRNN学習モデルを生成する。学習モデル生成部13は、他の種別のCRNN学習モデルを生成してもよい。例えば、学習用データ生成部12が、氏名、保険期間、車台番号、及び登録番号等に関する学習用データを生成する場合、学習モデル生成部13は、氏名、車名、職業、保険期間、車台番号、及び登録番号等に関する学習用データのそれぞれを用いた第1学習により、氏名、保険期間、車台番号、及び登録番号等に関するCRNN学習モデルを生成してもよい。   As described above, the learning model generation unit 13 generates an address CRNN learning model. The learning model generation unit 13 may generate another type of CRNN learning model. For example, when the learning data generation unit 12 generates learning data related to name, insurance period, chassis number, registration number, etc., the learning model generation unit 13 includes name, vehicle name, occupation, insurance period, chassis number. And a first learning using each of the learning data relating to the registration number, etc., a CRNN learning model relating to the name, the insurance period, the chassis number, the registration number, etc. may be generated.

学習モデル更新部14は、図3に示す第1学習の後、証券C1の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、生成された学習モデルを強化(更新)する。   After the first learning shown in FIG. 3, the learning model update unit 14 reinforces (updates) the generated learning model by second learning using a character string image cut out from the image data of the securities C1 as learning data. )

図5は、第1実施形態に係る学習モデル強化(更新)処理の一例を示す概念図である。図5に示すように、図1に示す学習モデル更新部14は、複数の証券C1の画像データから切り出された、住所及び氏名等の複数の文字列画像を学習用データとして、手書き文字データセットDB7に格納する。手書き文字データセットDB7には、例えば、複数の手書き文字列画像「トウキョウト」を含む文字列画像単位の手書き文字画像のデータセットDS3が格納されている。学習モデル更新部14は、図3に示す第1学習で生成された既存学習モデルを使用して、例えば、手書き文字データセットDB7に含まれる手書き文字列画像「トウキョウト」(「ウ」が不鮮明)に基づいて、テキスト情報「トウキョクト」を生成(推論)する。これは、手書き文字列画像「トウキョウト」の「ウ」が不鮮明であったため、画像「ウ」を「ク」と誤認識したものである。この場合は、例えば、図1に示す文字認識装置100Aを操作するユーザにより、誤認識されたテキスト情報「トウキョクト」をテキスト情報「トウキョウト」に修正するマニュアル修正を実行してもよい。   FIG. 5 is a conceptual diagram illustrating an example of learning model reinforcement (update) processing according to the first embodiment. As shown in FIG. 5, the learning model update unit 14 shown in FIG. 1 uses a plurality of character string images such as addresses and names extracted from the image data of a plurality of securities C1 as learning data, and sets a handwritten character data set. Store in DB7. The handwritten character data set DB 7 stores, for example, a data set DS3 of handwritten character images in units of character string images including a plurality of handwritten character string images “Tokyo”. The learning model update unit 14 uses, for example, the existing learning model generated in the first learning shown in FIG. 3, for example, the handwritten character string image “Tokyo” (“U” is unclear) included in the handwritten character data set DB 7. Based on the above, the text information “Tokyo” is generated (inferred). This is because the image “U” is misrecognized as “K” because “U” of the handwritten character string image “Tokyo” is unclear. In this case, for example, the user who operates the character recognition device 100A shown in FIG. 1 may execute manual correction for correcting the misrecognized text information “Tokyo” to the text information “Tokyo”.

このように、学習モデル更新部14は、第1学習で生成された既存学習モデルを使用して、手書き文字列画像に基づいてテキスト情報を生成(推論)し、誤認識された場合は、ユーザによってマニュアル修正されたテキスト情報を、手書き文字列画像の正解ラベルとしてとして付与する。他方、誤認識されなかった場合は、マニュアル修正を実行せず、生成(推論)されたテキスト情報を、手書き文字列画像の正解ラベルとして付与する。これにより、第2学習では、半自動的にアノテーションが生成される。すなわち、手書き文字列画像とそれに対応する正解ラベル、すなわち、この例では、手書き文字列画像「トウキョウト」に対応するテキスト情報の「トウキョウト」、を含む学習用データが生成される。そして、学習モデル更新部14は、新たに生成された学習用データを既存学習モデルに追加することにより、学習モデルを強化することができる。   As described above, the learning model update unit 14 generates (infers) text information based on the handwritten character string image using the existing learning model generated in the first learning, and when it is erroneously recognized, The text information manually corrected by is given as a correct label of the handwritten character string image. On the other hand, if no erroneous recognition is made, manual correction is not executed, and the generated (inferred) text information is assigned as a correct label of the handwritten character string image. Thus, in the second learning, an annotation is generated semi-automatically. That is, learning data including a handwritten character string image and a correct answer label corresponding thereto, that is, in this example, “Tokyo” of text information corresponding to the handwritten character string image “Tokyo” is generated. The learning model update unit 14 can reinforce the learning model by adding newly generated learning data to the existing learning model.

この構成によれば、学習モデル更新部14は、証券C1の画像データから各項目(氏住所、氏名等)の手書き文字列を抽出し、これらに正解ラベルを付与する。よって、これらの正解ラベルが付与された手書き文字列を第2学習することにより、第1学習で生成された学習モデルを強化することができる。   According to this structure, the learning model update part 14 extracts the handwritten character string of each item (name, address, name, etc.) from the image data of the securities C1, and gives a correct answer label to them. Therefore, the learning model generated in the first learning can be strengthened by performing the second learning on the handwritten character string to which these correct labels are assigned.

図1に戻り、領域特定部15は、画像データ取得部11が取得した証券C1の画像データに基づいて、証券C1に手書き文字で記入された文字列を含む1又は複数のフィールドを特定する。証券C1におけるフィールドを特定する手法は様々な手法を採り得るが、一例として、以下では、証券C1内のフィールドを特定するためのレイアウト情報を使用する手法を説明する。   Returning to FIG. 1, the region specifying unit 15 specifies one or a plurality of fields including a character string written in handwritten characters on the certificate C <b> 1 based on the image data of the certificate C <b> 1 acquired by the image data acquiring unit 11. Various methods can be used for specifying the field in the security C1, but as an example, a method using layout information for specifying the field in the security C1 will be described below.

図1に示すように、文字認識装置100Aは、証券C1における所定位置に対応付けて、フィールドを特定するためのレイアウト情報を記録するレイアウト情報DB9(記録部)を更に備える。   As shown in FIG. 1, the character recognition device 100A further includes a layout information DB 9 (recording unit) that records layout information for specifying a field in association with a predetermined position in the securities C1.

図6は、第1実施形態に係るレイアウト情報の一例を示す概念図である。図6に示すように、レイアウト情報は、証券テンプレートIDごとに、複数のフィールドの各フィールド名と当該フィールドの始点位置と終点位置とが対応付けて格納されている。ここでフィールド名は複数のフィールドのいずれであるかを特定する情報の例となっている。   FIG. 6 is a conceptual diagram showing an example of layout information according to the first embodiment. As shown in FIG. 6, the layout information stores, for each securities template ID, the field names of a plurality of fields and the start position and end position of the fields in association with each other. Here, the field name is an example of information specifying which of a plurality of fields.

図6の例では証券テンプレートID「001」について、フィールド名「住所」の位置が始点の座標(X21,Y21)および終点の座標(X22,Y22)で表されている。これにより、フィールド名「住所」のフィールドは、これら始点と終点とで指定される矩形の領域である。これらの座標は、証券C1全体を予め定められた大きさに正規化したときの位置であることが好ましい。ただし、フィールドの位置の指定方法は図6に示す例に限られず、他の方法が用いられてもよい。   In the example of FIG. 6, for the securities template ID “001”, the position of the field name “address” is represented by the coordinates of the start point (X21, Y21) and the coordinates of the end point (X22, Y22). Thereby, the field of the field name “address” is a rectangular area designated by the start point and the end point. These coordinates are preferably positions when the entire security C1 is normalized to a predetermined size. However, the field position designation method is not limited to the example shown in FIG. 6, and other methods may be used.

レイアウト情報は文字認識装置100Aの文字認識処理に先立って、レイアウト情報DB9に格納される。新たなフォーマットの証券が発行された場合には、文字認識装置100Aのユーザ等により、当該証券についてのレイアウト情報がレイアウト情報DB9に追加されることが好ましい。   The layout information is stored in the layout information DB 9 prior to the character recognition process of the character recognition device 100A. When a securities in a new format is issued, it is preferable that layout information about the securities is added to the layout information DB 9 by the user of the character recognition device 100A or the like.

以上の通り、レイアウト情報は証券テンプレートごとに複数のフィールドのそれぞれを特定する位置の情報が格納されている。領域特定部15は、レイアウト情報に基づいて、フィールドを特定する。この構成によれば、例えば、互いに異なるレイアウトの複数の証券においても、それぞれにおける住所フィールド20、及び、氏名フィールド22等の各フィールドの位置が特定できる。 As described above, the layout information stores information on positions for specifying each of a plurality of fields for each securities template. The area specifying unit 15 specifies a field based on the layout information. According to this configuration, for example, even in a plurality of securities having different layouts, the position of each field such as the address field 20 and the name field 22 can be specified.

なお、証券C1内のフィールドを特定する手法は上記に限られない。例えば、上記した証券テンプレートを使用しない特定手法の一例については、第3実施形態として説明する   The method for specifying the field in the securities C1 is not limited to the above. For example, an example of a specific method that does not use the above-described securities template will be described as a third embodiment.

文字認識部16は、生成された学習モデル、又は、強化(更新)された学習モデルを用いて、手書き文字領域に記入された文字列の内容を認識する。文字認識部16は、例えば、CNN及びRNNが結合されたCRNNを有する学習モデルを用いて、証券C1のフィールドに記入された文字列の内容を認識する。この構成によれば、文字認識部16は、CNN及びRNNが結合されたネットワーク構造を用いて、手書き文字列を認識するので、高精度に手書き文字列を認識することができる。   The character recognition unit 16 recognizes the contents of the character string entered in the handwritten character area using the generated learning model or the enhanced (updated) learning model. The character recognizing unit 16 recognizes the content of the character string entered in the field of the security C1 using, for example, a learning model having a CRNN in which CNN and RNN are combined. According to this configuration, since the character recognition unit 16 recognizes a handwritten character string using a network structure in which CNN and RNN are combined, it can recognize the handwritten character string with high accuracy.

(文字認識処理)
図7及び図8を用いて、本発明の第1実施形態に係る文字認識処理の一例を説明する。図7は、第1実施形態に係る文字認識処理の一例を示すフローチャートである。
(Character recognition processing)
An example of character recognition processing according to the first embodiment of the present invention will be described with reference to FIGS. FIG. 7 is a flowchart illustrating an example of character recognition processing according to the first embodiment.

図7に示すように、図1に示す画像データ取得部11は、図2に示す証券C1の画像データを取得する(ステップS1)。学習用データ生成部12は、証券C1の手書き文字領域に記入されうる1又は複数の単語が登録されたコーパス3と、手書き文字データセットDB5に記録されている1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する(ステップS3)。学習モデル生成部13は、学習モデルを生成する(ステップS5)。なお、学習モデルの生成処理及び更新処理については、図8を参照して後述する。領域特定部15は、画像データ取得部11が取得した画像データに基づいて、証券C1に手書き文字で記入された文字列を含む1又は複数のフィールドを特定する(ステップS7)。文字認識部16は、生成された学習モデル、又は、強化(更新)された学習モデルを用いて、証券C1に手書き文字で記入された文字列を含む1又は複数のフィールドに記入された文字列の内容を認識する(ステップS9)。   As shown in FIG. 7, the image data acquisition unit 11 shown in FIG. 1 acquires the image data of the securities C1 shown in FIG. 2 (step S1). The learning data generation unit 12 is a corpus 3 in which one or a plurality of words that can be entered in the handwritten character area of the certificate C1 is registered, and data of handwritten character images in character units recorded in the handwritten character data set DB5. Based on the set DS1, learning data including a character string image and a correct label is generated (step S3). The learning model generation unit 13 generates a learning model (step S5). The learning model generation process and update process will be described later with reference to FIG. Based on the image data acquired by the image data acquisition unit 11, the region specifying unit 15 specifies one or a plurality of fields including a character string written with handwritten characters on the securities C1 (step S7). The character recognition unit 16 uses the generated learning model or the strengthened (updated) learning model, and the character string written in one or more fields including the character string written in handwritten characters on the securities C1. Is recognized (step S9).

図8は、第1実施形態に係る学習モデル生成処理(図7におけるステップS5)の一例を示すフローチャートである。図8に示すように、学習モデル生成部13は、学習用データ生成部12が生成した学習用データを用いた第1学習により、学習モデルを生成する(ステップS51)。次に、学習モデル更新部14は、第1学習の後、証券C1の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、学習モデルを更新する(ステップS53)。   FIG. 8 is a flowchart showing an example of the learning model generation process (step S5 in FIG. 7) according to the first embodiment. As illustrated in FIG. 8, the learning model generation unit 13 generates a learning model through first learning using the learning data generated by the learning data generation unit 12 (step S51). Next, after the first learning, the learning model update unit 14 updates the learning model by the second learning using the character string image cut out from the image data of the securities C1 as learning data (step S53).

以上、本発明の第1実施形態によれば、コーパス3と、手書き文字データセットDB5に記録されている1文字単位の手書き文字画像のデータセットDS1と、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する。生成された学習用データを用いた第1学習により、学習モデルを生成する。よって、第1学習により生成された学習モデルを用いて、証券C1における1又は複数のフィールドに記入された文字列の内容を認識することができる。したがって、証券C1に記入された手書き文字列の認識処理の精度を改善することができる。   As mentioned above, according to 1st Embodiment of this invention, a character string image and a correct answer label are based on corpus 3 and data set DS1 of the handwritten character image of 1 character unit currently recorded on handwritten character data set DB5. Generate learning data including. A learning model is generated by first learning using the generated learning data. Therefore, it is possible to recognize the contents of the character strings entered in one or more fields in the securities C1 using the learning model generated by the first learning. Therefore, it is possible to improve the accuracy of the recognition process of the handwritten character string entered in the securities C1.

<第2実施形態>
図9及び図10を参照して第2実施形態の学習モデル生成処理及び学習モデル更新処理を説明する。第2実施形態は、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する点で、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像に透かしが重畳されていない第1実施形態とは異なる。また、第2実施形態は、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像に、帳票におけるノイズを重畳したものを学習用データとして生成する点で、図1、図3及び図5に示す手書き文字データセットDB5,DB7に含まれる文字列画像にノイズが重畳されていない第1実施形態とは異なる。以下では、第1実施形態と異なる点について特に説明する。
Second Embodiment
A learning model generation process and a learning model update process of the second embodiment will be described with reference to FIGS. In the second embodiment, learning data is obtained by superimposing at least a part of a watermark printed on a form on a character string image included in the handwritten character data sets DB5 and DB7 shown in FIGS. In the point which produces | generates, it differs from 1st Embodiment in which the watermark is not superimposed on the character string image contained in handwritten character data set DB5, DB7 shown in FIG.1, FIG3 and FIG.5. In the second embodiment, the character string images included in the handwritten character data sets DB5 and DB7 shown in FIG. 1, FIG. 3 and FIG. This is different from the first embodiment in which noise is not superimposed on the character string images included in the handwritten character data sets DB5 and DB7 shown in FIGS. Below, a different point from 1st Embodiment is demonstrated especially.

図9は、第2実施形態に係る透かしが印刷された証券の一例を示す図である。図9に示すように、証券C3は、例えば自動車保険証券であり、証券C3には、「複写」という透かしWが印刷されている。図10は、第2実施形態に係る、文字列画像に、証券C3に印刷される透かしの少なくとも一部を重畳した学習用データの一例を示す図である。
図10(a)に示すように、図1及び図3に示す1文字単位の手書き文字データセットDB5には、例えば、透かしの少なくとも一部を含む1文字単位の手書き文字画像「キ」が複数パターン格納されている。手書き文字データセットDB5には、これに限られず、透かしの少なくとも一部を含む1文字単位の手書き文字画像「ア」…「ン」のそれぞれについて複数パターン格納されてもよい。図1に示す学習用データ生成部12は、手書き文字データセットDB5から、ランダムに、透かしの少なくとも一部を含む、複数パターンの手書き文字画像「ア」…「ン」を読みだして学習用データを生成する。
FIG. 9 is a diagram illustrating an example of a security printed with a watermark according to the second embodiment. As shown in FIG. 9, the security C3 is, for example, an automobile insurance policy, and a watermark W “copy” is printed on the security C3. FIG. 10 is a diagram illustrating an example of learning data in which at least a part of the watermark printed on the securities C3 is superimposed on the character string image according to the second embodiment.
As shown in FIG. 10A, in the one-character handwritten character data set DB5 shown in FIGS. 1 and 3, for example, a plurality of one-character handwritten character images “ki” including at least a part of a watermark are included. The pattern is stored. The handwritten character data set DB5 is not limited to this, and a plurality of patterns may be stored for each of the handwritten character images “a”. The learning data generation unit 12 shown in FIG. 1 reads out a plurality of patterns of handwritten character images “a”... “N” including at least a part of the watermark from the handwritten character data set DB 5 at random. Is generated.

手書き文字データセットDB5には、透かしの少なくとも一部を含む1文字単位の手書き文字画像のデータセットとして、ひらがな又は漢字のテキスト情報と、ひらがな又は漢字のテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。また、手書き文字データセットDB5には、透かしの少なくとも一部を含む外国語の1文字単位の手書き文字画像のデータセットが含まれてもよい。例えば、1文字単位の手書き文字画像のデータセットとして、アルファベットのテキスト情報と、アルファベットのテキスト情報のそれぞれに対応する、複数の手書き文字画像と、がセットで含まれてもよい。   The handwritten character data set DB 5 includes a plurality of handwritten characters corresponding to each of hiragana or kanji text information and hiragana or kanji text information as a data set of handwritten character images including at least a part of the watermark. A character image may be included as a set. In addition, the handwritten character data set DB5 may include a data set of handwritten character images for each character in a foreign language including at least part of the watermark. For example, as a data set of handwritten character images in character units, alphabetic text information and a plurality of handwritten character images corresponding to the alphabetic text information may be included in a set.

図10(b)に示すように、図1及び図5に示す文字列画像単位の手書き文字データセットDB7には、例えば、透かしの少なくとも一部を含む文字列単位の手書き文字列画像「トウキョウト***…」が格納されている。さらに、図10(c)に示すように、図1及び図5に示す文字列画像単位の手書き文字データセットDB7には、例えば、透かしの少なくとも一部を含む文字列単位の手書き文字列画像「トウキョウト」(図10(b)に示す手書き文字列画像の一部)が格納されてもよい。
本実施形態に係る学習モデル更新部14では、図3に示す第1学習の後、証券C3の画像データ)から切り出された文字列画像であって、透かしの少なくとも一部が重畳された文字列画像を手書き文字データセットDB7から読みだす。そして、学習モデル更新部14は、例えば、読みだした、透かしの少なくとも一部が重畳された文字列画像を学習用データとして用いた第2学習により、生成された学習モデルを強化(更新)する。
As shown in FIG. 10B, in the handwritten character data set DB 7 for each character string image shown in FIGS. 1 and 5, for example, a handwritten character string image “Tokyo *” including at least a part of the watermark is included. ** ... "is stored. Further, as shown in FIG. 10C, the handwritten character data set DB7 in character string image units shown in FIGS. 1 and 5 includes, for example, a handwritten character string image “in character string units including at least a part of a watermark”. “Tokyo” (part of the handwritten character string image shown in FIG. 10B) may be stored.
The learning model updating unit 14 according to the present embodiment is a character string image cut out from the image data of the security C3 after the first learning shown in FIG. 3, and is a character string on which at least a part of the watermark is superimposed. The image is read from the handwritten character data set DB7. The learning model update unit 14 reinforces (updates) the generated learning model by second learning using, for example, the read character string image on which at least a part of the watermark is superimposed as learning data. .

なお、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において用いられる学習用データは、文字列画像に、証券に印刷される透かしの少なくとも一部を重畳したものの他、文字列画像に、証券におけるノイズを重畳したものを含んでもよい。   Note that the learning data used in at least one of the learning model generation process and the learning model reinforcement process is a character string image in which at least a part of the watermark printed on the securities is superimposed on the character string image. In addition, it may include noise superimposed on securities.

以上、本発明の第2実施形態によれば、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において、文字列画像に、帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する。よって、透かしが印刷される帳票における文字列画像の認識処理においてロバスト性が向上する。   As described above, according to the second embodiment of the present invention, at least one part of the watermark printed on the form is superimposed on the character string image in at least one of the learning model generation process and the learning model reinforcement process. Is generated as learning data. Therefore, robustness is improved in the character string image recognition process in the form on which the watermark is printed.

また、学習モデルの生成処理、又は、学習モデルの強化処理の少なくとも一方において、文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する。よって、ノイズが重畳された帳票における文字列画像の認識処理においてロバスト性が向上する。   Further, in at least one of the learning model generation process and the learning model reinforcement process, a character string image in which noise in the form is superimposed is generated as learning data. Therefore, the robustness is improved in the character string image recognition process in the form on which noise is superimposed.

<第3実施形態>
図11を参照して、第3実施形態に係る文字認識装置を説明する。第3実施形態に係る文字認識装置100Bは、帳票のフィールドを特定する処理において、帳票に記載された項目名を含む項目領域を抽出し、項目領域に属性を割り当てる等の処理を行う。第1実施形態では、第3実施形態のこれらの処理は行わず、図1に示すレイアウト情報を参照して帳票のフィールドを特定する点で第3実施形態とは異なる。以下では、第1実施形態と異なる点について特に説明する。
<Third Embodiment>
A character recognition device according to the third embodiment will be described with reference to FIG. The character recognition device 100B according to the third embodiment performs processing such as extracting an item area including an item name described in a form and assigning an attribute to the item area in the process of specifying a form field. The first embodiment is different from the third embodiment in that these processes of the third embodiment are not performed and the form fields are specified with reference to the layout information shown in FIG. Below, a different point from 1st Embodiment is demonstrated especially.

図11は、第3実施形態に係る文字認識装置の概略構成図(システム構成図)である。図11に示すように、文字認識装置100Bは、図1に示す第1実施形態に係る文字認識装置100Aと比較すると、図1に示すレイアウト情報DB9は備えておらず、領域特定部15が、例示的に、項目抽出部151と属性割当部152とを更に備えている。   FIG. 11 is a schematic configuration diagram (system configuration diagram) of the character recognition device according to the third embodiment. As shown in FIG. 11, the character recognition device 100B does not include the layout information DB 9 shown in FIG. 1 as compared with the character recognition device 100A according to the first embodiment shown in FIG. For example, an item extracting unit 151 and an attribute assigning unit 152 are further provided.

領域特定部15は、例えば証券に記載された「氏名」や「住所」等の項目名を含む項目領域を抽出対象として、所定のニューラルネットワークを用いて、項目領域を、属性を付与した上で抽出する項目抽出部151を備える。項目抽出部151は、例えば証券上に活字で印刷された項目名を含む項目領域を抽出対象として、証券の画像データに含まれる項目領域を属性の分類付きで個別に抽出する。例えば、証券の画像データに「氏名」や「住所」などの画像領域が存在する場合、それぞれの画像領域が項目領域として抽出されると共に、それぞれの項目領域に対して「name」や「address」といった属性が付加される。項目領域の抽出は、深層学習による物体検出アルゴリズムを用いて行われる。また、このアルゴリズムに基づき構築された所定の学習モデルを参照して、抽出した項目領域の属性の分類が行われる。また、分類された属性については、その分類確度も算出・出力されてもよい。   The area specifying unit 15 uses, for example, an item area including an item name such as “name” and “address” described in the securities as an extraction target and assigns an attribute to the item area using a predetermined neural network. An item extraction unit 151 for extraction is provided. The item extraction unit 151 extracts, for example, item areas included in the image data of the securities with attribute classifications, by using, as extraction targets, item areas including the item names printed in print on the securities. For example, when there are image areas such as “name” and “address” in the image data of securities, each image area is extracted as an item area, and “name” or “address” is assigned to each item area. Such attributes are added. The item area is extracted using an object detection algorithm based on deep learning. Further, the attribute of the extracted item region is classified with reference to a predetermined learning model constructed based on this algorithm. In addition, for the classified attributes, the classification accuracy may be calculated and output.

領域特定部15は、証券の画像データにおける項目領域の位置及び属性に基づいて、項目領域と、当該項目領域の近傍に位置するフィールド(手書き文字領域)とを対応づけ、且つ、フィールドに対して項目領域の属性を割り当てる属性割当部152を備える。属性割当部152は、証券の画像データにおける項目領域の位置およびその属性に基づいて、証券画像のレイアウトを解析し、どの属性に関する情報がどこに記入されているのかを特定する。具体的には、証券におけるフィールドのそれぞれに対して、項目抽出部151によって分類された属性のいずれかが割り当てられる。基本的に、証券の画像データにおいて、ある項目領域と、ある手書き文字領域とが近接、すなわち、両者の距離が所定のしきい値以下である場合、両者の対応付けが行われる。そして、このフィールド(手書き文字領域)に対して、項目領域の属性が割り当てられる。例えば、「name」という属性を有する項目領域の近傍にフィールドが存在する場合、このフィールドに対して「name」という属性が割り当てられる。また、項目領域とフィールドとの具体的な対応規則については、所定の対応規則テーブル等において予め設定・定義されている。   The area specifying unit 15 associates an item area with a field (handwritten character area) located near the item area based on the position and attribute of the item area in the image data of the security, and An attribute assigning unit 152 that assigns the attribute of the item area is provided. The attribute assigning unit 152 analyzes the layout of the securities image based on the position of the item area in the image data of the securities and the attributes thereof, and identifies where the information regarding which attribute is entered. Specifically, one of the attributes classified by the item extraction unit 151 is assigned to each field in the securities. Basically, in a security image data, when a certain item area and a certain handwritten character area are close to each other, that is, when the distance between them is equal to or smaller than a predetermined threshold value, they are associated with each other. The attribute of the item area is assigned to this field (handwritten character area). For example, if a field exists in the vicinity of an item area having the attribute “name”, the attribute “name” is assigned to this field. Further, specific correspondence rules between item areas and fields are set and defined in advance in a predetermined correspondence rule table or the like.

以上、第3実施形態によれば、証券の画像データに含まれる項目領域と、その属性とが取得される。これらの情報から、帳票画像中のどの位置にどのような情報が記載されているのかを特定することができる。これにより、予め、文字認識装置に登録されていない未知の証券であっても、レイアウト解析を行うことが可能になる。   As described above, according to the third embodiment, the item areas included in the image data of securities and their attributes are acquired. From these pieces of information, it is possible to specify what information is written at which position in the form image. This makes it possible to perform layout analysis even for unknown securities that are not registered in advance in the character recognition device.

<第4実施形態>
図12を参照して、第4実施形態に係る文字認識装置及び学習モデル生成装置を説明する。図12に示す第4実施形態に係る文字認識装置100C及び学習モデル生成装置200は、図1に示す第1実施形態に係る文字認識装置100Aが備える各構成が分離されて構成されたものである。文字認識装置100Cは、学習モデル生成装置200で生成された、例えば、第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造を有する学習モデルを用いて、フィールドに記入された文字列の内容を認識する。また、文字認識装置100Cと学習モデル生成装置200とが通信ネットワークNを介してデータの送受信が可能なように構成されるものでもよい。ただし、これに限らず、学習モデル生成装置200で生成された学習モデルは、任意の手段で、文字認識装置100Cの主記録装置に格納されるものである。なお、同様に、図11に示す第3実施形態に係る文字認識装置100Bについても、文字認識装置100Bが備える各構成が分離されて文字認識装置及び学習モデル生成装置が構成されてもよい。また、文字認識装置100Bが備える各構成が分離された、文字認識装置と学習モデル生成装置とが通信ネットワークNを介してデータの送受信が可能なように構成されるものでもよい。
<Fourth embodiment>
A character recognition device and a learning model generation device according to the fourth embodiment will be described with reference to FIG. The character recognition device 100C and the learning model generation device 200 according to the fourth embodiment shown in FIG. 12 are configured by separating the components included in the character recognition device 100A according to the first embodiment shown in FIG. . The character recognition device 100C uses the learning model generated by the learning model generation device 200, for example, a learning model having a network structure in which the first neural network and the second neural network are combined, and the contents of the character string entered in the field. Recognize Further, the character recognition device 100C and the learning model generation device 200 may be configured to be able to transmit and receive data via the communication network N. However, the present invention is not limited to this, and the learning model generated by the learning model generation device 200 is stored in the main recording device of the character recognition device 100C by any means. Similarly, for the character recognition device 100B according to the third embodiment shown in FIG. 11, the character recognition device and the learning model generation device may be configured by separating the components included in the character recognition device 100B. In addition, the character recognition device and the learning model generation device may be configured to be able to transmit and receive data via the communication network N, in which the components included in the character recognition device 100B are separated.

以上、第4実施形態によれば、第1実施形態に係る文字認識装置100A又は第3実施形態に係る文字認識装置100Cは、別個の装置である文字認識装置及び学習モデル生成装置を構成可能である。   As described above, according to the fourth embodiment, the character recognition device 100A according to the first embodiment or the character recognition device 100C according to the third embodiment can configure a character recognition device and a learning model generation device which are separate devices. is there.

<第5実施形態>
図13を参照して、第5実施形態に係る文字認識装置及び外部装置を説明する。図13は、第5実施形態に係る文字認識装置及び外部装置の概略構成図(システム構成図)である。図13に示すように、第5実施形態に係る文字認識装置100Cは、外部装置50によって生成される画像データを所定の通信ネットワークNを介して取得するものでもよい。
<Fifth Embodiment>
A character recognition device and an external device according to the fifth embodiment will be described with reference to FIG. FIG. 13 is a schematic configuration diagram (system configuration diagram) of a character recognition device and an external device according to the fifth embodiment. As shown in FIG. 13, the character recognition device 100 </ b> C according to the fifth embodiment may acquire image data generated by the external device 50 via a predetermined communication network N.

以上、第5実施形態によれば、文字認識装置100Cは、外部装置50によって生成される画像データを取得し、取得した画像データに基づいて文字認識処理を実行することができる。   As described above, according to the fifth embodiment, the character recognition device 100 </ b> C can acquire the image data generated by the external device 50 and execute the character recognition process based on the acquired image data.

図14は、本発明の実施形態に係るコンピュータのハードウェア構成の一例を示す図である。図14を参照して、図1及び15に示す文字認識装置100A、図11に示す文字認識装置100B、図12及び13に示す文字認識装置100C、図12に示す学習モデル生成装置200、並びに、図13及び15に示す外部装置を構成するのに用いることができるコンピュータのハードウェア構成の一例について説明する。   FIG. 14 is a diagram illustrating an example of a hardware configuration of a computer according to the embodiment of the present invention. 14, character recognition device 100A shown in FIGS. 1 and 15, character recognition device 100B shown in FIG. 11, character recognition device 100C shown in FIGS. 12 and 13, learning model generation device 200 shown in FIG. 12, and An example of the hardware configuration of a computer that can be used to configure the external device shown in FIGS. 13 and 15 will be described.

図14に示すように、コンピュータ40は、ハードウェア資源として、主に、プロセッサ41と、主記録装置42と、補助記録装置43と、入出力インターフェース44と、通信インターフェース45とを備えており、これらはアドレスバス、データバス、コントロールバス等を含むバスライン46を介して相互に接続されている。なお、バスライン46と各ハードウェア資源との間には適宜インターフェース回路(図示せず)が介在している場合もある。   As shown in FIG. 14, the computer 40 mainly includes a processor 41, a main recording device 42, an auxiliary recording device 43, an input / output interface 44, and a communication interface 45 as hardware resources. These are connected to each other via a bus line 46 including an address bus, a data bus, a control bus, and the like. An interface circuit (not shown) may be interposed between the bus line 46 and each hardware resource as appropriate.

プロセッサ41は、コンピュータ全体の制御を行う。プロセッサ41は、例えば、図1及び図11に示す情報処理部1に相当する。主記録装置42は、プロセッサ41に対して作業領域を提供し、SRAM(Static Random Access Memory)やDRAM(Dynamic Random Access Memory)等の揮発性メモリである。補助記録装置43は、ソフトウェアであるプログラム等やデータ等を格納する、HDDやSSD、フラッシュメモリ等の不揮発性メモリである。当該プログラムやデータ等は、任意の時点で補助記録装置43からバスライン46を介して主記録装置42へとロードされる。補助記録装置43は、例えば、図1に示すコーパス3、手書き文字データセットDB5、手書き文字データセットDB7、及び、レイアウト情報DB9に相当する。また、補助記録装置43は、例えば、図11に示すコーパス3、手書き文字データセットDB5、及び、手書き文字データセットDB7に相当する。   The processor 41 controls the entire computer. The processor 41 corresponds to, for example, the information processing unit 1 illustrated in FIGS. 1 and 11. The main recording device 42 provides a work area to the processor 41 and is a volatile memory such as an SRAM (Static Random Access Memory) or a DRAM (Dynamic Random Access Memory). The auxiliary recording device 43 is a non-volatile memory such as an HDD, an SSD, or a flash memory that stores software programs and data. The program, data, and the like are loaded from the auxiliary recording device 43 to the main recording device 42 via the bus line 46 at an arbitrary time. The auxiliary recording device 43 corresponds to, for example, the corpus 3, the handwritten character data set DB5, the handwritten character data set DB7, and the layout information DB9 shown in FIG. The auxiliary recording device 43 corresponds to, for example, the corpus 3, the handwritten character data set DB5, and the handwritten character data set DB7 shown in FIG.

入出力インターフェース44は、情報を提示すること及び情報の入力を受けることの一方又は双方を行うものであり、カメラ、キーボード、マウス、ディスプレイ、タッチパネル・ディスプレイ、マイク、スピーカ、温度センサ等である。通信インターフェース45は、図1、11及び12に示す通信ネットワークNと接続されるものであり、通信ネットワークNを介してデータを送受する。通信インターフェース45と通信ネットワークNとは、有線又は無線で接続されうる。通信インターフェース45は、ネットワークに係る情報、例えば、Wi−Fiのアクセスポイントに係る情報、通信キャリアの基地局に関する情報等も取得することがある。   The input / output interface 44 performs one or both of presenting information and receiving input of information, and includes a camera, a keyboard, a mouse, a display, a touch panel display, a microphone, a speaker, a temperature sensor, and the like. The communication interface 45 is connected to the communication network N shown in FIGS. 1, 11, and 12, and transmits and receives data via the communication network N. The communication interface 45 and the communication network N can be connected by wire or wireless. The communication interface 45 may also acquire information relating to the network, for example, information relating to Wi-Fi access points, information relating to communication carrier base stations, and the like.

上に例示したハードウェア資源とソフトウェアとの協働により、コンピュータ40は、所望の手段として機能し、所望のステップを実行し、所望の機能を実現させることできることは、当業者には明らかである。   It will be apparent to those skilled in the art that the computer 40 can function as a desired means, execute a desired step, and realize a desired function by cooperating with the hardware resources and software exemplified above. .

なお、上記各実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するものではない。本発明はその趣旨を逸脱することなく、変更/改良され得るとともに、本発明にはその等価物も含まれる。また、本発明は、上記各実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の開示を形成できるものである。例えば、実施形態に示される全構成要素から幾つかの構成要素は削除してもよいものである。さらに、異なる実施形態に構成要素を適宜組み合わせてもよいものである。   In addition, each said embodiment is for making an understanding of this invention easy, and does not limit this invention and interpret it. The present invention can be changed / improved without departing from the gist thereof, and the present invention includes equivalents thereof. Further, the present invention can form various disclosures by appropriately combining a plurality of constituent elements disclosed in the respective embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements may be appropriately combined in different embodiments.

1,1A,1B…情報処理部、3…コーパス、5,7…手書き文字データセット、9…レイアウト情報DB、11…画像データ取得部、12…学習用データ生成部、13…学習モデル生成部、14…学習モデル更新部、15…領域特定部、16…文字認識部、41…プロセッサ、42…主記録装置、43…補助記録装置、44…入出力インターフェース、45…通信インターフェース、46…バス、50…外部装置、100A,100B,100C…文字認識装置、151…項目抽出部、152…属性割当部、200…学習モデル生成装置 DESCRIPTION OF SYMBOLS 1,1A, 1B ... Information processing part, 3 ... Corpus, 5, 7 ... Handwritten character data set, 9 ... Layout information DB, 11 ... Image data acquisition part, 12 ... Learning data generation part, 13 ... Learning model generation part , 14 ... Learning model update unit, 15 ... Area specifying unit, 16 ... Character recognition unit, 41 ... Processor, 42 ... Main recording device, 43 ... Auxiliary recording device, 44 ... Input / output interface, 45 ... Communication interface, 46 ... Bus 50 ... External device, 100A, 100B, 100C ... Character recognition device, 151 ... Item extraction unit, 152 ... Attribute assignment unit, 200 ... Learning model generation device

Claims (12)

帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、
1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
前記学習用データを用いた第1学習により、学習モデルを生成する学習モデル生成部と、を備える、
学習モデル生成装置。
A database in which one or more words that can be entered in the handwritten character area of the form are registered;
A learning data generation unit that generates learning data including a character string image and a correct answer label based on a data set of handwritten character images in units of one character;
A learning model generation unit that generates a learning model by first learning using the learning data;
Learning model generation device.
前記第1学習の後、前記帳票の画像データから切り出された文字列画像を学習用データとして用いた第2学習により、前記学習モデルを更新する学習モデル更新部をさらに備える、
請求項1に記載の学習モデル生成装置。
A learning model updating unit that updates the learning model by second learning using a character string image cut out from the image data of the form as learning data after the first learning;
The learning model generation apparatus according to claim 1.
前記学習用データ生成部は、前記文字列画像に、前記帳票に印刷される透かしの少なくとも一部を重畳したものを学習用データとして生成する、
請求項1又は2に記載の学習モデル生成装置。
The learning data generation unit generates learning data by superimposing at least a part of a watermark printed on the form on the character string image.
The learning model generation apparatus according to claim 1 or 2.
前記学習用データ生成部は、前記文字列画像に、前記帳票におけるノイズを重畳したものを学習用データとして生成する、
請求項1〜3のいずれか一項に記載の学習モデル生成装置。
The learning data generation unit generates, as learning data, a noise image superimposed on the character string image.
The learning model production | generation apparatus as described in any one of Claims 1-3.
前記学習モデル生成部は、
第1ニューラルネットワーク及び第2ニューラルネットワークが結合されたネットワーク構造から学習モデルを生成するものであり、
前記第1ニューラルネットワークは畳み込みニューラルネットワークにより構成され、
前記手書き文字領域に含まれる前記文字列に関する特徴量マップを算出し、
第2ニューラルネットワークはリカレントニューラルネットワークにより構成され、前記特徴量マップから文字列インデックスを算出する、
請求項1〜4のいずれか一項に記載の学習モデル生成装置。
The learning model generation unit
A learning model is generated from a network structure in which a first neural network and a second neural network are combined;
The first neural network comprises a convolutional neural network;
Calculating a feature amount map related to the character string included in the handwritten character region;
The second neural network is constituted by a recurrent neural network, and calculates a character string index from the feature map.
The learning model production | generation apparatus as described in any one of Claims 1-4.
前記手書き文字領域の少なくとも一つの領域は、住所に関する手書き文字領域であり、
前記住所に関する前記手書き文字領域に対応づけられたコーパスには、都道府県名、市区町村名、地域名、又は、建物名の少なくとも一つの名称を含む組み合わせが登録されている、
請求項1〜5のいずれか一項に記載の学習モデル生成装置。
At least one area of the handwritten character area is a handwritten character area related to an address;
Wherein the handwritten character area co associated with the Pasu relates Address, state, city name, area name, or a combination comprising at least one name of a building name is registered,
The learning model production | generation apparatus as described in any one of Claims 1-5.
前記帳票を撮像装置で撮像することによって生成される画像データを、通信ネットワークを介して取得する画像データ取得部をさらに備える、
請求項1〜6のいずれか一項に記載の学習モデル生成装置。
An image data acquisition unit that acquires image data generated by imaging the form with an imaging device via a communication network;
The learning model production | generation apparatus as described in any one of Claims 1-6.
帳票の画像データに基づいて、手書き文字で記入された文字列を含む1又は複数の手書き文字領域を特定する領域特定部と、
請求項1〜7のいずれか一項に記載の学習モデル生成部により生成された学習モデルを用いて、前記手書き文字領域に記入された文字列の内容を認識する文字認識部と、を備える、
文字認識装置。
An area specifying unit for specifying one or a plurality of handwritten character areas including a character string written with handwritten characters based on the image data of the form;
Using a learning model generated by the learning model generating unit according to any one of claims 1 to 7, and a character recognizing unit for recognizing the content of a character string written in the handwritten character region,
Character recognition device.
前記帳票における所定位置に対応付けて、前記手書き文字領域を特定するためのレイアウト情報を記録する記録部を更に備え、
前記領域特定部は、前記レイアウト情報に基づいて、前記手書き文字領域を特定する、
請求項に記載の文字認識装置。
A recording unit for recording layout information for specifying the handwritten character region in association with a predetermined position in the form;
The region specifying unit specifies the handwritten character region based on the layout information.
The character recognition device according to claim 8 .
前記領域特定部は、
前記帳票に記載された項目名を含む項目領域を、属性を付与した上で抽出する項目抽出部と、
前記帳票の画像データにおける項目領域の位置及び前記属性に基づいて、前記項目領域と、当該項目領域の近傍に位置する前記手書き文字領域とを対応づけ、且つ、前記手書き文字領域の属性を割り当てる属性割当部と、を更に備える、
請求項8又は9に記載の文字認識装置。
The region specifying unit includes:
An item extraction unit that extracts an item area including an item name described in the form with an attribute;
An attribute for associating the item region with the handwritten character region located in the vicinity of the item region and assigning the attribute of the handwritten character region based on the position of the item region in the image data of the form and the attribute An allocation unit;
The character recognition device according to claim 8 or 9 .
学習モデルを生成するコンピュータが実行する学習モデル生成方法であって、
帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、
1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成するステップと、
前記学習用データを用いた第1学習により、学習モデルを生成するステップと、
を含む、
学習モデル生成方法。
A learning model generation method executed by a computer that generates a learning model,
A database in which one or more words that can be entered in the handwritten character area of the form are registered;
Generating learning data including a character string image and a correct label based on a data set of handwritten character images in character units;
Generating a learning model by first learning using the learning data;
including,
Learning model generation method.
コンピュータを、
帳票の手書き文字領域に記入されうる1又は複数の単語が登録されたデータベースと、
1文字単位の手書き文字画像のデータセットと、に基づいて文字列画像及び正解ラベルを含む学習用データを生成する学習用データ生成部と、
前記学習用データを用いた第1学習により、学習モデルを生成する、学習モデル生成部と、
して機能させるプログラム。
Computer
A database in which one or more words that can be entered in the handwritten character area of the form are registered;
A learning data generation unit that generates learning data including a character string image and a correct answer label based on a data set of handwritten character images in units of one character;
A learning model generation unit that generates a learning model by first learning using the learning data;
Program to make it work.
JP2019086630A 2019-04-26 2019-04-26 Learning model generation device, character recognition device, learning model generation method, character recognition method, and program Active JP6590355B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019086630A JP6590355B1 (en) 2019-04-26 2019-04-26 Learning model generation device, character recognition device, learning model generation method, character recognition method, and program
PCT/JP2020/017696 WO2020218512A1 (en) 2019-04-26 2020-04-24 Learning model generating device, character recognition device, learning model generating method, character recognition method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019086630A JP6590355B1 (en) 2019-04-26 2019-04-26 Learning model generation device, character recognition device, learning model generation method, character recognition method, and program

Publications (2)

Publication Number Publication Date
JP6590355B1 true JP6590355B1 (en) 2019-10-16
JP2020184109A JP2020184109A (en) 2020-11-12

Family

ID=68235000

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019086630A Active JP6590355B1 (en) 2019-04-26 2019-04-26 Learning model generation device, character recognition device, learning model generation method, character recognition method, and program

Country Status (2)

Country Link
JP (1) JP6590355B1 (en)
WO (1) WO2020218512A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020197796A (en) * 2019-05-31 2020-12-10 キヤノンマーケティングジャパン株式会社 Trained model and program
KR102265947B1 (en) * 2020-11-23 2021-06-17 주식회사 엠로 Method and apparatus for providing information based on machine learning
JP2021103552A (en) * 2020-06-12 2021-07-15 北京百度網訊科技有限公司 Method for labelling structured document information, device for labelling structured document information, electronic apparatus, computer readable storage medium, and computer program
JP2021167990A (en) * 2020-04-08 2021-10-21 Arithmer株式会社 Layout analysis device, analysis program thereof and analysis method thereof

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022088183A (en) * 2020-12-02 2022-06-14 株式会社三菱Ufj銀行 Ledger sheet reader and ledger sheet reading method
JP7150809B2 (en) * 2020-12-28 2022-10-11 有限責任監査法人トーマツ Document digitization architecture by multi-model deep learning, document image processing program
CN112948578B (en) * 2021-01-29 2022-05-17 浙江大学 DGA domain name open set classification method, device, electronic equipment and medium
CN113361666B (en) * 2021-06-15 2023-10-10 浪潮金融信息技术有限公司 Handwritten character recognition method, system and medium
CN113591866B (en) * 2021-07-29 2023-07-07 云南大学 Special operation certificate detection method and system based on DB and CRNN
CN115439850B (en) * 2022-10-08 2024-06-04 招商局智融供应链服务有限公司 Method, device, equipment and storage medium for identifying image-text characters based on examination sheets
KR102501576B1 (en) * 2022-11-22 2023-02-21 주식회사 아무랩스 Method and apparatus for transmitting information about diagram to a user terminal using a neural network

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2712260B2 (en) * 1988-04-05 1998-02-10 富士通株式会社 Character recognition device
JPH052661A (en) * 1991-06-25 1993-01-08 Mitsubishi Electric Corp Word reader
JPH05101028A (en) * 1991-10-04 1993-04-23 Nippon Telegr & Teleph Corp <Ntt> Integral decision method for plural feature quantity
JPH05258114A (en) * 1992-03-11 1993-10-08 Toshiba Corp Character recognition device
JP2003187188A (en) * 2001-12-13 2003-07-04 Canon Inc Post processing method, postprocessor and storage medium for character recognition result
JP5556524B2 (en) * 2010-09-13 2014-07-23 株式会社リコー Form processing apparatus, form processing method, form processing program, and recording medium recording the program
JP5974576B2 (en) * 2012-03-26 2016-08-23 富士ゼロックス株式会社 Character recognition learning device, character recognition device, and program
JP2015069256A (en) * 2013-09-27 2015-04-13 株式会社日立製作所 Character identification system
JP6430672B1 (en) * 2018-03-16 2018-11-28 株式会社三井E&Sマシナリー Reading system and reading method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020197796A (en) * 2019-05-31 2020-12-10 キヤノンマーケティングジャパン株式会社 Trained model and program
JP2021167990A (en) * 2020-04-08 2021-10-21 Arithmer株式会社 Layout analysis device, analysis program thereof and analysis method thereof
JP2021103552A (en) * 2020-06-12 2021-07-15 北京百度網訊科技有限公司 Method for labelling structured document information, device for labelling structured document information, electronic apparatus, computer readable storage medium, and computer program
JP7170773B2 (en) 2020-06-12 2022-11-14 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド Structured document information marking method, structured document information marking device, electronic device, computer-readable storage medium, and computer program
US11687704B2 (en) 2020-06-12 2023-06-27 Beijing Baidu Netcom Science Technology Co., Ltd. Method, apparatus and electronic device for annotating information of structured document
KR102265947B1 (en) * 2020-11-23 2021-06-17 주식회사 엠로 Method and apparatus for providing information based on machine learning

Also Published As

Publication number Publication date
JP2020184109A (en) 2020-11-12
WO2020218512A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
JP6590355B1 (en) Learning model generation device, character recognition device, learning model generation method, character recognition method, and program
CN103577818B (en) A kind of method and apparatus of pictograph identification
JP4533273B2 (en) Image processing apparatus, image processing method, and program
US8015203B2 (en) Document recognizing apparatus and method
US8418050B2 (en) Computer readable recording medium on which form data extracting program is recorded, form data extracting apparatus, and form data extracting method
CN107679024B (en) Method, system, computer device and readable storage medium for identifying table
JP2018124656A (en) Image processing apparatus, control method thereof and program
US9286526B1 (en) Cohort-based learning from user edits
JP2010510563A (en) Automatic generation of form definitions from hardcopy forms
CN110222330B (en) Semantic recognition method and device, storage medium and computer equipment
JPH08305803A (en) Operating method of learning machine of character template set
JP2010055142A (en) Document processing apparatus and program
CN112434690A (en) Method, system and storage medium for automatically capturing and understanding elements of dynamically analyzing text image characteristic phenomena
CN111753120A (en) Method and device for searching questions, electronic equipment and storage medium
CN111276149A (en) Voice recognition method, device, equipment and readable storage medium
CN108121987B (en) Information processing method and electronic equipment
CN115131804A (en) Document identification method and device, electronic equipment and computer readable storage medium
CN110968584B (en) Portrait generation system, method, electronic device and readable storage medium
JP2008282094A (en) Character recognition processing apparatus
JP7171100B1 (en) A patent document creation support device, a patent document creation support method, and a patent document creation support program.
JP2020030648A (en) File management device, file management method, and program
US11335108B2 (en) System and method to recognise characters from an image
CN114677700A (en) Identification method and device of identity, storage medium and electronic equipment
JP2003223610A (en) Character recognizing device and character recognizing method
JP6759955B2 (en) Place name extraction program, place name extraction device and place name extraction method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190613

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190613

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190708

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190910

R150 Certificate of patent or registration of utility model

Ref document number: 6590355

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D03

R157 Certificate of patent or utility model (correction)

Free format text: JAPANESE INTERMEDIATE CODE: R157

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250