JP2024020728A - Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program - Google Patents

Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program Download PDF

Info

Publication number
JP2024020728A
JP2024020728A JP2022123127A JP2022123127A JP2024020728A JP 2024020728 A JP2024020728 A JP 2024020728A JP 2022123127 A JP2022123127 A JP 2022123127A JP 2022123127 A JP2022123127 A JP 2022123127A JP 2024020728 A JP2024020728 A JP 2024020728A
Authority
JP
Japan
Prior art keywords
character string
string image
character
image
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022123127A
Other languages
Japanese (ja)
Inventor
達也 石井
Tatsuya Ishii
敏生 岡
Toshio Oka
光晟 河津
Kosei Kawazu
秀行 秋山
Hideyuki Akiyama
留次郎 大澤
Tomejiro Osawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Holdings Inc
Original Assignee
Toppan Holdings Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Holdings Inc filed Critical Toppan Holdings Inc
Priority to JP2022123127A priority Critical patent/JP2024020728A/en
Publication of JP2024020728A publication Critical patent/JP2024020728A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

To reduce the time required for identifying a position of a character in a character string image in a recognition target, the character being obtained as a result of character recognition, in a text-sequence scheme.SOLUTION: A learning model learning system learns positions of a character string described in a character string image and a partial character string including one or more characters in the character string image, in character string image recognition which recognizes characters from a character string image representing a character string. The learning model learning system includes a learning unit which generates a learning model by performing learning with a character string image including one character string including two or more partial character strings, the character string written on the character string image, and start and end positions of partial character strings in the character string image.SELECTED DRAWING: Figure 1

Description

本発明は、手書き文字列画像認識のための学習モデル学習装置、文字列画像位置予測装置、文字位置推定装置とその方法及びプログラムに関する。 The present invention relates to a learning model learning device, a character string image position prediction device, a character position estimation device, a method, and a program for handwritten character string image recognition.

従来、文字認識技術においては、1行の文字列が画像として含まれる文字列画像を認識するにあたって、1文字ごとの文字領域(文字枠)を認識し、その文字領域内の文字が何であるかを1文字ずつ認識していた。 Conventionally, in character recognition technology, when recognizing a character string image containing one line of character string as an image, the character area (character frame) of each character is recognized and the characters in that character area are identified. was recognized character by character.

特許文献1は、手書き文字列画像及び正解ラベルを含む学習データを生成し、上記手法を用いて機械学習認識器を構築する技術について開示されている。しかし、このような手法で機械学習認識器を構築する場合、学習データを作成する際に1文字ごとに文字枠を作成し、それぞれについて文字ラベル(文字コード)を付与するという作業が必要となり、学習データの作成負荷が高いという問題があった。 Patent Document 1 discloses a technique for generating learning data including a handwritten character string image and a correct label, and constructing a machine learning recognizer using the above method. However, when building a machine learning recognizer using this method, it is necessary to create a character frame for each character and assign a character label (character code) to each character when creating training data. There was a problem that the load of creating learning data was high.

一方、近年では1文字ずつに文字ラベルを付与して学習データを作成するのではなく、非特許文献1のように、行全体に対してテキストラベルを付与した学習データ(以下テキストシーケンスデータ)を用いて学習する技術(以下ではテキストシーケンス方式と呼ぶ)が広く採用されている。この手法では1文字ずつ枠を作成したり、文字ラベルを振ったりする作業が不要になるという利点がある。 On the other hand, in recent years, instead of creating learning data by adding a character label to each character, as in Non-Patent Document 1, learning data (hereinafter referred to as text sequence data) in which text labels are added to entire lines is created. A technique for learning using text sequences (hereinafter referred to as the text sequence method) has been widely adopted. This method has the advantage of eliminating the need to create frames for each character and assign character labels.

国際公開第2020/218512号International Publication No. 2020/218512

“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”, Baoguang Shi, Xiang Bai and Cong Yao School of Electronic Information and Communications Huazhong University of Science and Technology, Wuhan, China, 21 Jul 2015, arXiv“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”, Baoguang Shi, Xiang Bai and Cong Yao School of Electronic Information and Communications Huazhong University of Science and Technology, Wuhan, China, 21 Jul 2015, arXiv

しかしながら、前述のテキストシーケンス方式では、認識結果として得られた文字が、認識対象における文字列画像のどの位置にあるかを認識するまでに時間がかかるという問題がある。 However, the aforementioned text sequence method has a problem in that it takes time to recognize the position of a character obtained as a recognition result in a character string image to be recognized.

本発明は、このような状況に鑑みてなされたもので、テキストシーケンス方式であっても、文字認識結果として得られた文字が、認識対象における文字列画像のどの位置にあるかを把握するまでの時間を低減することができる学習モデル学習装置、文字列画像位置予測装置、文字位置推定装置とその方法及びプログラムを提供することにある。 The present invention was made in view of this situation, and even with the text sequence method, it is difficult to know where the character obtained as a result of character recognition is located in the character string image to be recognized. An object of the present invention is to provide a learning model learning device, a character string image position prediction device, a character position estimation device, a method thereof, and a program, which can reduce the time required for the learning model.

上述した課題を解決するために、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する学習モデル学習装置であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部を備えることを特徴とした学習モデル学習装置である。 In order to solve the above-mentioned problems, one aspect of the present invention provides a character string written in a character string image and a character string in the character string image in character string image recognition that recognizes characters from a character string image representing a character string. A learning model learning device that learns the position of a partial string containing one or more characters, comprising a character string image in which a single line of character strings containing two or more of the partial strings is written, and the character string. A learning model learning device comprising a learning unit that generates a learning model by learning using a character string written on an image and information on the start and end positions of each sub-character string in the character string image. It is.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する文字列画像位置予測装置であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部と、前記予測部の予測結果を出力する出力部、を備えることを特徴とした文字列画像位置予測装置である。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A character string image position prediction device that predicts the position of a sub-character string that is By inputting a character string image to be recognized into a learning model that is generated by learning using the character string and the starting and ending position information of each substring in the character string image, the character string A character string comprising: a prediction unit that obtains a character string included in an image and start and end position information in the character string image to be recognized; and an output unit that outputs a prediction result of the prediction unit. This is an image position prediction device.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する文字位置推定装置であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部と、前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部と、前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部と、を備えることを特徴とした文字位置推定装置である。 Further, one aspect of the present invention provides a character position for estimating the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string. The estimation device includes a character string image in which one line of character strings including two or more of the partial character strings is written, a character string written on the character string image, and each partial character in the character string image. The character string included in the character string image obtained by inputting the character string image to be recognized into a learning model generated by learning using the start and end position information of the string and the character The information on the starting and ending positions of the character string image to be recognized is acquired, and the acquired character is generated based on the same conditions as those for generating the partial character string from the character string written on the character string image. a dividing unit that divides a string into partial character strings; and an estimation unit that estimates a range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit. , and an output unit that outputs the range estimated by the estimation unit and the partial character strings obtained by the division unit included within the range, respectively.

また、本発明の一態様は、上述の学習モデル学習装置において、前記学習部によって学習される学習モデルは、テキストシーケンスデータを用いて深層学習によって学習されることを特徴とする。 Moreover, one aspect of the present invention is characterized in that, in the learning model learning device described above, the learning model learned by the learning unit is learned by deep learning using text sequence data.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する学習モデル学習方法であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成することを特徴とした学習モデル学習方法である。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A learning model learning method for learning the positions of partial character strings that are written on the character string image, the character string image having one line of character strings containing two or more of the partial character strings written on the character string image. This learning model learning method is characterized in that a learning model is generated by learning using information on the start and end positions of each partial character string in a character string and the character string image.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する文字列画像位置予測方法であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを予測結果として取得することを特徴とした文字列画像予測方法である。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A character string image position prediction method for predicting the position of a partial character string that is By inputting a character string image to be recognized into a learning model that is generated by learning using the character string and the starting and ending position information of each substring in the character string image, the character string This is a character string image prediction method characterized in that a character string included in an image and start and end position information in the character string image to be character recognized are acquired as prediction results.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する文字位置推定方法であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割し、前記分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定し、前記推定された範囲と、当該範囲内に含まれる前記分割された部分文字列とをそれぞれ出力する、ことを特徴とした文字位置推定方法である。 Further, one aspect of the present invention provides a character position for estimating the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string. The estimation method includes a character string image in which a single line of character strings containing two or more of the partial character strings is written, a character string written on the character string image, and each partial character in the character string image. The character string included in the character string image obtained by inputting the character string image to be recognized into a learning model generated by learning using the start and end position information of the string and the character The information on the starting and ending positions of the character string image to be recognized is acquired, and the acquired character is generated based on the same conditions as those for generating the partial character string from the character string written on the character string image. A string is divided into partial character strings, the range of the divided partial character strings in the character string image to be recognized that includes the divided partial character strings is estimated, and the range of the divided partial character strings and the corresponding This character position estimation method is characterized in that each of the divided partial character strings included within the range is output.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習するコンピュータに、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部として機能させるためのプログラムである。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A computer that learns the positions of partial character strings that are written is provided with a character string image in which one line of character strings containing two or more of the partial character strings is written, a character string written on the character string image, and the character mentioned above. This is a program that functions as a learning unit that generates a learning model by learning using information on the start and end positions of each partial character string in a string image.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測するコンピュータに、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部、前記予測部の予測結果を出力する出力部、として機能させるためのプログラムである。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A computer that predicts the position of a partial character string that is to be written is provided with a character string image in which a single line of character strings containing two or more of the partial character strings is written, a character string written on the character string image, and the character string described above. By inputting a character string image to be recognized into a learning model that is generated by learning using the starting and ending position information of each partial character string in a column image, the character string contained in the character string image and , a prediction unit that obtains start and end position information in a character string image to be recognized, and an output unit that outputs a prediction result of the prediction unit.

また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定するコンピュータに、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部、前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部、前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部、として機能させるためのプログラムである。 Further, one aspect of the present invention provides a computer that estimates the position of a partial character string of one or more characters obtained by performing character string image recognition that recognizes characters from a character string image representing a character string. , a character string image in which a single line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the start and end of each sub-character string in the above-mentioned character string image. A character string included in the character string image obtained by inputting a character string image to be recognized into a learning model generated by learning using position information, and the character string to be recognized. The starting and ending position information in the image is acquired, and a partial string is generated from the acquired character string based on the same conditions as those used to generate the partial string from the character string written on the character string image. a dividing section that divides the partial string into two parts, an estimation section that estimates the range of the divided partial string in the character string image to be character recognized that includes the partial string divided by the dividing section; This is a program for functioning as an output unit that outputs a range obtained by dividing the range and a partial character string included in the range obtained by the dividing unit.

以上説明したように、この発明によれば、テキストシーケンス方式であっても、文字認識結果として得られた文字が、認識対象における文字列画像のどの位置にあるかを把握するまでの時間を低減することができる。 As explained above, according to the present invention, even in the text sequence method, the time required to determine the position of a character obtained as a character recognition result in a character string image to be recognized is reduced. can do.

この発明の一実施形態による学習モデル学習システムSの構成を示す概略ブロック図である。1 is a schematic block diagram showing the configuration of a learning model learning system S according to an embodiment of the present invention. 文字列画像データベース101に記憶される学習データセットの一例を示す図である。3 is a diagram illustrating an example of a learning data set stored in a character string image database 101. FIG. 文字列画像上の部分文字列の始端・終端位置情報について説明する図である。FIG. 3 is a diagram illustrating starting and ending position information of a partial character string on a character string image. 本実施形態の深層学習モデル学習システムの動作例を示すフローチャートである。It is a flow chart showing an example of the operation of the deep learning model learning system of this embodiment. ディスプレイ4に表示される表示画面の一例を示す図である。3 is a diagram showing an example of a display screen displayed on a display 4. FIG.

以下、本発明の一実施形態による学習モデル学習システムについて図面を参照して説明する。図1は、この発明の一実施形態による学習モデル学習システムSの構成を示す概略ブロック図である。
学習モデル学習システムSは、深層学習モデル学習装置1、文字列画像予測装置2、文字位置推定装置3、ディスプレイ4を含む。
深層学習モデル学習装置1は、文字列画像データベース101、学習部102、学習モデル103、の各々を備えている。文字列画像予測装置2は、予測画像データベース201、予測部202、予測モデル203、出力部204の各々を備えている。文字位置推定装置3は、分割部301、推定部302、出力部303の各々を備えている。
Hereinafter, a learning model learning system according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of a learning model learning system S according to an embodiment of the present invention.
The learning model learning system S includes a deep learning model learning device 1, a character string image prediction device 2, a character position estimation device 3, and a display 4.
The deep learning model learning device 1 includes a character string image database 101, a learning section 102, and a learning model 103. The character string image prediction device 2 includes a predicted image database 201, a prediction section 202, a prediction model 203, and an output section 204. The character position estimating device 3 includes a dividing section 301, an estimating section 302, and an output section 303.

文字列画像データベース101は、1行の文字列画像とそれに対応するテキストシーケンスデータ、シーケンスデータが分割された部分文字列の始端・終端位置情報を含む学習データセットを複数記憶する。
図2は、文字列画像データベース101に記憶される学習データセットの一例を示す図である。
この例では、学習データセットには、文字列画像110と、テキストシーケンスデータ111と、位置情報112とが含まれる。
文字列画像110は少なくとも2文字以上の文字列が画像として表される画像である。文字列画像110は、例えば、手書き文字によって記述された文字列が含まれる画像である。文字列画像110には、手書き文字以外に、活字やワードプロセッサによって記述され印刷された文字が含まれていてもよい。文字列画像110は、文書をスキャナによって光学的に読み取り、文字認識処理(OCR(Optical Character Recognition)処理)が行われることで、読み取り対象の文書から抽出された1行分の記述内容を表す画像であってもよい。行は、縦書きであっても横書きであっても良い。この文書は、公的文書であってもよいし、契約書や、各種サービスの申し込み用紙であってもよい。
この手書き文字は、書き手によって独特の文字書体によって記載されていたり、旧字であったり、旧仮名遣いによって記載されている場合もある。また、手書き文字は、筆、鉛筆、ペンなどのような様々な筆記用具によって記載されている場合もある。そのため、文書を確認する担当者が、文字認識処理された結果として得られた文字列と、読み取り対象の文書に記載された文字列との対応関係が正しいかを確認する場合がある。この場合、旧字、旧仮名遣いによって記載されている文書である場合、旧字、旧仮名遣い等に関する知識が十分ではない担当者が対応関係を確認しようとすると、文字認識処理によって得られた文字が、文字列画像におけるどの部分に該当するかを把握するために時間がかかる場合がある。
The character string image database 101 stores a plurality of learning data sets including one line of character string images, corresponding text sequence data, and starting and ending position information of partial character strings into which the sequence data is divided.
FIG. 2 is a diagram showing an example of a learning data set stored in the character string image database 101.
In this example, the learning data set includes character string images 110, text sequence data 111, and position information 112.
The character string image 110 is an image in which a character string of at least two characters is represented as an image. The character string image 110 is, for example, an image that includes a character string written in handwritten characters. In addition to handwritten characters, the character string image 110 may include printed characters or characters written and printed using a word processor. The character string image 110 is an image representing the written content of one line extracted from the document to be read by optically reading the document with a scanner and performing character recognition processing (OCR (Optical Character Recognition) processing). It may be. The lines may be written vertically or horizontally. This document may be an official document, a contract, or an application form for various services.
These handwritten characters may be written in a unique font depending on the writer, or may be written in old characters, or may be written in old kana. Furthermore, handwritten characters may be written using various writing instruments such as brushes, pencils, pens, and the like. Therefore, the person in charge of checking the document may check whether the correspondence between the character string obtained as a result of character recognition processing and the character string written in the document to be read is correct. In this case, if the document is written in old characters and old kana, when a person in charge who does not have sufficient knowledge of old characters and old kana tries to check the correspondence, the characters obtained by character recognition processing , it may take time to figure out which part of the character string image it corresponds to.

テキストシーケンスデータ111は、文字列画像110について文字認識処理を行うことで得られた文字列であり、例えばテキストデータである。このテキストシーケンスデータ111は、文字列画像110に対する正解ラベルとして、文字列画像110に付与される。
ここで、テキストシーケンスデータ111は、一定の分割条件に従い、部分文字列として分割されている。例えばテキストシーケンスデータによって表される文字列が住所と氏名を含む場合、都道府県から町字まで、番地以下、氏名などに分割され、文字列が文章の場合には形態素解析を行うことで、形態素に分割される。この分割条件は、予め決められている。
例えば、文字列画像110から得られたテキストシーケンスデータ111が「東京都文京区水道○丁目○番地○号 ○○印刷株式会社 ○○花子」であり、このテキストシーケンスデータ111が、「東京都文京区水道」である部分文字列111a、「○丁目○番地○号」である部分文字列111b、「○○印刷株式会社」である部分文字列111c、「○○花子」である部分文字列111dに分割されている。
The text sequence data 111 is a character string obtained by performing character recognition processing on the character string image 110, and is, for example, text data. This text sequence data 111 is given to the character string image 110 as a correct label for the character string image 110.
Here, the text sequence data 111 is divided into partial character strings according to certain division conditions. For example, if a character string represented by text sequence data includes an address and a name, it is divided into prefectures, town characters, street numbers, names, etc. If the character string is a sentence, morphological analysis is performed to divided into This division condition is determined in advance.
For example, the text sequence data 111 obtained from the character string image 110 is "○○ Hanako, Suido ○-chome, Bunkyo-ku, Tokyo, ○○ Printing Co., Ltd."; A partial character string 111a that is "Waterworks District", a partial character string 111b that is "○-chome ○ address ○", a partial character string 111c that is "○○ Printing Co., Ltd.", and a partial character string 111d that is "○○ Hanako". It is divided into

次に以下に始端・終端情報の例について説明する。
図3は、始端・終端位置情報の一例を表す図である。
始端・終端位置情報は、文字列画像が表す1行の先頭から末尾までの範囲のうち、部分文字列の表す文字列が画像として存在する領域の開始位置と終了位置を表す情報である。
文字列画像410は、文字列画像データベース101に登録されている文字列画像の一例である。文字列画像420は、この文字列画像410に対して始端・終端位置情報を表した場合の一例を示す。文字列画像420では、第1領域421、第2領域422、第3領域423、第4領域424のように、4つの領域が設定されている。各領域は隣接しており、領域の間には隙間が無いように設定されている。この場合における始端・終端位置情報は、文字列画像410の左端(文字列の先頭側)を基準として、各領域の境界の座標が、部分文字列の始端・終端位置情報を示す。
例えば、文字列画像420の始端の座標はP1、終端の座標は位置P5である。
第1領域421の始端の座標は位置P1、終端の座標は位置P2である。
第2領域422の始端の座標は位置P2、終端の座標は位置P3である。
第3領域423の始端の座標は位置P3、終端の座標は位置P4である。
第4領域424の始端の座標は位置P4、終端の座標は位置P5である。
ここでは、文字列画像410が、横書きの画像であるため、文字列画像410の左端を基準としたが、縦書きの画像の場合には上端を基準にしてもよい。
Next, an example of start end/end end information will be explained below.
FIG. 3 is a diagram showing an example of start end/end end position information.
The start/end position information is information representing the start position and end position of the area where the character string represented by the partial character string exists as an image, within the range from the beginning to the end of one line represented by the character string image.
The character string image 410 is an example of a character string image registered in the character string image database 101. The character string image 420 shows an example of the case where starting and ending position information is expressed for the character string image 410. In the character string image 420, four areas are set, such as a first area 421, a second area 422, a third area 423, and a fourth area 424. Each region is adjacent to each other, and the settings are such that there are no gaps between the regions. In this case, the coordinates of the boundary of each region indicate the start and end position information of the partial character string, with the left end of the character string image 410 (the beginning of the character string) as a reference.
For example, the coordinates of the starting end of the character string image 420 are P1, and the coordinates of the ending end are position P5.
The coordinates of the starting end of the first region 421 are position P1, and the coordinates of the ending end are position P2.
The coordinates of the starting end of the second region 422 are position P2, and the coordinates of the ending end are position P3.
The coordinates of the starting end of the third region 423 are position P3, and the coordinates of the ending end are position P4.
The coordinates of the starting end of the fourth region 424 are position P4, and the coordinates of the ending end are position P5.
Here, since the character string image 410 is a horizontally written image, the left end of the character string image 410 is used as a reference, but in the case of a vertically written image, the upper end may be used as a reference.

また、前記の例以外の始端・終端位置情報の例として文字列画像430を示す。文字列画像430において記述された内容は、文字列画像410と同じであるが、始端・終端位置情報の設定の仕方が異なる。
文字列画像430では、第5領域431、第6領域432、第7領域433、第8領域434のように、4つの領域が設定されているが、文字列画像430の画像全体に隙間なく設定されているのではなく、部分文字列間の空白となっている領域については部分文字列領域に含めず、各部分文字列に該当する部分に応じて領域が設定されている。
例えば、文字列画像430の始端の座標はP10、終端の座標は位置P50である。
第5領域431の始端の座標は位置P11、終端の座標は位置P12である。文字列画像430の始端と第5領域431の始端との間には隙間がある。
第6領域432の始端の座標は位置P21、終端の座標は位置P22である。第5領域431の終端と第6領域432の始端との間には隙間がある。
第7領域433の始端の座標は位置P31、終端の座標は位置P32である。第6領域432の終端と第7領域433の始端との間には隙間がある。
第8領域434の始端の座標は位置P41、終端の座標は位置P42である。第7領域433の終端と第8領域434の始端との間には隙間がある。
また、第8領域434の終端と文字列画像430の終端との間には隙間がある。
Further, a character string image 430 is shown as an example of start/end position information other than the above example. The contents described in the character string image 430 are the same as those in the character string image 410, but the way of setting the start and end position information is different.
In the character string image 430, four areas are set, such as a fifth area 431, a sixth area 432, a seventh area 433, and an eighth area 434, but they are set in the entire image of the character string image 430 without any gaps. Instead, blank areas between partial character strings are not included in the partial character string area, and areas are set according to the portions corresponding to each partial character string.
For example, the coordinates of the starting end of the character string image 430 are P10, and the coordinates of the ending end are position P50.
The coordinates of the starting end of the fifth region 431 are position P11, and the coordinates of the ending end are position P12. There is a gap between the starting end of the character string image 430 and the starting end of the fifth area 431.
The coordinates of the starting end of the sixth region 432 are position P21, and the coordinates of the ending end are position P22. There is a gap between the end of the fifth region 431 and the start of the sixth region 432.
The coordinates of the starting end of the seventh region 433 are position P31, and the coordinates of the ending end are position P32. There is a gap between the end of the sixth region 432 and the beginning of the seventh region 433.
The coordinates of the starting end of the eighth region 434 are position P41, and the coordinates of the ending end are position P42. There is a gap between the end of the seventh region 433 and the start of the eighth region 434.
Further, there is a gap between the end of the eighth area 434 and the end of the character string image 430.

ここで図2では、文字列画像110において、位置Pa、位置Pb、位置PC、位置Pdが定められている。このような位置は、学習データセットが作成される際に、作成担当者がマウス、キーボード、タッチパネル等の入力装置を介して位置を指定することで設定されてもよい。
テキストシーケンスデータ111のうち、部分文字列111aについて、始端の座標が位置Paであり、終端の座標が位置Pbである。部分文字列111bについて、始端の座標が位置Pbであり、終端の座標が位置Pcである。部分文字列111cについて、始端の座標が位置Pcであり、終端の座標が位置Pdである。部分文字列111dについて、始端の座標が位置Pdであり、終端の座標が位置Peである。
各部分文字列と始端・終端位置情報との組み合わせは、上述の作成担当者によって入力装置を介して指定されることで設定されてもよい。
また、文字列画像110において、位置Paと位置Pbとの間の領域110a、位置Pbと位置Pcとの間の領域110b、位置Pcと位置Pdとの間の領域110c、位置Pdと位置Peとの間の領域110dの4つの領域が、文字列画像110の先頭から順に並び、部分文字列111a、部分文字列111b、部分文字列111c、部分文字列111dについても、テキストシーケンスデータの先頭から順に並ぶため、これらの並び順に従って、部分文字列と領域との対応関係が定まるようになっていてもよい。
Here, in FIG. 2, a position Pa, a position Pb, a position PC, and a position Pd are determined in the character string image 110. Such a position may be set by a person in charge of creating the learning data set by specifying the position via an input device such as a mouse, keyboard, or touch panel.
In the text sequence data 111, the coordinates of the starting end of the partial character string 111a are the position Pa, and the coordinates of the ending end are the position Pb. Regarding the partial character string 111b, the coordinates of the starting end are position Pb, and the coordinates of the ending end are position Pc. Regarding the partial character string 111c, the coordinates of the starting end are position Pc, and the coordinates of the ending end are position Pd. Regarding the partial character string 111d, the coordinates of the starting end are position Pd, and the coordinates of the ending end are position Pe.
The combination of each partial character string and start/end position information may be set by being specified by the above-mentioned person in charge of creation via an input device.
In addition, in the character string image 110, an area 110a between positions Pa and Pb, an area 110b between positions Pb and Pc, an area 110c between positions Pc and Pd, and an area between positions Pd and Pe. The four areas 110d in between are arranged in order from the beginning of the character string image 110, and the partial character strings 111a, 111b, 111c, and 111d are also arranged in order from the beginning of the text sequence data. Therefore, the correspondence between partial character strings and areas may be determined according to the order in which they are arranged.

図1に戻り、学習部102は、学習モデル103を含む。学習部102は、文字列画像データベース101に登録された文字列画像データとテキストシーケンスデータ、各部分文字列の始端・終端位置情報を用いて、文字列画像と、部分文字列と、部分文字列が存在する文字列画像における領域との関係を学習することで、学習モデル103を生成する。学習部102が学習をする学習方式としては、例えば深層学習である。学習部102は、生成された学習モデル103を一時的に記憶し、文字列画像予測装置2に出力する。 Returning to FIG. 1, the learning unit 102 includes a learning model 103. The learning unit 102 uses the character string image data and text sequence data registered in the character string image database 101, and the start and end position information of each partial character string to generate character string images, partial character strings, and partial character strings. The learning model 103 is generated by learning the relationship with the region in the character string image where the character string image exists. The learning method used by the learning unit 102 is, for example, deep learning. The learning unit 102 temporarily stores the generated learning model 103 and outputs it to the character string image prediction device 2.

学習モデル103は、文字列画像と、文字列画像に書かれている文字列が何であるかと、部分文字列の始端・終端位置が文字列画像におけるどこであるかとの関係を学習したモデルである。 The learning model 103 is a model that has learned the relationship between a character string image, the character string written in the character string image, and where the starting and ending positions of a partial character string are in the character string image.

予測画像データベース201は、文字列画像データが登録されている。
予測画像データベース201に記憶される文字列画像データは、文字認識をする対象の文書を光学的に読み取ることで生成された画像から抽出された文字列画像である。
The predicted image database 201 has registered character string image data.
The character string image data stored in the predicted image database 201 is a character string image extracted from an image generated by optically reading a document to be subjected to character recognition.

予測部202は、予測モデル203を含む。
予測部202は、学習部102において生成された学習モデル103を深層学習モデル学習装置1から取得して記憶する。
予測部202は予測画像データベース201に登録されている文字列画像を予測モデル203に入力し、予測モデル203から出力される予測結果を出力部204に出力する。この予測結果は、文字列画像に応じた文字列(テキストシーケンスデータ)と、文字列画像に対して定められた始端・終端位置情報とを含む。ここで得られるテキストシーケンスデータに、少なくとも2つ以上の部分文字列が含まれる場合には、始端・終端位置情報が複数組得られる。
The prediction unit 202 includes a prediction model 203.
The prediction unit 202 acquires the learning model 103 generated by the learning unit 102 from the deep learning model learning device 1 and stores it.
The prediction unit 202 inputs character string images registered in the predicted image database 201 to the prediction model 203, and outputs the prediction result output from the prediction model 203 to the output unit 204. This prediction result includes a character string (text sequence data) corresponding to the character string image and start and end position information determined for the character string image. If the text sequence data obtained here includes at least two or more partial character strings, multiple sets of start/end position information are obtained.

予測モデル203は、深層学習モデル学習装置1で学習された学習モデル103であり、文字列画像を入力として受け取り、文字列と始端・終端位置情報を出力する。 The prediction model 203 is a learning model 103 trained by the deep learning model learning device 1, receives a character string image as input, and outputs a character string and start/end position information.

出力部204は、予測画像データベース201から画像が入力された予測モデル203の出力(文字列と始端・終端位置情報)を受け取り、文字位置推定装置3に出力するとともに、ディスプレイ4に出力する。ディスプレイ4は、文字列と始端・終端位置情報を表示する。ここで出力部204は、予測モデル203の出力だけでなく、予測モデル203に入力された文字列画像についてもディスプレイ4に出力してもよい。この場合、ディスプレイ4は、文字列画像と、文字列と、始端・終端位置情報とを表示することができる。 The output unit 204 receives the output (character string and start/end position information) of the prediction model 203 into which an image is input from the prediction image database 201 and outputs it to the character position estimation device 3 and the display 4 . The display 4 displays the character string and starting and ending position information. Here, the output unit 204 may output not only the output of the prediction model 203 but also the character string image input to the prediction model 203 to the display 4. In this case, the display 4 can display a character string image, a character string, and start/end position information.

分割部301は、予測モデル203から得られる予測結果(文字列と始端・終端位置情報)を出力部204から受け取る。分割部301は、文字列画像データベース101に登録されている文字列に対応するテキストシーケンスデータから部分文字列を得る際に用いられた分割条件と同じ分割条件に基づいて、出力部204から得られた文字列(テキストシーケンスデータ)を部分文字列に分割する。 The dividing unit 301 receives the prediction result (character string and start/end position information) obtained from the prediction model 203 from the output unit 204 . The dividing unit 301 generates partial character strings obtained from the output unit 204 based on the same dividing conditions as those used when obtaining partial character strings from text sequence data corresponding to character strings registered in the character string image database 101. Divide a string (text sequence data) into substrings.

推定部302は、出力部204から予測結果として得られた始端・終端位置情報と、分割部301によって分割された各部分文字列とを入力し、文字列画像における、各部分文字列に対応する始端・終端位置を推定する。 The estimation unit 302 inputs the start/end position information obtained as a prediction result from the output unit 204 and each partial character string divided by the dividing unit 301, and calculates a value corresponding to each partial character string in the character string image. Estimate the start and end positions.

出力部303は、推定部302で推定された各部分文字列と、当該各部分文字列に対応する始端・終端位置を受け取り、ディスプレイ4に出力して表示させる。 The output unit 303 receives each partial character string estimated by the estimating unit 302 and the start and end positions corresponding to each partial character string, and outputs and displays them on the display 4.

上述の深層学習モデル学習装置1、文字列画像予測装置2、文字位置推定装置3は、それぞれコンピュータである。学習部102、予測部202、出力部204、分割部301、推定部302、出力部303は、例えばCPU(中央処理装置)等の処理装置若しくは専用の電子回路で構成されてよい。 The above-described deep learning model learning device 1, character string image prediction device 2, and character position estimation device 3 are each computers. The learning unit 102, the prediction unit 202, the output unit 204, the division unit 301, the estimation unit 302, and the output unit 303 may be configured with a processing device such as a CPU (central processing unit) or a dedicated electronic circuit, for example.

文字列画像データベース101、予測画像データベース201は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、またはこれらの記憶媒体の任意の組み合わせによって構成される。
文字列画像データベース101、予測画像データベース201は、例えば、不揮発性メモリを用いることができる。
The character string image database 101 and the predicted image database 201 are stored in a storage medium such as an HDD (Hard Disk Drive), a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), or a RAM (Random Access). read/write Memory), ROM (Read Only Memory), or any combination of these storage media.
For example, nonvolatile memory can be used for the character string image database 101 and the predicted image database 201.

次に、図4は、本実施形態の深層学習モデル学習システムの動作例を示すフローチャートである。
〈ステップS1〉
学習部102は、文字列画像データベース101に記憶された文字列画像、テキストシーケンスデータ、始端・終端位置情報を学習データセットとして入力して学習することで、学習モデル103を生成する。
Next, FIG. 4 is a flowchart showing an example of the operation of the deep learning model learning system of this embodiment.
<Step S1>
The learning unit 102 generates a learning model 103 by learning by inputting character string images, text sequence data, and start/end position information stored in the character string image database 101 as a learning data set.

〈ステップS2〉
予測部202は、ステップS1において生成された学習モデル103を深層学習モデル学習装置1から受け取り、予測モデル203とする。予測部202は、この予測モデル203を用い、予測画像データベース201から選択した文字列画像を予測モデル203に入力することで、予測結果(テキストシーケンスデータと、文字列画像に対して定められた始端・終端位置情報)を出力部204に渡す。
出力部204は、予測結果を文字位置推定装置3に出力する。
<Step S2>
The prediction unit 202 receives the learning model 103 generated in step S1 from the deep learning model learning device 1, and uses it as a prediction model 203. Using this prediction model 203, the prediction unit 202 inputs the character string image selected from the predicted image database 201 into the prediction model 203, thereby generating a prediction result (text sequence data and a starting point determined for the character string image).・Terminal position information) is passed to the output unit 204.
The output unit 204 outputs the prediction result to the character position estimation device 3.

〈ステップS3〉
分割部301は、ステップS2において出力部204から受け取ったテキストシーケンスデータを、分割条件に基づいて分割することによって、部分文字列に分割する。
<Step S3>
The dividing unit 301 divides the text sequence data received from the output unit 204 in step S2 into partial character strings by dividing it based on division conditions.

〈ステップS4〉
推定部302は、ステップS2において出力部204から受け取った始端・終端位置情報と、分割部301によって分割された部分文字列を用い、各部分文字列がいずれの始端・終端位置情報に対応するかを推定する。
<Step S4>
The estimation unit 302 uses the start/end position information received from the output unit 204 in step S2 and the partial strings divided by the dividing unit 301 to determine which start/end position information each partial string corresponds to. Estimate.

〈ステップS5〉
出力部303は、ステップS2において予測された文字列全体(テキストシーケンスデータ)とステップS4において推定された各部分文字列と当該各部分文字列に対応する位置情報とをディスプレイ4に出力する。
<Step S5>
The output unit 303 outputs the entire character string (text sequence data) predicted in step S2, each partial character string estimated in step S4, and position information corresponding to each partial character string to the display 4.

図5は、ディスプレイ4に表示される表示画面の一例を示す図である。この表示画面500は、文字位置推定装置3の出力部303から出力される表示画面の一例である。
画面の上側には、文字認識対象の文字列画像510が表示される。画面の下側には、文字列画像510を文字認識処理することで得られたテキストシーケンスデータ520が表示される。
テキストシーケンスデータを確認する担当者は、入力装置を用いて操作入力することで、テキストシーケンスデータ520のうち、確認したい対象の文字に対して操作子511の位置を合わせる。文字位置推定装置3は、操作子511の位置にある文字が属する領域を、当該文字が属する部分文字列の始端・終端位置情報に基づいて特定する。そして、文字位置推定装置3は、文字列画像510のうち、特定された領域を他の領域とは異なる表示態様で表示する。ここでは例えば、文字列画像510に対し、当該文字列画像510を視認可能に透過させるようにして、特定された領域に対して任意の色(例えば赤、黄色、緑等のうちいずれか)を重ねて表示する。これにより担当者は、テキストシーケンスデータにおいて確認したい文字を操作子511によって指し示すことで、その文字が属する文字列画像の範囲を把握することができる。これにより、担当者は、文字列画像ではなく、その範囲に絞って確認をすればすむため、確認時間が長引かないようにすることができる。
FIG. 5 is a diagram showing an example of a display screen displayed on the display 4. As shown in FIG. This display screen 500 is an example of a display screen output from the output unit 303 of the character position estimation device 3.
A character string image 510 to be character recognized is displayed on the upper side of the screen. At the bottom of the screen, text sequence data 520 obtained by subjecting the character string image 510 to character recognition processing is displayed.
The person in charge of checking the text sequence data aligns the position of the operator 511 with the character to be checked in the text sequence data 520 by inputting an operation using an input device. The character position estimating device 3 identifies the area to which the character located at the position of the operator 511 belongs based on the start and end position information of the partial character string to which the character belongs. Then, the character position estimation device 3 displays the specified region in the character string image 510 in a display mode different from that of other regions. Here, for example, the character string image 510 is made transparent so that the character string image 510 can be visually recognized, and an arbitrary color (for example, any one of red, yellow, green, etc.) is applied to the specified area. Display overlapping. As a result, the person in charge can grasp the range of the character string image to which the character belongs by pointing to the character to be confirmed in the text sequence data using the operator 511. This allows the person in charge to check only that range rather than the character string image, so the checking time can be prevented from taking too long.

上述した実施形態によれば、文字列画像に対して1文字ごとに枠や文字ラベルを作成するのではなく、文字列画像を、1文字以上の部分文字列2つ以上に分割したのち、その部分文字列に対しての始端・終端位置情報、及びテキストシーケンスデータを用いて機械学習認識器を学習し、その機械学習認識器を用いて文字列画像上の文字列及び部分文字列の位置(始端・終端位置)を推定することで、1文字ごとに枠やラベルを作成するより手間を省き、かつ認識時には部分文字列における各文字について、文字列画像における大まかな位置(領域)を推定することができる。そのため、例えば、テキストシーケンスデータを確認する担当者は、テキストシーケンスデータに属する部分文字列あるいは1つの文字が、文字列画像におけるどのブロックに存在するかを速やかに把握することができ、確認作業時間が長引くことを低減することができる。 According to the embodiment described above, instead of creating a frame or a character label for each character in a character string image, the character string image is divided into two or more substrings of one or more characters, and then A machine learning recognizer is trained using the start and end position information for substrings and text sequence data, and the machine learning recognizer is used to determine the position of character strings and substrings on character string images ( By estimating the starting and ending positions), it saves time compared to creating a frame or label for each character, and during recognition, the rough position (area) of each character in a partial string can be estimated in the character string image. be able to. Therefore, for example, a person in charge of checking text sequence data can quickly understand in which block in a character string image a partial character string or a single character belonging to the text sequence data exists, which saves time on checking. This can reduce the prolongation of the problem.

なお、上述した深層学習モデル学習装置1は、学習モデル学習装置の一例である。
学習モデル学習装置は、文字列を表す画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する。
学習モデル学習装置は、部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部を有する。この学習部の一例は、学習部102である。
Note that the deep learning model learning device 1 described above is an example of a learning model learning device.
The learning model learning device performs character string image recognition that recognizes characters from images representing character strings, and recognizes character strings written in character string images and partial character strings that include one or more characters in the character string image. Learn location.
The learning model learning device uses a character string image in which a single line of character strings containing two or more partial character strings is written, a character string written on the character string image, and each partial character string in the character string image. It has a learning section that generates a learning model by learning using the starting and ending position information. An example of this learning section is the learning section 102.

また、上述した文字列画像予測装置2は、文字列画像位置予測装置の一例である。
文字列画像位置予測装置は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する。
文字列画像位置予測装置は、部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部と、前記予測部の予測結果を出力する出力部、を備える。この予測部の一例は、予測部202であり、出力部の一例は、出力部204である。
Furthermore, the above-described character string image prediction device 2 is an example of a character string image position prediction device.
The character string image position prediction device performs character string image recognition that recognizes characters from a character string image representing a character string, and includes a character string written in the character string image and one or more characters in the character string image. Predict the position of a substring.
The character string image position prediction device detects a character string image in which a single line of character strings containing two or more partial character strings is written, a character string written on the character string image, and each part in the character string image. By inputting a character string image to be recognized into a learning model generated by learning using the starting and ending position information of a character string, the character string included in the character string image and the character recognition target can be input. A prediction unit that obtains start and end position information in a character string image, and an output unit that outputs a prediction result of the prediction unit. An example of this prediction unit is the prediction unit 202, and an example of the output unit is the output unit 204.

また、上述した文字位置推定装置3は、文字位置推定装置の一例である。
文字位置推定装置は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する。
文字位置推定装置は、部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部と、前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部と、前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部と、を備える。この分割部の一例は、分割部301であり、推定部の一例は、推定部302であり、出力部の一例は、出力部303である。
Further, the character position estimation device 3 described above is an example of a character position estimation device.
The character position estimation device estimates the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string.
The character position estimation device detects a character string image in which one line of character strings containing two or more partial character strings is written, a character string written on the character string image, and each partial character string in the character string image. The character string included in the character string image obtained by inputting a character string image to be recognized into a learning model generated by learning using the start and end position information of The obtained character string is obtained by acquiring start and end position information in the target character string image and generating the partial character string from the character string written on the character string image based on the same conditions as those used to generate the partial character string. a dividing unit that divides into partial character strings; an estimating unit that estimates the range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit; The apparatus further includes an output section that outputs the range estimated by the estimation section and the partial character strings obtained by the division section included within the range. An example of this dividing section is the dividing section 301, an example of the estimating section is the estimating section 302, and an example of the output section is the output section 303.

上述した実施形態における深層学習モデル学習装置1、文字列画像予測装置2、文字位置推定装置3を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。 The deep learning model learning device 1, character string image prediction device 2, and character position estimation device 3 in the embodiments described above may be realized by a computer. In that case, a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read into a computer system and executed. Note that the "computer system" herein includes hardware such as an OS and peripheral devices. Furthermore, the term "computer-readable recording medium" refers to portable media such as flexible disks, magneto-optical disks, ROMs, and CD-ROMs, and storage devices such as hard disks built into computer systems. Furthermore, a "computer-readable recording medium" refers to a storage medium that dynamically stores a program for a short period of time, such as a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It may also include a device that retains a program for a certain period of time, such as a volatile memory inside a computer system that is a server or client in that case. Further, the above-mentioned program may be one for realizing a part of the above-mentioned functions, or may be one that can realize the above-mentioned functions in combination with a program already recorded in the computer system. It may be realized using a programmable logic device such as an FPGA (Field Programmable Gate Array).

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described above in detail with reference to the drawings, the specific configuration is not limited to these embodiments, and includes designs within the scope of the gist of the present invention.

1…深層学習モデル学習装置,2…文字列画像予測装置,3…文字位置推定装置,4…ディスプレイ,101…文字列画像データベース,102…学習部,103…学習モデル,110…文字列画像,110a…領域,110b…領域,110c…領域,110d…領域,111…テキストシーケンスデータ,111a…部分文字列,111b…部分文字列
111c…部分文字列,111d…部分文字列,112…位置情報,201…予測画像データベース,202…予測部,203…予測モデル,204…出力部,301…分割部,302…推定部,303…出力部,410…文字列画像,420…文字列画像,421…第1領域,422…第2領域,423…第3領域,424…第4領域,430…文字列画像,431…第5領域,432…第6領域,433…第7領域,434…第8領域,500…表示画面,510…文字列画像,511…操作子,520…テキストシーケンスデータ,S…学習モデル学習システム
DESCRIPTION OF SYMBOLS 1... Deep learning model learning device, 2... Character string image prediction device, 3... Character position estimation device, 4... Display, 101... Character string image database, 102... Learning unit, 103... Learning model, 110... Character string image, 110a...area, 110b...area, 110c...area, 110d...area, 111...text sequence data, 111a...partial character string, 111b...partial character string 111c...partial character string, 111d...partial character string, 112...position information, 201... Predicted image database, 202... Prediction unit, 203... Prediction model, 204... Output unit, 301... Division unit, 302... Estimation unit, 303... Output unit, 410... Character string image, 420... Character string image, 421... 1st area, 422...2nd area, 423...3rd area, 424...4th area, 430...character string image, 431...5th area, 432...6th area, 433...7th area, 434...8th area Area, 500...Display screen, 510...Character string image, 511...Manipulator, 520...Text sequence data, S...Learning model learning system

Claims (10)

文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する学習モデル学習装置であって、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部
を備えることを特徴とした学習モデル学習装置。
In character string image recognition, which recognizes characters from a character string image representing a character string, the character string written in the character string image and the position of a partial character string containing one or more characters in the character string image are learned. A learning model learning device,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. A learning model learning device characterized by comprising a learning section that generates a learning model by learning using information.
文字列画像認識において文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する文字列画像位置予測装置であって、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部と、
前記予測部の予測結果を出力する出力部、
を備えることを特徴とした文字列画像位置予測装置。
A character string image position prediction device that predicts the position of a character string written in a character string image and a partial character string containing one or more characters in the character string image in character string image recognition,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. By inputting a character string image for character recognition into a learning model generated by learning using information, the character string included in the character string image and the starting point/point in the character string image for character recognition can be input. a prediction unit that obtains terminal position information;
an output unit that outputs the prediction result of the prediction unit;
A character string image position prediction device comprising:
文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する文字位置推定装置であって、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部と、
前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部と、
前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部と、
を備えることを特徴とした文字位置推定装置。
A character position estimation device that estimates the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. The character string included in the character string image and the character string image to be recognized, which are obtained by inputting the character string image to be recognized into a learning model generated by learning using information. , and convert the obtained character string into a partial string based on the same conditions as those used to generate the partial string from the character string written on the character string image. A dividing part to be divided,
an estimating unit that estimates a range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit;
an output unit that outputs a range estimated by the estimation unit and a partial character string obtained by the division unit included within the range;
A character position estimation device comprising:
前記学習部によって学習される学習モデルは、テキストシーケンスデータを用いて深層学習によって学習されることを特徴とする、
請求項1に記載の学習モデル学習装置。
The learning model learned by the learning unit is learned by deep learning using text sequence data,
The learning model learning device according to claim 1.
文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する学習モデル学習方法であって、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する
ことを特徴とした学習モデル学習方法。
In character string image recognition, which recognizes characters from a character string image representing a character string, the character string written in the character string image and the position of a partial character string containing one or more characters in the character string image are learned. A learning model learning method, comprising:
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. A learning model learning method characterized by generating a learning model by learning using information.
文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する文字列画像位置予測方法であって、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを予測結果として取得する
ことを特徴とした文字列画像予測方法。
Predicting the position of a character string written in a character string image and a partial character string containing one or more characters in the character string image in character string image recognition that recognizes characters from a character string image representing a character string. A method for predicting character string image position, the method comprising:
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. By inputting a character string image for character recognition into a learning model generated by learning using information, the character string included in the character string image and the starting point/point in the character string image for character recognition can be input. A character string image prediction method characterized by acquiring end position information as a prediction result.
文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する文字位置推定方法であって、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割し、
前記分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定し、
前記推定された範囲と、当該範囲内に含まれる前記分割された部分文字列とをそれぞれ出力する、
ことを特徴とした文字位置推定方法。
A character position estimation method for estimating the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string, the method comprising:
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. The character string included in the character string image and the character string image to be recognized, which are obtained by inputting the character string image to be recognized into a learning model generated by learning using information. , and convert the obtained character string into a partial string based on the same conditions as those used to generate the partial string from the character string written on the character string image. divide,
estimating the range of the divided partial character string in the character string image to be recognized, which includes the divided partial character string;
outputting the estimated range and the divided partial character strings included in the range, respectively;
A character position estimation method characterized by the following.
文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習するコンピュータに、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部
として機能させるためのプログラム。
In character string image recognition, which recognizes characters from a character string image representing a character string, the character string written in the character string image and the position of a partial character string containing one or more characters in the character string image are learned. to the computer,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. A program that functions as a learning section that generates a learning model by learning using information.
文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測するコンピュータに、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部、
前記予測部の予測結果を出力する出力部、
として機能させるためのプログラム。
Predicting the position of a character string written in a character string image and a partial character string containing one or more characters in the character string image in character string image recognition that recognizes characters from a character string image representing a character string. to the computer,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. By inputting a character string image to be recognized into a learning model that is generated by learning using information, the character string included in the character string image and the starting point/point in the character string image to be recognized are determined. a prediction unit that obtains terminal position information;
an output unit that outputs the prediction result of the prediction unit;
A program to function as
文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定するコンピュータに、
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部、
前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部、
前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部、
として機能させるためのプログラム。
A computer that estimates the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition that recognizes characters from a character string image representing a character string,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. The character string included in the character string image and the character string image to be recognized, which are obtained by inputting the character string image to be recognized into a learning model generated by learning using information. , and convert the obtained character string into a partial string based on the same conditions as those used to generate the partial string from the character string written on the character string image. The dividing part to be divided,
an estimating unit that estimates a range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit;
an output unit that outputs the range estimated by the estimation unit and the partial character strings obtained by the division unit included within the range;
A program to function as
JP2022123127A 2022-08-02 2022-08-02 Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program Pending JP2024020728A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022123127A JP2024020728A (en) 2022-08-02 2022-08-02 Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022123127A JP2024020728A (en) 2022-08-02 2022-08-02 Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program

Publications (1)

Publication Number Publication Date
JP2024020728A true JP2024020728A (en) 2024-02-15

Family

ID=89854070

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022123127A Pending JP2024020728A (en) 2022-08-02 2022-08-02 Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program

Country Status (1)

Country Link
JP (1) JP2024020728A (en)

Similar Documents

Publication Publication Date Title
RU2699687C1 (en) Detecting text fields using neural networks
US11481605B2 (en) 2D document extractor
JP4829920B2 (en) Form automatic embedding method and apparatus, graphical user interface apparatus
WO2020218512A1 (en) Learning model generating device, character recognition device, learning model generating method, character recognition method, and program
CN109902271B (en) Text data labeling method, device, terminal and medium based on transfer learning
RU2723293C1 (en) Identification of fields and tables in documents using neural networks using global document context
US20190294912A1 (en) Image processing device, image processing method, and image processing program
CN109344830A (en) Sentence output, model training method, device, computer equipment and storage medium
JP2004348714A (en) System and method for accommodative handwritten character recognition
CN111046659B (en) Context information generating method, context information generating device, and computer-readable recording medium
CN110598686A (en) Invoice identification method, system, electronic equipment and medium
CN111611988A (en) Picture verification code identification method and device, electronic equipment and computer readable medium
WO2024055864A1 (en) Training method and apparatus for implementing ia classification model using rpa and ai
JP7243409B2 (en) Information processing device and program
CN114092931B (en) Scene character recognition method and device, electronic equipment and storage medium
CN117351505A (en) Information code identification method, device, equipment and storage medium
US20200294410A1 (en) Methods, systems, apparatuses and devices for facilitating grading of handwritten sheets
JP2024020728A (en) Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program
CN114359928B (en) Electronic invoice identification method and device, computer equipment and storage medium
CN116030469A (en) Processing method, processing device, processing equipment and computer readable storage medium
CN109933788B (en) Type determining method, device, equipment and medium
CN113362026A (en) Text processing method and device
CN113052156A (en) Optical character recognition method, device, electronic equipment and storage medium
Rai et al. MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices
CN114937274B (en) Handwriting font erasing method, device, equipment and medium based on artificial intelligence