JP2024020728A - Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program - Google Patents
Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program Download PDFInfo
- Publication number
- JP2024020728A JP2024020728A JP2022123127A JP2022123127A JP2024020728A JP 2024020728 A JP2024020728 A JP 2024020728A JP 2022123127 A JP2022123127 A JP 2022123127A JP 2022123127 A JP2022123127 A JP 2022123127A JP 2024020728 A JP2024020728 A JP 2024020728A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- string image
- character
- image
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000006870 function Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 240000000220 Panda oleosa Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Character Discrimination (AREA)
Abstract
Description
本発明は、手書き文字列画像認識のための学習モデル学習装置、文字列画像位置予測装置、文字位置推定装置とその方法及びプログラムに関する。 The present invention relates to a learning model learning device, a character string image position prediction device, a character position estimation device, a method, and a program for handwritten character string image recognition.
従来、文字認識技術においては、1行の文字列が画像として含まれる文字列画像を認識するにあたって、1文字ごとの文字領域(文字枠)を認識し、その文字領域内の文字が何であるかを1文字ずつ認識していた。 Conventionally, in character recognition technology, when recognizing a character string image containing one line of character string as an image, the character area (character frame) of each character is recognized and the characters in that character area are identified. was recognized character by character.
特許文献1は、手書き文字列画像及び正解ラベルを含む学習データを生成し、上記手法を用いて機械学習認識器を構築する技術について開示されている。しかし、このような手法で機械学習認識器を構築する場合、学習データを作成する際に1文字ごとに文字枠を作成し、それぞれについて文字ラベル(文字コード)を付与するという作業が必要となり、学習データの作成負荷が高いという問題があった。 Patent Document 1 discloses a technique for generating learning data including a handwritten character string image and a correct label, and constructing a machine learning recognizer using the above method. However, when building a machine learning recognizer using this method, it is necessary to create a character frame for each character and assign a character label (character code) to each character when creating training data. There was a problem that the load of creating learning data was high.
一方、近年では1文字ずつに文字ラベルを付与して学習データを作成するのではなく、非特許文献1のように、行全体に対してテキストラベルを付与した学習データ(以下テキストシーケンスデータ)を用いて学習する技術(以下ではテキストシーケンス方式と呼ぶ)が広く採用されている。この手法では1文字ずつ枠を作成したり、文字ラベルを振ったりする作業が不要になるという利点がある。 On the other hand, in recent years, instead of creating learning data by adding a character label to each character, as in Non-Patent Document 1, learning data (hereinafter referred to as text sequence data) in which text labels are added to entire lines is created. A technique for learning using text sequences (hereinafter referred to as the text sequence method) has been widely adopted. This method has the advantage of eliminating the need to create frames for each character and assign character labels.
しかしながら、前述のテキストシーケンス方式では、認識結果として得られた文字が、認識対象における文字列画像のどの位置にあるかを認識するまでに時間がかかるという問題がある。 However, the aforementioned text sequence method has a problem in that it takes time to recognize the position of a character obtained as a recognition result in a character string image to be recognized.
本発明は、このような状況に鑑みてなされたもので、テキストシーケンス方式であっても、文字認識結果として得られた文字が、認識対象における文字列画像のどの位置にあるかを把握するまでの時間を低減することができる学習モデル学習装置、文字列画像位置予測装置、文字位置推定装置とその方法及びプログラムを提供することにある。 The present invention was made in view of this situation, and even with the text sequence method, it is difficult to know where the character obtained as a result of character recognition is located in the character string image to be recognized. An object of the present invention is to provide a learning model learning device, a character string image position prediction device, a character position estimation device, a method thereof, and a program, which can reduce the time required for the learning model.
上述した課題を解決するために、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する学習モデル学習装置であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部を備えることを特徴とした学習モデル学習装置である。 In order to solve the above-mentioned problems, one aspect of the present invention provides a character string written in a character string image and a character string in the character string image in character string image recognition that recognizes characters from a character string image representing a character string. A learning model learning device that learns the position of a partial string containing one or more characters, comprising a character string image in which a single line of character strings containing two or more of the partial strings is written, and the character string. A learning model learning device comprising a learning unit that generates a learning model by learning using a character string written on an image and information on the start and end positions of each sub-character string in the character string image. It is.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する文字列画像位置予測装置であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部と、前記予測部の予測結果を出力する出力部、を備えることを特徴とした文字列画像位置予測装置である。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A character string image position prediction device that predicts the position of a sub-character string that is By inputting a character string image to be recognized into a learning model that is generated by learning using the character string and the starting and ending position information of each substring in the character string image, the character string A character string comprising: a prediction unit that obtains a character string included in an image and start and end position information in the character string image to be recognized; and an output unit that outputs a prediction result of the prediction unit. This is an image position prediction device.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する文字位置推定装置であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部と、前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部と、前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部と、を備えることを特徴とした文字位置推定装置である。 Further, one aspect of the present invention provides a character position for estimating the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string. The estimation device includes a character string image in which one line of character strings including two or more of the partial character strings is written, a character string written on the character string image, and each partial character in the character string image. The character string included in the character string image obtained by inputting the character string image to be recognized into a learning model generated by learning using the start and end position information of the string and the character The information on the starting and ending positions of the character string image to be recognized is acquired, and the acquired character is generated based on the same conditions as those for generating the partial character string from the character string written on the character string image. a dividing unit that divides a string into partial character strings; and an estimation unit that estimates a range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit. , and an output unit that outputs the range estimated by the estimation unit and the partial character strings obtained by the division unit included within the range, respectively.
また、本発明の一態様は、上述の学習モデル学習装置において、前記学習部によって学習される学習モデルは、テキストシーケンスデータを用いて深層学習によって学習されることを特徴とする。 Moreover, one aspect of the present invention is characterized in that, in the learning model learning device described above, the learning model learned by the learning unit is learned by deep learning using text sequence data.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する学習モデル学習方法であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成することを特徴とした学習モデル学習方法である。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A learning model learning method for learning the positions of partial character strings that are written on the character string image, the character string image having one line of character strings containing two or more of the partial character strings written on the character string image. This learning model learning method is characterized in that a learning model is generated by learning using information on the start and end positions of each partial character string in a character string and the character string image.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する文字列画像位置予測方法であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを予測結果として取得することを特徴とした文字列画像予測方法である。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A character string image position prediction method for predicting the position of a partial character string that is By inputting a character string image to be recognized into a learning model that is generated by learning using the character string and the starting and ending position information of each substring in the character string image, the character string This is a character string image prediction method characterized in that a character string included in an image and start and end position information in the character string image to be character recognized are acquired as prediction results.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する文字位置推定方法であって、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割し、前記分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定し、前記推定された範囲と、当該範囲内に含まれる前記分割された部分文字列とをそれぞれ出力する、ことを特徴とした文字位置推定方法である。 Further, one aspect of the present invention provides a character position for estimating the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string. The estimation method includes a character string image in which a single line of character strings containing two or more of the partial character strings is written, a character string written on the character string image, and each partial character in the character string image. The character string included in the character string image obtained by inputting the character string image to be recognized into a learning model generated by learning using the start and end position information of the string and the character The information on the starting and ending positions of the character string image to be recognized is acquired, and the acquired character is generated based on the same conditions as those for generating the partial character string from the character string written on the character string image. A string is divided into partial character strings, the range of the divided partial character strings in the character string image to be recognized that includes the divided partial character strings is estimated, and the range of the divided partial character strings and the corresponding This character position estimation method is characterized in that each of the divided partial character strings included within the range is output.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習するコンピュータに、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部として機能させるためのプログラムである。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A computer that learns the positions of partial character strings that are written is provided with a character string image in which one line of character strings containing two or more of the partial character strings is written, a character string written on the character string image, and the character mentioned above. This is a program that functions as a learning unit that generates a learning model by learning using information on the start and end positions of each partial character string in a string image.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測するコンピュータに、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部、前記予測部の予測結果を出力する出力部、として機能させるためのプログラムである。 In addition, one aspect of the present invention provides character string image recognition that recognizes characters from a character string image representing a character string, including a character string written in the character string image and one or more characters in the character string image. A computer that predicts the position of a partial character string that is to be written is provided with a character string image in which a single line of character strings containing two or more of the partial character strings is written, a character string written on the character string image, and the character string described above. By inputting a character string image to be recognized into a learning model that is generated by learning using the starting and ending position information of each partial character string in a column image, the character string contained in the character string image and , a prediction unit that obtains start and end position information in a character string image to be recognized, and an output unit that outputs a prediction result of the prediction unit.
また、本発明の一態様は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定するコンピュータに、前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部、前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部、前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部、として機能させるためのプログラムである。 Further, one aspect of the present invention provides a computer that estimates the position of a partial character string of one or more characters obtained by performing character string image recognition that recognizes characters from a character string image representing a character string. , a character string image in which a single line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the start and end of each sub-character string in the above-mentioned character string image. A character string included in the character string image obtained by inputting a character string image to be recognized into a learning model generated by learning using position information, and the character string to be recognized. The starting and ending position information in the image is acquired, and a partial string is generated from the acquired character string based on the same conditions as those used to generate the partial string from the character string written on the character string image. a dividing section that divides the partial string into two parts, an estimation section that estimates the range of the divided partial string in the character string image to be character recognized that includes the partial string divided by the dividing section; This is a program for functioning as an output unit that outputs a range obtained by dividing the range and a partial character string included in the range obtained by the dividing unit.
以上説明したように、この発明によれば、テキストシーケンス方式であっても、文字認識結果として得られた文字が、認識対象における文字列画像のどの位置にあるかを把握するまでの時間を低減することができる。 As explained above, according to the present invention, even in the text sequence method, the time required to determine the position of a character obtained as a character recognition result in a character string image to be recognized is reduced. can do.
以下、本発明の一実施形態による学習モデル学習システムについて図面を参照して説明する。図1は、この発明の一実施形態による学習モデル学習システムSの構成を示す概略ブロック図である。
学習モデル学習システムSは、深層学習モデル学習装置1、文字列画像予測装置2、文字位置推定装置3、ディスプレイ4を含む。
深層学習モデル学習装置1は、文字列画像データベース101、学習部102、学習モデル103、の各々を備えている。文字列画像予測装置2は、予測画像データベース201、予測部202、予測モデル203、出力部204の各々を備えている。文字位置推定装置3は、分割部301、推定部302、出力部303の各々を備えている。
Hereinafter, a learning model learning system according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of a learning model learning system S according to an embodiment of the present invention.
The learning model learning system S includes a deep learning model learning device 1, a character string
The deep learning model learning device 1 includes a character
文字列画像データベース101は、1行の文字列画像とそれに対応するテキストシーケンスデータ、シーケンスデータが分割された部分文字列の始端・終端位置情報を含む学習データセットを複数記憶する。
図2は、文字列画像データベース101に記憶される学習データセットの一例を示す図である。
この例では、学習データセットには、文字列画像110と、テキストシーケンスデータ111と、位置情報112とが含まれる。
文字列画像110は少なくとも2文字以上の文字列が画像として表される画像である。文字列画像110は、例えば、手書き文字によって記述された文字列が含まれる画像である。文字列画像110には、手書き文字以外に、活字やワードプロセッサによって記述され印刷された文字が含まれていてもよい。文字列画像110は、文書をスキャナによって光学的に読み取り、文字認識処理(OCR(Optical Character Recognition)処理)が行われることで、読み取り対象の文書から抽出された1行分の記述内容を表す画像であってもよい。行は、縦書きであっても横書きであっても良い。この文書は、公的文書であってもよいし、契約書や、各種サービスの申し込み用紙であってもよい。
この手書き文字は、書き手によって独特の文字書体によって記載されていたり、旧字であったり、旧仮名遣いによって記載されている場合もある。また、手書き文字は、筆、鉛筆、ペンなどのような様々な筆記用具によって記載されている場合もある。そのため、文書を確認する担当者が、文字認識処理された結果として得られた文字列と、読み取り対象の文書に記載された文字列との対応関係が正しいかを確認する場合がある。この場合、旧字、旧仮名遣いによって記載されている文書である場合、旧字、旧仮名遣い等に関する知識が十分ではない担当者が対応関係を確認しようとすると、文字認識処理によって得られた文字が、文字列画像におけるどの部分に該当するかを把握するために時間がかかる場合がある。
The character
FIG. 2 is a diagram showing an example of a learning data set stored in the character
In this example, the learning data set includes
The
These handwritten characters may be written in a unique font depending on the writer, or may be written in old characters, or may be written in old kana. Furthermore, handwritten characters may be written using various writing instruments such as brushes, pencils, pens, and the like. Therefore, the person in charge of checking the document may check whether the correspondence between the character string obtained as a result of character recognition processing and the character string written in the document to be read is correct. In this case, if the document is written in old characters and old kana, when a person in charge who does not have sufficient knowledge of old characters and old kana tries to check the correspondence, the characters obtained by character recognition processing , it may take time to figure out which part of the character string image it corresponds to.
テキストシーケンスデータ111は、文字列画像110について文字認識処理を行うことで得られた文字列であり、例えばテキストデータである。このテキストシーケンスデータ111は、文字列画像110に対する正解ラベルとして、文字列画像110に付与される。
ここで、テキストシーケンスデータ111は、一定の分割条件に従い、部分文字列として分割されている。例えばテキストシーケンスデータによって表される文字列が住所と氏名を含む場合、都道府県から町字まで、番地以下、氏名などに分割され、文字列が文章の場合には形態素解析を行うことで、形態素に分割される。この分割条件は、予め決められている。
例えば、文字列画像110から得られたテキストシーケンスデータ111が「東京都文京区水道○丁目○番地○号 ○○印刷株式会社 ○○花子」であり、このテキストシーケンスデータ111が、「東京都文京区水道」である部分文字列111a、「○丁目○番地○号」である部分文字列111b、「○○印刷株式会社」である部分文字列111c、「○○花子」である部分文字列111dに分割されている。
The
Here, the
For example, the
次に以下に始端・終端情報の例について説明する。
図3は、始端・終端位置情報の一例を表す図である。
始端・終端位置情報は、文字列画像が表す1行の先頭から末尾までの範囲のうち、部分文字列の表す文字列が画像として存在する領域の開始位置と終了位置を表す情報である。
文字列画像410は、文字列画像データベース101に登録されている文字列画像の一例である。文字列画像420は、この文字列画像410に対して始端・終端位置情報を表した場合の一例を示す。文字列画像420では、第1領域421、第2領域422、第3領域423、第4領域424のように、4つの領域が設定されている。各領域は隣接しており、領域の間には隙間が無いように設定されている。この場合における始端・終端位置情報は、文字列画像410の左端(文字列の先頭側)を基準として、各領域の境界の座標が、部分文字列の始端・終端位置情報を示す。
例えば、文字列画像420の始端の座標はP1、終端の座標は位置P5である。
第1領域421の始端の座標は位置P1、終端の座標は位置P2である。
第2領域422の始端の座標は位置P2、終端の座標は位置P3である。
第3領域423の始端の座標は位置P3、終端の座標は位置P4である。
第4領域424の始端の座標は位置P4、終端の座標は位置P5である。
ここでは、文字列画像410が、横書きの画像であるため、文字列画像410の左端を基準としたが、縦書きの画像の場合には上端を基準にしてもよい。
Next, an example of start end/end end information will be explained below.
FIG. 3 is a diagram showing an example of start end/end end position information.
The start/end position information is information representing the start position and end position of the area where the character string represented by the partial character string exists as an image, within the range from the beginning to the end of one line represented by the character string image.
The
For example, the coordinates of the starting end of the character string image 420 are P1, and the coordinates of the ending end are position P5.
The coordinates of the starting end of the
The coordinates of the starting end of the
The coordinates of the starting end of the
The coordinates of the starting end of the
Here, since the
また、前記の例以外の始端・終端位置情報の例として文字列画像430を示す。文字列画像430において記述された内容は、文字列画像410と同じであるが、始端・終端位置情報の設定の仕方が異なる。
文字列画像430では、第5領域431、第6領域432、第7領域433、第8領域434のように、4つの領域が設定されているが、文字列画像430の画像全体に隙間なく設定されているのではなく、部分文字列間の空白となっている領域については部分文字列領域に含めず、各部分文字列に該当する部分に応じて領域が設定されている。
例えば、文字列画像430の始端の座標はP10、終端の座標は位置P50である。
第5領域431の始端の座標は位置P11、終端の座標は位置P12である。文字列画像430の始端と第5領域431の始端との間には隙間がある。
第6領域432の始端の座標は位置P21、終端の座標は位置P22である。第5領域431の終端と第6領域432の始端との間には隙間がある。
第7領域433の始端の座標は位置P31、終端の座標は位置P32である。第6領域432の終端と第7領域433の始端との間には隙間がある。
第8領域434の始端の座標は位置P41、終端の座標は位置P42である。第7領域433の終端と第8領域434の始端との間には隙間がある。
また、第8領域434の終端と文字列画像430の終端との間には隙間がある。
Further, a
In the
For example, the coordinates of the starting end of the
The coordinates of the starting end of the
The coordinates of the starting end of the
The coordinates of the starting end of the
The coordinates of the starting end of the
Further, there is a gap between the end of the
ここで図2では、文字列画像110において、位置Pa、位置Pb、位置PC、位置Pdが定められている。このような位置は、学習データセットが作成される際に、作成担当者がマウス、キーボード、タッチパネル等の入力装置を介して位置を指定することで設定されてもよい。
テキストシーケンスデータ111のうち、部分文字列111aについて、始端の座標が位置Paであり、終端の座標が位置Pbである。部分文字列111bについて、始端の座標が位置Pbであり、終端の座標が位置Pcである。部分文字列111cについて、始端の座標が位置Pcであり、終端の座標が位置Pdである。部分文字列111dについて、始端の座標が位置Pdであり、終端の座標が位置Peである。
各部分文字列と始端・終端位置情報との組み合わせは、上述の作成担当者によって入力装置を介して指定されることで設定されてもよい。
また、文字列画像110において、位置Paと位置Pbとの間の領域110a、位置Pbと位置Pcとの間の領域110b、位置Pcと位置Pdとの間の領域110c、位置Pdと位置Peとの間の領域110dの4つの領域が、文字列画像110の先頭から順に並び、部分文字列111a、部分文字列111b、部分文字列111c、部分文字列111dについても、テキストシーケンスデータの先頭から順に並ぶため、これらの並び順に従って、部分文字列と領域との対応関係が定まるようになっていてもよい。
Here, in FIG. 2, a position Pa, a position Pb, a position PC, and a position Pd are determined in the
In the
The combination of each partial character string and start/end position information may be set by being specified by the above-mentioned person in charge of creation via an input device.
In addition, in the
図1に戻り、学習部102は、学習モデル103を含む。学習部102は、文字列画像データベース101に登録された文字列画像データとテキストシーケンスデータ、各部分文字列の始端・終端位置情報を用いて、文字列画像と、部分文字列と、部分文字列が存在する文字列画像における領域との関係を学習することで、学習モデル103を生成する。学習部102が学習をする学習方式としては、例えば深層学習である。学習部102は、生成された学習モデル103を一時的に記憶し、文字列画像予測装置2に出力する。
Returning to FIG. 1, the
学習モデル103は、文字列画像と、文字列画像に書かれている文字列が何であるかと、部分文字列の始端・終端位置が文字列画像におけるどこであるかとの関係を学習したモデルである。
The
予測画像データベース201は、文字列画像データが登録されている。
予測画像データベース201に記憶される文字列画像データは、文字認識をする対象の文書を光学的に読み取ることで生成された画像から抽出された文字列画像である。
The predicted
The character string image data stored in the predicted
予測部202は、予測モデル203を含む。
予測部202は、学習部102において生成された学習モデル103を深層学習モデル学習装置1から取得して記憶する。
予測部202は予測画像データベース201に登録されている文字列画像を予測モデル203に入力し、予測モデル203から出力される予測結果を出力部204に出力する。この予測結果は、文字列画像に応じた文字列(テキストシーケンスデータ)と、文字列画像に対して定められた始端・終端位置情報とを含む。ここで得られるテキストシーケンスデータに、少なくとも2つ以上の部分文字列が含まれる場合には、始端・終端位置情報が複数組得られる。
The prediction unit 202 includes a
The prediction unit 202 acquires the
The prediction unit 202 inputs character string images registered in the predicted
予測モデル203は、深層学習モデル学習装置1で学習された学習モデル103であり、文字列画像を入力として受け取り、文字列と始端・終端位置情報を出力する。
The
出力部204は、予測画像データベース201から画像が入力された予測モデル203の出力(文字列と始端・終端位置情報)を受け取り、文字位置推定装置3に出力するとともに、ディスプレイ4に出力する。ディスプレイ4は、文字列と始端・終端位置情報を表示する。ここで出力部204は、予測モデル203の出力だけでなく、予測モデル203に入力された文字列画像についてもディスプレイ4に出力してもよい。この場合、ディスプレイ4は、文字列画像と、文字列と、始端・終端位置情報とを表示することができる。
The
分割部301は、予測モデル203から得られる予測結果(文字列と始端・終端位置情報)を出力部204から受け取る。分割部301は、文字列画像データベース101に登録されている文字列に対応するテキストシーケンスデータから部分文字列を得る際に用いられた分割条件と同じ分割条件に基づいて、出力部204から得られた文字列(テキストシーケンスデータ)を部分文字列に分割する。
The dividing
推定部302は、出力部204から予測結果として得られた始端・終端位置情報と、分割部301によって分割された各部分文字列とを入力し、文字列画像における、各部分文字列に対応する始端・終端位置を推定する。
The
出力部303は、推定部302で推定された各部分文字列と、当該各部分文字列に対応する始端・終端位置を受け取り、ディスプレイ4に出力して表示させる。
The
上述の深層学習モデル学習装置1、文字列画像予測装置2、文字位置推定装置3は、それぞれコンピュータである。学習部102、予測部202、出力部204、分割部301、推定部302、出力部303は、例えばCPU(中央処理装置)等の処理装置若しくは専用の電子回路で構成されてよい。
The above-described deep learning model learning device 1, character string
文字列画像データベース101、予測画像データベース201は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、またはこれらの記憶媒体の任意の組み合わせによって構成される。
文字列画像データベース101、予測画像データベース201は、例えば、不揮発性メモリを用いることができる。
The character
For example, nonvolatile memory can be used for the character
次に、図4は、本実施形態の深層学習モデル学習システムの動作例を示すフローチャートである。
〈ステップS1〉
学習部102は、文字列画像データベース101に記憶された文字列画像、テキストシーケンスデータ、始端・終端位置情報を学習データセットとして入力して学習することで、学習モデル103を生成する。
Next, FIG. 4 is a flowchart showing an example of the operation of the deep learning model learning system of this embodiment.
<Step S1>
The
〈ステップS2〉
予測部202は、ステップS1において生成された学習モデル103を深層学習モデル学習装置1から受け取り、予測モデル203とする。予測部202は、この予測モデル203を用い、予測画像データベース201から選択した文字列画像を予測モデル203に入力することで、予測結果(テキストシーケンスデータと、文字列画像に対して定められた始端・終端位置情報)を出力部204に渡す。
出力部204は、予測結果を文字位置推定装置3に出力する。
<Step S2>
The prediction unit 202 receives the
The
〈ステップS3〉
分割部301は、ステップS2において出力部204から受け取ったテキストシーケンスデータを、分割条件に基づいて分割することによって、部分文字列に分割する。
<Step S3>
The dividing
〈ステップS4〉
推定部302は、ステップS2において出力部204から受け取った始端・終端位置情報と、分割部301によって分割された部分文字列を用い、各部分文字列がいずれの始端・終端位置情報に対応するかを推定する。
<Step S4>
The
〈ステップS5〉
出力部303は、ステップS2において予測された文字列全体(テキストシーケンスデータ)とステップS4において推定された各部分文字列と当該各部分文字列に対応する位置情報とをディスプレイ4に出力する。
<Step S5>
The
図5は、ディスプレイ4に表示される表示画面の一例を示す図である。この表示画面500は、文字位置推定装置3の出力部303から出力される表示画面の一例である。
画面の上側には、文字認識対象の文字列画像510が表示される。画面の下側には、文字列画像510を文字認識処理することで得られたテキストシーケンスデータ520が表示される。
テキストシーケンスデータを確認する担当者は、入力装置を用いて操作入力することで、テキストシーケンスデータ520のうち、確認したい対象の文字に対して操作子511の位置を合わせる。文字位置推定装置3は、操作子511の位置にある文字が属する領域を、当該文字が属する部分文字列の始端・終端位置情報に基づいて特定する。そして、文字位置推定装置3は、文字列画像510のうち、特定された領域を他の領域とは異なる表示態様で表示する。ここでは例えば、文字列画像510に対し、当該文字列画像510を視認可能に透過させるようにして、特定された領域に対して任意の色(例えば赤、黄色、緑等のうちいずれか)を重ねて表示する。これにより担当者は、テキストシーケンスデータにおいて確認したい文字を操作子511によって指し示すことで、その文字が属する文字列画像の範囲を把握することができる。これにより、担当者は、文字列画像ではなく、その範囲に絞って確認をすればすむため、確認時間が長引かないようにすることができる。
FIG. 5 is a diagram showing an example of a display screen displayed on the
A
The person in charge of checking the text sequence data aligns the position of the
上述した実施形態によれば、文字列画像に対して1文字ごとに枠や文字ラベルを作成するのではなく、文字列画像を、1文字以上の部分文字列2つ以上に分割したのち、その部分文字列に対しての始端・終端位置情報、及びテキストシーケンスデータを用いて機械学習認識器を学習し、その機械学習認識器を用いて文字列画像上の文字列及び部分文字列の位置(始端・終端位置)を推定することで、1文字ごとに枠やラベルを作成するより手間を省き、かつ認識時には部分文字列における各文字について、文字列画像における大まかな位置(領域)を推定することができる。そのため、例えば、テキストシーケンスデータを確認する担当者は、テキストシーケンスデータに属する部分文字列あるいは1つの文字が、文字列画像におけるどのブロックに存在するかを速やかに把握することができ、確認作業時間が長引くことを低減することができる。 According to the embodiment described above, instead of creating a frame or a character label for each character in a character string image, the character string image is divided into two or more substrings of one or more characters, and then A machine learning recognizer is trained using the start and end position information for substrings and text sequence data, and the machine learning recognizer is used to determine the position of character strings and substrings on character string images ( By estimating the starting and ending positions), it saves time compared to creating a frame or label for each character, and during recognition, the rough position (area) of each character in a partial string can be estimated in the character string image. be able to. Therefore, for example, a person in charge of checking text sequence data can quickly understand in which block in a character string image a partial character string or a single character belonging to the text sequence data exists, which saves time on checking. This can reduce the prolongation of the problem.
なお、上述した深層学習モデル学習装置1は、学習モデル学習装置の一例である。
学習モデル学習装置は、文字列を表す画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を学習する。
学習モデル学習装置は、部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部を有する。この学習部の一例は、学習部102である。
Note that the deep learning model learning device 1 described above is an example of a learning model learning device.
The learning model learning device performs character string image recognition that recognizes characters from images representing character strings, and recognizes character strings written in character string images and partial character strings that include one or more characters in the character string image. Learn location.
The learning model learning device uses a character string image in which a single line of character strings containing two or more partial character strings is written, a character string written on the character string image, and each partial character string in the character string image. It has a learning section that generates a learning model by learning using the starting and ending position information. An example of this learning section is the
また、上述した文字列画像予測装置2は、文字列画像位置予測装置の一例である。
文字列画像位置予測装置は、文字列を表す文字列画像から文字を認識する文字列画像認識において当該文字列画像に記載された文字列、および前記文字列画像における1文字以上の文字が含まれる部分文字列の位置を予測する。
文字列画像位置予測装置は、部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部と、前記予測部の予測結果を出力する出力部、を備える。この予測部の一例は、予測部202であり、出力部の一例は、出力部204である。
Furthermore, the above-described character string
The character string image position prediction device performs character string image recognition that recognizes characters from a character string image representing a character string, and includes a character string written in the character string image and one or more characters in the character string image. Predict the position of a substring.
The character string image position prediction device detects a character string image in which a single line of character strings containing two or more partial character strings is written, a character string written on the character string image, and each part in the character string image. By inputting a character string image to be recognized into a learning model generated by learning using the starting and ending position information of a character string, the character string included in the character string image and the character recognition target can be input. A prediction unit that obtains start and end position information in a character string image, and an output unit that outputs a prediction result of the prediction unit. An example of this prediction unit is the prediction unit 202, and an example of the output unit is the
また、上述した文字位置推定装置3は、文字位置推定装置の一例である。
文字位置推定装置は、文字列を表す文字列画像から文字を認識する文字列画像認識を行うことで得られる1文字以上の部分文字列の前記文字列画像における位置を推定する。
文字位置推定装置は、部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部と、前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部と、前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部と、を備える。この分割部の一例は、分割部301であり、推定部の一例は、推定部302であり、出力部の一例は、出力部303である。
Further, the character
The character position estimation device estimates the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string.
The character position estimation device detects a character string image in which one line of character strings containing two or more partial character strings is written, a character string written on the character string image, and each partial character string in the character string image. The character string included in the character string image obtained by inputting a character string image to be recognized into a learning model generated by learning using the start and end position information of The obtained character string is obtained by acquiring start and end position information in the target character string image and generating the partial character string from the character string written on the character string image based on the same conditions as those used to generate the partial character string. a dividing unit that divides into partial character strings; an estimating unit that estimates the range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit; The apparatus further includes an output section that outputs the range estimated by the estimation section and the partial character strings obtained by the division section included within the range. An example of this dividing section is the
上述した実施形態における深層学習モデル学習装置1、文字列画像予測装置2、文字位置推定装置3を、コンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
The deep learning model learning device 1, character string
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiments of the present invention have been described above in detail with reference to the drawings, the specific configuration is not limited to these embodiments, and includes designs within the scope of the gist of the present invention.
1…深層学習モデル学習装置,2…文字列画像予測装置,3…文字位置推定装置,4…ディスプレイ,101…文字列画像データベース,102…学習部,103…学習モデル,110…文字列画像,110a…領域,110b…領域,110c…領域,110d…領域,111…テキストシーケンスデータ,111a…部分文字列,111b…部分文字列
111c…部分文字列,111d…部分文字列,112…位置情報,201…予測画像データベース,202…予測部,203…予測モデル,204…出力部,301…分割部,302…推定部,303…出力部,410…文字列画像,420…文字列画像,421…第1領域,422…第2領域,423…第3領域,424…第4領域,430…文字列画像,431…第5領域,432…第6領域,433…第7領域,434…第8領域,500…表示画面,510…文字列画像,511…操作子,520…テキストシーケンスデータ,S…学習モデル学習システム
DESCRIPTION OF SYMBOLS 1... Deep learning model learning device, 2... Character string image prediction device, 3... Character position estimation device, 4... Display, 101... Character string image database, 102... Learning unit, 103... Learning model, 110... Character string image, 110a...area, 110b...area, 110c...area, 110d...area, 111...text sequence data, 111a...partial character string, 111b...
Claims (10)
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部
を備えることを特徴とした学習モデル学習装置。 In character string image recognition, which recognizes characters from a character string image representing a character string, the character string written in the character string image and the position of a partial character string containing one or more characters in the character string image are learned. A learning model learning device,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. A learning model learning device characterized by comprising a learning section that generates a learning model by learning using information.
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部と、
前記予測部の予測結果を出力する出力部、
を備えることを特徴とした文字列画像位置予測装置。 A character string image position prediction device that predicts the position of a character string written in a character string image and a partial character string containing one or more characters in the character string image in character string image recognition,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. By inputting a character string image for character recognition into a learning model generated by learning using information, the character string included in the character string image and the starting point/point in the character string image for character recognition can be input. a prediction unit that obtains terminal position information;
an output unit that outputs the prediction result of the prediction unit;
A character string image position prediction device comprising:
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部と、
前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部と、
前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部と、
を備えることを特徴とした文字位置推定装置。 A character position estimation device that estimates the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. The character string included in the character string image and the character string image to be recognized, which are obtained by inputting the character string image to be recognized into a learning model generated by learning using information. , and convert the obtained character string into a partial string based on the same conditions as those used to generate the partial string from the character string written on the character string image. A dividing part to be divided,
an estimating unit that estimates a range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit;
an output unit that outputs a range estimated by the estimation unit and a partial character string obtained by the division unit included within the range;
A character position estimation device comprising:
請求項1に記載の学習モデル学習装置。 The learning model learned by the learning unit is learned by deep learning using text sequence data,
The learning model learning device according to claim 1.
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する
ことを特徴とした学習モデル学習方法。 In character string image recognition, which recognizes characters from a character string image representing a character string, the character string written in the character string image and the position of a partial character string containing one or more characters in the character string image are learned. A learning model learning method, comprising:
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. A learning model learning method characterized by generating a learning model by learning using information.
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを予測結果として取得する
ことを特徴とした文字列画像予測方法。 Predicting the position of a character string written in a character string image and a partial character string containing one or more characters in the character string image in character string image recognition that recognizes characters from a character string image representing a character string. A method for predicting character string image position, the method comprising:
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. By inputting a character string image for character recognition into a learning model generated by learning using information, the character string included in the character string image and the starting point/point in the character string image for character recognition can be input. A character string image prediction method characterized by acquiring end position information as a prediction result.
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割し、
前記分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定し、
前記推定された範囲と、当該範囲内に含まれる前記分割された部分文字列とをそれぞれ出力する、
ことを特徴とした文字位置推定方法。 A character position estimation method for estimating the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition to recognize characters from a character string image representing a character string, the method comprising:
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. The character string included in the character string image and the character string image to be recognized, which are obtained by inputting the character string image to be recognized into a learning model generated by learning using information. , and convert the obtained character string into a partial string based on the same conditions as those used to generate the partial string from the character string written on the character string image. divide,
estimating the range of the divided partial character string in the character string image to be recognized, which includes the divided partial character string;
outputting the estimated range and the divided partial character strings included in the range, respectively;
A character position estimation method characterized by the following.
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで学習モデルを生成する学習部
として機能させるためのプログラム。 In character string image recognition, which recognizes characters from a character string image representing a character string, the character string written in the character string image and the position of a partial character string containing one or more characters in the character string image are learned. to the computer,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. A program that functions as a learning section that generates a learning model by learning using information.
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像を入力することで、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを得る予測部、
前記予測部の予測結果を出力する出力部、
として機能させるためのプログラム。 Predicting the position of a character string written in a character string image and a partial character string containing one or more characters in the character string image in character string image recognition that recognizes characters from a character string image representing a character string. to the computer,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. By inputting a character string image to be recognized into a learning model that is generated by learning using information, the character string included in the character string image and the starting point/point in the character string image to be recognized are determined. a prediction unit that obtains terminal position information;
an output unit that outputs the prediction result of the prediction unit;
A program to function as
前記部分文字列が2つ以上含まれる1行の文字列が書かれた文字列画像、前記文字列画像上に書かれている文字列及び前記文字列画像における各部分文字列の始端・終端位置情報を用いて学習することで生成された学習モデルに、文字認識対象の文字列画像が入力されることで得られる、当該文字列画像に含まれる文字列と、前記文字認識対象の文字列画像における始端・終端位置情報とを取得し、前記文字列画像上に書かれている文字列から前記部分文字列を生成した条件と同じ条件に基づいて、前記取得された文字列から部分文字列に分割する分割部、
前記分割部で分割された部分文字列が含まれる前記文字認識対象の文字列画像における、前記分割された部分文字列の範囲を推定する推定部、
前記推定部で推定された範囲と、当該範囲内に含まれる前記分割部で得られた部分文字列とをそれぞれ出力する出力部、
として機能させるためのプログラム。 A computer that estimates the position in the character string image of a partial character string of one or more characters obtained by performing character string image recognition that recognizes characters from a character string image representing a character string,
A character string image in which one line of character strings containing two or more of the above-mentioned sub-character strings is written, a character string written on the above-mentioned character string image, and the starting and ending positions of each sub-character string in the above-mentioned character string image. The character string included in the character string image and the character string image to be recognized, which are obtained by inputting the character string image to be recognized into a learning model generated by learning using information. , and convert the obtained character string into a partial string based on the same conditions as those used to generate the partial string from the character string written on the character string image. The dividing part to be divided,
an estimating unit that estimates a range of the divided partial character strings in the character string image to be recognized, which includes the partial character strings divided by the dividing unit;
an output unit that outputs the range estimated by the estimation unit and the partial character strings obtained by the division unit included within the range;
A program to function as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022123127A JP2024020728A (en) | 2022-08-02 | 2022-08-02 | Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022123127A JP2024020728A (en) | 2022-08-02 | 2022-08-02 | Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024020728A true JP2024020728A (en) | 2024-02-15 |
Family
ID=89854070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022123127A Pending JP2024020728A (en) | 2022-08-02 | 2022-08-02 | Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024020728A (en) |
-
2022
- 2022-08-02 JP JP2022123127A patent/JP2024020728A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2699687C1 (en) | Detecting text fields using neural networks | |
US11481605B2 (en) | 2D document extractor | |
JP4829920B2 (en) | Form automatic embedding method and apparatus, graphical user interface apparatus | |
WO2020218512A1 (en) | Learning model generating device, character recognition device, learning model generating method, character recognition method, and program | |
CN109902271B (en) | Text data labeling method, device, terminal and medium based on transfer learning | |
RU2723293C1 (en) | Identification of fields and tables in documents using neural networks using global document context | |
US20190294912A1 (en) | Image processing device, image processing method, and image processing program | |
CN109344830A (en) | Sentence output, model training method, device, computer equipment and storage medium | |
JP2004348714A (en) | System and method for accommodative handwritten character recognition | |
CN111046659B (en) | Context information generating method, context information generating device, and computer-readable recording medium | |
CN110598686A (en) | Invoice identification method, system, electronic equipment and medium | |
CN111611988A (en) | Picture verification code identification method and device, electronic equipment and computer readable medium | |
WO2024055864A1 (en) | Training method and apparatus for implementing ia classification model using rpa and ai | |
JP7243409B2 (en) | Information processing device and program | |
CN114092931B (en) | Scene character recognition method and device, electronic equipment and storage medium | |
CN117351505A (en) | Information code identification method, device, equipment and storage medium | |
US20200294410A1 (en) | Methods, systems, apparatuses and devices for facilitating grading of handwritten sheets | |
JP2024020728A (en) | Learning model learning apparatus, character string image position prediction apparatus, character position estimation apparatus, method thereof, and program | |
CN114359928B (en) | Electronic invoice identification method and device, computer equipment and storage medium | |
CN116030469A (en) | Processing method, processing device, processing equipment and computer readable storage medium | |
CN109933788B (en) | Type determining method, device, equipment and medium | |
CN113362026A (en) | Text processing method and device | |
CN113052156A (en) | Optical character recognition method, device, electronic equipment and storage medium | |
Rai et al. | MyOcrTool: visualization system for generating associative images of Chinese characters in smart devices | |
CN114937274B (en) | Handwriting font erasing method, device, equipment and medium based on artificial intelligence |