JP2023012225A - Support system, support method, and program - Google Patents
Support system, support method, and program Download PDFInfo
- Publication number
- JP2023012225A JP2023012225A JP2021115746A JP2021115746A JP2023012225A JP 2023012225 A JP2023012225 A JP 2023012225A JP 2021115746 A JP2021115746 A JP 2021115746A JP 2021115746 A JP2021115746 A JP 2021115746A JP 2023012225 A JP2023012225 A JP 2023012225A
- Authority
- JP
- Japan
- Prior art keywords
- image
- label
- learning
- character
- learning image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
Description
本発明は、支援システム、支援方法及びプログラムに関する。 The present invention relates to a support system, support method and program.
近年、帳票などに書かれている手書き文字に対してディープラーニングを用いて機械学習し、文字認識する手法が盛んに開発されている。ディープラーニングの機械学習を行うには、大量の手書き文字とそこに書かれている文字の文字種を表すラベルが必要となる。このとき、学習に用いる手書き文字に書き間違いがある場合、その手書き文字を学習させると、文字認識の精度が低下する要因となり得る。よって、書き間違えのあるものや人の目で見て明らかに正解文字だと読めないものを学習用のデータから除く必要がある。そのため、学習を行う前に手書き文字に書き間違いがないか、予め検査を行うが、手書き文字には様々な筆致があるため、誤りを見つけるのは、人間の目視に頼る必要がある。しかしながら、ディープラーニングに用いるためのデータは膨大であるため、検査する文字数が非常に多く、見落とし等が発生する可能性があり、人が大量の手書き文字の全てを目視にて検査するのは限界がある。 In recent years, techniques for machine learning and character recognition using deep learning for handwritten characters written on forms and the like have been actively developed. Deep learning machine learning requires a large amount of handwritten characters and labels that represent the character types of the characters written there. At this time, if there is a writing error in the handwritten characters used for learning, learning the handwritten characters may cause a decrease in the accuracy of character recognition. Therefore, it is necessary to remove from the data for learning the characters that are incorrectly written and the characters that cannot be clearly read as correct characters by human eyes. For this reason, handwritten characters are inspected in advance for writing errors before learning, but handwritten characters have various strokes, so it is necessary to rely on human eyes to detect errors. However, since the data to be used for deep learning is enormous, the number of characters to be inspected is extremely large, and there is a possibility that oversights may occur. There is
特許文献1には、学習データに付与されているラベルの修正に係る作業を効率化する技術が記載されている。特許文献1に記載された技術では、画像から得られる高次元データを低次元データに変換してプロット図として表示し、そのプロット図上で選択された基準点と、基準点と同じラベルを持つ点との距離などを用いて画像に付与されたラベルの修正を行う。しかし、学習データが文字である場合、クラス数(文字の種類)が数千種と膨大なため表示方法としてプロット図を用いるのは有効的ではない。 Patent Literature 1 describes a technique for improving the efficiency of work related to correcting labels assigned to learning data. In the technique described in Patent Document 1, high-dimensional data obtained from an image is converted to low-dimensional data and displayed as a plot diagram, and a reference point selected on the plot diagram has the same label as the reference point. Corrects the label given to the image using the distance to the point. However, when the learning data is characters, it is not effective to use a plot diagram as a display method because the number of classes (types of characters) is as large as thousands.
また、手書き文字の間違いを検出する技術として漢字の自動採点を目的としたものが存在する。特許文献2には、入力手書文字画像とそこに書いてあるべき正解文字ラベルを機械学習モデルに入力することで入力手書文字画像の特徴を持った正解文字画像を生成し、生成された正解文字画像と入力手書文字画像との差分を取ることで漢字の書き間違いを検出する技術が記載されている。しかしながら、入力文字と正解文字との差分を取る手法は、漢字の採点のような正しい字形であるかを判定する場合には有効であるが、帳票等の文字認識に用いるデータセットの手書き文字では、とめ、はね、はらいなどの字形を正確に判定する必要はなく、人が目視した際に正しい文字であることが分かる字形であればよいため有効的ではない。 There is also a technology for detecting errors in handwritten characters that aims at automatic scoring of Chinese characters. In Patent Document 2, by inputting an input handwritten character image and a correct character label that should be written there into a machine learning model, a correct character image having the characteristics of the input handwritten character image is generated. It describes a technique for detecting misspellings of kanji characters by taking a difference between a correct character image and an input handwritten character image. However, the method of taking the difference between the input character and the correct character is effective when judging whether the character shape is correct, such as scoring kanji, but it is effective for handwritten characters in a data set used for character recognition such as forms. It is not necessary to accurately determine character shapes such as , tome, han, and harai.
上述した技術では、膨大な量の手書き文字に含まれる書き間違いを検出する作業を効率的に行うことができないという問題があった。 The technique described above has the problem that it is not possible to efficiently detect writing errors contained in a huge amount of handwritten characters.
上述の課題を鑑み、本発明は、手書き文字の書き間違いを検出する作業を支援することができる、支援システム、支援方法及びプログラムを提供することを目的とする。 SUMMARY OF THE INVENTION In view of the above problems, an object of the present invention is to provide a support system, a support method, and a program that can support the task of detecting handwriting errors.
本発明の一態様に係る支援システムは、学習用画像と、前記学習用画像に対応付けられた第1ラベルと、がセットになった学習データセットを取得する取得部と、前記取得部によって取得された前記学習データセットの前記学習用画像を画像認識することによって、前記学習用画像に対応付けられると推定される第2ラベルを推定する推定部と、前記第1ラベルと、前記第2ラベルとを比較する比較部と、前記比較部による比較結果に基づいて、前記第1ラベルと前記第2ラベルとが異なる前記学習用画像を表示する表示部と、前記表示部によって表示された前記学習用画像に示されている画像が、前記学習用画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力される入力部と、を備える。 A support system according to an aspect of the present invention includes an acquisition unit that acquires a learning data set in which a learning image and a first label associated with the learning image are a set; an estimation unit for estimating a second label estimated to be associated with the learning image by image recognition of the learning image of the training data set; the first label; the second label; a display unit for displaying the learning image in which the first label and the second label are different based on the comparison result by the comparison unit; and the learning image displayed by the display unit. an input unit for inputting input information indicating whether or not the image shown in the learning image is different from the first label associated with the learning image.
本発明の一態様に係る支援方法は、学習用画像と、前記学習用画像に対応付けられた第1ラベルと、がセットになった学習データセットを取得する取得過程と、取得された前記学習データセットの前記学習用画像を画像認識することによって、前記学習用画像に対応付けられると推定される第2ラベルを推定する推定過程と、前記第1ラベルと、前記第2ラベルとを比較する比較過程と、前記比較結果に基づいて、前記第1ラベルと前記第2ラベルとが異なる前記学習用画像を表示する表示過程と、表示された前記学習用画像に示されている画像が、前記学習用画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力される入力過程と、を含む。 A support method according to an aspect of the present invention includes an acquisition process of acquiring a learning data set in which a learning image and a first label associated with the learning image are a set; comparing the first label and the second label with an estimation process of estimating a second label that is estimated to be associated with the training image by image recognition of the training image of the dataset; a comparing step, a displaying step of displaying the learning image having the different first label and the second label based on the comparison result, and the image shown in the displayed learning image being the and an input process of inputting input information indicating whether or not the label is different from the first label associated with the learning image.
本発明の一態様に係るプログラムは、コンピュータに、学習用画像と、前記学習用画像に対応付けられた第1ラベルと、がセットになった学習データセットを取得するステップと、取得された前記学習データセットの前記学習用画像を画像認識することによって、前記学習用画像に対応付けられると推定される第2ラベルを推定するステップと、前記第1ラベルと、前記第2ラベルとを比較するステップと、前記比較結果に基づいて、前記第1ラベルと前記第2ラベルとが異なる前記学習用画像を表示するステップと、表示された前記学習用画像に示されている画像が、前記学習用画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力されるステップと、を実行させるためのプログラムである。 A program according to an aspect of the present invention is configured to provide a computer with a step of acquiring a learning data set in which a learning image and a first label associated with the learning image are a set; estimating a second label estimated to be associated with the learning image by image recognition of the learning image of the learning data set; and comparing the first label and the second label. a step of displaying the learning image having the first label and the second label different from each other based on the comparison result; a step of inputting input information indicating whether the label is different from the first label associated with the image.
本発明によれば、手書き文字の書き間違いを検出する作業を支援することができる。 Advantageous Effects of Invention According to the present invention, it is possible to support the task of detecting handwriting errors in handwritten characters.
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態による検査支援装置1の概略構成を示すブロック図である。
検査支援装置1(支援システム)は、データ入力部101、取得部102、取得ラベル記憶部103、推定部104、識別器105、推定ラベル記憶部106、比較部107、選定データ記憶部108、表示部109、正誤情報入力部110、及び誤りデータ記憶部111の各々を備えている。
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, embodiments of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing a schematic configuration of an examination support apparatus 1 according to this embodiment.
The examination support apparatus 1 (support system) includes a
データ入力部101は、例えば文字の種別(以下、「文字種」とする)毎に書く位置が指定されている原稿用紙をカメラやスキャナなどで撮像した画像を入力する。原稿用紙には、予め、文字種の異なる複数の手書き文字が各指定位置に書かれている。文字は後段の取得部102及び推定部104に含まれる識別器105において認識できるような条件で撮像されていることが望ましい。データ入力部101が入力する画像は、ディープラーニングに用いるデータであるため、データ入力部101は、通常、同じ文字種に対して複数枚の原稿用紙の画像を入力する。
The
取得部102は、学習用画像と、学習用画像に対応付けられた第1ラベルと、がセットになった学習データセットを取得する。学習用画像は、手書きの文字が示された手書文字画像である。また、第1ラベルは、手書文字画像に示された文字の種別を示す情報である。具体的には、取得部102は、データ入力部101で入力された原稿用紙の画像に対して画像処理を行い、画像内の文字を一文字単位で切り出す。一文字単位で切り出した文字の画像(手書文字画像)が、ディープラーニングに用いる学習用画像である。その後、取得部102は、原稿用紙の画像内の位置によって各手書文字画像に対応する正解文字種を特定し、切り出した手書文字画像のデータ(以下、「文字画像データ」とする)と対応する正解文字種を表す文字コード(第1ラベル)との組み合わせを取得ラベル記憶部103に書き込む。原稿用紙の画像から一文字単位で手書文字画像を切り出す手段については後述する。
The acquiring
取得ラベル記憶部103は、取得ラベルテーブルを記憶する。この取得ラベルテーブルは、一文字単位の文字画像データと、それに対応する文字種を表す文字コード(第1ラベル)とを各々対応付けて記憶する。
The acquired
推定部104は、取得部102によって取得された学習データセットの学習用画像を画像認識することによって、学習用画像に対応付けられることが推定される第2ラベルを推定する。例えば、推定部104は、識別器105を含む。識別器105は、事前に学習された、手書文字画像を入力すると画像に書かれている文字の文字種の確率を推定するCNN(Convolutional Neural Network)である。推定部104は、取得部102で切り出された手書文字画像を識別器105に入力し、入力した手書文字画像に対する推定結果から最も確率の高い文字種として出力された文字種を、当該手書文字画像に対応付けられることが推定される文字種とする。そして、推定部104は、取得部102で切り出された手書文字画像のアドレスと、推定した文字種を表す文字コード(第2ラベル)との組み合わせを推定ラベル記憶部106に書き込む。
The estimating
推定ラベル記憶部106は、推定ラベルテーブルを記憶する。推定ラベルテーブルは、一文字単位の文字画像データが記憶されている領域の先頭アドレスを示す文字画像データアドレスと、それに対応する推定部104によって推定された文字種を表す文字コード(第2ラベル)とを各々対応付けて記憶する。文字画像データアドレスは、文字画像データの各々が記憶されている取得ラベル記憶部103の領域のアドレスを示しており、推定ラベル記憶部106から文字画像データを読み出す際のインデックスとなっている。
The estimated
比較部107は、第1ラベルと第2ラベルとを比較する。具体的には、比較部107は、取得ラベル記憶部103および推定ラベル記憶部106から同じ手書文字画像に対応する文字コードを各々読み出して比較する。そして、比較部107は、文字コードが異なっている手書文字画像を目視検査対象とし、そのアドレスを、取得ラベル記憶部103から読み出した文字コード(第1ラベル)と組み合わせて選定データ記憶部108に書き込む。
A comparison unit 107 compares the first label and the second label. Specifically, the comparison unit 107 reads character codes corresponding to the same handwritten character image from the obtained
選定データ記憶部108は、選定データテーブルを記憶する。選定データテーブルは、比較部107で選定された目視検査対象となる一文字単位の文字画像データが記憶されている領域の先頭アドレスを示す文字画像データアドレスと、それに対応する取得部102によって取得された文字種を表す文字コード(第1ラベル)とを各々対応付けて記憶する。文字画像データアドレスは、文字画像データの各々が記憶されている取得ラベル記憶部103の領域のアドレスを示しており、選定データ記憶部108から文字画像データを読み出す際のインデックスとなっている。
The selection
表示部109は、比較部107による比較結果に基づいて、第1ラベルと第2ラベルとが異なる学習用画像を表示する。このとき、表示部109は、第1ラベルと第2ラベルとが異なる学習用画像を、第1ラベルの種別ごとに、まとめてタイル状に表示する。具体的には、表示部109は、選定データ記憶部108に記憶されている手書文字画像のうち、同一の文字コードを持つ手書文字画像全てを、タイル状に並べてディスプレイ等に表示する。この際、表示部109は、学習用画像とともに、第1ラベルが示す基準画像を表示する。例えば、表示部109は、比較として異なる2種類以上のデジタルフォントから生成した正解文字画像(基準画像)を手書文字画像とともに表示してもよい。また、表示部109は、タイトルバーに正解の文字コードで表される文字を表示してもよい。
The
正誤情報入力部110は、表示部109によって表示された学習用画像に示されている手書文字画像が、その手書文字画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力される。具体的には、正誤情報入力部110は、表示部109が表示した目視検査対象の手書文字画像が書き間違いのある書き間違い文字である(第1ラベルと異なっている)か否かを示す入力情報の入力を受け付ける。そして、正誤情報入力部110は、書き間違い文字のアドレスと、対応する文字コード(第1ラベル)との組み合わせを誤りデータ記憶部111に書き込む。例えば、検査者は、表示部109が表示した手書文字画像群を正解文字画像と見比べて目視検査し、書き間違えている、または極端に字形が崩れていて読むことができないと判断した手書文字画像を書き間違い文字として選択する。一般的な方法として、書き間違い文字の手書文字画像をマウスクリックで選択する方法が考えられる。この方法の場合、正誤情報入力部110は、マウスクリックで選択された手書文字画像を書き間違い文字と判定し、その文字画像データアドレスを、対応する文字コードに組み合わせて誤りデータ記憶部111に書き込む。
The correct/wrong
誤りデータ記憶部111は、誤りデータテーブルを記憶する。誤りデータテーブルは、正誤情報入力部110が書き間違い文字と判定した文字画像データが記憶されている領域の先頭アドレスを示す文字画像データアドレスと、対応する文字コード(第1ラベル)とを各々対応付けて記憶する。文字画像データアドレスは、文字画像データの各々が記憶されている取得ラベル記憶部103の領域のアドレスを示しており、誤りデータ記憶部111から文字画像データを読み出す際のインデックスとなっている。
The error
続いて、図2を参照して、取得部102が、原稿用紙の画像から一文字単位で手書文字画像を切り出す手段について説明する。図2は、本実施形態による検査支援装置1が原稿用紙の画像から一文字単位で手書文字画像を切り出す手順を説明するための図である。
本実施形態における原稿用紙は、一文字毎に区切ることができる枠(マス目)を有する方眼紙である。原稿用紙のマス目は等間隔で並べられた正方形であるため、外枠四角形の四隅座標がわかると全てのマス目及びマス目内に含まれる文字の相対位置が算出でき、手書文字画像を切り出すことができる。しかし、スキャンされた原稿用紙はスキャン時の傾きやズレによって外枠の位置が一定ではないため、取得部102は、以下の手順で外枠四角形の四隅座標を検出し、一文字単位の手書文字画像を切り出す。
Next, with reference to FIG. 2, the means by which the
The manuscript paper in the present embodiment is a graph paper having a frame (square) that can divide each character. Since the squares of the manuscript paper are squares arranged at equal intervals, if the coordinates of the four corners of the outer frame rectangle are known, the relative positions of all the squares and the characters contained in the squares can be calculated, and the handwritten character image can be obtained. can be cut out. However, since the position of the outer frame of the scanned manuscript paper is not constant due to inclination or misalignment during scanning, the
取得部102は、データ入力部101から入力された原稿用紙の画像(原稿用紙文字画像201)を二値化し、白黒反転をして、二値化・白黒反転結果画像202を得る。その後、取得部102は、二値化・白黒反転結果画像202から輪郭抽出を行い、外枠検出結果画像203の符号2031のような最も領域面積の広い輪郭を外枠として検出する。
非直線枠線拡大図204は、外枠検出結果画像203の四隅右上の領域2032を拡大したものである。非直線枠線拡大図204に示すように、画像輪郭は通常、細かい線の凹凸によって直線にならない。そのため、取得部102は、抽出した外枠輪郭に対して直線近似を行い、直線近似枠線拡大図205に示すように、外枠を直線にする。直線近似枠線拡大図205は、外枠輪郭に対し直線近似を行った後の、外枠検出結果画像203の領域2032を拡大したものである。これによって外枠輪郭の端点が4つになり、外枠四角形の四隅座標が決まる。
A non-straight frame line enlarged
検出された外枠四角形は大抵長方形でも平行四辺形でもない歪んだ四角形となるため、取得部102は、ホモグラフィによって正対するよう画像変換を行う。その後、取得部102は、画像変換を行った一文字画像枠線検出結果画像206から原稿用紙の寸法に従ってマス目を切り出すことで、一文字単位の手書文字画像を取得する。
Since the detected outer frame quadrilateral is mostly a distorted quadrilateral that is neither a rectangle nor a parallelogram, the
続いて、図3を参照して、取得ラベル記憶部103が記憶する取得ラベルテーブルについて説明する。図3は、本実施形態による検査支援装置1が記憶する取得ラベルテーブルのデータ構造を示す概略図である。取得ラベルテーブルは、取得部102が切り出した各手書文字画像の文字画像データと、当該手書文字画像の正解文字種を表す文字コード(第1ラベル)とを各々対応付けて記憶する。
Next, an acquired label table stored in the acquired
続いて、図4を参照して、推定ラベル記憶部106が記憶する推定ラベルテーブルについて説明する。図4は、本実施形態による検査支援装置1が記憶する推定ラベルテーブルのデータ構造を示す概略図である。推定ラベルテーブルは、取得部102が切り出した各手書文字画像の文字画像データが記憶されている先頭アドレスを示す文字画像データアドレスと、推定部104が推定した当該手書文字画像の文字種を表す文字コード(第2ラベル)とを各々対応付けて記憶する。文字画像データアドレスは、取得ラベル記憶部103から文字画像データを読み出す際のインデックスとなっている。
このように、文字画像データの各々が記憶されている取得ラベル記憶部103の領域のアドレスを記憶することにより、文字画像データそのものを記憶する場合と比べて記憶容量を削減することができる。
なお、選定データ記憶部108が記憶する選定データテーブル及び誤りデータ記憶部111が記憶する誤りデータテーブルも本図に示す推定ラベルテーブルと同様に、文字画像データではなく、文字画像データアドレスを文字コード(第1ラベル)と対応付けて記憶する。
Next, the estimated label table stored in the estimated
By storing the address of the region of the acquisition
Note that the selection data table stored in the selection
続いて、図5~図7を参照して、表示部109が表示する目視検査用画面について説明する。図5は、本実施形態による検査支援装置1が表示する目視検査用画面の一例を示すイメージ図である。
目視検査用画面は、検査者が文字の書き間違いを目視検査するために、表示部109がディスプレイDP等に表示する画面である。本図に示す例では、表示部109は、選定データ記憶部108に記憶されている手書文字画像のうち、同一の文字コードを持つ手書文字画像群(手書文字画像301-1~301-9)、教科書体の正解文字画像302、およびゴシック体の正解文字画像303を目視検査用画面300に表示している。本例では、表示部109は、文字「柏」の文字コードに対応する手書文字画像群(手書文字画像301-1~301-9)と、2種類の正解文字画像302,303とを表示している。ここで、表示部109は、検査対象となる手書文字画像301-1~301-9と、正解文字画像302,303とを区別し易くするために、正解文字画像302,303を白黒反転(文字部分を白、背景を黒)させて表示する。また、表示部109は、正解文字画像302,303を目視検査用画面300の中心に表示する。また、表示部109は、正解の文字コードで表される文字「柏」304を目視検査用画面300のタイトルバーに表示している。
Next, visual inspection screens displayed by the
The visual inspection screen is a screen displayed on the display DP or the like by the
ここで、正解文字種は「柏」であるのに対して、手書文字画像群(手書文字画像301-1~301-9)の中段左から4番目の手書文字画像301-6及び下段左から2番目の手書文字画像301-8には「拍」が書かれており、書き間違いであることがわかる。また、手書文字画像群(手書文字画像301-1~301-9)の上段左から3番目の手書文字画像301-3は「柏」の「木」部分が書き崩されて書かれており、「柏」であるか「拍」であるかの判断がつきにくいため書き間違い文字として選択される。 Here, the correct character type is "Kashiwa", while the handwritten character image group (handwritten character images 301-1 to 301-9) is the fourth handwritten character image 301-6 from the left in the middle row and the lower row. In the second handwritten character image 301-8 from the left, "beat" is written, and it can be seen that the handwriting is erroneous. In addition, the third handwritten character image 301-3 from the upper left of the group of handwritten character images (handwritten character images 301-1 to 301-9) is written with the “tree” part of “oak” broken down. Therefore, it is difficult to determine whether it is ``Kashiwa'' or ``Matsu'', so it is selected as a erroneous character.
例えば、検査者は、目視検査用画面において、書き間違い文字と判断した手書文字画像をマウスクリックすることにより、書き間違い文字を入力する。正誤情報入力部110は、表示部109が表示した目視検査用画面においてマウスクリックを受け付けた手書文字画像を、書き間違い文字と判定し、その文字画像データアドレスを、対応する文字コード(第1ラベル)とともに誤りデータ記憶部111に書き込む。
For example, the inspector inputs the erroneously written character by clicking the mouse on the image of the handwritten character determined to be the erroneously written character on the visual inspection screen. The correct/wrong
このように、表示部109は、選定データ記憶部108に文字画像データアドレスが記憶されている手書文字画像のみを目視検査対象として表示するため、取得ラベル記憶部103が記憶する全ての手書文字画像を目視検査する必要がなくなる。すなわち、検査者は、書き間違いの可能性のある手書文字画像のみを目視検査すれば良くなる。そのため、検査者の負担が減り、検査を効率的に行える。
また、この表示例のように、文字種毎にまとめてタイル状に表示し目視検査を行えるようにすることで、検査対象の手書文字画像を一つずつ正解文字画像と見比べて検査する手間を省き、効率的に検査を行うことができる。
また、正解文字画像を複数種類(本例では2種類)表示することにより、同じ文字種におけるフォントや書体による違いを検査者が確認することができる。例えば、「柏」の場合には、「白」部分の一画目のはらいは、教科書体では左上部分にあるが、ゴシック体では中央部分にある。よって、検査者は、2種類の正解文字画像を見比べて、「白」の一画目のはらいは左上にあっても中央にあっても良いことを知ることができる。
また、正解文字画像を白黒反転して表示することにより、検査者が正解文字画像と検査対象となる手書文字画像とを判別し易くなる。
また、正解文字画像を中心に表示し、正方形に近いタイル状に各手書文字画像を表示することにより、検査対象となる手書文字画像各々と正解文字画像との距離が略同一となるため、検査者がどの手書文字画像と見比べるときにも視線の移動距離が略同じになり、比較し易くなる。
In this manner, the
As shown in this display example, each character type is grouped into tiles for visual inspection, which saves the trouble of comparing handwritten character images to be inspected one by one with correct character images. inspection can be efficiently performed.
In addition, by displaying a plurality of types (two types in this example) of correct character images, the inspector can confirm the differences due to fonts and typefaces in the same character type. For example, in the case of "Kashiwa", the first stroke of the "white" part is located in the upper left part in the textbook typeface, but in the central part in the Gothic typeface. Therefore, the inspector can compare the two types of correct character images and know that the first stroke of "white" can be either in the upper left or in the center.
In addition, by displaying the correct character image with black and white reversed, the inspector can easily distinguish between the correct character image and the handwritten character image to be inspected.
In addition, by displaying the correct character image in the center and displaying each handwritten character image in a nearly square tile shape, the distance between each handwritten character image to be inspected and the correct character image is approximately the same. When the inspector compares any handwritten character image, the moving distance of the line of sight becomes substantially the same, which facilitates the comparison.
図6は、本実施形態による検査支援装置1が表示する目視検査用画面の他の例を示すイメージ図である。
本図に示す目視検査用画面300Aに表示されている手書文字画像群(手書文字画像301-1~301-9)及び正解文字画像302,303は、図5に示す目視検査用画面300に表示されているものと同一である。本図に示す目視検査用画面300Aでは、正解文字画像302,303が、手書文字画像群(手書文字画像301-1~301-9)の後(画面右下)に表示されている点が、目視検査用画面300と異なる。他の表示は、目視検査用画面300と同様であるため、その説明を省略する。本図に示す例に限らず、正解文字画像302,303は、検査者が視認できる位置であれば、目視検査用画面のどの位置に表示されていてもよい。
FIG. 6 is an image diagram showing another example of the visual inspection screen displayed by the inspection support apparatus 1 according to this embodiment.
The group of handwritten character images (handwritten character images 301-1 to 301-9) and the
図7は、本実施形態による検査支援装置1が表示する目視検査用画面の他の例を示すイメージ図である。
本図に示す目視検査用画面300Bに表示されている手書文字画像群(手書文字画像301-1~301-9)及び正解文字画像302,303は、図5に示す目視検査用画面300に表示されているものと同一である。目視検査用画面300が横長の画面であるのに対し、本図に示す目視検査用画面300Bは、縦長の画面である。また、目視検査用画面300に表示されている2種類の正解文字画像302,303が横一列に配置されているのに対し、本図に示す目視検査用画面300Bでは、2種類の正解文字画像302,303が縦一列に配置されている。本図に示す例に限らず、目視検査用画面300は、横長の画面であってもよいし、縦長の画面であってもよい。
FIG. 7 is an image diagram showing another example of the visual inspection screen displayed by the inspection support apparatus 1 according to this embodiment.
The group of handwritten character images (handwritten character images 301-1 to 301-9) and the
なお、上述した表示例では、正解文字画像を2種類表示しているが、これに限らず、検査用画面に表示する正解文字画像は3種類以上であってもよいし、1種類であってもよい。 In the display example described above, two types of correct character images are displayed. good too.
続いて、図8を参照して、検査支援装置1による検査支援処理について説明する。図8は、本実施形態による検査支援装置1が実行する検査支援処理の手順を示すフローチャートである。 Next, the examination support processing by the examination support apparatus 1 will be described with reference to FIG. 8 . FIG. 8 is a flow chart showing the procedures of examination support processing executed by the examination support apparatus 1 according to this embodiment.
(ステップS1)データ入力部101は、書き間違いの有無の検査したい検査対象となる文字画像の入力を受け付ける。文字画像は、例えば、原稿用紙等に複数文字種の手書き文字が書かれた画像である。
(Step S1) The
(ステップS2)取得部102は、ステップS1で入力された文字画像に対して画像処理を行い、一文字単位で手書文字画像を切り出し、対応する文字種を表す第1ラベルを取得する。
(Step S2) The acquiring
(ステップS3)推定部104は、ステップS2で切り出された各手書文字画像を識別器105に入力し、各々の文字種(第2ラベル)を推定する。
(Step S3) The
(ステップS4)比較部107は、ステップS2で切り出された手書文字画像から1枚選択し、それに対応するステップS2で取得された第1ラベルと、ステップS3で推定した第2ラベルとを比較する。 (Step S4) The comparison unit 107 selects one handwritten character image cut out in step S2, and compares the corresponding first label obtained in step S2 with the second label estimated in step S3. do.
(ステップS5)比較部107は、ステップS4での比較結果、第1ラベルと第2ラベルとが異なっているか否かを判定する。ラベルが異なる場合(ステップS5:YES)には、ステップS6に処理を進める。ラベルが同じ場合(ステップS5:NO)には、ステップS7に処理を進める。 (Step S5) The comparison unit 107 determines whether the comparison result in step S4 is different between the first label and the second label. If the labels are different (step S5: YES), the process proceeds to step S6. If the labels are the same (step S5: NO), the process proceeds to step S7.
(ステップS6)比較部107は、ラベルが異なる手書文字画像の文字画像データアドレスを、それに対応するステップS2で取得された第1ラベルに対応付けて選定データ記憶部108に書き込んで保存する。
(Step S6) The comparison unit 107 writes and saves the character image data address of the handwritten character image with a different label in the selection
(ステップS7)比較部107は、ステップS2で切り出された全ての手書文字画像のラベルを比較したか否かを判定する。全ての手書文字画像のラベルを比較し終えた場合(ステップS7:YES)には、ステップS8に処理を進める。全ての手書文字画像のラベルを比較し終えていない場合(ステップS7:NO)には、ステップS4に処理を戻す。 (Step S7) The comparison unit 107 determines whether or not the labels of all handwritten character images cut out in step S2 have been compared. If the labels of all handwritten character images have been compared (step S7: YES), the process proceeds to step S8. If the labels of all handwritten character images have not been compared (step S7: NO), the process returns to step S4.
(ステップS8)表示部109は、選定データ記憶部108から同一の文字種(第1ラベル)の手書文字画像を読み出し、読み出した全ての手書文字画像を正解文字画像とともにタイル状に並べディスプレイ等に表示する。
(Step S8) The
(ステップS9)正誤情報入力部110は、書き間違い文字の選択入力を取得する。例えば、検査者は、ステップS8で表示された手書文字画像群を目視検査し、書き間違えている手書文字画像がある場合には、その手書文字画像をマウスクリック等で選択する。正誤情報入力部110は、マウスクリックで選択された手書文字画像を書き間違い文字と判定し、その文字画像データアドレスを第1ラベルに対応付けて誤りデータ記憶部111に書き込む。表示されている全ての手書文字画像に対して目視検査が終了すると、ステップS10に処理を進める。例えば、表示部109は、表示した目視検査用画面が検査者の操作により閉じられたときに、表示されている全ての手書文字画像に対して目視検査が終了したと判定する。
(Step S9) The correct/wrong
(ステップS10)表示部109は、選定データ記憶部108に記憶されている全ての手書文字画像に対し目視検査を実施したか否かを判定する。目視検査を実施していない手書文字画像がある場合(ステップS10:NO)には、目視検査していない文字種に対してステップS8に処理を進める。選定データ記憶部108に記憶されている全ての手書文字画像の目視検査が終わっている場合(ステップS10:YES)には、処理を終了する。
(Step S10) The
このように、書き間違いのある手書文字画像の文字画像データアドレスを誤りデータ記憶部111に記憶しておくことで、取得ラベル記憶部103に記憶されている手書文字画像のうち、誤りデータ記憶部111にその文字画像データアドレスが記憶されているものをディープラーニングの学習用画像から除くことができる。すなわち、書き間違いのない手書文字画像のみをディープラーニングの学習用画像として用いることができる。
In this way, by storing the character image data addresses of the handwritten character images with writing errors in the error
このように、本実施形態よれば、検査支援装置1は、学習用画像と、学習用画像に対応付けられた第1ラベルと、がセットになった学習データセットを取得する取得部102と、取得部102によって取得された学習データセットの学習用画像を画像認識することによって、学習用画像に対応付けられることが推定される第2ラベルを推定する推定部104と、第1ラベルと、第2ラベルとを比較する比較部107と、比較部107による比較結果に基づいて、第1ラベルと第2ラベルとが異なる学習用画像を表示する表示部109と、表示部109によって表示された学習用画像に示されている手書文字画像が、その手書文字画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力される正誤情報入力部110と、を備える。
As described above, according to the present embodiment, the inspection support apparatus 1 includes the
上述した構成により、学習データセットに対して学習用画像に誤りがないかの目視検査をする際、画像認識によって取得される第2ラベルとあらかじめ付与されている第1ラベルとを比較してラベルの異なる学習用画像のみ選定することで、学習データセットの大半を占める間違いではない学習用画像を検査する手間を省くことができる。よって、検査者は、全ての学習用画像を目視検査する必要がなくなり、手書文字画像に示されている文字が第1ラベルと異なっているか可能性のある学習用画像のみを目視検査すれば良くなる。すなわち、目視検査すべき学習用画像を削減できるため、検査者の負担が減り、検査を効率的に行える。よって、本実施形態によれば、膨大にある学習データセットから誤りを検出する作業を支援し、効率的に行うことができる。 With the above-described configuration, when visually inspecting the learning image for errors in the learning data set, the second label obtained by image recognition is compared with the first label assigned in advance to obtain a label. By selecting only the training images with different values, it is possible to save the trouble of inspecting correct training images that occupy most of the training data set. Therefore, the inspector does not need to visually inspect all the learning images, and only needs to visually inspect the learning images for which there is a possibility that the characters shown in the handwritten character image are different from the first label. Get better. That is, since the number of learning images to be visually inspected can be reduced, the burden on the inspector is reduced, and the inspection can be performed efficiently. Therefore, according to the present embodiment, it is possible to support and efficiently detect errors from a huge amount of learning data sets.
また、表示部109は、第1ラベルと第2ラベルとが異なる学習用画像を、第1ラベルの種別ごとに、まとめてタイル状に表示する。このように、第1ラベルと第2ラベルとが異なる検査対象の学習用画像を同一のラベル毎にまとめてタイル状に表示することで、検査者は、複数の学習用画像をまとめて一度に検査することができるため、効率的に検査することが可能になる。
In addition, the
また、表示部109は、学習用画像とともに、第1ラベルが示す基準画像を表示する。これにより、検査者は、表示画面上で学習用画像を基準画像と比較して検査することができるため、作業を効率化することができる。
Also, the
また、学習用画像は、手書きの文字が示された手書文字画像であり、第1ラベルは、手書文字画像に示された文字の種別を示す情報である。よって、本実施形態によれば、大量にある手書き文字の書き間違いを検出する作業を支援することができる。すなわち、手書文字画像に対して、効率的かつ見落としが少ない目視検査を行うことができる。 The learning image is a handwritten character image showing handwritten characters, and the first label is information indicating the type of the character shown in the handwritten character image. Therefore, according to the present embodiment, it is possible to support the task of detecting writing errors in a large number of handwritten characters. That is, it is possible to perform an efficient visual inspection with few oversights on the handwritten character image.
また、取得部102は、文字の種別が異なる複数の手書きの文字が書かれた原稿用紙の画像を二値化及び白黒反転させて一文字単位で手書文字画像を取得し、原稿用紙における位置から各手書文字画像の文字の種別を特定する。これにより、スキャンした原稿用紙の画像に影等が写り込んでいた場合にそれらを排除し、原稿用紙の直線を精度良く抽出することができるため、原稿用紙の画像から手書文字画像とその文字の種別とを正確に取得することができる。
In addition, the acquiring
上述した実施形態における検査支援装置1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。 All or part of the examination support apparatus 1 in the above-described embodiment may be realized by a computer. In that case, a program for realizing this function may be recorded in a computer-readable recording medium, and the program recorded in this recording medium may be read into a computer system and executed. It should be noted that the "computer system" referred to here includes hardware such as an OS and peripheral devices. The term "computer-readable recording medium" refers to portable media such as flexible discs, magneto-optical discs, ROMs and CD-ROMs, and storage devices such as hard discs incorporated in computer systems. Furthermore, "computer-readable recording medium" means a medium that dynamically retains a program for a short period of time, like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. It may also include something that holds the program for a certain period of time, such as a volatile memory inside a computer system that serves as a server or client in that case. Further, the program may be for realizing a part of the functions described above, or may be capable of realizing the functions described above in combination with a program already recorded in the computer system. It may be implemented using a programmable logic device such as FPGA.
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 Although the embodiment of the present invention has been described in detail with reference to the drawings, the specific configuration is not limited to this embodiment, and design and the like are included within the scope of the gist of the present invention.
例えば、上述した実施形態では、検査支援装置1は、手書き文字が書かれた原稿用紙から手書文字画像を取得しているが、これに限らず、例えば、タッチパネルを備えたタブレット端末やパーソナルコンピュータ等にタッチペンで一文字ずつ手書き入力する等、他の方法で手書文字画像を取得してもよい。 For example, in the above-described embodiment, the examination support apparatus 1 acquires a handwritten character image from a document sheet on which handwritten characters are written. Handwritten character images may be obtained by other methods such as handwriting input of each character with a touch pen.
また、上述した実施形態では、学習用画像として手書文字画像を例に説明したが、学習用画像は、これに限らず、風景画像(例えば、雲が撮像された風景画像に、その雲の種別をラベルしたもの)や、天気画像(晴れ、曇り、雨等をラベルしたもの)や、その他物の画像等、任意の画像を対象とすることができる。例えば、検査支援装置1は、動物を撮像した動物画像に、その動物の種別をラベルしたものである場合には、第1ラベルが「猫」の学習用画像のなかに「熊」の画像があるときに、検査対象画像として表示してもよい。 Further, in the above-described embodiment, an example of a handwritten character image as a learning image has been described, but the learning image is not limited to this. Any image can be targeted, such as weather images (labeled as sunny, cloudy, rainy, etc.), or images of other objects. For example, in the case where an animal image obtained by imaging an animal is labeled with the type of the animal, the examination support apparatus 1 detects that an image of "bear" is included in the training images whose first label is "cat". At certain times, it may be displayed as an image to be inspected.
1…検査支援装置(支援システム)
101…データ入力部(入力部)
102…取得部
103…取得ラベル記憶部
104…推定部
105…識別器
106…推定ラベル記憶部
107…比較部
108…選定データ記憶部
109…表示部
110…正誤情報入力部
111…誤りデータ記憶部
201…原稿用紙文字画像
202…二値化・白黒反転結果画像
203…外枠検出結果画像
204…非直線枠線拡大図
205…直線近似枠線拡大図
206…一文字画像枠線検出結果画像
300,300A,300B…目視検査用画面
301-1~301-9…手書文字画像
302…正解文字画像
303…正解文字画像
DP…ディスプレイ
1... Inspection support device (support system)
101 ... data input unit (input unit)
DESCRIPTION OF
Claims (8)
前記取得部によって取得された前記学習データセットの前記学習用画像を画像認識することによって、前記学習用画像に対応付けられると推定される第2ラベルを推定する推定部と、
前記第1ラベルと、前記第2ラベルとを比較する比較部と、
前記比較部による比較結果に基づいて、前記第1ラベルと前記第2ラベルとが異なる前記学習用画像を表示する表示部と、
前記表示部によって表示された前記学習用画像に示されている画像が、前記学習用画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力される入力部と、
を備える支援システム。 an acquisition unit that acquires a learning data set in which a learning image and a first label associated with the learning image are a set;
an estimating unit that estimates a second label that is estimated to be associated with the learning image by image recognition of the learning image of the learning data set acquired by the acquiring unit;
a comparison unit that compares the first label and the second label;
a display unit that displays the learning image with the first label and the second label that are different from each other based on the comparison result by the comparison unit;
an input unit for inputting input information indicating whether or not the image shown in the learning image displayed by the display unit is different from the first label associated with the learning image;
Support system with
請求項1に記載の支援システム。 The display unit collectively displays the learning images with different first labels and second labels for each type of the first label.
The assistance system of claim 1.
請求項2に記載の支援システム。 The display unit displays the learning images with different first labels and second labels in tiles for each type of the first label.
3. A support system according to claim 2.
請求項1から請求項3のいずれか一項に記載の支援システム。 The display unit displays a reference image indicated by the first label together with the learning image.
4. A support system according to any one of claims 1 to 3.
前記第1ラベルは、前記手書文字画像に示された文字の種別を示す情報である、
請求項1から請求項4のいずれか一項に記載の支援システム。 The learning image is a handwritten character image showing handwritten characters,
The first label is information indicating the type of characters shown in the handwritten character image.
5. A support system according to any one of claims 1 to 4.
請求項5に記載の支援システム。 The acquisition unit acquires a handwritten character image for each character by binarizing and black-and-white inverting an image of a manuscript paper on which a plurality of handwritten characters of different character types are written, and obtains a handwritten character image for each character from a position on the manuscript paper. Identifying the type of characters in a handwritten character image,
6. A support system according to claim 5.
取得された前記学習データセットの前記学習用画像を画像認識することによって、前記学習用画像に対応付けられると推定される第2ラベルを推定する推定過程と、
前記第1ラベルと、前記第2ラベルとを比較する比較過程と、
前記比較過程における比較結果に基づいて、前記第1ラベルと前記第2ラベルとが異なる前記学習用画像を表示する表示過程と、
表示された前記学習用画像に示されている画像が、前記学習用画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力される入力過程と、
を含む支援方法。 an acquisition process of acquiring a learning data set in which a learning image and a first label associated with the learning image are a set;
an estimation process of estimating a second label estimated to be associated with the learning image by image recognition of the learning image of the acquired learning data set;
a comparing step of comparing the first label and the second label;
a display step of displaying the learning image having the different first label and the second label based on the comparison result in the comparison step;
an input step of inputting input information indicating whether or not the image shown in the displayed learning image is different from the first label associated with the learning image;
Assistance methods including;
学習用画像と、前記学習用画像に対応付けられた第1ラベルと、がセットになった学習データセットを取得するステップと、
取得された前記学習データセットの前記学習用画像を画像認識することによって、前記学習用画像に対応付けられると推定される第2ラベルを推定するステップと、
前記第1ラベルと、前記第2ラベルとを比較するステップと、
前記比較するステップにおける比較結果に基づいて、前記第1ラベルと前記第2ラベルとが異なる前記学習用画像を表示するステップと、
表示された前記学習用画像に示されている画像が、前記学習用画像に対応付けられた第1ラベルと異なっているか否かを示す入力情報が入力されるステップと、
を実行させるためのプログラム。 to the computer,
obtaining a learning data set in which a learning image and a first label associated with the learning image are a set;
estimating a second label estimated to be associated with the learning image by image recognition of the learning image of the acquired learning data set;
comparing the first label and the second label;
a step of displaying the learning image with the first label and the second label different based on the comparison result in the comparing step;
a step of inputting input information indicating whether or not the image shown in the displayed learning image is different from the first label associated with the learning image;
program to run the
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021115746A JP2023012225A (en) | 2021-07-13 | 2021-07-13 | Support system, support method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021115746A JP2023012225A (en) | 2021-07-13 | 2021-07-13 | Support system, support method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023012225A true JP2023012225A (en) | 2023-01-25 |
Family
ID=85381655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021115746A Pending JP2023012225A (en) | 2021-07-13 | 2021-07-13 | Support system, support method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2023012225A (en) |
-
2021
- 2021-07-13 JP JP2021115746A patent/JP2023012225A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5410611A (en) | Method for identifying word bounding boxes in text | |
CN111507251B (en) | Method and device for positioning answering area in test question image, electronic equipment and computer storage medium | |
US6778703B1 (en) | Form recognition using reference areas | |
JP2951814B2 (en) | Image extraction method | |
US4516262A (en) | Character data processing apparatus | |
KR100315318B1 (en) | Apparatus and method of bitmap image processing, storage medium storing an image processing program | |
CN110942074A (en) | Character segmentation recognition method and device, electronic equipment and storage medium | |
JP2641380B2 (en) | Bending point extraction method for optical character recognition system | |
JPH0772905B2 (en) | How to recognize a symbol string | |
CN112183038A (en) | Form identification and typing method, computer equipment and computer readable storage medium | |
RU2640322C2 (en) | Methods and systems of effective automatic recognition of symbols | |
US11823497B2 (en) | Image processing system and an image processing method | |
CN108052936B (en) | Automatic inclination correction method and system for Braille image | |
CN112364834A (en) | Form identification restoration method based on deep learning and image processing | |
CN108052955B (en) | High-precision Braille identification method and system | |
CN114549993A (en) | Method, system and device for scoring line segment image in experiment and readable storage medium | |
Kaundilya et al. | Automated text extraction from images using OCR system | |
CN114495141A (en) | Document paragraph position extraction method, electronic equipment and storage medium | |
CN107958261B (en) | Braille point detection method and system | |
JPH07105312A (en) | Method and device for eliminating dirt from character image in optical character reader | |
CN113569677A (en) | Paper test report generation method based on scanning piece | |
CN108062548B (en) | Braille square self-adaptive positioning method and system | |
JP5601027B2 (en) | Image processing apparatus and image processing program | |
JP2023012225A (en) | Support system, support method, and program | |
CN115311666A (en) | Image-text recognition method and device, computer equipment and storage medium |