JP7468472B2 - 学習済みモデル生成方法、認識方法、及び情報処理装置 - Google Patents

学習済みモデル生成方法、認識方法、及び情報処理装置 Download PDF

Info

Publication number
JP7468472B2
JP7468472B2 JP2021113855A JP2021113855A JP7468472B2 JP 7468472 B2 JP7468472 B2 JP 7468472B2 JP 2021113855 A JP2021113855 A JP 2021113855A JP 2021113855 A JP2021113855 A JP 2021113855A JP 7468472 B2 JP7468472 B2 JP 7468472B2
Authority
JP
Japan
Prior art keywords
display
image
trained model
label
rotated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021113855A
Other languages
English (en)
Other versions
JP2023010056A (ja
Inventor
和樹 山本
淳司 原田
紘明 大野
拓人 市川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JFE Steel Corp
Original Assignee
JFE Steel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JFE Steel Corp filed Critical JFE Steel Corp
Priority to JP2021113855A priority Critical patent/JP7468472B2/ja
Publication of JP2023010056A publication Critical patent/JP2023010056A/ja
Application granted granted Critical
Publication of JP7468472B2 publication Critical patent/JP7468472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本開示は、学習済みモデル生成方法、認識方法、及び情報処理装置に関する。
計算負荷、記憶容量の増大を招くことなく、高速に文字方向識別処理を実現できる文字方向識別装置が知られている(例えば特許文献1参照)。
特開2006-260274号公報
歪み、滲み、又は欠落等の変形が生じた文字の識別が求められる。
そこで、本開示は、変形が生じた文字の識別を支援できる、学習済みモデル生成方法、認識方法、及び情報処理装置を提供することを目的とする。
本開示の一実施形態に係る学習済みモデル生成方法は、物体に付された表示の画像から前記表示の認識結果を出力する学習済みモデルを生成する。前記学習済みモデル生成方法は、前記表示の画像に対して、前記表示の外形を表す第1ラベルを付与したデータを教師データとして生成する第1ステップを含む。前記学習済みモデル生成方法は、前記教師データに基づいて学習することによって前記学習済みモデルを生成する第2ステップを含む。
本開示の一実施形態に係る認識方法は、前記学習済みモデル生成方法を実行することによって生成した前記学習済みモデルを用いて前記表示を認識する第3ステップを含む。
本開示の一実施形態に係る情報処理装置は、前記学習済みモデル生成方法又は前記認識方法を実行する制御部を備える。
本開示に係る学習済みモデル生成方法、認識方法、及び情報処理装置によれば、変形が生じた文字の識別が支援され得る。
本開示の一実施形態に係る情報処理システムの構成例を示すブロック図である。 本開示の一実施形態に係る学習済みモデル生成方法の手順例を示すフローチャートである。 本開示の一実施形態に係る認識方法の手順例を示すフローチャートである。 傾きが小さい表示を写した画像の例を示す図である。 反時計回りに傾いた表示を写した画像の例を示す図である。 時計回りに傾いた表示を写した画像の例を示す図である。 反時計回りに傾き、歪んだ表示を写した画像の例を示す図である。 各要素が異なる角度で傾いた表示を写した画像の例を示す図である。 比較例において、表示の各要素に対して各要素を囲む矩形のラベルを付した例を示す図である。 本開示の一実施形態において表示の各要素に対して各要素の輪郭を囲む領域としてラベルを付した例を示す図である。 表示の各要素が数字である場合に、0から9までの数字にラベルを付した例を示す図である。 鋼材ロールの側面に表示を付した例を示す図である。 表示が歪んだ場合に各要素にラベルを付した例を示す図である。 表示を写した画像の回転角度と、表示の各要素のうち前半の3つの要素の認識結果の信頼度との関係を示す図である。 表示を写した画像の回転角度と、表示の各要素のうち後半の3つの要素の認識結果の信頼度との関係を示す図である。 内側に輪郭を有する要素にラベルを付した例を示す図である。 スラブ端面に付した表示と、その表示にラベルを付した例を示す図である。 凹凸を有する表面に付した表示と、その表示にラベルを付した例を示す図である。 一部が欠けた表示と、その表示にラベルを付した例を示す図である。
以下、本開示に係る学習済みモデル生成方法、認識方法、及び情報処理装置10(図1参照)の実施形態が図面に基づいて説明される。各図面は模式的なものであって、現実のものとは異なる場合がある。また、以下の実施形態は、本開示の技術的思想を具体化するための装置又は方法を例示するものであり、構成を下記のものに特定するものでない。すなわち、本開示の技術的思想は、特許請求の範囲に記載された技術的範囲内において、種々の変更を加えることができる。
(情報処理システム1の概要)
図1に示されるように、一実施形態に係る情報処理システム1は、情報処理装置10と、撮像装置20とを備える。撮像装置20は、物体に付された表示を撮影する。情報処理装置10は、撮像装置20で撮影した画像に写っている表示を認識する。情報処理装置10は、画像を学習済みモデルに入力し、その画像に写っている表示の認識結果を学習済みモデルから取得する。学習済みモデルは、入力された画像に写っている表示の認識結果を出力するように構成される。情報処理装置10は、物体に付された表示に関する教師データに基づく学習を実行することによって、学習済みモデルを生成してもよい。
情報処理装置10は、制御部12と、通信部14と、出力部16と、入力部18とを備える。制御部12は、情報処理装置10の種々の機能を制御及び管理するために、例えばCPU(Central Processing Unit)又はGPU(Graphics Processing Unit)等の少なくとも1つのプロセッサを含んで構成されてよい。制御部12は、1つのプロセッサで構成されてよいし、複数のプロセッサで構成されてよい。制御部12を構成するプロセッサは、後述する記憶部に格納されたプログラムを読み込んで実行することによって、情報処理装置10の機能を実現してよい。
制御部12は、記憶部を備えてよい。記憶部は、各種の情報又はデータ等を格納する。記憶部は、例えば制御部12において実行されるプログラム、又は、制御部12において実行される処理で用いられるデータ若しくは処理の結果等を格納してよい。また、記憶部は、制御部12のワークメモリとして機能してよい。記憶部は、例えば半導体メモリ等を含んで構成されてよいがこれに限定されない。例えば、記憶部は、制御部12として用いられるプロセッサの内部メモリとして構成されてもよいし、制御部12からアクセス可能なハードディスクドライブ(HDD)として構成されてもよい。記憶部は、非一時的な読み取り可能媒体として構成されてもよい。記憶部は、制御部12と一体に構成されてもよいし、制御部12と別体として構成されてもよい。
通信部14は、有線又は無線によって撮像装置20等の他の装置と通信するための通信インタフェースを含んで構成されてよい。通信インタフェースは、ネットワークを介して他の装置と通信可能に構成されてよい。通信部14は、他の装置との間でデータを入出力する入出力ポートを含んで構成されてよい。通信部14は、プロセスコンピュータ又は上位システムに対して、必要なデータ及び信号を送受信する。通信部14は、有線通信規格に基づいて通信してよいし、無線通信規格に基づいて通信してもよい。例えば無線通信規格は3G、4G及び5G等のセルラーフォンの通信規格を含んでよい。また、例えば無線通信規格は、IEEE802.11及びBluetooth(登録商標)等を含んでよい。通信部14は、これらの通信規格の1つ又は複数をサポートしてよい。通信部14は、これらの例に限られず、種々の規格に基づいて他の装置と通信したりデータを入出力したりしてよい。
出力部16は、制御部12から取得した情報を出力する。出力部16は、直接又は外部装置等を介して、文字、図形、又は画像等の視覚情報を出力することによってユーザに情報を通知してよい。出力部16は、表示デバイスを備えてもよいし、表示デバイスと有線又は無線で接続されてもよい。表示デバイスは、例えば液晶ディスプレイ等の種々のディスプレイを含んでよい。出力部16は、直接又は外部装置等を介して、音声等の聴覚情報を出力することによってユーザに情報を通知してもよい。出力部16は、スピーカ等の音声出力デバイスを備えてもよいし、音声出力デバイスと有線又は無線で接続されてもよい。出力部16は、振動デバイスを備えてもよい。出力部16は、視覚情報、聴覚情報又は触覚情報だけでなく、直接又は外部装置等を介して、ユーザが他の感覚で知覚できる情報を出力することによってユーザに情報を通知してもよい。
入力部18は、ユーザからの入力を受け付ける入力デバイスを含んでもよい。入力デバイスは、例えば、キーボード又は物理キーを含んでもよいし、タッチパネル若しくはタッチセンサ又はマウス等のポインティングデバイスを含んでもよい。入力デバイスは、これらの例に限られず、他の種々のデバイスを含んでもよい。
撮像装置20は、例えばカメラ等を含んで構成されてよい。撮像装置20は、撮像素子を含んで構成されてよい。撮像装置20の設置環境に合わせて、粉塵又は油滴の対策が行われてもよい。撮像装置20は、物体に付された表示を撮影し、その撮影画像を情報処理装置10に出力する。情報処理装置10は、通信部14で撮影画像を取得してよい。
情報処理システム1が表示を読み取る対象とする物体は、種々の材料又は製品等を含んでよい。物体は、例えば鋼板又は鋼管等の種々の鋼材を含んでよい。物体は、例えば板状の鋼材を巻き取ってロール状にしたコイル80(図4等参照)を含んでよい。物体は、例えば、鋼材を製造する途中の工程で産出されるスラブ又はビレット等の中間材を含んでもよい。物体は、例えば、鋼材に限られず、木材又は石材等の種々の材質で構成されてもよい。物体は、工業製品等の種々の製品を含んでもよい。
情報処理システム1が読み取る対象とする表示は、物体に対して印字、刻印又はマーキングされた、線若しくは点、又は、線と点との組み合わせを含んでよい。表示は、例えば文字、記号、又は図形等を含んで構成されてよい。表示は、それぞれ独立して認識可能な1つの文字等を要素として含む。要素は、例えば、1つの文字、記号又は図形等で構成されてよいし、2つ以上の文字、記号又は図形等の集合で構成されてもよい。要素は、文字、記号又は図形等の組み合わせで構成されてもよい。印字は、例えばインク又は塗料等によって描かれた点又は線を含んでよい。刻印は、例えば版を物体に押し付けることによって作られた物体表面の凹凸によって描かれた点又は線を含んでよい。マーキングは、例えばレーザマーカ等によって作られた物体表面の凹凸によって描かれた点又は線を含んでよい。
(情報処理システム1の動作例)
情報処理システム1は、学習済みモデルを用いて物体に付された表示を読み取る。学習済みモデルは、物体に付された表示を写した画像を学習済みモデルに入力することによって、表示の認識結果を出力するように構成される。学習済みモデルは、表示に含まれる要素毎に認識結果を出力するように構成されてよいし、表示に含まれる各要素の認識結果をまとめて出力するように構成されてもよい。
情報処理システム1は、物体に付された表示を写した画像を教師データとして学習することによって学習済みモデルを生成する。情報処理システム1は、表示の各要素の画像を教師データとして学習してもよいし、複数の要素を写した画像を教師データとして学習してもよい。本実施形態において、以下、要素は文字であるとして説明される。
情報処理装置10の制御部12は、図2に例示されるフローチャートの手順を含む学習済みモデル生成方法を実行することによって、学習済みモデルを生成してよい。また、制御部12は、図3に例示されるフローチャートの手順を含む認識方法を実行することによって、物体に付された表示を認識してよい。学習済みモデル生成方法及び認識方法は、制御部12を構成するプロセッサに実行させる学習済みモデル生成プログラム及び認識プログラムとして実現されてもよい。学習済みモデル生成プログラム及び認識プログラムは、非一時的なコンピュータ読み取り可能な媒体に格納されてよい。
制御部12は、表示を写した画像を取得する(ステップS1)。具体的に、制御部12は、撮像装置20から画像を取得する。制御部12は、撮像装置20を制御して、物体に付された表示を撮像装置20に撮影させてよい。図4から図8までに、コイル80に付された表示30を写した画像の例が示される。図4の画像に写っている表示30の各文字は、画像の水平方向に沿って並んでいる。図5の画像に写っている表示30の各文字は、画像の水平方向に対して反時計回りに回転した方向に沿って並んでいる。図6の画像に写っている表示30の各文字は、画像の水平方向に対して時計回りに回転した方向に沿って並んでいる。図7の画像に写っている表示30の各文字は、画像の水平方向に対して反時計回りに回転した方向に沿って並んでいるものの、それぞれ異なる大きさに変形している。図8の画像に写っている表示30の各文字は、一方向に沿って並ばずに曲線に沿って並んでいる。また、図8の画像に写っている表示30の各文字は、異なる大きさに変形している。
制御部12は、回転画像を生成する(ステップS2)。具体的に、制御部12は、取得した画像を時計回り又は反時計回りに所定角度だけ回転させた画像を生成する。制御部12は、所定角度を例えば1度又は2度等ずつ増えた値に設定してよい。本実施形態において制御部12は、所定角度として時計回り及び反時計回りそれぞれに20度まで回転させた回転画像を生成する。所定角度は、20度までに限られず180度までに設定されてもよい。
工業製品の製造ラインにおいて製造中の製品としての物体に付された表示30を認識する場合、表示30を写した画像において、表示30の向きは不定である。学習済みモデルを生成するための学習の教師データとして回転画像を生成することによって、種々の向きに回転した表示30の認識精度が向上され得る。制御部12は、回転処理とあわせて、画像のコントラスト若しくは輝度の調整、又は、ノイズの調整を行ってもよい。
制御部12は、ラベル50を付与する(ステップS3)。具体的に、制御部12は、表示30を輪郭で囲む領域としてラベル50を付してよい。比較例として、図9Aに、表示30の各文字に対して各文字を囲む矩形のバウンディングボックスのラベル90を付した例が示される。一方、本開示に係る一実施形態として、図9Bに、表示30の各文字に対して各文字の輪郭を囲む領域のラベル50を付した例が示される。比較例のようなバウンディングボックスのラベル90は、表示30の各文字が歪んだり滲んだりしている場合に各文字の形状を正確に捉えにくい。本開示に係る一実施形態のように各文字の輪郭を囲む領域のラベル50は、各文字の形状を正確に捉えやすい。
表示30の形状の輪郭に沿った境界線として付与されるラベル50は、第1ラベルとも称される。第1ラベルは、表示30に含まれる各要素(各文字)の外形を表すように生成され得る。第1ラベルは、表示30の各要素が内周を有する場合、内周の形状を表すように生成されてもよい。
制御部12によって各文字に対して付されるラベル50は、図10に示されるように、辺52と頂点54とを有する多角形として表されてよい。図10において、表示30が0から9までの数字を含む場合に、制御部12は、各数字に多角形のラベル50を付す。つまり、第1ラベルは、表示30の外形の輪郭を複数の直線で近似した多角形として表され得る。
また、図11に示されるように、表示30がコイル80の側面に付されている場合、表示30の領域は、コイル80を構成する複数の鋼板82にまたがって広がる。コイル80において鋼板82の巻き取りが緩むことがある。コイル80が緩んだ場合、巻き取られている鋼板82の位置関係が変化し得る。その結果、複数の鋼板82にまたがっている表示30が歪んだり拡大したり縮小したりして変形し得る。制御部12は、図12に示されるように、変形した各数字に対しても多角形のラベル50を付してよい。
制御部12は、画像に写った表示30の各要素(各文字)の領域を画像のセグメンテーションによって検出し、検出した領域にラベル50を付してよい。また、制御部12は、表示30の各要素にラベル50を付すために、表示30の各要素の位置を検出してよい。制御部12は、セグメンテーションによって表示30の各要素の位置を検出してよいし、表示30の各要素を矩形ボックスで囲むことによって表示30の各要素の位置を検出してもよい。
制御部12は、表示30を写した画像に対して、その表示30の内容を表す第2ラベルを付与してもよい。第2ラベルは、例えば、表示30が文字若しくは記号、又は図形であることを特定する情報を含んでよい。第2ラベルは、表示30の各要素がどの種類の文字を表しているか等を特定する情報を含んでよい。制御部12は、表示30を写した画像に対して第1ラベル又は第2ラベルを付した情報を、後述する学習に用いる教師データとして生成する。また、制御部12は、表示30を写した画像を回転させた回転画像に対して、第1ラベル又は第2ラベルを付した情報を、教師データとして生成してもよい。
制御部12は、ラベル50を付与した各要素(各文字)の画像を教師データとして学習することによって学習済みモデルを生成する(ステップS4)。具体的に、制御部12は、ラベル50を付与した各要素の画像に対してその要素が表す内容の正解データを関連づけて学習する。制御部12は、学習済みモデルにおける物体検出のアルゴリズムとして、例えばDetectronを用いてよいし、Faster RCNN(Regions with Convolutional Neural Networks)又はYOLO(You Only Look Once)等を用いてもよい。
制御部12は、学習において、表示30を認識する学習済みモデルにおける一般的なハイパーパラメーターである学習回数、交差検定に用いるデータ割合、振動若しくは過学習に関わる学習率、モーメンタム、又は重み減衰等を調整してもよい。
本実施形態において、制御部12は、アルゴリズムとしてDetectronを用いて学習する。例えば制御部12は、学習回数を4000階とし、交差検定に割くデータ数を20%とし、学習率を0.001とし、モーメンタムを0.9とし、重み減衰を0.0005として学習する。また、制御部12は、表示30に含まれる要素(文字等)の数が6文字に固定されるとして学習する。
制御部12は、回転画像に第1ラベルを付与した教師データに基づいて学習してもよい。
制御部12は、ステップS4の手順の実行後、図2のフローチャートの手順の実行を終了する。
図2のフローチャートに例示される手順を含む学習済みモデル生成方法によれば、表示30の各要素(各文字)の形状が正確に捉えられやすくなる。また、教師データとして回転画像を用いることによって、表示30の各要素の向きが違う場合でも、各要素が正確に認識されやすくなる。
制御部12は、生成した学習済みモデルを用いて、図3のフローチャートの手順を実行することによって、表示30の各要素(各文字)を認識できる。制御部12は、認識対象の表示30が写った画像を取得する(ステップS11)。制御部12は、回転画像を生成する(ステップS12)。具体的に、制御部12は、時計回り及び反時計回りそれぞれに複数の角度で画像を回転させて回転画像を生成してよい。
制御部12は、回転画像を学習済みモデルに入力する(ステップS13)。制御部12は、学習済みモデルから出力される、各回転画像における表示30の認識結果を取得する(ステップS14)。
制御部12は、各回転画像における表示30の認識結果に基づいて、各回転画像の信頼度を評価する(ステップS15)。具体的に、制御部12は、各回転画像の認識結果として、各回転画像における表示30の各要素(各文字)の認識結果を取得する。学習済みモデルにおいて表示30を認識するための推論は、情報処理装置10がネットワークに接続される場合、クラウド上で使用可能状態になっている学習済みモデルをAPI(Application Programming Interface)の形で利用することによって実行されてよい。
学習済みモデルは、入力された回転画像に写った文字を検出し、検出した文字の種類を認識結果として出力する。制御部12は、学習済みモデルから、各回転画像に写った文字の認識結果を取得する。この時点で、制御部12は、文字の種類だけの認識結果を先に取得する。文字の種類の認識結果は、その文字の種類の推定結果と、その推定結果がどの程度信頼できるかを表す信頼度の値とを含む。
例えば図13A及び図13Bに示されるように、「170470」という6つの数字を含む表示30が認識されるとする。学習済みモデルは、この表示30を、複数の回転角度の回転画像それぞれにおいて検出する。図13Aにおいて6つの数字のうちの左半分の3つの数字(「170」)の認識結果が示される。図13Bにおいて6つの数字のうちの右半分の3つの数字(「470」)の認識結果が示される。図13A及び図13Bの横軸は、画像の回転角度を表す。回転角度が正の値の場合に時計回りの回転を表し、負の値の場合に反時計回りの回転を表す。縦軸は、認識した文字の種類の信頼度を表す。信頼度は、1に近いほど、認識した文字の種類が正解である可能性が高いことを表す。
図13Aの「1」の認識結果において、画像を反時計回りに22度回転した場合(回転角度が-22度の場合)に信頼度が最も1に近く、画像を反時計回りに14度から34度までの角度で回転した場合に他の角度よりも信頼度が高い。図13Aの「7」の認識結果において、画像を反時計回りに30度回転した場合(回転角度が-30度の場合)に信頼度が最も1に近く、画像を反時計回りに20度から34度までの角度で回転した場合に他の角度よりも信頼度が高い。図13Aの「0」の認識結果において、画像を反時計回りに20度回転した場合(回転角度が-20度の場合)に信頼度が最も1に近く、画像を反時計回りに6度から30度までの角度で回転した場合に他の角度よりも信頼度が高い。図13Bの「4」の認識結果において、画像を反時計回りに24度回転した場合(回転角度が-24度の場合)に信頼度が最も1に近く、画像を反時計回りに6度から30度までの角度で回転した場合に他の角度よりも信頼度が高い。図13Bの「7」の認識結果において、画像を反時計回りに18度回転した場合(回転角度が-18度の場合)に信頼度が最も1に近く、画像を反時計回りに18度から22度までの角度で回転した場合に他の角度よりも信頼度が高い。図13Bの「0」の認識結果において、画像を反時計回りに18度回転した場合(回転角度が-18度の場合)に信頼度が最も1に近く、画像を反時計回りに6度から32度までの角度で回転した場合に他の角度よりも信頼度が高い。
言い換えれば、制御部12は、表示30が写った画像を複数の角度でそれぞれ回転させた複数の回転画像を生成し、各回転画像を学習済みモデルに入力することによって各回転画像における表示30の認識結果を取得してよい。また、制御部12は、各回転画像における表示30の認識結果の信頼度に基づいて複数の回転画像から少なくとも1枚の回転画像を選択し、選択した回転画像における表示30の認識結果を出力してよい。また、制御部12は、表示30の各要素(各文字)について適切な回転角度の回転画像を選択してもよい。
制御部12は、各回転画像の信頼度に基づいて画像を選択する(ステップS16)。具体的に、図13A及び図13Bに示した認識結果のうち、図13Bの「7」の認識結果について、信頼度が高くなる回転角度の範囲は、他の文字の認識結果よりも狭い。したがって、制御部12は、図13Bの「7」(6つの数字のうち左から5番目の数字)を認識できるように、反時計回りに18度又は20度回転させた回転画像を選択する。
制御部12は、認識した表示の配列を推定する(ステップS17)。本ステップの実行前の時点において、選択した回転画像に写った表示30の各要素(各文字)の種類の認識結果の信頼度が高いことしかわかっていない。制御部12は、本ステップを実行することによって、表示30の各要素の配列を推定する。制御部12は、図13A及び図13Bに示されるように、6つの数字が「1」、「7」、「0」、「4」、「7」及び「0」であることを特定しているものの、これらの配列についてまだ特定できていない。制御部12は、これらの6つの数字の配列が「170470」であるか、又は、それ以外の配列であるか推定する。
具体的に、制御部12は、各文字の位置に基づいて、各文字の配列を推定する。文字が歪んだり文字同士が重なったり接触したりする場合において、各文字の配列が推定されにくい。制御部12は、例えば撮像装置20の画角に対して水平方向にx座標、鉛直方向にy座標を採った際の、各文字が存在する範囲のx座標の最大値及び最小値から中心座標を算出し、その中心座標を基準にして各文字を配列してよい。
各要素(各文字)の配列の動作について言い換えれば、制御部12は、表示30に含まれる各要素の認識結果を取得し、各要素の配列を推定し、推定結果に基づいて各要素を配列した結果を、表示30の認識結果として出力してよい。
制御部12は、推定結果が妥当か判定する(ステップS18)。制御部12は、各文字の認識結果のうち、文字の種類及び配列それぞれが妥当であるか判定してよいし、文字の種類及び配列を総合して妥当であるか判定してもよい。
具体的に、制御部12は、各文字が存在する範囲のx座標の最大値及び最小値のそれぞれが、隣接する文字が存在する範囲の最大値及び最小値と同様な大小関係を満たす場合のみに文字の配列が妥当であると判定してよい。このようにすることによって配列が間違いにくくなる。制御部12は、各文字の位置関係が条件を満たさない場合に配列の推定結果を出力せずにエラーを出力してもよい。
制御部12は、推定結果が妥当でない場合(ステップS18:NO)、ステップS16の回転画像の選択の手順に戻り、他の回転角度の回転画像において推定結果が妥当か再判定する。制御部12は、推定結果が妥当である場合(ステップS18:YES)、推定結果を学習済みモデルによる認識結果として出力する(ステップS19)。制御部12は、ステップS19の手順の実行後、図3のフローチャートの手順の実行を終了する。
制御部12は、上述した認識方法を実行することによって、表示30を写した画像から表示30の各要素(各文字)を認識できる。具体例として、制御部12は、時計回り及び反時計回りそれぞれに20度まで1度ずつ増加させた角度で回転した回転画像を生成し、各回転画像における各要素の認識の信頼度を算出し、信頼度が高くなる回転画像を採用した。制御部12は、採用した回転画像において、各要素の配列を推定し、最終的な認識結果を取得する。制御部12は、表示30を読み取れなかった画像のみでなく、すべての検証データについて事前画像処理をしてもよいし、再配列の際に各文字のx座標の中心又は各文字が存在する範囲の最小値の順に配列してもよい。具体例において、各要素の配列の際に再配列時の確度を上げるために、隣接する文字が存在する範囲のx座標の最小値又は中心座標が同様の大小関係となることを条件としたフィルターが用いられた。
上述した具体例において、制御部12は、画像に写った表示30の各文字を、100%の正答率、かつ、0%の誤答率という高い精度で読み取ることができた。また、制御部12は、各文字を正しい順序に配列することができた。ここで、正答率は、1枚の画像データに写っている6つの文字の全ての文字を読み取れた場合にその画像データを正答とみなし、複数の画像データのうちの正答となった画像データの割合を表す。正答率が100%であることは、全ての画像データにおいて、その画像データに写っている6つの文字の全ての文字を読み取れたことを意味する。また、誤答率は、画像データから文字を読み取ったものの、異なる文字として読み取った割合を表す。誤答率が0%であることは、画像データから読み取った全ての文字が正しく読み取られていたことを表す。
一方で、比較例として、図9Aに示されるように表示30の各文字に対して各文字を囲む矩形のバウンディングボックスのラベル90を付して表示30が認識された。この場合において、正答率は、本開示の一実施形態に係る認識方法における100%から、約20%にまで低下した。また、誤答率は、本開示の一実施形態に係る認識方法における0%から約2~5%にまで上昇した。以上のことから、本開示の一実施形態に係る認識方法は、比較例のように単に矩形のラベル90を付す方法よりも、表示30の各要素(各文字)に対して各要素の輪郭を囲む領域のラベル50を付すことによって、正答率を向上させ、誤答率を低下させることができる。つまり、本開示の一実施形態に係る認識方法によれば、表示30の各要素の認識精度が向上され得る。
以上述べてきたように、本開示の一実施形態に係る学習済みモデル生成方法及び認識方法によれば、表示30の各要素(各文字)を囲む領域のラベル50を付すことによって、人間の作業を介さずに、学習済みモデルを用いて表示30の各要素が高精度で認識され得る。また、各要素の配列が高精度で推定され得る。認識された表示30は、あらかじめ準備されている正しい情報と照合して識別異常を防止する手段として利用され得る。そこで、表示30の各要素が正しい順序に配列される。
本開示の一実施形態に係る学習済みモデル生成方法及び認識方法によれば、画像を回転させて表示30の各要素(各文字)が識別され得る。画像を回転させることによって、表示30の各要素の向きが違う場合でも、各要素の認識精度を向上できる。
(他の実施形態)
以下、他の実施形態が説明される。
表示30の中で隣接する要素(文字)の境界が不明瞭であることがある。例えば、図14に示されるように、「263001」という表示30のうち、左から3番目の「3」と左から4番目の「0」との境界、及び、左から4番目の「0」と左から5番目の「0」との境界が不明瞭であるとする。この場合において、制御部12は、要素の輪郭にとらわれずに、要素に固有の形状にラベル50を付してもよい。具体的に、制御部12は、「0」という数字の内周を輪郭として、内周に沿った頂点58及び辺56を有する多角形をラベル50として付してよい。また、制御部12は、「0」という数字の内側の空いている領域そのものに対して内部領域を表すラベル59を付してもよい。このようにすることで、表示30の各要素が識別されやすくなる。
表示30の各要素(各文字)にラベル50として付される多角形は、全ての頂点において凸になっていてもよいし、一部の頂点において凹になっていてもよい。多角形の頂点の数は、任意の数にされてよい。
また、ラベル50は、ある要素(文字)に付される場合、隣接する要素をラベリングしないように付されてよい。ラベル50は、要素の滲んだ部分を範囲外にするように付されてよい。このようにすることで、表示30の各要素が識別されやすくなる。
表示30が付される物体として、コイル80の側面を例示した実施形態が説明されてきた。本開示に係る学習済みモデル生成方法及び認識方法によれば、コイル80だけでなく、他の種々の物体に付された表示30が認識され得る。例えば、図15Aに示されるように、コイル80として巻き取られる鋼板82に延伸する前段階であるスラブの端面に付されている表示30の各要素(各文字)に対してラベル50が付され得る。また、図15Bに示されるように、スラブの端面に切断等に起因する凹凸がある場合でも、その面に付されている表示30の各要素に対してラベル50が付され得る。また、図15Cに示されるように、表示30の一部が酸化膜(錆)の剥がれ等に起因して欠落している場合でも、表示30の各要素に対してラベル50が付され得る。他に、鋼管の表面のように曲面に付された表示30について、曲面に起因して表示30が変形していても、表示30の各要素に対してラベル50が付され得る。このように、表示30が変形したり滲んだり欠落したりしている場合であってもラベル50が付され得る。その結果、種々の態様の表示30の各要素が高精度で認識され得る。
上述してきた実施形態において、画像の回転角度を変化させる間隔は、1度又は2度等の値に設定された。回転角度の間隔は、適宜設定されてよい。例えば、回転角度の間隔が4度又は8度等の大きい値に設定されることによって、表示30の認識の信頼度の傾向が大まかに把握されてよい。信頼度が高くなる回転角度の近傍で、回転角度の間隔が小さい値に設定されることによって、各回転角度における信頼度が詳細に把握されてよい。このようにすることで、信頼度の評価対象となる回転画像の枚数が減らされ得る。その結果、信頼度の評価のための演算負荷が低減され得る。
具体的に、図13Bに示される左から5番目の「7」について、信頼度が高くなるときの回転角度の範囲は-18度から-26度までの8度しかない。この場合、回転角度が-20度である場合に信頼度が高くなることを把握することによって、回転角度として-20度の前後に1度ずつ変化させて各角度における信頼度が算出されてよい。
本開示の実施形態について、諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形又は改変を行うことが可能であることに注意されたい。従って、これらの変形又は改変は本開示の範囲に含まれることに留意されたい。例えば、各構成部又は各ステップなどに含まれる機能などは論理的に矛盾しないように再配置可能であり、複数の構成部又はステップなどを1つに組み合わせたり、或いは分割したりすることが可能である。本開示に係る実施形態は装置が備えるプロセッサにより実行されるプログラム又はプログラムを記録した記憶媒体としても実現し得るものである。本開示の範囲にはこれらも包含されるものと理解されたい。
1 情報処理システム
10 情報処理装置(12:制御部、14:通信部、16:出力部、18:入力部)
20 撮像装置
30 表示
50 ラベル(52:外周の辺、54:外周の頂点、56:内周の辺、58:内周の頂点、59:内部領域を表すラベル)
80 コイル(82:鋼板)

Claims (11)

  1. 物体に付された表示の画像から前記表示の認識結果を出力する学習済みモデルを生成する学習済みモデル生成方法であって、
    前記表示の画像に対して、前記表示の形状を表す第1ラベルを付与したデータを教師データとして生成する第1ステップと、
    前記教師データに基づいて学習することによって前記学習済みモデルを生成する第2ステップと
    を含み、
    前記第1ステップにおいて、前記表示の外形の輪郭に沿った境界線及び前記表示の外形より内側の領域を表すように前記第1ラベルを付与する、
    学習済みモデル生成方法。
  2. 前記第1ステップにおいて、前記第1ラベルとして、前記表示の外形の輪郭を複数の直線で近似した多角形を生成する、請求項に記載の学習済みモデル生成方法。
  3. 前記第1ステップにおいて、前記表示に含まれる複数の要素それぞれの外形を表すように前記第1ラベルを付与する、請求項1又は2に記載の学習済みモデル生成方法。
  4. 前記第1ステップにおいて、前記第1ラベルとして、前記表示に固有の形状を表す線又は領域を生成する、請求項1からまでのいずれか一項に記載の学習済みモデル生成方法。
  5. 前記第1ステップにおいて、前記表示の内容を表す第2ラベルを更に付与したデータを前記教師データとして生成する、請求項1からまでのいずれか一項に記載の学習済みモデル生成方法。
  6. 前記第1ステップにおいて、前記第2ラベルとして、前記表示が文字若しくは記号、又は図形であることを特定する情報を生成する、請求項に記載の学習済みモデル生成方法。
  7. 前記第1ステップにおいて前記表示の画像を回転させた画像に前記第1ラベルを付与したデータを前記教師データとして生成し、前記第2ステップにおいて前記第1ラベルが付与された画像を回転させた画像に基づいて学習する、請求項1からまでのいずれか一項に記載の学習済みモデル生成方法。
  8. 請求項1からまでのいずれか一項に記載の学習済みモデル生成方法を実行することによって生成した前記学習済みモデルを用いて前記表示を認識する第3ステップを含む認識方法。
  9. 前記第3ステップにおいて、前記表示の画像を複数の角度でそれぞれ回転させた複数の回転画像を生成し、前記各回転画像を前記学習済みモデルに入力することによって前記各回転画像における前記表示の認識結果を取得し、前記各回転画像における前記表示の認識結果の信頼度に基づいて前記複数の回転画像から少なくとも1枚の回転画像を選択し、選択した回転画像における前記表示の認識結果を出力する、請求項に記載の認識方法。
  10. 前記第3ステップにおいて、前記表示に含まれる各要素の認識結果を取得し、前記各要素の配列を推定し、推定結果に基づいて前記各要素を配列した結果を、前記表示の認識結果として出力する、請求項又はに記載の認識方法。
  11. 請求項1からまでのいずれか一項に記載の学習済みモデル生成方法、又は、請求項から10までのいずれか一項に記載の認識方法を実行する制御部を備える、情報処理装置。
JP2021113855A 2021-07-08 2021-07-08 学習済みモデル生成方法、認識方法、及び情報処理装置 Active JP7468472B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021113855A JP7468472B2 (ja) 2021-07-08 2021-07-08 学習済みモデル生成方法、認識方法、及び情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021113855A JP7468472B2 (ja) 2021-07-08 2021-07-08 学習済みモデル生成方法、認識方法、及び情報処理装置

Publications (2)

Publication Number Publication Date
JP2023010056A JP2023010056A (ja) 2023-01-20
JP7468472B2 true JP7468472B2 (ja) 2024-04-16

Family

ID=85118364

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021113855A Active JP7468472B2 (ja) 2021-07-08 2021-07-08 学習済みモデル生成方法、認識方法、及び情報処理装置

Country Status (1)

Country Link
JP (1) JP7468472B2 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185065A (ja) 2004-12-27 2006-07-13 Nippon Telegr & Teleph Corp <Ntt> 文字行列生成装置、その方法及びプログラム
JP2008039611A (ja) 2006-08-07 2008-02-21 Canon Inc 位置姿勢計測装置及び位置姿勢計測方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
JP2008176517A (ja) 2007-01-18 2008-07-31 Juki Corp 物体認識方法および装置
JP2010072826A (ja) 2008-09-17 2010-04-02 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体
JP2021082056A (ja) 2019-11-20 2021-05-27 日本放送協会 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム
WO2021100818A1 (ja) 2019-11-19 2021-05-27 学校法人関西学院 水増しを用いた学習方法及び学習装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185065A (ja) 2004-12-27 2006-07-13 Nippon Telegr & Teleph Corp <Ntt> 文字行列生成装置、その方法及びプログラム
JP2008039611A (ja) 2006-08-07 2008-02-21 Canon Inc 位置姿勢計測装置及び位置姿勢計測方法、複合現実感提示システム、コンピュータプログラム及び記憶媒体
JP2008176517A (ja) 2007-01-18 2008-07-31 Juki Corp 物体認識方法および装置
JP2010072826A (ja) 2008-09-17 2010-04-02 Ricoh Co Ltd 画像処理装置、画像処理方法、プログラムおよびコンピュータ読み取り可能な記憶媒体
WO2021100818A1 (ja) 2019-11-19 2021-05-27 学校法人関西学院 水増しを用いた学習方法及び学習装置
JP2021082056A (ja) 2019-11-20 2021-05-27 日本放送協会 文字領域検出モデル学習装置およびそのプログラム、ならびに、文字領域検出装置およびそのプログラム

Also Published As

Publication number Publication date
JP2023010056A (ja) 2023-01-20

Similar Documents

Publication Publication Date Title
JP5722482B2 (ja) 画像処理システムおよび画像処理方法
US9280694B2 (en) Decoding machine-readable optical codes with aesthetic component
US7756364B2 (en) Digital pen and paper system
US8340433B2 (en) Image processing apparatus, electronic medium, and image processing method
US8239155B2 (en) Track information processor, track information processing method, information recording medium, and program
WO2010017711A1 (zh) 一种图形触摸命令的执行方法、装置及移动终端
US9269004B2 (en) Information processing terminal, information processing method, and program
JP4267019B2 (ja) カード識別装置、カード識別方法、ならびに、プログラム
US20230394721A1 (en) Information processing apparatus, program, and system
JP2019506672A (ja) 多重オブジェクト構造を認識するためのシステムおよび方法
WO2021196013A1 (zh) 单词识别方法、设备及存储介质
JP2008234509A (ja) 画像評価装置および方法並びにプログラム
CN104995591A (zh) 图像处理设备及程序
JP5023937B2 (ja) 画像処理装置、画像処理システム及びプログラム
JP7468472B2 (ja) 学習済みモデル生成方法、認識方法、及び情報処理装置
JP7262927B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN113033593B (zh) 基于深度学习的文本检测训练方法及装置
JP6373664B2 (ja) 電子機器、方法及びプログラム
JP6157068B2 (ja) 情報処理装置及びその制御方法
US20210142098A1 (en) Polygon detection device, polygon detection method, and polygon detecting program
WO2018137454A1 (zh) 一种图像形状调节方法和调节装置
JP7278761B2 (ja) 画像処理装置、画像処理方法及びプログラム
CN117237669B (zh) 结构件特征提取方法、装置、设备及存储介质
CN114283275B (zh) 一种基于优化深度学习的多图形目标检测方法
JP6973524B2 (ja) プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230221

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240227

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240305

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240318

R150 Certificate of patent or registration of utility model

Ref document number: 7468472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150