JP2024000579A

JP2024000579A - 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム

Info

Publication number: JP2024000579A
Application number: JP2022099315A
Authority: JP
Inventors: 裕司堀場; Yuji Horiba; 昌紀近藤; Masanori Kondo
Original assignee: NEC Solution Innovators Ltd
Current assignee: NEC Solution Innovators Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2024-01-09

Abstract

【課題】簡便に文字認識用の教師データを生成可能な文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法及びプログラムを提供する。【解決手段】文字認識用教師データ生成装置１は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成する正対化画像生成部２と、正対化画像から正対化背景画像および正対化文字画像を抽出する抽出部３と、基準文字情報に基づき、正対化文字画像が含む文字を識別する識別部４と、正対化背景画像および正対化文字画像を合成した合成文字画像を生成する画像合成部５と、合成文字画像と、合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する教師データ出力部６、を含む。【選択図】図１

Description

本発明は、文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラムに関する。

生産ラインを流れる製品について、誤出荷、取り違えなどを防止するために製品を個別に管理する必要がある。この際、バーコードやRFID等のタグを取り付けて管理されることが一般的に行われている。他方、鉄鋼製品等、製品加工時の環境が過酷な製品では、タグの耐久性が足りず、取り付けることができない。この場合、製品に直接文字を印字（例えば、刻印印字、スタンプ印字、ステンシル吹き付け等）して管理が行われている（例えば、特許文献１等）。

特開２０２１－１６４９４０号公報

このような状況において、画像認識により製品の識別情報を取得するため、製品の画像を撮像するが、刻印等は照明の都合上写真に写りづらい。また、製品を常に正面から撮像できるとは限らない。そして、このように印字された文字は、通常の光学文字認識（Optical character recognition：ＯＣＲ）処理では文字認識を行うことが困難である。この点は、刻印等によって物品を管理している様々な分野において同様である。

このような通常のＯＣＲ処理による認識が困難な文字情報に関し、画像から読取を行うためには、機械学習により辞書データを作成することが考えられるが、撮像画像からの文字認識には、様々な角度から文字を撮像した画像が必要になり、教師データの数が膨大になるという課題がある。

そこで本発明は、簡便に文字認識用の教師データを生成可能な文字認識用教師データ生成装置を提供することを目的とする。

前記目的を達成するために、本発明の文字認識用教師データ生成装置は、
正対化画像生成部、抽出部、識別部、画像合成部、および教師データ出力部を含み、
前記正対化画像生成部は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出部は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別部は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成部は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力部は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。

本発明の学習済みモデル製造装置は、
教師データ取得部、及び学習済みモデル生成部を含み、
前記教師データ取得部は、文字認識用教師データとして、前記本発明の文字認識用教師データ生成装置が出力した文字認識用教師データを取得し、
前記学習済みモデル生成部は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する。

本発明の文字認識装置は、
文字認識対象画像取得部、及び文字認識部を含み、
前記文字認識対象画像取得部は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識部は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、前記本発明の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記本発明の学習済みモデル製造装置により製造された学習済みモデルである。

本発明の文字認識用教師データ生成方法は、
正対化画像生成工程、抽出工程、識別工程、画像合成工程、および教師データ出力工程を含み、
前記正対化画像生成工程は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出工程は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別工程は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成工程は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力工程は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。

本発明の学習済みモデル製造方法は、
教師データ取得工程、及び学習済みモデル生成工程を含み、
前記教師データ取得工程は、文字認識用教師データとして、前記本発明の文字認識用教師データ生成方法により出力された文字認識用教師データを取得し、
前記学習済みモデル生成工程は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する。

本発明の文字認識方法は、
文字認識対象画像取得工程、及び文字認識工程を含み、
前記文字認識対象画像取得工程は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識工程は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、前記本発明の文字認識用教師データ生成方法が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記本発明の学習済みモデル製造方法により製造された学習済みモデルである。

本発明の第１のプログラムは、正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラムである。

本発明の第２のプログラムは、教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、前記第１のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラムである。

本発明の第３のプログラムは、文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、前記第１のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記第２のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラムである

本発明によれば、簡便に文字認識用の教師データを生成できる。

図１は、実施形態１の文字認識用教師データ生成装置の一例の構成を示すブロック図である。図２は、実施形態１の文字認識用教師データ生成装置のハードウェア構成の一例を示すブロック図である。図３は、実施形態１の文字認識用教師データ生成装置における処理の一例を示すフローチャートである。図４は、実施形態１の文字認識用教師データ生成装置が含む正対化画像生成部（画像補正装置）の一例の構成を示すブロック図である。図５は、実施形態１の文字認識用教師データ生成装置が含む正対化画像生成部（画像補正装置）のハードウェア構成の一例を示すブロック図である。図６は、実施形態１の文字認識用教師データ生成装置が含む正対化画像生成部（画像補正装置）における処理の一例を示すフローチャートである。図７は、実施形態１の文字認識用教師データ生成装置が含む正対化画像生成部（画像補正装置）の利用の例を説明する説明図である。図８は、実施形態３の文字認識用教師データ生成装置の一例の構成を示すブロック図である。図９は、実施形態３の文字認識用教師データ生成装置における処理の一例を示すフローチャートである。図１０は、実施形態３の文字認識用教師データ生成装置が処理する画像の例を示す模式図である。図１１は、実施形態４の学習済みモデル製造装置の一例の構成を示すブロック図である。図１２は、実施形態４の学習済みモデル製造装置のハードウェア構成の一例を示すブロック図である。図１３は、実施形態４の学習済みモデル製造装置における処理の一例を示すフローチャートである。図１４は、実施形態５の文字認識装置の一例の構成を示すブロック図である。図１５は、実施形態５の文字認識装置のハードウェア構成の一例を示すブロック図である。図１６は、実施形態５の文字認識装置における処理の一例を示すフローチャートである。

次に、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。

［実施形態１］
本実施形態の文字認識用教師データ生成装置について、図１を用いて説明する。図１は、本実施形態の文字認識用教師データ生成装置１の一例の構成を示すブロック図である。図１に示すように、文字認識用教師データ生成装置１（以下、「本装置１」ともいう）は、正対化画像生成部２、抽出部３、識別部４、画像合成部５、及び教師データ出力部６を含む。また、図示していないが、本装置１は、例えば、記憶部を含んでもよい。

本装置１は、例えば、前記各部を含む１つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置１は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）、ＬＰＷＡ（ＬｏｗＰｏｗｅｒＷｉｄｅＡｒｅａ）、Ｌ５Ｇ（ローカル５Ｇ）、等があげられる。無線通信としては、例えば、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ローカル５Ｇ、ＬＰＷＡ等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、インフラストラクチャ（infrastructure通信）、アクセスポイントを介した間接通信等であってもよい。本装置１は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置１は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。さらに、本装置１は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。具体例として、本装置１は、例えば、正対化画像生成部２を備える装置と、抽出部３、識別部４、画像合成部５、及び教師データ出力部６を備える装置とが、通信回線網を介して接続されている形態があげられる。この場合、本装置１０は、例えば、文字認識用教師データ生成システムともいう。この場合、正対化画像生成部２を備える前記装置は、例えば、正対化画像生成装置または画像補正装置ともいう。正対化画像生成装置または画像補正装置については、後述する。

図２に、本装置１のハードウェア構成のブロック図を例示する。本装置１は、例えば、ＣＰＵ１０１、メモリ１０２、バス１０３、記憶装置１０４、入力装置１０５、出力装置１０６、通信デバイス（通信部）１０７等を含む。本装置１の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス１０３を介して相互に接続されている。

ＣＰＵ１０１は、例えば、コントローラ（システムコントローラ、Ｉ／Ｏコントローラ等）等により、他の構成と連携動作し、本装置１の全体の制御を担う。本装置１において、ＣＰＵ１０１により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、ＣＰＵ１０１が、正対化画像生成部２、抽出部３、識別部４、画像合成部５、及び教師データ出力部６として機能する。本装置１は、演算装置として、ＣＰＵを備えるが、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ（Accelerated Processing Unit）等の他の演算装置を備えてもよいし、ＣＰＵとこれらとの組合せを備えてもよい。

バス１０３は、例えば、外部装置とも接続できる。前記外部装置は、例えば、後述する学習済みモデル製造装置、文字認識装置、外部記憶装置（外部データベース等）、プリンタ、外部入力装置、外部出力装置、スピーカ等の音声出力装置、カメラ等の外部撮像装置、および加速度センサ、地磁気センサ、方向センサ等の各種センサ等があげられる。本装置１は、例えば、バス１０３に接続された通信デバイス１０７により、外部ネットワーク（前記通信回線網）に接続でき、外部ネットワークを介して他の装置と接続することもできる。

メモリ１０２は、例えば、メインメモリ（主記憶装置）が挙げられる。ＣＰＵ１０１が処理を行う際には、例えば、後述する記憶装置１０４に記憶されている本発明のプログラム１０５等の種々の動作プログラムを、メモリ１０２が読み込み、ＣＰＵ１０１は、メモリ１０２からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、ＲＡＭ（ランダムアクセスメモリ）である。また、メモリ１０２は、例えば、ＲＯＭ（読み出し専用メモリ）であってもよい。

記憶装置１０４は、例えば、前記メインメモリ（主記憶装置）に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置１０４には、本発明のプログラムを含む動作プログラム１０５が格納されている。記憶装置１０４は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、ＨＤ（ハードディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＭＯ、ＤＶＤ、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置１０４は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ（ＨＤＤ）、及びソリッドステートドライブ（ＳＳＤ）であってもよい。本装置１が、例えば、前記記憶部を含む場合、記憶装置１０４が前記記憶部として機能する。記憶装置１０４は、例えば、後述する文字認識モデル、基準文字情報を記憶していてもよい。

本装置１において、メモリ１０２及び記憶装置１０４は、ログ情報、外部データベース（図示せず）や外部の装置から取得した情報、本装置１によって生成した情報、本装置１が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。なお、少なくとも一部の情報は、例えば、メモリ１０２及び記憶装置１０４以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。

本装置１は、例えば、さらに、入力装置１０５、出力装置１０６を備える。入力装置１０５は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス；キーボード；カメラ、スキャナ等の撮像手段；ＩＣカードリーダ、磁気カードリーダ等のカードリーダ；マイク等の音声入力手段；等があげられる。出力装置１０６は、例えば、ＬＥＤディスプレイ、液晶ディスプレイ等の表示装置；スピーカ等の音声出力装置；プリンタ；等があげられる。本実施形態１において、入力装置１０５と出力装置１０６とは、別個に構成されているが、入力装置１０５と出力装置１０６とは、タッチパネルディスプレイのように、一体として構成されてもよい。

つぎに、本実施形態の文字認識用教師データ生成方法の一例を、図３のフローチャートに基づき説明する。本実施形態の文字認識用教師データ生成方法は、例えば、図１または図２に示す文字認識用教師データ生成装置１を用いて、次のように実施できる。なお、本実施形態の文字認識用教師データ生成方法は、図１または図２の文字認識用教師データ生成装置１の使用には限定されない。

まず、正対化画像生成部２により、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成する（Ｓ１、正対化画像生成工程）。前記正対化画像は、例えば、本装置１により文字認識を実行する文字認識対象物を含む画像を正対化した画像である。前記文字認識対象物は、文字を含むものであれば特に制限されない。前記文字は、特に制限されないが、例えば、通常のＯＣＲ処理によっては文字認識が困難な文字に対し好適に利用できる。「通常のＯＣＲ処理によっては文字認識が困難な文字」とは、特に制限されず、例えば、ステンシル吹付、スタンプ印字、または刻印印字等の手段によって印字された文字、または手書き文字等があげられる。前記文字認識対象物の具体例としては、例えば、鉄鋼製品等の生産過程において過酷な環境に置かれる物品、読取困難な標識を付される物品（例えば、陶器等）等があげられる。正対化画像生成部２による正対化画像の生成については、実施形態２で後述する。

つぎに、抽出部３は、前記正対化画像から正対化背景画像および正対化文字画像を抽出する（Ｓ２、抽出工程）。抽出部３は、例えば、画像処理により、前記正対化画像における文字が記載された領域を認識し、前記正対化画像から前記文字が記載された領域を切り出すことで前記正対化文字画像を抽出できる。また、抽出部３は、例えば、画像処理により、前記正対化画像における文字が記載されていない領域を認識し、前記文字が記載されていない領域を切り出すことで前記正対化背景画像を抽出できる。前記文字は、特に制限されず、例えば、英字、数字、記号、ひらがな、カタカナ、漢字、その他の文字があげられる。

つぎに、識別部４は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別する（Ｓ３、識別工程）。前記基準文字情報は、例えば、正対化文字画像と正対化文字画像が含む文字の種類とを対応付けた情報である。前記基準文字情報は、例えば、本装置１のメモリ１０２又は記憶装置１０４に記憶されていてもよいし、外部のデータベースまたはサーバに記憶されていてもよい。後者の場合、識別部４は、通信回線網を介して前記外部のデータベースまたはサーバから前記基準文字情報を取得して前記識別を実行する。

つぎに、画像合成部５は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成する（Ｓ４、画像合成工程）。具体的に、画像合成部５は、例えば、前記正対化背景画像および前記正対化文字画像をランダムに選出し、選出された前記正対化背景画像および前記正対化文字画像を合成することにより、前記合成文字画像を生成できる。画像合成部５は、例えば、１つの正対化背景画像に対し、１つの正対化文字画像を合成してもよいし、２以上の複数の正対化文字画像を合成してもよい。前記正対化背景画像において、例えば、前記正対化文字画像を合成する位置（合成位置）は特に制限されず、任意の位置に合成できる。画像合成部５は、例えば、正対化背景画像および正対化文字画像の組に対し、合成位置を変えた複数の合成文字画像を生成してもよい。また、画像合成部５は、例えば、前記正対化文字画像の角度又は大きさの変更、反転等の処理を行い、前記処理後の正対化文字画像を前記正対化背景画像に合成してもよい。また、画像合成部５は、例えば、機械学習を用いて前記合成文字画像を生成してもよい。前記機械学習は、例えば、教師あり機械学習でもよいし、教師なし機械学習でもよく、後者の場合、敵対的生成ネットワーク（GAN：Generative Adversarial Networks）を利用して前記合成文字画像を生成してもよい。

そして、教師データ出力部６は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する（Ｓ５、教師データ出力工程）。また、前記出力は、例えば、本装置１のメモリ１０２又は記憶装置１０４への出力（記憶）でもよいし、通信回線網を介して外部の装置への出力でもよい。前記外部の装置は、例えば、外部記憶装置、又は本装置１が生成した教師データを用いる装置、具体的には、後述する本発明の学習済みモデル製造装置もしくは文字認識装置等があげられる。

対象物を撮像した画像から文字認識を行う場合、入力される画像が撮像される角度は様々であるため、文字認識用の教師データの生成においても、同一の対象を複数の角度から撮像した画像が必要になり、データが膨大な量になる。また、工場などの生産現場において、学習用の教師データを撮像しようにも、ロット番号等は長期間（例えば、１年等）かけないと印字されない文字が存在するため、教師用データの収集に時間がかかる。これに対し、本実施形態の文字認識用教師データ生成装置は、正対化画像から抽出した正対化背景画像および正対化文字画像を合成した合成文字画像を教師データとするため、例えば、入力データの種類が少なくとも、多数のパターンの教師データを生成することができる。このため、本実施形態の文字認識用教師データ生成装置によれば、機械学習に必要なデータ量を低減することができ、また、データ収集の期間を短くすることができ、簡便に文字認識用の教師データを生成できる。

［実施形態２］
実施形態２は、実施形態１の文字認識用教師データ生成装置が含む正対化画像生成部について説明する。以下の説明においては、前記正対化画像生成部が、文字認識用教師データ生成装置と通信可能な独立した画像補正装置である場合を例に挙げて説明するが、本発明はこれには限定されず、前述のように正対化画像生成部は、文字認識用教師データ生成装置が含む構成であってもよい。

本実施形態の画像補正装置について、図４を用いて説明する。図４は、本実施形態の画像補正装置２の一例の構成を示すブロック図である。図４に示すように、画像補正装置２（以下、「本装置２」ともいう）は、画像取得部２１、端末情報取得部２２、距離情報取得部２３、基準姿勢情報取得部２４、基準面設定部２５、画像補正部２６を含む。また、図示していないが、本装置２は、例えば、記憶部を含んでもよい。

本装置２は、例えば、前記各部を含む１つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置２は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）、ＬＰＷＡ（ＬｏｗＰｏｗｅｒＷｉｄｅＡｒｅａ）、Ｌ５Ｇ（ローカル５Ｇ）、等があげられる。無線通信としては、例えば、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ローカル５Ｇ、ＬＰＷＡ等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、インフラストラクチャ（infrastructure通信）、アクセスポイントを介した間接通信等であってもよい。本装置２は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置２は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。本装置２は、対象物を撮像可能な撮像端末（例えば、カメラ付きのスマートフォン、タブレット端末等）であってもよいし、前記撮像端末と通信可能な装置であってもよい。さらに、本装置２は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。

図５に、本装置２のハードウェア構成のブロック図を例示する。本装置２は、例えば、ＣＰＵ２０１、メモリ２０２、バス２０３、記憶装置２０４、入力装置２０５、出力装置２０６、通信デバイス（通信部）２０７等を含む。本装置２の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス２０３を介して相互に接続されている。

ＣＰＵ２０１は、例えば、コントローラ（システムコントローラ、Ｉ／Ｏコントローラ等）等により、他の構成と連携動作し、本装置２の全体の制御を担う。本装置２において、ＣＰＵ２０１により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、ＣＰＵ２０１が、画像取得部２１、端末情報取得部２２、距離情報取得部２３、基準姿勢情報取得部２４、基準面設定部２５、画像補正部２６として機能する。本装置２は、演算装置として、ＣＰＵを備えるが、ＧＰＵ（Graphics Processing Unit）、ＡＰＵ（Accelerated Processing Unit）等の他の演算装置を備えてもよいし、ＣＰＵとこれらとの組合せを備えてもよい。

バス２０３は、例えば、外部装置とも接続できる。前記外部装置は、例えば、前記本発明の文字認識用教師データ生成装置、外部記憶装置（外部データベース等）、プリンタ、外部入力装置、外部表示装置、スピーカ等の音声出力装置、カメラ等の外部撮像装置、および加速度センサ、地磁気センサ、方向センサ等の各種センサ等があげられる。本装置２は、例えば、バス２０３に接続された通信デバイス２０７により、外部ネットワーク（前記通信回線網）に接続でき、外部ネットワークを介して、ユーザの端末等の他の装置と接続することもできる。

メモリ２０２は、例えば、メインメモリ（主記憶装置）が挙げられる。ＣＰＵ２０１が処理を行う際には、例えば、後述する記憶装置２０４に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ２０２が読み込み、ＣＰＵ２０１は、メモリ２０２からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、ＲＡＭ（ランダムアクセスメモリ）である。また、メモリ２０２は、例えば、ＲＯＭ（読み出し専用メモリ）であってもよい。

記憶装置２０４は、例えば、前記メインメモリ（主記憶装置）に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置２０４には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置２０４は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、ＨＤ（ハードディスク）、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＣＤ－ＲＷ、ＭＯ、ＤＶＤ、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置２０４は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ（ＨＤＤ）、及びソリッドステートドライブ（ＳＳＤ）であってもよい。本装置２が、例えば、前記記憶部を含む場合、記憶装置２０４が前記記憶部として機能する。記憶装置２０４は、例えば、後述する補正対象画像、基準姿勢情報、対象物距離情報、正対化基準面、および正対化画像の少なくとも一つを記憶していてもよい。

本装置２において、メモリ２０２及び記憶装置２０４は、ログ情報、外部データベース（図示せず）や外部の装置から取得した情報、本装置２によって生成した情報、本装置２が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。なお、少なくとも一部の情報は、例えば、メモリ２０２及び記憶装置２０４以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。

本装置２は、例えば、さらに、入力装置２０５、出力装置２０６を備える。入力装置２０５は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス；キーボード；カメラ、スキャナ等の撮像手段；ＩＣカードリーダ、磁気カードリーダ等のカードリーダ；マイク等の音声入力手段；等があげられる。出力装置２０６は、例えば、ＬＥＤディスプレイ、液晶ディスプレイ等の表示装置；スピーカ等の音声出力装置；プリンタ；等があげられる。本実施形態１において、入力装置２０５と出力装置２０６とは、別個に構成されているが、入力装置２０５と出力装置２０６とは、タッチパネルディスプレイのように、一体として構成されてもよい。

つぎに、本実施形態の画像補正方法（正対化画像生成工程）の一例を、図６のフローチャートに基づき説明する。本実施形態の画像補正方法は、例えば、図４から図５に示す画像補正装置２を用いて、次のように実施する。なお、本実施形態の画像補正方法は、図４から図５の画像補正装置２の使用には限定されない。

まず、画像補正装置２の画像取得部２１は、補正対象画像を取得する（Ｓ１Ａ、画像取得工程）。前記補正対象画像は、例えば、対象物を含む画像である。画像取得部２１は、本装置２が備えるカメラ等の撮像装置により、前記補正対象画像を取得してもよいし、通信回線網を介して本装置外部の撮像装置から前記補正対象画像を取得してもよい。前記補正対象画像は、例えば、動画でもよいし静止画でもよく、また、撮像済みの画像でもよいし、撮像プレビュー画像でもよい。前記補正対象画像が撮像プレビュー画像である場合、画像取得部２１は、例えば、前記撮像プレビュー画像をリアルタイムに取得する。画像取得部２１は、例えば、取得した前記補正対象画像を記憶装置２０４またはメモリ２０２に記憶してもよい。

つぎに、端末情報取得部２２は、端末姿勢情報を取得する（Ｓ１Ｂ、端末情報取得工程）。前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、例えば、撮像端末が備えるジャイロセンサ、加速度センサ、地磁気センサ、距離センサ（例えば、3D-Lidar等の光学センサ、ミリ波センサ、超音波センサ等）等から推定できる。また、前記端末姿勢情報は、例えば、補正対象画像取得時の撮像端末を外部から撮像し、前記撮像した画像から前記撮像端末の姿勢を推定した情報でもよい。前記端末姿勢情報は、例えば、ジャイロセンサの情報を含むことが好ましい。前記姿勢情報は、例えば、Ｘ軸（例えば、Ｒｏｌｌ軸ともいう）、Ｙ軸（例えば、Ｐｉｔｃｈ軸ともいう）およびＺ軸（例えば、Ｙａｗ軸ともいう）の３軸における撮像端末の姿勢座標系の情報である。端末情報取得部２２は、例えば、取得した前記端末姿勢情報を記憶装置２０４またはメモリ２０２に記憶してもよい。

前記端末姿勢情報は、例えば、その他の情報を含んでもよい。前記その他の情報は、例えば、撮影場所の情報、撮影日時情報、ユーザの識別情報（氏名、ＩＤ、端末識別情報等）を含んでもよい。

つぎに、距離情報取得部２３は、対象物距離情報を取得する（Ｓ１Ｃ、距離情報取得工程）。前記対象物距離情報は、例えば、予め規定された所定の距離（例えば、暫定撮影距離ともいう）でもよいし、撮像端末が備える距離センサ（例えば、3D-Lidar等の光学センサ、ミリ波センサ、超音波センサ等）により、撮像端末から対象物までの距離を測定した距離でもよいし、前記補正対象画像に含まれる対象物の大きさから推定した距離でもよい。前記対象物の大きさからの距離の推定は、例えば、実際の距離と、画像中における画素数とを対応づけた距離変換情報を利用することで、前記対象物が存在する距離を算出できる。前記距離変換情報は、例えば、前記記憶部に記憶されていてもよいし、外部のデータベースに記憶されていてもよい。

つぎに、基準姿勢情報取得部２４は、基準姿勢情報を取得する（Ｓ１Ｄ、基準姿勢情報取得工程）。前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、例えば、予め設定された所定の値でもよいし、対象物が備えるジャイロセンサ、加速度センサ、地磁気センサ等から推定した情報でもよい。また、前記基準姿勢情報は、例えば、補正対象画像取得時の対象物を外部から撮像し、前記撮像した画像から前記対象物の姿勢を推定した情報でもよい。前記画像は、例えば、前記撮像端末により撮像された前記補正対象画像でもよいし、それ以外の装置が撮像した画像でもよい。前記基準姿勢情報は、例えば、Ｘ軸（例えば、Ｒｏｌｌ軸ともいう）、Ｙ軸（例えば、Ｐｉｔｃｈ軸ともいう）およびＺ軸（例えば、Ｙａｗ軸ともいう）の３軸における対象物の姿勢座標系の情報である。基準姿勢情報取得部２４は、例えば、取得した前記基準姿勢情報を記憶装置２０４またはメモリ２０２に記憶してもよい。

つぎに、基準面設定部２５は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定する（Ｓ１Ｅ、基準面設定工程）。前記正対化基準面は、例えば、前記対象物における任意の平面があげられる。前記対象物が、例えば、生産ラインにおける鋼板である場合、前記正対化基準面は、例えば、前記鋼板において識別番号等が印字された面があげられる。

そして、画像補正部２６は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する（Ｓ１Ｆ、画像補正工程）。画像補正部２６は、例えば、前記補正対象画像における任意に指定した４点の座標について、前記端末姿勢情報および前記基準姿勢情報に基づいて、対象物を前記正対化基準面の垂直方向から見た際に対応する４点の座標を推定し、射影変換により補正対象画像を正対化画像に補正する。前記４点の座標は、特に制限されず、例えば、補正対象画像における任意の座標が指定できるが、例えば、補正対象画像に含まれる対象物の特徴点の周辺領域の座標であることが好ましい。前記特徴点は、例えば、対象物の識別情報（例えば、刻印、ステンシル印字、スタンプ印字等がされた製品管理番号等）があげられる。また、画像補正部２６は、例えば、前記補正対象画像が撮影プレビュー画像である場合、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する。また、画像補正部２６は、例えば、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正してもよい。前記所定の範囲は、例えば、前記撮影プレビュー画像における文字を含む領域があげられる。この場合、画像補正部２６は、例えば、公知の文字認識技術を用いて前記撮影プレビュー画像から文字候補領域を抽出し、前記文字候補領域を基準とした矩形範囲をトリミングし、トリミング後の画像を正対化画像に補正できる。なお、文字候補領域の抽出において、例えば、画像補正装置２により生成された正対化画像を用いた機械学習により作成した学習済みモデル（例えば、後述する実施形態４の学習済みモデル製造装置４０により生成された学習済みモデル）を用いて、前記プレビュー画像から文字候補領域を抽出してもよい。

図７を用いて、本装置２による画像補正の具体例を説明する。以下の説明において、画像補正装置２は、カメラ機能付きタブレット端末であり、前記タブレット端末を用いて、生産ラインにある鉄鋼製品の画像を撮像する場合を例に挙げて説明するが、本発明は以下の例示に何ら制限されない。

まず、図７（Ａ）に示すように、本装置２であるタブレット端末２のカメラ機能により、対象物３０を捉え、補正対象画像として、カメラのプレビュー画像を取得する。つぎに、端末姿勢情報として、タブレット端末２のジャイロセンサから、図７（Ａ）において実線の矢印で示すモバイル端末（タブレット端末）の姿勢座標系を取得する。また、基準姿勢情報として、図７（Ａ）において破線の矢印で示す対象物の姿勢座標系を取得する。つぎに、本装置２は、前記プレビュー画像に含まれる対象物を検出し、検出した対象物の大きさから、本装置２と対象物までの距離を推定する。つぎに、本装置２は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、前記プレビュー画像における対象物の面を特定し、前記面を正対化基準面に設定する。つぎに、本装置２は、図７（Ｂ）に黒色丸印で示す、前記プレビュー画像における任意に指定した４点の座標を指定する。そして、前記４点の座標について、前記端末姿勢情報および前記基準姿勢情報に基づいて、対象物３０を前記正対化基準面の垂直方向から見た際に対応する４点の座標（図７（Ｂ）において、白色丸印で示す）を推定し、射影変換により補正対象画像を正対化画像に補正する。

本実施形態の画像補正装置２によれば、前記端末姿勢情報に基づいて、前記補正対象画像を、正対化基準面に対して正対した正対化画像を容易に生成できる。

［実施形態３］
実施形態３は、本発明の文字認識用教師データ生成装置の他の例である。

本実施形態の文字認識用教師データ生成装置は、実施形態１の文字認識用教師データ生成装置１の構成に加えて、画像加工部を含むこと以外は前記実施形態１の文字認識用教師データ生成装置１と同様であり、その説明を援用できる。本実施形態の文字認識用教師データ生成装置１Ａは、例えば、画像加工部を含み、前記合成文字画像を加工した加工文字画像を生成し、前記教師データ出力部は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。

図８は、本実施形態の文字認識用教師データ生成装置１Ａの一例の構成を示すブロック図である。図８に示すように、文字認識用教師データ生成装置１Ａは、実施形態１の文字認識用教師データ生成装置１の構成に加えて、画像加工部７を備える。文字認識用教師データ生成装置１Ａのハードウェア構成は、図２の文字認識用教師データ生成装置１のハードウェア構成において、ＣＰＵ１０１が、図１の文字認識用教師データ生成装置１の構成に代えて、図８の文字認識用教師データ生成装置１Ａの構成を備える以外は同様である。

つぎに、本実施形態の文字認識用教師データ生成方法について、図９のフローチャートを用いて説明する。本実施形態の文字認識用教師データ生成方法は、例えば、図８に示す本実施形態の文字認識用教師データ生成装置１Ａを用いて実施できる。なお、本発明の文字認識用教師データ生成方法は、文字認識用教師データ生成装置１Ａの使用に限定されない。

まず、前記実施形態１のＳ１～Ｓ４と同様にしてＳ１～Ｓ４を実施し、合成文字画像を生成する。

画像加工部７は、例えば、前記合成文字画像を加工した加工文字画像を生成する（Ｓ６、画像加工工程）。前記加工は、例えば、一般的な画像認識を用いる教師データ作成における画像データの拡張方法が利用でき、具体例として、前記画像の色合い、大きさ、傾き、パース等の変更、水平シフト、ランダムシフト、水平反転、垂直反転、シアー変換、ＲＧＢチャンネル変換、背景の切り抜き等があげられる。画像加工部７は、例えば、合成文字画像に対し、文字の欠け、汚れ、足跡、擦れ等の追加、明るさの変更、照明の変更（照度、角度、色合い等）等の加工を行ってもよい。図１０に、正対化背景画像、正対化文字画像、および画像加工部７による加工文字画像の一例を示す。

つぎに、教師データ出力部６は、例えば、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力すること以外は、前記実施形態１のＳ５と同様にしてＳ５を実施し、処理を終了する（ＥＮＤ）。

本実施形態の文字認識用教師データ生成装置は、例えば、画像加工部により、前記合成文字画像を加工した加工文字画像を生成できる。このため、本実施形態の文字認識用教師データ生成装置によれば、例えば、さらに、文字認識用の教師データの必要量を抑制し、精度良い文字認識が可能となる文字認識用教師データを生成できる。

［実施形態４］
実施形態４は、本発明の学習済みモデル製造装置の例である。

本実施形態の学習済みモデル製造装置について、図１１を用いて説明する。図１１は、本実施形態の学習済みモデル製造装置４０の一例の構成を示すブロック図である。図１１に示すように、学習済みモデル製造装置４０は、教師データ取得部４１、及び学習済みモデル生成部４２を含む。また、図示していないが、学習済みモデル製造装置４０は、例えば、記憶部を含んでもよい。

学習済みモデル製造装置４０は、例えば、前記各部を含む１つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、学習済みモデル製造装置４０は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）、ＬＰＷＡ（ＬｏｗＰｏｗｅｒＷｉｄｅＡｒｅａ）、Ｌ５Ｇ（ローカル５Ｇ）、等があげられる。無線通信としては、例えば、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ローカル５Ｇ、ＬＰＷＡ等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、インフラストラクチャ（infrastructure通信）、アクセスポイントを介した間接通信等であってもよい。学習済みモデル製造装置４０は、例えば、システムとしてサーバに組み込まれていてもよい。また、学習済みモデル製造装置４０は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。さらに、学習済みモデル製造装置４０は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。

図１２に、学習済みモデル製造装置４０のハードウェア構成のブロック図を例示する。図１２に示すように、学習済みモデル製造装置４０は、例えば、ＣＰＵ４０１、メモリ４０２、バス４０３、記憶装置４０４、入力装置４０５、出力装置４０６、通信デバイス４０７等を備える。学習済みモデル製造装置４０の各構成の説明は、文字認識用教師データ生成装置１の各構成の説明を援用できる。学習済みモデル製造装置４０の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス４０３を介して接続されている。学習済みモデル製造装置４０において、ＣＰＵ４０１が教師データ取得部４１、及び学習済みモデル生成部４２として機能する。

つぎに、本実施形態の学習済みモデルの製造方法の一例を、図１３のフローチャートに基づき説明する。本実施形態の学習済みモデルの製造方法は、例えば、図１１及び図１２の学習済みモデル製造装置４０を用いて、次のように実施する。なお、本実施形態の学習済みモデルの製造方法は、図１１及び図１２の学習済みモデル製造装置４０の使用には限定されない。

まず、教師データ取得部４１により、文字認識用教師データとして、前記本発明の文字認識用教師データ生成装置が出力した文字認識用教師データを取得する（Ｓ４１、教師データ取得工程）。教師データ取得部４１は、例えば、前記通信回線網を介して、前記本発明の文字認識用教師データ生成装置から文字認識用教師データを取得してもよいし、前記文字認識用教師データが記憶された外部記憶装置から前記文字認識用教師データを取得してもよい。

つぎに、学習済みモデル生成部４１は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する（Ｓ４２、学習工程）。前記機械学習は、特に制限されず、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）等のニューラルネットワーク、ＳＶＭ（Support Vector Machine）、ベイジアンネットワーク、回帰木等を用いた機械学習である。前記ＣＮＮを用いた機械学習は、特に制限されず、例えば、セマンティック・セグメンテーション（Semantic Segmentation）、インスタンス・セグメンテーション（Instance Segmentation: IS）, シングルショット検出（Single shot detector: SSD)、加重シングルショット検出（Weighted Single Shot Detector: WSSD)等があげられる。また、学習済みモデル生成部４１は、例えば、前記文字認識用教師データと、既に生成された学習済モデルとを用いて、再学習させた学習済モデル（派生モデル）を生成してもよい。さらに、学習済みモデル生成部４１は、前記文字認識用教師データを用いて生成した学習済みモデルを用いて転移学習することにより得られた学習済みモデルを生成してもよいし、前記文字認識用教師データを用いて生成した学習済みモデルをモデル圧縮することにより前記学習済みモデルを生成してもよい。

本実施形態によって生成される学習済みモデルは、例えば、後述する文字認識装置に使用される。これにより、文字認識対象を撮像した文字認識対象画像を用いて文字認識対象画像中の文字認識が可能となる。

［実施形態５］
実施形態５は、本発明の文字認識装置の例である。

本実施形態の文字認識装置について、図１４を用いて説明する。図１４は、本実施形態の文字認識装置５０の一例の構成を示すブロック図である。図１４に示すように、文字認識装置５０は、文字認識対象画像取得部５１、及び文字認識部５２を含む。また、図示していないが、文字認識装置５０は、例えば、記憶部を含んでもよい。

文字認識装置５０は、例えば、前記各部を含む１つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、文字認識装置５０は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、ＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）、電話回線、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ）、ＤＴＮ（ＤｅｌａｙＴｏｌｅｒａｎｔＮｅｔｗｏｒｋｉｎｇ）、ＬＰＷＡ（ＬｏｗＰｏｗｅｒＷｉｄｅＡｒｅａ）、Ｌ５Ｇ（ローカル５Ｇ）、等があげられる。無線通信としては、例えば、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ローカル５Ｇ、ＬＰＷＡ等が挙げられる。前記無線通信としては、各装置が直接通信する形態（ＡｄＨｏｃ通信）、インフラストラクチャ（infrastructure通信）、アクセスポイントを介した間接通信等であってもよい。文字認識装置５０は、例えば、システムとしてサーバに組み込まれていてもよい。また、文字認識装置５０は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ（ＰＣ、例えば、デスクトップ型、ノート型）、スマートフォン、タブレット端末等であってもよい。さらに、文字認識装置５０は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。

図１５に、文字認識装置５０のハードウェア構成のブロック図を例示する。図１５に示すように、文字認識装置５０は、例えば、ＣＰＵ５０１、メモリ５０２、バス５０３、記憶装置５０４、入力装置５０５、出力装置５０６、通信デバイス５０７等を備える。文字認識装置５０の各構成の説明は、文字認識用教師データ生成装置１の各構成の説明を援用できる。文字認識装置５０の各部は、それぞれのインタフェース（Ｉ／Ｆ）により、バス５０３を介して接続されている。文字認識装置５０において、ＣＰＵ５０１が文字認識対象画像取得部５１、及び文字認識部５２として機能する。

つぎに、本実施形態の文字認識方法の一例を、図１６のフローチャートに基づき説明する。本実施形態の文字認識方法は、例えば、図１４及び図１５の文字認識装置５０を用いて、次のように実施する。なお、本実施形態の学習済みモデルの製造方法は、図１４及び図１５の文字認識装置５０の使用には限定されない。

まず、文字認識対象画像取得部５１により、文字認識対象を撮像した文字認識対象画像を取得する（Ｓ５１、文字認識対象画像取得工程）。前記文字認識対象画像は、例えば、静止画でもよいし、動画でもよく、動画から切り出した静止画でもよい。文字認識対象画像取得部５１は、例えば、連続的に画像を取得してもよいし、断続的に画像を取得してもよく、後者の場合、所定時間経過毎に画像を取得してもよいし、任意のタイミングで画像を取得してもよい。文字認識対象画像取得部５１は、例えば、入力装置５０６である前記撮像装置によって前記文字認識対象を撮像することにより前記文字認識対象画像を取得してもよいが、通信デバイス５０８により、前記通信回線網を介して外部の撮像装置から前記文字認識対象画像を取得してもよい。文字認識対象画像取得部５１は、例えば、取得した文字認識対象画像をメモリ５０２又は記憶装置５０４に記憶してもよい。

文字認識部５２は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識する（Ｓ５２、文字認識工程）。前記文字認識モデルは、例えば、前記本発明の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、前記文字認識対象画像を入力した場合に、前記文字認識対象が含む文字を出力するよう生成された学習済みモデルである。なお、前記文字認識モデルは、例えば、前記実施形態４の学習済みモデル製造装置により製造された学習モデルでもよい。

前記文字認識モデルは、例えば、文字認識対象画像を入力する入力層と、前記文字認識結果を出力する出力層と、入力層と出力層との間に設けられる少なくとも１層の中間層とを含む。前記文字認識モデルは、人工知能ソフトウェアの一部であるプログラムモジュールであってもよい。前記多層化ネットワークとしては、例えば、ニューラルネットワーク等が挙げられる。前記ニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ：ＣＮＮ）等が挙げられるが、ＣＮＮに限定されず、ＣＮＮ以外のニューラルネットワーク、ＳＶＭ（Support Vector Machine）、ベイジアンネットワーク、回帰木等の他の学習アルゴリズムで構築された学習済みモデルであってもよい。

前記文字認識モデルは、例えば、前記本発明の文字認識用教師データ生成装置が生成した教師データを機械学習によって生成できる。なお、前記文字認識モデルは、例えば、予め生成された学習済モデルでもよい。また、前記学習済モデルは、前記文字認識用教師データと、既に生成された学習済モデルとを用いて、再学習させた学習済モデル（派生モデル）でもよい。さらに、前記学習済モデルは、文字認識用教師データを用いて生成した学習済モデルを用いて転移学習することにより得られた学習済モデルでもよいし、文字認識用教師データを用いて生成した学習済モデルをモデル圧縮することに生成した学習済モデルでもよい。

文字認識装置５０は、例えば、出力部を含んでもよい。この場合、前記出力部は、例えば、前記文字認識結果を出力する。前記出力部は、例えば、前記通信回線網を介して装置外の端末に前記文字認識結果を出力してもよいし、出力装置５０７に前記文字認識結果を出力してもよい。また、出力された前記文字認識結果は、例えば、メモリ５０２又は記憶装置５０４に記憶されてもよい。

本実施形態の文字認識方法において、Ｓ５１～Ｓ５２を順次実行する場合を例に挙げて説明したが、本発明はこれには制限されない。具体的に、本発明において、Ｓ５１とＳ５２とは、例えば、同時に実行してもよいし、別個に実行してもよく、後者の場合、実行する順序は特に制限されず任意である。

本実施形態の文字認識装置によれば、例えば、機械学習により生成した文字認識モデルを用いた文字認識が可能となる。

［実施形態６］
本実施形態の第１のプログラムは、前述の文字認識用教師データ生成方法の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態の第１のプログラムは、コンピュータに、正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を実行させるためのプログラムである。

前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。

また、本実施形態の第１のプログラムは、コンピュータを、正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順として機能させるプログラムということもできる。

本実施形態の第１のプログラムは、前記本発明の文字認識用教師データ生成装置および文字認識用教師データ生成方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体（non-transitory computer-readable storage medium）である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスク（ＨＤ）、光ディスク、フロッピー（登録商標）ディスク（ＦＤ）等があげられる。

［実施形態７］
本実施形態の第２のプログラムは、前述の学習済みモデル製造方法の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態の第２のプログラムは、コンピュータに、教師データ取得手順、及び学習済みモデル生成手順を実行させるためのプログラムである。

前記教師データ取得手順は、文字認識用教師データとして、前記第１のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する。

また、本実施形態の第２のプログラムは、コンピュータを、教師データ取得手順、及び学習済みモデル生成手順として機能させるプログラムということもできる。

本実施形態の第２のプログラムは、前記本発明の学習済みモデル製造装置および学習済みモデル製造方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体（non-transitory computer-readable storage medium）である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスク（ＨＤ）、光ディスク、フロッピー（登録商標）ディスク（ＦＤ）等があげられる。

［実施形態８］
本実施形態の第３のプログラムは、前述の文字認識方法の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態の第３のプログラムは、コンピュータに、文字認識対象画像取得手順、及び文字認識手順を実行させるためのプログラムである。

前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは前記第１のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記第２のプログラムにより製造された学習済みモデルである。

また、本実施形態の第３のプログラムは、コンピュータを、文字認識対象画像取得手順、及び文字認識手順として機能させるプログラムということもできる。

本実施形態の第３のプログラムは、前記本発明の文字認識装置および文字認識方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体（non-transitory computer-readable storage medium）である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、ハードディスク（ＨＤ）、光ディスク、フロッピー（登録商標）ディスク（ＦＤ）等があげられる。

以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。

＜付記＞
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
（付記１）
正対化画像生成部、抽出部、識別部、画像合成部、および教師データ出力部を含み、
前記正対化画像生成部は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出部は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別部は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成部は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力部は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成装置。
（付記２）
画像加工部を含み、
前記画像加工部は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力部は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記１記載の文字認識用教師データ生成装置。
（付記３）
前記正対化画像生成部は、画像取得部、端末情報取得部、距離情報取得部、基準姿勢情報取得部、基準面設定部、および画像補正部を含み、
前記画像取得部は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得部は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得部は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得部は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定部は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正部は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記１または２記載の文字認識用教師データ生成装置。
（付記４）
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記３記載の文字認識用教師データ生成装置。
（付記５）
前記画像取得部は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正部は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記３または４記載の文字認識用教師データ生成装置。
（付記６）
前記画像補正部は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記３から５のいずれかに記載の文字認識用教師データ生成装置。
（付記７）
教師データ取得部、及び学習済みモデル生成部を含み、
前記教師データ取得部は、文字認識用教師データとして、付記１から６のいずれかに記載の文字認識用教師データ生成装置が出力した文字認識用教師データを取得し、
前記学習済みモデル生成部は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造装置。
（付記８）
文字認識対象画像取得部、及び文字認識部を含み、
前記文字認識対象画像取得部は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識部は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記１から６のいずれかに記載の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記６記載の学習済みモデル製造装置により製造された学習済みモデルである、文字認識装置。
（付記９）
正対化画像生成工程、抽出工程、識別工程、画像合成工程、および教師データ出力工程を含み、
前記正対化画像生成工程は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出工程は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別工程は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成工程は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力工程は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成方法。
（付記１０）
画像加工工程を含み、
前記画像加工工程は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力工程は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記９記載の文字認識用教師データ生成方法。
（付記１１）
前記正対化画像生成工程は、画像取得工程、端末情報取得工程、距離情報取得工程、基準姿勢情報取得工程、基準面設定工程、および画像補正工程を含み、
前記画像取得工程は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得工程は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得工程は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得工程は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定工程は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正工程は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記９または１０記載の文字認識用教師データ生成方法。
（付記１２）
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記１１記載の文字認識用教師データ生成方法。
（付記１３）
前記画像取得工程は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正工程は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記１１または１２記載の文字認識用教師データ生成方法。
（付記１４）
前記画像補正工程は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記１１から１３のいずれかに記載の文字認識用教師データ生成方法。
（付記１５）
教師データ取得工程、及び学習済みモデル生成工程を含み、
前記教師データ取得工程は、文字認識用教師データとして、付記９から１４のいずれかに記載の文字認識用教師データ生成方法により出力された文字認識用教師データを取得し、
前記学習済みモデル生成工程は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造方法。
（付記１６）
文字認識対象画像取得工程、及び文字認識工程を含み、
前記文字認識対象画像取得工程は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識工程は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記９から１４のいずれかに記載の文字認識用教師データ生成方法が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記１５記載の学習済みモデル製造方法により製造された学習済みモデルである、文字認識方法。
（付記１７）
正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラム。
（付記１８）
画像加工手順を含み、
前記画像加工手順は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力手順は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記１７記載のプログラム。
（付記１９）
前記正対化画像生成手順は、画像取得手順、端末情報取得手順、距離情報取得手順、基準姿勢情報取得手順、基準面設定手順、および画像補正手順を含み、
前記画像取得手順は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得手順は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得手順は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得手順は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定手順は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正手順は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記１７または１８記載のプログラム。
（付記２０）
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記１９記載のプログラム。
（付記２１）
前記画像取得手順は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正手順は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記１９または２０記載のプログラム。
（付記２２）
前記画像補正手順は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記１９から２１のいずれかに記載のプログラム。
（付記２３）
教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、付記１７から２２のいずれかに記載のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラム。
（付記２４）
文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記１７から２２のいずれかに記載のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記２３記載のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラム。
（付記２５）
正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
（付記２６）
画像加工手順を含み、
前記画像加工手順は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力手順は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記２５記載の記録媒体。
（付記２７）
前記正対化画像生成手順は、画像取得手順、端末情報取得手順、距離情報取得手順、基準姿勢情報取得手順、基準面設定手順、および画像補正手順を含み、
前記画像取得手順は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得手順は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得手順は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得手順は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定手順は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正手順は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記２５または２６記載の記録媒体。
（付記２８）
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記２７記載の記録媒体。
（付記２９）
前記画像取得手順は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正手順は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記２７または２８記載の記録媒体。
（付記３０）
前記画像補正手順は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記２７から２９のいずれかに記載の記録媒体。
（付記３１）
教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、付記１７から２２のいずれかに記載のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
（付記３２）
文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記１７から２２のいずれかに記載のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記２３記載のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。

本発明によれば、簡便に文字認識用の教師データを生成できる。このため、本発明は、画像を用いた文字認識を利用する分野において広く有用である。

１文字認識用教師データ生成装置
２正対化画像生成部
３抽出部
４識別部
５画像合成部
６教師データ出力部
７画像加工部
１０１ＣＰＵ
１０２メモリ
１０３バス
１０４記憶装置
１０５入力装置
１０６出力装置
１０７通信デバイス
２画像補正装置（正対化画像生成部）
２１画像取得部
２２端末情報取得部
２３距離情報取得部
２４基準姿勢情報取得部
２５基準面設定部
２６画像補正部
２０文字認識装置
２１文字認識部
２０１ＣＰＵ
２０２メモリ
２０３バス
２０４記憶装置
２０５入力装置
２０６出力装置
２０７通信デバイス
４０学習済みモデル製造装置
４１教師データ取得部
４２学習済みモデル生成部
４０１ＣＰＵ
４０２メモリ
４０３バス
４０４記憶装置
４０５入力装置
４０６出力装置
４０７通信デバイス
５０文字認識装置
５１文字認識対象画像取得部
５２文字認識部
５０１ＣＰＵ
５０２メモリ
５０３バス
５０４記憶装置
５０５入力装置
５０６出力装置
５０７通信デバイス

Claims

正対化画像生成部、抽出部、識別部、画像合成部、および教師データ出力部を含み、
前記正対化画像生成部は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出部は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別部は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成部は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力部は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成装置。
画像加工部を含み、
前記画像加工部は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力部は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、請求項１記載の文字認識用教師データ生成装置。
教師データ取得部、及び学習済みモデル生成部を含み、
前記教師データ取得部は、文字認識用教師データとして、請求項１または２に記載の文字認識用教師データ生成装置が出力した文字認識用教師データを取得し、
前記学習済みモデル生成部は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造装置。
文字認識対象画像取得部、及び文字認識部を含み、
前記文字認識対象画像取得部は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識部は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、請求項１または２に記載の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデル、および請求項３記載の学習済みモデル製造装置により製造された学習済みモデルの少なくとも一方である、文字認識装置。
正対化画像生成工程、抽出工程、識別工程、画像合成工程、および教師データ出力工程を含み、
前記正対化画像生成工程は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出工程は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別工程は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成工程は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力工程は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成方法。
教師データ取得工程、及び学習済みモデル生成工程を含み、
前記教師データ取得工程は、文字認識用教師データとして、請求項５記載の文字認識用教師データ生成方法により出力された文字認識用教師データを取得し、
前記学習済みモデル生成工程は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造方法。
文字認識対象画像取得工程、及び文字認識工程を含み、
前記文字認識対象画像取得工程は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識工程は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、請求項５記載の文字認識用教師データ生成方法が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は請求項６記載の学習済みモデル製造方法により製造された学習済みモデルである、文字認識方法。
正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラム。
教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、請求項８記載のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラム。
文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、請求項８記載のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は請求項９記載のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラム。