JP2024000579A - 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム - Google Patents

文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム Download PDF

Info

Publication number
JP2024000579A
JP2024000579A JP2022099315A JP2022099315A JP2024000579A JP 2024000579 A JP2024000579 A JP 2024000579A JP 2022099315 A JP2022099315 A JP 2022099315A JP 2022099315 A JP2022099315 A JP 2022099315A JP 2024000579 A JP2024000579 A JP 2024000579A
Authority
JP
Japan
Prior art keywords
character recognition
image
character
teacher data
facing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022099315A
Other languages
English (en)
Inventor
裕司 堀場
Yuji Horiba
昌紀 近藤
Masanori Kondo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Solution Innovators Ltd filed Critical NEC Solution Innovators Ltd
Priority to JP2022099315A priority Critical patent/JP2024000579A/ja
Publication of JP2024000579A publication Critical patent/JP2024000579A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】簡便に文字認識用の教師データを生成可能な文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法及びプログラムを提供する。【解決手段】文字認識用教師データ生成装置1は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成する正対化画像生成部2と、正対化画像から正対化背景画像および正対化文字画像を抽出する抽出部3と、基準文字情報に基づき、正対化文字画像が含む文字を識別する識別部4と、正対化背景画像および正対化文字画像を合成した合成文字画像を生成する画像合成部5と、合成文字画像と、合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する教師データ出力部6、を含む。【選択図】図1

Description

本発明は、文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラムに関する。
生産ラインを流れる製品について、誤出荷、取り違えなどを防止するために製品を個別に管理する必要がある。この際、バーコードやRFID等のタグを取り付けて管理されることが一般的に行われている。他方、鉄鋼製品等、製品加工時の環境が過酷な製品では、タグの耐久性が足りず、取り付けることができない。この場合、製品に直接文字を印字(例えば、刻印印字、スタンプ印字、ステンシル吹き付け等)して管理が行われている(例えば、特許文献1等)。
特開2021-164940号公報
このような状況において、画像認識により製品の識別情報を取得するため、製品の画像を撮像するが、刻印等は照明の都合上写真に写りづらい。また、製品を常に正面から撮像できるとは限らない。そして、このように印字された文字は、通常の光学文字認識(Optical character recognition:OCR)処理では文字認識を行うことが困難である。この点は、刻印等によって物品を管理している様々な分野において同様である。
このような通常のOCR処理による認識が困難な文字情報に関し、画像から読取を行うためには、機械学習により辞書データを作成することが考えられるが、撮像画像からの文字認識には、様々な角度から文字を撮像した画像が必要になり、教師データの数が膨大になるという課題がある。
そこで本発明は、簡便に文字認識用の教師データを生成可能な文字認識用教師データ生成装置を提供することを目的とする。
前記目的を達成するために、本発明の文字認識用教師データ生成装置は、
正対化画像生成部、抽出部、識別部、画像合成部、および教師データ出力部を含み、
前記正対化画像生成部は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出部は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別部は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成部は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力部は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。
本発明の学習済みモデル製造装置は、
教師データ取得部、及び学習済みモデル生成部を含み、
前記教師データ取得部は、文字認識用教師データとして、前記本発明の文字認識用教師データ生成装置が出力した文字認識用教師データを取得し、
前記学習済みモデル生成部は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する。
本発明の文字認識装置は、
文字認識対象画像取得部、及び文字認識部を含み、
前記文字認識対象画像取得部は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識部は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、前記本発明の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記本発明の学習済みモデル製造装置により製造された学習済みモデルである。
本発明の文字認識用教師データ生成方法は、
正対化画像生成工程、抽出工程、識別工程、画像合成工程、および教師データ出力工程を含み、
前記正対化画像生成工程は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出工程は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別工程は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成工程は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力工程は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。
本発明の学習済みモデル製造方法は、
教師データ取得工程、及び学習済みモデル生成工程を含み、
前記教師データ取得工程は、文字認識用教師データとして、前記本発明の文字認識用教師データ生成方法により出力された文字認識用教師データを取得し、
前記学習済みモデル生成工程は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する。
本発明の文字認識方法は、
文字認識対象画像取得工程、及び文字認識工程を含み、
前記文字認識対象画像取得工程は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識工程は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、前記本発明の文字認識用教師データ生成方法が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記本発明の学習済みモデル製造方法により製造された学習済みモデルである。
本発明の第1のプログラムは、正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラムである。
本発明の第2のプログラムは、教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、前記第1のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラムである。
本発明の第3のプログラムは、文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、前記第1のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記第2のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラムである
本発明によれば、簡便に文字認識用の教師データを生成できる。
図1は、実施形態1の文字認識用教師データ生成装置の一例の構成を示すブロック図である。 図2は、実施形態1の文字認識用教師データ生成装置のハードウェア構成の一例を示すブロック図である。 図3は、実施形態1の文字認識用教師データ生成装置における処理の一例を示すフローチャートである。 図4は、実施形態1の文字認識用教師データ生成装置が含む正対化画像生成部(画像補正装置)の一例の構成を示すブロック図である。 図5は、実施形態1の文字認識用教師データ生成装置が含む正対化画像生成部(画像補正装置)のハードウェア構成の一例を示すブロック図である。 図6は、実施形態1の文字認識用教師データ生成装置が含む正対化画像生成部(画像補正装置)における処理の一例を示すフローチャートである。 図7は、実施形態1の文字認識用教師データ生成装置が含む正対化画像生成部(画像補正装置)の利用の例を説明する説明図である。 図8は、実施形態3の文字認識用教師データ生成装置の一例の構成を示すブロック図である。 図9は、実施形態3の文字認識用教師データ生成装置における処理の一例を示すフローチャートである。 図10は、実施形態3の文字認識用教師データ生成装置が処理する画像の例を示す模式図である。 図11は、実施形態4の学習済みモデル製造装置の一例の構成を示すブロック図である。 図12は、実施形態4の学習済みモデル製造装置のハードウェア構成の一例を示すブロック図である。 図13は、実施形態4の学習済みモデル製造装置における処理の一例を示すフローチャートである。 図14は、実施形態5の文字認識装置の一例の構成を示すブロック図である。 図15は、実施形態5の文字認識装置のハードウェア構成の一例を示すブロック図である。 図16は、実施形態5の文字認識装置における処理の一例を示すフローチャートである。
次に、本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。
[実施形態1]
本実施形態の文字認識用教師データ生成装置について、図1を用いて説明する。図1は、本実施形態の文字認識用教師データ生成装置1の一例の構成を示すブロック図である。図1に示すように、文字認識用教師データ生成装置1(以下、「本装置1」ともいう)は、正対化画像生成部2、抽出部3、識別部4、画像合成部5、及び教師データ出力部6を含む。また、図示していないが、本装置1は、例えば、記憶部を含んでもよい。
本装置1は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置1は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)、LPWA(Low Power Wide Area)、L5G(ローカル5G)、等があげられる。無線通信としては、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)、ローカル5G、LPWA等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、インフラストラクチャ(infrastructure通信)、アクセスポイントを介した間接通信等であってもよい。本装置1は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置1は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。さらに、本装置1は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。具体例として、本装置1は、例えば、正対化画像生成部2を備える装置と、抽出部3、識別部4、画像合成部5、及び教師データ出力部6を備える装置とが、通信回線網を介して接続されている形態があげられる。この場合、本装置10は、例えば、文字認識用教師データ生成システムともいう。この場合、正対化画像生成部2を備える前記装置は、例えば、正対化画像生成装置または画像補正装置ともいう。正対化画像生成装置または画像補正装置については、後述する。
図2に、本装置1のハードウェア構成のブロック図を例示する。本装置1は、例えば、CPU101、メモリ102、バス103、記憶装置104、入力装置105、出力装置106、通信デバイス(通信部)107等を含む。本装置1の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。
CPU101は、例えば、コントローラ(システムコントローラ、I/Oコントローラ等)等により、他の構成と連携動作し、本装置1の全体の制御を担う。本装置1において、CPU101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、CPU101が、正対化画像生成部2、抽出部3、識別部4、画像合成部5、及び教師データ出力部6として機能する。本装置1は、演算装置として、CPUを備えるが、GPU(Graphics Processing Unit)、APU(Accelerated Processing Unit)等の他の演算装置を備えてもよいし、CPUとこれらとの組合せを備えてもよい。
バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、後述する学習済みモデル製造装置、文字認識装置、外部記憶装置(外部データベース等)、プリンタ、外部入力装置、外部出力装置、スピーカ等の音声出力装置、カメラ等の外部撮像装置、および加速度センサ、地磁気センサ、方向センサ等の各種センサ等があげられる。本装置1は、例えば、バス103に接続された通信デバイス107により、外部ネットワーク(前記通信回線網)に接続でき、外部ネットワークを介して他の装置と接続することもできる。
メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。CPU101が処理を行う際には、例えば、後述する記憶装置104に記憶されている本発明のプログラム105等の種々の動作プログラムを、メモリ102が読み込み、CPU101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラム105が格納されている。記憶装置104は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ(HDD)、及びソリッドステートドライブ(SSD)であってもよい。本装置1が、例えば、前記記憶部を含む場合、記憶装置104が前記記憶部として機能する。記憶装置104は、例えば、後述する文字認識モデル、基準文字情報を記憶していてもよい。
本装置1において、メモリ102及び記憶装置104は、ログ情報、外部データベース(図示せず)や外部の装置から取得した情報、本装置1によって生成した情報、本装置1が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。なお、少なくとも一部の情報は、例えば、メモリ102及び記憶装置104以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。
本装置1は、例えば、さらに、入力装置105、出力装置106を備える。入力装置105は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス;キーボード;カメラ、スキャナ等の撮像手段;ICカードリーダ、磁気カードリーダ等のカードリーダ;マイク等の音声入力手段;等があげられる。出力装置106は、例えば、LEDディスプレイ、液晶ディスプレイ等の表示装置;スピーカ等の音声出力装置;プリンタ;等があげられる。本実施形態1において、入力装置105と出力装置106とは、別個に構成されているが、入力装置105と出力装置106とは、タッチパネルディスプレイのように、一体として構成されてもよい。
つぎに、本実施形態の文字認識用教師データ生成方法の一例を、図3のフローチャートに基づき説明する。本実施形態の文字認識用教師データ生成方法は、例えば、図1または図2に示す文字認識用教師データ生成装置1を用いて、次のように実施できる。なお、本実施形態の文字認識用教師データ生成方法は、図1または図2の文字認識用教師データ生成装置1の使用には限定されない。
まず、正対化画像生成部2により、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成する(S1、正対化画像生成工程)。前記正対化画像は、例えば、本装置1により文字認識を実行する文字認識対象物を含む画像を正対化した画像である。前記文字認識対象物は、文字を含むものであれば特に制限されない。前記文字は、特に制限されないが、例えば、通常のOCR処理によっては文字認識が困難な文字に対し好適に利用できる。「通常のOCR処理によっては文字認識が困難な文字」とは、特に制限されず、例えば、ステンシル吹付、スタンプ印字、または刻印印字等の手段によって印字された文字、または手書き文字等があげられる。前記文字認識対象物の具体例としては、例えば、鉄鋼製品等の生産過程において過酷な環境に置かれる物品、読取困難な標識を付される物品(例えば、陶器等)等があげられる。正対化画像生成部2による正対化画像の生成については、実施形態2で後述する。
つぎに、抽出部3は、前記正対化画像から正対化背景画像および正対化文字画像を抽出する(S2、抽出工程)。抽出部3は、例えば、画像処理により、前記正対化画像における文字が記載された領域を認識し、前記正対化画像から前記文字が記載された領域を切り出すことで前記正対化文字画像を抽出できる。また、抽出部3は、例えば、画像処理により、前記正対化画像における文字が記載されていない領域を認識し、前記文字が記載されていない領域を切り出すことで前記正対化背景画像を抽出できる。前記文字は、特に制限されず、例えば、英字、数字、記号、ひらがな、カタカナ、漢字、その他の文字があげられる。
つぎに、識別部4は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別する(S3、識別工程)。前記基準文字情報は、例えば、正対化文字画像と正対化文字画像が含む文字の種類とを対応付けた情報である。前記基準文字情報は、例えば、本装置1のメモリ102又は記憶装置104に記憶されていてもよいし、外部のデータベースまたはサーバに記憶されていてもよい。後者の場合、識別部4は、通信回線網を介して前記外部のデータベースまたはサーバから前記基準文字情報を取得して前記識別を実行する。
つぎに、画像合成部5は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成する(S4、画像合成工程)。具体的に、画像合成部5は、例えば、前記正対化背景画像および前記正対化文字画像をランダムに選出し、選出された前記正対化背景画像および前記正対化文字画像を合成することにより、前記合成文字画像を生成できる。画像合成部5は、例えば、1つの正対化背景画像に対し、1つの正対化文字画像を合成してもよいし、2以上の複数の正対化文字画像を合成してもよい。前記正対化背景画像において、例えば、前記正対化文字画像を合成する位置(合成位置)は特に制限されず、任意の位置に合成できる。画像合成部5は、例えば、正対化背景画像および正対化文字画像の組に対し、合成位置を変えた複数の合成文字画像を生成してもよい。また、画像合成部5は、例えば、前記正対化文字画像の角度又は大きさの変更、反転等の処理を行い、前記処理後の正対化文字画像を前記正対化背景画像に合成してもよい。また、画像合成部5は、例えば、機械学習を用いて前記合成文字画像を生成してもよい。前記機械学習は、例えば、教師あり機械学習でもよいし、教師なし機械学習でもよく、後者の場合、敵対的生成ネットワーク(GAN:Generative Adversarial Networks)を利用して前記合成文字画像を生成してもよい。
そして、教師データ出力部6は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する(S5、教師データ出力工程)。また、前記出力は、例えば、本装置1のメモリ102又は記憶装置104への出力(記憶)でもよいし、通信回線網を介して外部の装置への出力でもよい。前記外部の装置は、例えば、外部記憶装置、又は本装置1が生成した教師データを用いる装置、具体的には、後述する本発明の学習済みモデル製造装置もしくは文字認識装置等があげられる。
対象物を撮像した画像から文字認識を行う場合、入力される画像が撮像される角度は様々であるため、文字認識用の教師データの生成においても、同一の対象を複数の角度から撮像した画像が必要になり、データが膨大な量になる。また、工場などの生産現場において、学習用の教師データを撮像しようにも、ロット番号等は長期間(例えば、1年等)かけないと印字されない文字が存在するため、教師用データの収集に時間がかかる。これに対し、本実施形態の文字認識用教師データ生成装置は、正対化画像から抽出した正対化背景画像および正対化文字画像を合成した合成文字画像を教師データとするため、例えば、入力データの種類が少なくとも、多数のパターンの教師データを生成することができる。このため、本実施形態の文字認識用教師データ生成装置によれば、機械学習に必要なデータ量を低減することができ、また、データ収集の期間を短くすることができ、簡便に文字認識用の教師データを生成できる。
[実施形態2]
実施形態2は、実施形態1の文字認識用教師データ生成装置が含む正対化画像生成部について説明する。以下の説明においては、前記正対化画像生成部が、文字認識用教師データ生成装置と通信可能な独立した画像補正装置である場合を例に挙げて説明するが、本発明はこれには限定されず、前述のように正対化画像生成部は、文字認識用教師データ生成装置が含む構成であってもよい。
本実施形態の画像補正装置について、図4を用いて説明する。図4は、本実施形態の画像補正装置2の一例の構成を示すブロック図である。図4に示すように、画像補正装置2(以下、「本装置2」ともいう)は、画像取得部21、端末情報取得部22、距離情報取得部23、基準姿勢情報取得部24、基準面設定部25、画像補正部26を含む。また、図示していないが、本装置2は、例えば、記憶部を含んでもよい。
本装置2は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、本装置2は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)、LPWA(Low Power Wide Area)、L5G(ローカル5G)、等があげられる。無線通信としては、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)、ローカル5G、LPWA等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、インフラストラクチャ(infrastructure通信)、アクセスポイントを介した間接通信等であってもよい。本装置2は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置2は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。本装置2は、対象物を撮像可能な撮像端末(例えば、カメラ付きのスマートフォン、タブレット端末等)であってもよいし、前記撮像端末と通信可能な装置であってもよい。さらに、本装置2は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。
図5に、本装置2のハードウェア構成のブロック図を例示する。本装置2は、例えば、CPU201、メモリ202、バス203、記憶装置204、入力装置205、出力装置206、通信デバイス(通信部)207等を含む。本装置2の各部は、それぞれのインタフェース(I/F)により、バス203を介して相互に接続されている。
CPU201は、例えば、コントローラ(システムコントローラ、I/Oコントローラ等)等により、他の構成と連携動作し、本装置2の全体の制御を担う。本装置2において、CPU201により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。具体的には、例えば、CPU201が、画像取得部21、端末情報取得部22、距離情報取得部23、基準姿勢情報取得部24、基準面設定部25、画像補正部26として機能する。本装置2は、演算装置として、CPUを備えるが、GPU(Graphics Processing Unit)、APU(Accelerated Processing Unit)等の他の演算装置を備えてもよいし、CPUとこれらとの組合せを備えてもよい。
バス203は、例えば、外部装置とも接続できる。前記外部装置は、例えば、前記本発明の文字認識用教師データ生成装置、外部記憶装置(外部データベース等)、プリンタ、外部入力装置、外部表示装置、スピーカ等の音声出力装置、カメラ等の外部撮像装置、および加速度センサ、地磁気センサ、方向センサ等の各種センサ等があげられる。本装置2は、例えば、バス203に接続された通信デバイス207により、外部ネットワーク(前記通信回線網)に接続でき、外部ネットワークを介して、ユーザの端末等の他の装置と接続することもできる。
メモリ202は、例えば、メインメモリ(主記憶装置)が挙げられる。CPU201が処理を行う際には、例えば、後述する記憶装置204に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ202が読み込み、CPU201は、メモリ202からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ202は、例えば、ROM(読み出し専用メモリ)であってもよい。
記憶装置204は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置204には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置204は、例えば、記録媒体と、記録媒体に読み書きするドライブとの組合せであってもよい。前記記録媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD-ROM、CD-R、CD-RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置204は、例えば、記録媒体とドライブとが一体化されたハードディスクドライブ(HDD)、及びソリッドステートドライブ(SSD)であってもよい。本装置2が、例えば、前記記憶部を含む場合、記憶装置204が前記記憶部として機能する。記憶装置204は、例えば、後述する補正対象画像、基準姿勢情報、対象物距離情報、正対化基準面、および正対化画像の少なくとも一つを記憶していてもよい。
本装置2において、メモリ202及び記憶装置204は、ログ情報、外部データベース(図示せず)や外部の装置から取得した情報、本装置2によって生成した情報、本装置2が処理を実行する際に用いる情報等の種々の情報を記憶することも可能である。なお、少なくとも一部の情報は、例えば、メモリ202及び記憶装置204以外の外部サーバに記憶されていてもよいし、複数の端末にブロックチェーン技術等を用いて分散して記憶されていてもよい。
本装置2は、例えば、さらに、入力装置205、出力装置206を備える。入力装置205は、例えば、タッチパネル、トラックパッド、マウス等のポインティングデバイス;キーボード;カメラ、スキャナ等の撮像手段;ICカードリーダ、磁気カードリーダ等のカードリーダ;マイク等の音声入力手段;等があげられる。出力装置206は、例えば、LEDディスプレイ、液晶ディスプレイ等の表示装置;スピーカ等の音声出力装置;プリンタ;等があげられる。本実施形態1において、入力装置205と出力装置206とは、別個に構成されているが、入力装置205と出力装置206とは、タッチパネルディスプレイのように、一体として構成されてもよい。
つぎに、本実施形態の画像補正方法(正対化画像生成工程)の一例を、図6のフローチャートに基づき説明する。本実施形態の画像補正方法は、例えば、図4から図5に示す画像補正装置2を用いて、次のように実施する。なお、本実施形態の画像補正方法は、図4から図5の画像補正装置2の使用には限定されない。
まず、画像補正装置2の画像取得部21は、補正対象画像を取得する(S1A、画像取得工程)。前記補正対象画像は、例えば、対象物を含む画像である。画像取得部21は、本装置2が備えるカメラ等の撮像装置により、前記補正対象画像を取得してもよいし、通信回線網を介して本装置外部の撮像装置から前記補正対象画像を取得してもよい。前記補正対象画像は、例えば、動画でもよいし静止画でもよく、また、撮像済みの画像でもよいし、撮像プレビュー画像でもよい。前記補正対象画像が撮像プレビュー画像である場合、画像取得部21は、例えば、前記撮像プレビュー画像をリアルタイムに取得する。画像取得部21は、例えば、取得した前記補正対象画像を記憶装置204またはメモリ202に記憶してもよい。
つぎに、端末情報取得部22は、端末姿勢情報を取得する(S1B、端末情報取得工程)。前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、例えば、撮像端末が備えるジャイロセンサ、加速度センサ、地磁気センサ、距離センサ(例えば、3D-Lidar等の光学センサ、ミリ波センサ、超音波センサ等)等から推定できる。また、前記端末姿勢情報は、例えば、補正対象画像取得時の撮像端末を外部から撮像し、前記撮像した画像から前記撮像端末の姿勢を推定した情報でもよい。前記端末姿勢情報は、例えば、ジャイロセンサの情報を含むことが好ましい。前記姿勢情報は、例えば、X軸(例えば、Roll軸ともいう)、Y軸(例えば、Pitch軸ともいう)およびZ軸(例えば、Yaw軸ともいう)の3軸における撮像端末の姿勢座標系の情報である。端末情報取得部22は、例えば、取得した前記端末姿勢情報を記憶装置204またはメモリ202に記憶してもよい。
前記端末姿勢情報は、例えば、その他の情報を含んでもよい。前記その他の情報は、例えば、撮影場所の情報、撮影日時情報、ユーザの識別情報(氏名、ID、端末識別情報等)を含んでもよい。
つぎに、距離情報取得部23は、対象物距離情報を取得する(S1C、距離情報取得工程)。前記対象物距離情報は、例えば、予め規定された所定の距離(例えば、暫定撮影距離ともいう)でもよいし、撮像端末が備える距離センサ(例えば、3D-Lidar等の光学センサ、ミリ波センサ、超音波センサ等)により、撮像端末から対象物までの距離を測定した距離でもよいし、前記補正対象画像に含まれる対象物の大きさから推定した距離でもよい。前記対象物の大きさからの距離の推定は、例えば、実際の距離と、画像中における画素数とを対応づけた距離変換情報を利用することで、前記対象物が存在する距離を算出できる。前記距離変換情報は、例えば、前記記憶部に記憶されていてもよいし、外部のデータベースに記憶されていてもよい。
つぎに、基準姿勢情報取得部24は、基準姿勢情報を取得する(S1D、基準姿勢情報取得工程)。前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、例えば、予め設定された所定の値でもよいし、対象物が備えるジャイロセンサ、加速度センサ、地磁気センサ等から推定した情報でもよい。また、前記基準姿勢情報は、例えば、補正対象画像取得時の対象物を外部から撮像し、前記撮像した画像から前記対象物の姿勢を推定した情報でもよい。前記画像は、例えば、前記撮像端末により撮像された前記補正対象画像でもよいし、それ以外の装置が撮像した画像でもよい。前記基準姿勢情報は、例えば、X軸(例えば、Roll軸ともいう)、Y軸(例えば、Pitch軸ともいう)およびZ軸(例えば、Yaw軸ともいう)の3軸における対象物の姿勢座標系の情報である。基準姿勢情報取得部24は、例えば、取得した前記基準姿勢情報を記憶装置204またはメモリ202に記憶してもよい。
つぎに、基準面設定部25は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定する(S1E、基準面設定工程)。前記正対化基準面は、例えば、前記対象物における任意の平面があげられる。前記対象物が、例えば、生産ラインにおける鋼板である場合、前記正対化基準面は、例えば、前記鋼板において識別番号等が印字された面があげられる。
そして、画像補正部26は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する(S1F、画像補正工程)。画像補正部26は、例えば、前記補正対象画像における任意に指定した4点の座標について、前記端末姿勢情報および前記基準姿勢情報に基づいて、対象物を前記正対化基準面の垂直方向から見た際に対応する4点の座標を推定し、射影変換により補正対象画像を正対化画像に補正する。前記4点の座標は、特に制限されず、例えば、補正対象画像における任意の座標が指定できるが、例えば、補正対象画像に含まれる対象物の特徴点の周辺領域の座標であることが好ましい。前記特徴点は、例えば、対象物の識別情報(例えば、刻印、ステンシル印字、スタンプ印字等がされた製品管理番号等)があげられる。また、画像補正部26は、例えば、前記補正対象画像が撮影プレビュー画像である場合、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する。また、画像補正部26は、例えば、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正してもよい。前記所定の範囲は、例えば、前記撮影プレビュー画像における文字を含む領域があげられる。この場合、画像補正部26は、例えば、公知の文字認識技術を用いて前記撮影プレビュー画像から文字候補領域を抽出し、前記文字候補領域を基準とした矩形範囲をトリミングし、トリミング後の画像を正対化画像に補正できる。なお、文字候補領域の抽出において、例えば、画像補正装置2により生成された正対化画像を用いた機械学習により作成した学習済みモデル(例えば、後述する実施形態4の学習済みモデル製造装置40により生成された学習済みモデル)を用いて、前記プレビュー画像から文字候補領域を抽出してもよい。
図7を用いて、本装置2による画像補正の具体例を説明する。以下の説明において、画像補正装置2は、カメラ機能付きタブレット端末であり、前記タブレット端末を用いて、生産ラインにある鉄鋼製品の画像を撮像する場合を例に挙げて説明するが、本発明は以下の例示に何ら制限されない。
まず、図7(A)に示すように、本装置2であるタブレット端末2のカメラ機能により、対象物30を捉え、補正対象画像として、カメラのプレビュー画像を取得する。つぎに、端末姿勢情報として、タブレット端末2のジャイロセンサから、図7(A)において実線の矢印で示すモバイル端末(タブレット端末)の姿勢座標系を取得する。また、基準姿勢情報として、図7(A)において破線の矢印で示す対象物の姿勢座標系を取得する。つぎに、本装置2は、前記プレビュー画像に含まれる対象物を検出し、検出した対象物の大きさから、本装置2と対象物までの距離を推定する。つぎに、本装置2は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、前記プレビュー画像における対象物の面を特定し、前記面を正対化基準面に設定する。つぎに、本装置2は、図7(B)に黒色丸印で示す、前記プレビュー画像における任意に指定した4点の座標を指定する。そして、前記4点の座標について、前記端末姿勢情報および前記基準姿勢情報に基づいて、対象物30を前記正対化基準面の垂直方向から見た際に対応する4点の座標(図7(B)において、白色丸印で示す)を推定し、射影変換により補正対象画像を正対化画像に補正する。
本実施形態の画像補正装置2によれば、前記端末姿勢情報に基づいて、前記補正対象画像を、正対化基準面に対して正対した正対化画像を容易に生成できる。
[実施形態3]
実施形態3は、本発明の文字認識用教師データ生成装置の他の例である。
本実施形態の文字認識用教師データ生成装置は、実施形態1の文字認識用教師データ生成装置1の構成に加えて、画像加工部を含むこと以外は前記実施形態1の文字認識用教師データ生成装置1と同様であり、その説明を援用できる。本実施形態の文字認識用教師データ生成装置1Aは、例えば、画像加工部を含み、前記合成文字画像を加工した加工文字画像を生成し、前記教師データ出力部は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。
図8は、本実施形態の文字認識用教師データ生成装置1Aの一例の構成を示すブロック図である。図8に示すように、文字認識用教師データ生成装置1Aは、実施形態1の文字認識用教師データ生成装置1の構成に加えて、画像加工部7を備える。文字認識用教師データ生成装置1Aのハードウェア構成は、図2の文字認識用教師データ生成装置1のハードウェア構成において、CPU101が、図1の文字認識用教師データ生成装置1の構成に代えて、図8の文字認識用教師データ生成装置1Aの構成を備える以外は同様である。
つぎに、本実施形態の文字認識用教師データ生成方法について、図9のフローチャートを用いて説明する。本実施形態の文字認識用教師データ生成方法は、例えば、図8に示す本実施形態の文字認識用教師データ生成装置1Aを用いて実施できる。なお、本発明の文字認識用教師データ生成方法は、文字認識用教師データ生成装置1Aの使用に限定されない。
まず、前記実施形態1のS1~S4と同様にしてS1~S4を実施し、合成文字画像を生成する。
画像加工部7は、例えば、前記合成文字画像を加工した加工文字画像を生成する(S6、画像加工工程)。前記加工は、例えば、一般的な画像認識を用いる教師データ作成における画像データの拡張方法が利用でき、具体例として、前記画像の色合い、大きさ、傾き、パース等の変更、水平シフト、ランダムシフト、水平反転、垂直反転、シアー変換、RGBチャンネル変換、背景の切り抜き等があげられる。画像加工部7は、例えば、合成文字画像に対し、文字の欠け、汚れ、足跡、擦れ等の追加、明るさの変更、照明の変更(照度、角度、色合い等)等の加工を行ってもよい。図10に、正対化背景画像、正対化文字画像、および画像加工部7による加工文字画像の一例を示す。
つぎに、教師データ出力部6は、例えば、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力すること以外は、前記実施形態1のS5と同様にしてS5を実施し、処理を終了する(END)。
本実施形態の文字認識用教師データ生成装置は、例えば、画像加工部により、前記合成文字画像を加工した加工文字画像を生成できる。このため、本実施形態の文字認識用教師データ生成装置によれば、例えば、さらに、文字認識用の教師データの必要量を抑制し、精度良い文字認識が可能となる文字認識用教師データを生成できる。
[実施形態4]
実施形態4は、本発明の学習済みモデル製造装置の例である。
本実施形態の学習済みモデル製造装置について、図11を用いて説明する。図11は、本実施形態の学習済みモデル製造装置40の一例の構成を示すブロック図である。図11に示すように、学習済みモデル製造装置40は、教師データ取得部41、及び学習済みモデル生成部42を含む。また、図示していないが、学習済みモデル製造装置40は、例えば、記憶部を含んでもよい。
学習済みモデル製造装置40は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、学習済みモデル製造装置40は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)、LPWA(Low Power Wide Area)、L5G(ローカル5G)、等があげられる。無線通信としては、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)、ローカル5G、LPWA等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、インフラストラクチャ(infrastructure通信)、アクセスポイントを介した間接通信等であってもよい。学習済みモデル製造装置40は、例えば、システムとしてサーバに組み込まれていてもよい。また、学習済みモデル製造装置40は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。さらに、学習済みモデル製造装置40は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。
図12に、学習済みモデル製造装置40のハードウェア構成のブロック図を例示する。図12に示すように、学習済みモデル製造装置40は、例えば、CPU401、メモリ402、バス403、記憶装置404、入力装置405、出力装置406、通信デバイス407等を備える。学習済みモデル製造装置40の各構成の説明は、文字認識用教師データ生成装置1の各構成の説明を援用できる。学習済みモデル製造装置40の各部は、それぞれのインタフェース(I/F)により、バス403を介して接続されている。学習済みモデル製造装置40において、CPU401が教師データ取得部41、及び学習済みモデル生成部42として機能する。
つぎに、本実施形態の学習済みモデルの製造方法の一例を、図13のフローチャートに基づき説明する。本実施形態の学習済みモデルの製造方法は、例えば、図11及び図12の学習済みモデル製造装置40を用いて、次のように実施する。なお、本実施形態の学習済みモデルの製造方法は、図11及び図12の学習済みモデル製造装置40の使用には限定されない。
まず、教師データ取得部41により、文字認識用教師データとして、前記本発明の文字認識用教師データ生成装置が出力した文字認識用教師データを取得する(S41、教師データ取得工程)。教師データ取得部41は、例えば、前記通信回線網を介して、前記本発明の文字認識用教師データ生成装置から文字認識用教師データを取得してもよいし、前記文字認識用教師データが記憶された外部記憶装置から前記文字認識用教師データを取得してもよい。
つぎに、学習済みモデル生成部41は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する(S42、学習工程)。前記機械学習は、特に制限されず、例えば、畳み込みニューラルネットワーク(Convolution Neural Network:CNN)等のニューラルネットワーク、SVM(Support Vector Machine)、ベイジアンネットワーク、回帰木等を用いた機械学習である。前記CNNを用いた機械学習は、特に制限されず、例えば、セマンティック・セグメンテーション(Semantic Segmentation)、インスタンス・セグメンテーション(Instance Segmentation: IS), シングルショット検出(Single shot detector: SSD)、加重シングルショット検出(Weighted Single Shot Detector: WSSD)等があげられる。また、学習済みモデル生成部41は、例えば、前記文字認識用教師データと、既に生成された学習済モデルとを用いて、再学習させた学習済モデル(派生モデル)を生成してもよい。さらに、学習済みモデル生成部41は、前記文字認識用教師データを用いて生成した学習済みモデルを用いて転移学習することにより得られた学習済みモデルを生成してもよいし、前記文字認識用教師データを用いて生成した学習済みモデルをモデル圧縮することにより前記学習済みモデルを生成してもよい。
本実施形態によって生成される学習済みモデルは、例えば、後述する文字認識装置に使用される。これにより、文字認識対象を撮像した文字認識対象画像を用いて文字認識対象画像中の文字認識が可能となる。
[実施形態5]
実施形態5は、本発明の文字認識装置の例である。
本実施形態の文字認識装置について、図14を用いて説明する。図14は、本実施形態の文字認識装置50の一例の構成を示すブロック図である。図14に示すように、文字認識装置50は、文字認識対象画像取得部51、及び文字認識部52を含む。また、図示していないが、文字認識装置50は、例えば、記憶部を含んでもよい。
文字認識装置50は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、文字認識装置50は、通信回線網を介して、後述する外部装置と接続可能である。通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。通信回線網は、例えば、インターネット回線、WWW(World Wide Web)、電話回線、LAN(Local Area Network)、SAN(Storage Area Network)、DTN(Delay Tolerant Networking)、LPWA(Low Power Wide Area)、L5G(ローカル5G)、等があげられる。無線通信としては、例えば、Wi-Fi(登録商標)、Bluetooth(登録商標)、ローカル5G、LPWA等が挙げられる。前記無線通信としては、各装置が直接通信する形態(Ad Hoc通信)、インフラストラクチャ(infrastructure通信)、アクセスポイントを介した間接通信等であってもよい。文字認識装置50は、例えば、システムとしてサーバに組み込まれていてもよい。また、文字認識装置50は、例えば、本発明のプログラムがインストールされたパーソナルコンピュータ(PC、例えば、デスクトップ型、ノート型)、スマートフォン、タブレット端末等であってもよい。さらに、文字認識装置50は、例えば、前記各部のうち少なくとも一つがサーバ上にあり、その他の前記各部が端末上にあるような、クラウドコンピューティングやエッジコンピューティング等の形態であってもよい。
図15に、文字認識装置50のハードウェア構成のブロック図を例示する。図15に示すように、文字認識装置50は、例えば、CPU501、メモリ502、バス503、記憶装置504、入力装置505、出力装置506、通信デバイス507等を備える。文字認識装置50の各構成の説明は、文字認識用教師データ生成装置1の各構成の説明を援用できる。文字認識装置50の各部は、それぞれのインタフェース(I/F)により、バス503を介して接続されている。文字認識装置50において、CPU501が文字認識対象画像取得部51、及び文字認識部52として機能する。
つぎに、本実施形態の文字認識方法の一例を、図16のフローチャートに基づき説明する。本実施形態の文字認識方法は、例えば、図14及び図15の文字認識装置50を用いて、次のように実施する。なお、本実施形態の学習済みモデルの製造方法は、図14及び図15の文字認識装置50の使用には限定されない。
まず、文字認識対象画像取得部51により、文字認識対象を撮像した文字認識対象画像を取得する(S51、文字認識対象画像取得工程)。前記文字認識対象画像は、例えば、静止画でもよいし、動画でもよく、動画から切り出した静止画でもよい。文字認識対象画像取得部51は、例えば、連続的に画像を取得してもよいし、断続的に画像を取得してもよく、後者の場合、所定時間経過毎に画像を取得してもよいし、任意のタイミングで画像を取得してもよい。文字認識対象画像取得部51は、例えば、入力装置506である前記撮像装置によって前記文字認識対象を撮像することにより前記文字認識対象画像を取得してもよいが、通信デバイス508により、前記通信回線網を介して外部の撮像装置から前記文字認識対象画像を取得してもよい。文字認識対象画像取得部51は、例えば、取得した文字認識対象画像をメモリ502又は記憶装置504に記憶してもよい。
文字認識部52は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識する(S52、文字認識工程)。前記文字認識モデルは、例えば、前記本発明の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、前記文字認識対象画像を入力した場合に、前記文字認識対象が含む文字を出力するよう生成された学習済みモデルである。なお、前記文字認識モデルは、例えば、前記実施形態4の学習済みモデル製造装置により製造された学習モデルでもよい。
前記文字認識モデルは、例えば、文字認識対象画像を入力する入力層と、前記文字認識結果を出力する出力層と、入力層と出力層との間に設けられる少なくとも1層の中間層とを含む。前記文字認識モデルは、人工知能ソフトウェアの一部であるプログラムモジュールであってもよい。前記多層化ネットワークとしては、例えば、ニューラルネットワーク等が挙げられる。前記ニューラルネットワークとしては、例えば、畳み込みニューラルネットワーク(Convolution Neural Network:CNN)等が挙げられるが、CNNに限定されず、CNN以外のニューラルネットワーク、SVM(Support Vector Machine)、ベイジアンネットワーク、回帰木等の他の学習アルゴリズムで構築された学習済みモデルであってもよい。
前記文字認識モデルは、例えば、前記本発明の文字認識用教師データ生成装置が生成した教師データを機械学習によって生成できる。なお、前記文字認識モデルは、例えば、予め生成された学習済モデルでもよい。また、前記学習済モデルは、前記文字認識用教師データと、既に生成された学習済モデルとを用いて、再学習させた学習済モデル(派生モデル)でもよい。さらに、前記学習済モデルは、文字認識用教師データを用いて生成した学習済モデルを用いて転移学習することにより得られた学習済モデルでもよいし、文字認識用教師データを用いて生成した学習済モデルをモデル圧縮することに生成した学習済モデルでもよい。
文字認識装置50は、例えば、出力部を含んでもよい。この場合、前記出力部は、例えば、前記文字認識結果を出力する。前記出力部は、例えば、前記通信回線網を介して装置外の端末に前記文字認識結果を出力してもよいし、出力装置507に前記文字認識結果を出力してもよい。また、出力された前記文字認識結果は、例えば、メモリ502又は記憶装置504に記憶されてもよい。
本実施形態の文字認識方法において、S51~S52を順次実行する場合を例に挙げて説明したが、本発明はこれには制限されない。具体的に、本発明において、S51とS52とは、例えば、同時に実行してもよいし、別個に実行してもよく、後者の場合、実行する順序は特に制限されず任意である。
本実施形態の文字認識装置によれば、例えば、機械学習により生成した文字認識モデルを用いた文字認識が可能となる。
[実施形態6]
本実施形態の第1のプログラムは、前述の文字認識用教師データ生成方法の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態の第1のプログラムは、コンピュータに、正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を実行させるためのプログラムである。
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する。
また、本実施形態の第1のプログラムは、コンピュータを、正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順として機能させるプログラムということもできる。
本実施形態の第1のプログラムは、前記本発明の文字認識用教師データ生成装置および文字認識用教師データ生成方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
[実施形態7]
本実施形態の第2のプログラムは、前述の学習済みモデル製造方法の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態の第2のプログラムは、コンピュータに、教師データ取得手順、及び学習済みモデル生成手順を実行させるためのプログラムである。
前記教師データ取得手順は、文字認識用教師データとして、前記第1のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する。
また、本実施形態の第2のプログラムは、コンピュータを、教師データ取得手順、及び学習済みモデル生成手順として機能させるプログラムということもできる。
本実施形態の第2のプログラムは、前記本発明の学習済みモデル製造装置および学習済みモデル製造方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
[実施形態8]
本実施形態の第3のプログラムは、前述の文字認識方法の各工程を、コンピュータに実行させるためのプログラムである。具体的に、本実施形態の第3のプログラムは、コンピュータに、文字認識対象画像取得手順、及び文字認識手順を実行させるためのプログラムである。
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは前記第1のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は前記第2のプログラムにより製造された学習済みモデルである。
また、本実施形態の第3のプログラムは、コンピュータを、文字認識対象画像取得手順、及び文字認識手順として機能させるプログラムということもできる。
本実施形態の第3のプログラムは、前記本発明の文字認識装置および文字認識方法における記載を援用できる。前記各手順は、例えば、「手順」を「処理」と読み替え可能である。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されてもよい。前記記録媒体は、例えば、非一時的なコンピュータ可読記録媒体(non-transitory computer-readable storage medium)である。前記記録媒体は、特に制限されず、例えば、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク、フロッピー(登録商標)ディスク(FD)等があげられる。
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解しうる様々な変更をできる。
<付記>
上記の実施形態の一部または全部は、以下の付記のように記載されうるが、以下には限られない。
(付記1)
正対化画像生成部、抽出部、識別部、画像合成部、および教師データ出力部を含み、
前記正対化画像生成部は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出部は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別部は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成部は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力部は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成装置。
(付記2)
画像加工部を含み、
前記画像加工部は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力部は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記1記載の文字認識用教師データ生成装置。
(付記3)
前記正対化画像生成部は、画像取得部、端末情報取得部、距離情報取得部、基準姿勢情報取得部、基準面設定部、および画像補正部を含み、
前記画像取得部は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得部は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得部は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得部は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定部は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正部は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記1または2記載の文字認識用教師データ生成装置。
(付記4)
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記3記載の文字認識用教師データ生成装置。
(付記5)
前記画像取得部は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正部は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記3または4記載の文字認識用教師データ生成装置。
(付記6)
前記画像補正部は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記3から5のいずれかに記載の文字認識用教師データ生成装置。
(付記7)
教師データ取得部、及び学習済みモデル生成部を含み、
前記教師データ取得部は、文字認識用教師データとして、付記1から6のいずれかに記載の文字認識用教師データ生成装置が出力した文字認識用教師データを取得し、
前記学習済みモデル生成部は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造装置。
(付記8)
文字認識対象画像取得部、及び文字認識部を含み、
前記文字認識対象画像取得部は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識部は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記1から6のいずれかに記載の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記6記載の学習済みモデル製造装置により製造された学習済みモデルである、文字認識装置。
(付記9)
正対化画像生成工程、抽出工程、識別工程、画像合成工程、および教師データ出力工程を含み、
前記正対化画像生成工程は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出工程は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別工程は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成工程は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力工程は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成方法。
(付記10)
画像加工工程を含み、
前記画像加工工程は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力工程は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記9記載の文字認識用教師データ生成方法。
(付記11)
前記正対化画像生成工程は、画像取得工程、端末情報取得工程、距離情報取得工程、基準姿勢情報取得工程、基準面設定工程、および画像補正工程を含み、
前記画像取得工程は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得工程は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得工程は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得工程は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定工程は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正工程は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記9または10記載の文字認識用教師データ生成方法。
(付記12)
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記11記載の文字認識用教師データ生成方法。
(付記13)
前記画像取得工程は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正工程は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記11または12記載の文字認識用教師データ生成方法。
(付記14)
前記画像補正工程は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記11から13のいずれかに記載の文字認識用教師データ生成方法。
(付記15)
教師データ取得工程、及び学習済みモデル生成工程を含み、
前記教師データ取得工程は、文字認識用教師データとして、付記9から14のいずれかに記載の文字認識用教師データ生成方法により出力された文字認識用教師データを取得し、
前記学習済みモデル生成工程は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造方法。
(付記16)
文字認識対象画像取得工程、及び文字認識工程を含み、
前記文字認識対象画像取得工程は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識工程は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記9から14のいずれかに記載の文字認識用教師データ生成方法が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記15記載の学習済みモデル製造方法により製造された学習済みモデルである、文字認識方法。
(付記17)
正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラム。
(付記18)
画像加工手順を含み、
前記画像加工手順は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力手順は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記17記載のプログラム。
(付記19)
前記正対化画像生成手順は、画像取得手順、端末情報取得手順、距離情報取得手順、基準姿勢情報取得手順、基準面設定手順、および画像補正手順を含み、
前記画像取得手順は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得手順は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得手順は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得手順は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定手順は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正手順は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記17または18記載のプログラム。
(付記20)
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記19記載のプログラム。
(付記21)
前記画像取得手順は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正手順は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記19または20記載のプログラム。
(付記22)
前記画像補正手順は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記19から21のいずれかに記載のプログラム。
(付記23)
教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、付記17から22のいずれかに記載のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラム。
(付記24)
文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記17から22のいずれかに記載のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記23記載のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラム。
(付記25)
正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記26)
画像加工手順を含み、
前記画像加工手順は、前記合成文字画像を加工した加工文字画像を生成し、
前記教師データ出力手順は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、付記25記載の記録媒体。
(付記27)
前記正対化画像生成手順は、画像取得手順、端末情報取得手順、距離情報取得手順、基準姿勢情報取得手順、基準面設定手順、および画像補正手順を含み、
前記画像取得手順は、補正対象画像を取得し、
前記補正対象画像は、対象物を含む画像であり、
前記端末情報取得手順は、端末姿勢情報を取得し、
前記端末姿勢情報は、前記補正対象画像取得時の撮像端末の姿勢の情報であり、
前記距離情報取得手順は、対象物距離情報を取得し、
前記対象物距離情報は、前記撮像端末から前記対象物までの距離の情報であり、
前記基準姿勢情報取得手順は、基準姿勢情報を取得し、
前記基準姿勢情報は、前記補正対象画像取得時の前記対象物の姿勢の情報であり、
前記基準面設定手順は、前記端末姿勢情報、前記対象物距離情報、および前記基準姿勢情報に基づいて、正対化基準面を設定し、
前記画像補正手順は、前記端末姿勢情報および前記基準姿勢情報に基づいて、前記補正対象画像を、前記正対化基準面から垂直方向から見た正対化画像に補正する、
付記25または26記載の記録媒体。
(付記28)
前記端末姿勢情報が、撮像端末のジャイロセンサの情報を含む、付記27記載の記録媒体。
(付記29)
前記画像取得手順は、前記補正対象画像として、撮影プレビュー画像をリアルタイムに取得し、
前記画像補正手順は、前記撮影プレビュー画像をリアルタイムに前記正対化画像に補正する、付記27または28記載の記録媒体。
(付記30)
前記画像補正手順は、前記撮影プレビュー画像から所定の範囲をトリミングし、トリミング後の画像を正対化画像に補正する、
付記27から29のいずれかに記載の記録媒体。
(付記31)
教師データ取得手順、及び学習済みモデル生成手順を含み、
前記教師データ取得手順は、文字認識用教師データとして、付記17から22のいずれかに記載のプログラムにより出力された文字認識用教師データを取得し、
前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
(付記32)
文字認識対象画像取得手順、及び文字認識手順を含み、
前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
前記文字認識モデルは、付記17から22のいずれかに記載のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は付記23記載のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
本発明によれば、簡便に文字認識用の教師データを生成できる。このため、本発明は、画像を用いた文字認識を利用する分野において広く有用である。
1 文字認識用教師データ生成装置
2 正対化画像生成部
3 抽出部
4 識別部
5 画像合成部
6 教師データ出力部
7 画像加工部
101 CPU
102 メモリ
103 バス
104 記憶装置
105 入力装置
106 出力装置
107 通信デバイス
2 画像補正装置(正対化画像生成部)
21 画像取得部
22 端末情報取得部
23 距離情報取得部
24 基準姿勢情報取得部
25 基準面設定部
26 画像補正部
20 文字認識装置
21 文字認識部
201 CPU
202 メモリ
203 バス
204 記憶装置
205 入力装置
206 出力装置
207 通信デバイス
40 学習済みモデル製造装置
41 教師データ取得部
42 学習済みモデル生成部
401 CPU
402 メモリ
403 バス
404 記憶装置
405 入力装置
406 出力装置
407 通信デバイス
50 文字認識装置
51 文字認識対象画像取得部
52 文字認識部
501 CPU
502 メモリ
503 バス
504 記憶装置
505 入力装置
506 出力装置
507 通信デバイス

Claims (10)

  1. 正対化画像生成部、抽出部、識別部、画像合成部、および教師データ出力部を含み、
    前記正対化画像生成部は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
    前記抽出部は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
    前記識別部は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
    前記画像合成部は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
    前記教師データ出力部は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成装置。
  2. 画像加工部を含み、
    前記画像加工部は、前記合成文字画像を加工した加工文字画像を生成し、
    前記教師データ出力部は、さらに、前記加工文字画像と、前記加工文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、請求項1記載の文字認識用教師データ生成装置。
  3. 教師データ取得部、及び学習済みモデル生成部を含み、
    前記教師データ取得部は、文字認識用教師データとして、請求項1または2に記載の文字認識用教師データ生成装置が出力した文字認識用教師データを取得し、
    前記学習済みモデル生成部は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造装置。
  4. 文字認識対象画像取得部、及び文字認識部を含み、
    前記文字認識対象画像取得部は、文字認識対象を含む文字認識対象画像を取得し、
    前記文字認識部は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
    前記文字認識モデルは、請求項1または2に記載の文字認識用教師データ生成装置が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデル、および請求項3記載の学習済みモデル製造装置により製造された学習済みモデルの少なくとも一方である、文字認識装置。
  5. 正対化画像生成工程、抽出工程、識別工程、画像合成工程、および教師データ出力工程を含み、
    前記正対化画像生成工程は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
    前記抽出工程は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
    前記識別工程は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
    前記画像合成工程は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
    前記教師データ出力工程は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力する、文字認識用教師データ生成方法。
  6. 教師データ取得工程、及び学習済みモデル生成工程を含み、
    前記教師データ取得工程は、文字認識用教師データとして、請求項5記載の文字認識用教師データ生成方法により出力された文字認識用教師データを取得し、
    前記学習済みモデル生成工程は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成する、学習済みモデル製造方法。
  7. 文字認識対象画像取得工程、及び文字認識工程を含み、
    前記文字認識対象画像取得工程は、文字認識対象を含む文字認識対象画像を取得し、
    前記文字認識工程は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
    前記文字認識モデルは、請求項5記載の文字認識用教師データ生成方法が生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は請求項6記載の学習済みモデル製造方法により製造された学習済みモデルである、文字認識方法。
  8. 正対化画像生成手順、抽出手順、識別手順、画像合成手順、および教師データ出力手順を含み、
    前記正対化画像生成手順は、補正対象画像取得時の撮像端末の姿勢情報を用いて、補正対象画像を正対化基準面に対し垂直方向から見た画像に補正した正対化画像を生成し、
    前記抽出手順は、前記正対化画像から正対化背景画像および正対化文字画像を抽出し、
    前記識別手順は、基準文字情報に基づき、前記正対化文字画像が含む文字を識別し、
    前記画像合成手順は、前記正対化背景画像および前記正対化文字画像を合成した合成文字画像を生成し、
    前記教師データ出力手順は、前記合成文字画像と、前記合成文字画像が含む文字の組み合わせを文字認識用の教師データとして出力し、
    前記各手順をコンピュータに実行させるためのプログラム。
  9. 教師データ取得手順、及び学習済みモデル生成手順を含み、
    前記教師データ取得手順は、文字認識用教師データとして、請求項8記載のプログラムにより出力された文字認識用教師データを取得し、
    前記学習済みモデル生成手順は、前記文字認識用教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力する文字認識モデルを学習済みモデルとして生成し、
    前記各手順をコンピュータに実行させるためのプログラム。
  10. 文字認識対象画像取得手順、及び文字認識手順を含み、
    前記文字認識対象画像取得手順は、文字認識対象を含む文字認識対象画像を取得し、
    前記文字認識手順は、文字認識モデルに前記文字認識対象画像を入力して、前記文字認識対象が含む文字を認識し、
    前記文字認識モデルは、請求項8記載のプログラムが生成した教師データを用いた機械学習によって、文字認識対象を含む文字認識対象画像を入力した場合に、前記文字認識対象画像に含まれる文字を出力するよう生成された学習済みモデルであるか、又は請求項9記載のプログラムにより製造された学習済みモデルであり、前記各手順をコンピュータに実行させるためのプログラム。

JP2022099315A 2022-06-21 2022-06-21 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム Pending JP2024000579A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022099315A JP2024000579A (ja) 2022-06-21 2022-06-21 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022099315A JP2024000579A (ja) 2022-06-21 2022-06-21 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2024000579A true JP2024000579A (ja) 2024-01-09

Family

ID=89451649

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022099315A Pending JP2024000579A (ja) 2022-06-21 2022-06-21 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2024000579A (ja)

Similar Documents

Publication Publication Date Title
US11527055B2 (en) Feature density object classification, systems and methods
Dornaika et al. Simultaneous facial action tracking and expression recognition in the presence of head motion
JP4372051B2 (ja) 手形状認識装置及びその方法
TWI394093B (zh) 一種影像合成方法
WO2019061658A1 (zh) 眼镜定位方法、装置及存储介质
WO2019033571A1 (zh) 面部特征点检测方法、装置及存储介质
US10360439B2 (en) Apparatus, system, method and computer program product for recognizing face
JP2006011978A (ja) 画像処理方法、画像処理装置
JP2019117577A (ja) プログラム、学習処理方法、学習モデル、データ構造、学習装置、および物体認識装置
JPWO2010104181A1 (ja) 特徴点生成システム、特徴点生成方法および特徴点生成プログラム
JP2009230703A (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
Phankokkruad et al. An evaluation of technical study and performance for real-time face detection using web real-time communication
WO2020008629A1 (ja) 画像処理システム、画像処理方法、及びプログラム
WO2020008628A1 (ja) 画像処理システム、画像処理方法、及びプログラム
JP2014116716A (ja) 追尾装置
JP2017120503A (ja) 情報処理装置、情報処理装置の制御方法、及びプログラム
CN111325106B (zh) 生成训练数据的方法及装置
KR101360063B1 (ko) 제스처 인식 방법 및 시스템
Hashim et al. Kurdish sign language recognition system
JP2024000579A (ja) 文字認識用教師データ生成装置、学習済みモデル製造装置、文字認識装置、文字認識用教師データ生成方法、学習済みモデル製造方法、文字認識方法、及びプログラム
JP2017033556A (ja) 画像処理方法及び電子機器
CN106648171B (zh) 一种基于书写笔的交互系统及方法
JP6467994B2 (ja) 画像処理プログラム、画像処理装置、及び画像処理方法
CN113835590A (zh) 显示方法、信息发送方法和电子设备
JP2024000958A (ja) 識別管理支援装置、識別管理支援端末、識別管理支援システム装置、識別管理支援方法、プログラム及び記録媒体