JP7166505B1 - 画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム - Google Patents

画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム Download PDF

Info

Publication number
JP7166505B1
JP7166505B1 JP2022547921A JP2022547921A JP7166505B1 JP 7166505 B1 JP7166505 B1 JP 7166505B1 JP 2022547921 A JP2022547921 A JP 2022547921A JP 2022547921 A JP2022547921 A JP 2022547921A JP 7166505 B1 JP7166505 B1 JP 7166505B1
Authority
JP
Japan
Prior art keywords
data
image
article
inference result
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022547921A
Other languages
English (en)
Other versions
JPWO2023157092A1 (ja
JPWO2023157092A5 (ja
Inventor
大樹 阿多
大輔 安味
諭 名女松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP7166505B1 publication Critical patent/JP7166505B1/ja
Publication of JPWO2023157092A1 publication Critical patent/JPWO2023157092A1/ja
Publication of JPWO2023157092A5 publication Critical patent/JPWO2023157092A5/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/20Combination of acquisition, preprocessing or recognition functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

物品画像データ取得部(320)は、OCRを行う物品画像データを取得する。推論結果データ生成部(330)は、学習済モデルにOCRを行う物品画像データを入力して第1推論結果データと第2推論結果データとを生成する。推論結果データ出力部(340)は、第1推論結果データと第2推論結果データとを出力する。画像フィルタ生成部(130)は、第1推論結果データに基づく第1画像フィルタと第2推論結果データに基づく第2画像フィルタとを生成する。画像フィルタ出力部(140)は、第1画像フィルタと第2画像フィルタとを出力する。

Description

本開示は、画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラムに関する。
従来、撮像部材で撮像した物品に記載された文字を認識する所謂OCR(Optical Character Recognition/Reader)において、当該物品の撮像画像に画像処理を行うときに機械学習によって学習した装置を用いることが知られている。
特許文献1には、画像処理において適用する画像変換フィルタの順序計画を出力する順序計画部にニューラルネットワークを用いる画像処理装置が開示されている。特許文献1では、学習制御部が学習用画像と画像変換フィルタ群を組み合わせて構成可能な順序パターンとのペアである学習データペアの群によってニューラルネットワークを学習させている。具体的には、学習制御部が学習データペアに含まれる学習用画像をニューラルネットワークに入力して出力した順序計画と当該学習データペアに含まれる順序パターンとから求めた誤差である損失を当該ニューラルネットワークにフィードバックすることで学習させている。
特許文献2には、入力撮影画像のための適正画像を生成する画像補正装置が開示されている。特許文献2では、サンプル画像から区分けされた小領域画像を適正画像にする空間フィルタのパラメータを教師値として学習させることにより統計的学習則を構築する。また、特許文献2では、入力撮影画像を区分けした小領域画像に含まれている画素の画素値を統計的学習則に入力して出力されたパラメータに基づいて作成された空間フィルタを用いて小領域画像を補正する。
特開2020-154600号公報 特開2009-10853号公報
特許文献1、2に記載された装置では、入力された画像の画像処理に最も適した画像フィルタの組合せ、パラメータを一つだけ推論している。このため、特許文献1、2に記載された装置では、OCRの実際の運用において発生する環境のゆらぎ、例えば、朝・夕の時間帯における工場の窓からの光の差し込み、ワークが撮像される位置、向き、回転角度のズレ、ワークの個体差といった事象に対応できず、文字を誤認識する虞がある。
本開示は、上記実情に鑑みてなされたものであり、文字の誤認識を低減することを目的とする。
上記目的を達成するため、本開示に係る画像フィルタ生成システムは、撮像部材が撮像した物品の画像データである物品画像データに対してOCRを行う前の画像処理に用いる画像フィルタを生成する。画像フィルタ生成システムは、画像フィルタを生成する画像フィルタ生成装置と、予め取得した物品画像データと物品画像データの画像処理に用いた画像フィルタとの関係性を学習する学習装置と、OCRを行う物品画像データの画像処理に適した画像フィルタを推論する推論装置とを備える。学習装置は、物品画像データ、物品画像データの画像処理に用いた画像フィルタの組合せ及び画像フィルタ毎のパラメータの値を示すデータである画像フィルタ関連データ、ならびに、画像フィルタ関連データに基づく画像フィルタを用いて物品画像データの画像処理を行ったときのOCRで出力された文字認識の得点を示すデータであるOCR得点データ、を含む学習用データを取得する学習用データ取得部と、学習用データを用いた機械学習によって物品画像データと画像フィルタ関連データとOCR得点データとの関係性を示す学習済モデルを生成する学習済モデル生成部と、学習済モデルを出力する学習済モデル出力部とを含む。推論装置は、OCRを行う物品画像データを取得する物品画像データ取得部と、学習済モデルにOCRを行う物品画像データを入力して、OCRを行う物品画像データの画像処理に適した画像フィルタの組合せ及び画像フィルタ毎のパラメータの値を示すデータである推論結果データとして、第1推論結果データ、ならびに、第1推論結果データとは異なる第2推論結果データ、を生成する推論結果データ生成部と、第1推論結果データと第2推論結果データとを出力する推論結果データ出力部とを含む。画像フィルタ生成装置は、第1推論結果データに基づく画像フィルタである第1画像フィルタと第2推論結果データに基づく画像フィルタである第2画像フィルタとを生成する画像フィルタ生成部と、第1画像フィルタと第2画像フィルタとを出力する画像フィルタ出力部とを含む。
本開示によれば、推論装置は、第1推論結果データと第2推論結果データとを生成、出力し、画像フィルタ生成装置は、第1画像フィルタと第2画像フィルタとを生成、出力する。このため、ユーザは、第1画像フィルタと第2画像フィルタとの何れかの画像フィルタを用いて物品画像データの画像処理を行うことができ、OCRを行ったときの文字認識の得点が最も高い画像フィルタを選択できる。この結果、本開示に係る画像フィルタ生成システムは、第1推論結果データと第2推論結果データとを生成しない画像フィルタ生成システムよりも文字の誤認識を低減できる。
実施の形態1に係る画像フィルタ生成システムの全体説明図 実施の形態1に係る画像フィルタ生成システムの機能構成を示す図 実施の形態1に係る各装置のハードウェア構成を示すブロック図 実施の形態1に係る学習用データの説明図 実施の形態1に係る推論結果データを出力する処理の概要を説明するための図 実施の形態1に係る学習済モデル生成処理のフローチャート 実施の形態1に係る推論結果データ生成処理のフローチャート 実施の形態1に係る画像フィルタ生成処理のフローチャート 実施の形態1に係る画像フィルタ生成システムの作用説明図 実施の形態2に係る推論結果データ生成処理のフローチャート 実施の形態2に係る画像フィルタ生成処理のフローチャート 実施の形態3に係るビジョンセンサの機能構成を示す図
以下、本開示を実施するための形態に係る画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラムについて図面を参照して詳細に説明する。なお、図中同一又は相当する部分には同じ符号を付す。
[実施の形態1]
(実施の形態1に係る画像フィルタ生成システム1について)
本開示の実施の形態1に係る画像フィルタ生成システム1は、例えば、工場で生産された製品、部品といった所謂ワークを撮像した画像データについてOCR(Optical Character Recognition/Reader)を行う前の画像処理に用いる画像フィルタを生成するシステムである。
図1に示すように、画像フィルタ生成システム1は、撮像装置の一例であって、撮像した画像データの画像処理に用いる画像フィルタを生成する画像フィルタ生成装置の一例としてのビジョンセンサ100を備える。また、画像フィルタ生成システム1は、予め取得した物品の画像データである物品画像データと物品画像データに対してOCRを行う前の画像処理に用いた画像フィルタとの関係性を学習する学習装置200を備える。また、画像フィルタ生成システム1は、OCRを行う物品画像データの画像処理に適した画像フィルタを推論する推論装置300を備える。また、画像フィルタ生成システム1は、データを記憶する記憶装置400を備える。ビジョンセンサ100、学習装置200、推論装置300及び記憶装置400は、図示しないLAN(Local Area Network)を介してデータの送受信が可能となっている。
画像フィルタ生成システム1では、先ず、ビジョンセンサ100が予め撮像して得られた物品画像データについて予め生成した画像フィルタを用いて画像処理を行い、OCRを試行する。また、ビジョンセンサ100は、OCRを試行した物品画像データの試行結果に基づく学習用データを学習装置200に出力し、学習装置200は、取得した学習用データを用いた機械学習によって学習済モデルを生成する。また、学習装置200は、生成した学習済モデルを記憶装置400に出力して記憶させ、推論装置300は、記憶装置400が記憶している学習用モデルを取得する。
また、ビジョンセンサ100は、実際にOCRを行う物品を撮像したとき、推論装置300に物品画像データを出力する。また、推論装置300は、取得した物品画像データを学習用モデルに入力して当該物品画像データの画像処理に適した画像フィルタの推論結果を示すデータである推論結果データを生成してビジョンセンサ100に出力する。そして、ビジョンセンサ100は、取得した推論結果データに基づく画像フィルタを生成し、生成した画像フィルタを用いて物品画像データの画像処理を行った後、OCRを行う。
(実施の形態1に係るビジョンセンサ100について)
図2に示すように、ビジョンセンサ100は、物品を撮像する撮像部材の一例としてのカメラ110を含む。また、ビジョンセンサ100は、複数種類の画像フィルタの組合せ及び各画像フィルタのパラメータを示すデータである画像フィルタ関連データを生成する画像フィルタ関連データ生成部120を含む。また、ビジョンセンサ100は、画像フィルタを生成する画像フィルタ生成部130、画像フィルタを出力する画像フィルタ出力部140、画像処理を行う画像処理部150、OCRを行うOCR部160を含む。また、ビジョンセンサ100は、物品画像データを出力する物品画像データ出力部170、学習用データを出力する学習用データ出力部180、推論結果データを取得する推論結果データ取得部190を含む。
(実施の形態1に係る学習装置200について)
学習装置200は、例えば、パーソナルコンピュータ、サーバコンピュータ、スーパーコンピュータといったコンピュータ装置である。学習装置200は、学習用データを取得する学習用データ取得部210、学習済モデルを生成する学習済モデル生成部220、学習済モデルを出力する学習済モデル出力部230を含む。学習済モデル生成部220は、後述する報酬を算出する報酬算出部221、後述する価値関数を更新する価値関数更新部222を含む。
(実施の形態1に係る推論装置300について)
推論装置300は、学習装置200と同様のコンピュータ装置である。推論装置300は、学習済モデルを取得する学習済モデル取得部310、物品画像データを取得する物品画像データ取得部320、推論結果データを生成する推論結果データ生成部330、推論結果データを出力する推論結果データ出力部340を含む。
(実施の形態1に係る記憶装置400について)
記憶装置400は、例えば、LANで接続された通信ネットワーク上のHDD(Hard Disk Drive)、所謂NAS(Network Attached Storage)である。記憶装置400は、学習済モデルを記憶する学習済モデル記憶部410を含む。
(実施の形態1に係る学習装置200のハードウェア構成について)
図3に示すように、学習装置200は、制御プログラム59に従って処理を実行する制御部51を備える。制御部51は、CPU(Central Processing Unit)を備える。制御部51は、制御プログラム59に従って、図2に示す、学習済モデル生成部220、報酬算出部221、価値関数更新部222として機能する。
図3に戻り、学習装置200は、制御プログラム59をロードし、制御部51の作業領域として用いられる主記憶部52を備える。主記憶部52は、RAM(Random Access Memory)を備える。
また、学習装置200は、制御プログラム59を予め記憶する外部記憶部53を備える。外部記憶部53は、制御部51の指示に従って、このプログラムが記憶するデータを制御部51に供給し、制御部51から供給されたデータを記憶する。外部記憶部53は、フラッシュメモリ、HDD(Hard Disk Drive)、SSD(Solid State Drive)等の不揮発性メモリを備える。
また、学習装置200は、ユーザに操作される操作部54を備える。操作部54を介して、入力された情報が制御部51に供給される。操作部54は、キーボード、マウス、タッチパネル等の情報入力部品を備える。
また、学習装置200は、操作部54を介して入力された情報及び制御部51が出力した情報を表示する表示部55を備える。表示部55は、LCD(Liquid Crystal Display)、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を備える。
図3に戻り、学習装置200は、情報を送受信する送受信部56を備える。送受信部56は、ネットワークに接続する通信網終端装置、無線通信装置等の情報通信部品を備える。送受信部56は、図2に示す、学習用データ取得部210、学習済モデル出力部230として機能する。
図3に戻り、学習装置200では、主記憶部52、外部記憶部53、操作部54、表示部55及び送受信部56はいずれも内部バス50を介して制御部51に接続されている。
学習装置200は、制御部51が主記憶部52、外部記憶部53、操作部54、表示部55及び送受信部56を資源として用いることによって、図2に示す上記の各部210、220~222、230の機能を実現する。例えば、学習装置200は、学習用データ取得部210が行う学習用データ取得ステップを実行する。また、例えば、学習装置200は、学習済モデル生成部220が行う学習済モデル生成ステップ、報酬算出部221が行う報酬算出ステップ、価値関数更新部222が行う価値関数更新ステップを実行する。また、例えば、学習装置200は、学習済モデル出力部230が行う学習済モデル出力ステップを実行する。
(実施の形態1に係る推論装置300のハードウェア構成について)
また、図3に示すように、推論装置300も学習装置200と同様に、制御部51、主記憶部52、外部記憶部53、操作部54、表示部55、送受信部56を備える。制御部51は、制御プログラム59に従って、図2に示す、推論結果データ生成部330として機能する。また、送受信部56は、図2に示す、学習済モデル取得部310、物品画像データ取得部320、推論結果データ出力部340として機能する。
図3に戻り、推論装置300は、制御部51が主記憶部52、外部記憶部53、操作部54、表示部55及び送受信部56を資源として用いることによって、図2に示す上記の各部310~330の機能を実現する。例えば、推論装置300は、学習済モデル取得部310が行う学習済モデル取得ステップ、物品画像データ取得部320が行う物品画像データ取得ステップ、推論結果データ生成部330が行う推論結果データ生成ステップ、推論結果データ出力部340が行う推論結果データ出力ステップを実行する。
(実施の形態1に係るビジョンセンサ100のハードウェア構成について)
また、図示は省略するが、ビジョンセンサ100は、制御部51、主記憶部52、外部記憶部53、操作部54、送受信部56を備える。制御部51は、制御プログラム59に従って、図2に示す、画像フィルタ関連データ生成部120、画像フィルタ生成部130、画像フィルタ出力部140、画像処理部150、OCR部160として機能する。また、送受信部56は、図2に示す、物品画像データ出力部170、学習用データ出力部180、推論結果データ取得部190として機能する。
図3に戻り、ビジョンセンサ100は、制御部51が主記憶部52、外部記憶部53、操作部54及び送受信部56を資源として用いることによって、図2に示す上記の各部120~190の機能を実現する。例えば、ビジョンセンサ100は、画像フィルタ関連データ生成部120が行う画像フィルタ関連データ生成ステップ、画像フィルタ生成部130が行う画像フィルタ生成ステップ、画像フィルタ出力部140が行う画像フィルタ出力ステップを実行する。また、例えば、ビジョンセンサ100は、画像処理部150が行う画像処理ステップ、OCR部160が行うOCRステップを実行する。また、例えば、ビジョンセンサ100は、物品画像データ出力部170が行う物品画像データ出力ステップ、学習用データ出力部180が行う学習用データ出力ステップ、推論結果データ取得部190が行う推論結果データ取得ステップを実行する。
(実施の形態1に係るビジョンセンサ100の機能構成の詳細について)
図2に戻り、カメラ110は、物品の一例として、予め定めた設計値の許容範囲内のワーク、すなわち、良品のワークを撮像して物品画像データを生成する。ここで、カメラ110は、製造時に実際の製造ラインで搬送されるワークを撮像してもよく、実際の製造ラインと近似する製造ラインで搬送されるワークを撮像してもよく、製造時の環境の模擬環境でワークを撮像してもよい。なお、模擬環境でワークを撮像する場合、カメラ110は、例えば、製造時に想定される環境のゆらぎ、具体的には、朝・昼・夕といった時間帯、搬送されるワークの向き、回転角度を模倣してワークを複数回撮像することで、複数種類の物品画像データを生成してもよい。
画像フィルタ関連データ生成部120は、カメラ110から予め取得した物品画像データにOCRを試行するとき、画像処理に用いる画像フィルタの画像フィルタ関連データを生成する。なお、OCRを試行する物品画像データは、上述した過去の製造時に実際に撮像したワークの物品画像データ、模擬環境で撮像したワークの物品画像データが含まれる。また、画像フィルタ関連データが示す複数種類の画像フィルタの組合せは、例えば、二値化、膨張、収縮、平滑化フィルタ、ノイズ除去フィルタ、輪郭抽出フィルタ、ハイパスフィルタ、ローパスフィルタ、クリップ、エッジ強調用フィルタといった公知の画像フィルタのうちから選択した複数種類の画像フィルタの組合せである。また、画像フィルタ関連データが示す各画像フィルタのパラメータは、例えば、閾値、カーネルサイズ、ゲイン、最大値、最小値といった公知のパラメータのうちから選択した複数種類のパラメータの値の組合せである。
なお、画像フィルタ関連データ生成部120は、例えば、過去の製造時に実際に使用した画像フィルタから画像フィルタ関連データを生成してもよい。また、画像フィルタ関連データ生成部120は、例えば、乱数を用いて画像フィルタの組合せと各画像フィルタのパラメータを選択して画像フィルタ関連データを生成してもよい。
画像フィルタ生成部130は、画像フィルタ関連データに基づいて画像フィルタを生成する。ここで、例えば、画像フィルタ関連データが示す画像フィルタの組合せがノイズ除去フィルタ及び輪郭抽出フィルタの組合せであり、ノイズ除去フィルタのパラメータが第1パラメータであり、輪郭抽出フィルタのパラメータが第2パラメータである場合について考える。この場合、画像フィルタ生成部130は、第1パラメータを設定したノイズ除去フィルタと第2パラメータを設定した輪郭抽出フィルタとを組み合わせた画像フィルタを生成する。
画像フィルタ出力部140は、画像フィルタ生成部130が画像フィルタを生成したとき、生成された画像フィルタを画像処理部150に出力する。
画像処理部150は、画像フィルタ出力部140から取得した画像フィルタを用いて物品画像データの画像処理を行う。
OCR部160は、画像処理が行われた物品画像データに対してOCRを行うとともに、文字認識の信頼度を示す値である得点を出力する。
物品画像データ出力部170は、カメラ110から取得したOCRを行う物品画像データを推論装置300に出力する。
学習用データ出力部180は、学習用データを学習装置200に出力する。ここで、学習用データは、OCRを試行した物品画像データと、当該物品画像データの画像処理に用いた画像フィルタを特定可能な画像フィルタ関連データとを含む。さらに、学習用データは、当該画像フィルタ関連データに基づく画像フィルタで物品画像データの画像処理を行った後にOCRを試行して出力された得点を示すデータであるOCR得点データを含む。よって、学習用データは、過去の製造時のワークについての物品画像データと画像フィルタ関連データとOCR得点データとを含むデータである。
ここで、学習用データ出力部180が学習用データを学習装置200に出力するためにビジョンセンサ100が学習用データを生成する処理について説明する。先ず、図4に示すように、自然数をmとしたとき、カメラ110が生成したm種類の物品画像データをIMG-1、IMG-2、…、IMG-mとする。また、自然数をnとしたとき、画像フィルタ関連データ生成部120が生成したn種類の画像フィルタ関連データをF/P-001、F/P-002、…F/P-00nとする。画像フィルタ生成部130は、n種類の画像フィルタ関連データF/P-001、F/P-002、…F/P-00nに基づくn種類の画像フィルタを生成する。また、画像処理部150は、各物品画像データIMG-1、IMG-2、…、IMG-mにn種類の画像フィルタを用いて画像処理を行い、OCR部160は、m×n種類の画像処理済の物品画像データにOCRを行い、m×n種類のOCR得点データを出力する。
ここで、各画像フィルタ関連データF/P-001、F/P-002、…、F/P-00nに基づく画像フィルタで画像処理及びOCRを行った第1物品画像データIMG-1のOCR得点データをIMG-1_F/P-001、IMG-1_F/P-002、…、IMG-1_F/P-00nとする。また、各画像フィルタ関連データF/P-001、F/P-002、…、F/P-00nに基づく画像フィルタで画像処理及びOCRを行った第2物品画像データIMG-2のOCR得点データをIMG-2_F/P-001、IMG-2_F/P-002、…、IMG-2_F/P-00nとする。また、各画像フィルタ関連データF/P-001、F/P-002、…、F/P-00nに基づく画像フィルタで画像処理及びOCRを行った第m物品画像データIMG-mのOCR得点データをIMG-m_F/P-001、IMG-m_F/P-002、…、IMG-m_F/P-00nとする。
この結果、学習用データ出力部180は、学習用データとして、m種類の物品画像データIMG-1、IMG-2、…、IMG-mと、n種類の画像フィルタ関連データF/P-001、F/P-002、…F/P-00nと、m×n種類のOCR得点データIMG-1_F/P-001、IMG-1_F/P-002、…、IMG-1_F/P-00n、IMG-2_F/P-001、IMG-2_F/P-002、…、IMG-2_F/P-00n、…、IMG-m_F/P-001、IMG-m_F/P-002、…、IMG-m_F/P-00nとを含むデータを出力することになる。
図2に戻り、推論結果データ取得部190は、推論装置300から出力された推論結果データを取得する。なお、このとき、画像フィルタ生成部130は、推論結果データに基づいて画像フィルタを生成し、画像フィルタ出力部140は、画像フィルタを画像処理部150に出力する。また、画像処理部150は、取得した画像フィルタを用いて物品画像データの画像処理を行い、OCR部160は、画像処理が行われた物品画像データに対してOCRを行う。
(実施の形態1に係る学習装置200の機能構成の詳細について)
学習用データ取得部210は、ビジョンセンサ100から出力された学習用データを取得する。学習用データ取得部210は、例えば、学習用データとして、m種類の物品画像データIMG-1、IMG-2、…、IMG-mと、n種類の画像フィルタ関連データF/P-001、F/P-002、…F/P-00nと、m×n種類のOCR得点データIMG-1_F/P-001、IMG-1_F/P-002、…、IMG-1_F/P-00n、IMG-2_F/P-001、IMG-2_F/P-002、…、IMG-2_F/P-00n、…、IMG-m_F/P-001、IMG-m_F/P-002、…、IMG-m_F/P-00nとを含むデータを取得する。
学習済モデル生成部220は、取得した複数種類の学習用データを用いた機械学習によって物品画像データと画像フィルタ関連データとOCR得点データとの関係性を示す学習済モデルを生成する。学習済モデル生成部220は、機械学習として公知の強化学習(Reinforcement Learning)のアルゴリズムの一例であるQ学習(Q-learning)を用いて学習済モデルを生成する。ここで、強化学習とは、ある環境内における行動主体であるエージェントが環境のパラメータである現在の状態を観測して取るべき行動を決定する機械学習である。強化学習では、エージェントの行動により環境が動的に変化し、エージェントには環境の変化に応じて報酬が与えられる。そして、強化学習では、エージェントがこれを繰り返し、一連の行動を通じて報酬が最も多く得られる行動方針が学習される。
また、Q学習では、報酬が最も多く得られる行動方針として価値関数の一例としての行動価値関数に基づく行動価値が算出される。ここで、時刻tにおける環境の状態をs、時刻tにおける行動をa、行動aによって変化した状態をst+1、状態がsからst+1に変化することによって得られる報酬をrt+1、割引率をγ、学習係数をαとし、0<γ≦1,0<α≦1が成立するものとする。そして、行動価値関数をQ(s,a)とした場合、行動価値関数Q(s,a)の一般的な更新式は以下の数1で示される。
Figure 0007166505000001
また、Q学習では、行動価値をQとした場合、時刻t+1における最も価値の高い行動at+1の行動価値Qが、時刻tにおいて実行された行動aの行動価値Qよりも大きければ行動価値Qを大きくし、行動at+1の行動価値Qが行動aの行動価値Qよりも小さければ行動価値Qを小さくする。換言すれば、Q学習では、時刻tにおける行動aの行動価値Qを、時刻t+1における最良の行動価値に近づけるために、行動価値関数Q(s,a)を更新する。その結果、ある環境内における最良の行動価値Qが、それ以前の環境における行動価値Qに順次伝播していく。
学習済モデル生成部220は、学習用データに含まれる物品画像データに基づく値を状態sに当てはめるとともに、学習用データに含まれる画像フィルタ関連データに基づく値を行動aに当てはめることで、Q学習を用いて学習済モデルを生成する。なお、物品画像データに基づく値の状態sへの当てはめについては任意の当てはめが可能である。例えば、物品画像データを示す数値をx、予め定められた定数をuとする。このとき、状態sについて、s=u×xが成立してもよい。
また、画像フィルタ関連データに基づく値の行動aへの当てはめについては、行動価値関数Q(s,a)と状態sとに基づいて行動aを算出可能であり且つ行動aに基づいて画像フィルタの組合せ及び各画像フィルタのパラメータが特定可能である限りにおいて任意の当てはめが可能である。例えば、画像フィルタ関連データを示す数値をy、予め定められた定数をvとする。このとき、行動aについて、a=v×yが成立してもよい。
報酬算出部221は、学習用データに含まれる物品画像データを示す数値と、画像フィルタ関連データを示す数値と、OCR得点データに基づく得点の値に基づいて報酬rt+1を算出する。例えば、報酬算出部221は、2種類の学習用データを比較したとき、物品画像データを示す数値と画像フィルタ関連データを示す数値とのうちの少なくとも何れか一の数値の変化によって、OCR得点データに基づく得点の値が変化すれば与える報酬rt+1も変化させる。具体的には、報酬算出部221は、得点の値が増加していれば報酬rt+1を増大し、例えば、+1の報酬を与える一方、得点の値が減少していれば報酬rt+1を減少し、例えば、-1の報酬を与える。
ここで、例えば、第1物品画像データIMG-1と、2種類の画像フィルタ関連データF/P-001、F/P-002とについて考える。この場合、各画像フィルタ関連データF/P-001、F/P-002を示す数値が異なることで、OCR得点データIMG-1_F/P-001、IMG-1_F/P-002に基づく得点の値も異なる。このため、報酬算出部221は、OCR得点データIMG-1_F/P-001、IMG-1_F/P-002に基づく得点の値をSC1、SC2とした場合、画像フィルタ関連データがF/P-001からF/P-002に変化したとき、(SC2-SC1)>0であれば+1の報酬を与える一方、(SC2-SC1)≦0であれば-1の報酬を与える。
価値関数更新部222は、報酬算出部221が算出した報酬rt+1に基づいて、行動価値関数Q(s,a)を更新する。また、価値関数更新部222は、行動価値関数Q(s,a)を示すデータを学習済モデルとして生成する。
学習済モデル生成部220は、学習用データ取得部210が100から学習用データを取得する度に、報酬rt+1の算出と行動価値関数Q(s,a)の更新とを繰り返している。また、学習済モデル生成部220は、上述した数1に示す更新式で行動価値関数Q(s,a)を更新する度に、更新した行動価値関数Q(s,a)を示すデータを学習済モデルとして生成する。
学習済モデル出力部230は、生成した学習済モデル、すなわち、行動価値関数Q(s,a)を示すデータを記憶装置400に出力して記憶させる。
(実施の形態1に係る推論装置300の機能構成の詳細について)
学習済モデル取得部310は、記憶装置400が記憶している学習済モデルを取得する。
物品画像データ取得部320は、ビジョンセンサ100から出力されたOCRを行う物品画像データを取得する。本実施の形態では、物品画像データ取得部320が取得するOCRを行う物品画像データは、ビジョンセンサ100においてOCRの運用を行う前に実際の製造ラインで予め撮像しておいたワークの物品画像データである。具体的には、OCRを行う物品画像データには、ワークに記載された文字がボケている物品画像データ、室内が明るい状態で撮像したワークの物品画像データ、室内が暗い状態で撮像したワークの物品画像データといった画像処理が必要な複数種類の物品画像データが含まれる。なお、画像処理が必要な物品画像データには、実際の製造ラインにおいて画像が撮像される確率を示すデータが含まれていてもよい。
推論結果データ生成部330は、学習済モデルにOCRを行う物品画像データを入力して推論結果データとして第1推論結果データと第1推論結果データとは異なる第2推論結果データを生成する。
ここで、OCRを行う物品画像データを入力された学習済モデルが第1推論結果データと第2推論結果データとを出力する処理の概要について説明する。先ず、学習装置200が機械学習に用いた学習用データは、4種類の物品画像データIMG-1、IMG-2、IMG-3、IMG-4、5種類の画像フィルタ関連データF/P-001、F/P-002、F/P-003、F/P-004、F/P-005、20種類のOCR得点データIMG-1_F/P-001、IMG-1_F/P-002、…、IMG-1_F/P-005、IMG-2_F/P-001、IMG-2_F/P-002、…、IMG-2_F/P-005、…、IMG-4_F/P-001、IMG-4_F/P-002、…、IMG-4_F/P-005を含むデータであったとする。
また、図5に示すように、20種類のOCR得点データIMG-1_F/P-001、IMG-1_F/P-002、…、IMG-1_F/P-005、IMG-2_F/P-001、IMG-2_F/P-002、…、IMG-2_F/P-005、…、IMG-4_F/P-001、IMG-4_F/P-002、…、IMG-4_F/P-005に基づく得点の値が、99、60、…、0、70、10、…、11、…、20、91、…、91であったとする。
また、図5に示すように、OCRを行う物品画像データは、第1物品画像データIMG-1と同様である確率が9%、第2物品画像データIMG-2と同様である確率が60%、第3物品画像データIMG-3と同様である確率が30%、第4物品画像データIMG-4と同様である確率が1%であるとする。
この場合、図5に示すように、第1物品画像データIMG-1は、第1画像フィルタ関連データF/P-001に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が99点で最も大きくなる。また、第2物品画像データIMG-2は、第3画像フィルタ関連データF/P-003に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が98点で最も大きくなる。また、第3物品画像データIMG-3は、第2画像フィルタ関連データF/P-002に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が100点で最も大きくなる。また、第4物品画像データIMG-4は、第2画像フィルタ関連データF/P-002又は第5画像フィルタ関連データF/P-005に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が91点で最も大きくなる。
ここで、例えば、学習済モデルには、推論結果データが2種類、得点の値が90点以上という条件が推論結果データ生成部330から与えられている場合について考える。この場合、先ず、学習済モデルは、画像処理及びOCRを行ったときの得点の値が90点以上となる各物品画像データIMG-1~IMG-4が何種類であったかを示す網羅率が最も高くなる2種類の画像フィルタ関連データの組合せの候補を特定する。
具体的には、学習済モデルは、2種類の画像フィルタ関連データでは網羅率100%となる組合せがないので、網羅率75%となる第1画像フィルタ関連データF/P-001と第2画像フィルタ関連データF/P-002とを第1候補、第1画像フィルタ関連データF/P-001と第3画像フィルタ関連データF/P-003とを第2候補として算出する。なお、第1候補の各画像フィルタ関連データF/P-001、F/P-002に基づく画像フィルタを用いて画像処理及びOCRを行ったときの得点の最大値は、第1物品画像データIMG-1が99点、第2物品画像データIMG-2が70点、第3物品画像データIMG-3が100点、第4物品画像データIMG-4が91点である。また、第2候補の各画像フィルタ関連データF/P-001、F/P-003に基づく画像フィルタを用いて画像処理及びOCRを行ったときの得点の最大値は、第1物品画像データIMG-1が99点、第2物品画像データIMG-2が98点、第3物品画像データIMG-3が91点、第4物品画像データIMG-4が80点である。
そして、学習済モデルは、実際の製造ラインにおいて各物品画像データIMG-1~IMG-4が得られる確率から第1候補と第2候補の得点の期待値を算出し、期待値が高い候補を推論結果データとして出力する。具体的には、第1候補の得点の期待値は、81.82点である(99×0.09+70×0.60+100×0.30+91×0.01=81.82)。一方、第2候補の得点の期待値は、95.81点である(99×0.09+98×0.60+91×0.30+80×0.01=95.81)。このため、学習済モデルは、第1推論結果データと第2推論結果データとして第2候補である第1画像フィルタ関連データF/P-001と第3画像フィルタ関連データF/P-003とを出力する。この結果、推論結果データ生成部330は、第1推論結果データと第2推論結果データとして第1画像フィルタ関連データF/P-001と第3画像フィルタ関連データF/P-003とを生成することになる。
なお、本実施の形態では、推論結果データ生成部330は、第1推論結果データと第2推論結果データとの2種類の推論結果データを生成しているが、3種類以上の推論結果データを生成してもよい。例えば、推論結果データ生成部330は、第1推論結果データと第2推論結果データと第3推論結果データとの3種類の推論結果データを生成してもよい。
この場合、学習済モデルは、網羅率100%となる第1画像フィルタ関連データF/P-001と第2画像フィルタ関連データF/P-002と第3画像フィルタ関連データF/P-003とを第1候補、第1画像フィルタ関連データF/P-001と第3画像フィルタ関連データF/P-003と第5画像フィルタ関連データF/P-005とを第2候補として算出する。なお、第1候補の各画像フィルタ関連データF/P-001、F/P-002、F/P-003に基づく画像フィルタを用いて画像処理及びOCRを行ったときの得点の最大値は、第1物品画像データIMG-1が99点、第2物品画像データIMG-2が98点、第3物品画像データIMG-3が100点、第4物品画像データIMG-4が91点である。また、第2候補の各画像フィルタ関連データF/P-001、F/P-003、F/P-005に基づく画像フィルタを用いて画像処理及びOCRを行ったときの得点の最大値は、第1物品画像データIMG-1が99点、第2物品画像データIMG-2が98点、第3物品画像データIMG-3及び第4物品画像データIMG-4が91点である。
よって、第1候補の得点の期待値は、98.62点である(99×0.09+98×0.60+100×0.30+91×0.01=98.62)。一方、第2候補の得点の期待値は、95.92点である(99×0.09+98×0.60+91×0.30+91×0.01=95.92)。なお、この場合、各物品画像データIMG-1~IMG-4が得られる確率が変化しても第1候補の得点の期待値のほうが第2候補の得点の期待値よりも高くなる。例えば、各物品画像データIMG-1~IMG-4が得られる確率が各25%であれば、第1候補の得点の期待値の97点((99+98+100+91)/4=97)のほうが第2候補の得点の期待値の94.75点(((99+98+91+91)/4=94.75)よりも高くなる。このため、学習済モデルは、第1推論結果データ、第2推論結果データ及び第3推論結果データとして第1候補である第1画像フィルタ関連データF/P-001、第2画像フィルタ関連データF/P-002及び第3画像フィルタ関連データF/P-003を出力する。この結果、推論結果データ生成部330は、第1推論結果データ、第2推論結果データ及び第3推論結果データとして第1画像フィルタ関連データF/P-001、第2画像フィルタ関連データF/P-002及び第3画像フィルタ関連データF/P-003とを生成することになる。
なお、推論結果データ生成部330は、得点の値が90点以上という条件を学習済モデルに与えなくてもよい。この場合であっても、学習済モデルは、得点の期待値が最も高くなる画像フィルタ関連データF/P-001~F/P-005の組合せを特定することで第1推論結果データと第2推論結果データとを出力できる。
なお、物品画像データ取得部320が取得したOCRを行う物品画像データには、実際の製造ラインにおいて画像が撮像される確率を示すデータが含まれていなくてもよい。この場合、推論結果データ生成部330は、取得した物品画像データが得られる確率が全て同一である前提で得点の期待値が最も高くなる画像フィルタ関連データF/P-001~F/P-005の組合せを特定してもよい。
図2に戻り、推論結果データ出力部340は、生成された推論結果データとして第1推論結果データと第2推論結果データとをビジョンセンサ100に出力する。よって、ビジョンセンサ100では、推論結果データ取得部190は、第1推論結果データと第2推論結果データとを取得する。また、画像フィルタ生成部130は、第1推論結果データに基づく第1画像フィルタと、第2推論結果データに基づく第2画像フィルタとを生成し、画像フィルタ出力部140は、第1画像フィルタと第2画像フィルタとを画像処理部150に出力する。そして、画像処理部150は、各画像フィルタを用いて物品画像データの画像処理を行い、OCR部160は、各画像処理が行われた物品画像データに対してOCRを行う。
(実施の形態1に係る学習済モデル生成処理について)
次に、フローチャートを用いて学習装置200が学習済モデルを生成、出力する動作について説明する。学習装置200は、電源をオンにすると、図6に示す学習済モデル生成処理の実行を開始する。先ず、学習用データ取得部210は、ビジョンセンサ100から新たな学習用データを取得する(ステップS101)。例えば、学習用データ取得部210は、学習用データとして、図4に示すm種類の物品画像データIMG-1、IMG-2、…、IMG-mと、n種類の画像フィルタ関連データF/P-001、F/P-002、…F/P-00nと、m×n種類のOCR得点データIMG-1_F/P-001、IMG-1_F/P-002、…、IMG-1_F/P-00n、IMG-2_F/P-001、IMG-2_F/P-002、…、IMG-2_F/P-00n、…、IMG-m_F/P-001、IMG-m_F/P-002、…、IMG-m_F/P-00nとを含むデータを取得する。
次に、学習済モデル生成部220は、取得した複数種類の学習用データを用いた機械学習によって学習済モデルを生成する。具体的には、報酬算出部221は、取得した学習用データに含まれる物品画像データ、画像フィルタ関連データ及びOCR得点データに基づいて報酬rt+1を算出する(ステップS102)。例えば、報酬算出部221は、第1物品画像データIMG-1について画像フィルタ関連データがF/P-001からF/P-002に変化したとき、(SC2-SC1)>0であれば+1の報酬を与える一方、(SC2-SC1)≦0であれば-1の報酬を与える。
次に、価値関数更新部222は、算出した報酬rt+1に基づいて行動価値関数Q(s,a)を更新する(ステップS103)。例えば、価値関数更新部222は、物品画像データを示す数値xから状態sを算出するとともに、画像フィルタ関連データを示す数値yから行動aを算出する。そして、価値関数更新部222は、上述した数1に示す更新式で行動価値関数Q(s,a)を更新する。そして、学習済モデル生成部220は、更新された行動価値関数Q(s,a)を示すデータである学習済モデルを記憶装置400に出力して学習済モデル記憶部410に記憶させ(ステップS104)、処理を終了する。
(実施の形態1に係る推論結果データ生成処理について)
次に、フローチャートを用いて推論装置300が推論結果データを生成、出力する動作について説明する。推論装置300は、電源をオンにすると、図7に示す推論結果データ生成処理の実行を開始する。先ず、学習済モデル取得部310は、記憶装置400が記憶している学習済モデルを取得する(ステップS201)。次に、物品画像データ取得部320は、ビジョンセンサ100から新たにOCRを行う物品画像データを取得する(ステップS202)。次に、推論結果データ生成部330は、学習済モデルに新たにOCRを行う物品画像データを入力して第1推論結果データと第2推論結果データとを生成する(ステップS203)。そして、推論結果データ出力部340は、生成された第1推論結果データと第2推論結果データとをビジョンセンサ100に出力し(ステップS204)、処理を終了する。
(実施の形態1に係る画像フィルタ生成処理について)
次に、フローチャートを用いてビジョンセンサ100が画像フィルタを生成、出力する動作について説明する。ビジョンセンサ100は、電源をオンにすると、図8に示す画像フィルタ生成処理の実行を開始する。先ず、物品画像データ出力部170は、OCRを行う物品画像データを推論装置300に出力する(ステップS301)。次に、推論結果データ取得部190は、推論装置300から出力された第1推論結果データと第2推論結果データとを取得する(ステップS302)。次に、画像フィルタ生成部130は、第1推論結果データに基づく第1画像フィルタと、第2推論結果データに基づく第2画像フィルタとを生成する(ステップS303)。そして、画像フィルタ出力部140は、第1画像フィルタと第2画像フィルタとを画像処理部150に出力し(ステップS304)、処理を終了する。
以上説明したように、本実施の形態に係る画像フィルタ生成システム1によれば、ビジョンセンサ100は、カメラ110が物品を撮像することで得られた物品画像データに対してOCRを行う前の画像処理に用いる画像フィルタを生成する。
ここで、例えば、工場においてビジョンセンサで撮像したワークの画像データについてOCRを行う場合について考える。この場合、ワークが正常な位置に配置されていない、工場内が明るすぎたり暗すぎたりするといったワークの撮像時の環境が原因で文字認識を行い易い物品画像データが得られず、文字を誤認識することがある。このため、従来の技術者は、ノウハウをベースとして様々な画像フィルタの組合せ、各画像フィルタのパラメータの設定といった試行を人手作業で行い、特定の環境でOCRの信頼性が高い画像フィルタを予め複数種類準備し、現在の環境においてOCRの得点が最も高いものを採用していた。しかしながら、準備する画像フィルタは、ワークの材質、色、形状といったワークの種類、組み合わせる画像フィルタの種類、パラメータを全て考慮する必要があるため、人手作業で準備、採用するには膨大な時間を要する問題がある。
これに対して、本実施の形態に係る画像フィルタ生成システム1では、ビジョンセンサ100は、物品画像データが示すワークの種類、画像フィルタ関連データが示す組み合わせる画像フィルタの種類、パラメータを全て考慮して画像フィルタを自動的に生成する。
このようにすることで、本実施の形態に係る画像フィルタ生成システム1は、画像フィルタを人手作業で準備、採用するよりもOCRを行う物品画像データを得てから画像フィルタを用いた画像処理を行うまでの時間を短縮できる。
また、本実施の形態に係る画像フィルタ生成システム1によれば、学習装置200では、学習用データ取得部210は、ビジョンセンサ100から物品画像データと画像フィルタ関連データとを含む学習用データを取得する。また、学習済モデル生成部220は、学習用データを用いた機械学習によって物品画像データと画像フィルタ関連データとの関係性を示す学習済モデルを生成し、学習済モデル出力部230は、学習済モデルを記憶装置400に出力して記憶させる。
また、推論装置300では、物品画像データ取得部320は、OCRを行う物品画像データを取得する。また、推論結果データ生成部330は、学習済モデル取得部310が記憶装置400から取得した学習済モデルにOCRを行う物品画像データを入力して第1推論結果データと第2推論結果データとを生成する。また、推論結果データ出力部340は、第1推論結果データと第2推論結果データとをビジョンセンサ100に出力する。そして、ビジョンセンサ100では、画像フィルタ生成部130は、第1推論結果データに基づく第1画像フィルタと第2推論結果データに基づく第2画像フィルタとを生成し、画像フィルタ出力部140は、第1画像フィルタと第2画像フィルタとを出力する。
したがって、ビジョンセンサ100では、画像処理部150は、第1画像フィルタを用いて物品画像データの画像処理を行うとともに、第2画像フィルタを用いて物品画像データの画像処理を行うことができる。また、OCR部160は、第1画像フィルタを用いた画像処理が行われた物品画像データに対してOCRを行うとともに、第2画像フィルタを用いた画像処理が行われた物品画像データに対してOCRを行うことができる。
ここで、例えば、図9に示すように、新たにOCRを行う物品画像データをIMG-0とし、推論装置300が生成、出力した第1推論結果データをF/P-001、第2推論結果データをF/P-002とする。この場合、ビジョンセンサ100は、第1推論結果データF/P-001に基づく第1画像フィルタと、第2推論結果データF/P-002に基づく第2画像フィルタとを生成する。また、ビジョンセンサ100は、物品画像データIMG-0に対して各画像フィルタを用いて画像処理及びOCRを行う。このとき、出力される各OCR得点データをIMG-0_F/P-001、IMG-0_F/P-002とし、各OCR得点データIMG-0_F/P-001、IMG-0_F/P-002に基づく得点の値をSCA、SCBとする。この場合、ビジョンセンサ100は、(SCA-SCB)>0であれば第1画像フィルタで画像処理及びOCRを行った文字認識の結果を採用する一方、(SCA-SCB)≦0であれば第2画像フィルタで画像処理及びOCRを行った文字認識の結果を採用する。
このようにすることで、ビジョンセンサ100は、第1画像フィルタと第2画像フィルタとのうちから、OCRを行ったときの文字認識の得点が最も高い画像フィルタを選択できる。よって、カメラ110がワークを撮像してからOCRを行うまでの所謂タクトタイム内であれば、ビジョンセンサ100は、カメラ110がワークを撮像する度にOCRを行う物品画像データに最も適した画像フィルタを選択し、当該画像フィルタを用いた画像処理及びOCRを行うことができる。この結果、本実施の形態に係る画像フィルタ生成システム1は、推論装置が第1推論結果データと第2推論結果データとを生成しない画像フィルタ生成システムよりも文字の誤認識を低減できる。
なお、本実施の形態では、推論装置300は、2種類の推論結果データを生成、出力しているが、3種類以上の推論結果データを生成、出力してもよい。例えば、推論装置300が3種類の推論結果データを生成、出力した場合、ビジョンセンサ100は、第1画像フィルタと第2画像フィルタと第3画像フィルタとのうちから、OCRを行ったときの文字認識の得点が最も高い画像フィルタを選択できる。なお、この場合、上述したタクトタイム内に3種類の推論結果データに基づく画像フィルタを用いた画像処理及びOCRを試行する必要がある。よって、推論装置300が3種類以上の推論結果データを生成、出力する場合には、推論結果データの種類の数は、タクトタイムを考慮して定める必要がある。
また、本実施の形態に係る画像フィルタ生成システム1によれば、学習用データ取得部210が取得する学習用データには、物品画像データと、画像フィルタ関連データと、OCR得点データとを含む。そして、学習済モデル生成部220は、学習用データを用いた機械学習によって物品画像データと画像フィルタ関連データとOCR得点データとの関係性を示す学習済モデルを生成する。
このようにすることで、推論装置300は、学習済モデルにOCRを行う物品画像データを入力することで、OCRを行ったときに出力される文字認識の得点が最も高くなると推論される推論結果データを生成、出力できる。この結果、本実施の形態に係る画像フィルタ生成システム1は、学習装置が物品画像データと画像フィルタ関連データとOCR得点データとの関係性を示す学習済モデルを生成しない画像フィルタ生成システムよりも文字の誤認識を低減できる。
また、本実施の形態に係る画像フィルタ生成システム1によれば、学習装置200では、学習済モデル生成部220が行う機械学習は、行動価値関数Q(s,a)を用いる強化学習である。また、学習済モデル生成部220は、2種類の学習用データにおいて物品画像データと画像フィルタ関連データとのうちの少なくとも一のデータが変化した結果、OCR得点データが示す得点が増加したときに報酬rt+1を増加させる一方で得点が減少したときに報酬rt+1を減少させることで行動価値関数Q(s,a)を更新する。そして、学習済モデル生成部220は、更新した行動価値関数Q(s,a)を示すデータを学習済モデルとして生成する。
このようにすることで、推論装置300は、OCR得点データが示す得点に基づいて強化学習された学習済モデルにOCRを行う物品画像データを入力することで、OCRを行ったときに出力される文字認識の得点が最も高くなると推論される推論結果データを生成、出力できる。この結果、本実施の形態に係る画像フィルタ生成システム1は、OCR得点データが示す得点に基づいて強化学習された学習済モデルを学習装置が生成しない画像フィルタ生成システムよりも文字の誤認識を低減できる。
また、本実施の形態に係る画像フィルタ生成システム1によれば、学習用データに含まれる物品画像データは、過去の製造時に実際に撮像されたワークの物品画像データを含む。
このようにすることで、本実施の形態に係る画像フィルタ生成システム1は、過去の製造時に実際に撮像されたワークの物品画像データを含む学習用データを用いた機械学習によって学習済モデルを生成しない画像フィルタ生成システムよりも実際の製造時のワークの物品画像データに対してOCRを行ったときの文字の誤認識を低減できる。
また、本実施の形態に係る画像フィルタ生成システム1によれば、学習用データに含まれる物品画像データは、実際の環境を想定した模擬環境で撮像されたワークの物品画像データを含む。
このようにすることで、本実施の形態に係る画像フィルタ生成システム1は、模擬環境で撮像されたワークの物品画像データを含む学習用データを用いた機械学習によって学習済モデルを生成しない画像フィルタ生成システムよりも実際の製造時のワークの物品画像データに対してOCRを行ったときの文字の誤認識を低減できる。
[実施の形態2]
実施の形態1では、推論装置300は、複数種類の推論結果データを生成、出力しているが、推論装置300が複数種類の推論結果データを生成、出力しなくてもよい。実施の形態2に係る画像フィルタ生成システム1では、推論装置300は、1種類の推論結果データのみを生成、出力する。以下、図2、図5、図10、図11を参照して、実施の形態2に係る画像フィルタ生成システム1について、詳細に説明する。なお、実施の形態2では、実施の形態1と異なる構成について説明し、実施の形態1と同一の構成については冗長であるため説明を省略する。
(実施の形態2に係る推論装置300の機能構成の詳細について)
図2に戻り、本実施の形態2に係る物品画像データ取得部320は、ビジョンセンサ100から出力されたOCRを行う物品画像データを取得する。本実施の形態では、物品画像データ取得部320が取得するOCRを行う物品画像データは、ビジョンセンサ100においてOCRの運用を行っているときに実際の製造ラインで撮像されたワークの物品画像データである。
実施の形態2に係る推論結果データ生成部330は、学習済モデルにOCRを行う物品画像データを入力して推論結果データを生成する。
実施の形態2に係る推論結果データ出力部340は、生成された推論結果データをビジョンセンサ100に出力する。
ここで、OCRを行う物品画像データを入力された学習済モデルが推論結果データを出力する処理の概要について説明する。図5に示すように、第1物品画像データIMG-1は、第1画像フィルタ関連データF/P-001に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が99点で最も大きくなる。また、第2物品画像データIMG-2は、第3画像フィルタ関連データF/P-003に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が98点で最も大きくなる。また、第3物品画像データIMG-3は、第2画像フィルタ関連データF/P-002に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が100点で最も大きくなる。また、第4物品画像データIMG-4は、第2画像フィルタ関連データF/P-002又は第5画像フィルタ関連データF/P-005に基づく画像フィルタで画像処理及びOCRを行ったときに得点の値が91点で最も大きくなる。
よって、学習済モデルは、例えば、OCRを行う物品画像データIMG-0が第1物品画像データIMG-1に最も近似していれば推論結果データとして第1画像フィルタ関連データF/P-001を出力する。また、学習済モデルは、OCRを行う物品画像データIMG-0が第2物品画像データIMG-2に最も近似していれば推論結果データとして第3画像フィルタ関連データF/P-003を出力する。また、学習済モデルは、OCRを行う物品画像データIMG-0が第3物品画像データIMG-3に最も近似していれば推論結果データとして第2画像フィルタ関連データF/P-002を出力する。また、学習済モデルは、OCRを行う物品画像データIMG-0が第2物品画像データIMG-2に最も近似していれば推論結果データとして第2画像フィルタ関連データF/P-002又は第5画像フィルタ関連データF/P-005を出力する。この結果、推論結果データ生成部330は、推論結果データとして上述した画像フィルタ関連データF/P-001、F/P-002、F/P-003、F/P-005の何れかを生成することになる。
(実施の形態2に係る推論結果データ生成処理について)
次に、フローチャートを用いて推論装置300が推論結果データを生成、出力する動作について説明する。図10に示すように、ステップS201、202の処理が実行された後、推論結果データ生成部330は、学習済モデルに新たにOCRを行う物品画像データを入力して推論結果データを生成する(ステップS213)。そして、推論結果データ出力部340は、生成された推論結果データを出力し(ステップS214)、処理を終了する。
(実施の形態2に係る画像フィルタ生成処理について)
次に、フローチャートを用いてビジョンセンサ100が画像フィルタを生成、出力する動作について説明する。図11に示すように、ステップS301の処理が実行された後、推論結果データ取得部190は、推論装置300から出力された推論結果データを取得する(ステップS312)。次に、画像フィルタ生成部130は、取得した推論結果データに基づく画像フィルタを生成する(ステップS313)。そして、画像フィルタ出力部140は、生成された画像フィルタを画像処理部150に出力し(ステップS314)、処理を終了する。
以上説明したように、本実施の形態に係る画像フィルタ生成システム1によれば、推論装置300では、推論結果データ生成部330は、学習済モデルにOCRを行う物品画像データを入力して推論結果データを生成する。また、ビジョンセンサ100では、画像フィルタ生成部130は、推論結果データに基づく画像フィルタを生成し、画像フィルタ出力部140は、画像フィルタを出力する。そして、画像処理部150は、画像フィルタを用いて物品画像データの画像処理を行い、OCR部160は、画像フィルタを用いた画像処理が行われた物品画像データに対してOCRを行う。
このようにすることで、ビジョンセンサ100は、学習済モデルがOCRを行ったときの文字認識の得点が最も高いと推論した画像フィルタを用いて物品画像データの画像処理を行うことができる。例えば、ビジョンセンサ100は、推論結果データF/P-001に基づく画像フィルタを生成し、OCRの運用を行っているときに実際の製造ラインで撮像されたワークの物品画像データIMG-0に対して当該画像フィルタを用いて画像処理及びOCRを行う。このため、実施の形態1のように、2種類の画像フィルタを用いて画像処理及びOCRを行い、得点の値が高いほうの文字認識の結果を採用しなくてもよい。この結果、ビジョンセンサ100は、カメラ110がワークを撮像する度に推論装置300からOCRを行う物品画像データに最も適した推論結果データを取得し、当該推論結果データに基づく画像フィルタを用いた画像処理及びOCRを行うことができる。
その他、本実施の形態に係る画像フィルタ生成システム1は、実施の形態1に係る画像フィルタ生成システム1と同様の作用効果を奏する。
[実施の形態3]
実施の形態1、2では、ビジョンセンサ100、学習装置200、推論装置300及び記憶装置400を別個の装置としたが、これに限定されず、一体の装置であってもよい。例えば、画像フィルタ生成装置であるビジョンセンサ100が他の装置200、300、400の機能を備えていてもよい。実施の形態3に係るビジョンセンサ100は、学習装置200、推論装置300及び記憶装置400の機能を全て備える。以下、図12を参照して、実施の形態3に係るビジョンセンサ100について、詳細に説明する。なお、実施の形態3では、実施の形態1、2と異なる構成について説明し、実施の形態1、2と同一の構成については冗長であるため説明を省略する。
(実施の形態3に係るビジョンセンサ100について)
図12に示すように、ビジョンセンサ100は、物品画像データ出力部170、学習用データ出力部180、推論結果データ取得部190が省略されている。また、ビジョンセンサ100は、学習用データ取得部210、学習済モデル生成部220、報酬算出部221、価値関数更新部222、物品画像データ取得部320、推論結果データ生成部330、学習済モデル記憶部410を更に含む。なお、学習済モデル取得部310は、学習済モデル記憶部410が記憶している学習済モデルを取得し、物品画像データ取得部320は、カメラ110からOCRを行う物品画像データを取得する。
以上説明したように、本実施の形態に係るビジョンセンサ100は、実施の形態1、2に係る学習装置200、推論装置300及び記憶装置400の機能を発揮できる。
このようにすることで、本実施の形態に係るビジョンセンサ100は、実施の形態1、2に係る画像フィルタ生成システム1と同様の作用効果を奏する。
[変更例]
なお、上記の実施の形態3では、実施の形態1、2に係る各装置100、200、300、400を一体の装置としたが、一体の装置とする組み合わせについてはこれに限定されない。例えば、実施の形態1、2に係る学習装置200と記憶装置400とを一体の装置とし、残りの装置100、300は別体の装置であってもよく、実施の形態1、2に係る推論装置300と記憶装置400とを一体の装置とし、残りの装置100、200は別体の装置であってもよい。また、例えば、実施の形態1、2に係る学習装置200と推論装置300と記憶装置400とを一体の装置とし、残りのビジョンセンサ100のみが別体の装置であってもよい。
なお、上記の実施の形態1、2では、ビジョンセンサ100、学習装置200、推論装置300及び記憶装置400は、LANを介してデータの送受信を可能としたが、データの送受信の構成についてはこれに限定されない。例えば、ビジョンセンサ100、学習装置200、推論装置300及び記憶装置400を互いに接続する通信ケーブルを介してデータの送受信を可能としてもよく、インターネットを介してデータの送受信を可能としてもよい。この場合、例えば、学習装置200、推論装置300及び記憶装置400は、所謂クラウドサーバとして機能してもよい。この場合、クラウドサーバは、ビジョンセンサ100から取得した学習データを用いた機械学習によって学習済モデルを生成、記憶してもよい。また、この場合、クラウドサーバは、ビジョンセンサ100から新たに取得したOCRを行う物品画像データを学習済モデルに入力して推論結果データを生成し、ビジョンセンサ100に出力してもよい。
なお、上記の実施の形態1~3では、学習済モデル生成部220は、強化学習のアルゴリズムの一例としてのQ学習を用いて学習済モデルを生成したが、これに限定されず、他の強化学習のアルゴリズムを用いて学習済モデルを生成してもよい。例えば、学習済モデル生成部220は、TD学習(TD-learning)を用いて学習済モデルを生成してもよい。
なお、上記の実施の形態1~3では、学習済モデル生成部220は、強化学習のアルゴリズムを用いて学習済モデルを生成したが、これに限定されず、例えば、深層学習(Deep Learning)、ニューラルネットワーク、遺伝的プログラミング、機能論理プログラミング、サポートベクターマシンといった他の公知の学習アルゴリズムを用いて学習済モデルを生成してもよい。また、学習方法についても強化学習に限定されず、例えば、教師あり学習、教師なし学習、半教師なし学習といった異なる学習に公知のアルゴリズムを用いて学習済モデルを生成してもよい。
ここで、学習済モデル生成部220が教師あり学習で学習済モデルを生成する場合、学習用データには、例えば、OCRを試行した物品画像データにおいて認識されるべき文字の正解を示すデータである正解データが含まれている必要がある。なお、正解データは、人手で予め入力してもよく、複数の物品画像データについてOCRを行って認識した文字列を比較した結果に基づいて自動的に入力されてもよい。
また、学習済モデル生成部220が教師なし学習で学習済モデルを生成する場合、学習用データには、例えば、ワークに記載された文字がボケている物品画像データ、室内が明るい状態で撮像したワークの物品画像データ、室内が暗い状態で撮像したワークの物品画像データといった画像処理が必要な各物品画像データの分類が可能な分類データが含まれている必要がある。また、学習用データに含まれる画像フィルタ関連データは、例えば、各分類の物品画像データの画像処理に適した画像フィルタの画像フィルタ関連データである必要があり、このような画像フィルタ関連データを予め選択しておく必要がある。
また、学習済モデル生成部220が半教師なし学習で学習済モデルを生成する場合、学習用データには、例えば、上述した分類データと正解データとが含まれている必要がある。
なお、上記の実施の形態1、2では、学習装置200は、画像フィルタ生成システム1に設けられたビジョンセンサ100から学習用データを取得しており、上記の実施の形態3では、ビジョンセンサ100は、自ら生成した学習用データを取得しているが、これに限定されない。例えば、学習装置200及びビジョンセンサ100は、OCRを行う他の装置、システムから学習用データを取得してもよい。学習装置200及びビジョンセンサ100は、例えば、同一のエリアで稼働している複数の画像フィルタ生成システムから学習用データを取得してもよく、異なるエリアで独立して稼働している画像フィルタ生成システムから学習用データを取得してもよい。この場合、学習装置200及びビジョンセンサ100は、任意のタイミングで学習用データを取得する他の画像フィルタ生成システムを追加したり、除去したりしてもよい。
なお、上記の実施の形態1、2では、画像フィルタ生成システム1に予め設けられた学習装置200がビジョンセンサ100から取得した学習用データのみを機械学習して学習済モデルを生成、出力したが、これに限定されない。例えば、他の画像フィルタ生成システムに設けられビジョンセンサから学習用データを取得して機械学習を行った学習装置を画像フィルタ生成システム1の学習装置200とし、ビジョンセンサ100から学習用データを取得することで再学習を行って学習済モデルを更新、出力してもよい。
なお、上記の実施の形態1、2では、推論装置300は、画像フィルタ生成システム1に設けられた学習装置200が生成、出力して記憶装置400に記憶されている学習済モデルを取得したが、これに限定されない。例えば、推論装置300は、他の画像フィルタ生成装置、他の画像フィルタ生成システムで生成、出力された学習済モデルを取得してもよい。
なお、制御部51、主記憶部52、外部記憶部53、操作部54、送受信部56、内部バス50等を備えるビジョンセンサ100、学習装置200及び推論装置300の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体、例えば、フレキシブルディスク、DVD-ROM(Read-Only Memory)等に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、上記の処理を実行するビジョンセンサ100、学習装置200及び推論装置300を構成してもよい。また、通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロードすることでビジョンセンサ100、学習装置200及び推論装置300を構成してもよい。
また、ビジョンセンサ100、学習装置200及び推論装置300の機能を、OS(Operating System)とアプリケーションプログラムの分担により実現する場合、または、OSとアプリケーションプログラムとの協働により実現する場合には、アプリケーションプログラム部分のみを記録媒体、記憶装置に格納してもよい。
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して提供することも可能である。例えば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを提供してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行してもよい。
本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、本開示を説明するためのものであり、本開示の範囲を限定するものではない。つまり、本開示の範囲は、実施の形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、本開示の範囲内とみなされる。
1…画像フィルタ生成システム、50…内部バス、51…制御部、52…主記憶部、53…外部記憶部、54…操作部、55…表示部、56…送受信部、59…制御プログラム、100…ビジョンセンサ、110…カメラ、120…画像フィルタ関連データ生成部、130…画像フィルタ生成部、140…画像フィルタ出力部、150…画像処理部、160…OCR部、170…物品画像データ出力部、180…学習用データ出力部、190…推論結果データ取得部、200…学習装置、210…学習用データ取得部、220…学習済モデル生成部、221…報酬算出部、222…価値関数更新部、230…学習済モデル出力部、300…推論装置、310…学習済モデル取得部、320…物品画像データ取得部、330…推論結果データ生成部、340…推論結果データ出力部、400…記憶装置、410…学習済モデル記憶部。

Claims (7)

  1. 撮像部材が撮像した物品の画像データである物品画像データに対してOCRを行う前の画像処理に用いる画像フィルタを生成する画像フィルタ生成システムであって、
    前記画像フィルタを生成する画像フィルタ生成装置と、
    予め取得した前記物品画像データと前記物品画像データの画像処理に用いた前記画像フィルタとの関係性を学習する学習装置と、
    前記OCRを行う前記物品画像データの画像処理に適した前記画像フィルタを推論する推論装置と、
    を備え、
    前記学習装置は、
    前記物品画像データ、前記物品画像データの画像処理に用いた前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである画像フィルタ関連データ、ならびに、前記画像フィルタ関連データに基づく前記画像フィルタを用いて前記物品画像データの画像処理を行ったときの前記OCRで出力された文字認識の得点を示すデータであるOCR得点データ、を含む学習用データを取得する学習用データ取得部と、
    前記学習用データを用いた機械学習によって前記物品画像データと前記画像フィルタ関連データと前記OCR得点データとの関係性を示す学習済モデルを生成する学習済モデル生成部と、
    前記学習済モデルを出力する学習済モデル出力部と、
    を含み、
    前記推論装置は、
    前記OCRを行う前記物品画像データを取得する物品画像データ取得部と、
    前記学習済モデルに前記OCRを行う前記物品画像データを入力して、前記OCRを行う前記物品画像データの画像処理に適した前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである推論結果データとして、第1推論結果データ、ならびに、前記第1推論結果データとは異なる第2推論結果データ、を生成する推論結果データ生成部と、
    前記第1推論結果データと前記第2推論結果データとを出力する推論結果データ出力部と、
    を含み、
    前記画像フィルタ生成装置は、
    前記第1推論結果データに基づく前記画像フィルタである第1画像フィルタと前記第2推論結果データに基づく前記画像フィルタである第2画像フィルタとを生成する画像フィルタ生成部と、
    前記第1画像フィルタと前記第2画像フィルタとを出力する画像フィルタ出力部と、
    を含む、
    画像フィルタ生成システム。
  2. 前記学習用データに含まれる前記物品画像データは、過去の製造時に実際に撮像されたワークの前記物品画像データである、
    請求項1に記載の画像フィルタ生成システム。
  3. 前記学習用データに含まれる前記物品画像データは、実際の環境を想定した模擬環境で撮像されたワークの前記物品画像データである。
    請求項1に記載の画像フィルタ生成システム。
  4. 撮像部材が撮像した物品の画像データである物品画像データに対してOCRを行う前の画像処理に用いる画像フィルタを生成する画像フィルタ生成装置であって、
    予め取得した前記物品画像データ、前記物品画像データの画像処理に用いた前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである画像フィルタ関連データ、ならびに、前記画像フィルタ関連データに基づく前記画像フィルタを用いて前記物品画像データの画像処理を行ったときの前記OCRで出力された文字認識の得点を示すデータであるOCR得点データ、を含む学習用データを取得する学習用データ取得部と、
    前記学習用データを用いた機械学習によって前記物品画像データと前記画像フィルタ関連データと前記OCR得点データとの関係性を示す学習済モデルを生成する学習済モデル生成部と、
    前記OCRを行う前記物品画像データを取得する物品画像データ取得部と、
    前記学習済モデルに前記OCRを行う前記物品画像データを入力して、前記OCRを行う前記物品画像データの画像処理に適した前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである推論結果データとして、第1推論結果データ、ならびに、前記第1推論結果データとは異なる第2推論結果データ、を生成する推論結果データ生成部と、
    前記第1推論結果データに基づく前記画像フィルタである第1画像フィルタと前記第2推論結果データに基づく前記画像フィルタである第2画像フィルタとを生成する画像フィルタ生成部と、
    前記第1画像フィルタと前記第2画像フィルタとを出力する画像フィルタ出力部と、
    を備える画像フィルタ生成装置。
  5. 撮像部材が撮像した物品の画像データである物品画像データに対してOCRを行う前の画像処理に用いる画像フィルタを推論する推論装置であって、
    前記OCRを行う前記物品画像データを取得する物品画像データ取得部と、
    予め取得した前記物品画像データ、前記物品画像データの画像処理に用いた前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである画像フィルタ関連データ、ならびに、前記画像フィルタ関連データに基づく前記画像フィルタを用いて前記物品画像データの画像処理を行ったときの前記OCRで出力された文字認識の得点を示すデータであるOCR得点データ、を含む学習用データを用いた機械学習によって生成された学習済モデルに前記OCRを行う前記物品画像データを入力して、前記OCRを行う前記物品画像データの画像処理に適した前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである推論結果データとして、第1推論結果データ、ならびに、前記第1推論結果データとは異なる第2推論結果データ、を生成する推論結果データ生成部と、
    前記第1推論結果データと前記第2推論結果データとを出力する推論結果データ出力部と、
    を備える推論装置。
  6. 撮像部材が撮像した物品の画像データである物品画像データに対してOCRを行う前の画像処理に用いる画像フィルタを推論する推論方法であって、
    コンピュータが、前記OCRを行う前記物品画像データを取得する物品画像データ取得ステップと、
    前記コンピュータが、予め取得した前記物品画像データ、前記物品画像データの画像処理に用いた前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである画像フィルタ関連データ、ならびに、前記画像フィルタ関連データに基づく前記画像フィルタを用いて前記物品画像データの画像処理を行ったときの前記OCRで出力された文字認識の得点を示すデータであるOCR得点データ、を含む学習用データを用いた機械学習によって生成された学習済モデルに前記OCRを行う前記物品画像データを入力して、前記OCRを行う前記物品画像データの画像処理に適した前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである推論結果データとして、第1推論結果データ、ならびに、前記第1推論結果データとは異なる第2推論結果データ、を生成する推論結果データ生成ステップと、
    前記第1推論結果データと前記第2推論結果データとを出力する推論結果データ出力ステップと、
    を含む推論方法。
  7. コンピュータを、
    OCRを行うために撮像部材が撮像した物品の画像データである物品画像データを取得する物品画像データ取得部、
    予め取得した前記物品画像データ、前記物品画像データに対して前記OCRを行う前の画像処理に用いた画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである画像フィルタ関連データ、ならびに、前記画像フィルタ関連データに基づく前記画像フィルタを用いて前記物品画像データの画像処理を行ったときの前記OCRで出力された文字認識の得点を示すデータであるOCR得点データ、を含む学習用データを用いた機械学習によって生成された学習済モデルに前記OCRを行う前記物品画像データを入力して、前記OCRを行う前記物品画像データの画像処理に適した前記画像フィルタの組合せ及び前記画像フィルタ毎のパラメータの値を示すデータである推論結果データとして、第1推論結果データ、ならびに、前記第1推論結果データとは異なる第2推論結果データ、を生成する推論結果データ生成部、
    前記第1推論結果データと前記第2推論結果データとを出力する推論結果データ出力部、
    として機能させるプログラム。
JP2022547921A 2022-02-15 2022-02-15 画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム Active JP7166505B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/006000 WO2023157092A1 (ja) 2022-02-15 2022-02-15 画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム

Publications (3)

Publication Number Publication Date
JP7166505B1 true JP7166505B1 (ja) 2022-11-07
JPWO2023157092A1 JPWO2023157092A1 (ja) 2023-08-24
JPWO2023157092A5 JPWO2023157092A5 (ja) 2024-01-23

Family

ID=83931107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022547921A Active JP7166505B1 (ja) 2022-02-15 2022-02-15 画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム

Country Status (3)

Country Link
JP (1) JP7166505B1 (ja)
CN (1) CN118661210A (ja)
WO (1) WO2023157092A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282940A (ja) * 2008-05-26 2009-12-03 Toshiba Corp パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
JP2020144735A (ja) * 2019-03-08 2020-09-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP2020154600A (ja) * 2019-03-19 2020-09-24 富士ゼロックス株式会社 画像処理装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282940A (ja) * 2008-05-26 2009-12-03 Toshiba Corp パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
JP2020144735A (ja) * 2019-03-08 2020-09-10 富士ゼロックス株式会社 画像処理装置及びプログラム
JP2020154600A (ja) * 2019-03-19 2020-09-24 富士ゼロックス株式会社 画像処理装置及びプログラム

Also Published As

Publication number Publication date
WO2023157092A1 (ja) 2023-08-24
JPWO2023157092A1 (ja) 2023-08-24
CN118661210A (zh) 2024-09-17

Similar Documents

Publication Publication Date Title
JP6504590B2 (ja) 画像のセマンティックセグメンテーションのためのシステム及びコンピューター実施方法、並びに非一時的コンピューター可読媒体
US11593586B2 (en) Object recognition with reduced neural network weight precision
US20180341872A1 (en) Methods and systems for cnn network adaption and object online tracking
CN111492382B (zh) 训练第一神经网络模型和第二神经网络模型
US11163978B2 (en) Method and device for face image processing, storage medium, and electronic device
CN109997168B (zh) 用于生成输出图像的方法和系统
CN108230346B (zh) 用于分割图像语义特征的方法和装置、电子设备
US11423297B2 (en) Processing apparatus, processing method, and nonvolatile recording medium
CN111950638A (zh) 基于模型蒸馏的图像分类方法、装置和电子设备
JP2021511579A (ja) 画像処理システム及び画像処理方法
US10977549B2 (en) Object animation using generative neural networks
US9165213B2 (en) Information processing apparatus, information processing method, and program
CN111783997B (zh) 一种数据处理方法、装置及设备
US20220319157A1 (en) Temporal augmentation for training video reasoning system
CN108229650B (zh) 卷积处理方法、装置及电子设备
CN113836804A (zh) 基于卷积神经网络的动物识别模型建立方法及其应用系统
Henniges et al. Efficient occlusive components analysis.
JP7166505B1 (ja) 画像フィルタ生成システム、画像フィルタ生成装置、推論装置、推論方法及びプログラム
JP7166506B1 (ja) 画像フィルタ生成システム、画像フィルタ生成装置、学習装置、学習方法及びプログラム
CN112101204B (zh) 生成式对抗网络的训练方法、图像处理方法、装置和设备
CN117315758A (zh) 面部表情的检测方法、装置、电子设备及存储介质
CN116805162A (zh) 基于自监督学习的Transformer模型训练方法
CN115423087A (zh) 脉冲神经网络的剪枝方法、装置及电子设备
US20230027309A1 (en) System and method for image de-identification to humans while remaining recognizable by machines
CN111815658B (zh) 一种图像识别方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220805

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220805

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221025

R150 Certificate of patent or registration of utility model

Ref document number: 7166505

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150