JP2024011398A - Program, image processing method, image processing device, model generation method, and image processing system - Google Patents
Program, image processing method, image processing device, model generation method, and image processing system Download PDFInfo
- Publication number
- JP2024011398A JP2024011398A JP2022113343A JP2022113343A JP2024011398A JP 2024011398 A JP2024011398 A JP 2024011398A JP 2022113343 A JP2022113343 A JP 2022113343A JP 2022113343 A JP2022113343 A JP 2022113343A JP 2024011398 A JP2024011398 A JP 2024011398A
- Authority
- JP
- Japan
- Prior art keywords
- image
- suitability
- photographed
- subject
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims description 81
- 238000003672 processing method Methods 0.000 title claims description 5
- 230000008569 process Effects 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 50
- 238000003860 storage Methods 0.000 description 45
- 238000004891 communication Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 238000013459 approach Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000002945 steepest descent method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本願は、プログラム、画像処理方法、画像処理装置、モデル生成方法、及び画像処理システムに関する。 The present application relates to a program, an image processing method, an image processing device, a model generation method, and an image processing system.
特許文献1には、スポーツ大会やイベント等でカメラマンが撮影した画像を写真及び画像データとして販売する販売システムが開示されている。特許文献1に開示のような販売システムでは、カメラマンによって撮影された多数の画像を、販売対象とする画像と販売対象としない画像とに仕分けることが行われており、このような仕分け処理は人手で行われることが多い。
画像の仕分けを人手で行う場合、画像の数によっては仕分けに長時間を要することがあり、また、仕分けを行う人の感性によって仕分け結果に差が生じる可能性がある。そこで、機械学習によって生成された学習モデルによって画像の仕分けを行うことが考えられる。しかし、学習モデルの学習に用いる画像に偏りがあると、高精度の画像の仕分けを実現する学習モデルを生成できない可能性がある。よって、仕分け処理に時間を要することなく、画像の仕分けを高精度に行うことは難しいという問題がある。特許文献1では、画像を仕分ける処理については言及されていない。
When sorting images manually, sorting may take a long time depending on the number of images, and the sorting results may vary depending on the sensitivity of the person doing the sorting. Therefore, it is conceivable to sort images using a learning model generated by machine learning. However, if the images used for learning a learning model are biased, it may not be possible to generate a learning model that can classify images with high accuracy. Therefore, there is a problem in that it is difficult to sort images with high precision without requiring time for the sorting process.
本開示は、仕分け処理に時間を要することなく、画像の仕分けを高精度に行うことが可能なプログラム等を提供することを目的とする。 An object of the present disclosure is to provide a program and the like that can sort images with high precision without requiring time for sorting processing.
本発明の一態様に係るプログラムは、被写体を撮影した撮影画像を取得し、取得した撮影画像から背景領域を除去し、撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力し、前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う処理をコンピュータに実行させる。 A program according to one aspect of the present invention acquires a captured image of a subject, removes a background area from the acquired captured image, and when a subject image from which the background area is removed is input, the captured image A subject image obtained by removing the background region from the acquired photographed image is input to a learning model that has been trained to output information regarding the suitability of the photographed image, and information regarding the suitability of the photographed image is outputted from the learning model; A computer is caused to perform a process of classifying the photographed images as appropriate or inappropriate based on information regarding the suitability of the photographed images.
本発明の一態様では、仕分け処理に時間を要することなく、画像の仕分けを高精度に行うことができる。 In one aspect of the present invention, images can be sorted with high precision without requiring time for sorting processing.
以下に、本開示のプログラム、画像処理方法、画像処理装置、モデル生成方法、及び画像処理システムについて、その実施形態を示す図面に基づいて詳述する。 Below, a program, an image processing method, an image processing device, a model generation method, and an image processing system of the present disclosure will be described in detail based on drawings showing embodiments thereof.
(実施形態1)
図1は画像処理システムの構成例を示す説明図である。本実施形態では、カメラマンが撮影した撮影画像を販売対象とするか否かの仕分けを行い、販売対象に仕分けられた撮影画像を販売する画像処理システムについて説明する。本実施形態の画像処理システムは、プロスポーツの試合、コンサート等のイベントで、イベントの主催者側のカメラマンが撮影した画像を写真及び画像データとしてイベントの参加者等に販売するシステムに適用可能である。本実施形態の画像処理システムは、サーバ10、カメラ20、管理者端末30、写真販売機40、及びユーザ端末50等を含み、これらの各機器はネットワークNを介して通信接続されている。ネットワークNは、インターネット又は公衆電話回線網であってもよく、画像処理システムが設けられている施設内に構築されたLAN(Local Area Network)であってもよい。また、サーバ10と、カメラ20、管理者端末30又は写真販売機40のいずれかとは、ケーブルを介した有線通信又は無線通信によって直接情報の送受信を行うように構成されていてもよい。
(Embodiment 1)
FIG. 1 is an explanatory diagram showing an example of the configuration of an image processing system. In this embodiment, an image processing system will be described in which images taken by a photographer are sorted to determine whether they are to be sold or not, and the photographed images that have been classified as to be sold are sold. The image processing system of this embodiment can be applied to a system that sells images taken by a photographer on the event organizer's side to event participants as photos and image data at events such as professional sports matches and concerts. be. The image processing system of this embodiment includes a
カメラ20は、レンズ及び撮像素子等を有する撮像部、ネットワークNに接続するための通信部等を備える撮影装置である。カメラ20は、撮影ボタンに対する操作に従って撮像部による撮影を行って画像データ(以下では撮影画像と称する)を取得する処理、取得した撮影画像を通信部からサーバ10へ送信する処理を行う。カメラ20は、撮影ボタンに対する1回の操作に従って1枚の画像(静止画)を取得する処理と、例えば1秒間に30枚又は15枚の画像(動画)を取得する処理とを行うように構成されている。また、カメラ20は、撮影によって取得した画像を逐次サーバ10へ送信する構成でもよく、撮影した画像を記憶部に蓄積しておき、カメラマンによる操作に従ってサーバ10へ送信する構成でもよい。なお、カメラ20は、カメラマンに保持された状態で撮影を行うカメラであってもよく、三脚又は固定器具を用いて撮影位置が固定された状態で撮影を行うカメラであってもよく、1つのイベント会場に複数のカメラ20が設けられていてもよい。
The
サーバ10は、種々の情報処理及び情報の送受信が可能な画像処理装置であり、サーバコンピュータ、パーソナルコンピュータ等である。サーバ10は、カメラ20によって撮影された撮影画像を取得し、取得した撮影画像に対して、販売対象とするか否かの仕分け処理を行う。本実施形態のサーバ10は、撮影画像を販売対象とするか否かを仕分ける際に学習モデル12M(図2参照)を用いる。管理者端末30は、サーバ10によって販売される撮影画像を管理する管理者が使用する端末であり、パーソナルコンピュータ、タブレット端末、スマートフォン等である。なお、管理者は、サーバ10が学習モデル12Mを用いて販売対象に仕分けた撮影画像に対して、真に販売対象とすべきか否かの仕分け処理を行う。
The
また、サーバ10は、自機又は管理者が販売対象に仕分けた撮影画像をネットワークN経由で販売する処理を行う。サーバ10が販売する撮影画像は、写真販売機40又はユーザ端末50を介して購入される。写真販売機40は、カメラ20による撮影が行われたイベントが開催された会場等に設置された端末であり、サーバ10との間で通信するための通信部、タッチパネル、決済処理部、印刷部等を備える。写真販売機40は、サーバ10が販売する撮影画像をタッチパネルに表示し、購入対象の撮影画像の選択を受け付ける処理を行う。また写真販売機40は、撮影画像の購入に係る決済処理を決済処理部によって行い、決済処理が行われた撮影画像を印刷部によって印刷して購入者に提供する処理を行う。決済処理は、現金決済、電子マネー決済、クレジットカード決済、アプリ決済等のいずれの決済方法であってもよい。ユーザ端末50は、撮影画像を購入するユーザが使用する端末であり、スマートフォン、タブレット端末等である。ユーザ端末50は、ネットワークN経由でウェブサイトを閲覧するためのブラウザがインストールされており、ブラウザによって、サーバ10が販売する撮影画像の閲覧及び購入に係る決済処理を行う。なお、ユーザ端末50を用いて撮影画像を購入する場合、撮影画像がサーバ10からユーザ端末50にダウンロードされ、ユーザ端末50が通信可能なプリンタへ撮影画像を送信することにより印刷できる。なお、ユーザ端末50を用いて購入した撮影画像は、ユーザ端末50にダウンロードされる構成のほかに、例えばコンビニエンスストアに設置されたプリンタにサーバ10からダウンロードされて印刷される構成でもよく、所定の印刷会社へ送信され、印刷された写真がユーザの自宅等に配送される構成でもよい。
The
図2はサーバ10及び管理者端末30の構成例を示すブロック図である。サーバ10は、制御部11、記憶部12、通信部13、入力部14、表示部15等を有し、これらの各部はバスを介して接続されている。制御部11は、CPU(Central Processing Unit)、MPU(Micro-Processing Unit)、GPU(Graphics Processing Unit)、又はAIチップ(AI用半導体)等の1又は複数のプロセッサを含む。制御部11は、記憶部12に記憶されたプログラム12Pを適宜実行することにより、サーバ10が行うべき情報処理及び制御処理を実行する。
FIG. 2 is a block diagram showing a configuration example of the
記憶部12は、RAM(Random Access Memory)、フラッシュメモリ、ハードディスク、SSD(Solid State Drive)等を含む。記憶部12は、制御部11が実行するプログラム12P(プログラム製品)及び各種のデータを記憶している。また記憶部12は、制御部11がプログラム12Pを実行する際に発生するデータ等を一時的に記憶する。プログラム12P及び各種のデータは、サーバ10の製造段階において記憶部12に書き込まれてもよく、制御部11が通信部13を介して他の装置からダウンロードして記憶部12に記憶してもよい。また記憶部12は、例えば機械学習によって訓練データを学習済みの学習モデル12Mを記憶している。学習モデル12Mは、カメラ20で撮影された撮影画像(厳密には、撮影画像から背景領域が除去された被写体画像)が入力された場合に、撮影画像が販売対象として適切であるか否かを示す情報を出力するように学習された学習済みモデルである。販売対象として適切である画像とは、例えばピントが被写体に合っている画像、構図又はアングルが良い画像、一般的に人が好む画像等、人が購入したくなる画像とする。以下では、販売対象として適切である画像を「良い画像」と称し、販売対象として適切でない画像を「悪い画像」と称し、画像の良し悪しは、販売対象として適切であるか否かを意味する。学習モデル12Mは、人工知能ソフトウェアを構成するプログラムモジュールとしての利用が想定される。学習モデル12Mは、入力値に対して所定の演算を行い、演算結果を出力するものであり、記憶部12には、この演算を規定する関数の係数や閾値等のデータが学習モデル12Mとして記憶される。
The
また記憶部12は、撮影画像DB12a、仕分け画像DB12b、判定結果DB12c、及び販売画像DB12dを記憶している。撮影画像DB12aは、カメラ20によって撮影された撮影画像が蓄積されたデータベースである。仕分け画像DB12bは、撮影画像に対して、学習モデル12Mを用いて良い画像又は悪い画像に仕分けされた結果が記憶されるデータベースである。判定結果DB12cは、学習モデル12Mを用いて良い画像に仕分けされた撮影画像に対して、管理者が良し悪しを判定した結果が記憶されるデータベースである。販売画像DB12dは、管理者によって良い画像と判定されて販売対象となった撮影画像が記憶されるデータベースである。学習モデル12M、撮影画像DB12a、仕分け画像DB12b、判定結果DB12c、及び販売画像DB12dの一部又は全部は、サーバ10に接続された他の記憶装置に記憶されてもよく、サーバ10が通信可能な他の記憶装置に記憶されてもよい。
The
通信部13は、有線通信又は無線通信に関する処理を行うための通信モジュールであり、ネットワークNを介して他の装置との間で情報の送受信を行う。入力部14は、ユーザによる操作入力を受け付け、操作内容に対応した制御信号を制御部11へ送出する。表示部15は、液晶ディスプレイ又は有機ELディスプレイ等であり、制御部11からの指示に従って各種の情報を表示する。入力部14の一部及び表示部15は一体として構成されたタッチパネルであってもよく、また、タッチパネルはサーバ10に外付けされている構成でもよい。
The
本実施形態において、サーバ10は複数のコンピュータからなるマルチコンピュータであってもよく、ソフトウェアによって仮想的に構築された仮想マシンであってもよく、クラウドサーバであってもよい。また、サーバ10は、入力部14及び表示部15は必須ではなく、接続されたコンピュータを通じて操作を受け付ける構成でもよく、表示すべき情報を外部の表示装置へ出力する構成でもよい。また、サーバ10は、非一時的なコンピュータ読取可能な可搬型記憶媒体10aを読み取る読取部を備え、読取部を用いて可搬型記憶媒体10aからプログラム12Pを読み取って記憶部12に記憶してもよい。なお、プログラム12Pは単一のコンピュータ上で実行されてもよく、ネットワークNを介して相互に接続された複数のコンピュータ上で実行されてもよい。
In this embodiment, the
管理者端末30は、制御部31、記憶部32、通信部33、入力部34、表示部35等を有し、これらの各部はバスを介して接続されている。制御部31、記憶部32、通信部33、入力部34、及び表示部35のそれぞれは、サーバ10の制御部11、記憶部12、通信部13、入力部14、及び表示部15と同様の構成を有するので、構成についての説明は省略する。ユーザ端末50は、管理者端末30と同様の構成を有するので、図示及び構成についての説明は省略する。写真販売機40は、管理者端末30と同様の構成に加えて、決済処理部及び印刷部を有するが、構成についての詳細な説明は省略する。
The
図3はサーバ10に記憶されるDB12a~12dのレコードレイアウトの一例を示す説明図である。図3Aは撮影画像DB12aを、図3Bは仕分け画像DB12bを、図3Cは判定結果DB12cを、図3Dは販売画像DB12dをそれぞれ示す。撮影画像DB12a、仕分け画像DB12b、判定結果DB12c、及び販売画像DB12dはそれぞれ、撮影対象のイベント毎に設けられており、各イベントに割り当てられたイベントIDに対応付けて記憶部12に記憶されている。
FIG. 3 is an explanatory diagram showing an example of the record layout of the
図3Aに示す撮影画像DB12aは、画像ID列、ファイル名列、撮影日時列、及び撮影場所列を含み、画像IDに対応付けて撮影画像に関する情報を記憶する。画像ID列は、カメラ20で撮影された撮影画像に固有に割り当てられた識別情報(画像ID)を記憶する。ファイル名列は、記憶部12に記憶された撮影画像を読み出すためのフォルダ名及びファイル名を記憶する。なお、カメラ20から取得された撮影画像は、記憶部12の所定領域(画像フォルダ)に記憶される。撮影日時列は、撮影画像が撮影された日時を記憶し、撮影場所列は撮影場所の情報を記憶する。撮影場所の情報は、撮影場所の住所、撮影場所の建物の名称、撮影対象のイベントの名称、イベント会場内の場所を示す情報等であってもよい。撮影画像DB12aの記憶内容は図3Aに示す例に限定されず、例えば撮影を行ったカメラ20及びカメラマンの情報が記憶されてもよい。
The photographed
図3Bに示す仕分け画像DB12bは、画像ID列及び仕分け結果列を含み、撮影画像DB12aに登録してある各撮影画像の画像IDに対応付けて、サーバ10が学習モデル12Mを用いて各撮影画像を良い画像又は悪い画像に仕分けた結果(良又は悪)を記憶する。図3Cに示す判定結果DB12cは、画像ID列及び管理者判定結果列を含み、仕分け画像DB12bに記憶された仕分け結果が「良」である各撮影画像、即ち、サーバ10によって良い画像に仕分けられた各撮影画像の画像IDに対応付けて、管理者が各撮影画像を良い画像又は悪い画像に仕分けた(判定した)結果(良又は悪)を記憶する。図3Dに示す販売画像DB12dは、画像ID列及びファイル名列を含み、判定結果DB12cに記憶された管理者判定結果が「良」である各撮影画像、即ち、管理者によって良い画像と判定された各撮影画像の画像IDに対応付けて、撮影画像を記憶部12から読み出すためのフォルダ名及びファイル名を記憶する。仕分け画像DB12b、判定結果DB12c、及び販売画像DB12dの記憶内容は図3B~図3Dに示す例に限定されない。
The sorting
図4は学習モデル12Mの説明図であり、図4Aは学習モデル12Mの構成例を示し、図4Bは学習モデル12Mの入力データである被写体画像の例を示す。図4Aに示す学習モデル12Mは、図4B左側に示すような撮影画像から背景領域が除去された被写体画像(図4B右側参照)を入力とし、入力された被写体画像に基づいて、当該撮影画像が販売対象として適切であるか否かを判別する演算を行い、演算した結果を出力するように学習してある。被写体画像として抽出される被写体は、例えば撮影画像中に大きく映っている被写体、撮影画像の中心に近い位置に映っている被写体等、主要な被写体とすることができる。学習モデル12Mは、例えばCNN(Convolution Neural Network)、SVM(Support Vector Machine)、Transformer等のアルゴリズムを用いて構成されてもよく、複数のアルゴリズムを組み合わせて構成されてもよい。
FIG. 4 is an explanatory diagram of the
学習モデル12Mは、被写体画像が入力される入力層と、入力された被写体画像から特徴量を抽出する中間層と、中間層の演算結果を基に被写体画像を含む撮影画像が販売対象として適切であるか否かに関する情報を出力する出力層とを有する。入力層は、被写体画像に含まれる各画素の画素値が入力される入力ノードを有する。中間層は、各種の関数及び閾値等を用いて、入力層から入力された各画素値に基づいて出力値を算出する。出力層(出力部)は、販売対象として適切である画像(即ち、良い画像)と、販売対象として適切でない画像(即ち、悪い画像)とのそれぞれに対応付けられた2つの出力ノードを有しており、出力ノード0から、撮影画像が良い画像であると判別すべき確率(確信度)を出力し、出力ノード1から、撮影画像が悪い画像であると判別すべき確率(確信度)を出力する。各出力ノードからの出力値は、例えば0~1の値であり、各出力ノードから出力された確率の合計が1.0(100%)となる。本実施形態では、出力ノード0からの出力値を、ここでの撮影画像が良い画像である程度(度合)、即ち、販売対象としての適切度を示すスコアとして用いる。
The
上述した構成により、学習モデル12Mは、被写体画像が入力された場合に、背景領域が除去される前の撮影画像が販売対象として良い画像であるか悪い画像であるかを示す出力値(確信度)を出力する。サーバ10は、上述した学習モデル12Mにおいて、出力ノード0からの出力値を、撮影画像が販売対象として良い画像である程度を示すスコアとして取得する。なお、学習モデル12Mの出力層は、2つの出力ノードを有する代わりに、出力ノード0のみを有する構成でもよい。
With the above-described configuration, when a subject image is input, the
学習モデル12Mは、訓練用の被写体画像と、この被写体画像において背景領域が除去される前の撮影画像が良い画像であるか悪い画像であるかを示す情報(正解ラベル)とを含む訓練データを用いて機械学習することにより生成できる。訓練データは、例えば撮影画像に対して、管理者が販売対象として適切であるか否か(良い画像であるか否か)を判定した結果を示す正解ラベルを、撮影画像から背景領域を除去した被写体画像に付与して生成される。
The
学習モデル12Mは、訓練データに含まれる被写体画像が入力された場合に、訓練データに含まれる正解ラベル(良い画像又は悪い画像)に対応する出力ノードからの出力値が1に近づき、他方の出力ノードからの出力値が0に近づくように学習する。学習処理において学習モデル12Mは、入力された被写体画像に基づいて中間層及び出力層での演算を行い、各出力ノードからの出力値を算出する。学習モデル12Mは、算出した各出力ノードの出力値と正解ラベルに応じた値(正解ラベルに対応する出力ノードに対しては1、他方の出力ノードに対しては0)とを比較し、両者が近似するように、中間層及び出力層での演算処理に用いるパラメータを最適化する。当該パラメータは、中間層及び出力層におけるノード間の重み(結合係数)等である。パラメータの最適化の方法は特に限定されないが、誤差逆伝播法、最急降下法等を用いることができる。これにより、被写体画像が入力された場合に、背景領域が除去される前の撮影画像が良い画像であるか悪い画像であるかを予測し、予測結果を出力する学習モデル12Mが得られる。
In the
サーバ10は、このような学習モデル12Mを予め用意しておき、カメラ20で撮影した撮影画像を良い画像又は悪い画像に仕分ける際に用いる。学習モデル12Mの学習は他の学習装置で行われてもよい。他の学習装置で学習が行われて生成された学習済みの学習モデル12Mは、例えばネットワークN経由又は可搬型記憶媒体10a経由で学習装置からサーバ10にダウンロードされて記憶部12に記憶される。
The
以下に、上述したような訓練データを学習して学習モデル12Mを生成する処理について説明する。図5は学習モデル12Mの生成処理手順の一例を示すフローチャートである。以下の処理は、サーバ10の制御部11が、記憶部12に記憶してあるプログラム12Pに従って実行するが、他の学習装置で行われてもよい。以下の処理では、制御部11はまず、記憶部12に記憶してある撮影画像に基づいて訓練データを生成し、生成した訓練データを用いて学習モデル12Mの学習を行う。なお、訓練データに用いる撮影画像は、管理者等によって良し悪しが判定され、判定結果が撮影画像に付与されて記憶部12の所定領域(所定のDB)に記憶してあるものとする。
Below, a process of learning the above-mentioned training data to generate the
サーバ10の制御部11は、記憶部12に記憶してある撮影画像と、当該撮影画像に対して管理者等が良し悪しを判定した判定結果(撮影画像の適否に関する情報)とを読み出す(S11)。制御部11は、読み出した撮影画像に対して、背景領域を除去する背景除去処理を行う(S12)。背景除去処理は、どのような処理であってもよく、例えばOpenCVの背景抽出クラス(BackgroundSubtrator)を使用した処理、カレイド社が提供する画像背景削除ツール(remove.bg)を使用した処理、U2-Net等のディープラーニング学習モデルを使用した処理等であってもよい。なお、学習モデルを用いる場合、撮影画像と、撮影画像から背景が除去された前景画像(被写体画像)とにより、撮影画像が入力された場合に被写体画像を出力するように学習した学習モデルを使用する。また、背景のみが撮影された撮影画像(背景画像)がある場合、背景画像を用いて、撮影画像から背景領域を除去することによって被写体画像を生成する構成でもよい。このような背景除去処理により、制御部11は、撮影画像から背景領域が除去された被写体画像を生成する。
The
制御部11は、生成した被写体画像に、ステップS11で読み出した良し悪しの判定結果に応じた正解ラベルを付与して訓練データを生成し、記憶部12に記憶する(S13)。具体的には、制御部11は、判定結果が良の場合、良の正解ラベルを撮影画像に付与し、判定結果が悪の場合、悪の正解ラベルを撮影画像に付与する。制御部11は、生成した訓練データを、例えば記憶部12に用意された訓練DB(図示せず)に記憶しておく。
The
制御部11は、記憶部12に記憶してある撮影画像のうちで、訓練データの生成処理に用いられていない未処理の撮影画像があるか否かを判断する(S14)。未処理の撮影画像があると判断した場合(S14:YES)、制御部11は、ステップS11の処理に戻り、未処理の撮影画像についてステップS11~S13の処理を行う。制御部11は、未処理の撮影画像がないと判断するまでステップS11~S14の処理を繰り返す。これにより、記憶部12に記憶してある撮影画像と、撮影画像に対する判定結果とに基づいて、学習モデル12Mの学習に用いる訓練データが生成されて訓練DBに蓄積される。上述した処理では、訓練データの生成に用いる撮影画像は、記憶部12に記憶してある例で説明したが、サーバ10の制御部11は、例えばネットワークN経由で他の装置から、各撮影画像及び判定結果を取得する構成でもよい。
The
制御部11は、未処理の撮影画像がないと判断した場合(S14:NO)、上述したように訓練DBに蓄積した訓練データを用いて、学習モデル12Mの学習を行う。制御部11は、上述した処理によって訓練DBに蓄積した訓練データのうちの1つを読み出す(S15)。そして、制御部11は、読み出した訓練データに基づいて、学習モデル12Mの学習処理を行う(S16)。ここでは、制御部11は、訓練データに含まれる撮影画像を学習モデル12Mに入力し、当該撮影画像が入力されることによって学習モデル12Mから出力される出力値を取得する。制御部11は、学習モデル12Mから出力された各出力ノードの出力値と、訓練データに含まれる正解ラベルに応じた値(正解ラベルに対応する出力ノードに対しては1、他の出力ノードに対しては0)とを比較し、両者が近似するように学習モデル12Mを学習させる。学習処理において、学習モデル12Mは、中間層及び出力層での演算処理に用いるパラメータを最適化する。例えば制御部11は、中間層及び出力層におけるノード間の重み(結合係数)等のパラメータを、学習モデル12Mの出力層から入力層に向かって順次更新する誤差逆伝播法を用いて最適化する。
When the
制御部11は、訓練DBに記憶してある訓練データのうちで、学習処理が行われていない未処理の訓練データがあるか否かを判断する(S17)。未処理の訓練データがあると判断した場合(S17:YES)、制御部11は、ステップS15の処理に戻り、学習処理が未処理の訓練データについてステップS15~S16の処理を行う。未処理の訓練データがないと判断した場合(S17:NO)、制御部11は、一連の処理を終了する。
The
上述した学習処理により、被写体画像が入力された場合に、背景領域が除去される前の撮影画像が良い画像である可能性を示す出力値と、悪い画像である可能性を示す出力値とを出力する学習モデル12Mが生成される。よって、サーバ10は、学習モデル12Mからの出力値によって、撮影画像が良い画像であるか悪い画像であるかに関する情報(適否に関する情報)を取得できる。なお、上述した処理において、ステップS11~S14による訓練データの生成処理と、ステップS15~S17による学習モデル12Mの生成処理とは、各別の装置で行われてもよい。学習モデル12Mは、上述したような訓練データを用いた学習処理を繰り返し行うことにより更に最適化することが可能である。また、既に学習済みの学習モデル12Mについても、上述した学習処理で再学習させることにより、判別精度が更に向上した学習モデル12Mを生成できる。
Through the learning process described above, when a subject image is input, an output value indicating the possibility that the captured image before the background area is removed is a good image and an output value indicating the possibility that it is a bad image are determined. A
以下に、本実施形態の画像処理システムにおいて、カメラ20を用いて撮影した撮影画像を、販売対象とする画像と販売対象としない画像とに仕分ける処理について説明する。図6は撮影画像の仕分け処理手順の一例を示すフローチャート、図7は管理者端末30の画面例を示す説明図である。図6では左側にカメラ20が行う処理を、中央にサーバ10が行う処理を、右側に管理者端末30が行う処理をそれぞれ示す。
Below, in the image processing system of this embodiment, a process of sorting photographic images taken using the
本実施形態の画像処理システムでは、カメラマンがカメラ20を用いて、イベントの出演者及び参加者等を撮影して撮影画像を取得する。なお、カメラ20は、予め設定された撮影タイミングに従って自動的に撮影を行う構成でもよい。カメラ20は、撮像部による撮影を行い(S21)、取得した撮影画像を通信部(送出部)によりサーバ10へ送信する(S22)。なお、カメラ20は、撮影を行う都度、得られた撮影画像をサーバ10へ送信する構成でもよく、複数の撮影画像をまとめてサーバ10へ送信する構成でもよい。以下では、1回の撮影が行われる都度、ステップS22~S35の処理が行われる構成について説明するが、複数回の撮影が行われた後にステップS22~S35の処理が行われてもよく、この場合、ステップS22~S35では、複数の撮影画像のそれぞれに対して各処理が行われる。
In the image processing system of this embodiment, a cameraman uses the
サーバ10の制御部11(取得部)は、カメラ20から送信された撮影画像を取得し、取得した撮影画像を記憶部12に記憶する(S23)。このとき、制御部11は、撮影画像を記憶部12の所定領域(画像フォルダ)に記憶すると共に、撮影画像に関する情報を撮影画像DB12aに記憶する。なお、撮影日時及び撮影場所の情報は、撮影画像と共にカメラ20から取得してもよく、予め登録されていてもよい。次に制御部11(除去部)は、取得した撮影画像に対して背景除去処理を実行し(S24)、撮影画像から背景領域を除去した被写体画像を生成する。背景除去処理は、図5中のステップS12と同様の処理を用いることができる。制御部11は、生成した被写体画像に基づいて、背景領域が除去される前の撮影画像が良い画像である程度(度合)を示すスコアを算出する(S25)。具体的には、制御部11は、被写体画像を学習モデル12Mに入力し、出力ノード0からの出力値を、撮影画像に対するスコアとして取得する。制御部11(仕分け部)は、取得したスコアに基づいて、ここでの撮影画像を良い画像又は悪い画像に仕分ける(S26)。例えば制御部11は、取得したスコアが所定閾値(例えば0.7)以上である場合、撮影画像を良い画像に仕分け、所定閾値未満である場合、撮影画像を悪い画像に仕分ける。撮影画像を良い画像又は悪い画像に仕分ける際の閾値は、予め設定されて記憶部12に記憶されており、また、入力部14を介した操作に従って変更可能である。例えば制御部11が、入力部14を介して閾値の設定変更指示を受け付けた場合に、記憶部12に記憶してある閾値を、変更指示された閾値に更新することにより、閾値が設定変更される。
The control unit 11 (acquisition unit) of the
制御部11は、撮影画像の画像IDに対応付けて、仕分けた結果(良又は悪)を仕分け画像DB12bに記憶する(S27)。次に制御部11は、仕分け画像DB12bの記憶内容に基づいて、良い画像に仕分けられた撮影画像を記憶部12から読み出し(S28)、読み出した撮影画像を管理者端末30へ送信する(S29)。管理者端末30の制御部31は、サーバ10が送信した、良い画像に仕分けられた撮影画像を表示部35に表示する(S30)。例えば制御部31は、図7に示すような画面を表示部35に表示し、サーバ10から取得した撮影画像を管理者に提示する。なお、サーバ10は、撮影画像と共に又は撮影画像の代わりに、当該撮影画像から背景領域を除去した被写体画像を管理者端末30へ送信してもよく、管理者端末30は、撮影画像と共に又は撮影画像の代わりに、被写体画像を表示して管理者に提示してもよい。図7に示す画面は、表示中の撮影画像に対して、当該撮影画像が良い画像であるか悪い画像であるかの判定結果を受け付けるように構成されており、「良い」ボタン、「悪い」ボタン、及び「保留」ボタンが設けられている。管理者は、図7に示す画面において、入力部34を介して「良い」ボタン又は「悪い」ボタンを操作することにより、撮影画像が良い画像であるか悪い画像であるかの判定を行う。また管理者は、撮影画像に対して良し悪しの判定を行えない場合、「保留」ボタンを操作することにより、判定ができないことを入力する。制御部31は、いずれかのボタンが操作されることにより、管理者による判定結果を受け付け(S31)、受け付けた管理者による判定結果をサーバ10へ送信する(S32)。
The
サーバ10の制御部11は、管理者端末30が送信した管理者による判定結果を受信し、撮影画像の画像IDに対応付けて、受信した判定結果(良又は悪)を判定結果DB12cに記憶する(S33)。制御部11は、判定結果DB12cの記憶内容に基づいて、管理者によって良い画像に仕分けられた撮影画像を特定し(S34)、特定した撮影画像の画像IDとファイル名とを対応付けて販売画像DB12dに記憶する(S35)。販売画像DB12dに記憶された撮影画像は、サーバ10によってネットワークN経由で写真販売機40又はユーザ端末50を介して販売される。なお、サーバ10は、販売対象の撮影画像のサムネイル一覧を写真販売機40又はユーザ端末50へ送信し、サムネイル一覧を介して受け付けた撮影画像に対する購入希望を写真販売機40又はユーザ端末50から取得し、購入希望の撮影画像を写真販売機40又はユーザ端末50へ出力する。写真販売機40は、サーバ10から取得した購入希望の撮影画像を印刷部によって印刷することにより、購入者に提供する。なお、撮影画像の販売処理については一般的な処理であるので、ここでは省略する。
The
上述した処理により判定結果DB12cに記憶された撮影画像に対する管理者の判定結果は、学習モデル12Mを再学習させる際に使用することができる。具体的には、サーバ10の制御部11は、判定結果DB12cに記憶された撮影画像に対して、図5に示す処理を実行することにより、判定結果DB12cの記憶内容に基づいて訓練データの生成処理と、学習モデル12Mの学習処理とを実行することができる。これにより、学習モデル12Mの判別精度を更に向上させることができる。また、本実施形態では、撮影画像から背景領域が除去された被写体画像と、当該撮影画像に対する良し悪しの判定結果とを訓練データに用いて学習モデル12Mを学習する構成であるが、この構成に限定されない。例えば、撮影画像と、当該撮影画像に対する良し悪しの判定結果とを含む訓練データを用いて学習した学習モデルに対して、被写体画像と当該撮影画像に対する良し悪しの判定結果とを含む訓練データを用いてファインチューニング(転移学習)することによって生成されてもよい。
The administrator's judgment result for the photographed image stored in the
上述した処理により、本実施形態の画像処理システムでは、カメラ20で撮影した撮影画像が販売対象として適切である程度を示すスコアを、学習モデル12Mを用いて算出し、算出されたスコアに基づいて、撮影画像が良い画像又は悪い画像に仕分けられる。よって、人手による画像の仕分け作業が不要となり、作業負荷を低減することができる。また、画像の仕分けを人手で行う場合には、仕分けを行う人の感性によって仕分け結果に差が生じる可能性があるが、本実施形態では、学習モデル12Mによって算出されたスコアによって仕分けが行われるので、客観的な仕分け結果を得ることができる。また、学習モデル12Mは、撮影画像から背景領域を除去した被写体画像に基づいて、当該撮影画像に対するスコアを算出するので、背景領域の影響を受けず、判別精度を向上させることができる。例えば、撮影画像を学習させる場合、訓練データに用いる画像に偏りがあると、学習精度が低下する可能性がある。例えば、良い画像と判定された撮影画像に所定の第1色が多く含まれ、悪い画像と判定された撮影画像に所定の第2色が多く含まれる訓練データを用いて学習モデルを学習した場合、例えばピントが合っていない画像であっても第1色を多く含む画像に対して、良い画像であると判別される可能性がある。しかし、本実施形態では、撮影画像から背景領域を除去した被写体画像に基づいて、画像の良し悪しを判別するので、判別精度の低下が抑制される。
Through the above-described processing, the image processing system of the present embodiment uses the
本実施形態では、撮影画像を良い画像又は悪い画像に仕分ける際に用いる閾値の変更が可能である。よって、カメラ20の数、カメラ20で撮影した画像の数、仕分けを行う管理者の数、仕分け作業に費やすことが可能な時間等に応じて閾値を変更することにより、管理者が仕分けを行う画像の数を調整することが可能となる。また、本実施形態では、サーバ10が学習モデル12Mを用いて撮影画像の仕分けを行い、良い画像に仕分けられた撮影画像に対して管理者が更に仕分けを行う構成である。これにより、学習モデル12Mによって出力されたスコアが閾値未満の撮影画像は、管理者が確認することなく販売対象から除外される。よって、管理者が仕分けを行う画像数を削減することができるので、管理者による仕分け作業の負担を軽減することができる。なお、学習モデル12Mを用いて良い画像に仕分けられた撮影画像を、管理者による仕分けを行うことなく、そのまま販売対象としてもよい。この場合、管理者の作業負担を更に軽減できる。例えば閾値に高い値(例えば0.8又は0.9)を設定した場合、学習モデル12Mが出力したスコアに基づいて良い画像に仕分けられた撮影画像は、管理者によっても良い画像と判断される可能性が高く、この場合、管理者による仕分けを行わないように構成されてもよい。
In this embodiment, it is possible to change the threshold value used when classifying captured images into good images or bad images. Therefore, the administrator performs sorting by changing the threshold according to the number of
本実施形態では、撮影画像を販売対象とするか否かの仕分け処理は、撮影画像から背景領域を除去した被写体画像に対するスコアに基づいて行われる。このほかに、被写体画像に対するスコアに加えて、背景領域が除去される前の撮影画像に対するスコアも考慮して、販売対象とするか否かの仕分け処理が行われてもよい。例えば、制御部11は、学習モデル12Mを用いて取得した被写体画像に対するスコアが、所定値(例えば0.6)未満であるか否かを判断し、所定値未満であると判断した場合に、当該被写体画像の背景領域が除去される前の撮影画像に対するスコアを学習モデルを用いて取得する。そして、制御部11は、取得した撮影画像に対するスコアが所定値(例えば0.8)以上であるか否かを判断し、所定値以上であると判断した場合に、当該撮影画像を販売対象とするように構成されていてもよい。このとき、撮影画像に対するスコアを算出する学習モデルは、被写体画像に対するスコアを算出する学習モデル12Mと同じモデルであってもよく、異なるモデルであってもよい。
In this embodiment, the sorting process for determining whether or not a photographed image is to be sold is performed based on the score for a subject image obtained by removing the background area from the photographed image. In addition to this, in addition to the score for the subject image, the score for the photographed image before the background area is removed may also be taken into consideration in the sorting process to determine whether the image is to be sold. For example, the
本実施形態において、訓練データの生成処理、訓練データを用いた学習モデル12Mの学習処理、及び、図6に示す処理のうちでサーバ10が行う処理のいずれか又は複数を、管理者端末30がローカルで行う構成とすることもできる。例えば管理者端末30が図5に示す処理を実行することにより、訓練データを生成し、生成した訓練データを用いて学習モデル12Mを生成して記憶部32に記憶してもよい。これにより、図6中のサーバ10が行う処理を管理者端末30で実行することができる。このような構成とした場合であっても、本実施形態と同様の処理が可能であり、同様の効果が得られる。
In this embodiment, the
(実施形態2)
カメラ20で撮影した動画から静止画を生成し、生成した静止画に対して販売対象とするか否かの仕分けを行う画像処理システムについて説明する。本実施形態の画像処理システムは、図1及び図2に示す実施形態1の画像処理システムと同様の装置を用いて実現されるので、各装置の構成についての説明は省略する。
(Embodiment 2)
An image processing system that generates still images from moving images captured by the
図8は実施形態2の仕分け処理手順の一例を示すフローチャートである。図8に示す処理は、図6に示す処理において、ステップS23の前にステップS41~S42を追加したものである。図6と同じステップについては説明を省略する。 FIG. 8 is a flowchart showing an example of the sorting processing procedure of the second embodiment. The process shown in FIG. 8 is the process shown in FIG. 6 with steps S41 to S42 added before step S23. Description of the same steps as in FIG. 6 will be omitted.
本実施形態の画像処理システムにおいて、カメラ20は、図6中のステップS21~S22と同様の処理を実行する。なお、カメラ20が撮影する撮影画像は、静止画であっても動画であってもよい。サーバ10の制御部11は、カメラ20から送信された撮影画像を取得した場合、取得した撮影画像が動画であるか否かを判断する(S41)。撮影画像が動画でないと判断した場合(S41:NO)、即ち静止画である場合、制御部11は、ステップS23の処理に移行し、実施形態1と同様の処理を実行する。撮影画像が動画であると判断した場合(S41:YES)、制御部11は、動画である撮影画像から静止画を生成する(S42)。例えば、撮影画像が1秒間に30枚のフレームを含む動画である場合、制御部11は、撮影画像から、1秒毎に静止画を生成し、1秒間に30枚の静止画を生成する。なお、制御部11は、全てのフレームから静止画を生成する必要はなく、例えば所定時間毎(0.1秒毎、0.5秒毎等)にフレームを取り出して静止画を生成してもよい。
In the image processing system of this embodiment, the
制御部11は、動画から生成した静止画を、撮影画像として記憶部12に記憶し(S23)、ステップS24以降の処理を実行する。なお、1つの動画から複数の撮影画像(静止画)が生成されるので、ステップS23~S35では、複数の撮影画像(静止画)に対して各処理が行われる。これにより、本実施形態においても、カメラ20で撮影された撮影画像に対して、販売対象とすべきか否かの仕分け処理を行うことが可能であり、撮影画像が動画である場合には、動画から生成された静止画に対して販売対象とすべきか否かの仕分け処理を行うことができる。
The
本実施形態では、動画から生成された静止画を販売対象とするが、動画自体を販売対象としてもよい。例えば、制御部11は、動画から複数の静止画を生成し、生成した各静止画を学習モデル12Mに入力して各静止画に対するスコアを取得し、各静止画のスコアの平均値が所定値(例えば0.8)以上である場合に、当該動画を販売対象とするように構成されていてもよい。また、動画に含まれる各フレームが入力された場合に、当該動画が販売対象として適切であるか否かを示す情報(当該動画が販売対象として適切である程度を示すスコア)を出力するように学習された学習モデルを用いて、各動画を販売対象とするか否かを判定してもよい。この場合、制御部11は、動画を当該学習モデルに入力し、当該動画に対するスコアを学習モデルから取得し、取得したスコアが所定値(例えば0.8)以上である場合に、当該動画を販売対象とするように構成されていてもよい。
In this embodiment, still images generated from videos are sold, but videos themselves may be sold. For example, the
本実施形態では、上述した実施形態1と同様の効果が得られる。また本実施形態では、カメラ20で撮影された動画に基づいて、動画から生成された静止画を販売対象とすることができる。よって、カメラ20を用いて動画を撮影することにより、動画に含まれるフレームから生成された静止画を販売対象とすることができるので、大量の販売対象を収集できる。本実施形態においても、上述した実施形態1で適宜説明した変形例の適用が可能である。
In this embodiment, the same effects as in the first embodiment described above can be obtained. Furthermore, in this embodiment, based on the video captured by the
以上の実施形態1~2を含む実施の形態に関し、更に以下の付記を開示する。
Regarding the
(付記1)
被写体を撮影した撮影画像を取得し、
取得した撮影画像から背景領域を除去し、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力し、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う
処理をコンピュータに実行させるプログラム。
(Additional note 1)
Obtain a photographed image of the subject,
Remove the background area from the captured image,
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. and outputting information regarding the suitability of the photographed image from the learning model,
A program that causes a computer to perform a process of classifying the photographed images as appropriate or inappropriate based on information regarding the suitability of the photographed images.
(付記2)
適に仕分けされた前記撮影画像を出力し、
出力した前記撮影画像に対して適否の判定を受け付け、
前記撮影画像と、受け付けた前記適否に関する情報とを含む訓練データを取得する
処理を前記コンピュータに実行させる付記1に記載のプログラム。
(Additional note 2)
Outputting the photographed images that have been appropriately sorted;
Accepting a determination of suitability for the outputted photographed image,
The program according to
(付記3)
前記撮影画像の適否に関する情報は、前記撮影画像の適切度を示すスコアであり、
前記撮影画像の適否を仕分ける際の閾値を受け付け、
受け付けた閾値に基づいて、取得した前記撮影画像の適否の仕分けを行う
処理を前記コンピュータに実行させる付記1又は2に記載のプログラム。
(Additional note 3)
The information regarding the suitability of the photographed image is a score indicating the suitability of the photographed image,
Accepting a threshold value for classifying the suitability of the photographed image,
The program according to
(付記4)
被写体を撮影した動画を取得し、
取得した動画に含まれるフレームから背景領域を除去し、
前記学習モデルに、前記フレームから背景領域を除去した被写体画像を入力して、前記フレームの適否に関する情報を前記学習モデルから出力する
処理を前記コンピュータに実行させる付記1~3のいずれかひとつに記載のプログラム。
(Additional note 4)
Obtain a video of the subject,
Remove the background area from the frames included in the acquired video,
A subject image obtained by removing a background region from the frame is input to the learning model, and information regarding the suitability of the frame is output from the learning model. program.
(付記5)
被写体を撮影した撮影画像を取得し、
取得した撮影画像から背景領域を除去し、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力し、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う
処理をコンピュータが実行する画像処理方法。
(Appendix 5)
Obtain a photographed image of the subject,
Remove the background area from the captured image,
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. and outputting information regarding the suitability of the photographed image from the learning model,
An image processing method in which a computer performs a process of classifying the photographed images as appropriate or unsuitable based on information regarding the suitability of the photographed images.
(付記6)
被写体を撮影した撮影画像を取得する取得部と、
取得した撮影画像から背景領域を除去する除去部と、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力する出力部と、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う仕分け部と
を備える画像処理装置。
(Appendix 6)
an acquisition unit that acquires a photographed image of the subject;
a removal unit that removes a background area from the acquired captured image;
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. an output unit that outputs information regarding the suitability of the photographed image from the learning model;
An image processing device comprising: a sorting unit that sorts the captured images into suitability based on information regarding the suitability of the captured images.
(付記7)
被写体を撮影した撮影画像から背景領域が除去された被写体画像と、前記撮影画像の適否に関する情報とを含む訓練データを取得し、
取得した訓練データを用いて、前記被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力する学習モデルを生成する
処理をコンピュータが実行するモデル生成方法。
(Appendix 7)
Obtaining training data including a subject image from which a background region has been removed from a photographed image of the subject, and information regarding the suitability of the photographed image;
A model generation method in which a computer executes a process of generating a learning model that outputs information regarding the suitability of the photographed image when the subject image is input using acquired training data.
(付記8)
被写体を撮影した撮影画像と、前記撮影画像の適否に関する情報とを取得し、
取得した撮影画像から背景領域を除去し、
前記撮影画像から前記背景領域を除去した被写体画像と、取得した前記撮影画像の適否に関する情報とを含む訓練データを取得する
処理を前記コンピュータが実行する付記7に記載のモデル生成方法。
(Appendix 8)
Obtaining a photographed image of the subject and information regarding the suitability of the photographed image,
Remove the background area from the captured image,
The model generation method according to appendix 7, wherein the computer executes a process of acquiring training data including a subject image obtained by removing the background region from the photographed image and information regarding the suitability of the acquired photographed image.
(付記9)
撮影装置及び画像処理装置を含む画像処理システムであって、
前記撮影装置は、
被写体を撮影した撮影画像を前記画像処理装置へ送出する送出部を備え、
前記画像処理装置は、
前記撮影装置から前記撮影画像を取得する取得部と、
取得した撮影画像から背景領域を除去する除去部と、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力する出力部と、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う仕分け部とを備える
画像処理システム。
(Appendix 9)
An image processing system including a photographing device and an image processing device,
The photographing device is
comprising a sending unit that sends a photographed image of a subject to the image processing device,
The image processing device includes:
an acquisition unit that acquires the photographed image from the photographing device;
a removal unit that removes a background area from the acquired captured image;
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. an output unit that outputs information regarding the suitability of the photographed image from the learning model;
An image processing system, comprising: a sorting unit that sorts the captured images into suitability based on information regarding the suitability of the captured images.
今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed herein are illustrative in all respects and should not be considered restrictive. The scope of the present invention is indicated by the claims rather than the above-mentioned meaning, and is intended to include meanings equivalent to the claims and all changes within the scope.
10 サーバ
11 制御部
12 記憶部
13 通信部
14 入力部
15 表示部
20 カメラ
30 管理者端末
31 制御部
32 記憶部
33 通信部
40 写真販売機
50 ユーザ端末
12M 学習モデル
10
Claims (9)
取得した撮影画像から背景領域を除去し、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力し、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う
処理をコンピュータに実行させるプログラム。 Obtain a photographed image of the subject,
Remove the background area from the captured image,
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. and outputting information regarding the suitability of the photographed image from the learning model,
A program that causes a computer to perform a process of classifying the photographed images as appropriate or inappropriate based on information regarding the suitability of the photographed images.
出力した前記撮影画像に対して適否の判定を受け付け、
前記撮影画像と、受け付けた前記適否に関する情報とを含む訓練データを取得する
処理を前記コンピュータに実行させる請求項1に記載のプログラム。 Outputting the photographed images that have been appropriately sorted;
Accepting a determination of suitability for the outputted photographed image,
The program according to claim 1, which causes the computer to execute a process of acquiring training data including the photographed image and the received information regarding suitability.
前記撮影画像の適否を仕分ける際の閾値を受け付け、
受け付けた閾値に基づいて、取得した前記撮影画像の適否の仕分けを行う
処理を前記コンピュータに実行させる請求項1又は2に記載のプログラム。 The information regarding the suitability of the photographed image is a score indicating the suitability of the photographed image,
Accepting a threshold value for classifying the suitability of the photographed image,
The program according to claim 1 or 2, which causes the computer to perform a process of classifying the obtained captured images as appropriate or inappropriate based on the received threshold value.
取得した動画に含まれるフレームから背景領域を除去し、
前記学習モデルに、前記フレームから背景領域を除去した被写体画像を入力して、前記フレームの適否に関する情報を前記学習モデルから出力する
処理を前記コンピュータに実行させる請求項1又は2に記載のプログラム。 Obtain a video of the subject,
Remove the background area from the frames included in the acquired video,
The program according to claim 1 or 2, which causes the computer to execute a process of inputting a subject image obtained by removing a background region from the frame to the learning model, and outputting information regarding suitability of the frame from the learning model.
取得した撮影画像から背景領域を除去し、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力し、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う
処理をコンピュータが実行する画像処理方法。 Obtain a photographed image of the subject,
Remove the background area from the captured image,
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. and outputting information regarding the suitability of the photographed image from the learning model,
An image processing method in which a computer performs a process of classifying the photographed images as appropriate or unsuitable based on information regarding the suitability of the photographed images.
取得した撮影画像から背景領域を除去する除去部と、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力する出力部と、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う仕分け部と
を備える画像処理装置。 an acquisition unit that acquires a photographed image of the subject;
a removal unit that removes a background area from the acquired captured image;
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. an output unit that outputs information regarding the suitability of the photographed image from the learning model;
An image processing device comprising: a sorting unit that sorts the captured images into suitability based on information regarding the suitability of the captured images.
取得した訓練データを用いて、前記被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力する学習モデルを生成する
処理をコンピュータが実行するモデル生成方法。 Obtaining training data including a subject image from which a background region has been removed from a photographed image of the subject, and information regarding the suitability of the photographed image;
A model generation method in which a computer executes a process of generating a learning model that outputs information regarding the suitability of the photographed image when the subject image is input using acquired training data.
取得した撮影画像から背景領域を除去し、
前記撮影画像から前記背景領域を除去した被写体画像と、取得した前記撮影画像の適否に関する情報とを含む訓練データを取得する
処理を前記コンピュータが実行する請求項7に記載のモデル生成方法。 Obtaining a photographed image of the subject and information regarding the suitability of the photographed image,
Remove the background area from the captured image,
8. The model generation method according to claim 7, wherein the computer executes a process of acquiring training data including a subject image obtained by removing the background region from the photographed image and information regarding the suitability of the acquired photographed image.
前記撮影装置は、
被写体を撮影した撮影画像を前記画像処理装置へ送出する送出部を備え、
前記画像処理装置は、
前記撮影装置から前記撮影画像を取得する取得部と、
取得した撮影画像から背景領域を除去する除去部と、
撮影画像から背景領域が除去された被写体画像を入力した場合に前記撮影画像の適否に関する情報を出力するように学習された学習モデルに、取得した前記撮影画像から背景領域を除去した被写体画像を入力して、前記撮影画像の適否に関する情報を前記学習モデルから出力する出力部と、
前記撮影画像の適否に関する情報に基づいて、前記撮影画像の適否の仕分けを行う仕分け部とを備える
画像処理システム。 An image processing system including a photographing device and an image processing device,
The photographing device is
comprising a sending unit that sends a photographed image of a subject to the image processing device,
The image processing device includes:
an acquisition unit that acquires the photographed image from the photographing device;
a removal unit that removes a background area from the acquired captured image;
A subject image from which the background area has been removed from the captured image is input to a learning model that has been trained to output information regarding the suitability of the captured image when a subject image from which the background area has been removed is input. an output unit that outputs information regarding the suitability of the photographed image from the learning model;
An image processing system, comprising: a sorting unit that sorts the captured images into suitability based on information regarding the suitability of the captured images.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022113343A JP2024011398A (en) | 2022-07-14 | 2022-07-14 | Program, image processing method, image processing device, model generation method, and image processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022113343A JP2024011398A (en) | 2022-07-14 | 2022-07-14 | Program, image processing method, image processing device, model generation method, and image processing system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024011398A true JP2024011398A (en) | 2024-01-25 |
Family
ID=89621550
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022113343A Pending JP2024011398A (en) | 2022-07-14 | 2022-07-14 | Program, image processing method, image processing device, model generation method, and image processing system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024011398A (en) |
-
2022
- 2022-07-14 JP JP2022113343A patent/JP2024011398A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6315636B1 (en) | Product exhibition support system, product exhibition support program, and product exhibition support method | |
JP4908505B2 (en) | Image classification using photographers | |
US20190332854A1 (en) | Hybrid deep learning method for recognizing facial expressions | |
WO2007004520A1 (en) | Searching system and searching method | |
US11783192B2 (en) | Hybrid deep learning method for recognizing facial expressions | |
JP2007096405A (en) | Method, device and program for judging direction of camera shake | |
US8593557B2 (en) | Shooting assist method, program product, recording medium, shooting device, and shooting system | |
WO2015145769A1 (en) | Imaging device, information processing device, photography assistance system, photography assistance program, and photography assistance method | |
US20090016565A1 (en) | Image analysis | |
JP2004280254A (en) | Contents categorizing method and device | |
JP2008035246A (en) | Composition evaluation device, composition adjustment device, image photographing device, composition evaluation program, composition adjustment program, image photographing program, composition evaluation method, composition adjustment method, and image photographing method | |
JP2019012515A (en) | System, program and method of assisting in putting up commodity for sale | |
JP6323548B2 (en) | Imaging assistance system, imaging apparatus, information processing apparatus, imaging assistance program, and imaging assistance method | |
JP2024011398A (en) | Program, image processing method, image processing device, model generation method, and image processing system | |
JP2015139001A (en) | Information processing device, information processing method and program | |
WO2019215797A1 (en) | Composition advice system, composition advice method, camera and program | |
JP7395889B2 (en) | Image processing device and image search method | |
JP2006277227A (en) | Composite image preparation device | |
US10552888B1 (en) | System for determining resources from image data | |
CN112565586A (en) | Automatic focusing method and device | |
JP2017184021A (en) | Content providing device and content providing program | |
WO2023286652A1 (en) | Learning apparatus, prediction appraratus, and imaging appraratus | |
US20040202378A1 (en) | Method and apparatus for enhancing images based on stored preferences | |
US20230013044A1 (en) | Information processing device, information processing method, and non-transitory computer readable medium | |
JP7452591B1 (en) | Image generation system and image generation method |