JP2023169922A - Information processing system and control method thereof, and program - Google Patents
Information processing system and control method thereof, and program Download PDFInfo
- Publication number
- JP2023169922A JP2023169922A JP2022081259A JP2022081259A JP2023169922A JP 2023169922 A JP2023169922 A JP 2023169922A JP 2022081259 A JP2022081259 A JP 2022081259A JP 2022081259 A JP2022081259 A JP 2022081259A JP 2023169922 A JP2023169922 A JP 2023169922A
- Authority
- JP
- Japan
- Prior art keywords
- image
- container
- processing
- information processing
- processing system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 24
- 238000000034 method Methods 0.000 title claims description 63
- 238000012545 processing Methods 0.000 claims abstract description 86
- 230000008569 process Effects 0.000 claims description 53
- 230000006870 function Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 2
- 235000013305 food Nutrition 0.000 description 23
- 238000001514 detection method Methods 0.000 description 16
- 208000003443 Unconsciousness Diseases 0.000 description 8
- 235000021186 dishes Nutrition 0.000 description 7
- 241000251468 Actinopterygii Species 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 244000269722 Thea sinensis Species 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 235000012054 meals Nutrition 0.000 description 3
- 238000010422 painting Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 235000014347 soups Nutrition 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000010411 cooking Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000011248 coating agent Substances 0.000 description 1
- 238000000576 coating method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 239000011347 resin Substances 0.000 description 1
- 229920005989 resin Polymers 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
Description
本発明は、画像を用いて、画像に含まれる認識すべき対象を認識するための技術に関する。 The present invention relates to a technique for recognizing an object to be recognized included in an image using an image.
従来、識別対象の物体を含む画像(訓練画像、教師データ)を用いた機械学習により学習済みモデルを生成し、生成された学習済みモデルに画像を入力することで、画像に含まれる物体を認識する技術が知られている。 Conventionally, a trained model is generated by machine learning using images (training images, teacher data) that contain the object to be identified, and the object contained in the image is recognized by inputting the image to the generated trained model. There are known techniques to do this.
先行技術文献1には、画像を物体領域と背景領域と分離したマスク画像を生成することで、未知の物体(訓練画像中にない物体など)の検出精度を向上させることが提案されている。マスク画像の生成の際には、フレーム画像の画素ごとに、画素に「1」(白色に相当する値)又は「0」(黒色に相当する値)を対応付け、物体領域(白色範囲)と背景領域(黒色範囲)とに分類することが開示されている。 Prior Art Document 1 proposes to improve the detection accuracy of unknown objects (such as objects not in training images) by generating a mask image in which an image is separated into an object region and a background region. When generating a mask image, each pixel of the frame image is assigned "1" (a value corresponding to white) or "0" (a value corresponding to black) to the pixel, and the object area (white range) and It is disclosed that the image is classified into a background area (black area) and a background area (black area).
食堂における食後の会計の際に、画像から食器を認識し、認識した食器に応じた会計処理を行うなどのユースケースが考えられる。このように、食器を画像認識の対象とするときに、食器の中に食べ残しがあると、認識精度が下がってしまう。すなわち、認識すべき対象の内側に認識すべき対象とは異なるものが存在すると、それが認識精度の低下要因となる場合がある。先行技術文献1では、認識すべき対象の内側に認識すべき対象とは異なるものが存在する可能性については考慮されていない。 A possible use case would be to recognize tableware from an image when checking out after a meal at a cafeteria, and then perform accounting processing according to the recognized tableware. In this way, when tableware is used as an object of image recognition, if there is leftover food in the tableware, recognition accuracy decreases. That is, if something different from the object to be recognized exists inside the object to be recognized, this may become a factor in reducing recognition accuracy. Prior Art Document 1 does not take into account the possibility that something different from the object to be recognized exists inside the object to be recognized.
そこで本発明は、内側に認識すべき対象とは異なるものが存在する可能性のある認識すべき対象を、より精度よく認識できるようにする仕組みを提供することを目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a mechanism that can more accurately recognize an object to be recognized, which may have something different from the object to be recognized inside.
画像のうち容器を含む容器領域を取得する取得手段と、
前記取得手段で取得した前記容器領域の内側の一部領域に対して、他の画像との差異を低減する特定の加工を施す加工手段と、
前記加工手段で加工された画像を用いて学習処理を行うように制御する制御手段と
を備えることを特徴とする。
acquisition means for acquiring a container region including the container in the image;
processing means that performs specific processing on a partial area inside the container area acquired by the acquisition means to reduce differences from other images;
A control means for controlling the learning process to be performed using the image processed by the processing means.
本発明によれば、内側に認識すべき対象とは異なるものが存在する可能性のある認識すべき対象を、より精度よく認識できる。 According to the present invention, it is possible to more accurately recognize an object to be recognized in which there may be something different from the object to be recognized inside.
以下、図面を参照して、本発明の実施形態を詳細に説明する。 Embodiments of the present invention will be described in detail below with reference to the drawings.
まず、図1を参照して、本発明の実施形態における情報処理システムの構成の一例について説明する。 First, with reference to FIG. 1, an example of the configuration of an information processing system according to an embodiment of the present invention will be described.
本発明における情報処理システムは、カメラ103とディスプレイ104と精算台105で構成されている食堂精算レーン102が、所定のコントローラ106(例えばPoEハブ)からネットワーク107(例えばイーサネット)を介して、クライアント端末101と通信可能に接続されて構成されている。なおクライアント端末101に対して、複数の食堂精算レーン102が接続されてもよい。
In the information processing system of the present invention, a
カメラ103は、精算台105のトレー全体が写る範囲を撮影可能な位置に設置されている。
The
精算台105には、会計のために食後の食器が載ったトレーが置かれる。なお、食器が載ったトレーは、食前の状態でもよい。 On the checkout table 105, a tray with after-meal dishes placed on it is placed for payment. Note that the tray on which the tableware is placed may be in a pre-meal state.
クライアント端末101は、例えばパーソナルコンピューター(以下、PC)であり、カメラ103で撮像された画像から食器を識別し、決済等の処理を行う。クライアント端末101は深層距離学習(ディープメトリックラーニング(Deep Metric Learning))の技術を用いて、精算台105に置かれた食器の種類を識別する。
The
深層距離学習とは、画像の特徴量のみを抽出し、抽出した特徴量からアルゴリズムによって画像の特徴量ベクトルを算出し、その距離を測定することでどの商品に最も近いかを求める手法である。予めサンプル画像を用意しておき、各画像から特徴量ベクトルを抽出する。入力画像について、各サンプル画像と特養量ベクトルの距離を測定し、最も近い距離にあるサンプルと同一種類であると判定する。本実施例では、深層距離学習を用いて説明をするが、Deep Learning Classification等の他の手法を用いても良い。 Deep distance learning is a method that extracts only the features of an image, uses an algorithm to calculate the image feature vector from the extracted features, and measures the distance to determine which product is closest. Sample images are prepared in advance, and feature vectors are extracted from each image. For the input image, the distance between each sample image and the special energy vector is measured, and it is determined that the sample is of the same type as the closest sample. Although this embodiment will be explained using deep distance learning, other methods such as deep learning classification may also be used.
ディスプレイ104は、クライアント端末101で処理された決済の情報を表示し、食事を行った支払い者に精算を指示する。なお、ディスプレイ104には、カメラ103の映像を表示してもよい。
The
次に図2を参照して、本発明を適用可能な装置の一例としてのクライアント端末101の構成の一例を示す。
Next, with reference to FIG. 2, an example of the configuration of the
図2において、内部バス250に対してCPU201、メモリ202、不揮発性メモリ203、画像処理部204、ディスプレイ205、操作部206、記録媒体I/F207、外部I/F209、通信I/F210が接続されている。内部バス250に接続される各部は、内部バス250を介して互いにデータのやりとりを行うことができるようにされている。
In FIG. 2, a
メモリ202は、例えばRAM(半導体素子を利用した揮発性のメモリなど)からなる。CPU201は、例えば不揮発性メモリ203に格納されるプログラムに従い、メモリ202をワークメモリとして用いて、クライアント端末101の各部を制御する。不揮発性メモリ203には、画像データや音声データ、その他のデータ、CPU201が動作するための各種プログラムなどが格納される。不揮発性メモリ203は例えばハードディスク(HD)やROMなどで構成される。
The
画像処理部204は、CPU201の制御に基づいて、不揮発性メモリ203や記録媒体208に格納された画像データや、外部I/F209を介して取得した映像信号、通信I/F210を介して取得した画像データ、撮像された画像などに対して各種画像処理を施す。画像処理部204が行う画像処理には、A/D変換処理、D/A変換処理、画像データの符号化処理、圧縮処理、デコード処理、拡大/縮小処理(リサイズ)、ノイズ低減処理、色変換処理などが含まれる。画像処理部204は特定の画像処理を施すための専用の回路ブロックで構成しても良い。また、画像処理の種別によっては画像処理部204を用いずにCPU201がプログラムに従って画像処理を施すことも可能である。画像から認識すべき対象(食器)を認識する処理は、CPU201が画像処理部204と協働して行う。
Based on the control of the
ディスプレイ205は、CPU201の制御に基づいて、画像やGUI(Graphical User Interface)を構成するGUI画面などを表示する。CPU201は、プログラムに従い表示制御信号を生成し、ディスプレイ205に表示するための映像信号を生成してディスプレイ205に出力するようにクライアント端末101の各部を制御する。ディスプレイ205は出力された映像信号に基づいて映像を表示する。なお、クライアント端末101自体が備える構成としてはディスプレイ205に表示させるための映像信号を出力するためのインターフェースまでとし、ディスプレイ205は外付けのモニタ(テレビなど)で構成してもよい。
The
操作部206は、キーボードなどの文字情報入力デバイスや、マウスやタッチパネルといったポインティングデバイス、ボタン、ダイヤル、ジョイスティック、タッチセンサ、タッチパッドなどを含む、ユーザー操作を受け付けるための入力デバイスである。なお、タッチパネルは、ディスプレイ205に重ね合わせて平面的に構成され、接触された位置に応じた座標情報が出力されるようにした入力デバイスである。
The
記録媒体I/F207は、メモリーカードやCD、DVDといった記録媒体208が装着可能とされ、CPU201の制御に基づき、装着された記録媒体208からのデータの読み出しや、当該記録媒体208に対するデータの書き込みを行う。外部I/F209は、外部機器と有線ケーブルや無線によって接続し、映像信号や音声信号の入出力を行うためのインターフェースである。通信I/F210は、外部機器やインターネット211などと通信して、ファイルやコマンドなどの各種データの送受信を行うためのインターフェースである。
A
カメラ部212は、光学像を電気信号に変換するCCDやCMOS素子等で構成される撮像素子(撮像センサー)等で構成されるカメラユニットである。
The
次に図3を参照して、本発明の実施形態における、食器認識に係る学習処理(AI:Artificial Intelligenceを用いた学習処理)の基本処理について説明する。なお、各ステップの処理は、各装置のCPU201が実行する。食堂の客が食堂精算レーン102を利用する前の処理として、クライアント端末101で画像を学習するときに、図3の処理が開始される。
Next, with reference to FIG. 3, basic processing of learning processing related to tableware recognition (learning processing using AI: Artificial Intelligence) in the embodiment of the present invention will be described. Note that the processing of each step is executed by the
S301では、CPU201は、カメラ103で撮影された食器を含む画像から食器毎の画像を外接矩形で切り出して取得し、記録媒体208に保存する。具体的には、カメラ103で撮影した画像から、食器の領域を検出する。この検出処理は、後述する食器の種別の検出とは異なる検出処理であり、種別は不明であるが、食器がある(あるいは、トレーではない物体がある)ということまでがわかる検出処理である。この検出処理で検出された食器の領域に対して、食器の外形に接するように矩形(以下、外接矩形)を設定する。元の画像から設定された外接矩形の領域の部分画像(すなわち、単一の食器を含む画像)を切り出して取得し、記録媒体208に保存する。
In S<b>301 , the
S302では、CPU201は、S301で取得して保存した切り出し画像の内側の一部分を黒塗りする割合を設定する。このとき、黒塗りする割合は任意に設定可能であるが、100%にしてしまうと、全て塗りつぶしてしまうことになるので、100%未満とする。また、塗りつぶす色は黒に限らず、他の色を使用しても良い。
In S302, the
S303では、CPU201は、S302で設定した割合に基づいて、S301で取得して保存した切り出し画像(食器を含む領域)のそれぞれの内側の一部分を黒塗りし、記録媒体208に保存する。この黒塗り処理は、図6で後述する推論フェーズでの黒塗りと同様の処理である。ただし、教師データの作成過程であるS303の処理では、料理(食べ物)や食べ残しがない、食器だけを撮影した画像を用いた処理であってもよい。食器だけの画像であっても、内側を黒塗りにしたものを学習させることで、推論フェーズで食器自体ではなく食べ残しの画像が写る可能性のある食器の内側部分を、特徴と見なさないような学習をさせることができる。すなわち、S303の処理は、食器を含む容器領域の内側の一部分に対して、他の画像との差分を低下させる加工を施す処理である。
In S303, the
S304では、CPU201は、外接矩形で切り出したオリジナル画像(S301で取得した黒塗り前の切り出し画像、教師画像)と、S303で保存した黒塗り画像(教師画像)の双方と、それぞれの画像の食器の種別を示すラベル情報を用いた学習処理を行い、学習済モデルを作成する。作成した学習済みモデルを記録媒体208に記録する。なお、オリジナル画像を使用せずに、学習させる教師画像としては黒塗り画像のみを使用してもよい。その場合、推論フェーズで使用する画像も黒塗り画像のみとするのが好ましい。
In S304, the
以上が図3の説明である。 The above is the explanation of FIG. 3.
次に図4を参照して、本実施形態における、食器の認識処理の一例を示す。この処理は、図3の学習処理で生成された学習済みモデルを用いた推論フェーズの処理であり、食堂の客が食堂精算レーン102を利用する際に行われる処理である。なお、各ステップの処理は、CPU201が実行する。なお、図3の処理と図4の処理を同じクライアント端末101が行う例を説明するが、図3の処理で生成された学習済みモデルを使うのであれば、図4の処理は図3の処理を行うクライアント端末101とは別の個体の情報処理装置(例えばPC)で実行するようにしてもよい。
Next, with reference to FIG. 4, an example of tableware recognition processing in this embodiment will be described. This process is an inference phase process using the trained model generated in the learning process of FIG. 3, and is a process performed when a customer of the cafeteria uses the
S401では、CPU201は、カメラ103で精算台105の範囲を撮影する。カメラ103で清算台を撮影する際、常に撮影し続けてもいいし、撮影範囲内に何らかの動く物体を検知した場合に、撮影を開始しても良い。
In S<b>401 , the
S402では、CPU201は、撮影画像から、所定の範囲にトレーが置かれているかを判定するトレー配置判定処理を実行する。S403でトレーが置かれていると判断された場合はS404の食器位置検出処理を行い、トレーが置かれていないと判断された場合はS402のトレー配置判定が再度実行される。
In S402, the
S404では、CPU201は、カメラ103による撮影を行い、撮影された画像から、S301と同様に、食器毎の画像を外接矩形で切り出して取得する。図5に、カメラ103で撮影された画像の例を示す。撮影画像501には、精算台105に置かれたトレー502と食器503a~503dが写っている。トレー上の食器の位置を検出し、それぞれの食器に対して外接矩形504a~504dを算出する。なお、図5は食べ残しが無い食器の画像の例であるが、食べ残しがある場合には、各食器の内側に食べ残しが写ったものとなる。
In S404, the
S405では、CPU201は、S404によって取得した食器ごとの部分画像の内部を、予め設定しておいた割合で黒塗りする。
In S405, the
図6に、食器の黒塗り加工を行う方法の一例を示す。外接矩形(容器領域)で切り出した切り出し画像601a~601cには、それぞれ食器602a~602cと食べ残し603a~603cや汚れが写っている。食べ残しや汚れがあると食器識別の精度に影響があるため、食べ残しや汚れ等の画像認識に不要な部分を黒塗りする処理を行う。本実施例では、黒塗りする割合を50%に設定していた場合について説明する。外接矩形で切り出した切り出し画像601a~601cに対し、それぞれの中心から、それぞれ横50%、縦50%の割合で楕円(外接矩形が正方形の場合は真円となる)を黒塗りして黒塗領域604a~604cを生成する。形状が横長の食器602bや長方形の食器602cに関しては、外接矩形(切り出し画像601b、601c)の中心(C2,C3)から、それぞれ横50%、縦50%の割合で黒塗りした場合は、図示したような横長の楕円の黒塗り領域604b、604cが生成される。このように、食べ残しや汚れ等の不要な部分を黒塗りすることによって、食べ残し等を誤って検出してしまうことを防ぎ、認識精度の向上が期待できる。また、食器があると認識(検出)された領域の形状(切り出し画像601a~601cの形状)に合わせて黒塗りする領域が変わる(真円か、横長の楕円か、など)。すなわち、食器の形状に合わせて食品などの検出対象物と異なるものが置かれている可能性が高い領域を黒塗りするため、より精度良く、検出対象物である食器の種類を検出することが可能となる。なお、不要な部分について、ある対象を検出する際に特徴のない部分(不要部分)であれば、食べ残しや汚れに限らない。
FIG. 6 shows an example of a method for blackening tableware.
S406では、CPU201は、AIによる食器の種類判別を実行する。具体的には、S304で作成された学習済モデル(記録媒体208に記憶されている学習済みモデル)に、S406で作成した加工済みの切り出し画像を入力し、推論処理を行う。S404で複数の切り出し画像を取得していた場合は、それらの全てについてそれぞれ推論処理を行う。推論処理の結果として、各切り出し画像について、複数の食器種別毎のスコア(該当する食器種別に対する確からしさ)が出力される。CPU201は、このうち、スコアが所定の閾値を超えているものを抽出し、判別結果の候補種別とする。候補種別として抽出される種別の数は、0、1、複数のいずれの場合もあり得る。
In S406, the
S407では、S406の推論処理の結果、候補種別が抽出されたか否かを判定する。候補種別が1つ以上抽出された場合はS408に進み、そうでない場合、すなわち候補種別が0であった(スコアが閾値を超える種別が無かった)場合にはS414へ進む。 In S407, it is determined whether a candidate type has been extracted as a result of the inference process in S406. If one or more candidate types have been extracted, the process advances to S408; if not, that is, if the candidate types are 0 (there is no type whose score exceeds the threshold), the process advances to S414.
S408~S412の処理は、候補種別の1つずつについて行われる。以下、例として、1つの切り出し画像についてS406で候補種別が吸い物椀、茶碗、焼き魚皿の3つが抽出された例を説明する。この場合、S408~S412の処理は、吸い物椀、茶碗、焼き魚皿それぞれについて行われる。 The processes of S408 to S412 are performed for each candidate type. Hereinafter, an example will be described in which three candidate types, ie, a soup bowl, a rice bowl, and a grilled fish plate, are extracted in step S406 for one cutout image. In this case, the processes of S408 to S412 are performed for each of the soup bowl, tea bowl, and grilled fish plate.
S408では、CPU201は、S406で抽出された候補種別であって、S408での処理対象の候補種別に対応するサンプル画像を取得する。サンプル画像は、検出結果としてあり得る食器の正解データ(教師データ)に含まれる画像であり、S301で予め記録媒体208に記録されていた画像である。
In S408, the
S409では、CPU201は、候補種別の取得元となった認識対象画像である切り出し画像(外接矩形)のアスペクト比と、S408で取得したサンプル画像のアスペクト比とを比較する処理を実行する。
In S409, the
S410では、CPU201は、S409の比較の結果、アスペクト比の差が許容範囲以内であるかを判定する。許容範囲内であればS411に処理を進め、許容範囲外であればS414に進む。例えば、焼き魚皿のサンプル画像において、食器の外接矩形のアスペクト比は横長の2:3であるものとする。これに対して、候補種別である焼き魚皿の取得元となった認識対象画像である切り出し画像(外接矩形)のアスペクト比が1:1であれば、焼き魚皿はアスペクト比が許容範囲外となるため、このステップでNoと判定され、焼き魚皿は候補種別から除外される。
In S410, the
S411では、CPU201は、候補種別の取得元となった認識対象画像である切り出し画像(外接矩形)のサイズと、S408で取得したサンプル画像のサイズとを比較する処理を実行する。具体的には、面積(ピクセル数)を比較する。S404の食器位置検出で検出された外接矩形の面積(ピクセル数)とS410で絞り込まれたサンプル画像群の候補の面積(ピクセル数)を比較する処理を実行する。
In S411, the
S412では、CPU201は、S411の比較の結果、サイズの差が許容範囲以内であるかを判定する。許容範囲内であればS413に処理を進め、許容範囲外であればS414に進む。例えば、茶碗のサンプル画像のサイズが、吸い物椀のサンプル画像のサイズ1よりも大きい、サイズ2であるものとする。これに対して、候補種別である茶碗の取得元となった認識対象画像である切り出し画像(外接矩形)のサイズがサイズ1であり、サイズ1とサイズ2の差が許容範囲を超える差であれば、このステップでNoと判定され、茶碗は候補種別から除外される。このように、同じような形状の食器であっても大きさが異なる場合があるため、食器の大きさを比較して、異なる大きさの食器を候補から除外する処理を行う。例えば、茶碗の中でも、大きいものから小さいものまで大きさは様々であり、これらを識別するために、食器の画像の面積を比較することで候補を絞り込むことができる。
In S412, the
S413では、CPU201は、候補種別の全てについて処理済みであるか否かを判定する。全て処理済みであればS415に進み、そうでない場合にはS408に進んで次の候補種別についての処理を行う。
In S413, the
S414では、CPU201は、処理対象の候補種別を候補から除外する。すなわちその種別は認識結果としては確定しない。
In S414, the
S415では、CPU201は、S406で抽出された候補種別のうち、S408からS414の処理で候補から除外されなかった種別が存在するか否かを判定する。存在する場合にはS416に進み、存在しない場合(全ての種別が除外された場合)にはS417へ進む。
In S415, the
S416では、CPU201は、S406で抽出された候補種別のうち、S408からS412の処理で候補から除外されなかった残りの種別のうち、スコアが最も高い食器の種別を1つ特定し、認識結果として確定する。すなわち、1つの容器領域に対して1つの食器の種別を特定する。
In S416, the
一方、S417では、CPU201は、検出対象の食器が、未登録の食器(未登録物品)として判定する。その場合、未登録物品は会計に含めないように処理を行う。例えば、トレー上に食器以外のタオル等が置かれていた場合、それを未登録物品として認識し、会計には含めないようにする。また、未登録物品であると識別できるように、当該物品に対して、「Unknown」等の通知をしてもよい。
On the other hand, in S417, the
こうしてS416,S417で食器の種別が特定されると、CPU201は、その日のメニュー(献立)情報を参照し、特定された食器に対応する料理(メニュー)と値段を取得する。そして、1つのトレー画像に含まれる全ての食器に対応する料理と値段を取得すると、ディスプレイ104に、検出結果として、各料理名、値段、合計金額を表示するように制御する。その後、ユーザーからの清算操作に応じて、表示された合計金額での清算を行う。
When the type of tableware is thus specified in S416 and S417, the
以上が図4の説明である。 The above is the explanation of FIG. 4.
以上説明したように、本実施形態によれば、認識対象の食器とは異なるもの(食品)が写る可能性の高い食器の内側の一部領域を黒塗りする加工を施した画像を学習させ、また、推論に用いるようにする。このようにすることで、黒塗りした領域はどの種別の食器の画像でも同じ特徴(黒一色という特徴)を持つ画像となる。従って、学習フェーズにおいては、黒塗りした領域は食器の種別を判別するために有効な特徴(差異)を示すデータが得られる領域とはならないため、黒塗りされた領域に関して食器の種別の判断の根拠とする程度が低い学習済みモデルが生成されることとなる。こうして生成された学習済みモデルには、食器のうち、学習時に黒塗りされていた領域に相当する領域にどんな異物があっても、食器の種別判断に与える影響は低い。すなわち、食べ残しによる影響で誤った判断をする可能性が低減し、より精度よく食器の種別を判別することが可能となる。このように生成された学習済みモデルには、推論を行う食器の種別の検出対象画像として、食べ残しのある領域を黒塗りにせずにそのままの状態の画像を入力しても、学習時に黒塗りされていた領域に対応する領域は、食器の種別の判断の根拠となる程度が低い。すなわち、食べ残しの部分の画像の影響による認識精度の低下はないか、限定的となる。従って、推論時には黒塗り加工を行わず、図3のように、学習時に教師画像として食器の画像の内側の一部を黒塗りした画像を用いた学習を行うだけでも認識精度向上の効果を得ることができる。そのため、図4のS405の黒塗りの処理は行わなくてもよい。その分、推論時に処理にかける処理時間や処理負荷を低下させることができ、高い応答性で推論結果を通知することができる。もちろん、S405の処理を行えば、より高い精度が期待できる。 As explained above, according to the present embodiment, an image in which a partial area inside the tableware that is likely to contain something different from the tableware to be recognized (food) is painted black is trained. Also, use it for reasoning. By doing so, the blacked-out area has the same feature (the feature of being completely black) regardless of the type of tableware image. Therefore, in the learning phase, the blacked out area is not an area where data indicating features (differences) effective for determining the type of tableware can be obtained, so it is difficult to judge the type of tableware with respect to the blacked out area. A trained model with a low degree of basis will be generated. In the trained model generated in this way, even if there is any foreign object in the area of the tableware that corresponds to the area that was painted black at the time of learning, the effect on the judgment of the type of tableware is low. That is, the possibility of making a wrong judgment due to the influence of leftover food is reduced, and it becomes possible to discriminate the type of tableware with higher accuracy. The trained model generated in this way will not be blacked out during training even if an image with leftover food is input as it is without blacking out as the detection target image for the type of tableware used for inference. The area corresponding to the area where the tableware was used is of a low degree of use as a basis for determining the type of tableware. In other words, there is no or only limited reduction in recognition accuracy due to the influence of images of leftover food. Therefore, the effect of improving recognition accuracy can be obtained by simply performing learning using an image in which part of the inside of the tableware image is painted black as a teacher image during learning, as shown in Figure 3, without performing blacking during inference. be able to. Therefore, the blacking process of S405 in FIG. 4 does not need to be performed. Accordingly, the processing time and processing load required during inference can be reduced, and inference results can be notified with high responsiveness. Of course, higher accuracy can be expected by performing the process of S405.
なお、上述の実施形態では、食器のある領域の外接矩形で切り出した画像に対して、食器の内部を黒塗りする割合を設定する例を説明したが、これに限るものではない。検出した食器の食べ残し部分のみをAIで領域抽出し、その領域にのみ黒塗りするようにしてもよい。 Note that in the above-described embodiment, an example has been described in which the ratio of blacking out the inside of the tableware is set for an image cut out by the circumscribed rectangle of the area where the tableware is, but the present invention is not limited to this. AI may be used to extract only the uneaten portion of the detected tableware, and only that area may be painted black.
また、次のように処理してもよい。S404の処理の後、S405を省略し、S404で検出された黒塗りしていない認識対象画像の容器領域の画像に対してS406の食器の種類判別を実行する。そして、複数の候補種別にそれぞれ対応する複数のサンプル画像(予め記憶された、食べ残し等の異物がのっていない食器の画像)と、S404で検出された黒塗りしていない認識対象画像の容器領域の画像とのそれぞれの差分抽出を行う。そして、S404で検出された黒塗りしていない認識対象画像の容器領域の画像のうち、差分となった差分領域(すなわち、食器ではない領域で、食べ残し等と推定される領域)を黒塗りした画像を、複数の食器の候補種別の分作成し、それらに対してもう一度S406の食器の種類判別を実行する。その結果得られた食器の種別として一番スコアの高い1つの種別を、検出された食器の種別として確定するようにしてもよい。すなわち、検出対象の画像(認識対象画像)と候補画像との差分から食べ残し部分を特定し、その部分を黒塗りして、推論処理を行うことも可能である。 Alternatively, the following processing may be performed. After the processing in S404, S405 is omitted, and tableware type determination in S406 is performed on the image of the container region of the recognition target image that is not blacked out and detected in S404. Then, a plurality of sample images corresponding to the plurality of candidate types (pre-stored images of tableware without foreign objects such as leftover food) and a recognition target image without blacking detected in S404 are used. Extract each difference between the image of the container area and the image of the container area. Then, among the images of the container area of the recognition target image that is not blacked out and detected in S404, the difference area that is the difference (that is, the area that is not tableware and is estimated to be leftover food, etc.) is blacked out. Images are created for a plurality of tableware candidate types, and the tableware type determination in S406 is performed once again on these images. As a result, one type of tableware with the highest score may be determined as the type of the detected tableware. That is, it is also possible to specify the uneaten portion from the difference between the detection target image (recognition target image) and the candidate image, black out the leftover portion, and perform inference processing.
なお、上述の実施形態では、図6のように食器を黒塗りする際、楕円形になるように黒塗りする例を説明したが、これに限るものではない。食器の形状に合わせて、黒塗りの形状を変更してもよい。例えば、食器の形状が四角形606である場合、それに合わせて黒塗りの形状を四角形にしてもよい。 In addition, in the above-mentioned embodiment, when painting the tableware black as shown in FIG. 6, an example was explained in which the black painting is done in an oval shape, but the invention is not limited to this. The shape of the black coating may be changed to match the shape of the tableware. For example, if the shape of the tableware is a rectangle 606, the black shape may be made into a rectangle to match the shape.
さらに、認識対象の食器とは異なるもの(食品)が写る可能性の高い食器の内側の一部領域を黒塗りする加工を施す例を説明したが、認識の根拠となる可能性を低減させることが可能な、画像別の特徴(差異)を低減させる加工であればこれに限るものではない。例えば、黒塗りすると説明した領域について、白一色や、青一色などの、任意の色の単色で塗りつぶす処理としてもよい。また、数ドットおきに黒と灰色が交互に現れるなどの、単純なパターン画像に置き換える処理などでもよい。 Furthermore, we have explained an example in which a part of the inside of the tableware is painted black, where there is a high possibility that something different from the recognition target tableware (food) will be captured, but this reduces the possibility that it will become the basis for recognition. The processing is not limited to this, as long as it is possible to reduce characteristics (differences) between images. For example, an area described as being painted black may be filled with any single color, such as all white or all blue. Alternatively, it may be replaced with a simple pattern image, such as black and gray appearing alternately every few dots.
また、黒塗りすると説明した領域について、画像の無い無画像領域としてもよい。食器の外接矩形に含まれる黒塗りすると説明した領域を除く中央に穴の開いた状態の画像を学習や推論に用いても良い。なお、学習時に用いた食器の画像と、推論時に用いる食器の画像における食器の形状が異なると、同じ種別であるはずの食器が別の種別であると判定される可能性が出てきてしまう。例えば、中央に穴の開いた食器の画像を学習させると、推論時に中央に穴の開いていない画像は異なる食器であると判定される可能性が高まる。その点で言えば、学習時に単色やパターンで塗りつぶす処理とすれば、形状自体は変わらないため、推論時に用いる画像の自由度が高まる(黒塗りを施さないそのままの画像を用いても効果的な推論を行える)。黒塗りの代わりに無画像領域としようとした場合、推論前には検出対象の画像に含まれる食器の種別は正確にはわかっていないわけであるから、推論時に学習時と同じ形状で無画像領域を切り出すことは難しい。すなわち、無画像領域としてしまうよりは、黒塗りなどの特徴のないパターンでの置き換えの方が効果的であると想定される。 Further, the area described as being painted black may be a non-image area without an image. An image with a hole in the center excluding the area described as being painted black that is included in the circumscribed rectangle of the tableware may be used for learning and inference. Note that if the shape of the tableware in the image of tableware used during learning differs from the shape of the tableware in the image of tableware used during inference, there is a possibility that tableware that should be of the same type will be determined to be of a different type. For example, if the system learns images of dishes with a hole in the center, there is a higher possibility that images without a hole in the center will be determined to be different dishes during inference. From that point of view, if the process is filled with a single color or a pattern during learning, the shape itself will not change, increasing the degree of freedom of the image used during inference (it is also effective to use the original image without blacking). can make inferences). If you try to use a blank area instead of blacking out, the type of tableware included in the image to be detected is not accurately known before inference, so during inference, the same shape as during learning and no image will be used. It is difficult to isolate areas. In other words, it is assumed that replacing the area with a pattern without characteristics, such as black painting, is more effective than leaving the area as a no-image area.
なお、上述の実施形態は、食器の種別の認識を行う例を説明したが、食器の種別の認識に限らず、検出対象の内側に、検出対象とは異なるものが存在する可能性がある場合に適用可能である。例えば、鍋の内部の食品や料理にかかわらず鍋自体の種別を画像から判別する学習済みモデルを生成したり、推論したりする際にも適用可能である。また、ビーカー、シャーレなどの実験に使う容器、薬品・化粧品・食品・飲料などが入れられる容器(瓶やコップなど)、荷物の容器(木箱・段ボール・樹脂容器など)の認識(検出)を行う場合にも適用可能である。いずれも、容器の中身にかかわらず、容器自体を精度良く認識(検出)することに寄与する。 In addition, although the above-mentioned embodiment explained the example of recognizing the type of tableware, the recognition is not limited to the recognition of the type of tableware, and it is possible that there is something different from the detection target inside the detection target. Applicable to For example, it can be applied to generate or infer a trained model that determines the type of pot itself from an image, regardless of the food or cooking inside the pot. It also recognizes (detects) containers used for experiments such as beakers and petri dishes, containers for medicines, cosmetics, food, drinks, etc. (bottles, cups, etc.), and cargo containers (wooden boxes, cardboard, resin containers, etc.). It is also applicable when Both contribute to highly accurate recognition (detection) of the container itself, regardless of the contents of the container.
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。 The present invention can be implemented as, for example, a system, an apparatus, a method, a program, a recording medium, or the like. Specifically, the present invention may be applied to a system consisting of a plurality of devices, or may be applied to a device consisting of a single device.
なお、CPU201が行うものとして説明した上述の各種制御は1つのハードウェアが行ってもよいし、複数のハードウェア(例えば、複数のプロセッサーや回路)が処理を分担することで、装置全体の制御を行ってもよい。
Note that the various controls described above as being performed by the
また、本発明をその好適な実施形態に基づいて詳述してきたが、本発明はこれら特定の実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の様々な形態も本発明に含まれる。さらに、上述した各実施形態は本発明の一実施形態を示すものにすぎず、各実施形態を適宜組み合わせることも可能である。 Further, although the present invention has been described in detail based on its preferred embodiments, the present invention is not limited to these specific embodiments, and the present invention may be applied to various forms without departing from the gist of the present invention. included. Furthermore, each of the embodiments described above is merely one embodiment of the present invention, and it is also possible to combine the embodiments as appropriate.
また、上述した実施形態においては、本発明をPCに適用した場合を例にして説明したが、これはこの例に限定されず黒塗り画像を生成できる装置であれば適用可能である。すなわち、本発明はPDA、携帯電話端末(スマートフォン)、タブレット端末などに適用可能である。 Furthermore, in the above-described embodiments, the present invention has been described as an example in which the present invention is applied to a PC, but the present invention is not limited to this example, and can be applied to any device that can generate a blacked-out image. That is, the present invention is applicable to PDAs, mobile phone terminals (smartphones), tablet terminals, and the like.
(他の実施形態)
本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)をネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(又はCPUやMPU等)がプログラムコードを読み出して実行する処理である。この場合、そのプログラム、及び該プログラムを記憶した記憶媒体は本発明を構成することになる。
(Other embodiments)
The present invention is also realized by performing the following processing. That is, the software (program) that realizes the functions of the embodiments described above is supplied to a system or device via a network or various storage media, and the computer (or CPU, MPU, etc.) of the system or device reads the program code. This is the process to be executed. In this case, the program and the storage medium storing the program constitute the present invention.
101 クライアント端末
107 ネットワーク
101
Claims (17)
前記取得手段で取得した前記容器領域の内側の一部領域に対して、他の画像との差異を低減する特定の加工を施す加工手段と、
前記加工手段で加工された画像を用いて学習処理を行うように制御する制御手段と
を備えることを特徴とする情報処理システム。 acquisition means for acquiring a container region including the container in the image;
processing means that performs specific processing on a partial area inside the container area acquired by the acquisition means to reduce differences from other images;
An information processing system comprising: a control means for performing a learning process using the image processed by the processing means.
前記制御手段は、前記加工手段で加工された画像を前記学習済みモデルに入力して推論処理を行うように制御することを特徴とする請求項6に記載の情報処理システム。 The processing means also performs the specific processing on a container region including the container in the recognition target image,
7. The information processing system according to claim 6, wherein the control means controls the image processed by the processing means to be input to the learned model and perform inference processing.
前記取得手段で取得した前記容器領域の内側の一部領域に対して、他の画像との差異を低減する特定の加工を施す加工手段と、
前記加工手段で加工された画像を用いて推論処理を行うように制御する制御手段と
を備えることを特徴とする情報処理システム。 acquisition means for acquiring a container region including the container in the image;
processing means that performs specific processing on a partial area inside the container area acquired by the acquisition means to reduce differences from other images;
An information processing system comprising: control means for controlling to perform inference processing using the image processed by the processing means.
前記取得ステップで取得した前記容器領域の内側の一部領域に対して、他の画像との差異を低減する特定の加工を施す加工ステップと、
前記加工ステップで加工された画像を用いて学習処理を行うように制御する制御ステップと
を備えることを特徴とする情報処理システムの制御方法。 an acquisition step of acquiring a container region including the container in the image;
a processing step of performing specific processing on a partial area inside the container area acquired in the acquisition step to reduce differences from other images;
A control method for an information processing system, comprising: a control step for performing a learning process using the image processed in the processing step.
前記取得ステップで取得した前記容器領域の内側の一部領域に対して、他の画像との差異を低減する特定の加工を施す加工ステップと、
前記加工ステップで加工された画像を用いて推論処理を行うように制御する制御ステップと
を備えることを特徴とする情報処理システムの制御方法。 an acquisition step of acquiring a container region including the container in the image;
a processing step of performing specific processing on a partial area inside the container area acquired in the acquisition step to reduce differences from other images;
A control method for an information processing system, comprising: a control step for performing inference processing using the image processed in the processing step.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022081259A JP7299542B1 (en) | 2022-05-18 | 2022-05-18 | Information processing system, its control method, and program |
JP2023097842A JP2023171366A (en) | 2022-05-18 | 2023-06-14 | Information processing system and control method thereof, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022081259A JP7299542B1 (en) | 2022-05-18 | 2022-05-18 | Information processing system, its control method, and program |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023097842A Division JP2023171366A (en) | 2022-05-18 | 2023-06-14 | Information processing system and control method thereof, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP7299542B1 JP7299542B1 (en) | 2023-06-28 |
JP2023169922A true JP2023169922A (en) | 2023-12-01 |
Family
ID=86900695
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022081259A Active JP7299542B1 (en) | 2022-05-18 | 2022-05-18 | Information processing system, its control method, and program |
JP2023097842A Pending JP2023171366A (en) | 2022-05-18 | 2023-06-14 | Information processing system and control method thereof, and program |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023097842A Pending JP2023171366A (en) | 2022-05-18 | 2023-06-14 | Information processing system and control method thereof, and program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP7299542B1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018008593A1 (en) * | 2016-07-04 | 2018-01-11 | 日本電気株式会社 | Image diagnosis learning device, image diagnosis device, image diagnosis method, and recording medium for storing program |
JP2018173814A (en) * | 2017-03-31 | 2018-11-08 | 富士通株式会社 | Image processing device, image processing method, image processing program and teacher data creating method |
JP2019023809A (en) * | 2017-07-24 | 2019-02-14 | クックパッド株式会社 | Information processing system, information processing method and information processing program |
JP2019079357A (en) * | 2017-10-26 | 2019-05-23 | Kddi株式会社 | Learning video selecting device, program and method for selecting, as learning video, shot video with predetermined image region masked |
JP2020087165A (en) * | 2018-11-29 | 2020-06-04 | 富士通株式会社 | Learning data generation program, learning data generation device, and learning data generation method |
JP2021086313A (en) * | 2019-11-26 | 2021-06-03 | キヤノン株式会社 | Analysis device and method, and photographing system |
JP2021096766A (en) * | 2019-12-19 | 2021-06-24 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing system, notification method, and program |
WO2021130888A1 (en) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | Learning device, estimation device, and learning method |
-
2022
- 2022-05-18 JP JP2022081259A patent/JP7299542B1/en active Active
-
2023
- 2023-06-14 JP JP2023097842A patent/JP2023171366A/en active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018008593A1 (en) * | 2016-07-04 | 2018-01-11 | 日本電気株式会社 | Image diagnosis learning device, image diagnosis device, image diagnosis method, and recording medium for storing program |
JP2018173814A (en) * | 2017-03-31 | 2018-11-08 | 富士通株式会社 | Image processing device, image processing method, image processing program and teacher data creating method |
JP2019023809A (en) * | 2017-07-24 | 2019-02-14 | クックパッド株式会社 | Information processing system, information processing method and information processing program |
JP2019079357A (en) * | 2017-10-26 | 2019-05-23 | Kddi株式会社 | Learning video selecting device, program and method for selecting, as learning video, shot video with predetermined image region masked |
JP2020087165A (en) * | 2018-11-29 | 2020-06-04 | 富士通株式会社 | Learning data generation program, learning data generation device, and learning data generation method |
JP2021086313A (en) * | 2019-11-26 | 2021-06-03 | キヤノン株式会社 | Analysis device and method, and photographing system |
JP2021096766A (en) * | 2019-12-19 | 2021-06-24 | キヤノンマーケティングジャパン株式会社 | Information processing device, information processing system, notification method, and program |
WO2021130888A1 (en) * | 2019-12-25 | 2021-07-01 | 日本電気株式会社 | Learning device, estimation device, and learning method |
Also Published As
Publication number | Publication date |
---|---|
JP7299542B1 (en) | 2023-06-28 |
JP2023171366A (en) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11487712B2 (en) | Digital image suitability determination to generate AR/VR digital content | |
US11501614B2 (en) | Skip-scanning identification method, apparatus, and self-service checkout terminal and system | |
TW201832137A (en) | Type Prediction Method, Apparatus and Electronic Device for Recognizing an Object in an Image | |
JP7191851B2 (en) | Planogram information generation device and planogram information generation program | |
US20120093360A1 (en) | Hand gesture recognition | |
CN109426835B (en) | Information processing apparatus, control method of information processing apparatus, and storage medium | |
KR20200124280A (en) | Motion recognition, driving motion analysis method and device, electronic device | |
US9721532B2 (en) | Color chart detection apparatus, color chart detection method, and color chart detection computer program | |
US8805077B2 (en) | Subject region detecting apparatus | |
US20170076428A1 (en) | Information processing apparatus | |
US20120257822A1 (en) | Image processing apparatus, image processing method, and computer readable medium | |
WO2019235554A1 (en) | Product specification device, program, and learning method | |
JP6874136B2 (en) | Image recognition device, image recognition method and program | |
JP2019220014A (en) | Image analyzing apparatus, image analyzing method and program | |
KR102622349B1 (en) | Electronic device and control method thereof | |
JP2023171366A (en) | Information processing system and control method thereof, and program | |
WO2022230639A1 (en) | Information processing device, information processing method, and program | |
US20220129690A1 (en) | Identification method, identification system, and non-transitory computer-readable storage medium storing a program | |
JP2016062564A (en) | Information processing device, and information processing program | |
US20230047614A1 (en) | Information processing apparatus, information processing method, and storage medium | |
CN112764565B (en) | Electronic device and object information identification method using touch data thereof | |
JP7510221B1 (en) | Terminal, system, method and program for recognizing container numbers | |
JP7163947B2 (en) | Projection area setting support method, setting support system, and program | |
US20230306630A1 (en) | Image analysis server, object counting method using image analysis server, and object counting syste | |
US20240087346A1 (en) | Detecting reliability using augmented reality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230207 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20230207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230529 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7299542 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |