JP2023064624A - 情報処理装置、画像表示方法、及び画像表示プログラム - Google Patents

情報処理装置、画像表示方法、及び画像表示プログラム Download PDF

Info

Publication number
JP2023064624A
JP2023064624A JP2021174999A JP2021174999A JP2023064624A JP 2023064624 A JP2023064624 A JP 2023064624A JP 2021174999 A JP2021174999 A JP 2021174999A JP 2021174999 A JP2021174999 A JP 2021174999A JP 2023064624 A JP2023064624 A JP 2023064624A
Authority
JP
Japan
Prior art keywords
article
image
card
unit
display
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021174999A
Other languages
English (en)
Inventor
嘉仁 岩堀
Yoshihito Iwabori
寛考 村上
Hirotaka Murakami
賢 奥田
Masaru Okuda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2021174999A priority Critical patent/JP2023064624A/ja
Publication of JP2023064624A publication Critical patent/JP2023064624A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Cash Registers Or Receiving Machines (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

【課題】新たな物品の追加に対して即座に対応することができる情報処理装置、画像表示方法、及び画像表示プログラムを提供する。【解決手段】情報処理装置10は、固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得する取得部11Aと、取得されたカード画像から固有の特徴部分を認識する認識部11Bと、予めカード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデル15Cを用いて、固有の特徴部分が認識されたカード画像に対して、物品についての最適な物品画像を生成する生成部11Cと、取得されたカード画像に代えて、生成された物品画像を表示部に表示する制御を行う表示制御部11Dと、を備える。【選択図】図4

Description

本発明は、情報処理装置、画像表示方法、及び画像表示プログラムに関する。
物体検出技術を用いたスマートレジの普及が進んでいる。スマートレジでは、ユーザが購入したい物品を持参して、スマートレジに備え付けのカメラで撮影することで、物品画像が取得される。そして、物品画像に対して物体検出技術(YOLO等)を適用することで、自動的に物品を認識して決済することができる。
例えば、特許文献1には、物体の大きさや向きを多角的に撮影した画像をデータ拡張させて機械学習する技術が記載されている。
特開2019-148980号公報
ところで、スマートレジにおける物体検出に際し、物体の大きさや向きを多角的に撮影した画像をデータ拡張させて機械学習させると学習量が多くなる。そのため、新たな物品が追加される都度、機械学習するのは難しく、新たな物品の追加に対して即座に対応することができない。
本発明は、以上の事実を考慮して成されたもので、新たな物品の追加に対して即座に対応することができる情報処理装置、画像表示方法、及び画像表示プログラムを提供することを目的とする。
上記目的を達成するために、請求項1に記載の情報処理装置は、固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得する取得部と、前記取得部により取得された前記カード画像から前記固有の特徴部分を認識する認識部と、予め前記カード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデルを用いて、前記認識部により前記固有の特徴部分が認識された前記カード画像に対して、前記物品についての最適な物品画像を生成する生成部と、前記取得部により取得された前記カード画像に代えて、前記生成部により生成された前記物品画像を表示部に表示する制御を行う表示制御部と、を備える。
請求項1に記載の発明によれば、カード画像を入力として、最適な物品画像を生成して出力する学習済みモデルが用いられる。様々な形状の物品自体を多角的に撮影して認識する場合と比較して、認識が容易な単純なカード媒体に物品を対応付ければよいため、学習量を低減し、新たな物品の追加に対して即座に対応することができる。また、ユーザが物品画像を目視しながら、購入することができるため、購入間違いを防止することができる。
また、請求項2に記載の情報処理装置は、請求項1に記載の情報処理装置において、前記認識部が、予め固有の特徴部分が異なる複数種類のカード媒体を撮影して得られたカード画像群を、固有の特徴部分を表すラベルに対応付けて機械学習することにより生成された特徴認識モデルを用いて、前記取得部により取得された前記カード画像から前記固有の特徴部分を認識する。
請求項2に記載の発明によれば、カード画像群を含めて機械学習させることにより生成され、かつ、カード画像を入力として、固有の特徴部分を認識して出力する特徴認識モデルを用いることで、新たな物品の追加に即座に対応することができる。
また、請求項3に記載の情報処理装置は、請求項2に記載の情報処理装置において、前記認識部により認識された前記固有の特徴部分を表すラベルを、前記生成部により生成された前記物品画像の前記物品を表すラベルに変更する変更部を更に備え、前記表示制御部が、前記変更部により変更された前記物品を表すラベルを、前記物品画像と共に前記表示部に表示する制御を行う。
請求項3に記載の発明によれば、カード画像の固有の特徴部分を表すラベルを、物品画像の物品を表すラベルに変更するだけで、新たな物品の追加に対して即座に対応することができる。
また、請求項4に記載の情報処理装置は、請求項3に記載の情報処理装置において、前記表示制御部が、更に、前記変更部により変更された前記物品を表すラベルに基づいて、前記物品の物品名及び金額を含む物品情報を前記表示部に表示する制御を行う。
請求項4に記載の発明によれば、変更された物品画像の物品を表すラベルに対応する物品情報を表示することにより、ユーザが物品についての物品情報を把握することができる。
また、請求項5に記載の情報処理装置は、請求項1~請求項3の何れか1項に記載の情報処理装置において、前記生成部により生成された前記物品画像に対して物体検出技術を適用して物品を検出する検出部を更に備え、前記表示制御部が、前記検出部による検出結果に基づいて、前記物品の物品名及び金額を含む物品情報を前記表示部に表示する制御を行う。
請求項5に記載の発明によれば、物体検出技術を用いて物品画像から検出された物品に対応する物品情報を表示することにより、ユーザが物品についての物品情報を把握することができる。
また、請求項6に記載の情報処理装置は、請求項5に記載の情報処理装置において、前記検出部が、予め複数種類の物品を撮影して得られた物品画像群を、物品を表すラベルに対応付けて機械学習することにより生成された物品検出モデルを用いて、前記生成部により生成された前記物品画像から前記物品を検出する。
請求項6に記載の発明によれば、物品画像群を含めて機械学習させることにより生成され、かつ、物品画像を入力として、物品を検出して出力する物品検出モデルを用いることで、カード媒体を用いることなく、新たな物品の追加に対応することができる。
また、請求項7に記載の情報処理装置は、請求項6に記載の情報処理装置において、前記物品検出モデルが、前記学習データ群に含まれる物品画像を追加して再学習されたモデルである。
請求項7に記載の発明によれば、学習データ群に含まれる物品画像を追加して再学習された物品検出モデルを用いることで、カード媒体を用いることなく、新たな物品の追加に対応することができる。
また、請求項8に記載の情報処理装置は、請求項1~請求項7の何れか1項に記載の情報処理装置において、前記学習済みモデルが、敵対的生成ネットワークのモデルである。
請求項8に記載の発明によれば、学習済みモデルとして敵対的生成ネットワークを用いて、カード画像に対して最適な物品画像を生成することにより、学習量を低減し、新たな物品の追加に対して即座に対応することができる。
更に、上記目的を達成するために、請求項9に記載の画像表示方法は、固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得し、前記取得された前記カード画像から前記固有の特徴部分を認識し、予め前記カード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデルを用いて、前記固有の特徴部分が認識された前記カード画像に対して、前記物品についての最適な物品画像を生成し、前記取得された前記カード画像に代えて、前記生成された前記物品画像を表示部に表示する制御を行う。
請求項9に記載の発明によれば、上記請求項1と同様に、カード画像を入力として、最適な物品画像を生成して出力する学習済みモデルが用いられる。様々な形状の物品自体を多角的に撮影して認識する場合と比較して、認識が容易な単純なカード媒体に物品を対応付ければよいため、学習量を低減し、新たな物品の追加に対して即座に対応することができる。また、ユーザが物品画像を目視しながら、購入することができるため、購入間違いを防止することができる。
更に、上記目的を達成するために、請求項10に記載の画像表示プログラムは、固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得し、前記取得された前記カード画像から前記固有の特徴部分を認識し、予め前記カード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデルを用いて、前記固有の特徴部分が認識された前記カード画像に対して、前記物品についての最適な物品画像を生成し、前記取得された前記カード画像に代えて、前記生成された前記物品画像を表示部に表示する制御を行うことを、コンピュータに実行させる。
請求項10に記載の発明によれば、上記請求項1と同様に、カード画像を入力として、最適な物品画像を生成して出力する学習済みモデルが用いられる。様々な形状の物品自体を多角的に撮影して認識する場合と比較して、認識が容易な単純なカード媒体に物品を対応付ければよいため、学習量を低減し、新たな物品の追加に対して即座に対応することができる。また、ユーザが物品画像を目視しながら、購入することができるため、購入間違いを防止することができる。
以上説明したように、本発明によれば、新たな物品の追加に対して即座に対応することができる、という効果が得られる。
実施形態に係る画像表示システムの構成の一例を示す図である。 実施形態に係る複数種類のカード媒体の一例を示す図である。 実施形態に係る情報処理装置の電気的な構成の一例を示すブロック図である。 実施形態に係る情報処理装置の機能的な構成の一例を示すブロック図である。 実施形態に係る学習済みモデルの学習に用いる学習データ群の一例を示す図である。 実施形態に係る物品情報DBの一例を示す図である。 実施形態に係る表示部の画面遷移の一例を示す図である。 実施形態に係る画像表示プログラムによる画像表示処理の流れの一例を示すフローチャートである。 実施形態に係る画像表示プログラムによる学習処理の流れの一例を示すフローチャートであり、特徴認識モデルを生成する処理を示す。 実施形態に係る画像表示プログラムによる別の学習処理の流れの一例を示すフローチャートであり、学習済みモデルを生成する処理を示す。 実施形態に係る物品の撮影方法の説明に供する図である。 実施形態に係る画像表示プログラムによる更に別の学習処理の流れの一例を示すフローチャートであり、物品検出モデルの再学習処理を示す。
以下、図面を参照して、本開示の技術を実施するための形態の一例について詳細に説明する。なお、動作、作用、機能が同じ働きを担う構成要素及び処理には、全図面を通して同じ符号を付与し、重複する説明を適宜省略する場合がある。各図面は、本開示の技術を十分に理解できる程度に、概略的に示してあるに過ぎない。よって、本開示の技術は、図示例のみに限定されるものではない。また、本実施形態では、本発明と直接的に関連しない構成や周知な構成については、説明を省略する場合がある。
図1は、本実施形態に係る画像表示システム100の構成の一例を示す図である。
図1に示すように、本実施形態に係る画像表示システム100は、情報処理装置10と、カメラ30と、読取器40と、特徴認識モデル15Bと、学習済みモデル15Cと、物品検出モデル15Dと、物品情報DB(DataBase:データベース)15Eと、備えている。なお、特徴認識モデル15B及び物品検出モデル15Dは、別々のモデルとして示しているが、例えば、YOLO等の1つの物体検出モデルとして実現してもよい。
図2は、本実施形態に係る複数種類のカード媒体の一例を示す図である。
図2に示すように、本実施形態に係るカード媒体Ac1、Ac2、Ac3、・・・の各々は、固有の特徴部分が異なる複数種類のカード状の媒体である。固有の特徴部分は、例えば、絵柄、文字等で表され、図2の例では、カード媒体Ac1が「青色の矩形」のカードとされ、カード媒体Ac2が「赤色の円形」のカードとされ、カード媒体Ac3が「黄色の星形」のカードとされる。また、カード媒体Ac1、Ac2、Ac3、・・・の各々には、固有の特徴部分を表すラベルが割り当てられている。具体的に、カード媒体Ac1には「青色の矩形」を表すラベル「Visitor001」が割り当てられ、カード媒体Ac2には「赤色の円形」を表すラベル「Visitor002」が割り当てられ、カード媒体Ac3には「黄色の星形」を表すラベル「Visitor003」が割り当てられている。なお、これら複数種類のカード媒体Ac1、Ac2、Ac3、・・・を特に区別する必要がない場合には、単にカード媒体Acと表す。
本実施形態に係る画像表示システム100は、ある事業所内で従業員が利用する購買ストア等に設置されるスマートレジに適用された場合について示している。画像表示システム100では、新しく入荷した物品Bpに対応させる複数枚のカード媒体Acが予め準備され、物品Bpの売場には対応する複数枚のカード媒体Acが置かれている。新しく入荷した物品Bpが複数個ある場合には、複数個の物品Bpの各々に対して固有の特徴部分が異なるカード媒体Acが準備される。図1の例では、ウエス売場には、ウエスを表す物品Bp、及び「青色の矩形」を表す複数枚のカード媒体Acが置かれている。
ユーザは物品Bpを購入する際に、物品Bp及びカード媒体Acをスマートレジに持参する。なお、物品Bpを複数個購入する場合には、複数枚のカード媒体Acを持参すればよい。そして、ユーザがカード媒体Acをカメラ30にかざすと、カメラ30はカード媒体Acを撮影してカード画像Agを情報処理装置10に送信する。カメラ30は、静止画及び動画を撮影可能なカメラである。
情報処理装置10は、カメラ30及び読取器40の各々と接続されている。情報処理装置10には、例えば、汎用的なサーバコンピュータ、パーソナル・コンピュータ(PC:Personal Computer)等が適用される。情報処理装置10は、特徴認識モデル15Bを用いて、カメラ30から取得したカード画像Agから固有の特徴部分を認識し、学習済みモデル15Cを用いて、固有の特徴部分が認識されたカード画像Agに対して最適な物品画像Bgを生成し、生成した物品画像Bgを表示部16に表示する。ここでいう「最適な物品画像」とは、物品の形状を検出し易い画像であり、ユーザから見ても物品を把握し易い画像であることを意味し、例えば、適切なサイズで物品を正面から見た画像等である。このとき、カード画像Agの固有の特徴部分の位置を認識し、認識した位置に物品画像Bgの物品Bpを置き換えて表示する。また、カード画像Agの固有の特徴部分を表すラベルを、物品画像Bgの物品Bpを表すラベルに変更する。図1の例では、カード画像Agのラベル「Visitor001」を、物品画像Bgのラベル「ウエス」に変更する。
そして、情報処理装置10は、変更されたラベル(図1の例では、ラベル「ウエス」)に基づいて、物品情報DB15Eを参照し、物品情報DB15Eから得られた、物品Bpに関する物品情報(物品名、金額等)を表示部16に表示する。ユーザは物品情報を確認し、自身の従業員証を読取器40にかざす。
読取器40は、ユーザによってかざされた従業員証を読み取り、読み取って得られた従業員情報を情報処理装置10に送信する。情報処理装置10は、読取器40から取得した従業員情報を用いて、検出した物品Bpの決済を行う。
一方、ユーザは物品Bp以外の既存の物品(以下、「既存物品」という。)を購入する場合、既存物品をスマートレジに持参する。既存物品は、物品検出モデル15Dによって既存物品を表すラベルに対応付けて予め学習されている。ユーザが既存物品をカメラ30で撮影可能な所定の位置に載置すると、カメラ30は既存物品を撮影して既存物品画像を情報処理装置10に送信する。情報処理装置10は、物品検出モデル15Dを用いて、カメラ30から取得した既存物品画像から既存物品を検出し、検出した既存物品に基づいて、物品情報DB15Eを参照し、物品情報DB15Eから得られた、既存物品に関する物品情報(物品名、金額等)を表示部16に表示する。なお、本実施形態に係る画像表示システム100では、新規の物品Bp及び物品Bp以外の既存物品を同時に購入することも可能である。
本実施形態によれば、新規の物品Bpを購入する場合に、物品Bpそのものを認識するのではなく、物品Bpに対応付けたカード媒体Acを認識する。カード媒体Acの特徴部分は単純であるため、認識し易く、多くの学習を必要としない。また、カード画像Agから最適な物品画像Bgを生成するための機械学習には後述する敵対的生成ネットワーク(Generative Adversarial Networks:GAN)が用いられる。この敵対的生成ネットワーク(GAN)についても多くの学習を必要としない。このため、物体検出技術の一つであるYOLO等を用いて物品自体を認識する場合と比較して、学習量が低減され、スマートレジのサービスを止めることなく、新たな物品の追加に対して即座に対応することができる。
本実施形態では、新規物品については、学習済みモデル15Cを用いて、カード画像に対して最適な物品画像を生成する。一方、既に販売中の既存物品については、YOLO等の物品検出モデル15Dを用いて、物品画像から物品を検出する。ここで、学習済みモデル15Cの学習に用いる学習データ群には、新規物品の物品画像が含まれる。これらの新規物品の物品画像は物品検出モデル15Dに反映され、新規物品の物品画像を学習データとして追加して物品検出モデル15Dを再学習する。物品検出モデル15Dが再学習された場合、新規物品自体を認識することが可能となるため、カード媒体を不要としてもよい。例えば、新規物品のカード媒体がなくなる(あるいは残り数枚になる)頃に、新規物品について再学習済みの物品検出モデル15Dに切り替え、カード媒体に代えて、物品自体を撮影して得られる物品画像から対応する物品を検出してもよい。
図3は、本実施形態に係る情報処理装置10の電気的な構成の一例を示すブロック図である。
図3に示すように、本実施形態に係る情報処理装置10は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、入出力インタフェース(I/O)14と、記憶部15と、表示部16と、操作部17と、通信部18と、外部インタフェース(外部I/F)19と、を備えている。
CPU11、ROM12、RAM13、及びI/O14は、バスを介して各々接続されている。I/O14には、記憶部15と、表示部16と、操作部17と、通信部18と、外部I/F19と、を含む各機能部が接続されている。これらの各機能部は、I/O14を介して、CPU11と相互に通信可能とされる。
CPU11、ROM12、RAM13、及びI/O14によって制御部が構成される。制御部は、情報処理装置10の一部の動作を制御するサブ制御部として構成されてもよいし、情報処理装置10の全体の動作を制御するメイン制御部の一部として構成されてもよい。制御部の各ブロックの一部又は全部には、例えば、LSI(Large Scale Integration)等の集積回路又はIC(Integrated Circuit)チップセットが用いられる。上記各ブロックに個別の回路を用いてもよいし、一部又は全部を集積した回路を用いてもよい。上記各ブロック同士が一体として設けられてもよいし、一部のブロックが別に設けられてもよい。また、上記各ブロックのそれぞれにおいて、その一部が別に設けられてもよい。制御部の集積化には、LSIに限らず、専用回路又は汎用プロセッサを用いてもよい。
記憶部15としては、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等が用いられる。記憶部15には、本実施形態に係る画像表示プログラム15Aが記憶される。なお、この画像表示プログラム15Aは、ROM12に記憶されていてもよい。
画像表示プログラム15Aは、例えば、情報処理装置10に予めインストールされていてもよい。画像表示プログラム15Aは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布して、情報処理装置10に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
表示部16には、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro Luminescence)ディスプレイ等が用いられる。表示部16は、タッチパネルを一体的に有しており、タッチパネルを介してユーザからの操作入力を受け付ける。操作部17には、キーボード、マウス等の入力デバイスが設けられる。
通信部18は、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)等のネットワークに接続するための通信インタフェースであり、外部機器との間でネットワークを介して通信が可能とされる。
外部I/F19は、カメラ30及び読取器40の各々と接続するためのインタフェースであり、例えば、USB(Universal Serial Bus)等が適用される。
本実施形態に係る情報処理装置10のCPU11は、記憶部15に記憶されている画像表示プログラム15AをRAM13に書き込んで実行することにより、図4に示す各部として機能する。
図4は、本実施形態に係る情報処理装置10の機能的な構成の一例を示すブロック図である。
図4に示すように、本実施形態に係る情報処理装置10のCPU11は、取得部11A、認識部11B、生成部11C、表示制御部11D、変更部11E、検出部11F、及び学習部11Gとして機能する。
記憶部15には、特徴認識モデル15B、学習済みモデル15C、物品検出モデル15D、及び物品情報DB15Eが記憶されている。なお、これらの特徴認識モデル15B、学習済みモデル15C、物品検出モデル15D、及び物品情報DB15Eは、アクセス可能な外部の記憶装置に記憶しておいてもよい。
特徴認識モデル15Bは、予め固有の特徴部分が異なる複数種類のカード媒体Ac1、Ac2、Ac3、・・・(上述の図2参照)を撮影して得られたカード画像群を、固有の特徴部分を表すラベルに対応付けて機械学習することにより生成されたモデルである。特徴認識モデル15Bには、例えば、公知のCNN(Convolutional Neural Network:畳み込みニューラルネットワーク)、R-CNN(Region-based-CNN)、YOLO、SSD(Single Shot multibox Detector)等の各種のモデルが用いられるが、他の物体検出技術を用いてもよい。機械学習の学習手法には、例えば、ディープラーニングが用いられる。特徴認識モデル15Bは、カード画像Agが入力されると、カード画像Agの固有の特徴部分(例えば、青色の矩形)を表すラベル(例えば、Visitor001)を出力する。
図5は、本実施形態に係る学習済みモデル15Cの学習に用いる学習データ群の一例を示す図である。
図5に示すように、学習済みモデル15Cは、予めカード媒体Acを撮影して得られたカード画像Agと、予め物品Bpを撮影して得られた物品画像Bgとをペアとする学習データ群を機械学習することにより生成されたモデルである。学習済みモデル15Cには、例えば、敵対的生成ネットワーク(GAN)のモデルが用いられる。より具体的には、Conditional GANの一種であるpix2pixが用いられる。このpix2pixは、GANを利用した画像生成アルゴリズムの一種で、2つのペアの画像から画像間の関係を学習することで、1枚の画像からその関係を考慮した補間をしてペアの画像を生成する手法である。カード媒体Acは例えば「青色の矩形」のカードであり、物品Bpは例えば「ウエス」である。
学習データとしてのカード画像Agは、所定のデータ拡張(例えば、拡大、縮小、回転、ノイズ付加等)が施され、撮影された数枚の静止画像から多くの画像が生成される。同様に、学習データとしての物品画像Bgは、所定のデータ拡張が施され、撮影された数枚の静止画像から多くの画像が生成される。これにより、多くのカード画像Agと物品画像Bgとのペアが学習データ群として生成される。学習済みモデル15Cは、カード画像Ag(つまり、カード画像Agの固有の特徴部分を表すラベル)を入力として、最適な物品画像Bgを生成して出力する。例えば、「青色の矩形」を表すラベル「Visitor001」に対して、最適なウエスの画像を出力する。機械学習の学習手法には、例えば、ディープラーニングが用いられる。
物品検出モデル15Dは、予め複数種類の物品(例えば、ウエス、テープ、電池等)を撮影して得られた物品画像群を、物品を表すラベルに対応付けて機械学習することにより生成されたモデルである。物品検出モデル15Dには、例えば、公知のCNN、R-CNN、YOLO、SSD等の各種モデルが用いられるが、他の物体検出技術を用いてもよい。機械学習の学習手法には、例えば、ディープラーニングが用いられる。物品検出モデル15Dは、物品画像が入力されると、物品画像の物品を表すラベルを出力する。
図6は、本実施形態に係る物品情報DB15Eの一例を示す図である。
図6に示す物品情報DB15Eには、物品に関する物品情報として、物品を表すラベル、物品名、型番、及び金額が登録されている。
取得部11Aは、カメラ30によってカード媒体Acを撮影して得られたカード画像Agを取得する。
認識部11Bは、取得部11Aにより取得されたカード画像Agから固有の特徴部分を認識する。具体的には、カード画像Agを特徴認識モデル15Bに入力し、特徴認識モデル15Bから固有の特徴部分(例えば、青色の矩形)を表すラベル(例えば、Visitor001)を出力する。
生成部11Cは、学習済みモデル15Cを用いて、認識部11Bにより固有の特徴部分が認識されたカード画像Agに対して、最適な物品画像Bgを生成する。具体的に、カード画像Ag(例えば、青色の矩形を表す画像)を学習済みモデル15Cに入力し、学習済みモデル15Cから物品画像Bg(例えば、ウエスの画像)を出力する。
表示制御部11Dは、取得部11Aにより取得されたカード画像Agに代えて、生成部11Cにより生成された物品画像Bgを表示部16に表示する制御を行う。
変更部11Eは、認識部11Bにより認識された固有の特徴部分を表すラベルを、生成部11Cにより生成された物品画像Bgの物品Bpを表すラベルに変更する。例えば、カード画像Agのラベル「Visitor001」を、物品画像Bgのラベル「ウエス」に変更する。この場合、表示制御部11Dは、変更部11Eにより変更された物品Bpを表すラベルを、物品画像Bgと共に表示部16に表示する制御を行う。つまり、物品Bpに対して、ラベルを変更するだけで、物品検出を行うことなく、物品Bpが特定される。
検出部11Fは、生成部11Cにより生成された物品画像Bgに対して物体検出技術を適用して物品Bpを検出する。具体的に、検出部11Fは、物体検出技術の一例である物品検出モデル15Dを用いて、生成部11Cにより生成された物品画像Bgから物品Bpを検出する。物品検出モデル15Dは、学習済みモデル15Cの学習に用いた学習データ群に含まれる物品画像を追加して再学習されたモデルである。つまり、物品検出モデル15Dが再学習された場合、新規物品自体を認識することが可能となるため、カード媒体を不要としてもよい。例えば、新規物品のカード媒体がなくなる(あるいは残り数枚になる)頃に、新規物品について再学習済みの物品検出モデル15Dに切り替え、カード媒体に代えて、物品自体を撮影して得られる物品画像から対応する物品を検出してもよい。この場合、表示制御部11Dは、検出部11Fによる検出結果に基づいて、物品の物品名及び金額を含む物品情報を表示部16に表示する制御を行う。
表示制御部11Dは、変更部11Eにより変更された物品Bpを表すラベル、又は、検出部11Fにより検出された物品Bpを表すラベルに基づいて、物品情報DB15Eを参照し、物品Bpを表すラベルに対応する物品名及び金額を含む物品情報を取得し、取得した物品情報を表示部16に表示する制御を行う。なお、物品Bpの個数は、カード媒体Acの枚数によって定めてもよいし、ユーザが入力することで定めてもよい。
図7は、本実施形態に係る表示部16の画面遷移の一例を示す図である。
図7に示すように、学習済みモデル15Cを用いて、固有の特徴部分が認識されたカード画像Agに対して最適な物品画像Bgが生成された場合、表示部16には物品画像表示画面16Aが表示される。物品画像表示画面16Aには、生成された物品画像Bgが表示されると共に、「物品情報を提示しますか。」というメッセージ、「はい」ボタン、及び「いいえ」ボタンが表示される。なお、物品画像Bgのラベルは、固有の特徴部分を表すラベル(例えば、Visitor001)から物品Bpを表すラベル(例えば、ウエス)に変更されている。
次に、物品画像表示画面16Aにおいてユーザが「はい」ボタンを押圧すると、物品Bpを表すラベルに基づいて、一例として、上述の図6に示す物品情報DB15Eが参照され、物品Bpに対応する物品情報が取得される。この結果、表示部16には物品情報表示画面16Bが表示される。物品情報表示画面16Bには、物品画像Bg及び物品情報が表示されると共に、「物品情報を確認の上、決済される場合には従業員証をかざして下さい。」というメッセージが表示される。
次に、物品情報表示画面16Bが表示された状態で、ユーザが読取器40に従業員証をかざすと、従業員証から従業員情報が読み取られる。この結果、表示部16には決済画面16Cが表示される。決済画面16Cには、物品画像Bg、物品情報、及び従業員情報が表示されると共に、「完了」ボタン及び「中止」ボタンが表示される。ユーザが「完了」ボタンを押圧すると、物品Bpの決済が完了する。
学習部11Gは、特徴認識モデル15B、学習済みモデル15C、及び物品検出モデル15Dを生成するための機械学習を行う。なお、本実施形態では、学習部11Gを情報処理装置10が備える構成として示しているが、学習部11Gを別の情報処理装置に備えるようにしてもよい。この場合、情報処理装置10は、別の情報処理装置から、これらの特徴認識モデル15B、学習済みモデル15C、及び物品検出モデル15Dを取得する。
次に、図8を参照して、本実施形態に係る情報処理装置10の作用を説明する。
図8は、本実施形態に係る画像表示プログラム15Aによる画像表示処理の流れの一例を示すフローチャートである。
まず、新規物品(物品Bp)の購入時に新規物品に対応するカード媒体Acがカメラ30にかざされた場合に、情報処理装置10に対して画像表示処理の指示がなされ、画像表示プログラム15Aが起動され、以下の各処理を実行する。
図8のステップS101では、CPU11が、カード媒体Acをカメラ30で撮影して得られたカード画像Agを取得する。
ステップS102では、CPU11が、特徴認識モデル15Bを用いて、ステップS101で取得したカード画像Agから固有の特徴部分を認識する。具体的に、特徴認識モデル15Bは、カード画像Agが入力されると、カード画像Agの固有の特徴部分(例えば、青色の矩形)を表すラベル(例えば、Visitor001)を出力する。
ステップS103では、CPU11が、学習済みモデル15Cを用いて、ステップS102で固有の特徴部分が認識されたカード画像Agに対して最適な物品画像Bgを生成する。「最適な物品画像」とは、上述したように、物品の形状を検出し易い画像であり、ユーザから見ても物品を把握し易い画像であることを意味し、例えば、適切なサイズで物品を正面から見た画像等である。具体的に、例えば、青色の矩形のカードと認識されたカード画像Agが入力されると、ウエスを表す物品画像Bgを出力する。
ステップS104では、CPU11が、ステップS102で認識した固有の特徴部分を表すラベルを、ステップS103で生成した物品画像Bgの物品Bpを表すラベルに変更する。例えば、カード画像Agのラベル「Visitor001」を、物品画像Bgのラベル「ウエス」に変更する。
ステップS105では、CPU11が、カード画像Agに代えて、ステップS103で生成した物品画像Bgを、ステップS104で変更したラベルと共に表示部16に表示する制御を行う(例えば、上述の図7に示す物品画像表示画面16Aを参照)。このとき、カード画像Agの固有の特徴部分の位置を認識し、認識した位置に物品画像Bgの物品Bpを置き換える。なお、物品画像Bgのラベルは、固有の特徴部分を表すラベル(例えば、Visitor001)から物品Bpを表すラベル(例えば、ウエス)に変更されている。
ステップS106では、CPU11が、ステップS104で変更された物品Bpを表すラベルに基づいて、一例として、上述の図6に示す物品情報DB15Eを参照し、物品情報DB15Eから、ラベルに対応する物品名、型番、及び金額を含む物品情報を取得し、取得した物品情報を表示部16に表示する制御を行う(例えば、上述の図7に示す物品情報表示画面16Bを参照)。なお、物品Bpの個数は、カード媒体Acの枚数によって定めてもよいし、ユーザが入力することで定めてもよい。
ステップS107では、CPU11が、ユーザの従業員証が読取器40によって読み取られたか否かを判定する。ユーザの従業員証が読取器40によって読み取られたと判定した場合(肯定判定の場合)、ステップS108に移行し、ユーザの従業員証が読取器40によって読み取られていないと判定した場合(否定判定の場合)、ステップS107で待機となる。
ステップS108では、CPU11が、ステップS107でユーザの従業員証を読み取って得られた従業員情報を表示部16に表示する制御を行う(例えば、上述の図7に示す決済画面16Cを参照)。決済画面16Cでは、ユーザにより「完了」ボタンが押圧されると決済処理が完了となる。
ステップS109では、CPU11が、学習済みモデル15Cの学習に用いた学習データ群に含まれる物品画像Bgを、物品検出モデル15Dの再学習用の学習データとして記憶部15に記憶し、本画像表示プログラム15Aによる画像表示処理を終了する。このように、新たに入荷された物品Bpの物品画像Bgは物品検出モデル15Dに反映され、物品画像Bgを学習データとして追加して物品検出モデル15Dが再学習される。物品検出モデル15Dが再学習された場合、物品Bp自体を認識することが可能となるため、カード媒体Acを不要としてもよい。例えば、物品Bpのカード媒体Acがなくなる(あるいは残り数枚になる)頃に、物品Bpについて再学習済みの物品検出モデル15Dに切り替え、カード媒体Acに代えて、物品Bp自体を撮影して得られる物品画像から対応する物品を検出してもよい。
次に、図9~図12を参照して、本実施形態に係る情報処理装置10の学習処理について説明する。
図9は、本実施形態に係る画像表示プログラム15Aによる学習処理の流れの一例を示すフローチャートであり、特徴認識モデル15Bを生成する処理を示す。
図9のステップS111では、CPU11が、固有の特徴部分が異なる複数種類のカード媒体Ac1、Ac2、Ac3、・・・(上述の図2参照)を撮影して得られたカード画像群を取得する。
ステップS112では、CPU11が、ステップS111で取得したカード画像群を、固有の特徴部分を表すラベルに対応付けて機械学習する。機械学習を行う学習モデルには、例えば、公知のCNN、R-CNN、YOLO、SSD等の各種のモデルが用いられる。なお、機械学習に際しては、カード画像に対してデータ拡張(拡大、縮小、回転、ノイズ付加等)を行い、学習データを増加させることが望ましい。
ステップS113では、CPU11が、ステップS112で行った機械学習により、カード画像Agを入力として、固有の特徴部分を表すラベルを出力する特徴認識モデル15Bを生成する。
ステップS114では、CPU11が、ステップS113で生成した特徴認識モデル15Bを記憶部15に記憶し、本画像表示プログラム15Aによる学習処理を終了する。
図10は、本実施形態に係る画像表示プログラム15Aによる別の学習処理の流れの一例を示すフローチャートであり、学習済みモデル15Cを生成する処理を示す。
図10のステップS121では、CPU11が、固有の特徴部分を有するカード媒体Acを撮影して得られた複数(数枚)のカード画像Agを取得する。
ステップS122では、CPU11が、対応する物品Bpを撮影して得られた複数(数枚)の物品画像Bgを取得する。
図11は、本実施形態に係る物品Bpの撮影方法の説明に供する図である。
図11に示すように、カメラ30の直下に載置台31が設けられている。載置台31は、物品Bpを載置する台である。載置台31は、光源(図示省略)が内蔵されており、載置された物品Bpの背後から光を照射することができる。カメラ30によって載置台31に載置された物品Bpを撮影する際に、物品Bpの背後から光を照射して輪郭を強調しつつ、カメラ30の撮影角度を調整することで、3次元の特徴量を取得することが可能とされる。
ステップS123では、CPU11が、ステップS121で取得した複数のカード画像Agに対して、所定のデータ拡張処理(例えば、拡大、縮小、回転、ノイズ付加等)を施し、撮影された数枚の静止画像から多くの画像を生成する。同様に、ステップS122で取得した複数の物品画像Bgに対して、所定のデータ拡張処理を施し、撮影された数枚の静止画像から多くの画像を生成する。これにより、多くのカード画像Agと物品画像Bgとのペアを学習データ群として生成する。
ステップS124では、CPU11が、ステップS123で生成した学習データ群(カード画像と物品画像のペア)を機械学習する。機械学習を行う学習モデルには、例えば、Conditional GANの一種であるpix2pixが用いられる。
ステップS125では、CPU11が、ステップS124で行った機械学習により、カード画像Agを入力として、最適な物品画像Bgを生成して出力する学習済みモデル15Cを生成する。
ステップS126では、CPU11が、ステップS125で生成した学習済みモデル15Cを記憶部15に記憶し、本画像表示プログラム15Aによる学習処理を終了する。
図12は、本実施形態に係る画像表示プログラム15Aによる更に別の学習処理の流れの一例を示すフローチャートであり、物品検出モデル15Dの再学習処理を示す。
図12のステップS131では、CPU11が、学習済みモデル15Cの学習に用いた学習データ群に含まれる物品画像Bg(新規の物品画像)を、物品検出モデル15Dの再学習用の学習データとして追加する。
ステップS132では、CPU11が、ステップS131で追加した物品画像Bgを、物品を表すラベルに対応付けて物品検出モデル15Dを再学習する。物品検出モデル15Dには、例えば、公知のCNN、R-CNN、YOLO、SSD等の各種のモデルが用いられる。
ステップS133では、CPU11が、ステップS132で再学習した物品検出モデル15Dを記憶部15に記憶し、本画像表示プログラム15Aによる再学習処理を終了する。
以上説明したように、本実施形態によれば、新規物品を購入する場合に、新規物品そのものを認識するのではなく、新規物品に対応付けたカード媒体を認識する。カード媒体の特徴部分は単純であるため、認識し易く、多くの学習を必要としない。また、カード画像から最適な物品画像を生成するための機械学習には敵対的生成ネットワーク(GAN)が用いられるため、これについても多くの学習を必要としない。このため、物体検出技術の一つであるYOLO等を用いて物品自体を認識する場合と比較して、学習量が低減され、スマートレジのサービスを止めることなく、新規物品の追加に対して即座に対応することができる。
なお、上記各実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えば、CPU:Central Processing Unit、等)や、専用のプロセッサ(例えば、GPU:Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA:Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。
また、上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は、上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
以上、実施形態に係る情報処理装置を例示して説明した。実施形態は、情報処理装置の機能をコンピュータに実行させるためのプログラムの形態としてもよい。実施形態は、これらのプログラムを記憶したコンピュータが読み取り可能な非一時的記憶媒体の形態としてもよい。
その他、上記実施形態で説明した情報処理装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 情報処理装置
11 CPU
11A 取得部
11B 認識部
11C 生成部
11D 表示制御部
11E 変更部
11F 検出部
11G 学習部
12 ROM
13 RAM
14 I/O
15 記憶部
15A 画像表示プログラム
15B 特徴認識モデル
15C 学習済みモデル
15D 物品検出モデル
15E 物品情報DB
16 表示部
17 操作部
18 通信部
19 外部I/F
30 カメラ
31 載置台
40 読取器
100 画像表示システム

Claims (10)

  1. 固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得する取得部と、
    前記取得部により取得された前記カード画像から前記固有の特徴部分を認識する認識部と、
    予め前記カード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデルを用いて、前記認識部により前記固有の特徴部分が認識された前記カード画像に対して、前記物品についての最適な物品画像を生成する生成部と、
    前記取得部により取得された前記カード画像に代えて、前記生成部により生成された前記物品画像を表示部に表示する制御を行う表示制御部と、
    を備えた情報処理装置。
  2. 前記認識部は、予め固有の特徴部分が異なる複数種類のカード媒体を撮影して得られたカード画像群を、固有の特徴部分を表すラベルに対応付けて機械学習することにより生成された特徴認識モデルを用いて、前記取得部により取得された前記カード画像から前記固有の特徴部分を認識する
    請求項1に記載の情報処理装置。
  3. 前記認識部により認識された前記固有の特徴部分を表すラベルを、前記生成部により生成された前記物品画像の前記物品を表すラベルに変更する変更部を更に備え、
    前記表示制御部は、前記変更部により変更された前記物品を表すラベルを、前記物品画像と共に前記表示部に表示する制御を行う
    請求項2に記載の情報処理装置。
  4. 前記表示制御部は、更に、前記変更部により変更された前記物品を表すラベルに基づいて、前記物品の物品名及び金額を含む物品情報を前記表示部に表示する制御を行う
    請求項3に記載の情報処理装置。
  5. 前記生成部により生成された前記物品画像に対して物体検出技術を適用して物品を検出する検出部を更に備え、
    前記表示制御部は、前記検出部による検出結果に基づいて、前記物品の物品名及び金額を含む物品情報を前記表示部に表示する制御を行う
    請求項1~請求項3の何れか1項に記載の情報処理装置。
  6. 前記検出部は、予め複数種類の物品を撮影して得られた物品画像群を、物品を表すラベルに対応付けて機械学習することにより生成された物品検出モデルを用いて、前記生成部により生成された前記物品画像から前記物品を検出する
    請求項5に記載の情報処理装置。
  7. 前記物品検出モデルは、前記学習データ群に含まれる物品画像を追加して再学習されたモデルである
    請求項6に記載の情報処理装置。
  8. 前記学習済みモデルは、敵対的生成ネットワークのモデルである
    請求項1~請求項7の何れか1項に記載の情報処理装置。
  9. 固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得し、
    前記取得された前記カード画像から前記固有の特徴部分を認識し、
    予め前記カード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデルを用いて、前記固有の特徴部分が認識された前記カード画像に対して、前記物品についての最適な物品画像を生成し、
    前記取得された前記カード画像に代えて、前記生成された前記物品画像を表示部に表示する制御を行う
    画像表示方法。
  10. 固有の特徴部分を有するカード媒体を撮影して得られたカード画像を取得し、
    前記取得された前記カード画像から前記固有の特徴部分を認識し、
    予め前記カード媒体を撮影して得られたカード画像と、予め物品を撮影して得られた物品画像とをペアとする学習データ群を機械学習することにより生成された学習済みモデルを用いて、前記固有の特徴部分が認識された前記カード画像に対して、前記物品についての最適な物品画像を生成し、
    前記取得された前記カード画像に代えて、前記生成された前記物品画像を表示部に表示する制御を行うことを、
    コンピュータに実行させるための画像表示プログラム。
JP2021174999A 2021-10-26 2021-10-26 情報処理装置、画像表示方法、及び画像表示プログラム Pending JP2023064624A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021174999A JP2023064624A (ja) 2021-10-26 2021-10-26 情報処理装置、画像表示方法、及び画像表示プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021174999A JP2023064624A (ja) 2021-10-26 2021-10-26 情報処理装置、画像表示方法、及び画像表示プログラム

Publications (1)

Publication Number Publication Date
JP2023064624A true JP2023064624A (ja) 2023-05-11

Family

ID=86271540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021174999A Pending JP2023064624A (ja) 2021-10-26 2021-10-26 情報処理装置、画像表示方法、及び画像表示プログラム

Country Status (1)

Country Link
JP (1) JP2023064624A (ja)

Similar Documents

Publication Publication Date Title
US11487712B2 (en) Digital image suitability determination to generate AR/VR digital content
US10318569B1 (en) Smart inventory tags
EP3422309A1 (en) Information processing system
JP2021535512A (ja) レジ無しチェックアウト用ディープ・ラーニング・ベースのアクショナブル・デジタル・レシート
JP6261060B2 (ja) 情報処理装置
CN106030672A (zh) 用于控制无线追踪设备警报的系统和方法
US9715701B2 (en) Image-based listing using image of multiple items
US11244382B1 (en) Computer-implemented method and system for auto-generation of multi-merchant interactive image collection
US20150254789A1 (en) System and method for providing an adaptive menu
JP6565639B2 (ja) 情報表示プログラム、情報表示方法、及び情報表示装置
JP2019211891A (ja) 行動分析装置、行動分析システム、行動分析方法、プログラムおよび記録媒体
JP2024023957A (ja) 処理装置、処理方法及びプログラム
US10304120B2 (en) Merchandise sales service device based on dynamic scene change, merchandise sales system based on dynamic scene change, method for selling merchandise based on dynamic scene change and non-transitory computer readable storage medium having computer program recorded thereon
JP2023064624A (ja) 情報処理装置、画像表示方法、及び画像表示プログラム
JP2021135620A (ja) 不正防止システム、及び不正防止プログラム
CN112154488A (zh) 信息处理装置、控制方法和程序
JP6877806B6 (ja) 情報処理装置、プログラム及び情報処理方法
JP2016024601A (ja) 情報処理装置、情報処理システム、情報処理方法、商品推薦方法、およびプログラム
KR102038111B1 (ko) 결제 컴퓨팅 장치
JP2016076193A (ja) 情報処理装置およびプログラム
JP2019036225A (ja) 取引id警告システム及び取引id警告方法
JP2014038470A (ja) 情報処理装置、部門別合計表示方法及びプログラム
JP2017102564A (ja) 表示制御プログラム、表示制御方法、及び表示制御装置
US20200201498A1 (en) Dynamic auxiliary user interface
JP7006767B2 (ja) 画像識別レジ装置、画像識別レジシステム、会計処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240214