JP7342489B2

JP7342489B2 - 重量推定装置、重量推定方法、および重量推定プログラム

Info

Publication number: JP7342489B2
Application number: JP2019136145A
Authority: JP
Inventors: 章記海老原
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2023-09-12
Anticipated expiration: 2039-07-24
Also published as: JP2021021973A

Description

本発明は、重量推定装置等に関し、たとえば、人物により伴われている荷物の重量を推定する重量推定装置等の技術に関する。

近年、例えば、重い荷物を持って移動する人や、具合が悪くなって座り込む人や、足元のおぼつかない高齢者などに適切な支援を行うために、人の姿勢、動作または挙動を認識しようとする技術が、特許文献１で紹介されている。

特許文献１に記載の技術では、認識対象の人物が行った動作から、その動作に最も近い基本動作をデータベースの検索により探すことによって、認識対象の人物がどの基本動作を行ったかを認識している。

すなわち、特許文献１に記載の技術では、まず、人物の基本動作ごとの画像データが、予めデータベース化される。また、認識対象の人物の画像データと、基本動作ごとの画像データとが比較される。そして、基本動作ごとの画像データのうちで、認識対象の人物の画像データに最も近い画像データが選ばれる。これにより、認識対象の人物の動作が特定の基本動作をして認識される。

なお、本発明に関連する技術が、特許文献２－５および非特許文献１にも開示されている。

特開２００９－１７６０５９号公報国際公開第２０１８／０８４１９１号特開２０１８－００５５２０号公報特開２０１５－０４３８６６号公報国際公開第２０１７／１８７６４１号

A.Krizhevsky, I.Sutskever, G.Hinton, "ImageNet Classification with Deep Convolutional Neural Networks", Conference on Neural Information Processing Systems (NIPS), 2012

ここで、特許文献１に記載の技術では、認識対象の人物の動作が、予め設定された基本動作のどれかに該当するか否かを認識することができる。すなわち、特許文献１に記載の技術では、たとえば、荷物を持っている動作が基本動作として予め登録されているため、認識対象の人物が荷物を持っている場合に、認識対象の人物の動作が荷物を持っている動作であることを認識することができる。しかしながら、特許文献１に記載の技術では、認識対象の人物の動作が荷物を持っている動作であることを認識することができるが、認識対象の人物がどの程度の重量の荷物を持っているかまでは認識することはできないという問題があった。

本発明は、このような事情を鑑みてなされたものであり、本発明の目的は、認識対象の人物により伴われている荷物の重量を推定することができる重量推定装置を提供することにある。

本発明の重量推定装置は、画像データを取得する画像データ取得部と、前記画像データ取得部により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する特定画像データ抽出部と、前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成部と、前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定部とを備えている。

本発明の重量推定方法は、画像データを取得する画像データ取得ステップと、前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定ステップとを含んでいる。

本発明の重量推定プログラムは、画像データを取得する画像データ取得ステップと、前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定ステップとを含む処理を、コンピュータに実行させる。

本発明によれば、画像データから、認識対象の人物により伴われている荷物の重量を推定することができる。

本発明の第１の実施の形態における重量推定装置の構成を含むブロック図である。画像データ内の荷物および人物を特定画像データ抽出部によって検出した結果を示す図である。画像データ内の荷物および人物を特定画像データ抽出部によって検出した結果を示す図である。認識対象人物の骨格姿勢の推定結果の一例を示す図である。姿勢基準情報記憶部に記憶されている姿勢基準情報の一例を示す図である。本発明の第１の実施の形態における重量推定装置の動作フローを示す図である。本発明の第２の実施の形態における重量推定装置の構成を含むブロック図である。本発明の第２の実施の形態における重量推定装置の動作フローを示す図である。本発明の第３の実施の形態における重量推定装置の構成を含むブロック図である。本発明の第３の実施の形態における重量推定装置の動作フローを示す図である。本発明の第４の実施の形態における重量推定装置の構成を示すブロック図である。本発明の第４の実施の形態における重量推定装置の動作フローを示す図である。

＜第１の実施の形態＞
本発明の第１の実施の形態における重量推定装置１００について、図に基づいて説明する。

まず、重量推定装置１００の構成を中心に説明する。図１は、重量推定装置１００の構成を含むブロック図である。図１を参照して、重量推定装置１００は、画像データ取得部１１０と、特定画像データ抽出部１２０と、姿勢情報生成部１３０と、重量推定部１４０と、出力部１９０とを備えている。撮像部２００は、重量推定装置１００の画像データ取得部１１０に接続されている。姿勢基準情報記憶部３００は、重量推定部１４０に接続されている。ここで、撮像部２００および姿勢基準情報記憶部３００は、本実施の形態における発明において必須の構成要件ではない。

また、画像データ取得部１１０、特定画像データ抽出部１２０、姿勢情報生成部１３０、重量推定部１４０、撮像部２００および姿勢基準情報記憶部３００は、画像データ取得手段、特定画像データ抽出手段、姿勢情報生成手段、重量推定手段、撮像手段および姿勢基準情報記憶手段の一例である。

画像データ取得部１１０は、画像データを取得する。より具体的には、画像データ取得部１１０は、カメラなどの撮像部２００により撮像された画像データを取得する。なお、撮像部２００は、撮像対象を主に人物としている。また、撮像部２００は、たとえば、空港、学校、図書館、病院、市民会館、ショッピングセンター、会社などの施設や、道路や、歩道などに、設置されている。撮像部２００および画像データ取得部１１０は、有線または無線により通信接続されている。画像データ取得部１１０は、撮像部２００により撮像された画像データを、有線または無線の通信によって、撮像部２００から取得する。なお、画像データ取得部１１０は、撮像部２００により撮像された画像データを、直接的に撮像部２００から取得しなくてもよい。すなわち、画像データ取得部１１０は、撮像部２００により撮像された画像データを、間接的に撮像部２００から取得してもよい。この場合、たとえば、撮像部２００により撮像された画像データは、一旦、記憶部（図１にて不図示）に保存される。そして、画像データ取得部１１０は、撮像部２００により撮像された画像データを、記憶部から取得する。

特定画像データ抽出部１２０は、画像データ取得部１１０により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。

具体的には、特定画像データ抽出部１２０は、たとえば、特許文献３に記載の畳み込みニューラルネットワーク（Convolutional Neural Network：ＣＮＮ）を使用して、特定の物体として、荷物および人物をそれぞれ検出する。そして、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。また、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、認識対象人物により伴われている荷物を荷物画像データとして抽出する。ただし、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、人物画像データのみを抽出し、荷物画像データを抽出しなくてもよい。

ここで、特定画像データ抽出部１２０が人物画像データおよび荷物画像データを抽出する動作を説明する。図２～図３は、画像データ内の荷物および人物を特定画像データ抽出部１２０によって検出した結果を示す図である。図２～図３では、ともに、地下鉄内のホームに設置されたカメラにより撮像された画像データに、荷物および人物を特定画像データ抽出部１２０によって検出した結果が、重畳して例示されている。

図２～図３を参照して、特定画像データ抽出部１２０は、荷物および人物が映る画像領域を、人物領域ＨＡ（Human Area）および荷物領域ＬＡ（Laggege Area）として、画像データからそれぞれ検出する。なお、図２～図３では、点線で囲われた領域を人物領域ＨＡとし、一点鎖線で囲われた領域を荷物領域ＬＡとして、示している。

また、特定画像データ抽出部１２０は、荷物領域ＨＡおよび人物領域ＬＡの間で重複領域を有する場合の人物領域ＬＡを、荷物を伴う認識対象人物が映る画像領域として認識する。そして、特定画像データ抽出部１２０は、画像データから、人物領域の画像データ（荷物を伴う認識対象人物が映る画像領域の画像データ）を、人物画像データとして抽出する。

姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに基づいて、姿勢情報を生成する。なお、姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに加えて、荷物画像データをも用いて、姿勢情報を生成してもよい。

ここで、姿勢情報とは、認識対象人物の姿勢に関する情報であって、たとえば、認識対象人物の腰や膝の曲がり具合（曲がり角度等）などである。姿勢情報生成部１３０は、たとえば、特許文献４－５に記載の骨格姿勢推定技術を用いて、認識対象人物の骨格姿勢を推定し、推定された骨格姿勢に基づいて、腰の曲がり具合（曲がり角度等）を姿勢情報として生成する。

図４は、認識対象人物の骨格姿勢の推定結果の一例を示す図である。図４を参照して、骨格姿勢は、たとえば、認識対象人物の頭部、首部、肩部、肘部、手首部、腰部、膝部および足首部の位置を表す白丸部と、各部位を接続する直線部とによって、表される。すなわち、姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに基づいて、認識対象人物の頭部、首部、肩部、肘部、手首部、腰部、膝部および足首部の位置を表す白丸部と、各部位を接続する直線部と用いて表した骨格姿勢を、推定結果として出力する。

そして、姿勢情報生成部１３０は、推定された骨格姿勢に基づいて、腰の曲がり具合（曲がり角度等）を姿勢情報として生成する。なお、ここでの腰の曲がり角度は、首部と腰部と結ぶ直線ａと、腰部と膝部とを結ぶ直線ｂ１、ｂ２とがなす角度とする。このとき、直線ａおよび直線ｂ１がなす角度と、直線ａおよび直線ｂ２がなす角度との平均値を、腰の曲がり角度とする。ただし、これに限らず、たとえば、直線ａおよび直線ｂ１がなす角度と、直線ａおよび直線ｂ２がなす角度のうちで、大きい方または小さい方の角度を、腰の曲がり角度としてもよい。

重量推定部１４０は、姿勢基準情報記憶部３００に、有線または無線により通信接続されている。重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する。ここでは、重量推定部１４０は、姿勢基準情報記憶部３００に記憶されている姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とに基づいて、認識対象人物により伴われている荷物の重量を推定する。

より具体的には、まず、重量推定部１４０は、姿勢基準情報記憶部３００に記憶されている姿勢基準情報を、有線または無線の通信によって、姿勢基準情報記憶部３００から取得する。そして、重量推定部１４０は、姿勢基準情報記憶部３００から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とに基づいて、認識対象人物により伴われている荷物の重量を推定する。より詳細には、重量推定部１４０は、姿勢基準情報記憶部３００から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。

なお、重量推定部１４０は、姿勢基準情報を、直接的に姿勢基準情報記憶部３００から取得しなくてもよい。すなわち、重量推定部１４０は、姿勢基準情報を、間接的に姿勢基準情報記憶部３００から取得してもよい。この場合、たとえば、姿勢基準情報は、姿勢基準情報記憶部３００から、重量推定装置１００に予め設けられたメモリ（図１にて不図示）に、一時的に記憶される。そして、重量推定部１４０は、姿勢基準情報を、姿勢基準情報記憶部３００から、メモリを介して、取得する。

つぎに、姿勢基準情報記憶部３００に記憶されている姿勢基準情報について、説明する。図５は、姿勢基準情報記憶部３００に記憶されている姿勢基準情報の一例を示す図である。

ここで、姿勢基準情報とは、たとえば、荷物を伴う人物の基準姿勢に関して、荷物の重量ごとに予め設定された情報である。すなわち、姿勢基準情報は、荷物を伴う人物の基準姿勢を荷物の重量ごとに特定した後、特定された基準姿勢と荷物の重量を互いに対応付けることにより、予め設定される。具体的には、特定の人物に様々な重量の荷物を伴わせて、荷物の重量ごとに特定の人物の姿を撮像部２００により予め撮像する。ここでの基準姿勢とは、荷物を伴う人物がとる一般的な姿勢をいい、たとえば、荷物を肩にかける姿勢や、荷物を背負う姿勢である。また、姿勢情報抽出部１３０によって、撮像部２００により撮像された特定の人物の姿から、姿勢情報を基準姿勢として抽出する。そして、基準姿勢と荷物の重量とを互いに対応つけることにより、姿勢基準情報として設定される。なお、姿勢基準情報は、肩掛け型のバッグ、バックパック型のバッグ、段ボール箱、手提げバッグ、キャリーケース型のバッグなど、荷物の種類ごとに設定されてもよい。

なお、上述の通り、姿勢情報とは、認識対象人物（特定の人物も含む。）の姿勢に関する情報であって、たとえば、認識対象人物の腰や膝の曲がり具合（曲がり具合は、たとえば、曲がり角度等）などである。

ここでは、特定の人物は、たとえば、標準的な体重である人物とする。ただし、姿勢基準情報は、年齢や性別や体型ごとに設定されてもよい。

図５を参照して、姿勢基準情報記憶部３００には、姿勢基準情報の一例として、基準姿勢（腰の曲がり角度）と、荷物の重量との関係の対応表が記憶されている。図５を参照して、たとえば、基準姿勢（腰の曲がり角度）が１８０°の場合、荷物の重量を５ｋｇ以下と対応つけられている。同様に、基本姿勢が１６０°、１４０°、１２０°の場合、荷物の重量を１０ｋｇ、２０ｋｇ、３０ｋｇと対応付けられている。

図５を参照して、重量推定部１４０の具体的な動作を説明する。重量推定部１４０は、姿勢基準情報記憶部３００から、姿勢基準情報を取得する。そして、重量推定部１４０は、姿勢基準情報記憶部３００から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。

すなわち、たとえば、姿勢情報生成部１３０により生成された姿勢情報が１６０°であった場合、重量推定部１４０は、姿勢基準情報記憶部３００から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報（腰の曲がり角度）である１６０°とを比較する。また、重量推定部１４０は、姿勢情報（腰の曲がり角度）１６０°に対応する荷物の重量である１０ｋｇを抽出する。そして、重量推定部１４０は、認識対象人物により伴われている荷物の推定重量を、１０ｋｇと推定する。

図１に戻って、出力部１９０は、重量推定部１４０により推定された荷物の重量に関する情報を出力する。出力部１９０は、重量推定部１４０により推定された荷物の重量に関する情報として、たとえば、の荷物の推定重量を出力する。

また、出力部１９０は、重量推定部１４０により推定された荷物の重量が所定値以上の場合に、重量推定部１４０により推定された荷物の重量が所定値以上であることを通知してもよい。この所定値は、たとえば、体型、体格や、荷物の種類に応じて、設定することができる。

また、出力部１９０は、重量推定部１４０により推定された荷物の重量が所定値以上の場合に、所定値以上の重量の荷物を伴った人物が存在することを通知してもよい。この場合も、所定値は、たとえば、体型、体格や、荷物の種類に応じて、設定することができる。

つぎに、重量推定装置１００の動作について説明する。図６は、重量推定装置１００の動作フローを示す図である。

図６を参照して、まず、画像データ取得部１１０は、画像データを取得する（図６のステップ（Ｓｔｅｐ：以下、Ｓと称する）１０）。より具体的には、画像データ取得部１１０は、カメラなどの撮像部２００により撮像された画像データを取得する。

つぎに、特定画像データ抽出部１２０は、画像データ取得部１１０により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する（図６のＳ２０）。具体的には、特定画像データ抽出部１２０は、たとえば、特許文献３に記載の畳み込みニューラルネットワーク（ＣＮＮ）を使用して、特定の物体として、荷物および人物をそれぞれ検出する。そして、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。

つぎに、姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに基づいて、姿勢情報を生成する（図６のＳ３０）。なお、前述の通り、姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに加えて、荷物画像データをも用いて、姿勢情報を生成してもよい。前述の通り、姿勢情報生成部１３０は、姿勢情報として、たとえば、認識対象人物の腰の曲がり具合（曲がり角度）を取得する。

つぎに、重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する（図６のＳ４０）。前述の通り、より具体的には、重量推定部１４０は、姿勢基準情報記憶部３００に記憶されている姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。前述の通り、たとえば、重量推定部１４０は、基準姿勢および荷物の重量が互いに対応付けられた姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較して、姿勢情報生成部１３０により生成された姿勢情報（図５にて、たとえば、腰曲がり角度１６０°）に対応する荷物の重量（図５にて、たとえば、１０ｋｇ）を抽出する。

そして、出力部１９０は、重量推定部１４０により推定された荷物の重量を出力する（Ｓ５０）。出力部１９０には、たとえば、液晶表示装置や有機ＥＬ表示装置やプラズマディスプレイなどの表示部や、スピーカなどが用いられる。出力部１９０が表示部の場合、出力部１９０は荷物の重量を表示する。出力部１９０がスピーカの場合、出力部１９０は荷物の重量を音声出力する。

なお、姿勢基準情報には、腰の曲がり角度以外に、たとえば、特許文献４－５に記載の骨格姿勢推定技術を用いて推定された骨格姿勢そのものを用いてもよい。この場合、図５において、荷物の重量に対応して記憶される姿勢情報は、図４に相当する骨格姿勢となる。

また、上述した各処理の一部または全部を、インテリジェントカメラに行わせてもよい。インテリジェントカメラは、たとえば、ＣＰＵ（Central Processing Unit）やプロセッサなどの解析機能を内部に搭載し、画像の入力だけでなく画像処理も内部で行えるＩＰ（Internet Protocol）カメラやネットワークカメラである。ＩＰカメラやネットワークカメラは、カメラとコンピュータが一体化したものであり、カメラ自体が個々にＩＰ（Internet Protocol）アドレスを持っている。なお、インテリジェントカメラは、スマートカメラとも呼ばれている。

この場合において、インテリジェントカメラが、撮像部２００および画像データ取得部１１０の双方の機能を有し、画像データを取得してもよい。また、インテリジェントカメラが、撮像部２００および特定画像データ抽出部１２０の機能を有し、荷物を伴っている人物を抽出してもよい。また、インテリジェントカメラが、撮像部２００および姿勢情報生成部１３０の機能を有し、姿勢情報を生成してもよい。また、インテリジェントカメラが、重量推定部１４０の機能を有し、認識対象人物により伴われている荷物の重量を推定してもよい。また、インテリジェントカメラが、重量推定装置１００の全ての機能を有し、重量推定装置１００の全ての機能を実行してもよい。

以上の通り、本発明の第１の実施の形態における重量推定装置１００は、画像データ取得部１１０と、特定画像データ抽出部１２０と、姿勢情報生成部１３０と、重量推定部１４０とを備えている。画像データ取得部１１０は、画像データを取得する。特定画像データ抽出部１２０は、画像データ取得部１１０により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。姿勢情報生成部１３０は、人物画像データに基づいて、認識対象人物の姿勢に関する姿勢情報を生成する。重量推定部１４０は、姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する。

このように、重量推定装置１００では、姿勢情報生成部１３０は、人物画像データに基づいて、認識対象人物の姿勢に関する姿勢情報を生成する。また、重量推定部１４０は、姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する。これにより、重量推定装置１００では、画像データから、認識対象の人物により伴われている荷物の重量を推定することができる。

以上の通り、本発明の第１の実施の形態における重量推定装置１００によれば、画像データから、認識対象の人物により伴われている荷物の重量を推定することができる。

また、認識対象の人物により伴われている荷物の重量を推定することができるので、たとえば、重い荷物を伴っている人物を特定することができる。これにより、重い荷物を伴っている人物を、たとえば、荷物を代わりに持つ等の支援が必要な者や、危険物を所持している不審者として、認識することができる。そして、荷物を代わりに持つ等の支援が必要な者に対しては、たとえば、荷物を運ぶ補助者を派遣するなど、適切な支援を提供することができる。危険物を所持している不審者に対しては、たとえば、警備員を派遣したり、警察に通報したりすることができる。

また、本発明の第１の実施の形態における重量推定装置１００において、重量推定部１４０は、姿勢基準情報を取得し、姿勢基準情報と姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。なお、姿勢基準情報とは、荷物を伴う人物の基準姿勢に関して荷物の重量ごとに予め設定された情報である。

このように、重量推定部１４０は、予め設定された姿勢基準情報と姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。したがって、たとえば、肩掛け型のバッグ、バックパック型のバッグ、段ボール箱、手提げバッグ、キャリーケース型のバッグなど、荷物の種類ごとに姿勢基準情報を設定することにより、認識対象人物により伴われている荷物の重量を荷物の種類に応じて適切に推定することができる。

また、本発明の第１の実施の形態における重量推定装置１００において、出力部１９０は、重量推定部１４０により推定された荷物の重量に関する情報を出力する。出力部１９０には、たとえば、荷物の重量を出力する。これにより、認識対象人物により伴われている荷物の重量の推定値を、出力部１９０の出力結果によって、知ることができる。

また、本発明の第１の実施の形態における重量推定装置１００において、出力部１９０は、重量推定部１４０により推定された荷物の重量が所定値以上の場合に、重量推定部１４０により推定された荷物の重量が所定値以上であることを通知してもよい。これにより、所定値以上の重さの荷物を特定することができる。たとえば、お年寄りが利用する施設では、所定値を一般人の場合と比較して低めに設定することで、お年寄りが利用する施設に対応して、所定値以上の荷物を特定することができる。

また、本発明の第１の実施の形態における重量推定装置１００において、出力部１９０は、重量推定部１４０により推定された荷物の重量が所定値以上の場合に、所定値以上の重量の荷物を伴った人物が存在することを通知してもよい。これにより、所定値以上の重さの荷物を伴っている人物の存在を知ることができる。

また、本発明の第１の実施の形態における重量推定装置１００において、重量推定部１４０は、所定時間毎に、認識対象人物により伴われている前記荷物の重量を推定する。また、出力部１９０は、重量推定部１４０により所定時間毎に推定された荷物の重量の時間的変化量に応じて、認識対象人物に伴われている荷物に重量に変化があったことを通知する。具体的には、荷物の重量の時間的変化量に所定の閾値を設ける。そして、出力部１９０は、重量推定部１４０により所定時間毎に推定された荷物の重量の時間的変化量が所定の閾値以上であった場合に、認識対象人物に伴われている荷物に重量に変化があったことを通知する。これにより、荷物の重量に変化があった人物を見つけることができる。たとえば、トイレの入り口付近に撮影部１１０を設置した場合、トイレから出た時の荷物の重量がトイレに入った時の荷物の重量よりも少ない場合、当該荷物を伴ってトイレに出入りした人物を見つけることができる。これにより、たとえば、重量の重い危険物（化学兵器や爆弾）のトイレへの置き去りを検知することができる。

また、本発明の第１の実施の形態における重量推定方法は、画像データ取得ステップと、人物画像データ抽出ステップと、姿勢情報生成ステップと、重量推定ステップとを含む。画像データ取得ステップでは、画像データを取得する。人物画像データ抽出ステップでは、前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。姿勢情報生成ステップでは、人物画像データに基づいて、認識対象人物の姿勢に関する姿勢情報を生成する。重量推定ステップでは、前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する。

このような重量推定方法によっても、上述した重量推定装置１００と同様の効果を奏することができる。

また、本発明の第１の実施の形態における重量推定プログラムは、画像データ取得ステップと、人物画像データ抽出ステップと、姿勢情報生成ステップと、重量推定ステップとを含む処理を、コンピュータに実行させる。

このような重量推定プログラムによっても、上述した重量推定装置１００と同様の効果を奏することができる。

また、本発明の第１の実施の形態における記憶媒体は、画像データ取得ステップと、人物画像データ抽出ステップと、姿勢情報生成ステップと、重量推定ステップとを含む処理を、コンピュータに実行させる重量推定プログラムを記憶する。

このような記憶媒体によっても、上述した重量推定装置１００と同様の効果を奏することができる。

＜第２の実施の形態＞
つぎに、第２の実施の形態における重量推定装置１００Ａについて説明する。図７は、重量推定装置１００Ａの構成を含むブロック図である。

図７を参照して、重量推定装置１００Ａは、画像データ取得部１１０と、特定画像データ抽出部１２０Ａと、姿勢情報生成部１３０と、重量推定部１４０と、画像データ連結部１５０と、ニューラルネットワーク制御部１６０と、出力部１９０とを備えている。また、特定画像データ抽出部１２０Ａは、人物画像データ抽出部１２１と、荷物画像データ抽出部１２２とを含んでいる。また、撮像部２００が、画像データ取得部１１０に有線または無線により接続されている。また、図７では、図１で示した各構成要素と同等の構成要素には、図１に示した符号と同等の符号を付している。なお、特定画像データ抽出部１２０Ａ、人物画像データ抽出部１２１、荷物画像データ抽出部１２２は、特定画像データ抽出手段、人物画像データ抽出手段、荷物画像データ抽出手段の一例である。

ここで、重量推定装置１００と、重量推定装置１００Ａとを対比する。図１および図７を参照して、重量推定装置１００Ａでは、特定画像データ抽出部１２０Ａは、人物画像データ抽出部１２１および荷物画像データ抽出部１２２を含んでいる点で、重量推定装置１００と相違する。

特定画像データ抽出部１２０Ａは、人物画像データ抽出部１２１および荷物画像データ抽出部１２２を含んでいる。特定画像データ抽出部１２０Ａは、たとえば、特許文献３に記載の畳み込みニューラルネットワークＣＮＮを使用して、特定の物体として、荷物および人物をそれぞれ検出する。

第１の実施の形態と同様に、図２～３を参照して、人物画像データ抽出部１２１は、特許文献３に記載の畳み込みニューラルネットワークＣＮＮを使用して、荷物が映る画像領域を、荷物領域ＬＡとして、画像データから検出する。そして、人物画像データ抽出部１２１は、荷物領域ＬＡの画像データを、荷物領域画像データとして抽出する。

第１の実施の形態と同様に、図２～３を参照して、荷物画像データ抽出部１２２は、特許文献３に記載の畳み込みニューラルネットワークＣＮＮを使用して、人物が映る画像領域を、人物領域ＨＡとして、画像データから検出する。そして、荷物画像データ抽出部１２２は、人物領域ＨＡの画像データを、人物領域画像データとして抽出する。

画像データ連結部１５０は、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像データ）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像データとを連結して、連結画像データを生成する。姿勢情報（骨格姿勢）を含む画像データとは、少なくとも姿勢情報（骨格姿勢）の情報が画像として含まれる画像データである。すなわち、ここでは、姿勢情報生成部１３０は、図４で例示したような骨格姿勢の画像データを、姿勢情報として生成する。そして、画像データ連結部１５０は、荷物画像データ抽出部１２２により検出された荷物領域ＬＡの画像と、姿勢情報生成部１３０により生成された骨格姿勢を含む画像とを連結して、連結画像データを生成する。

ここでは、荷物画像データ抽出部１２２により検出された荷物領域の画像データと、姿勢情報生成部１３０により生成された骨格姿勢の画像データのサイズのそれぞれが、Ｈ（height方向の画素数）×Ｗ（width方向の画素数）のサイズの画像であるとする。すなわち、画像データ連結部１５０は、Ｈ×Ｗ（pixels）サイズの画像データを、Ｒ（Red）、Ｇ（Green）、Ｂ（Blue）の３チャネル分入力するものとする。この場合において、画像データ連結部１５０は、荷物画像データ抽出部１２２により抽出された荷物領域の画像データと、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像データをそれぞれＨ×Ｗ×３のサイズの３チャネル画像にリサイズし、さらに、２つの３チャネル画像をチャネル方向で連結させて、Ｈ２×Ｗ２×６のサイズの連結画像データを生成する。すなわち、画像データ連結部１５０は、３チャネル画像である２つの画像データを連結して、６チャネル画像を生成する。この６チャネル画像の画像データ（並列画素データ）が、ニューラルネットワーク制御部１６０への入力となる。

ニューラルネットワーク制御部１６０は、画像データ連結部１５０により生成された連結画像データを用いて、連結画像データに映る荷物の重さを出力する。より具体的には、ニューラルネットワーク制御部１６０は、たとえば、非特許文献１に記載の畳み込みネットワークを用いて、画像データ連結部１５０により生成された連結画像データに含まれる荷物の重さを示すスカラー量（たとえば、“ｙ”ｋｇ）を、連結画像データに映る荷物の重さとして出力する。ここで、ニューラルネットワークとは、脳機能に見られるいくつかの特性に類似した数理的モデルであり、ここでは多数の重みパラメータから構成されている。重みパラメータとは、パラメータとしての重みとも呼ばれることもある。

なお、多量のラベル付き学習データが用意されており、ニューラルネットワーク制御部１６０は、学習データを用いて、誤差逆伝搬法などの一般的な最適化方法で平均二乗誤差を最小化する計算を行う。

たとえば、ラベルをtとすると、５０ｋｇの荷物を伴っている人物の画像であれば、ｔ＝５０と設定する。このときの上記畳み込みニューラルネットワークの出力をｙとすると、以下の式１のＳの値が全データについて平均的に低くなるように、パラメータを決定する。

Ｓ＝｜（｜ｙ－ｔ｜）｜^２・・・・（式１）
ニューラルネットワーク制御部１６０で用いる学習データには、たとえば、次の（１）～（３）の内容を変えて、動画または写真を集めたものが用いられる。（１）性別の違い（男性、女性、ＬＧＢＴ（Lesbian、Gay、Bisexual、Transgender））、（２）荷物の形状の違い（バッグ、トランク、リュック）、（３）荷物の重量の違い（１０ｋｇ、２０ｋｇ、３０ｋｇ、・・・・）
ニューラルネットワーク制御部１６０は、少なくとも上記（３）の要素を用いて、上述の通り、畳み込みニューラルネットワークを介して、最終的に重さを表すスカラー量（たとえば，“ｙ”ｋｇ）を出力する。また、ニューラルネットワーク制御部１６０は、上記（３）の要素に、さらに上記（１）の要素および上記（２）の要素のうち、いずれか一方または双方の要素を用いて、畳み込みニューラルネットワークを介して、最終的に重さを表すスカラー量（たとえば，“ｙ”ｋｇ）を出力することもできる。

つぎに、重量推定装置１００Ａの動作について説明する。図８は、重量推定装置１００Ａの動作フローを示す図である。

図８を参照して、まず、画像データ取得部１１０は、画像データを取得する（図８のステップＳ１１０）。より具体的には、カメラなどの撮像部２００により撮像された画像データを取得する。

つぎに、荷物画像データ抽出部１２２は、画像データ取得部１１０により取得された画像データのうちで荷物が映る画像領域を、荷物領域ＬＡとして、画像データから検出する（図８のＳ１２０）。そして、荷物画像データ抽出部１２２は、荷物領域ＬＡの画像データを荷物画像データとして抽出する（図８のＳ１３０）。

また、人物画像データ抽出部１２１は、画像データ取得部１１０により取得された画像データのうちで人物が映る画像領域を、人物領域ＨＡとして、画像データから検出する（Ｓ１４０）。そして、人物画像データ抽出部１２１は、人物領域ＨＡの画像データを人物画像データとして抽出する（図８のＳ１５０）。

つぎに、姿勢情報生成部１３０は、人物画像データ抽出部１２１により抽出された人物画像データ（人物領域ＨＡの画像データ）に基づいて、姿勢情報を生成する（図８のＳ１６０）。具体的には、姿勢情報生成部１３０は、図４で例示したような骨格姿勢の画像データを、姿勢情報として生成する。

なお、好ましくは、Ｓ１２０～Ｓ１３０の動作と、Ｓ１４０～Ｓ１６０の動作は、同時に行われる。ただし、Ｓ１２０～Ｓ１３０の動作の後にＳ１４０～Ｓ１６０の動作を行ってもよいし、Ｓ１４０～Ｓ１６０の動作の後にＳ１２０～Ｓ１３０の動作を行ってもよい。

つぎに、画像データ連結部１５０は、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像とを連結して、連結画像データを生成する（図８のＳ１７０）。

そして、重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する（図８のＳ１８０）。より具体的には、まず、ニューラルネットワーク制御部１６０は、画像データ連結部１５０により生成された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。そして、重量推定部１４０は、ニューラルネットワーク制御部１６０により出力された重さを、認識対象人物により伴われている荷物の重量として推定する。なお、上述の通り、連結画像データには、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）が含まれる。このため、重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定することになる。

そして、出力部１９０は、重量推定部１４０により推定された荷物の重量を出力する（Ｓ１９０）。出力部１９０には、たとえば、液晶表示装置や有機ＥＬ表示装置やプラズマディスプレイなどの表示部や、スピーカなどが用いられる。出力部１９０が表示部の場合、出力部１９０は荷物の重量を表示する。出力部１９０がスピーカの場合、出力部１９０は荷物の重量を音声出力する。

また、上述した各処理の一部または全部を、インテリジェントカメラに行わせてもよい。この場合において、インテリジェントカメラが、撮像部２００および画像データ取得部１１０の双方の機能を有し、画像データを取得してもよい。また、インテリジェントカメラが、撮像部２００および特定画像データ抽出部１２０の機能を有し、荷物を伴っている人物を抽出してもよい。また、インテリジェントカメラが、撮像部２００および姿勢情報生成部１３０の機能を有し、姿勢情報を生成してもよい。また、インテリジェントカメラが、重量推定部１４０の機能を有し、認識対象人物により伴われている荷物の重量を推定してもよい。また、インテリジェントカメラが、ニューラルネットワーク制御部１６０の機能を有し、連結画像データに映る荷物の重さを出力してもよい。また、インテリジェントカメラが、重量推定装置１００Ａの全ての機能を有し、重量推定装置１００Ａの全ての機能を実行してもよい。

以上の通り、第２の実施の形態における重量推定装置１００Ａは、人物画像データ抽出部１２１と、荷物画像データ抽出部１２２と、画像データ連結部１５０と、ニューラルネットワーク制御部１６０とをさらに備えている。

人物画像データ抽出部１２１は、特定画像データ抽出部１２０に含まれる。また、人物画像データ抽出部１２１は、画像データ取得部１１０により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。荷物画像データ抽出部１２２は、特定画像データ抽出部１２０に含まれる。また、荷物画像データ抽出部１２２は、画像データ取得部１１０により取得された画像データから、認識対象人物に伴われた荷物が映る画像領域の画像データを荷物画像データとして抽出する。画像データ連結部１５０は、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。ニューラルネットワーク制御部１６０は、画像データ連結部１５０により生成された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。そして、重量推定部１４０は、ニューラルネットワーク制御部１６０により出力される重さを、認識対象人物により伴われている荷物の重量として、推定する。

このように、重量推定装置１００Ａでは、画像データ連結部１５０は、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。これにより、認識対象人物により伴われている荷物の画像データと、姿勢情報を含む画像データとが連結された画像データとして、連結画像データを生成することができる。また、ニューラルネットワーク制御部１６０は、画像データ連結部１５０により生成された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。これにより、ニューラルネットワークによって最適化された情報として、連結画像データに映る荷物の重さを取得することができる。そして、重量推定部１４０は、ニューラルネットワーク制御部１６０により出力される重さを、認識対象人物により伴われている荷物の重量として、推定する。これにより、ニューラルネットワーク制御部１６０により出力される重さに従って、認識対象人物により伴われている荷物の重量を推定することができる。

以上の通り、本発明の第２の実施の形態における重量推定装置１００Ａによれば、画像データから、認識対象の人物により伴われている荷物の重量を推定することができる。

＜第３の実施の形態＞
つぎに、第３の実施の形態における重量推定装置１００Ｂについて説明する。図９は、重量推定装置１００Ｂの構成を含むブロック図である。

図９を参照して、重量推定装置１００Ｂは、画像データ取得部１１０と、特定画像データ抽出部１２０Ａと、姿勢情報生成部１３０と、重量推定部１４０と、画像データ連結部１５０Ｂと、ニューラルネットワーク制御部１６０と、人物動き情報取得部１７１と、荷物動き情報取得部１７２と、出力部１９０とを備えている。また、特定画像データ抽出部１２０Ａは、人物画像データ抽出部１２１と、荷物画像データ抽出部１２２とを含んでいる。また、撮像部２００が、画像データ取得部１１０に有線または無線により接続されている。また、図９では、図１および図７で示した各構成要素と同等の構成要素には、図１および図７に示した符号と同等の符号を付している。なお、人物動き情報取得部１７１と、荷物動き情報取得部１７２は、人物動き情報取得手段、荷物動き情報取得手段の一例である。

ここで、重量推定装置１００Ａと、重量推定装置１００Ｂとを対比する。図７および図９を参照して、重量推定装置１００Ｂでは、人物動き情報取得部１７１および荷物動き情報取得部１７２をさらに備えている点で、重量推定装置１００Ａと相違する。

人物動き情報取得部１７１は、認識対象人物の動きに関する情報である人物動き情報を取得する。荷物動き情報取得部１７２は、認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する。人物動き情報取得部１７１および荷物動き情報取得部１７２の具体的な機能については、以下の動作説明の中で説明する。

つぎに、重量推定装置１００Ｂの動作について説明する。図１０は、重量推定装置１００Ｂの動作フローを示す図である。

図１０を参照して、まず、画像データ取得部１１０は、画像データを取得する（図１０のステップＳ２１０）。より具体的には、カメラなどの撮像部２００により撮像された画像データを取得する。

つぎに、荷物画像データ抽出部１２２は、画像データ取得部１１０により取得された画像データのうちで荷物が映る画像領域を、荷物領域ＬＡとして、画像データから検出する（図１０のＳ２２０）。そして、荷物画像データ抽出部１２２は、荷物領域ＬＡの画像データを荷物画像データとして抽出する（図１０のＳ２３０）。

つぎに、荷物動き情報取得部１７２は、認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する（図１０のＳ２４０）。具体的には、荷物動き情報取得部１７２は、画像データ取得部１１０により取得された画像データの前後の数フレームの画像データをも用いて、オプティカルフローを計算することにより、各画像データに含まれる荷物の動きに関する情報を取得する。なお、オプティカルフローとは一般的には、画像データ中の物体の動きをベクトルで表したものをいう。したがって、ここでは、荷物動き情報取得部１７２は、オプティカルフローの計算として、各画像データに含まれる荷物の動きに関する情報として、荷物の移動ベクトルを取得する。なお、オプティカルフローを推定する代表的な手法として、LucasKanade法やHorn-Schunk法が知られている。ここでも、荷物動き情報取得部１７２は、LucasKanade法またはHorn-Schunk法と使って、オプティカルフローを計算する。

また、人物画像データ抽出部１２１は、画像データ取得部１１０により取得された画像データのうちで人物が映る画像領域を、人物領域ＨＡとして、画像データから検出する（図１０のＳ２５０）。そして、人物画像データ抽出部１２１は、人物領域ＨＡの画像データを人物画像データとして抽出する（図１０のＳ２６０）。

つぎに、姿勢情報生成部１３０は、人物画像データ抽出部１２１により抽出された人物画像データ（人物領域ＨＡの画像データ）に基づいて、姿勢情報を生成する（図１０のＳ２７０）。具体的には、姿勢情報生成部１３０は、図４で例示したような骨格姿勢の画像データを、姿勢情報として生成する。このとき、姿勢情報生成部１３０は、画像データ取得部１１０により取得された画像データの前後の数フレームの画像データの各々を用いて、図４で例示したような骨格姿勢の画像データを、姿勢情報として生成する。

つぎに、人物動き情報取得部１７１は、認識対象人物の動きに関する情報である人物動き情報を取得する（図１０のＳ２８０）。具体的には、人物動き情報取得部１７１は、画像データ取得部１１０により取得された画像データの前後の数フレームの画像データをも用いて、オプティカルフローを計算することにより、各画像データに含まれる人物の動きに関する情報を取得する。ここでは、人物動き情報取得部１７１は、オプティカルフローの計算として、各画像データに含まれる荷物の動きに関する情報として、人物の移動ベクトルを取得する。このとき、人物動き情報取得部１７１は、たとえば、図４で示した頭部や足首部などの特定部位の全ての移動ベクトルの合成ベクトルを、人物の移動ベクトルとして取得する。なお、これに限らず、人物動き情報取得部１７１は、たとえば、図４で示した頭部や足首部などの１つの特定部位の移動ベクトルを、人物の移動ベクトルとして取得してもよい。また、さらに、人物動き情報取得部１７１は、たとえば、図４で示した頭部や足首部などの１つの特定部位の少なくとも２つ以上の移動ベクトルの合成ベクトルを、人物の移動ベクトルとして取得してもよい。なお、ここでも、人物動き情報取得部１７１は、LucasKanade法またはHorn-Schunk法と使って、オプティカルフローを計算する。

さらに、オプティカルフローの計算後の出力として、画像データをピクセル毎に複数の色で表示することができる。この出力画像データを、オプティカル画像データと呼ぶ。このとき、複数の色での表示には、各ピクセルの色の変化の大きさや各ピクセルの移動方向をも含めることができる。

なお、好ましくは、Ｓ２２０～Ｓ２４０の動作と、Ｓ２５０～Ｓ２８０の動作は、同時に行われる。ただし、Ｓ２２０～Ｓ２４０の動作の後にＳ２５０～Ｓ２８０の動作を行ってもよいし、Ｓ２５０～Ｓ２８０の動作の後にＳ２２０～Ｓ２４０の動作を行ってもよい。

つぎに、画像データ連結部１５０Ｂは、連結画像データを生成する（Ｓ２９０）。具体的には、画像データ連結部１５０Ｂは、荷物動き情報および人物動き情報を含めて、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像データ）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像データとを連結して、連結画像データを生成する。姿勢情報（骨格姿勢）を含む画像データとは、少なくとも姿勢情報（骨格姿勢）の情報が画像として含まれる画像データである。すなわち、ここでは、姿勢情報生成部１３０は、図４で例示したような骨格姿勢の画像データを、姿勢情報として生成する。そして、画像データ連結部１５０は、荷物動き情報および人物動き情報を含めて、荷物画像データ抽出部１２２により検出された荷物領域ＬＡの画像と、姿勢情報生成部１３０により生成された骨格姿勢を含む画像とを連結して、連結画像データを生成する。

ここでは、第１および第２の実施形態と同様に、荷物画像データ抽出部１２２により検出された荷物領域の画像データと、姿勢情報生成部１３０により生成された骨格姿勢の画像データのサイズのそれぞれが、Ｈ（height方向の画素数）×Ｗ（width方向の画素数）のサイズの画像であるとする。すなわち、画像データ連結部１５０は、Ｈ×Ｗ（pixels）サイズの画像データを、Ｒ（Red）、Ｇ（Green）、Ｂ（Blue）の３チャネル分入力するものとする。そして、オプティカル画像データは、一般的に３チャネルの画像である。

この場合において、画像データ連結部１５０Ｂは、荷物画像データ抽出部１２２により抽出された荷物領域の画像データと、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像データと、オプティカル画像データとを、それぞれＨ×Ｗ×３のサイズにリサイズし、さらに、３つの３チャネル画像をチャネル方向で連結させて、Ｈ３×Ｗ３×９のサイズの連結画像データを生成する。すなわち、画像データ連結部１５０Ｂは、３チャネル画像である３つの画像データを連結して、９チャネル画像を生成する。この９チャネル画像の画像データ（並列画素データ）が、ニューラルネットワーク制御部１６０への入力となる。

そして、重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する（図１０のＳ３００）。より具体的には、まず、ニューラルネットワーク制御部１６０は、画像データ連結部１５０により生成された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。そして、重量推定部１４０は、ニューラルネットワーク制御部１６０により出力された重さを、認識対象人物により伴われている荷物の重量として推定する。なお、上述の通り、連結画像データには、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）が含まれる。このため、重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定することになる。

なお、より直接的な回帰方法として、検出された人物の姿勢および荷物の近傍の動画をそのままニューラルネットワーク制御部１６０で処理して、直接重量の値を計算することもできる。この場合、ニューラルネットワーク制御部１６０の入力画像は、［横×縦×チャネル数×時系列］の次元を有する。ニューラルネットワークには、例えば、３次元畳み込みニューラルネットワークを用いることができる。通常の2次元畳み込みニューラルネットワークが、横×縦の空間方向から特徴を抽出する。これに対して、３次元畳み込みニューラルネットワークでは、横×縦×時系列の3次元方向から特徴を抽出することができる。

そして、出力部１９０は、重量推定部１４０により推定された荷物の重量を出力する（図１０のＳ３１０）。出力部１９０には、たとえば、液晶表示装置や有機ＥＬ（Eelectro-Luminescence）表示装置やプラズマディスプレイなどの表示部や、スピーカなどが用いられる。出力部１９０が表示部の場合、出力部１９０は荷物の重量を表示する。出力部１９０がスピーカの場合、出力部１９０は荷物の重量を音声出力する。

また、上述した各処理の一部または全部を、インテリジェントカメラに行わせてもよい。この場合において、インテリジェントカメラが、撮像部２００および画像データ取得部１１０の双方の機能を有し、画像データを取得してもよい。また、インテリジェントカメラが、撮像部２００および特定画像データ抽出部１２０Ａの機能を有し、荷物を伴っている人物を抽出してもよい。また、インテリジェントカメラが、撮像部２００および姿勢情報生成部１３０の機能を有し、姿勢情報を生成してもよい。また、インテリジェントカメラが、重量推定部１４０の機能を有し、認識対象人物により伴われている荷物の重量を推定してもよい。また、インテリジェントカメラが、ニューラルネットワーク制御部１６０の機能を有し、連結画像データに映る荷物の重さを出力してもよい。また、インテリジェントカメラが、人物動き情報取得部１７１の機能を有し、人物動き情報を取得してもよい。また、インテリジェントカメラが、荷物動き情報取得部１７２の機能を有し、荷物動き情報を取得してもよい。また、インテリジェントカメラが、重量推定装置１００Ｂの全ての機能を有し、重量推定装置１００Ａの全ての機能を実行してもよい。

なお、上述では、重量推定装置１００Ａは、人物動き情報取得部１７１および荷物動き情報取得部１７２の双方を備えていると説明した。そのうえで、画像データ連結部１５０Ｂは、荷物動き情報および人物動き情報を含めて、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像データ）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像データとを連結して、連結画像データを生成すると、説明した。

しかしながら、重量推定装置１００Ａは、人物動き情報取得部１７１および荷物動き情報取得部１７２のいずれか一方のみを備えてもよい。この場合、画像データ連結部１５０Ｂは、荷物動き情報および人物動き情報のいずれか一方を含めて、荷物画像データ抽出部１２２により検出された荷物領域画像データ（荷物領域ＬＡの画像データ）と、姿勢情報生成部１３０により生成された姿勢情報（骨格姿勢）を含む画像データとを連結して、連結画像データを生成する。

以上の通り、第３の実施の形態における重量推定装置１００Ｂは、荷物動き情報取得部１７２をさらに備えている。荷物動き情報取得部１７２は、認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する。そして、画像データ連結部１５０は、荷物動き情報を含めて、荷物画像データと、姿勢情報を含む画像データとを連結して、前記連結画像データを生成する。

このように、画像データ連結部１５０は、荷物動き情報を含めて、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。したがって、重量推定装置１００Ｂでは、荷物の動き情報をも反映された連結画像データを生成することができる。そして、ニューラルネットワーク制御部１６０は、荷物の動き情報をも反映された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。重量推定部１４０は、ニューラルネットワーク制御部１６０により出力される重さを、認識対象人物により伴われている荷物の重量として、推定する。このため、重量推定装置１００Ｂによれば、荷物の動きも考慮して、認識対象人物により伴われている荷物の重量として推定することができる。この結果、重量推定装置１００Ｂによれば、認識対象人物により伴われている荷物の重量をより精度よく推定することができる。

また、第３の実施の形態における重量推定装置１００Ｂは、人物動き情報取得部１７１をさらに備えている。人物動き情報取得部１７１は、認識対象人物の動きに関する情報である人物動き情報を取得する。そして、画像データ連結部１５０は、人物動き情報を含めて、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。

このように、画像データ連結部１５０は、人物動き情報を含めて、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。したがって、重量推定装置１００Ｂでは、人物の動き情報をも反映された連結画像データを生成することができる。そして、ニューラルネットワーク制御部１６０は、人物の動き情報をも反映された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。重量推定部１４０は、ニューラルネットワーク制御部１６０により出力される重さを、認識対象人物により伴われている荷物の重量として、推定する。このため、重量推定装置１００Ｂによれば、人物の動きも考慮して、認識対象人物により伴われている荷物の重量として推定することができる。この結果、重量推定装置１００Ｂによれば、認識対象人物により伴われている荷物の重量をより精度よく推定することができる。

また、第３の実施の形態における重量推定装置１００Ｂは、荷物動き情報取得部１７２と、人物動き情報取得部１７１とをさらに備えている。荷物動き情報取得部１７２は、認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する。人物動き情報取得部１７１は、認識対象人物の動きに関する情報である人物動き情報を取得する。そして、画像データ連結部１５０は、荷物動き情報および人物動き情報を含めて、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。

このように、画像データ連結部１５０は、荷物動き情報および人物動き情報を含めて、荷物画像データと、姿勢情報を含む画像データとを連結して、連結画像データを生成する。したがって、重量推定装置１００Ｂでは、荷物動き情報および人物の動き情報をも反映された連結画像データを生成することができる。そして、ニューラルネットワーク制御部１６０は、荷物動き情報および人物の動き情報をも反映された連結画像データに基づいて、連結画像データに映る荷物の重さを出力する。重量推定部１４０は、ニューラルネットワーク制御部１６０により出力される重さを、認識対象人物により伴われている荷物の重量として、推定する。このため、重量推定装置１００Ｂによれば、荷物の動きと人物の動きの双方をも考慮して、認識対象人物により伴われている荷物の重量として推定することができる。この結果、重量推定装置１００Ｂによれば、認識対象人物により伴われている荷物の重量をより精度よく推定することができる。

＜第４の実施の形態＞
本発明の第４の実施の形態における重量推定装置１００Ｃについて、図に基づいて説明する。ここで、前述の第１～第３の実施の形態における重量推定装置１００、１００Ａ、１００Ｂは、本実施形態における重量推定装置１００Ｃの例示である。

重量推定装置１００Ｃの構成を説明する。図１１は、重量推定装置１００の構成を示すブロック図である。

図１１を参照して、重量推定装置１００Ｃは、画像データ取得部１１０と、特定画像データ抽出部１２０と、姿勢情報生成部１３０と、重量推定部１４０とを備えている。

また、画像データ取得部１１０、特定画像データ抽出部１２０、姿勢情報生成部１３０および重量推定部１４０は、画像データ取得手段、特定画像データ抽出手段、姿勢情報生成手段および重量推定手段の一例である。

画像データ取得部１１０は、画像データを取得する。より具体的には、画像データ取得部１１０は、カメラなどの撮像部（図１１にて不図示）により撮像された画像データを取得する。なお、撮像部は、撮像対象を主に人物としている。また、撮像部は、たとえば、空港、学校、図書館、病院、市民会館、ショッピングセンター、会社などの施設や、道路や、歩道などに、設置されている。撮像部および画像データ取得部１１０は、有線または無線により通信接続されている。画像データ取得部１１０は、撮像部により撮像された画像データを、有線または無線の通信によって、撮像部から取得する。

具体的には、特定画像データ抽出部１２０は、たとえば、特許文献３に記載の畳み込みニューラルネットワーク（ＣＮＮ）を使用して、特定の物体として、荷物および人物をそれぞれ検出する。そして、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。また、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、認識対象人物により伴われている荷物を荷物画像データとして抽出する。ただし、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、人物画像データのみを抽出し、荷物画像データを抽出しなくてもよい。

ここで、特定画像データ抽出部１２０が人物画像データおよび荷物画像データを抽出する動作を説明するための具体例については、第１の実施の形態の説明で、図２～図３を用いて説明した通りである。

ここで、認識対象人物の骨格姿勢の推定方法は、第１の実施の形態の説明で、図４を参照して説明した通りである。

重量推定部１４０は、姿勢基準情報記憶部（図１１にて不図示）に、有線または無線により通信接続されている。重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する。ここでは、重量推定部１４０は、姿勢基準情報記憶部に記憶されている姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とに基づいて、認識対象人物により伴われている荷物の重量を推定する。

より具体的には、まず、重量推定部１４０は、姿勢基準情報記憶部に記憶されている姿勢基準情報を、有線または無線の通信によって、姿勢基準情報記憶部から取得する。そして、重量推定部１４０は、姿勢基準情報記憶部から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とに基づいて、認識対象人物により伴われている荷物の重量を推定する。より詳細には、重量推定部１４０は、姿勢基準情報記憶部から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。

ここで、姿勢基準情報記憶部に記憶されている姿勢基準情報については、第１の実施の形態の説明で、図５を用いて説明した通りである。

姿勢基準情報とは、たとえば、荷物を伴う人物の基準姿勢に関して、荷物の重量ごとに予め設定された情報である。すなわち、姿勢基準情報は、荷物を伴う人物の基準姿勢を荷物の重量ごとに特定した後、特定された基準姿勢と荷物の重量を互いに対応付けることにより、予め設定される。具体的には、特定の人物に様々な重量の荷物を伴わせて、荷物の重量ごとに特定の人物の姿を撮像部により予め撮像する。ここでの基準姿勢とは、荷物を伴う人物がとる一般的な姿勢をいい、たとえば、荷物を肩にかける姿勢や、荷物を背負う姿勢である。また、姿勢情報抽出部１３０によって、撮像部により撮像された特定の人物の姿から、姿勢情報を基準姿勢として抽出する。そして、基準姿勢と荷物の重量とを互いに対応つけることにより、姿勢基準情報として設定される。なお、姿勢基準情報は、肩掛け型のバッグ、バックパック型のバッグ、段ボール箱、手提げバッグ、キャリーケース型のバッグなど、荷物の種類ごとに設定されてもよい。

図５を参照して、姿勢基準情報記憶部には、姿勢基準情報の一例として、基準姿勢（腰の曲がり角度）と、荷物の重量との関係の対応表が記憶されている。図５を参照して、たとえば、基準姿勢（腰の曲がり角度）が１８０°の場合、荷物の重量を５ｋｇ以下と対応つけられている。同様に、基本姿勢が１６０°、１４０°、１２０°の場合、荷物の重量を１０ｋｇ、２０ｋｇ、３０ｋｇと対応付けられている。

図５を参照して、重量推定部１４０の具体的な動作については、第１の実施の形態の説明で、図５を参照して説明した通りである。すなわち、重量推定部１４０は、姿勢基準情報記憶部３００から、姿勢基準情報を取得する。そして、重量推定部１４０は、姿勢基準情報記憶部から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。

すなわち、たとえば、姿勢情報生成部１３０により生成された姿勢情報が１６０°であった場合、重量推定部１４０は、姿勢基準情報記憶部から取得された姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報（腰の曲がり角度）である１６０°とを比較する。また、重量推定部１４０は、姿勢情報（腰の曲がり角度）１６０°に対応する荷物の重量である１０ｋｇを抽出する。そして、重量推定部１４０は、認識対象人物により伴われている荷物の推定重量を、１０ｋｇと推定する。

つぎに、重量推定装置１００Ｃの動作について説明する。図１２は、重量推定装置１００Ｃの動作フローを示す図である。

図１２を参照して、まず、画像データ取得部１１０は、画像データを取得する（図６のステップ（図１２にてＳ１０）。より具体的には、画像データ取得部１１０は、カメラなどの撮像部により撮像された画像データを取得する。

つぎに、特定画像データ抽出部１２０は、画像データ取得部１１０により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する（図１２のＳ２０）。具体的には、特定画像データ抽出部１２０は、たとえば、特許文献３に記載の畳み込みニューラルネットワーク（ＣＮＮ）を使用して、特定の物体として、荷物および人物をそれぞれ検出する。そして、特定画像データ抽出部１２０は、荷物および人物の検出結果に基づいて、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する。

つぎに、姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに基づいて、姿勢情報を生成する（図１２のＳ３０）。なお、前述の通り、姿勢情報生成部１３０は、特定画像データ抽出部１２０により抽出された人物画像データに加えて、荷物画像データをも用いて、姿勢情報を生成してもよい。前述の通り、姿勢情報生成部１３０は、姿勢情報として、たとえば、認識対象人物の腰の曲がり具合（曲がり角度）を取得する。

つぎに、重量推定部１４０は、姿勢情報生成部１３０により生成された姿勢情報に基づいて、認識対象人物により伴われている荷物の重量を推定する（図１２のＳ４０）。前述の通り、より具体的には、重量推定部１４０は、姿勢基準情報記憶部に記憶されている姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較した結果に基づいて、認識対象人物により伴われている荷物の重量を推定する。前述の通り、たとえば、重量推定部１４０は、基準姿勢および荷物の重量が互いに対応付けられた姿勢基準情報と、姿勢情報生成部１３０により生成された姿勢情報とを比較して、姿勢情報生成部１３０により生成された姿勢情報（図５にて、たとえば、腰曲がり角度１６０°）に対応する荷物の重量（図５にて、たとえば、１０ｋｇ）を抽出する。

また、前述の各実施の形態の一部または全部は、以下のようにも記載されうるが、以下に限定されない。
（付記１）
画像データを取得する画像データ取得部と、
前記画像データ取得部により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する特定画像データ抽出部と、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成部と、
前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定部とを備えた重量推定装置。
（付記２）
前記重量推定部は、荷物を伴う人物の基準姿勢に関して前記荷物の重量ごとに予め設定された姿勢基準情報を取得し、前記姿勢基準情報と前記姿勢情報とを比較した結果に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する付記１に記載の重量推定装置。
（付記３）
前記特定画像データ抽出部に含まれる人物画像データ抽出部であって、前記画像データ取得部により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出部と、
前記特定画像データ抽出部に含まれる荷物画像データ抽出部であって、前記画像データ取得部により取得された画像データから、認識対象人物に伴われた荷物が映る画像領域の画像データを荷物画像データとして抽出する荷物画像データ抽出部と、
前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、連結画像データを生成する画像データ連結部と、
前記画像データ連結部により生成された連結画像データに基づいて、前記連結画像データに映る荷物の重さを出力するニューラルネットワーク制御部と、をさらに備え、
前記重量推定部は、前記ニューラルネットワーク制御部により出力される重さを、前記認識対象人物により伴われている前記荷物の重量として、推定する付記１に記載の重量推定装置。
（付記４）
前記認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する荷物動き情報取得部をさらに備え、
前記画像データ連結部は、前記荷物動き情報を含めて、前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、前記連結画像データを生成する付記３に記載の重量推定装置。
（付記５）
前記認識対象人物の動きに関する情報である人物動き情報を取得する人物動き情報取得部をさらに備え、
前記画像データ連結部は、前記人物動き情報を含めて、前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、前記連結画像データを生成する付記３に記載の重量推定装置。
（付記６）
前記認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する荷物動き情報取得部と、
前記認識対象人物の動きに関する情報である人物動き情報を取得する人物動き情報取得部とをさらに備え、
前記画像データ連結部は、前記荷物動き情報および前記人物動き情報を含めて、前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、前記連結画像データを生成する付記３に記載の重量推定装置。
（付記７）
前記重量推定部により推定された前記荷物の重量に関する情報を出力する出力部をさらに備えた付記１～６のいずれか１項に記載の重量推定装置。
（付記８）
前記出力部は、前記重量推定部により推定された前記荷物の重量が所定値以上の場合に、前記重量推定部により推定された前記荷物の重量が所定値以上であることを通知する付記７に記載の重量推定装置。
（付記９）
前記出力部は、前記重量推定部により推定された前記荷物の重量が所定値以上の場合に、前記所定値以上の重量の荷物を伴った人物が存在することを通知する付記７に記載の重量推定装置。
（付記１０）
前記重量推定部は、所定時間毎に、前記認識対象人物により伴われている前記荷物の重量を推定し、
前記出力部は、前記重量推定部により所定時間毎に推定された荷物の重量の時間的変化量に応じて、前記認識対象人物に伴われている荷物に重量に変化があったことを通知する付記７に記載の重量推定装置。
（付記１１）
画像データを取得する画像データ取得ステップと、
前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、
前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定ステップとを含む重量推定方法。
（付記１２）
画像データを取得する画像データ取得ステップと、
前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、
前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定ステップとを含む処理を、コンピュータに実行させる重量推定プログラム。
（付記１３）
画像データを取得する画像データ取得ステップと、
前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、
前記姿勢情報に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する重量推定ステップとを含む処理を、コンピュータに実行させる重量推定プログラムを記憶する記憶媒体。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１００、１００Ａ、１００Ｂ、１００Ｃ重量推定装置
１１０画像データ取得部
１２０、１２０Ａ特定画像データ抽出部
１２１人物画像データ抽出部
１２２荷物画像データ抽出部
１３０姿勢情報生成部
１４０重量推定部
１５０画像データ連結部
１６０ニューラルネットワーク制御部
１７１人物動き情報取得部
１７２荷物動き情報取得部
１９０出力部
２００撮像部
３００、３００Ａ姿勢基準情報記憶部

Claims

画像データを取得する画像データ取得部と、
前記画像データ取得部により取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出部と、
前記画像データ取得部により取得された画像データから、認識対象人物に伴われた荷物が映る画像領域の画像データを荷物画像データとして抽出する荷物画像データ抽出部と、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成部と、
前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、連結画像データを生成する画像データ連結部と、
前記画像データ連結部により生成された連結画像データに基づいて、前記連結画像データに映る荷物の重さを出力するニューラルネットワーク制御部と、
前記ニューラルネットワーク制御部により出力される重さを、前記認識対象人物により伴われている前記荷物の重量として推定する重量推定部とを備えた重量推定装置。
前記重量推定部は、荷物を伴う人物の基準姿勢に関して前記荷物の重量ごとに予め設定された姿勢基準情報を取得し、前記姿勢基準情報と前記姿勢情報とを比較した結果に基づいて、前記認識対象人物により伴われている前記荷物の重量を推定する請求項１に記載の重量推定装置。
前記認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する荷物動き情報取得部をさらに備え、
前記画像データ連結部は、前記荷物動き情報を含めて、前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、前記連結画像データを生成する請求項１に記載の重量推定装置。
前記認識対象人物の動きに関する情報である人物動き情報を取得する人物動き情報取得部をさらに備え、
前記画像データ連結部は、前記人物動き情報を含めて、前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、前記連結画像データを生成する請求項１に記載の重量推定装置。
前記認識対象人物により伴われている荷物の動きに関する情報である荷物動き情報を取得する荷物動き情報取得部と、
前記認識対象人物の動きに関する情報である人物動き情報を取得する人物動き情報取得部とをさらに備え、
前記画像データ連結部は、前記荷物動き情報および前記人物動き情報を含めて、前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、前記連結画像データを生成する請求項１に記載の重量推定装置。
前記重量推定部により推定された前記荷物の重量に関する情報を出力する出力部をさらに備えた請求項１～５のいずれか１項に記載の重量推定装置。
前記出力部は、前記重量推定部により推定された前記荷物の重量が所定値以上の場合に、前記重量推定部により推定された前記荷物の重量が所定値以上であることを通知する請求項６に記載の重量推定装置。
画像データを取得する画像データ取得ステップと、
前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、
前記取得された画像データから、認識対象人物に伴われた荷物が映る画像領域の画像データを荷物画像データとして抽出する荷物画像データ抽出ステップと、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、
前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、連結画像データを生成する画像データ連結ステップと、
前記連結画像データに基づいて、前記連結画像データに映る荷物の重さを出力するニューラルネットワーク制御ステップと、
前記出力される重さを、前記認識対象人物により伴われている前記荷物の重量として推定する重量推定ステップとを含む重量推定方法。
画像データを取得する画像データ取得ステップと、
前記取得された画像データから、荷物を伴う認識対象人物が映る画像領域の画像データを人物画像データとして抽出する人物画像データ抽出ステップと、
前記取得された画像データから、認識対象人物に伴われた荷物が映る画像領域の画像データを荷物画像データとして抽出する荷物画像データ抽出ステップと、
前記人物画像データに基づいて、前記認識対象人物の姿勢に関する姿勢情報を生成する姿勢情報生成ステップと、
前記荷物画像データと、前記姿勢情報を含む画像データとを連結して、連結画像データを生成する画像データ連結ステップと、
前記連結画像データに基づいて、前記連結画像データに映る荷物の重さを出力するニューラルネットワーク制御ステップと、
前記出力される重さを、前記認識対象人物により伴われている前記荷物の重量として推定する重量推定ステップとを含む処理を、コンピュータに実行させる重量推定プログラム。