JP2019070934A

JP2019070934A - 映像処理装置、映像処理方法およびプログラム

Info

Publication number: JP2019070934A
Application number: JP2017196383A
Authority: JP
Inventors: 有佐藤; Tamotsu Sato; 晋一樫本; Shinichi Kashimoto; 弘一香川; Koichi Kagawa; 利夫岡本; Toshio Okamoto; 田中　孝; Takashi Tanaka; 孝田中; 中谷　一郎; Ichiro Nakatani; 一郎中谷
Original assignee: Tollino Garden Co Ltd; Toshiba Digital Solutions Corp
Current assignee: Tollino Garden Co Ltd; Toshiba Digital Solutions Corp
Priority date: 2017-10-06
Filing date: 2017-10-06
Publication date: 2019-05-09
Also published as: JP2022145822A

Abstract

【課題】煩雑な設計作業を要さずに接客回数をカウントできるようにすること。【解決手段】実施形態によれば、映像処理装置は、解析部と、カウント部と、記憶部とを具備する。解析部は、店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別する。カウント部は、解析部により接客行動を含むと判別された回数をカウントする。記憶部は、カウントされた回数を記憶する。【選択図】図５

Description

実施形態は、映像処理装置、映像処理方法およびプログラムに関する。

飲食業に代表されるサービス業において再訪率は、重要な経営指標であり、顧客の店舗への再訪率を高めるために様々なコンサルティング手法がある。なかでも、顧客のテーブルを従業員が訪れ応対した回数（接客回数）を評価することは、再訪率を高めるための基礎的な事項である。そこで、店舗における接客回数を客観的に計測したいというニーズがあり、それに応えようとするサービス（ビジネス）が近年、展開されている。

例えば、客に扮したコンサルタントが店舗を訪れ、一定時間内の接客回数を目視でカウントするという手法がある。よりスマートには、店舗内を撮影したデータ（映像データ）を分析者（アナリスト）が見て、シーンにタグ付けし、“接客”としてタグ付けされた場面の数をカウントする手法もある。さらに、映像に含まれる人物の行動を判定する、人物行動判定装置が知られている。

特許第５２８５５７５号明細書

人物行動判定装置を応用すれば、店舗における接客行動を自動で検出できる可能性がある。しかしながら既存の技術では、接客行動に対応する特徴量や、行動条件に対応する辞書等を人手で設計する必要があった。このため専門家による膨大な作業を必要とし、コストも嵩む。システムを導入することは容易ではなく、大規模な異業種展開（横展開）も難しい。

そこで、目的は、設計作業を要さずに接客回数をカウント可能な映像処理装置、映像処理方法およびプログラムを提供することにある。

実施形態によれば、映像処理装置は、解析部と、カウント部と、記憶部とを具備する。解析部は、店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別する。カウント部は、解析部により接客行動を含むと判別された回数をカウントする。記憶部は、カウントされた回数を記憶する。

図１は、実施形態に係わる映像処理装置の一例を示すブロック図である。図２は、図１の映像処理装置１に備わる機能の一例を示す機能ブロック図である。図３は、記憶部６に記憶されるデータテーブルの一例を示す図である。図４は、解析部１１の機能の一例を示す機能ブロック図である。図５は、特徴量抽出部１１３のニューラルネットワークの一例を示す図である。図６は、映像処理装置１の処理を表すフローチャートである。図７は、解析部１１の処理を表すフローチャートである。図８は、映像データから切り出された画像フレームの一例を示す図である。図９は、映像データから切り出された画像フレームの他の例を示す図である。図１０は、接客回数に着目したコンサルティングシステムの概念図である。

以下に、実施形態について図面を参照して説明する。参照される図面は模式的なものである。以下の説明において、同じ機能及び構成を有する要素に、共通する参照符号を付して示す。

図１は、実施形態に係わる映像処理装置の一例を示すブロック図である。映像処理装置１は、プロセッサ２、ランダムアクセスメモリ（ＲＡＭ）３、読み出し専用メモリ（ＲＯＭ）４、記憶部６を備えるコンピュータである。さらに映像処理装置１は、ディスプレイ５、Ｉ／Ｏ部７、およびインタフェース（Ｉ／Ｆ）部８を備える。

プロセッサ２は、映像処理装置１全体の動作を制御する。例えばプロセッサ２は、ユーザによる操作やホスト機器（図示せず）からの命令に応答して、映像処理プログラムを実行する。またプロセッサ２は、ＲＡＭ３や記憶部６のメモリ空間を管理する。

プロセッサ２は、記憶部６に記憶されたプログラムをロードし、実行することで、実施形態において説明する各種の機能を実現する。プロセッサ２は、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、或いは、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ））、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（Simple Programmable Logic Device：ＳＰＬＤ）、複合プログラマブル論理デバイス（Complex Programmable Logic Device：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ））等のハードウェア資源である。また、ＣＰＵにＧＰＵ(Graphics Processing Unit）を組み合わせることも可能である。

ＲＡＭ３は、記憶部６からロードされたプログラムやデータを記憶する。また、ＲＡＭ３は、プロセッサ２の作業領域として使用される。ＲＡＭ３としては、例えばＤＲＡＭ等の半導体メモリが使用される。

ＲＯＭ４は、制御用のプログラムや制御データ等が予め記憶された不揮発性メモリである。ＲＯＭ４は、例えばＢＩＯＳ（Basic Input/Output System）を保持する。

記憶部６は、ユーザが解析に使用する映像ファイルや、映像処理によって生成されたデータを記憶する。また記憶部６は、映像処理に用いる種々のプログラム６ａや、プログラムに関連するデータを保持する。記憶部６に保持されたプログラム６ａは、映像処理装置１が当該プログラムを実行する際に読み出され、ＲＡＭ３に展開される。記憶部６としては、例えばＳＳＤ（Solid State Drive）や、ハードディスクドライブが使用される。尚、記憶部６はデータを記憶することが可能であれば良く、記憶部６としてその他の記録媒体を使用しても良い。

ディスプレイ５は、プロセッサ２の制御もとで、例えば種々のプログラムに対応するＧＵＩ（Graphical User Interface）等を表示する。例えばディスプレイ５は、映像処理の結果を再生するために使用される。

Ｉ／Ｏ部７は、主にユーザの操作を受け付けるヒューマンマシンインタフェースであり、マウス９やキーボードなどが接続される。
Ｉ／Ｆ部８は、例えばＬＡＮ（Local Area Network）とのインタフェースであり、ハブ（ＨＵＢ）などを経由して、映像処理装置１を外部ネットワーク（インターネット等）やクラウドコンピューティングシステム等に接続可能とする。

なお、図１に示される構成は一例であり、映像処理装置１はこれとは異なる構成をとることもできる。例えば、映像処理装置１が記憶部６及びディスプレイ５を備えていなくても良い。この場合、映像処理装置１には、記憶部６及びディスプレイ５がそれぞれ外部接続される。

図２は、図１の映像処理装置１に備わる機能の一例を示す機能ブロック図である。映像処理装置１は、実施形態に係わる処理機能として解析部１１、カウント部１２、および集計部１３を備える。解析部１１、カウント部１２、および集計部１３は、記憶部６のプログラム６ａの実行に際して生成されるプロセスとして、理解され得る。つまりプログラム６ａは、コンピュータとしての映像処理装置１を、解析部１１、カウント部１２、集計部１３、および記憶部６として機能させるための命令を含む。

解析部１１は、店舗の営業シーンを撮影した映像データを取得し、解析して、従業員の接客行動を含むシーンを判別する。すなわち解析部１１は、映像データの各フレームごとに、各テーブルで店員の接客行動が発生しているかどうかを判定する。判定の結果は、例えば０〜１の数値で示される推論確率（尤度）として出力される。

なお、例えば、客席に向けて定点カメラを店舗内に取り付ければ、従業員の接客行為を捕えた映像データを取得することができる。映像データはリアルタイムストリーミングで取得しても良いし、ネットワークサーバに蓄積されたのちダウンロードされても良い。あるいは、ＤＶＤ（Digital Versatile Disk）などの記録媒体に記録して事後的に解析部１１に与えても良い。

カウント部１２は、解析部１１により算出された行動判定結果に基づいて演算処理を行い、尤度を接客回数に変換する。例えば演算処理とは、解析部１１の出力の移動平均をとり、尤度が閾値以上の状態が既定長さ期間以上にわたって継続すれば、接客１回としてカウントする処理である。つまりカウント部１２は、解析部１１により接客行動を含むと判別された回数をカウントする。そしてカウント部１２は、顧客ごとの接客回数を、映像データに付随する補助的情報（メタデータ）と対応付けて記憶部６に保存する。
集計部１３は、カウント部１２の出力を集計し、平均接客回数などを算出する。

記憶部６は、実施形態に係わる画像処理機能を実現するためのプログラム６ａを、プロセッサ２が読み取り、実行することの可能な形式で記憶する。また記憶部６は、カウント部１２によりカウントされた接客回数、および接客回数に関連する補助的情報などを、例えばデータテーブルの形式で記憶する。

図３は、記憶部６に記憶されるデータテーブルの一例を示す図である。データテーブルは、映像データに、店舗種別（ブランド名）、どの店舗で撮影されたかを示す店舗名、日付、時間帯などの補助的情報（メタデータ）を対応付けたテーブル形式のデータである。さらに、各映像データ（映像データ１、２、…）ごとに、集計部１３により集計された平均接客回数が対応付けて記録される。

図４は、解析部１１の機能の一例を示す機能ブロック図である。解析部１１は、実施形態に係わる処理機能として、フレーム取得部１１１、前処理部１１２、特徴量抽出部１１３、行動判定部１１４、フレーム記憶部１１５、およびモデル記憶部１１６を備える。

フレーム取得部１１１、前処理部１１２、特徴量抽出部１１３、行動判定部１１４は、記憶部６のプログラム６ａが実行される際にクラウドコンピューティングシステムのリソースを利用する、例えばＷｅｂＡＰＩ（Application Programming Interface）の形式で実現されることができる。

プログラム６ａからＷｅｂＡＰＩを利用する際に、ＨＴＴＰ（HyperText aTransfer Protocol）リクエストをクラウドに送信すると、これに応じてＨＴＴＰレスポンスが、例えばＸＭＬ（Extensible Markup Language）、ＨＴＭＬ（HyperText Markup Language）、ＪＳＯＮ（JavaScript（登録商標） Object Notation）、各種の画像ファイル形式等のデータ形式で返送される。プログラム６ａは、このリクエスト−レスポンスに係わる一連の手順を実行するための命令を含む。つまり記憶部６のプログラム６ａは、コンピュータとしての映像処理装置１をフレーム取得部１１１として機能させるための命令と、前処理部１１２として機能させるための命令と、特徴量抽出部１１３として機能させるための命令と、行動判定部１１４として機能させるための命令とを含む。

フレーム取得部１１１は、入力された映像データの画像フレームを切り出し、フレーム記憶部１１５に画像フレーム１１５ａとして蓄積する。フレーム記憶部１１５は、フレーム取得部１１１が取得した画像フレーム１１５ａを記憶する。
前処理部１１２は、フレーム記憶部１１５に蓄積された過去の画像フレーム１１５ａと、フレーム取得部１１１により処理された画像フレームを用いて前処理を行う。すなわち前処理部１１２は、映像データを前処理して、フレーム間のオプティカルフローと勾配（Gradient）を算出し、特徴量抽出部１１３への入力に対応したデータとして整形する。

実施形態では、特徴量抽出部１１３において、ニューラルネットワークを用いて画像の特徴量を抽出することを考える。そこで前処理部１１２は、計算したオプティカルフローおよび勾配と、映像データの画像フレームとを含む複数次元のベクトルデータを生成し、特徴量抽出部１１３に渡す。例えば入力画像フレームとして（ＲＧＢ）の３次元データを与えるとすれば、フレーム間のオプティカルフロー（ＸＹ軸方向）の２次元、勾配（ＸＹ軸方向）の２次元の、合わせて７次元×画素数のベクトルデータが、ニューラルネットワークの入力層に入力される。

特徴量抽出部１１３は、入力層、中間層および出力層を有するニューラルネットワークを備える。このニューラルネットワークは、モデル記憶部１１６に保存された機械学習モデル１１６ａを反映する。機械学習モデル１１６ａは、画像フレームの特徴量の計算に際して特徴量抽出部１１３に読み込まれ、ＧＴ（Grand Truth）が与えられると、機械学習アルゴリズムに従って更新される。特徴量抽出部１１３は、前処理部１１２から取得したベクトルデータに対し、機械学習モデル１１６ａに基づく畳み込み演算により、画像フレームの特徴量を得る。つまり入力画像フレームの現在時刻に対応した特徴量が、出力層から出力される。

行動判定部１１４は、特徴量抽出部１１３から出力される特徴量から、現在時刻において、各テーブルにて従業員の接客行動が発生しているか否かを判別する。例えば、特徴量により示される尤度を用いた閾値判定により、対象とする画像フレームが従業員の接客行動を含むか否かを判別することができる。

図５は、特徴量抽出部１１３のニューラルネットワークの一例を示す図である。図５において、入力画像フレーム（ＲＧＢ、フレーム間のオプティカルフロー（ＸＹ軸方向）、および勾配（ＸＹ軸方向）を含む７次元の前処理済み画像フレームが、入力層４１に入力される。さらに、現在フレームだけでなく、時刻を過去に遡った方向の次元も持つ画像フレーム（１フレーム前画像、２フレーム前画像、…）を、入力層４１に入力しても良い。

中間層を含む畳み込み特徴量抽出層４２は、１つあるいは複数のニューラルネットワークによって構成され、空間的（ＸＹ画素方向）あるいは空間的かつ時間的（３次元方向：ＸＹ画素方向＋時刻方向）に画像を畳み込む。空間的な畳み込みと時間的な畳み込みは別々のニューラルネットワークで構成されていてもよい。さらに、複数のニューラルネットワークの出力に演算処理を施す構造をしていてもよい。

出力層を含む時系列情報保存層４３は、再帰型ニューラルネットワークによって構成され、その内部変数は、前時刻の内部状態ベクトルを保持する。畳み込み特徴量抽出層４２が出力した特徴量ベクトルと、保持されている内部状態ベクトルとを用いた演算により、行動判定結果を与えるベクトル（行動判定出力）が出力される。同時に、現在時刻に対応した内部状態ベクトルが算出され、この内部状態ベクトルは、次時刻の演算まで保持される。
次に、上記構成を基礎として、複数の実施の形態について説明する。

（第１の実施形態）
図６は、映像処理装置１の処理を表すフローチャートである。図６において、映像処理装置１は、解析部１１に映像データを入力する（ステップＳ２１）。解析部１１は、入力された映像データを解析し、フレーム毎の行動判定結果を数値化して出力する（ステップＳ２２）。つまり解析部１１は、従業員の接客行動を含むシーン（またはフレーム）を判別し、その結果を出力する（ステップＳ２２）。

次に、カウント部１２は、解析部１１からの出力に基づいて、接客行動を含むと判別された回数（接客回数）をカウントする（ステップＳ２３）。接客回数は、顧客ごとの平均値として出力されてもよい。カウント部１２が出力した接客回数は、映像データの補助的情報と対応付けられて、記憶部６に保存される（ステップＳ２４）。

ステップＳ２１〜ステップＳ２４の手順は、全ての映像データについて繰り返され（ステップＳ２５）、最後の映像データまでの処理が完了すると、集計部１３は、記憶部６に保存された映像データの補助的情報と接客回数とを集計する（ステップＳ２６）。

図７は、解析部１１の処理を表すフローチャートである。図７に示される処理手順は、図６のステップＳ２２に主に対応する。
図７において、特徴量抽出部１１３は、機械学習モデル１１６ａをモデル記憶部１１６からＲＡＭ３の記憶領域に読み込む（ステップＳ３１）。また、フレーム取得部１１１は、画像フレーム１１５ａから１つのフレームを切り出し（ステップＳ３２）、時系列の画像フレームの履歴を時刻情報（タイムスタンプ）とともにフレーム記憶部１１５に記憶する（ステップＳ３３）。

次に、前処理部１１２は、予め設定された数の画像フレームをフレーム記憶部１１５から取得し、フレーム間のオプティカルフローと勾配とを計算する。そして、計算したオプティカルフロー、勾配、および画像フレームをまとめて、特徴量抽出部１１３のニューラルネットワークに入力可能な形式に変換して、ベクトルデータを生成する（ステップＳ３４）。

次に、特徴量抽出部１１３は、前処理部１１２から与えられたベクトルデータをニューラルネットワークに入力し、接客行動に係わる特徴量を抽出する（ステップＳ３５）。行動判定部１１４は、特徴量抽出部１１３から出力された特徴量に対して演算処理を行い、テーブルごとに従業員の接客行動が発生しているかの判定結果を出力する（ステップＳ３６）。

次に、解析部１１は、入力された画像フレームに（または画像フレームに対応する時刻に）接客行動学習タグ情報が付与されているか否かを判定する（ステップＳ３７）。接客行動学習タグ情報は、いわゆるＧＴ（Grand Truth）であり、第１の実施形態においては、映像データを参照しながら人間により与えられるタグ情報である。

当該画像フレームに接客行動学習タグ情報が付与されていると（ステップＳ３７でＹＥＳ）、解析部１１は機械学習モデルを更新する（ステップＳ３８）。例えば、ニューラルネットワークからされた予測結果（尤度）と接客行動学習タグ情報との差分から損失関数を求め、逆誤差伝搬法により機械学習モデルを更新することができる。更新された機械学習モデルは、モデル記憶部１１６に保存される（ステップＳ３８）。そして、ステップＳ３１〜ステップＳ３８の手順が、映像データの終点に到達するまで繰り返される（ステップＳ３９）。

図８は、映像データから切り出された画像フレームの一例を示す図である。図８（ａ）に示されるフレームが現れたところで、人間（アナリスト）が「このフレームは（接客）を示している」と判断すると、例えばマウス９（図１）のクリック操作により、接客行動学習タグ情報（ＧＴ）が与えられる。そうすると機械学習モデルが更新され、例えば図８（ｂ）の画像フレームが現れると、このフレームの尤度として、例えば０．８といった高いスコアが与えられる。例えば０．５を閾値とすれば、図９（ａ）のフレームは「接客」としてカウントされることとなる。

一方、図９（ａ）のようなシーンの尤度は０．１、図９（ｂ）のようなシーンの尤度は０．２とする結果が得られるかもしれない。この場合、いずれのフレームも接客とはカウントされないことになる。そして、ＧＴを与える回数を増やしたり、時間の経過とともに機械学習モデルが更新され、「接客」行動の判定確率が高まってゆく。

重要な点は、以上の過程において、接客行動に対応する特徴量や行動条件に対応する辞書等を、人手で設計する必要が無かったという点である。つまり第１の実施形態に係わる映像処理装置１によれば、与えられたＧＴに基づくマシン側の演算処理により、店舗における接客行動が判定され、その精度が高まってゆくこととなる。

以上説明したように、第１の実施形態に係わる映像処理装置１では、画像フレーム、フレーム間のオプティカルフロー、勾配の７次元画像、あるいはさらにその時系列データを入力ベクトルとし、畳み込みニューラルネットワークと再帰型ニューラルネットワークを用いたディープラーニングにより、映像データから接客回数をカウントする認識手法を実現することができる。

すなわち、７次元の入力により従業員を識別する服の色、接客の動きという時系列要素を考慮した学習を実現できる。また、既存技術のデメリットである、接客の特徴量を抽出し、また辞書の作成に専門家の手間とコストがかかる点を払拭することが可能になる。つまり、店員の様態や時系列的動作を考慮した３次元的な動作推定を行い、ディープラーニングの学習データに接客行動が発生しているか否かを示すタグ情報を付与するだけで、接客行動の特徴量や辞書を人手で設計をすることなしに、接客回数を集計することが可能となる。ひいては、店舗再訪率向上のためのコンサルティングに活かすことができる。

これらのことから、第１の実施形態によれば、煩雑な設計作業を要さずに接客回数をカウント可能な映像処理装置、映像処理方法およびプログラムを提供することができる。

（第２の実施形態）
第２の実施形態では、自動カウントされた接客回数を、店舗再訪率向上のためのコンサルティングに活かすための技術について説明する。

図１０は、接客回数に着目したコンサルティングシステムの概念図である、図１０において、例えばチェーン展開された店舗ごとの映像データを映像処理装置１に投入し、店舗ごとの接客回数のカウントデータ、および集計データなどを算出する。チェーン店を展開する会社の規模によって店舗数は数百にもおよび、各店舗に設置された画像センサから取得された映像データは膨大な量になる。このようなデータは、いわゆるビッグデータとして映像処理装置１に与えられる。映像処理装置１のビッグデータ解析により得られた結果は、例えばコンサルティング会社の有するサーバに渡され、店舗経営に係わる多様なデータの分析に利用される。

第２の実施形態では、ＫＰＩ（Key Performance Indicator）と称される指標に着目する。ＫＰＩは、統計学の分野では古くから知られている指標であり、この実施形態では、カウントされた接客回数を統計的に処理して得られたＫＰＩにより、店舗経営のうえで有益な知見を得ることを考える。

サーバ１００は、大量の映像データから得られた店舗ごとの接客回数、集計データなどを統計的に処理し、接客回数、再訪率などの指標をＫＰＩとして数値化する。そして、接客回数と、例えば店舗ごとの売り上げなどの指標との関連性を分析する。このようなビッグデータ解析により、例えば、「接客回数の低下が、再訪率の低下を招き、数か月後の売り上げ低迷の予兆として現れる」といった知見を得られる可能性がある。

従来の技術では、例えば「店舗ごとの売り上げ」といった、ＰＯＳレジから得られる売上・客数・商品の出数など、容易に入手可能な会計に係るデータだけが注目され、お客様に対しての接客が行き届いているかなどの「接客回数」や、再来訪率などお客様の行動の変化といった、客観的に評価するのが困難な指標を組み込んだコンサルティングが難しかった。このため、いわゆる現場の感覚的な報告をベースに経営判断を行う、現場主義による短期的な経営分析や、過去の経験則に基づく主観的な判断となり、経営努力が必ずしも成果に結びつくとは言い難い面があった。

これに対し第２の実施形態では、「接客回数」をＫＰＩとして数値化し、ビッグデータ解析により、他の指標（売り上げなど）との関連性を見いだすようにした。従って第２の実施形態によれば、従来の感覚に頼った報告に基づく店舗経営ではなく、客観的な指標に基づいて店舗経営のコンサルティングを行うことが可能になり、ひいては、店舗オペレーションの改善に役立てることが可能になる。

なお、この発明は上記実施形態に限定されるものではない。
例えば図２において、映像処理に用いるプログラム６ａが記憶部６に記憶されているとしたが、これに限定される必要はない。例えば、映像処理装置１が実行するプログラムを、ネットワーク上のサーバ（図示せず）に保持しても良い。この場合、映像処理装置１が映像処理を実行する際に、種々のプログラムがネットワーク上のサーバから映像処理装置１に配信される。そして種々のプログラムを受信した映像処理装置１は、これらのプログラムをＲＡＭ３（図１）に展開して、映像処理を実行する。

また、実施形態では、ニューラルネットワークにより、画像フレームごとに接客行動の尤度を算出し、閾値判定により接客行動の有無を判別した。これに代えて、閾値以上の尤度を示すフレームに直接、「接客行動」を意味するタグ（フラグデータ）を付加し、タグの数をカウントすることによっても上記と同様の効果を得ることができる。これを実現するためには、解析部１１に、店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含むシーンにタグ付けしたタグ付き映像ファイルを出力する機能を持たせ、カウント部１２に、タグ付き映像ファイルのタグの数をカウントする機能を持たせ、記憶部６に、カウントされたタグの数を記憶させるようにすればよい。

このような構成によれば、「接客行動」タグを付与された映像データ（タグ付き映像ファイル）を自動で生成することが可能になり、コンサルティングの際に顧客に配布できるなどのメリットを得られる。

また、図５の説明において、畳み込み特徴量抽出層４２に、現在フレームと、それ以前のフレームとを入力する形態を示したが、これに限らず、現在フレームと、それ以前のフレームと、それ以後のフレームとを入力することも、もちろん可能である。なお現在フレームとは、「接客行動」含むか否かの判定の対象とするフレームであって、時間的に現時点でのフレームを意味するものではない。

映像データとして記録映像を入力とする場合、例えば、”…、２フレーム前、１フレーム前、現在フレーム、１フレーム後、２フレーム後、…”のように、現在フレームを含む前後期間の時系列データをニューラルネットワークに入力することができる。この場合、時系列情報保存層４３は、前時刻と次時刻両方の内部状態ベクトルを保持し、かつ、前と後ろの時刻に現在時刻の内部状態ベクトルを伝えることになる。つまり、“これまでどう動いていて、かつ、これからどう動くと接客なのかを考える”という、計算処理を実現できる。

すなわち、メディアデータとして記録された映像データを用いる場合、入力層４１から畳み込み特徴量抽出層４２に至る計算は、原理的は、全ての時刻について同時に計算することができる。そして、時系列情報保存層４３においては、過去と未来から順番に内部状態ベクトルの変化を別々に計算していき、現在時刻に合流したところでそれぞれを演算するという処理手順を実行しても良い。

さらに、実施形態では、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークについて説明したが、回帰結合型ニューラルネットワーク、ディープビリーフネットワーク、ディープボルツマンマシン、積層自己符号化器などのニューラルネットワークを適用することも可能である。

上記に説明した各装置及びシステムを実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、実行処理を行ってもよい。なお「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアだけに限らず、通信ネットワークおよびクラウドコンピューティングシステムを含むものであってもよい。

本発明の実施形態を説明したが、この実施形態は例として提示するものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

上記の実施形態の一部または全部は、例えば（付記１）、（付記２）のようにも記載されることができる。しかし、（付記１）、（付記２）の内容に限定されるものではない。
（付記１）
映像データを解析可能なプロセッサと、メモリとを具備し、
前記プロセッサは、
店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別し、
前記接客行動を含むと判別された回数をカウントし、
前記回数を前記メモリに記憶させる、映像処理装置。

（付記２）
店舗の営業シーンを含む映像ファイルを解析して、従業員の接客行動を含むシーンにタグ付けしたタグ付き映像ファイルを出力する解析部と、
前記タグ付き映像ファイルの前記タグの数をカウントするカウント部と、
前記カウントされたタグの数を記憶する記憶部とを具備する、映像処理装置。

１…映像処理装置、２…プロセッサ、３…ＲＡＭ、４…ＲＯＭ、５…ディスプレイ、６…記憶部、６ａ…プログラム、７…Ｉ／Ｏ部、８…Ｉ／Ｆ部、９…マウス、１１…解析部、１２…カウント部、１３…集計部、４１…入力層、４２…畳み込み特徴量抽出層、４３…時系列情報保存層、１１１…フレーム取得部、１１２…前処理部、１１３…特徴量抽出部、１１４…行動判定部、１１５…フレーム記憶部、１１５ａ…画像フレーム、１１６…モデル記憶部、１１６ａ…機械学習モデル、１００…サーバ。

Claims

店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別する解析部と、
前記解析部により前記接客行動を含むと判別された回数をカウントするカウント部と、
前記回数を記憶する記憶部とを具備する、映像処理装置。
前記解析部は、
前記映像データからフレーム単位で特徴量を抽出する特徴量抽出部と、
前記抽出された特徴量に基づいて、前記接客行動を含むシーンを判別する判別部とを備える、請求項１に記載の映像処理装置。
前記特徴量抽出部は、
前記映像データに基づくベクトルデータを入力される入力層と、前記特徴量を出力する出力層とを備え、機械学習モデルに基づく畳み込み演算により前記特徴量を得るニューラルネットワークを備える、請求項２に記載の映像処理装置。
前記解析部は、
前記映像データを前処理して、前記映像データの画像フレームと、前記画像フレーム間のオプティカルフローと、前記画像フレーム間の勾配とを含む複数次元のベクトルデータを生成して前記入力層に入力する前処理部をさらに具備する、請求項３に記載の映像処理装置。
前記前処理部は、前記映像データを前処理して、前記ベクトルデータの時系列データを生成して前記入力層に入力する、請求項４に記載の映像処理装置。
前記ニューラルネットワークは、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークの少なくともいずれかを含む、請求項３乃至５のいずれか１項に記載の映像処理装置。
コンピュータが、店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別する解析過程と、
前記コンピュータが、前記解析過程において前記接客行動を含むと判別された回数をカウントする過程と、
前記コンピュータが、前記回数を記憶する過程とを具備する、映像処理方法。
前記解析過程は、
前記コンピュータが、前記映像データからフレーム単位で特徴量を抽出する特徴量抽出過程と、
前記コンピュータが、前記抽出された特徴量に基づいて、前記接客行動を含むシーンを判別する過程とを備える、請求項７に記載の映像処理方法。
前記特徴量抽出過程は、前記映像データに基づくベクトルデータを入力される入力層と、前記特徴量を出力する出力層とを備え、機械学習モデルに基づく畳み込み演算により前記特徴量を得るニューラルネットワークにより前記特徴量を抽出する、請求項８に記載の映像処理方法。
前記解析過程は、
前記コンピュータが、前記映像データを前処理して、前記映像データの画像フレームと、前記画像フレーム間のオプティカルフローと、前記画像フレーム間の勾配とを含む複数次元のベクトルデータを生成して前記入力層に入力する前処理過程をさらに具備する、請求項９に記載の映像処理方法。
前記前処理過程は、前記コンピュータが、前記映像データを前処理して、前記ベクトルデータの時系列データを生成して前記入力層に入力する、請求項１０に記載の映像処理方法。
前記ニューラルネットワークは、畳み込みニューラルネットワークおよび再帰型ニューラルネットワークの少なくともいずれかを含む、請求項９乃至１１のいずれか１項に記載の映像処理方法。
コンピュータを、
店舗の営業シーンの映像データを解析して、従業員の接客行動を含むシーンを判別する解析部として機能させるための命令と、
前記解析部により前記接客行動を含むと判別された回数をカウントするカウント部として機能させるための命令と、
前記回数を記憶する記憶部として機能させるための命令とを含む、プログラム。