JP2020077942A

JP2020077942A - 領域設定装置、領域設定方法、及びプログラム

Info

Publication number: JP2020077942A
Application number: JP2018209110A
Authority: JP
Inventors: 道生小林; Michio Kobayashi
Original assignee: Paronym Inc
Current assignee: Paronym Inc
Priority date: 2018-11-06
Filing date: 2018-11-06
Publication date: 2020-05-21

Abstract

【課題】アイテム領域の設定作業を軽減させること。【解決手段】本開示に係る領域設定装置は、動画データに同期させてアイテム領域を設定する。領域設定装置は、前記動画データに含まれるフレームから対象画像を特定すること、及び、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けることを行う。【選択図】図８

Description

本発明は、領域設定装置、領域設定方法、及びプログラムに関する。

特許文献１、２には、動画データと、その動画データに対応するメタデータとに基づいて、動画を再生しつつ、動画の画像の動きに合わせてアイテム領域を設定することが記載されている。そして、動画再生装置上で視聴者がアイテム領域を選択すると、そのアイテム領域に対応するイベント動作が実行されることになる。例えば、視聴者がタッチパネルで動画内のバッグをタッチすると、動画再生装置は、そのバッグの販売ページを表示することになる。動画データに対応するメタデータには、アイテム領域を示すデータや、アイテム領域に対応するイベント情報（販売ページのリンク先等）が設定されている。

また、非特許文献１〜３には、動画中の物体を自動追跡する手法が記載されている。非特許文献１に記載の手法（Kernelized Correlation Filter：以下、ＫＣＦ）によれば、対象となる物体を学習しつつ、物体の追跡が行われることになる。

特許第６２３２６３２号公報特許第６２７００８６号公報

Henriques, J., Caseiro, R., Martins, P., & Batista, J. Exploiting the circulant structure of tracking-by-detection with kernels. In proceedings of the European Conference on Computer Vision, 2012. Danelljan, M., Khan, F. S., Felsberg, M., & Weijer, J. Van De.: Adaptive Color Attributes for Real-Time Visual Tracking. In CVPR2014. David S. Bolme, J. Ross Beveridge, Bruce A. Draper, Yui Man Lui. "Visual Object Tracking using Adaptive Correlation Filters." ICCV (2010).

動画データには多数のフレームがあるため（例えば１秒間あたり３０フレーム）、全フレーム分のアイテム領域を設定する作業は、膨大な作業量となる。特許文献１では、アイテム領域の設定の作業量を軽減させるため、動画データの中から時間間隔をあけてキーフレームを抽出し、それぞれのキーフレームのアイテム領域を設定した後、キーフレームに設定されたアイテム領域に基づいて、キーフレーム間のフレームのアイテム領域を補間して求めている。但し、このような設定方法であっても、多数のキーフレームに対してアイテム領域を設定する作業は膨大な作業量となる。

本発明は、アイテム領域の設定作業を軽減させることを目的とする。

上記の目的を達成するための主たる発明は、動画データに同期させてアイテム領域を設定する領域設定装置であって、前記動画データに含まれるフレームから対象画像を特定すること、及び、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けることを行うことを特徴とする領域設定装置である

本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。

本発明によれば、アイテム領域の設定作業を軽減させることができる。

図１は、本実施形態の動画配信システムの全体説明図である。図２は、全体シーケンスの説明図である。図３は、動画データとフレーム対応データを含むメタデータの説明図である。図４Ａ〜図４Ｄは、ユーザー端末１０での基本動作の説明図である。図５は、動画再生時にユーザー端末１０が行う画像生成処理のフロー図である。図６は、選択領域判断処理のフロー図である。図７Ａ及び図７Ｂは、商品アイコン３２Ａが選択されたときの様子の説明図である。図７Ｃ及び図７Ｄは、購入手続ボタン３２Ｃ（カートアイコン）が選択されたときの様子の説明図である。図８は、第１実施形態のアイテム領域の設定処理のフロー図である。図９は、教師ラベルの説明図である。図１０は、キーフレームの説明図である。図１１は、Ｓ２０７の説明図である。図１２は、第２実施形態の全体シーケンスの説明図である。図１３Ａは、ユーザー端末１０上で視聴者が入力を行うときの様子の説明図である。図１３Ｂは、ユーザー端末１０が動画配信サーバー２に送信するデータの説明図である。図１４は、Ｓ１２２において動画配信サーバー２が行う設定処理のフロー図である。図１５Ａ及び図１５Ｂは、入力分布データの説明図である。図１６Ａ及び図１６Ｂは、Ｓ３０４の特定処理の説明図である。

後述する明細書及び図面の記載から、少なくとも以下の事項が明らかとなる。

動画データに同期させてアイテム領域を設定する領域設定装置であって、前記動画データに含まれるフレームから対象画像を特定すること、及び、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けることを行うことを特徴とする領域設定装置が明らかとなる。このような領域設定装置によれば、アイテム領域の設定作業を軽減させることができる。

前記自動追跡処理によって検出された前記対象画像の信頼度に応じたスコアを求めること、前記信頼度の低い前記スコアの前記フレームが連続する時間帯では時間間隔が短くなるように、前記スコアに応じて前記動画データの中から複数のキーフレームを設定すること、前記フレームに設定されている前記アイテム領域が編集されたとき、前記アイテム領域の編集された編集フレームと、前記キーフレームとの間のフレームに対応するアイテム領域を、前記編集フレームの編集後の前記アイテム領域と、前記キーフレームのアイテム領域とに基づいて、補間して設定することを更に行うことが望ましい。これにより、アイテム領域の設定作業を効率的に行うことと、補間処理によって設定されたアイテム領域と追跡対象の画像とのズレを抑制することとを両立できる。

前記編集フレームをキーフレームに設定することが望ましい。これにより、その後に他のフレームのアイテム領域が編集されても、編集フレームのアイテム領域が変更されてしまうことを防止できる。

視聴者が入力操作を行った入力時間及び入力座標を示す入力ポイントを複数の動画再生装置から取得すること、前記入力ポイントの集中する領域に基づいて、前記対象画像を特定することを行うことが望ましい。これにより、自動追跡処理の対象画像を設定する作業が容易になる。

複数の前記動画再生装置から取得した前記入力ポイントに基づいて、前記視聴者の入力状況を示す入力分布データを作成すること、前記入力分布データにおいて前記入力ポイントの集中する前記入力時間と入力範囲を特定すること、前記入力ポイントの集中する前記入力時間に対応する前記フレームから、前記入力範囲に対応する画像を特定することによって、前記対象画像を特定すること、を行うことが望ましい。これにより、入力ポイントの集中する領域を特定する作業が容易になる。

前記入力ポイントの前記入力時間を時間方向に広げるとともに、前記入力ポイントの前記入力座標を２次元方向に広げて、複数の前記入力ポイントのデータを重畳させることによって、前記入力分布データを作成することが望ましい。これにより、視聴者の入力状況が入力分布データに表れやすくなる。

前記入力ポイントの前記入力時間を時間方向に広げるとき、前記入力時間に近いほど大きい多値データを付与し、前記入力ポイントの前記入力座標を２次元方向に広げるとき、前記入力座標に近いほど大きい多値データを付与し、複数の前記入力ポイントによる前記多値データを重畳して、前記入力分布データを作成することが望ましい。これにより、視聴者の入力状況が入力分布データに更に表れやすくなる。

前記入力ポイントの集中する領域に基づいて前記対象画像が特定されたときに、報知処理を行うことが望ましい。これにより、入力ポイントの集中する領域が存在していることを把握することができる。

前記報知処理に伴って商品データが登録された場合、前記アイテム領域に前記商品データを対応付けて前記メタデータを作成することが望ましい。これにより、新規に設定されたアイテム領域に新規登録された商品データを対応付けてメタデータを作成することができる。

動画データに同期させてアイテム領域を設定する領域設定方法であって、前記動画データに含まれるフレームから対象画像を特定すること、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び、前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けることを行うことを特徴とする領域設定方法が明らかとなる。このような領域設定方法によれば、アイテム領域の設定作業を軽減させることができる。

動画データに同期させてアイテム領域を設定する領域設定装置に、前記動画データに含まれるフレームから対象画像を特定すること、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び、前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けることを行わせるプログラムが明らかとなる。このようなプログラムによれば、アイテム領域の設定作業を軽減させることができる。

＝＝＝第１実施形態＝＝＝
＜全体説明＞
図１は、本実施形態の動画配信システムの全体説明図である。

動画配信システムは、管理者端末１と、動画配信サーバー２と、領域設定装置６と、ユーザー端末１０とを備えている。管理者端末１、動画配信サーバー２、領域設定装置６及びユーザー端末１０は、通信ネットワーク９を介して通信可能に接続されている。通信ネットワーク９は、例えば、インターネット、電話回線網、無線通信網、ＬＡＮ、ＷＡＮなどであり、ここではインターネットを想定している。

管理者端末１は、動画データをアップロードする端末である。ここでは、管理者端末１は、動画データとともに商品データもアップロードする。但し、動画データをアップロードする端末（管理者端末１）と、商品データをアップロードする端末とが別々でも良い。管理者端末１は、例えば商品（アイテム）を販売する販売会社の端末であり、動画データは、例えば販売対象となる商品の宣伝用動画のデータである。但し、管理者端末１は、このような販売会社の端末に限られるものではないし、動画データも宣伝用動画に限られるものではない。管理者端末１がアップロードする商品データには、商品に関するデータ（例えば、商品名、商品説明、画像（静止画）、在庫、価格、販売期間などの商品データ）が含まれている。なお、本実施形態の商品は、物に限られず、サービス（の提供）も含んでいる。例えば、商品（サービス）には、催し物などの「参加申し込み」や、将来の商品の購入を約束する「事前予約申し込み」なども含まれる。

動画配信サーバー２は、動画データと、動画データに対応付けられたメタデータとを配信するサーバーである。動画配信サーバー２は、管理者端末１から動画データと商品データを受信し、動画データベース３Ａと商品データベース４Ａを作成する。動画配信サーバー２は、ユーザー端末１０からのリクエストに応じて、動画データベース３Ａから必要な動画データを抽出し、動画データと、その動画データに対応するメタデータとをユーザー端末１０に配信する。動画配信サーバー２は、商品の売買の決済処理を行い、商品データベース４Ａの更新を行う。また、後述するように、動画配信サーバー２は、領域設定装置６からアイテム領域を示すデータ（フレーム対応データ：後述）を受信し、アイテム領域データベース３Ｂを作成する。

本実施形態では、動画配信サーバー２は、動画管理サーバー３と、商品管理サーバー４とにより構成されている。動画管理サーバー３は、多数の動画データを管理・配信するためのサーバーである。動画管理サーバー３は、プログレッシブダウンロード形式で動画データを配信する。但し、動画データの配信方法は、ストリーミング形式でも良いし、動画データファイルを一括してユーザー端末１０にダウンロードさせる形式でも良い。商品管理サーバー４は、メタデータの配信や決済処理を行うサーバーであり、メタデータ配信サーバーでもある。なお、商品管理サーバー４は、メタデータの配信を行うサーバー（メタデータ配信サーバー）と、決済処理を行うサーバー（決済サーバー）とで構成されても良い。また、動画配信サーバー２が、動画管理サーバー３と商品管理サーバー４とに分かれて構成されていなくても良い。

領域設定装置６は、メタデータの一部となるアイテム領域（後述）の設定を行う装置である。領域設定装置６は、動画配信サーバー２から動画データ及び商品データをダウンロードし、動画内のアイテムの領域（アイテム領域）を設定する。領域設定装置６は、アイテム領域を示すデータ（フレーム対応データ：後述）を動画配信サーバー２にアップロードする。

本実施形態では、領域設定装置６は、領域設定端末６Ａと自動追跡処理端末６Ｂとにより構成されている。領域設定端末６Ａは、アイテム領域の設定を行う端末である。自動追跡処理端末６Ｂは、動画データの複数のフレームから追跡対象の画像を自動追跡処理によって検出する端末である。なお、領域設定装置６は、領域設定端末６Ａ及び自動追跡処理端末６Ｂの２台の端末で構成されなくても良い。例えば、領域設定端末６Ａが自動追跡処理を行っても良い（つまり、領域設定装置６が１台の端末（領域設定端末６Ａ）から構成されても良い）。また、動画配信サーバー２が自動追跡処理を行っても良い。なお、本実施形態では、アイテムとなる商品の購入時の様子を説明することによって、アイテム領域やアイテム領域の設定の様子を説明している。但し、アイテム領域は、商品の領域以外の領域を示すものでも良い。また、アイテム領域やアイテム領域の設定が、商品の購入を目的としていなくても良い。

ユーザー端末１０は、動画再生可能な情報端末（動画再生装置）である。ユーザー端末１０は、ＣＰＵ１１、主記憶装置１２、補助記憶装置１３、通信モジュール１４、表示部１５（表示装置）、入力部１６（入力装置）などのハードウェアを備えている。ここでは、ユーザー端末１０は、タブレット型の携帯端末を想定しており、タッチパネル１７によって表示部１５及び入力部１６が構成されている。但し、ユーザー端末１０がパーソナルコンピュータでも良く、この場合、入力部１６は例えばキーボードやマウスで構成され、表示部１５は例えば液晶ディスプレイで構成されても良い。

ユーザー端末１０のＣＰＵ１１が、補助記憶装置１３に記憶されているプログラムを主記憶装置１２に読み出して実行することによって、後述する各種処理が実行されることになる。つまり、ユーザー端末１０のＣＰＵ１１及び主記憶装置１２によって、動画再生装置の制御部が構成されている。ユーザー端末１０の制御部は、動画再生処理などの各種処理（後述）を制御する。

図２は、全体シーケンスの説明図である。

管理者端末１は、動画データ及び商品データを動画配信サーバー２にアップロードする（Ｓ１０１）。動画データは、連続する複数のフレームから構成されたデータである。管理者端末１からアップロードされた動画データには、商品の映し出された多数のフレームが含まれている。また、管理者端末１からアップロードされた商品データには、商品名、商品説明、画像（静止画）、在庫、価格、販売期間などが含まれている。

領域設定装置６は、動画配信サーバー２に登録されている動画データ及び商品データをダウンロードし（Ｓ１０２）、その動画に映し出された商品の領域をアイテム領域として設定する（Ｓ１０３）。領域設定装置６は、各フレームのアイテム領域を設定した後（Ｓ１０３の後）、アイテム領域の設定されたフレーム対応データを動画配信サーバー２にアップロードする（Ｓ１０４）。これにより、アイテム領域データベース３Ｂ（図１参照）が作成されることになる。

動画配信サーバー２は、ユーザー端末１０から動画再生リクエストを受けると（Ｓ１０５）、動画データ、メタデータ及び制御プログラムをユーザー端末１０に配信する（Ｓ１０６）。図３は、動画配信サーバー２が配信するデータの説明図である。

動画データは、連続したフレームから構成されている。動画データに含まれるフレームを順次切り替えて表示させることによって、動画が再生されることになる。以下の説明では、或るフレームに女優の映像が含まれており、この女優のバッグ、服及び靴が、販売対象となる商品（アイテム）であるものとする。

メタデータは、動画データに付随する付加データである。本実施形態では、メタデータは、フレーム対応データと、参照テーブルとを有する。

フレーム対応データは、動画データのフレームに対応付けられたメタデータである。フレーム対応データは、タイムコードと、アイテム情報とを備えている。タイムコードは、時間を示すデータであり、フレームに対応付けるためのデータ（動画に同期させるためのデータ）である。フレーム対応データのアイテム情報は、アイテムＩＤと、アイテム領域データとから構成されている。アイテムＩＤは、アイテム（商品）の識別子である。アイテム領域データは、アイテム領域の位置や範囲を示すデータであり、アイテム領域を設定するためのデータである。本実施形態では、アイテム領域が矩形であるため、アイテム領域データは、矩形領域の設定に必要な対角の２点の座標データから構成されている。但し、アイテム領域は、矩形に限られるものではなく、例えば円形でも良く、この場合のアイテム領域データは、例えば中心点の座標と半径を示すデータから構成される。このように、各フレームに対してアイテム領域が予め設定されている。但し、全てのフレームに対してアイテム領域を設定する必要は無く、例えばアイテムの表示されないフレームに対しては、アイテム領域が設定されなくても良い。なお、メタデータのフレーム対応データは、アイテム領域データベース３Ｂから対応するアイテムのデータが抽出されることによって作成されたデータである。

参照テーブルは、動画データに含まれるアイテム（商品）のデータテーブルである。参照テーブルは、アイテムＩＤと、商品データとを備えている。アイテムＩＤは、アイテム（商品）の識別子である。なお、メタデータの商品データは、動画配信サーバー２の商品データベース４Ａ（管理者端末１からアップロードされた商品データ（図２：Ｓ１０１））から作成されたデータである。

制御プログラムは、ユーザー端末１０の動作（後述）を制御するプログラムである。ここでは、制御プログラムは、ユーザー端末１０の動画再生機能を拡張させるプログラムである。後述するように、制御プログラムは、動画再生時の拡張機能として、領域設定機能、ストック機能（カート機能）及び決済機能をユーザー端末１０に実現させることになる。領域設定機能、ストック機能及び決済機能については、後述する。なお、制御プログラムが、動画データを再生する動画再生機能を有していても良い。本実施形態では、動画配信サーバー２は、動画データを配信する際に、領域設定機能、ストック機能及び決済機能を有する制御プログラムを動画データに付随させて配信することになる。但し、ユーザー端末１０に予め制御プログラムがインストールされていれば、動画配信サーバー２は、動画データの配信時に制御プログラムを配信しなくても良い。

ユーザー端末１０は、動画配信サーバー２から受信した動画データに基づいて、動画を再生する（Ｓ１０７）。また、ユーザー端末１０は、動画再生時に、動画データに同期させて、メタデータに基づいてアイテム領域を設定する（領域設定機能）。動画配信サーバー２からユーザー端末１０に配信した制御プログラムは、ユーザー端末１０に、動画データに同期させてアイテム領域を設定させる。

図４Ａ〜図４Ｄは、ユーザー端末１０での基本動作の説明図である。図５は、動画再生時にユーザー端末１０が行う画像生成処理のフロー図である。ユーザー端末１０の制御部は、図５の画像生成処理を繰り返し行うことによって、動画再生のための画像を次々と表示し、動画を再生する。なお、図５のＳ００１の処理は、ユーザー端末１０の有する動画再生プログラム（動画再生機能）による処理であり、Ｓ００２〜Ｓ００４の処理は、動画配信サーバー２から受信した制御プログラム（領域設定機能）による処理である。

まず、ユーザー端末１０は、受信した動画データに基づいて、表示すべき画像（フレーム）を生成する（Ｓ００１）。ここでは、バッグを持った女優の画像が生成されることになる（図４Ａ参照）。なお、この画像の中のバッグ、服及び靴が、販売対象となる商品（アイテム）である。次に、ユーザー端末１０は、表示すべき画像（フレーム）のタイムコードに対応するフレーム対応データを取得する（Ｓ００２）。次に、ユーザー端末１０は、フレーム対応データに含まれるアイテム領域データに基づいて、アイテム領域を示す枠３１の画像を生成する（Ｓ００３）。ここでは、バッグ、服及び靴のそれぞれの領域に枠３１の画像が生成されることになる（図４Ａ参照）。そして、ユーザー端末１０は、Ｓ００１で生成した画像に、Ｓ００３で生成した枠３１の画像を重ね合わせた画像を生成する（Ｓ００４）。これにより、図４Ａに示す画像がユーザー端末１０のタッチパネル１７の動画表示部２１Ａに表示されることになる。言い換えると、ユーザー端末１０は、ユーザー端末１０の動画再生プログラムによって動画データから動画レイヤを生成し（Ｓ００１）、制御プログラム（領域設定機能）によってフレーム対応データから枠画像レイヤを生成し（Ｓ００２、Ｓ００３）、動画レイヤと枠画像レイヤを重ね合わせることによって図４Ａに示す画像を表示する。

動画再生時にはフレームが順次切り替えられて表示されるため、動画に追随するようにアイテム領域も刻々と変化するように設定されている。動画再生中に枠３１を表示する場合には、枠３１も刻々と変形することになる。なお、アイテム領域を示す枠３１は、動画再生中に表示しても良いし、非表示にしても良い。

図４Ｂに示すように、視聴者が、動画内のアイテム（例えばバッグ）に興味を持ったときに、動画表示部２１Ａに表示されているアイテムの画像をタッチすることがある。ユーザー端末１０は、視聴者からの入力部１６（例えばタッチパネル１７）による入力操作（例えばタッチ操作）があったときに、視聴者がアイテム領域を選択したか否かを判断する。

図６は、選択領域判断処理のフロー図である。なお、図６の各処理は、動画配信サーバー２から受信した制御プログラム（領域設定機能）による処理である。

まず、ユーザー端末１０は、視聴者が入力した位置を示す入力座標を取得する（Ｓ０１１）。次に、ユーザー端末１０は、視聴者が入力操作（例えばタッチ操作）した時のフレーム対応データを取得する（Ｓ０１２）。次に、ユーザー端末１０は、取得したフレーム対応データで設定されているアイテム領域と、入力座標とを比較する（Ｓ０１３）。そして、入力座標がアイテム領域の範囲内の場合（Ｓ０１４でＹＥＳ）、視聴者がアイテム領域を選択したと判断する（Ｓ０１５）。また、入力座標がアイテム領域の範囲外の場合（Ｓ０１４でＮＯ）、アイテム領域以外の領域（非アイテム領域）が選択されたと判断する（Ｓ０１６）。

ユーザー端末１０は、視聴者がアイテム領域を選択したことを検出すると（図２：Ｓ１０８：例えば視聴者の指でアイテム領域がタッチ操作されたことを検出すると）、そのアイテム領域に対応付けられたアイテム情報をストック情報として記憶する。そして、図４Ｃに示すように、ユーザー端末１０は、所定のアイテム情報がストック情報として記憶されると、タッチパネル１７のストック情報表示部２１Ｃにストック情報（ストックされたアイテム情報）に対応する商品アイコン３２Ａを表示する。この商品アイコン３２Ａは、メタデータの参照テーブルの商品データに含まれている画像（静止画）のデータに基づいている。ストック情報表示部２１Ｃにアイテム情報に対応する商品アイコン３２Ａ（例えばバッグの画像）を表示することによって、視聴者は、希望する商品をストックさせたことを認識できる。なお、アイテム情報をストック情報としてユーザー端末１０に記憶させる処理や、ストック情報に対応する商品アイコン３２Ａをユーザー端末１０に表示させる処理は、図３に示す制御プログラムのストック機能（カート機能）による処理である。

ユーザー端末１０は、視聴者がアイテム領域を選択したことを検出した後、更に視聴者が所定操作を行ったことを検出したときに、そのアイテム領域に対応付けられたアイテム情報をストック情報として記憶しても良い。このときの所定操作としては、例えば、タッチ操作（タップ操作）、所定時間以上の長押し操作、フリック操作、ドラッグ操作（ドラッグアンドドロップ操作）などである。例えば、ユーザー端末１０は、視聴者がタッチパネル１７のバッグを所定時間（例えば３秒間）長押ししたときに、そのバッグのアイテム情報をストックさせても良い。

また、ユーザー端末１０は、視聴者がアイテム領域を選択したことを検出する度に、ストック情報を蓄積する。これにより、図４Ｄに示すように、ユーザー端末１０は、複数のストック情報を記憶することができる。また、ユーザー端末１０は、アイテム領域が選択されたとき（ストック情報を記憶したとき）には、動画を中断させずに、動画の再生を継続する。これにより、動画の視聴が中断されてしまうことを抑制できる。

図７Ａ及び図７Ｂは、商品アイコン３２Ａが選択されたときの様子の説明図である。ユーザー端末１０は、視聴者がストック情報表示部２１Ｃの商品アイコン３２Ａ（商品の画像）を選択したことを検出すると（図７Ａ参照）、その商品アイコン３２Ａに対応する商品の商品説明画面を表示する（図７Ｂ参照）。商品説明画面に含まれる情報は、メタデータの参照テーブルに含まれる商品データ（図３参照）に基づいている。商品説明画面を表示することにより、視聴者に商品購入のための判断材料を提供することができる。商品説明画面には、削除ボタン３２Ｂが含まれていても良い。ユーザー端末１０は、視聴者が削除ボタン３２Ｂを選択したことを検出すると、対応するストック情報を削除することになる。

図７Ｃ及び図７Ｄは、購入手続ボタン３２Ｃ（カートアイコン）が選択されたときの様子の説明図である。ユーザー端末１０は、視聴者が購入手続ボタン３２Ｃを選択したことを検出すると（図７Ｃ参照）、決済処理を行う。決済処理は、動画配信サーバー２から受信した制御プログラム（決済機能）による処理である。決済処理として、ユーザー端末１０は、図７Ｄに示す決済画面を表示する（Ｓ１０９）。決済画面には、決済対象となる商品の情報や、購入決定ボタン３２Ｄが表示される。決済画面に含まれる商品の情報は、メタデータの参照テーブルに含まれる商品データに基づいている。なお、本実施形態では、複数の商品の決済を一括して行うことができる。これにより、決済までに必要な操作を軽減できるとともに、動画の視聴が中断されてしまうことを抑制できる。

ユーザー端末１０は、商品説明画面（図７Ｂ）や決済画面（図７Ｄ）を表示するとき、動画の再生を中断させている。但し、ユーザー端末１０は、再生中の動画とともにマルチ画面として、商品説明画面や決済画面を表示しても良い。
また、ユーザー端末１０は、動画データとともに配信されたメタデータや制御プログラムに基づいて、商品説明画面（図７Ｂ）や決済画面（図７Ｄ）を表示しているが、ユーザー端末１０は、外部のサーバーにリクエストして、商品説明画面や決済画面に必要な情報を取得しても良い。但し、本実施形態のように、動画データとともにメタデータ及び制御プログラムを配信することによって、決済完了までに必要なデータを動画とともに配信すれば、円滑な決済を実行することができる。

ユーザー端末１０は、決済画面（図７Ｄ）の購入決定ボタン３２Ｄがタッチ操作されたことを検出すると（Ｓ１１０）、動画配信サーバー２に決済を要求する（Ｓ１１１）。動画配信サーバー２は、ユーザー端末１０からの決済要求に応じて、商品の売買のための決済処理を行う（Ｓ１１２）。これにより、視聴者は、動画内の興味を持った商品（例えばバッグ）を購入することができる。

＜アイテム領域の設定方法＞
既に説明したように、領域設定装置６は、動画配信サーバー２に登録されている動画データ及び商品データをダウンロードし（図２：Ｓ１０２）、その動画に映し出された商品の領域をアイテム領域として設定する（Ｓ１０３）。但し、動画データには多数のフレームがあるため（例えば１秒間あたり３０フレーム）、全フレームに対してアイテム領域を１つずつ設定する作業は、膨大な作業量となる。そこで、本実施形態では、次のようにアイテム領域の設定を行っている。

図８は、第１実施形態のアイテム領域の設定処理のフロー図である。領域設定装置６（領域設定端末６Ａ及び自動追跡処理端末６Ｂ）は、不図示のＣＰＵ、主記憶装置、補助記憶装置、通信モジュール、表示部（表示装置）、入力部（入力装置）などのハードウェアを備えたコンピュータである。領域設定装置のＣＰＵは、補助記憶装置に記憶されているプログラム（領域設定プログラム）を主記憶装置に読み出して実行することによって、図中の各種処理を実行する。言い換えると、領域設定装置６のＣＰＵ及び主記憶装置によって領域設定装置６の制御部が構成されており、この制御部が、図中の各種処理を実行する。なお、本実施形態では、領域設定装置６が領域設定端末６Ａと自動追跡処理端末６Ｂとから構成されているため、図中の各処理は、領域設定端末６Ａ又は自動追跡処理端末６Ｂによって実行されることになる。

まず、領域設定端末６Ａは、追跡対象の設定を行う（Ｓ２０１）。例えば、作業者は、領域設定端末６Ａ上で動画データを再生させ、動画に商品（アイテム）が映し出されたときに動画を一時停止させ、停止中の画像（初期フレーム）上で入力部（例えばマウス）を用いて商品の領域（例えば、動画中の女優の服の領域）を選択する。そして、領域設定端末６Ａは、一時停止させたときのフレーム（任意のフレーム）を初期フレームとし、初期フレームから作業者によって選択された範囲の画像（商品の画像）を追跡対象として設定する。これにより、自動追跡処理の追跡対象となる画像（対象画像）が特定されることになる。なお、追跡対象の画像の領域は、初期フレームに対応するアイテム領域に相当する。領域設定端末６Ａは、追跡対象の画像を特定するためのデータとして、初期フレームのタイムコードと、初期フレームに対応するアイテム領域（追跡対象の画像の領域；作業者によって選択された範囲）を示すデータを、動画配信サーバー２のアイテム領域データベース３Ｂに書き込むことによって、追跡対象を設定する。なお、タイムコードやアイテム領域に基づいて追跡対象となる画像（対象画像）を特定する代わりに、作業者によって選択された範囲の画像（画像データ）を抽出することによって、追跡対象となる画像を特定してもよい。また、領域設定端末６Ａは、追跡対象の画像を特定するためのデータを、アイテム領域データベース３Ｂに書き込む代わりに、自動追跡処理端末６Ｂに受け渡しても良い。

次に、自動追跡処理端末６Ｂは、アイテム領域データベース３Ｂの追跡対象の画像のデータ（ここでは、初期フレームのタイムコード及びアイテム領域）を参照し、自動追跡処理によって初期フレーム以降の各フレームから追跡対象の画像を検出し、各フレームで検出された追跡対象の領域をアイテム領域として設定する（Ｓ２０２）。ここでは、自動追跡処理として、ＫＣＦ（Kernelized Correlation Filter）が用いられる。但し、Ｓ２０２で用いられる自動追跡処理は、ＫＣＦに限られるものではなく、他の公知の自動追跡アルゴリズムを適用可能である。

ところで、ＫＣＦでは、入力画像ＸにフィルタＷを畳み込むと、追跡対象の位置Ｙが求められることを想定している。ＫＣＦでは、学習フェイズにおいて、次式を最小化することによって、フィルタＷを求めることになる。

ここで、ｘ_iは、ｉピクセルずつシフトした学習サンプル画像である。１枚の画像を異なるシフト量でシフトさせることによって、１枚の画像から学習用の画像を仮想的に増やしている。ｙ_iは、ｘ_iに対応する物体の位置を示す教師ラベルである。

図９は、教師ラベルの説明図である。教師ラベルは、中心位置が最大値となる１であり、最小値が０となるガウス分布で表される。

ＫＣＦの学習フェイズにおいて、入力画像ＸにフィルタＷをかけると物体の位置Ｙが求められるようなフィルタＷが求められることになる。学習フェイズで求められたフィルタＷが分類器として機能することになる。追跡フェイズでは、追跡対象となる画像Ｘと、学習フェイズで求めたフィルタＷとを用いて、次式によって追跡対象の位置ｆ（ｘ）を求める。

追跡フェイズで求められた位置ｆ（ｘ）は、理想的な追跡対象の場合、学習フェイズの教師ラベル（図９参照）と同様に、最大値が１、最小値が０のガウス分布となる。位置ｆ（ｘ）の最大値の座標は、追跡対象の中心位置となる。位置ｆ（ｘ）の最大値が大きいほど、追跡対象（追跡結果）が尤もらしいことになり、追跡対象（追跡結果）の信頼度が高いことになる。以下の説明では、追跡対象の尤もらしさ（信頼度）を示す値を「スコア」と呼ぶことがある。本実施形態では、「スコア」は、位置ｆ（ｘ）の最大値である。

本実施形態では、前フレームの追跡対象の画像（アイテム領域）の大きさを基準にして、追跡対象の画像のサイズを少しずつ変えて、次フレームに対して異なるサイズの追跡対象ごとにＫＣＦによる計算を行う。そして、１番高いスコア（位置ｆ（ｘ）の最大値）となったサイズの追跡対象に基づいて、アイテム領域を設定する。なお、このとき設定されたアイテム領域の中心位置は、位置ｆ（ｘ）の最大値の座標であり、アイテム領域の大きさは、１番高いスコア（位置ｆ（ｘ）の最大値）となった追跡対象のサイズである。本実施形態によれば、動画上の商品（アイテム；追跡対象）の画像の大きさが変化しても、商品の大きさに追随させてアイテム領域を設定することができる。

上記の通り、Ｓ２０２の処理において、ＫＣＦによって初期フレームから順に次フレームの追跡対象の画像が検出される。自動追跡処理端末６Ｂは、検出された追跡対象の画像の領域を示すデータ（タイムコードと、そのタイムコードのフレームに対応するアイテム領域を示すデータ）を動画配信サーバー２のアイテム領域データベース３Ｂに書き込むことによって、各フレームで検出された追跡対象の領域をアイテム領域として設定する。また、検出された追跡対象の尤もらしさ（信頼度）を示すスコアが、フレーム毎に算出されることになる。自動追跡処理端末６Ｂは、各フレームのスコアを示すデータもアイテム領域データベース３Ｂに書き込むことになる。なお、自動追跡処理端末６Ｂは、各フレームのアイテム領域やスコアを示すデータを、アイテム領域データベース３Ｂに書き込む代わりに、領域設定端末６Ａに受け渡しても良い。

次に、自動追跡処理端末６Ｂは、動画データの中から時間間隔をあけてキーフレームを設定する（Ｓ２０３）。本実施形態では、キーフレームとキーフレームとの間の時間間隔は、スコア（追跡対象の尤もらしさ（信頼度）を示す値）に基づいて、設定される。具体的には、自動追跡処理端末６Ｂは、高いスコア（信頼度の高い）のフレームが連続する時間帯では、キーフレームとキーフレームとの間の時間間隔が長くなるように、キーフレームを設定する。一方、低いスコア（信頼度の低い）のフレームが連続する時間帯では、キーフレームとキーフレームとの間の時間間隔が短くなるように、キーフレームを設定する。自動追跡処理端末６Ｂは、キーフレームの情報をアイテム領域データベース３Ｂに書き込むことによって、キーフレームの設定が行われる。なお、自動追跡処理端末６Ｂは、キーフレームの情報をアイテム領域データベース３Ｂに書き込む代わりに、領域設定端末６Ａに受け渡しても良い。また、キーフレームを設定する処理（Ｓ２０３）を、自動追跡処理端末６Ｂが行う代わりに、領域設定端末６Ａが行っても良い。

図１０は、キーフレームの説明図である。ここでは、動画中の女優が、画面の左下から右に向かって移動した後、反転して、画面の左上に向かって移動することを想定している。図中には、一定時間間隔の複数のフレームが重ねられて描かれており、各フレームの女優とアイテム領域（服のアイテム領域）の軌跡が描かれている。図中には、キーフレームのアイテム領域は実線で描かれており、非キーフレームのアイテム領域は点線で描かれている。

本実施形態では、図に示すように、服の画像（追跡対象の画像）の変化が少ない時間帯では、高いスコアのフレームが連続するため、キーフレームとキーフレームとの間の時間間隔が長くなる。一方、女優が反転して服の画像の変化が大きい時間帯では、フレームのスコアが低くなるため、キーフレームとキーフレームとの間の時間間隔が短くなる。

次に、領域設定端末６Ａは、アイテム領域の再編集が必要か否かを判断する（Ｓ２０４）。例えば、領域設定端末６Ａは、アイテム領域を示す枠を重ね合わせながら動画を再生させ、作業者にアイテム領域を確認させる。作業者は、動画に映し出された商品（アイテム）と、アイテム領域を示す枠との位置関係を確認することになる。作業者は、動画に映し出された商品（アイテム）に対してアイテム領域を示す枠の位置に異常があれば、動画を一時停止させ、停止中の画像（編集対象となるフレーム：編集フレーム）上で、入力部（例えばマウス）を用いて、アイテム領域を示す枠の位置・サイズを変更する。領域設定端末６Ａは、このような入力操作を検出した場合には、アイテム領域の再編集が必要であると判断する（Ｓ２０４でＹＥＳ）。一方、領域設定端末６Ａは、作業者による動画の確認が終了した場合には、アイテム領域の再編集が不要であると判断し（Ｓ２０４でＮＯ）、アイテム領域の設定処理を終了する。

作業者が編集フレーム上でアイテム領域の枠の位置・サイズを変更した場合（Ｓ２０４でＹＥＳ）、領域設定端末６Ａは、変更後の枠の位置・サイズを示すように、編集フレームに対応するアイテム領域（アイテム領域データ）を再設定する（Ｓ２０５）。

領域設定端末６Ａは、編集フレームに対応するアイテム領域を再設定した後（Ｓ２０５）、編集フレームをキーフレームに設定する（Ｓ２０６）。ここでは、領域設定端末６Ａは、編集フレームがキーフレームになった旨の情報をアイテム領域データベース３Ｂに書き込むことになる。なお、編集フレームをキーフレームに設定する理由は、後述する通り、その後に他のフレームのアイテム領域が更に編集されたとしても、既に編集されたフレームのアイテム領域が補間処理（後述）によって変更されてしまうことを防止するためである。

編集フレームのアイテム領域が変更された場合には、その編集フレームの前後のフレームにおいても、そのフレーム中の商品（アイテム）と、Ｓ２０２で設定されたアイテム領域との間にズレが生じていると考えられる。そこで、本実施形態では、領域設定端末６Ａは、編集フレーム（Ｓ２０５でアイテム領域が再設定されたフレーム；Ｓ２０６でキーフレームに設定されたフレーム）の前後のフレームのアイテム領域を再設定する（Ｓ２０６）。

図１１は、Ｓ２０７の説明図である。図中の「フレームＯ」は、編集フレーム（Ｓ２０５でアイテム領域が再設定されたフレーム；Ｓ２０６でキーフレームに設定されたフレーム）を示している。図中の「フレームＡ」は、編集フレームＯの直前のキーフレームを示している。図中の「フレームＢ」は、編集フレームＯの直後のキーフレームを示している。

キーフレームＡには、Ｓ２０２の処理によって、アイテム領域を示す２点の座標（ＸＡ１，ＹＡ１）及び座標（ＸＡ２，ＹＡ２）が設定されている。同様に、キーフレームＢには、Ｓ２０２の処理によって、アイテム領域を示す２点の座標（ＸＢ１，ＹＢ１）及び座標（ＸＢ２，ＹＢ２）が設定されている。また、前述のＳ２０５の処理によって、編集フレームＯに対するアイテム領域を示す２点の座標値が、座標（ＸＯ１’，ＹＯ１’）及び座標（ＸＯ２’，ＹＯ２’）に変更されている。

図に示すように、領域設定端末６Ａは、Ｓ２０５の処理の後、編集フレームＯと、直前のキーフレームＡとの間のフレームに対するアイテム領域を、補間処理によって算出する。具体的には、編集対象となったフレームＯのアイテム領域の左上の座標（ＸＯ１’，ＹＯ１’）と、直前のキーフレームＡのアイテム領域の左上の座標（ＸＡ１，ＹＡ１）とに基づいて、その間のフレームのアイテム領域の左上の座標値を直線補間によって算出する。同様に、編集対象となったフレームＯのアイテム領域の右下の座標（ＸＯ２’，ＹＯ２’）と、直前のキーフレームＡのアイテム領域の右下の座標（ＸＡ２，ＹＡ２）とに基づいて、その間のフレームのアイテム領域の右下の座標値を直線補間によって算出する。また、同様に、領域設定端末６Ａは、編集対象となったフレームＯと、直後のキーフレームＢとの間のフレームに対するアイテム領域を、補間処理によって算出する。

次に、領域設定端末６Ａは、Ｓ２０７の処理の後、更にアイテム領域の編集が必要か否かを判断する（Ｓ２０４に戻る）。なお、編集の対象としたフレームがＳ２０６でキーフレームに設定されることによって、その後に他のフレームのアイテム領域が編集されたとしても、編集の対象となったフレームのアイテム領域が補間処理によって変更されてしまうことを防止できる。また、編集フレームＯで再設定されたアイテム領域は、追跡対象の画像とのズレが小さいことが期待できるため、その後に他のフレームのアイテム領域が編集されて補間処理（Ｓ２０７）が再度行われるときに、再度行われる補間処理によって再設定されたアイテム領域（キーフレームになった旧編集フレームと、新たに編集された新編集フレームとの間のフレームのアイテム領域）と追跡対象の画像とのズレを抑制することできる。

＜第１実施形態の小括＞
上記の第１実施形態の領域設定装置６（領域設定端末６Ａ及び自動追跡処理端末６Ｂ）は、動画データに同期させてアイテム領域を設定する領域設定装置の一例である。上記の領域設定装置６は、動画データに含まれる任意のフレームから自動追跡処理の追跡対象となる画像（対象画像）を特定する（図８のＳ２０１参照）。次に、領域設定装置６は、動画データに含まれる複数のフレームから追跡対象の画像（対象画像）を自動追跡処理によって検出し、それぞれのフレームから自動追跡処理によって検出された追跡対象の画像の領域を、アイテム領域としてそれぞれのフレームに対応付けている（Ｓ２０２参照）。これにより、第１実施形態では、それぞれのフレームにアイテム領域を設定する作業が容易になる。

また、第１実施形態では、領域設定装置６は、自動追跡処理によって検出された検出対象の画像のスコア（尤もらしさ（信頼度）を示す値）を算出し（Ｓ２０２）、信頼度の低いスコアのフレームが連続する時間帯では時間間隔が短くなるように、スコアに応じて動画データの中から複数のキーフレームを設定する（図８のＳ２０３；図１０参照）。そして、領域設定装置６は、フレーム（編集フレームＯ）に設定されているアイテム領域が編集されたとき、アイテム領域の編集された編集フレームＯ（Ｓ２０６でキーフレームに設定されたフレーム）と、キーフレーム（キーフレームＡやキーフレームＢ）との間のフレームに対応するアイテム領域を、補間処理によって再設定する（図８のＳ２０７；図１１参照）。
このような第１実施形態によれば、信頼度の高いスコアのフレームが連続する時間帯では、編集フレームＯとキーフレームとの時間間隔が比較的長くなるため、補間処理によってアイテム領域の再設定されるフレーム（編集フレームＯとキーフレーム（キーフレームＡやキーフレームＢ）との間のフレーム）が比較的多くなり、効率よくアイテム領域を再設定することができる。なお、信頼度の高いスコアのフレームが連続する時間帯では、追跡対象の画像の変化が小さいため、比較的多くのフレームのアイテム領域を補間処理によって一括で再設定しても、再設定後のアイテム領域と追跡対象の画像とのズレが小さくなる。このため、信頼度の高いスコアのフレームが連続する時間帯では、比較的多くのフレームのアイテム領域を補間処理によって再設定することが許容されている。
一方、信頼度の低いスコアのフレームが連続する時間帯では、追跡対象の画像の変化が大きいため、仮に補間処理によって多くのフレームのアイテム領域を再設定すると、補間処理によって再設定されたアイテム領域と追跡対象の画像とのズレが大きくなってしまう可能性が高くなる。これに対し、本実施形態では、信頼度の低いスコアのフレームが連続する時間帯では、時間間隔が短くなるように複数のキーフレームが設定されるため、補間処理によってアイテム領域の再設定されるフレーム（編集フレームＯとキーフレーム（キーフレームＡやキーフレームＢ）との間のフレーム）が比較的少なくなる。この結果、本実施形態では、信頼度の低いスコアのフレームが連続する時間帯においても、補間処理によって再設定されたアイテム領域と追跡対象の画像とのズレを抑制することができる。このように、第１実施形態では、Ｓ２０３及びＳ２０７の処理によって、「アイテム領域の設定作業を効率化すること」と、「補間処理によって再設定されたアイテム領域と追跡対象の画像とのズレを抑制すること」という、相反する課題を解決できる。

また、第１実施形態では、領域設定装置６は、Ｓ２０５で編集したフレーム（編集フレームＯ）をキーフレームに設定している（Ｓ２０６参照）。これにより、その後に他のフレームのアイテム領域が編集されたとしても、編集の対象となったフレームのアイテム領域が補間処理によって変更されてしまうことを防止できる。

なお、前述の第１実施形態では、Ｓ２０５で編集したフレーム（編集フレームＯ）をキーフレームに設定しているが（Ｓ２０６）、編集フレームＯをキーフレームに設定しなくても良い。また、前述の第１実施形態では、それぞれのフレームのアイテム領域を自動追跡処理によって設定した後にアイテム領域を再設定（編集）しているが、アイテム領域を再設定せずに、自動追跡処理によって求めたアイテム領域をそのまま動画配信サーバー２に登録しても良い。

＝＝＝第２実施形態＝＝＝
前述の第１実施形態では、自動追跡処理の追跡対象は、作業者が領域設定端末６Ａで入力作業を行うことによって、特定されていた（図８のＳ２０１参照）。これに対し、第２実施形態では、自動追跡処理の追跡対象の特定をコンピュータが自動的に行う。また、第２実施形態では、領域設定端末６Ａではなく、動画配信サーバー２がアイテム領域の設定を行う。この結果、第２実施形態の領域設定装置は、動画配信サーバー２と自動追跡処理端末６Ｂとにより構成されている。

図１２は、第２実施形態の全体シーケンスの説明図である。既に説明したように、多数のユーザー端末１０が、動画配信サーバー２から受信した動画データ（及びメタデータ）に基づいて、動画を再生する（Ｓ１０７）。そして、ユーザー端末１０上で視聴者による入力操作が行われることになる（Ｓ１０８’）。

図１３Ａは、ユーザー端末１０上で視聴者が入力を行うときの様子の説明図である。ここでは、視聴者が、表示中の男性のリュックの領域を選択しているが、このリュックの領域は、アイテム領域以外の領域（非アイテム領域）である。前述のようにアイテム領域を視聴者に選択させるインターフェース環境下では、この視聴者が男性のリュックに興味を持っていると推測できる。第２実施形態では、ユーザー端末１０は、ユーザー端末１０上で視聴者が入力操作（例えばタッチ操作）したとき、動画配信サーバー２に入力ポイントデータを送信する（図１２のＳ１２１）。

図１３Ｂは、ユーザー端末１０が動画配信サーバー２に送信するデータの説明図である。ユーザー端末１０は、ユーザー端末１０上で視聴者が入力操作（例えばタッチ操作）したとき、入力ポイントデータを取得する。入力ポイントデータは、入力操作した時間（入力時間；タイムコード）と、入力部によって入力された座標（入力座標）とを有する。なお、入力ポイントデータとして、他のデータが含まれても良い。そして、ユーザー端末１０は、入力ポイントデータ（入力時間及び入力座標）を、動画データを識別するためのＩＤに対応付けて、動画配信サーバー２に入力ポイントデータを送信する。動画配信サーバー２は、多数のユーザー端末１０から入力ポイントデータを収集し、入力ポイントデータベースを作成するとともに、後述する設定処理を行う（図１２のＳ１２２；図１４）。

なお、本実施形態では、ユーザー端末１０は、ユーザー端末１０上で視聴者が入力した座標（入力座標）がアイテム領域の範囲内か否かにかかわらず、入力ポイントデータを動画配信サーバー２に送信する（図１２のＳ１２１）。但し、ユーザー端末１０は、ユーザー端末１０上で視聴者が入力した座標（入力座標）がアイテム領域以外の領域（非アイテム領域）の範囲内の場合にのみ、入力ポイントデータを動画配信サーバー２に送信しても良い。

図１４は、Ｓ１２２において動画配信サーバー２が行う設定処理のフロー図である。動画配信サーバー２は、ユーザー端末１０から入力ポイントデータを受信した後、この設定処理を行う。動画配信サーバー２の不図示のＣＰＵは、補助記憶装置に記憶されているプログラムを主記憶装置に読み出して実行することによって、図中の各種処理を実行する。言い換えると、動画配信サーバー２のＣＰＵ及び主記憶装置によって動画配信サーバー２（第２実施形態の領域設定装置）の制御部が構成されており、この制御部が、図中の各種処理を実行する。

まず、動画配信サーバー２は、入力ポイントデータベースから入力ポイントデータを取得する（Ｓ３０１）。既に説明したように、入力ポイントデータは、ユーザー端末１０上で視聴者が入力部を介して入力したポイント（入力時間、入力座標）を含むデータである（図１３Ｂ参照）。

次に、動画配信サーバー２は、多数の入力ポイントデータに基づいて、入力分布データ（ヒートマップ）を作成する（Ｓ３０２）。入力分布データは、視聴者の入力状況を示すデータである。入力分布データは、ヒートマップと呼ばれることもある。

図１５Ａ及び図１５Ｂは、入力分布データの説明図である。図１５Ａでは、入力分布データが単独で示されている。図１５Ｂでは、入力分布データに動画（フレーム）を重ね合わせた状態が示されている。ここでは、或る時間の入力分布データがＸＹ座標系の２次元画像として示されているが、入力分布データは、時間軸を含む３次元データである。図中の濃い領域は、α値（後述する最終α値）が大きい領域である。入力分布データ上のα値の大きい箇所は、多数の視聴者からの選択が集中している領域（ホットスポット）を示している。

ところで、１つの入力ポイントデータは３次元空間上の１点を示す２値データであるため、多数の入力ポイントデータをそのまま重ね合わせても、入力ポイントが分散した状態になってしまい、入力状況の分布が表れにくい。そこで、動画配信サーバー２は、時間方向及びＸＹ方向に入力ポイントを広げる処理（膨張処理）と、多値化処理とを行っている。具体的には、まず、動画配信サーバー２は、入力ポイントデータの入力時間の前後の所定時間（例えば０．５秒）に入力があったものとして、時間方向に入力ポイントを広げる。また、時間方向に入力ポイントを広げる際に、実際の入力時間に近いほど大きいα値（多値データ）が付与されるように重み付けを行って、入力座標の画素にα値を付与する。次に、動画配信サーバー２は、入力ポイントまでの距離（２次元座標上の距離）に応じて入力座標の周囲の画素にα値を付与して、ＸＹ方向に入力ポイントを広げる。ここでは、動画配信サーバー２は、入力座標に近い座標（ＸＹ座標）ほど大きい値になるように、同心円状に周囲の画素のα値を付与する。なお、入力座標を中心とする円の内側の画素にα値が付与されることになるが、その円の大きさは、所定の大きさでも良いし、入力座標に付与されているα値に応じた大きさでも良い。動画配信サーバー２は、各入力ポイントデータに対して、上記の処理（時間方向及びＸＹ方向に入力ポイントを広げる処理と多値化処理）を行った後、座標ごとにα値を重ね合わせて最終α値を決定する。なお、最終α値に対して所定閾値ごとに色分けをすることによって、図１５Ａ（及び図１５Ｂ）に示すヒートマップが生成される。なお、入力分布データ（ヒートマップ）の作成方法は、上記の方法に限られるものではない。

次に、動画配信サーバー２は、入力分布データに基づいて、特定処理（後述するＳ３０４の処理）の要否を判定する（Ｓ３０３）。本実施形態では、予め所定サイズ（最低サイズ）の矩形を設定した上で、入力分布データ上で探索が行われ、「所定サイズの矩形内に、最終α値が所定値以上の画素（ピクセル）が、所定数以上存在するか」が判定される。なお、「所定サイズ（最低サイズ）の矩形」を判定の基準にしている理由は、小さすぎるホットスポットの抽出を抑制し、ノイズを抑制するためである。更に、本実施形態では、「所定サイズの矩形内に、最終α値が所定値以上の画素（ピクセル）が、所定数以上存在する」場合であっても、「そのときの矩形の領域にアイテム領域が設定されていないこと」も判定される。この条件の判定が行われることにより、重複してアイテム領域が設定されることを抑制できる。

例えば、図１５Ａ及び図１５Ｂの女優のバッグの領域では、最終α値の大きな画素が密集しているが、既にこの領域にはバッグのアイテム領域が設定されているため、この領域に対しては、特定処理は不要と判定されることになる。一方、男性のリュックの領域では、最終α値の大きな画素が密集したことによって、「所定サイズの矩形内に、最終α値が所定値以上の画素（ピクセル）が、所定数以上存在する」という条件を満たせば、「そのときの矩形の領域にアイテム領域が設定されていない」という条件も満たすことになるため、Ｓ３０３の要否判定において、特定処理が必要と判定されることになる。

ところで、ユーザー端末１０から入力ポイントデータを取得し始めた初期段階では、入力ポイントデータが少ないため、入力分布データ上で最終α値が所定値以上の画素は少ない。このため、初期段階では、Ｓ３０３の要否判定において、「所定サイズの矩形内に、最終α値が所定値以上の画素（ピクセル）が、所定数以上存在するか」という判定条件を満たせない。このように、判定条件を満たせない場合には、動画配信サーバー２は、Ｓ３０３の要否判定で「不要」と判断し、設定処理を終了する。例えば、図１２のユーザー端末１０Ａから入力ポイントデータを受信した段階では、Ｓ３０３の判定条件を満たさなかったので、動画配信サーバー２は、Ｓ３０３の要否判定で「不要」と判断し、設定処理を終了している。

一方、ユーザー端末１０から取得した入力ポイントデータが蓄積されてくると、入力ポイントデータが増えて、入力分布データ上で最終α値が所定値以上の画素が増えてくる。ここでは、図１２のユーザー端末１０Ｂから入力ポイントデータを取得し、この入力ポイントデータ分のα値が入力分布データに加算された結果、この段階でＳ３０３の判定条件が満たされたものとする。Ｓ３０３で判定条件を満たしている場合、動画配信サーバー２は、追跡対象の特定処理を行う（Ｓ３０４）。

図１６Ａ及び図１６Ｂは、Ｓ３０４の特定処理の説明図である。図１６Ａには、Ｓ３０３の判定条件を満たした入力時間における入力分布データの２次元データが示されている。図１６Ｂには、Ｓ３０３の判定条件を満たした入力時間に対応するフレームが示されている。

Ｓ３０４の特定処理では、動画配信サーバー２は、入力分布データ上において所定値以上の最終α値の領域（画素群）に外接する矩形の位置・サイズを特定する。なお、ノイズの影響を抑制するため、入力分布データに対してノイズ除去処理（例えば平滑化フィルタ処理）を施した上で、所定値以上の最終α値の領域（画素群）に外接する矩形の位置・サイズを特定しても良い。ここでは、図１６Ａに示すように、入力分布データ上において所定値以上の最終α値の領域（画素群）に外接する矩形の２点の座標（Ｘ１，Ｙ１）と座標（Ｘ２，Ｙ２）が特定されたものとする。

なお、Ｓ３０３の判定条件を満たした入力時間に対応するフレームは、前述の初期フレームに相当する。また、特定された２点の座標（Ｘ１，Ｙ１）及び座標（Ｘ２，Ｙ２）は、初期フレームに対応するアイテム領域に相当する。動画配信サーバー２は、追跡対象の画像を特定するためのデータとして、初期フレームのタイムコードと、初期フレームに対応するアイテム領域（ここでは２点の座標）をアイテム領域データベース３Ｂに書き込むことによって、追跡対象を設定する。例えば、図１６Ａに示すように入力分布データ上で２点の座標が特定された場合には、図１６Ｂに示すように、動画データ（フレーム）から同じ２点の座標で特定された矩形領域の画像を特定することができる。これにより、多くの視聴者が興味を持っていると推測される商品（ここではリュック）の画像を特定することができる。つまり、第２実施形態では、自動追跡処理の追跡対象の画像の特定をコンピュータ（ここでは動画配信サーバ２）が自動的に行うことができる。

次に、動画配信サーバー２は、自動追跡処理によって初期フレーム以降の各フレームから追跡対象の画像を検出し、各フレームで検出された追跡対象の領域をアイテム領域として設定する（Ｓ３０５）。この処理は、第１実施形態のＳ２０２の処理と同様である。

次に、動画配信サーバー２は、アイテム領域が新規に設定されたことを報知して（Ｓ３０６）、設定処理を終了する。これにより、ショップ管理者は、想定外の商品に視聴者が興味を示していることを知ることができる。なお、本実施形態では、動画配信サーバー２は、管理者端末１に報知を行うが（図１２のＳ１２３参照）、報知先は、管理者端末１に限られるものではなく、領域設定端末６Ａでも良い。

動画配信サーバー２は、Ｓ１２３において管理者端末１に報知を行うときに、Ｓ３０４で特定した追跡対象の画像（図１６Ｂ参照）を管理者端末１に送信しても良い。これにより、ショップ管理者は、どのような商品（ここではリュック）に視聴者が興味を示しているかを知ることができる。また、動画配信サーバー２は、Ｓ１２３において管理者端末１に報知を行うときに、新規設定されたアイテム領域に関する情報も管理者端末１に送信しても良い。例えば、動画配信サーバー２は、新規設定されたアイテム領域を含むフレーム対応データを、動画データとともに管理者端末１に送信しても良い。これにより、管理者端末１で動画データを再生したときに、新規設定されたアイテム領域を示す枠が動画とともに表示させることができる。このように、管理者端末１が動画配信サーバー２から新規設定されたアイテム領域に関する情報を受信することにより、ショップ管理者は、想定外の商品（ここではリュック）に視聴者が興味を示していることを知ることができる。

また、動画配信サーバー２は、Ｓ１２３において管理者端末１に報知を行うときに、Ｓ３０２で作成した入力分布データを管理者端末１に送信しても良い。これにより、ショップ管理者は、視聴者の入力状況を把握することができる。この場合、動画配信サーバー２は、動画に同期させて入力分布データを再生できるように、動画データと入力分布データとを管理者端末１に配信することが望ましい。また、管理者端末１では、再生中の動画に入力分布データを重ね合わせて表示することが望ましい。これにより、ショップ管理者が視聴者の入力状況を把握しやすくなる。

その後、管理者端末１は、新規設定されたアイテム領域に対応する商品データ（ここではリュックの商品データ）を動画配信サーバー２に追加登録することができる（Ｓ１２４）。動画配信サーバー２は、管理者端末１から受信した商品データを商品データベースに追加して、商品データベースを更新する（Ｓ１２５）。また、動画配信サーバー２は、Ｓ１２２で新規に設定したアイテム領域データを含むフレーム対応データと、Ｓ１２４で追加登録された商品データとの対応付けを行う。動画配信サーバー２は、その後にユーザー端末１０Ｃから動画再生リクエストを受けると（Ｓ１０５）、リクエストされた動画データとメタデータ（及び制御プログラム）をユーザー端末１０Ｃに配信する（Ｓ１０６）。このときユーザー端末１０Ｃに配信されるメタデータには、リュックのアイテム情報が含まれている。この結果、ユーザー端末１０Ｃ上で動画データが再生されると（Ｓ１０７）、新たにリュックの領域にアイテム領域が設定された状態になる。更に、ユーザー端末１０Ｃ上で視聴者がリュックの領域を選択すると（Ｓ１０８）、リュックの売買のための決済画面が表示され（Ｓ１０９）、リュックの購入が可能になる（Ｓ１１０〜Ｓ１１２）。

＜第２実施形態の小括＞
上記の第２実施形態の動画配信サーバー２は、動画データに同期させてアイテム領域を設定する領域設定装置の一例である。上記の動画配信サーバー２は、動画データに含まれるフレームから自動追跡処理の追跡対象となる画像（対象画像）を特定する（図１４のＳ３０４参照）。次に、動画配信サーバー２は、動画データに含まれる複数のフレームから追跡対象の画像（対象画像）を自動追跡処理によって検出し、それぞれのフレームから自動追跡処理によって検出された追跡対象の画像の領域を、アイテム領域としてそれぞれのフレームに対応付けている（Ｓ２０２参照）。これにより、第２実施形態においても、第１実施形態と同様に、それぞれのフレームにアイテム領域を設定する作業が容易になる。

また、第２実施形態では、動画配信サーバー２は、視聴者が入力操作を行った入力時間及び入力座標を示す入力ポイントを複数のユーザー端末１０（動画再生装置）から取得し（図１２のＳ１２１、図１４のＳ３０１参照）、入力ポイントの集中する領域に基づいて、自動追跡処理の追跡対象となる画像（対象画像）を特定する（図１４のＳ３０４参照）。このような第２実施形態によれば、第１実施形態と比べて、自動追跡処理の追跡対象を設定する作業が容易になる。

また、第２実施形態では、動画配信サーバー２は、複数のユーザー端末１０（動画再生装置）から取得した入力ポイントに基づいて、入力分布データ（図１５Ａ参照）を作成し（Ｓ３０２参照）、入力分布データ上において入力ポイントの集中する時間と範囲を特定する（Ｓ３０４；図１６Ａ参照）。そして、動画配信サーバー２は、入力分布データ上で特定された時間と範囲（入力ポイントの集中する入力時間と入力範囲）に基づいて、動画データの対応するフレームから、対応する範囲の画像を特定することによって、対象画像を特定する（Ｓ３０４；図１６Ｂ参照）。これにより、入力ポイントの集中する領域を特定する作業が容易になる。

加えて、第２実施形態では、動画配信サーバー２は、入力分布データ（図１５Ａ参照）を作成する際に（Ｓ３０２参照）、入力ポイントの入力時間を時間方向に広げるとともに、入力座標を２次元方向に広げて、複数の入力ポイントのデータ（α値）を重畳させることによって、入力分布データを作成している。１つの入力ポイントは３次元空間上の１点を示す２値データであるため、多数の入力ポイント（２値データ）をそのまま重畳させても入力状況の分布が表れ難いが、本実施形態では、入力ポイントを時間方向及び２次元方向に広げた上で多値データを重畳させるため、入力分布データ上での入力状況の分布が表れ易くなる。

なお、第２実施形態では、動画配信サーバー２は、入力ポイントの入力時間を時間方向に広げるときには、入力時間に近いほど大きい多値データ（α値）を付与し、入力ポイントの入力座標を広げるときには、入力座標に近いほど大きい多値データ（α値）を付与し、複数の入力ポイントの多値データ（α値）を重畳させることによって最終α値によって示された入力分布データを作成している。このように、重み付けされた多値データ（α値）を重畳させることによって、入力分布データ上での入力状況の分布が表れ易くなる。但し、このような重み付けを行わずに、入力ポイントを時間方向及び２次元方向（ＸＹ方向）に広げたデータを単に重畳させることによって入力分布データを作成することも可能である。

第２実施形態では、動画配信サーバー２は、動画データに含まれるフレームから自動追跡処理の追跡対象となる画像（対象画像）が特定されたとき（図１４のＳ３０４参照）、報知処理を行う（Ｓ３０６参照）。これにより、入力ポイントの集中する領域が存在していることを把握することができる。なお、上記の説明では、動画配信サーバー２は、管理者端末１に報知を行うが（図１２のＳ１２３参照）、報知先は、管理者端末１でなくても良い（例えば、領域設定端末６Ａでも良い）。また、上記の説明では、動画配信サーバー２は、Ｓ３０５の処理の後（アイテム領域が新規に設定された後）に報知処理を行っているが、Ｓ３０５の処理の前に報知処理を行っても良い。また、報知処理を行わないことも可能である。

また、第２実施形態では、動画配信サーバー２は、Ｓ３０６の報知処理に伴って商品データが登録された場合（図１２のＳ１２４）、新規に設定されたアイテム領域に新規登録された商品データを対応付けてメタデータを作成する。これにより、動画配信サーバー２は、その後に動画データ及びメタデータをユーザー端末１０に配信すれば（図１２のユーザー端末１０ＣへのＳ１０６参照）、新規登録された商品（例えばリュック）の購入を促すことが可能になる（Ｓ１０８〜Ｓ１１２参照）。

＝＝＝その他＝＝＝
上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更・改良され得ると共に、本発明には、その等価物が含まれることは言うまでもない。

１管理者端末、２動画配信サーバー、
３動画管理サーバー、
３Ａ動画データベース、３Ｂアイテム領域データベース、
４商品管理サーバー（メタデータ配信サーバー）、
４Ａ商品データベース、
６領域設定装置、６Ａ領域設定端末、６Ｂ自動追跡処理端末、
９通信ネットワーク、
１０ユーザー端末、１１ＣＰＵ、
１２主記憶装置、１３補助記憶装置、
１４通信モジュール、１５表示部、
１６入力部、１７タッチパネル、
２１Ａ動画表示部、２１Ｃストック情報表示部、
２１Ｄ決済表示部、３１枠

Claims

動画データに同期させてアイテム領域を設定する領域設定装置であって、
前記動画データに含まれるフレームから対象画像を特定すること、及び
前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けること
を行うことを特徴とする領域設定装置。
請求項１に記載の領域設定装置であって、
前記自動追跡処理によって検出された前記対象画像の信頼度に応じたスコアを求めること、
前記信頼度の低い前記スコアの前記フレームが連続する時間帯では時間間隔が短くなるように、前記スコアに応じて前記動画データの中から複数のキーフレームを設定すること、
前記フレームに設定されている前記アイテム領域が編集されたとき、前記アイテム領域の編集された編集フレームと、前記キーフレームとの間のフレームに対応するアイテム領域を、前記編集フレームの編集後の前記アイテム領域と、前記キーフレームのアイテム領域とに基づいて、補間して設定すること
を更に行うことを特徴とする領域設定装置。
請求項２に記載の領域設定装置であって、
前記編集フレームをキーフレームに設定することを更に行うことを特徴とする領域設定装置。
請求項１〜３のいずれかに記載の領域設定装置であって、
視聴者が入力操作を行った入力時間及び入力座標を示す入力ポイントを複数の動画再生装置から取得すること、
前記入力ポイントの集中する領域に基づいて、前記対象画像を特定すること
を行うことを特徴とする領域設定装置。
請求項４に記載の領域設定装置であって、
複数の前記動画再生装置から取得した前記入力ポイントに基づいて、前記視聴者の入力状況を示す入力分布データを作成すること、
前記入力分布データにおいて前記入力ポイントの集中する前記入力時間と入力範囲を特定すること、
前記入力ポイントの集中する前記入力時間に対応する前記フレームから、前記入力範囲に対応する画像を特定することによって、前記対象画像を特定すること、
を行うことを特徴とする領域設定装置。
請求項５に記載の領域設定装置であって、
前記入力ポイントの前記入力時間を時間方向に広げるとともに、前記入力ポイントの前記入力座標を２次元方向に広げて、複数の前記入力ポイントのデータを重畳させることによって、前記入力分布データを作成することを特徴とする領域設定装置。
請求項６に記載の領域設定装置であって、
前記入力ポイントの前記入力時間を時間方向に広げるとき、前記入力時間に近いほど大きい多値データを付与し、
前記入力ポイントの前記入力座標を２次元方向に広げるとき、前記入力座標に近いほど大きい多値データを付与し、
複数の前記入力ポイントによる前記多値データを重畳して、前記入力分布データを作成することを特徴とする領域設定装置。
請求項４〜７のいずれかに記載の領域設定装置であって、
前記入力ポイントの集中する領域に基づいて前記対象画像が特定されたときに、報知処理を行うことを特徴とする領域設定装置。
請求項８に記載の領域設定装置であって、
前記報知処理に伴って商品データが登録された場合、前記アイテム領域に前記商品データを対応付けて前記メタデータを作成することを特徴とする領域設定装置。
動画データに同期させてアイテム領域を設定する領域設定方法であって、
前記動画データに含まれるフレームから対象画像を特定すること、
前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び
前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けること
を行うことを特徴とする領域設定方法。
動画データに同期させてアイテム領域を設定する領域設定装置に、
前記動画データに含まれるフレームから対象画像を特定すること、
前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び、
前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けること
を行わせるプログラム。