JP2020077942A - 領域設定装置、領域設定方法、及びプログラム - Google Patents

領域設定装置、領域設定方法、及びプログラム Download PDF

Info

Publication number
JP2020077942A
JP2020077942A JP2018209110A JP2018209110A JP2020077942A JP 2020077942 A JP2020077942 A JP 2020077942A JP 2018209110 A JP2018209110 A JP 2018209110A JP 2018209110 A JP2018209110 A JP 2018209110A JP 2020077942 A JP2020077942 A JP 2020077942A
Authority
JP
Japan
Prior art keywords
area
input
data
moving image
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018209110A
Other languages
English (en)
Inventor
道生 小林
Michio Kobayashi
道生 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Paronym Inc
Original Assignee
Paronym Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Paronym Inc filed Critical Paronym Inc
Priority to JP2018209110A priority Critical patent/JP2020077942A/ja
Publication of JP2020077942A publication Critical patent/JP2020077942A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

【課題】アイテム領域の設定作業を軽減させること。【解決手段】本開示に係る領域設定装置は、動画データに同期させてアイテム領域を設定する。領域設定装置は、前記動画データに含まれるフレームから対象画像を特定すること、及び、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けることを行う。【選択図】図8

Description

本発明は、領域設定装置、領域設定方法、及びプログラムに関する。
特許文献1、2には、動画データと、その動画データに対応するメタデータとに基づいて、動画を再生しつつ、動画の画像の動きに合わせてアイテム領域を設定することが記載されている。そして、動画再生装置上で視聴者がアイテム領域を選択すると、そのアイテム領域に対応するイベント動作が実行されることになる。例えば、視聴者がタッチパネルで動画内のバッグをタッチすると、動画再生装置は、そのバッグの販売ページを表示することになる。動画データに対応するメタデータには、アイテム領域を示すデータや、アイテム領域に対応するイベント情報(販売ページのリンク先等)が設定されている。
また、非特許文献1〜3には、動画中の物体を自動追跡する手法が記載されている。非特許文献1に記載の手法(Kernelized Correlation Filter:以下、KCF)によれば、対象となる物体を学習しつつ、物体の追跡が行われることになる。
特許第6232632号公報 特許第6270086号公報
Henriques, J., Caseiro, R., Martins, P., & Batista, J. Exploiting the circulant structure of tracking-by-detection with kernels. In proceedings of the European Conference on Computer Vision, 2012. Danelljan, M., Khan, F. S., Felsberg, M., & Weijer, J. Van De.: Adaptive Color Attributes for Real-Time Visual Tracking. In CVPR2014. David S. Bolme, J. Ross Beveridge, Bruce A. Draper, Yui Man Lui. "Visual Object Tracking using Adaptive Correlation Filters." ICCV (2010).
動画データには多数のフレームがあるため(例えば1秒間あたり30フレーム)、全フレーム分のアイテム領域を設定する作業は、膨大な作業量となる。特許文献1では、アイテム領域の設定の作業量を軽減させるため、動画データの中から時間間隔をあけてキーフレームを抽出し、それぞれのキーフレームのアイテム領域を設定した後、キーフレームに設定されたアイテム領域に基づいて、キーフレーム間のフレームのアイテム領域を補間して求めている。但し、このような設定方法であっても、多数のキーフレームに対してアイテム領域を設定する作業は膨大な作業量となる。
本発明は、アイテム領域の設定作業を軽減させることを目的とする。
上記の目的を達成するための主たる発明は、動画データに同期させてアイテム領域を設定する領域設定装置であって、前記動画データに含まれるフレームから対象画像を特定すること、及び、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けることを行うことを特徴とする領域設定装置である
本発明の他の特徴については、後述する明細書及び図面の記載により明らかにする。
本発明によれば、アイテム領域の設定作業を軽減させることができる。
図1は、本実施形態の動画配信システムの全体説明図である。 図2は、全体シーケンスの説明図である。 図3は、動画データとフレーム対応データを含むメタデータの説明図である。 図4A〜図4Dは、ユーザー端末10での基本動作の説明図である。 図5は、動画再生時にユーザー端末10が行う画像生成処理のフロー図である。 図6は、選択領域判断処理のフロー図である。 図7A及び図7Bは、商品アイコン32Aが選択されたときの様子の説明図である。図7C及び図7Dは、購入手続ボタン32C(カートアイコン)が選択されたときの様子の説明図である。 図8は、第1実施形態のアイテム領域の設定処理のフロー図である。 図9は、教師ラベルの説明図である。 図10は、キーフレームの説明図である。 図11は、S207の説明図である。 図12は、第2実施形態の全体シーケンスの説明図である。 図13Aは、ユーザー端末10上で視聴者が入力を行うときの様子の説明図である。図13Bは、ユーザー端末10が動画配信サーバー2に送信するデータの説明図である。 図14は、S122において動画配信サーバー2が行う設定処理のフロー図である。 図15A及び図15Bは、入力分布データの説明図である。 図16A及び図16Bは、S304の特定処理の説明図である。
後述する明細書及び図面の記載から、少なくとも以下の事項が明らかとなる。
動画データに同期させてアイテム領域を設定する領域設定装置であって、前記動画データに含まれるフレームから対象画像を特定すること、及び、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けることを行うことを特徴とする領域設定装置が明らかとなる。このような領域設定装置によれば、アイテム領域の設定作業を軽減させることができる。
前記自動追跡処理によって検出された前記対象画像の信頼度に応じたスコアを求めること、前記信頼度の低い前記スコアの前記フレームが連続する時間帯では時間間隔が短くなるように、前記スコアに応じて前記動画データの中から複数のキーフレームを設定すること、前記フレームに設定されている前記アイテム領域が編集されたとき、前記アイテム領域の編集された編集フレームと、前記キーフレームとの間のフレームに対応するアイテム領域を、前記編集フレームの編集後の前記アイテム領域と、前記キーフレームのアイテム領域とに基づいて、補間して設定することを更に行うことが望ましい。これにより、アイテム領域の設定作業を効率的に行うことと、補間処理によって設定されたアイテム領域と追跡対象の画像とのズレを抑制することとを両立できる。
前記編集フレームをキーフレームに設定することが望ましい。これにより、その後に他のフレームのアイテム領域が編集されても、編集フレームのアイテム領域が変更されてしまうことを防止できる。
視聴者が入力操作を行った入力時間及び入力座標を示す入力ポイントを複数の動画再生装置から取得すること、前記入力ポイントの集中する領域に基づいて、前記対象画像を特定することを行うことが望ましい。これにより、自動追跡処理の対象画像を設定する作業が容易になる。
複数の前記動画再生装置から取得した前記入力ポイントに基づいて、前記視聴者の入力状況を示す入力分布データを作成すること、前記入力分布データにおいて前記入力ポイントの集中する前記入力時間と入力範囲を特定すること、前記入力ポイントの集中する前記入力時間に対応する前記フレームから、前記入力範囲に対応する画像を特定することによって、前記対象画像を特定すること、を行うことが望ましい。これにより、入力ポイントの集中する領域を特定する作業が容易になる。
前記入力ポイントの前記入力時間を時間方向に広げるとともに、前記入力ポイントの前記入力座標を2次元方向に広げて、複数の前記入力ポイントのデータを重畳させることによって、前記入力分布データを作成することが望ましい。これにより、視聴者の入力状況が入力分布データに表れやすくなる。
前記入力ポイントの前記入力時間を時間方向に広げるとき、前記入力時間に近いほど大きい多値データを付与し、前記入力ポイントの前記入力座標を2次元方向に広げるとき、前記入力座標に近いほど大きい多値データを付与し、複数の前記入力ポイントによる前記多値データを重畳して、前記入力分布データを作成することが望ましい。これにより、視聴者の入力状況が入力分布データに更に表れやすくなる。
前記入力ポイントの集中する領域に基づいて前記対象画像が特定されたときに、報知処理を行うことが望ましい。これにより、入力ポイントの集中する領域が存在していることを把握することができる。
前記報知処理に伴って商品データが登録された場合、前記アイテム領域に前記商品データを対応付けて前記メタデータを作成することが望ましい。これにより、新規に設定されたアイテム領域に新規登録された商品データを対応付けてメタデータを作成することができる。
動画データに同期させてアイテム領域を設定する領域設定方法であって、前記動画データに含まれるフレームから対象画像を特定すること、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び、前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けることを行うことを特徴とする領域設定方法が明らかとなる。このような領域設定方法によれば、アイテム領域の設定作業を軽減させることができる。
動画データに同期させてアイテム領域を設定する領域設定装置に、前記動画データに含まれるフレームから対象画像を特定すること、前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び、前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けることを行わせるプログラムが明らかとなる。このようなプログラムによれば、アイテム領域の設定作業を軽減させることができる。
===第1実施形態===
<全体説明>
図1は、本実施形態の動画配信システムの全体説明図である。
動画配信システムは、管理者端末1と、動画配信サーバー2と、領域設定装置6と、ユーザー端末10とを備えている。管理者端末1、動画配信サーバー2、領域設定装置6及びユーザー端末10は、通信ネットワーク9を介して通信可能に接続されている。通信ネットワーク9は、例えば、インターネット、電話回線網、無線通信網、LAN、WANなどであり、ここではインターネットを想定している。
管理者端末1は、動画データをアップロードする端末である。ここでは、管理者端末1は、動画データとともに商品データもアップロードする。但し、動画データをアップロードする端末(管理者端末1)と、商品データをアップロードする端末とが別々でも良い。管理者端末1は、例えば商品(アイテム)を販売する販売会社の端末であり、動画データは、例えば販売対象となる商品の宣伝用動画のデータである。但し、管理者端末1は、このような販売会社の端末に限られるものではないし、動画データも宣伝用動画に限られるものではない。管理者端末1がアップロードする商品データには、商品に関するデータ(例えば、商品名、商品説明、画像(静止画)、在庫、価格、販売期間などの商品データ)が含まれている。なお、本実施形態の商品は、物に限られず、サービス(の提供)も含んでいる。例えば、商品(サービス)には、催し物などの「参加申し込み」や、将来の商品の購入を約束する「事前予約申し込み」なども含まれる。
動画配信サーバー2は、動画データと、動画データに対応付けられたメタデータとを配信するサーバーである。動画配信サーバー2は、管理者端末1から動画データと商品データを受信し、動画データベース3Aと商品データベース4Aを作成する。動画配信サーバー2は、ユーザー端末10からのリクエストに応じて、動画データベース3Aから必要な動画データを抽出し、動画データと、その動画データに対応するメタデータとをユーザー端末10に配信する。動画配信サーバー2は、商品の売買の決済処理を行い、商品データベース4Aの更新を行う。また、後述するように、動画配信サーバー2は、領域設定装置6からアイテム領域を示すデータ(フレーム対応データ:後述)を受信し、アイテム領域データベース3Bを作成する。
本実施形態では、動画配信サーバー2は、動画管理サーバー3と、商品管理サーバー4とにより構成されている。動画管理サーバー3は、多数の動画データを管理・配信するためのサーバーである。動画管理サーバー3は、プログレッシブダウンロード形式で動画データを配信する。但し、動画データの配信方法は、ストリーミング形式でも良いし、動画データファイルを一括してユーザー端末10にダウンロードさせる形式でも良い。商品管理サーバー4は、メタデータの配信や決済処理を行うサーバーであり、メタデータ配信サーバーでもある。なお、商品管理サーバー4は、メタデータの配信を行うサーバー(メタデータ配信サーバー)と、決済処理を行うサーバー(決済サーバー)とで構成されても良い。また、動画配信サーバー2が、動画管理サーバー3と商品管理サーバー4とに分かれて構成されていなくても良い。
領域設定装置6は、メタデータの一部となるアイテム領域(後述)の設定を行う装置である。領域設定装置6は、動画配信サーバー2から動画データ及び商品データをダウンロードし、動画内のアイテムの領域(アイテム領域)を設定する。領域設定装置6は、アイテム領域を示すデータ(フレーム対応データ:後述)を動画配信サーバー2にアップロードする。
本実施形態では、領域設定装置6は、領域設定端末6Aと自動追跡処理端末6Bとにより構成されている。領域設定端末6Aは、アイテム領域の設定を行う端末である。自動追跡処理端末6Bは、動画データの複数のフレームから追跡対象の画像を自動追跡処理によって検出する端末である。なお、領域設定装置6は、領域設定端末6A及び自動追跡処理端末6Bの2台の端末で構成されなくても良い。例えば、領域設定端末6Aが自動追跡処理を行っても良い(つまり、領域設定装置6が1台の端末(領域設定端末6A)から構成されても良い)。また、動画配信サーバー2が自動追跡処理を行っても良い。なお、本実施形態では、アイテムとなる商品の購入時の様子を説明することによって、アイテム領域やアイテム領域の設定の様子を説明している。但し、アイテム領域は、商品の領域以外の領域を示すものでも良い。また、アイテム領域やアイテム領域の設定が、商品の購入を目的としていなくても良い。
ユーザー端末10は、動画再生可能な情報端末(動画再生装置)である。ユーザー端末10は、CPU11、主記憶装置12、補助記憶装置13、通信モジュール14、表示部15(表示装置)、入力部16(入力装置)などのハードウェアを備えている。ここでは、ユーザー端末10は、タブレット型の携帯端末を想定しており、タッチパネル17によって表示部15及び入力部16が構成されている。但し、ユーザー端末10がパーソナルコンピュータでも良く、この場合、入力部16は例えばキーボードやマウスで構成され、表示部15は例えば液晶ディスプレイで構成されても良い。
ユーザー端末10のCPU11が、補助記憶装置13に記憶されているプログラムを主記憶装置12に読み出して実行することによって、後述する各種処理が実行されることになる。つまり、ユーザー端末10のCPU11及び主記憶装置12によって、動画再生装置の制御部が構成されている。ユーザー端末10の制御部は、動画再生処理などの各種処理(後述)を制御する。
図2は、全体シーケンスの説明図である。
管理者端末1は、動画データ及び商品データを動画配信サーバー2にアップロードする(S101)。動画データは、連続する複数のフレームから構成されたデータである。管理者端末1からアップロードされた動画データには、商品の映し出された多数のフレームが含まれている。また、管理者端末1からアップロードされた商品データには、商品名、商品説明、画像(静止画)、在庫、価格、販売期間などが含まれている。
領域設定装置6は、動画配信サーバー2に登録されている動画データ及び商品データをダウンロードし(S102)、その動画に映し出された商品の領域をアイテム領域として設定する(S103)。領域設定装置6は、各フレームのアイテム領域を設定した後(S103の後)、アイテム領域の設定されたフレーム対応データを動画配信サーバー2にアップロードする(S104)。これにより、アイテム領域データベース3B(図1参照)が作成されることになる。
動画配信サーバー2は、ユーザー端末10から動画再生リクエストを受けると(S105)、動画データ、メタデータ及び制御プログラムをユーザー端末10に配信する(S106)。図3は、動画配信サーバー2が配信するデータの説明図である。
動画データは、連続したフレームから構成されている。動画データに含まれるフレームを順次切り替えて表示させることによって、動画が再生されることになる。以下の説明では、或るフレームに女優の映像が含まれており、この女優のバッグ、服及び靴が、販売対象となる商品(アイテム)であるものとする。
メタデータは、動画データに付随する付加データである。本実施形態では、メタデータは、フレーム対応データと、参照テーブルとを有する。
フレーム対応データは、動画データのフレームに対応付けられたメタデータである。フレーム対応データは、タイムコードと、アイテム情報とを備えている。タイムコードは、時間を示すデータであり、フレームに対応付けるためのデータ(動画に同期させるためのデータ)である。フレーム対応データのアイテム情報は、アイテムIDと、アイテム領域データとから構成されている。アイテムIDは、アイテム(商品)の識別子である。アイテム領域データは、アイテム領域の位置や範囲を示すデータであり、アイテム領域を設定するためのデータである。本実施形態では、アイテム領域が矩形であるため、アイテム領域データは、矩形領域の設定に必要な対角の2点の座標データから構成されている。但し、アイテム領域は、矩形に限られるものではなく、例えば円形でも良く、この場合のアイテム領域データは、例えば中心点の座標と半径を示すデータから構成される。このように、各フレームに対してアイテム領域が予め設定されている。但し、全てのフレームに対してアイテム領域を設定する必要は無く、例えばアイテムの表示されないフレームに対しては、アイテム領域が設定されなくても良い。なお、メタデータのフレーム対応データは、アイテム領域データベース3Bから対応するアイテムのデータが抽出されることによって作成されたデータである。
参照テーブルは、動画データに含まれるアイテム(商品)のデータテーブルである。参照テーブルは、アイテムIDと、商品データとを備えている。アイテムIDは、アイテム(商品)の識別子である。なお、メタデータの商品データは、動画配信サーバー2の商品データベース4A(管理者端末1からアップロードされた商品データ(図2:S101))から作成されたデータである。
制御プログラムは、ユーザー端末10の動作(後述)を制御するプログラムである。ここでは、制御プログラムは、ユーザー端末10の動画再生機能を拡張させるプログラムである。後述するように、制御プログラムは、動画再生時の拡張機能として、領域設定機能、ストック機能(カート機能)及び決済機能をユーザー端末10に実現させることになる。領域設定機能、ストック機能及び決済機能については、後述する。なお、制御プログラムが、動画データを再生する動画再生機能を有していても良い。本実施形態では、動画配信サーバー2は、動画データを配信する際に、領域設定機能、ストック機能及び決済機能を有する制御プログラムを動画データに付随させて配信することになる。但し、ユーザー端末10に予め制御プログラムがインストールされていれば、動画配信サーバー2は、動画データの配信時に制御プログラムを配信しなくても良い。
ユーザー端末10は、動画配信サーバー2から受信した動画データに基づいて、動画を再生する(S107)。また、ユーザー端末10は、動画再生時に、動画データに同期させて、メタデータに基づいてアイテム領域を設定する(領域設定機能)。動画配信サーバー2からユーザー端末10に配信した制御プログラムは、ユーザー端末10に、動画データに同期させてアイテム領域を設定させる。
図4A〜図4Dは、ユーザー端末10での基本動作の説明図である。図5は、動画再生時にユーザー端末10が行う画像生成処理のフロー図である。ユーザー端末10の制御部は、図5の画像生成処理を繰り返し行うことによって、動画再生のための画像を次々と表示し、動画を再生する。なお、図5のS001の処理は、ユーザー端末10の有する動画再生プログラム(動画再生機能)による処理であり、S002〜S004の処理は、動画配信サーバー2から受信した制御プログラム(領域設定機能)による処理である。
まず、ユーザー端末10は、受信した動画データに基づいて、表示すべき画像(フレーム)を生成する(S001)。ここでは、バッグを持った女優の画像が生成されることになる(図4A参照)。なお、この画像の中のバッグ、服及び靴が、販売対象となる商品(アイテム)である。次に、ユーザー端末10は、表示すべき画像(フレーム)のタイムコードに対応するフレーム対応データを取得する(S002)。次に、ユーザー端末10は、フレーム対応データに含まれるアイテム領域データに基づいて、アイテム領域を示す枠31の画像を生成する(S003)。ここでは、バッグ、服及び靴のそれぞれの領域に枠31の画像が生成されることになる(図4A参照)。そして、ユーザー端末10は、S001で生成した画像に、S003で生成した枠31の画像を重ね合わせた画像を生成する(S004)。これにより、図4Aに示す画像がユーザー端末10のタッチパネル17の動画表示部21Aに表示されることになる。言い換えると、ユーザー端末10は、ユーザー端末10の動画再生プログラムによって動画データから動画レイヤを生成し(S001)、制御プログラム(領域設定機能)によってフレーム対応データから枠画像レイヤを生成し(S002、S003)、動画レイヤと枠画像レイヤを重ね合わせることによって図4Aに示す画像を表示する。
動画再生時にはフレームが順次切り替えられて表示されるため、動画に追随するようにアイテム領域も刻々と変化するように設定されている。動画再生中に枠31を表示する場合には、枠31も刻々と変形することになる。なお、アイテム領域を示す枠31は、動画再生中に表示しても良いし、非表示にしても良い。
図4Bに示すように、視聴者が、動画内のアイテム(例えばバッグ)に興味を持ったときに、動画表示部21Aに表示されているアイテムの画像をタッチすることがある。ユーザー端末10は、視聴者からの入力部16(例えばタッチパネル17)による入力操作(例えばタッチ操作)があったときに、視聴者がアイテム領域を選択したか否かを判断する。
図6は、選択領域判断処理のフロー図である。なお、図6の各処理は、動画配信サーバー2から受信した制御プログラム(領域設定機能)による処理である。
まず、ユーザー端末10は、視聴者が入力した位置を示す入力座標を取得する(S011)。次に、ユーザー端末10は、視聴者が入力操作(例えばタッチ操作)した時のフレーム対応データを取得する(S012)。次に、ユーザー端末10は、取得したフレーム対応データで設定されているアイテム領域と、入力座標とを比較する(S013)。そして、入力座標がアイテム領域の範囲内の場合(S014でYES)、視聴者がアイテム領域を選択したと判断する(S015)。また、入力座標がアイテム領域の範囲外の場合(S014でNO)、アイテム領域以外の領域(非アイテム領域)が選択されたと判断する(S016)。
ユーザー端末10は、視聴者がアイテム領域を選択したことを検出すると(図2:S108:例えば視聴者の指でアイテム領域がタッチ操作されたことを検出すると)、そのアイテム領域に対応付けられたアイテム情報をストック情報として記憶する。そして、図4Cに示すように、ユーザー端末10は、所定のアイテム情報がストック情報として記憶されると、タッチパネル17のストック情報表示部21Cにストック情報(ストックされたアイテム情報)に対応する商品アイコン32Aを表示する。この商品アイコン32Aは、メタデータの参照テーブルの商品データに含まれている画像(静止画)のデータに基づいている。ストック情報表示部21Cにアイテム情報に対応する商品アイコン32A(例えばバッグの画像)を表示することによって、視聴者は、希望する商品をストックさせたことを認識できる。なお、アイテム情報をストック情報としてユーザー端末10に記憶させる処理や、ストック情報に対応する商品アイコン32Aをユーザー端末10に表示させる処理は、図3に示す制御プログラムのストック機能(カート機能)による処理である。
ユーザー端末10は、視聴者がアイテム領域を選択したことを検出した後、更に視聴者が所定操作を行ったことを検出したときに、そのアイテム領域に対応付けられたアイテム情報をストック情報として記憶しても良い。このときの所定操作としては、例えば、タッチ操作(タップ操作)、所定時間以上の長押し操作、フリック操作、ドラッグ操作(ドラッグアンドドロップ操作)などである。例えば、ユーザー端末10は、視聴者がタッチパネル17のバッグを所定時間(例えば3秒間)長押ししたときに、そのバッグのアイテム情報をストックさせても良い。
また、ユーザー端末10は、視聴者がアイテム領域を選択したことを検出する度に、ストック情報を蓄積する。これにより、図4Dに示すように、ユーザー端末10は、複数のストック情報を記憶することができる。また、ユーザー端末10は、アイテム領域が選択されたとき(ストック情報を記憶したとき)には、動画を中断させずに、動画の再生を継続する。これにより、動画の視聴が中断されてしまうことを抑制できる。
図7A及び図7Bは、商品アイコン32Aが選択されたときの様子の説明図である。ユーザー端末10は、視聴者がストック情報表示部21Cの商品アイコン32A(商品の画像)を選択したことを検出すると(図7A参照)、その商品アイコン32Aに対応する商品の商品説明画面を表示する(図7B参照)。商品説明画面に含まれる情報は、メタデータの参照テーブルに含まれる商品データ(図3参照)に基づいている。商品説明画面を表示することにより、視聴者に商品購入のための判断材料を提供することができる。商品説明画面には、削除ボタン32Bが含まれていても良い。ユーザー端末10は、視聴者が削除ボタン32Bを選択したことを検出すると、対応するストック情報を削除することになる。
図7C及び図7Dは、購入手続ボタン32C(カートアイコン)が選択されたときの様子の説明図である。ユーザー端末10は、視聴者が購入手続ボタン32Cを選択したことを検出すると(図7C参照)、決済処理を行う。決済処理は、動画配信サーバー2から受信した制御プログラム(決済機能)による処理である。決済処理として、ユーザー端末10は、図7Dに示す決済画面を表示する(S109)。決済画面には、決済対象となる商品の情報や、購入決定ボタン32Dが表示される。決済画面に含まれる商品の情報は、メタデータの参照テーブルに含まれる商品データに基づいている。なお、本実施形態では、複数の商品の決済を一括して行うことができる。これにより、決済までに必要な操作を軽減できるとともに、動画の視聴が中断されてしまうことを抑制できる。
ユーザー端末10は、商品説明画面(図7B)や決済画面(図7D)を表示するとき、動画の再生を中断させている。但し、ユーザー端末10は、再生中の動画とともにマルチ画面として、商品説明画面や決済画面を表示しても良い。
また、ユーザー端末10は、動画データとともに配信されたメタデータや制御プログラムに基づいて、商品説明画面(図7B)や決済画面(図7D)を表示しているが、ユーザー端末10は、外部のサーバーにリクエストして、商品説明画面や決済画面に必要な情報を取得しても良い。但し、本実施形態のように、動画データとともにメタデータ及び制御プログラムを配信することによって、決済完了までに必要なデータを動画とともに配信すれば、円滑な決済を実行することができる。
ユーザー端末10は、決済画面(図7D)の購入決定ボタン32Dがタッチ操作されたことを検出すると(S110)、動画配信サーバー2に決済を要求する(S111)。動画配信サーバー2は、ユーザー端末10からの決済要求に応じて、商品の売買のための決済処理を行う(S112)。これにより、視聴者は、動画内の興味を持った商品(例えばバッグ)を購入することができる。
<アイテム領域の設定方法>
既に説明したように、領域設定装置6は、動画配信サーバー2に登録されている動画データ及び商品データをダウンロードし(図2:S102)、その動画に映し出された商品の領域をアイテム領域として設定する(S103)。但し、動画データには多数のフレームがあるため(例えば1秒間あたり30フレーム)、全フレームに対してアイテム領域を1つずつ設定する作業は、膨大な作業量となる。そこで、本実施形態では、次のようにアイテム領域の設定を行っている。
図8は、第1実施形態のアイテム領域の設定処理のフロー図である。領域設定装置6(領域設定端末6A及び自動追跡処理端末6B)は、不図示のCPU、主記憶装置、補助記憶装置、通信モジュール、表示部(表示装置)、入力部(入力装置)などのハードウェアを備えたコンピュータである。領域設定装置のCPUは、補助記憶装置に記憶されているプログラム(領域設定プログラム)を主記憶装置に読み出して実行することによって、図中の各種処理を実行する。言い換えると、領域設定装置6のCPU及び主記憶装置によって領域設定装置6の制御部が構成されており、この制御部が、図中の各種処理を実行する。なお、本実施形態では、領域設定装置6が領域設定端末6Aと自動追跡処理端末6Bとから構成されているため、図中の各処理は、領域設定端末6A又は自動追跡処理端末6Bによって実行されることになる。
まず、領域設定端末6Aは、追跡対象の設定を行う(S201)。例えば、作業者は、領域設定端末6A上で動画データを再生させ、動画に商品(アイテム)が映し出されたときに動画を一時停止させ、停止中の画像(初期フレーム)上で入力部(例えばマウス)を用いて商品の領域(例えば、動画中の女優の服の領域)を選択する。そして、領域設定端末6Aは、一時停止させたときのフレーム(任意のフレーム)を初期フレームとし、初期フレームから作業者によって選択された範囲の画像(商品の画像)を追跡対象として設定する。これにより、自動追跡処理の追跡対象となる画像(対象画像)が特定されることになる。なお、追跡対象の画像の領域は、初期フレームに対応するアイテム領域に相当する。領域設定端末6Aは、追跡対象の画像を特定するためのデータとして、初期フレームのタイムコードと、初期フレームに対応するアイテム領域(追跡対象の画像の領域;作業者によって選択された範囲)を示すデータを、動画配信サーバー2のアイテム領域データベース3Bに書き込むことによって、追跡対象を設定する。なお、タイムコードやアイテム領域に基づいて追跡対象となる画像(対象画像)を特定する代わりに、作業者によって選択された範囲の画像(画像データ)を抽出することによって、追跡対象となる画像を特定してもよい。また、領域設定端末6Aは、追跡対象の画像を特定するためのデータを、アイテム領域データベース3Bに書き込む代わりに、自動追跡処理端末6Bに受け渡しても良い。
次に、自動追跡処理端末6Bは、アイテム領域データベース3Bの追跡対象の画像のデータ(ここでは、初期フレームのタイムコード及びアイテム領域)を参照し、自動追跡処理によって初期フレーム以降の各フレームから追跡対象の画像を検出し、各フレームで検出された追跡対象の領域をアイテム領域として設定する(S202)。ここでは、自動追跡処理として、KCF(Kernelized Correlation Filter)が用いられる。但し、S202で用いられる自動追跡処理は、KCFに限られるものではなく、他の公知の自動追跡アルゴリズムを適用可能である。
ところで、KCFでは、入力画像XにフィルタWを畳み込むと、追跡対象の位置Yが求められることを想定している。KCFでは、学習フェイズにおいて、次式を最小化することによって、フィルタWを求めることになる。
ここで、xiは、iピクセルずつシフトした学習サンプル画像である。1枚の画像を異なるシフト量でシフトさせることによって、1枚の画像から学習用の画像を仮想的に増やしている。yiは、xiに対応する物体の位置を示す教師ラベルである。
図9は、教師ラベルの説明図である。教師ラベルは、中心位置が最大値となる1であり、最小値が0となるガウス分布で表される。
KCFの学習フェイズにおいて、入力画像XにフィルタWをかけると物体の位置Yが求められるようなフィルタWが求められることになる。学習フェイズで求められたフィルタWが分類器として機能することになる。追跡フェイズでは、追跡対象となる画像Xと、学習フェイズで求めたフィルタWとを用いて、次式によって追跡対象の位置f(x)を求める。
追跡フェイズで求められた位置f(x)は、理想的な追跡対象の場合、学習フェイズの教師ラベル(図9参照)と同様に、最大値が1、最小値が0のガウス分布となる。位置f(x)の最大値の座標は、追跡対象の中心位置となる。位置f(x)の最大値が大きいほど、追跡対象(追跡結果)が尤もらしいことになり、追跡対象(追跡結果)の信頼度が高いことになる。以下の説明では、追跡対象の尤もらしさ(信頼度)を示す値を「スコア」と呼ぶことがある。本実施形態では、「スコア」は、位置f(x)の最大値である。
本実施形態では、前フレームの追跡対象の画像(アイテム領域)の大きさを基準にして、追跡対象の画像のサイズを少しずつ変えて、次フレームに対して異なるサイズの追跡対象ごとにKCFによる計算を行う。そして、1番高いスコア(位置f(x)の最大値)となったサイズの追跡対象に基づいて、アイテム領域を設定する。なお、このとき設定されたアイテム領域の中心位置は、位置f(x)の最大値の座標であり、アイテム領域の大きさは、1番高いスコア(位置f(x)の最大値)となった追跡対象のサイズである。本実施形態によれば、動画上の商品(アイテム;追跡対象)の画像の大きさが変化しても、商品の大きさに追随させてアイテム領域を設定することができる。
上記の通り、S202の処理において、KCFによって初期フレームから順に次フレームの追跡対象の画像が検出される。自動追跡処理端末6Bは、検出された追跡対象の画像の領域を示すデータ(タイムコードと、そのタイムコードのフレームに対応するアイテム領域を示すデータ)を動画配信サーバー2のアイテム領域データベース3Bに書き込むことによって、各フレームで検出された追跡対象の領域をアイテム領域として設定する。また、検出された追跡対象の尤もらしさ(信頼度)を示すスコアが、フレーム毎に算出されることになる。自動追跡処理端末6Bは、各フレームのスコアを示すデータもアイテム領域データベース3Bに書き込むことになる。なお、自動追跡処理端末6Bは、各フレームのアイテム領域やスコアを示すデータを、アイテム領域データベース3Bに書き込む代わりに、領域設定端末6Aに受け渡しても良い。
次に、自動追跡処理端末6Bは、動画データの中から時間間隔をあけてキーフレームを設定する(S203)。本実施形態では、キーフレームとキーフレームとの間の時間間隔は、スコア(追跡対象の尤もらしさ(信頼度)を示す値)に基づいて、設定される。具体的には、自動追跡処理端末6Bは、高いスコア(信頼度の高い)のフレームが連続する時間帯では、キーフレームとキーフレームとの間の時間間隔が長くなるように、キーフレームを設定する。一方、低いスコア(信頼度の低い)のフレームが連続する時間帯では、キーフレームとキーフレームとの間の時間間隔が短くなるように、キーフレームを設定する。自動追跡処理端末6Bは、キーフレームの情報をアイテム領域データベース3Bに書き込むことによって、キーフレームの設定が行われる。なお、自動追跡処理端末6Bは、キーフレームの情報をアイテム領域データベース3Bに書き込む代わりに、領域設定端末6Aに受け渡しても良い。また、キーフレームを設定する処理(S203)を、自動追跡処理端末6Bが行う代わりに、領域設定端末6Aが行っても良い。
図10は、キーフレームの説明図である。ここでは、動画中の女優が、画面の左下から右に向かって移動した後、反転して、画面の左上に向かって移動することを想定している。図中には、一定時間間隔の複数のフレームが重ねられて描かれており、各フレームの女優とアイテム領域(服のアイテム領域)の軌跡が描かれている。図中には、キーフレームのアイテム領域は実線で描かれており、非キーフレームのアイテム領域は点線で描かれている。
本実施形態では、図に示すように、服の画像(追跡対象の画像)の変化が少ない時間帯では、高いスコアのフレームが連続するため、キーフレームとキーフレームとの間の時間間隔が長くなる。一方、女優が反転して服の画像の変化が大きい時間帯では、フレームのスコアが低くなるため、キーフレームとキーフレームとの間の時間間隔が短くなる。
次に、領域設定端末6Aは、アイテム領域の再編集が必要か否かを判断する(S204)。例えば、領域設定端末6Aは、アイテム領域を示す枠を重ね合わせながら動画を再生させ、作業者にアイテム領域を確認させる。作業者は、動画に映し出された商品(アイテム)と、アイテム領域を示す枠との位置関係を確認することになる。作業者は、動画に映し出された商品(アイテム)に対してアイテム領域を示す枠の位置に異常があれば、動画を一時停止させ、停止中の画像(編集対象となるフレーム:編集フレーム)上で、入力部(例えばマウス)を用いて、アイテム領域を示す枠の位置・サイズを変更する。領域設定端末6Aは、このような入力操作を検出した場合には、アイテム領域の再編集が必要であると判断する(S204でYES)。一方、領域設定端末6Aは、作業者による動画の確認が終了した場合には、アイテム領域の再編集が不要であると判断し(S204でNO)、アイテム領域の設定処理を終了する。
作業者が編集フレーム上でアイテム領域の枠の位置・サイズを変更した場合(S204でYES)、領域設定端末6Aは、変更後の枠の位置・サイズを示すように、編集フレームに対応するアイテム領域(アイテム領域データ)を再設定する(S205)。
領域設定端末6Aは、編集フレームに対応するアイテム領域を再設定した後(S205)、編集フレームをキーフレームに設定する(S206)。ここでは、領域設定端末6Aは、編集フレームがキーフレームになった旨の情報をアイテム領域データベース3Bに書き込むことになる。なお、編集フレームをキーフレームに設定する理由は、後述する通り、その後に他のフレームのアイテム領域が更に編集されたとしても、既に編集されたフレームのアイテム領域が補間処理(後述)によって変更されてしまうことを防止するためである。
編集フレームのアイテム領域が変更された場合には、その編集フレームの前後のフレームにおいても、そのフレーム中の商品(アイテム)と、S202で設定されたアイテム領域との間にズレが生じていると考えられる。そこで、本実施形態では、領域設定端末6Aは、編集フレーム(S205でアイテム領域が再設定されたフレーム;S206でキーフレームに設定されたフレーム)の前後のフレームのアイテム領域を再設定する(S206)。
図11は、S207の説明図である。図中の「フレームO」は、編集フレーム(S205でアイテム領域が再設定されたフレーム;S206でキーフレームに設定されたフレーム)を示している。図中の「フレームA」は、編集フレームOの直前のキーフレームを示している。図中の「フレームB」は、編集フレームOの直後のキーフレームを示している。
キーフレームAには、S202の処理によって、アイテム領域を示す2点の座標(XA1,YA1)及び座標(XA2,YA2)が設定されている。同様に、キーフレームBには、S202の処理によって、アイテム領域を示す2点の座標(XB1,YB1)及び座標(XB2,YB2)が設定されている。また、前述のS205の処理によって、編集フレームOに対するアイテム領域を示す2点の座標値が、座標(XO1’,YO1’)及び座標(XO2’,YO2’)に変更されている。
図に示すように、領域設定端末6Aは、S205の処理の後、編集フレームOと、直前のキーフレームAとの間のフレームに対するアイテム領域を、補間処理によって算出する。具体的には、編集対象となったフレームOのアイテム領域の左上の座標(XO1’,YO1’)と、直前のキーフレームAのアイテム領域の左上の座標(XA1,YA1)とに基づいて、その間のフレームのアイテム領域の左上の座標値を直線補間によって算出する。同様に、編集対象となったフレームOのアイテム領域の右下の座標(XO2’,YO2’)と、直前のキーフレームAのアイテム領域の右下の座標(XA2,YA2)とに基づいて、その間のフレームのアイテム領域の右下の座標値を直線補間によって算出する。また、同様に、領域設定端末6Aは、編集対象となったフレームOと、直後のキーフレームBとの間のフレームに対するアイテム領域を、補間処理によって算出する。
次に、領域設定端末6Aは、S207の処理の後、更にアイテム領域の編集が必要か否かを判断する(S204に戻る)。なお、編集の対象としたフレームがS206でキーフレームに設定されることによって、その後に他のフレームのアイテム領域が編集されたとしても、編集の対象となったフレームのアイテム領域が補間処理によって変更されてしまうことを防止できる。また、編集フレームOで再設定されたアイテム領域は、追跡対象の画像とのズレが小さいことが期待できるため、その後に他のフレームのアイテム領域が編集されて補間処理(S207)が再度行われるときに、再度行われる補間処理によって再設定されたアイテム領域(キーフレームになった旧編集フレームと、新たに編集された新編集フレームとの間のフレームのアイテム領域)と追跡対象の画像とのズレを抑制することできる。
<第1実施形態の小括>
上記の第1実施形態の領域設定装置6(領域設定端末6A及び自動追跡処理端末6B)は、動画データに同期させてアイテム領域を設定する領域設定装置の一例である。上記の領域設定装置6は、動画データに含まれる任意のフレームから自動追跡処理の追跡対象となる画像(対象画像)を特定する(図8のS201参照)。次に、領域設定装置6は、動画データに含まれる複数のフレームから追跡対象の画像(対象画像)を自動追跡処理によって検出し、それぞれのフレームから自動追跡処理によって検出された追跡対象の画像の領域を、アイテム領域としてそれぞれのフレームに対応付けている(S202参照)。これにより、第1実施形態では、それぞれのフレームにアイテム領域を設定する作業が容易になる。
また、第1実施形態では、領域設定装置6は、自動追跡処理によって検出された検出対象の画像のスコア(尤もらしさ(信頼度)を示す値)を算出し(S202)、信頼度の低いスコアのフレームが連続する時間帯では時間間隔が短くなるように、スコアに応じて動画データの中から複数のキーフレームを設定する(図8のS203;図10参照)。そして、領域設定装置6は、フレーム(編集フレームO)に設定されているアイテム領域が編集されたとき、アイテム領域の編集された編集フレームO(S206でキーフレームに設定されたフレーム)と、キーフレーム(キーフレームAやキーフレームB)との間のフレームに対応するアイテム領域を、補間処理によって再設定する(図8のS207;図11参照)。
このような第1実施形態によれば、信頼度の高いスコアのフレームが連続する時間帯では、編集フレームOとキーフレームとの時間間隔が比較的長くなるため、補間処理によってアイテム領域の再設定されるフレーム(編集フレームOとキーフレーム(キーフレームAやキーフレームB)との間のフレーム)が比較的多くなり、効率よくアイテム領域を再設定することができる。なお、信頼度の高いスコアのフレームが連続する時間帯では、追跡対象の画像の変化が小さいため、比較的多くのフレームのアイテム領域を補間処理によって一括で再設定しても、再設定後のアイテム領域と追跡対象の画像とのズレが小さくなる。このため、信頼度の高いスコアのフレームが連続する時間帯では、比較的多くのフレームのアイテム領域を補間処理によって再設定することが許容されている。
一方、信頼度の低いスコアのフレームが連続する時間帯では、追跡対象の画像の変化が大きいため、仮に補間処理によって多くのフレームのアイテム領域を再設定すると、補間処理によって再設定されたアイテム領域と追跡対象の画像とのズレが大きくなってしまう可能性が高くなる。これに対し、本実施形態では、信頼度の低いスコアのフレームが連続する時間帯では、時間間隔が短くなるように複数のキーフレームが設定されるため、補間処理によってアイテム領域の再設定されるフレーム(編集フレームOとキーフレーム(キーフレームAやキーフレームB)との間のフレーム)が比較的少なくなる。この結果、本実施形態では、信頼度の低いスコアのフレームが連続する時間帯においても、補間処理によって再設定されたアイテム領域と追跡対象の画像とのズレを抑制することができる。このように、第1実施形態では、S203及びS207の処理によって、「アイテム領域の設定作業を効率化すること」と、「補間処理によって再設定されたアイテム領域と追跡対象の画像とのズレを抑制すること」という、相反する課題を解決できる。
また、第1実施形態では、領域設定装置6は、S205で編集したフレーム(編集フレームO)をキーフレームに設定している(S206参照)。これにより、その後に他のフレームのアイテム領域が編集されたとしても、編集の対象となったフレームのアイテム領域が補間処理によって変更されてしまうことを防止できる。
なお、前述の第1実施形態では、S205で編集したフレーム(編集フレームO)をキーフレームに設定しているが(S206)、編集フレームOをキーフレームに設定しなくても良い。また、前述の第1実施形態では、それぞれのフレームのアイテム領域を自動追跡処理によって設定した後にアイテム領域を再設定(編集)しているが、アイテム領域を再設定せずに、自動追跡処理によって求めたアイテム領域をそのまま動画配信サーバー2に登録しても良い。
===第2実施形態===
前述の第1実施形態では、自動追跡処理の追跡対象は、作業者が領域設定端末6Aで入力作業を行うことによって、特定されていた(図8のS201参照)。これに対し、第2実施形態では、自動追跡処理の追跡対象の特定をコンピュータが自動的に行う。また、第2実施形態では、領域設定端末6Aではなく、動画配信サーバー2がアイテム領域の設定を行う。この結果、第2実施形態の領域設定装置は、動画配信サーバー2と自動追跡処理端末6Bとにより構成されている。
図12は、第2実施形態の全体シーケンスの説明図である。既に説明したように、多数のユーザー端末10が、動画配信サーバー2から受信した動画データ(及びメタデータ)に基づいて、動画を再生する(S107)。そして、ユーザー端末10上で視聴者による入力操作が行われることになる(S108’)。
図13Aは、ユーザー端末10上で視聴者が入力を行うときの様子の説明図である。ここでは、視聴者が、表示中の男性のリュックの領域を選択しているが、このリュックの領域は、アイテム領域以外の領域(非アイテム領域)である。前述のようにアイテム領域を視聴者に選択させるインターフェース環境下では、この視聴者が男性のリュックに興味を持っていると推測できる。第2実施形態では、ユーザー端末10は、ユーザー端末10上で視聴者が入力操作(例えばタッチ操作)したとき、動画配信サーバー2に入力ポイントデータを送信する(図12のS121)。
図13Bは、ユーザー端末10が動画配信サーバー2に送信するデータの説明図である。ユーザー端末10は、ユーザー端末10上で視聴者が入力操作(例えばタッチ操作)したとき、入力ポイントデータを取得する。入力ポイントデータは、入力操作した時間(入力時間;タイムコード)と、入力部によって入力された座標(入力座標)とを有する。なお、入力ポイントデータとして、他のデータが含まれても良い。そして、ユーザー端末10は、入力ポイントデータ(入力時間及び入力座標)を、動画データを識別するためのIDに対応付けて、動画配信サーバー2に入力ポイントデータを送信する。動画配信サーバー2は、多数のユーザー端末10から入力ポイントデータを収集し、入力ポイントデータベースを作成するとともに、後述する設定処理を行う(図12のS122;図14)。
なお、本実施形態では、ユーザー端末10は、ユーザー端末10上で視聴者が入力した座標(入力座標)がアイテム領域の範囲内か否かにかかわらず、入力ポイントデータを動画配信サーバー2に送信する(図12のS121)。但し、ユーザー端末10は、ユーザー端末10上で視聴者が入力した座標(入力座標)がアイテム領域以外の領域(非アイテム領域)の範囲内の場合にのみ、入力ポイントデータを動画配信サーバー2に送信しても良い。
図14は、S122において動画配信サーバー2が行う設定処理のフロー図である。動画配信サーバー2は、ユーザー端末10から入力ポイントデータを受信した後、この設定処理を行う。動画配信サーバー2の不図示のCPUは、補助記憶装置に記憶されているプログラムを主記憶装置に読み出して実行することによって、図中の各種処理を実行する。言い換えると、動画配信サーバー2のCPU及び主記憶装置によって動画配信サーバー2(第2実施形態の領域設定装置)の制御部が構成されており、この制御部が、図中の各種処理を実行する。
まず、動画配信サーバー2は、入力ポイントデータベースから入力ポイントデータを取得する(S301)。既に説明したように、入力ポイントデータは、ユーザー端末10上で視聴者が入力部を介して入力したポイント(入力時間、入力座標)を含むデータである(図13B参照)。
次に、動画配信サーバー2は、多数の入力ポイントデータに基づいて、入力分布データ(ヒートマップ)を作成する(S302)。入力分布データは、視聴者の入力状況を示すデータである。入力分布データは、ヒートマップと呼ばれることもある。
図15A及び図15Bは、入力分布データの説明図である。図15Aでは、入力分布データが単独で示されている。図15Bでは、入力分布データに動画(フレーム)を重ね合わせた状態が示されている。ここでは、或る時間の入力分布データがXY座標系の2次元画像として示されているが、入力分布データは、時間軸を含む3次元データである。図中の濃い領域は、α値(後述する最終α値)が大きい領域である。入力分布データ上のα値の大きい箇所は、多数の視聴者からの選択が集中している領域(ホットスポット)を示している。
ところで、1つの入力ポイントデータは3次元空間上の1点を示す2値データであるため、多数の入力ポイントデータをそのまま重ね合わせても、入力ポイントが分散した状態になってしまい、入力状況の分布が表れにくい。そこで、動画配信サーバー2は、時間方向及びXY方向に入力ポイントを広げる処理(膨張処理)と、多値化処理とを行っている。具体的には、まず、動画配信サーバー2は、入力ポイントデータの入力時間の前後の所定時間(例えば0.5秒)に入力があったものとして、時間方向に入力ポイントを広げる。また、時間方向に入力ポイントを広げる際に、実際の入力時間に近いほど大きいα値(多値データ)が付与されるように重み付けを行って、入力座標の画素にα値を付与する。次に、動画配信サーバー2は、入力ポイントまでの距離(2次元座標上の距離)に応じて入力座標の周囲の画素にα値を付与して、XY方向に入力ポイントを広げる。ここでは、動画配信サーバー2は、入力座標に近い座標(XY座標)ほど大きい値になるように、同心円状に周囲の画素のα値を付与する。なお、入力座標を中心とする円の内側の画素にα値が付与されることになるが、その円の大きさは、所定の大きさでも良いし、入力座標に付与されているα値に応じた大きさでも良い。動画配信サーバー2は、各入力ポイントデータに対して、上記の処理(時間方向及びXY方向に入力ポイントを広げる処理と多値化処理)を行った後、座標ごとにα値を重ね合わせて最終α値を決定する。なお、最終α値に対して所定閾値ごとに色分けをすることによって、図15A(及び図15B)に示すヒートマップが生成される。なお、入力分布データ(ヒートマップ)の作成方法は、上記の方法に限られるものではない。
次に、動画配信サーバー2は、入力分布データに基づいて、特定処理(後述するS304の処理)の要否を判定する(S303)。本実施形態では、予め所定サイズ(最低サイズ)の矩形を設定した上で、入力分布データ上で探索が行われ、「所定サイズの矩形内に、最終α値が所定値以上の画素(ピクセル)が、所定数以上存在するか」が判定される。なお、「所定サイズ(最低サイズ)の矩形」を判定の基準にしている理由は、小さすぎるホットスポットの抽出を抑制し、ノイズを抑制するためである。更に、本実施形態では、「所定サイズの矩形内に、最終α値が所定値以上の画素(ピクセル)が、所定数以上存在する」場合であっても、「そのときの矩形の領域にアイテム領域が設定されていないこと」も判定される。この条件の判定が行われることにより、重複してアイテム領域が設定されることを抑制できる。
例えば、図15A及び図15Bの女優のバッグの領域では、最終α値の大きな画素が密集しているが、既にこの領域にはバッグのアイテム領域が設定されているため、この領域に対しては、特定処理は不要と判定されることになる。一方、男性のリュックの領域では、最終α値の大きな画素が密集したことによって、「所定サイズの矩形内に、最終α値が所定値以上の画素(ピクセル)が、所定数以上存在する」という条件を満たせば、「そのときの矩形の領域にアイテム領域が設定されていない」という条件も満たすことになるため、S303の要否判定において、特定処理が必要と判定されることになる。
ところで、ユーザー端末10から入力ポイントデータを取得し始めた初期段階では、入力ポイントデータが少ないため、入力分布データ上で最終α値が所定値以上の画素は少ない。このため、初期段階では、S303の要否判定において、「所定サイズの矩形内に、最終α値が所定値以上の画素(ピクセル)が、所定数以上存在するか」という判定条件を満たせない。このように、判定条件を満たせない場合には、動画配信サーバー2は、S303の要否判定で「不要」と判断し、設定処理を終了する。例えば、図12のユーザー端末10Aから入力ポイントデータを受信した段階では、S303の判定条件を満たさなかったので、動画配信サーバー2は、S303の要否判定で「不要」と判断し、設定処理を終了している。
一方、ユーザー端末10から取得した入力ポイントデータが蓄積されてくると、入力ポイントデータが増えて、入力分布データ上で最終α値が所定値以上の画素が増えてくる。ここでは、図12のユーザー端末10Bから入力ポイントデータを取得し、この入力ポイントデータ分のα値が入力分布データに加算された結果、この段階でS303の判定条件が満たされたものとする。S303で判定条件を満たしている場合、動画配信サーバー2は、追跡対象の特定処理を行う(S304)。
図16A及び図16Bは、S304の特定処理の説明図である。図16Aには、S303の判定条件を満たした入力時間における入力分布データの2次元データが示されている。図16Bには、S303の判定条件を満たした入力時間に対応するフレームが示されている。
S304の特定処理では、動画配信サーバー2は、入力分布データ上において所定値以上の最終α値の領域(画素群)に外接する矩形の位置・サイズを特定する。なお、ノイズの影響を抑制するため、入力分布データに対してノイズ除去処理(例えば平滑化フィルタ処理)を施した上で、所定値以上の最終α値の領域(画素群)に外接する矩形の位置・サイズを特定しても良い。ここでは、図16Aに示すように、入力分布データ上において所定値以上の最終α値の領域(画素群)に外接する矩形の2点の座標(X1,Y1)と座標(X2,Y2)が特定されたものとする。
なお、S303の判定条件を満たした入力時間に対応するフレームは、前述の初期フレームに相当する。また、特定された2点の座標(X1,Y1)及び座標(X2,Y2)は、初期フレームに対応するアイテム領域に相当する。動画配信サーバー2は、追跡対象の画像を特定するためのデータとして、初期フレームのタイムコードと、初期フレームに対応するアイテム領域(ここでは2点の座標)をアイテム領域データベース3Bに書き込むことによって、追跡対象を設定する。例えば、図16Aに示すように入力分布データ上で2点の座標が特定された場合には、図16Bに示すように、動画データ(フレーム)から同じ2点の座標で特定された矩形領域の画像を特定することができる。これにより、多くの視聴者が興味を持っていると推測される商品(ここではリュック)の画像を特定することができる。つまり、第2実施形態では、自動追跡処理の追跡対象の画像の特定をコンピュータ(ここでは動画配信サーバ2)が自動的に行うことができる。
次に、動画配信サーバー2は、自動追跡処理によって初期フレーム以降の各フレームから追跡対象の画像を検出し、各フレームで検出された追跡対象の領域をアイテム領域として設定する(S305)。この処理は、第1実施形態のS202の処理と同様である。
次に、動画配信サーバー2は、アイテム領域が新規に設定されたことを報知して(S306)、設定処理を終了する。これにより、ショップ管理者は、想定外の商品に視聴者が興味を示していることを知ることができる。なお、本実施形態では、動画配信サーバー2は、管理者端末1に報知を行うが(図12のS123参照)、報知先は、管理者端末1に限られるものではなく、領域設定端末6Aでも良い。
動画配信サーバー2は、S123において管理者端末1に報知を行うときに、S304で特定した追跡対象の画像(図16B参照)を管理者端末1に送信しても良い。これにより、ショップ管理者は、どのような商品(ここではリュック)に視聴者が興味を示しているかを知ることができる。また、動画配信サーバー2は、S123において管理者端末1に報知を行うときに、新規設定されたアイテム領域に関する情報も管理者端末1に送信しても良い。例えば、動画配信サーバー2は、新規設定されたアイテム領域を含むフレーム対応データを、動画データとともに管理者端末1に送信しても良い。これにより、管理者端末1で動画データを再生したときに、新規設定されたアイテム領域を示す枠が動画とともに表示させることができる。このように、管理者端末1が動画配信サーバー2から新規設定されたアイテム領域に関する情報を受信することにより、ショップ管理者は、想定外の商品(ここではリュック)に視聴者が興味を示していることを知ることができる。
また、動画配信サーバー2は、S123において管理者端末1に報知を行うときに、S302で作成した入力分布データを管理者端末1に送信しても良い。これにより、ショップ管理者は、視聴者の入力状況を把握することができる。この場合、動画配信サーバー2は、動画に同期させて入力分布データを再生できるように、動画データと入力分布データとを管理者端末1に配信することが望ましい。また、管理者端末1では、再生中の動画に入力分布データを重ね合わせて表示することが望ましい。これにより、ショップ管理者が視聴者の入力状況を把握しやすくなる。
その後、管理者端末1は、新規設定されたアイテム領域に対応する商品データ(ここではリュックの商品データ)を動画配信サーバー2に追加登録することができる(S124)。動画配信サーバー2は、管理者端末1から受信した商品データを商品データベースに追加して、商品データベースを更新する(S125)。また、動画配信サーバー2は、S122で新規に設定したアイテム領域データを含むフレーム対応データと、S124で追加登録された商品データとの対応付けを行う。動画配信サーバー2は、その後にユーザー端末10Cから動画再生リクエストを受けると(S105)、リクエストされた動画データとメタデータ(及び制御プログラム)をユーザー端末10Cに配信する(S106)。このときユーザー端末10Cに配信されるメタデータには、リュックのアイテム情報が含まれている。この結果、ユーザー端末10C上で動画データが再生されると(S107)、新たにリュックの領域にアイテム領域が設定された状態になる。更に、ユーザー端末10C上で視聴者がリュックの領域を選択すると(S108)、リュックの売買のための決済画面が表示され(S109)、リュックの購入が可能になる(S110〜S112)。
<第2実施形態の小括>
上記の第2実施形態の動画配信サーバー2は、動画データに同期させてアイテム領域を設定する領域設定装置の一例である。上記の動画配信サーバー2は、動画データに含まれるフレームから自動追跡処理の追跡対象となる画像(対象画像)を特定する(図14のS304参照)。次に、動画配信サーバー2は、動画データに含まれる複数のフレームから追跡対象の画像(対象画像)を自動追跡処理によって検出し、それぞれのフレームから自動追跡処理によって検出された追跡対象の画像の領域を、アイテム領域としてそれぞれのフレームに対応付けている(S202参照)。これにより、第2実施形態においても、第1実施形態と同様に、それぞれのフレームにアイテム領域を設定する作業が容易になる。
また、第2実施形態では、動画配信サーバー2は、視聴者が入力操作を行った入力時間及び入力座標を示す入力ポイントを複数のユーザー端末10(動画再生装置)から取得し(図12のS121、図14のS301参照)、入力ポイントの集中する領域に基づいて、自動追跡処理の追跡対象となる画像(対象画像)を特定する(図14のS304参照)。このような第2実施形態によれば、第1実施形態と比べて、自動追跡処理の追跡対象を設定する作業が容易になる。
また、第2実施形態では、動画配信サーバー2は、複数のユーザー端末10(動画再生装置)から取得した入力ポイントに基づいて、入力分布データ(図15A参照)を作成し(S302参照)、入力分布データ上において入力ポイントの集中する時間と範囲を特定する(S304;図16A参照)。そして、動画配信サーバー2は、入力分布データ上で特定された時間と範囲(入力ポイントの集中する入力時間と入力範囲)に基づいて、動画データの対応するフレームから、対応する範囲の画像を特定することによって、対象画像を特定する(S304;図16B参照)。これにより、入力ポイントの集中する領域を特定する作業が容易になる。
加えて、第2実施形態では、動画配信サーバー2は、入力分布データ(図15A参照)を作成する際に(S302参照)、入力ポイントの入力時間を時間方向に広げるとともに、入力座標を2次元方向に広げて、複数の入力ポイントのデータ(α値)を重畳させることによって、入力分布データを作成している。1つの入力ポイントは3次元空間上の1点を示す2値データであるため、多数の入力ポイント(2値データ)をそのまま重畳させても入力状況の分布が表れ難いが、本実施形態では、入力ポイントを時間方向及び2次元方向に広げた上で多値データを重畳させるため、入力分布データ上での入力状況の分布が表れ易くなる。
なお、第2実施形態では、動画配信サーバー2は、入力ポイントの入力時間を時間方向に広げるときには、入力時間に近いほど大きい多値データ(α値)を付与し、入力ポイントの入力座標を広げるときには、入力座標に近いほど大きい多値データ(α値)を付与し、複数の入力ポイントの多値データ(α値)を重畳させることによって最終α値によって示された入力分布データを作成している。このように、重み付けされた多値データ(α値)を重畳させることによって、入力分布データ上での入力状況の分布が表れ易くなる。但し、このような重み付けを行わずに、入力ポイントを時間方向及び2次元方向(XY方向)に広げたデータを単に重畳させることによって入力分布データを作成することも可能である。
第2実施形態では、動画配信サーバー2は、動画データに含まれるフレームから自動追跡処理の追跡対象となる画像(対象画像)が特定されたとき(図14のS304参照)、報知処理を行う(S306参照)。これにより、入力ポイントの集中する領域が存在していることを把握することができる。なお、上記の説明では、動画配信サーバー2は、管理者端末1に報知を行うが(図12のS123参照)、報知先は、管理者端末1でなくても良い(例えば、領域設定端末6Aでも良い)。また、上記の説明では、動画配信サーバー2は、S305の処理の後(アイテム領域が新規に設定された後)に報知処理を行っているが、S305の処理の前に報知処理を行っても良い。また、報知処理を行わないことも可能である。
また、第2実施形態では、動画配信サーバー2は、S306の報知処理に伴って商品データが登録された場合(図12のS124)、新規に設定されたアイテム領域に新規登録された商品データを対応付けてメタデータを作成する。これにより、動画配信サーバー2は、その後に動画データ及びメタデータをユーザー端末10に配信すれば(図12のユーザー端末10CへのS106参照)、新規登録された商品(例えばリュック)の購入を促すことが可能になる(S108〜S112参照)。
===その他===
上記の実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。本発明は、その趣旨を逸脱することなく、変更・改良され得ると共に、本発明には、その等価物が含まれることは言うまでもない。
1 管理者端末、2 動画配信サーバー、
3 動画管理サーバー、
3A 動画データベース、3B アイテム領域データベース、
4 商品管理サーバー(メタデータ配信サーバー)、
4A 商品データベース、
6 領域設定装置、6A 領域設定端末、6B 自動追跡処理端末、
9 通信ネットワーク、
10 ユーザー端末、11 CPU、
12 主記憶装置、13 補助記憶装置、
14 通信モジュール、15 表示部、
16 入力部、17 タッチパネル、
21A 動画表示部、21C ストック情報表示部、
21D 決済表示部、31 枠

Claims (11)

  1. 動画データに同期させてアイテム領域を設定する領域設定装置であって、
    前記動画データに含まれるフレームから対象画像を特定すること、及び
    前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出し、それぞれの前記フレームから前記自動追跡処理によって検出された前記対象画像の領域を、前記アイテム領域としてそれぞれの前記フレームに対応付けること
    を行うことを特徴とする領域設定装置。
  2. 請求項1に記載の領域設定装置であって、
    前記自動追跡処理によって検出された前記対象画像の信頼度に応じたスコアを求めること、
    前記信頼度の低い前記スコアの前記フレームが連続する時間帯では時間間隔が短くなるように、前記スコアに応じて前記動画データの中から複数のキーフレームを設定すること、
    前記フレームに設定されている前記アイテム領域が編集されたとき、前記アイテム領域の編集された編集フレームと、前記キーフレームとの間のフレームに対応するアイテム領域を、前記編集フレームの編集後の前記アイテム領域と、前記キーフレームのアイテム領域とに基づいて、補間して設定すること
    を更に行うことを特徴とする領域設定装置。
  3. 請求項2に記載の領域設定装置であって、
    前記編集フレームをキーフレームに設定することを更に行うことを特徴とする領域設定装置。
  4. 請求項1〜3のいずれかに記載の領域設定装置であって、
    視聴者が入力操作を行った入力時間及び入力座標を示す入力ポイントを複数の動画再生装置から取得すること、
    前記入力ポイントの集中する領域に基づいて、前記対象画像を特定すること
    を行うことを特徴とする領域設定装置。
  5. 請求項4に記載の領域設定装置であって、
    複数の前記動画再生装置から取得した前記入力ポイントに基づいて、前記視聴者の入力状況を示す入力分布データを作成すること、
    前記入力分布データにおいて前記入力ポイントの集中する前記入力時間と入力範囲を特定すること、
    前記入力ポイントの集中する前記入力時間に対応する前記フレームから、前記入力範囲に対応する画像を特定することによって、前記対象画像を特定すること、
    を行うことを特徴とする領域設定装置。
  6. 請求項5に記載の領域設定装置であって、
    前記入力ポイントの前記入力時間を時間方向に広げるとともに、前記入力ポイントの前記入力座標を2次元方向に広げて、複数の前記入力ポイントのデータを重畳させることによって、前記入力分布データを作成することを特徴とする領域設定装置。
  7. 請求項6に記載の領域設定装置であって、
    前記入力ポイントの前記入力時間を時間方向に広げるとき、前記入力時間に近いほど大きい多値データを付与し、
    前記入力ポイントの前記入力座標を2次元方向に広げるとき、前記入力座標に近いほど大きい多値データを付与し、
    複数の前記入力ポイントによる前記多値データを重畳して、前記入力分布データを作成することを特徴とする領域設定装置。
  8. 請求項4〜7のいずれかに記載の領域設定装置であって、
    前記入力ポイントの集中する領域に基づいて前記対象画像が特定されたときに、報知処理を行うことを特徴とする領域設定装置。
  9. 請求項8に記載の領域設定装置であって、
    前記報知処理に伴って商品データが登録された場合、前記アイテム領域に前記商品データを対応付けて前記メタデータを作成することを特徴とする領域設定装置。
  10. 動画データに同期させてアイテム領域を設定する領域設定方法であって、
    前記動画データに含まれるフレームから対象画像を特定すること、
    前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び
    前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けること
    を行うことを特徴とする領域設定方法。
  11. 動画データに同期させてアイテム領域を設定する領域設定装置に、
    前記動画データに含まれるフレームから対象画像を特定すること、
    前記動画データに含まれる複数のフレームから前記対象画像を自動追跡処理によって検出すること、及び、
    前記自動追跡処理によって検出されたそれぞれの前記フレームの前記対象画像の領域を、前記アイテム領域として、それぞれの前記フレームに対応付けること
    を行わせるプログラム。
JP2018209110A 2018-11-06 2018-11-06 領域設定装置、領域設定方法、及びプログラム Pending JP2020077942A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018209110A JP2020077942A (ja) 2018-11-06 2018-11-06 領域設定装置、領域設定方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018209110A JP2020077942A (ja) 2018-11-06 2018-11-06 領域設定装置、領域設定方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2020077942A true JP2020077942A (ja) 2020-05-21

Family

ID=70724454

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018209110A Pending JP2020077942A (ja) 2018-11-06 2018-11-06 領域設定装置、領域設定方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2020077942A (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187759A (ja) * 1996-01-31 1998-07-21 Mitsubishi Electric Corp 動画アンカー表示、選択、設定装置および動画アンカーを用いた動画ハイパーメディア装置と動画提供システム
JP2003509880A (ja) * 1999-09-03 2003-03-11 アイサーフティーヴィー ビデオストリームにおける移動物体のマーキング
JP2007018198A (ja) * 2005-07-06 2007-01-25 Sony Corp リンク情報付きインデックス情報生成装置、タグ情報付き画像データ生成装置、リンク情報付きインデックス情報生成方法、タグ情報付き画像データ生成方法及びプログラム
JP2009117974A (ja) * 2007-11-02 2009-05-28 Fujifilm Corp 興味情報作成方法、装置およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187759A (ja) * 1996-01-31 1998-07-21 Mitsubishi Electric Corp 動画アンカー表示、選択、設定装置および動画アンカーを用いた動画ハイパーメディア装置と動画提供システム
JP2003509880A (ja) * 1999-09-03 2003-03-11 アイサーフティーヴィー ビデオストリームにおける移動物体のマーキング
JP2007018198A (ja) * 2005-07-06 2007-01-25 Sony Corp リンク情報付きインデックス情報生成装置、タグ情報付き画像データ生成装置、リンク情報付きインデックス情報生成方法、タグ情報付き画像データ生成方法及びプログラム
JP2009117974A (ja) * 2007-11-02 2009-05-28 Fujifilm Corp 興味情報作成方法、装置およびシステム

Similar Documents

Publication Publication Date Title
US9998797B2 (en) Comment-provided video generating apparatus and comment-provided video generating method
US9196005B2 (en) Vending kiosk user interface systems and methods
US20150170245A1 (en) Media content instance embedded product marketing
US20140258029A1 (en) Embedded multimedia interaction platform
CN111263170B (zh) 一种视频播放方法、装置、设备及可读存储介质
CN105980975B (zh) 信息处理设备、信息处理方法及程序
JP6352126B2 (ja) 広告表示装置、広告表示方法、及び広告表示プログラム
JP6475279B2 (ja) コンテンツ再生装置および方法、並びにコンテンツ提供装置および方法
US20160027067A1 (en) Interactive digital video product placement and purchasing
JP6232632B1 (ja) 動画再生プログラム、動画再生装置、動画再生方法、動画配信システム及びメタデータ作成方法
KR101880804B1 (ko) 동화상 재생 프로그램, 장치, 및 방법
EP2874405B1 (en) A client device, system and software for providing a defined view of an image on a client device
US20160012859A1 (en) System and method for generating and using spatial and temporal metadata
KR101775775B1 (ko) 사용자 인터페이스를 통한 비트코인 기반의 콘텐츠 유통 방법
JP2020077942A (ja) 領域設定装置、領域設定方法、及びプログラム
JP7504975B2 (ja) 動画配信方法、サーバ、およびプログラム
JP6917149B2 (ja) コンテンツ提供方法を実行するために記憶媒体に記憶されるコンピュータプログラム、その方法及びその装置
KR101833806B1 (ko) 영상 컨텐츠에 광고상품을 등록하는 방법 및 이를 실행하는 서버
JP2004336466A (ja) メタデータ登録方法
US8520018B1 (en) Media distribution system
US9818444B2 (en) Information processing apparatus, control method thereof, and program
JP6798014B2 (ja) コンテンツ提供方法およびシステム
JP6732984B1 (ja) 情報表示プログラム、情報表示装置、情報表示方法、配信装置、および制御サーバ
JP2018026799A (ja) 動画再生プログラム、動画再生装置、動画再生方法、動画配信システム及びメタデータ作成方法
JP2020077937A (ja) 動画配信サーバー及び動画再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201030

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210831

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220301