JP2021082954A

JP2021082954A - 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

Info

Publication number: JP2021082954A
Application number: JP2019209200A
Authority: JP
Inventors: 高橋　正樹; Masaki Takahashi; 正樹高橋; 真希子東; Makiko Azuma; 半田　拓也; Takuya Handa; 拓也半田; 佐野　雅規; Masami Sano; 雅規佐野; 清水　俊宏; Toshihiro Shimizu; 俊宏清水
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2021-05-27
Anticipated expiration: 2039-11-19
Also published as: JP7344096B2

Abstract

【課題】映像から動的な人物オブジェクトを自動抽出し対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供する。【解決手段】本発明の触覚メタデータ生成装置１２は、入力映像について骨格検出アルゴリズムに基づき各人物オブジェクトの骨格座標集合を生成する人物骨格抽出部１２２及び人物識別部１２３と、現フレーム画像を基準に骨格軌跡集合を生成する軌跡特徴量生成部１２４と、骨格軌跡集合を基に機械学習により触覚提示デバイスを作動させるための情報を検出する人物動作認識部１２６と、現フレーム画像に対応して触覚メタデータを生成するメタデータ生成部１２７とを備える。本発明の映像触覚連動システム１は、触覚メタデータ生成装置１２、及び触覚提示デバイスを駆動制御する制御ユニット１３を備える。【選択図】図１

Description

本発明は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムに関する。

一般的なカメラ映像など、映像コンテンツの視聴は、視覚と聴覚の２つの感覚に訴えるが、映像と同期したタイミングで触覚にも刺激を与えることで、より臨場感・没入感の高い映像視聴が可能となる。例えば、野球映像を視聴する際、ボールがバットに当たるタイミングで触覚提示デバイスを介して視聴者に刺激を与えることで、バッターのヒッティングの感覚を疑似体験できる。また、視覚に障害のある方々に触覚刺激を提供することで、スポーツの試合状況を理解させることにも繋がると考えられる。このように、触覚は映像視聴における第３の感覚として期待されている。

特に、スポーツはリアルタイムでの映像視聴が重要視されるため、映像に対する触覚刺激の提示は、自動、且つリアルタイムで行われる必要がある。そこで、選手の動きに同期した触覚刺激の提示が、触覚を併用した映像コンテンツの映像視聴に効果的な場合が多い。

このため、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。

しかし、従来の触覚メタデータの生成法では、触覚を併用した映像視聴を実現するとしても、触覚提示デバイスにより、どのようなタイミングで、またどのような刺激をユーザに提示するかを示す触覚メタデータを、映像と同期した態様で人手により編集する必要があった。

収録番組の場合、人手で時間をかけて触覚メタデータを編集することが可能である。しかし、生放送映像に対して触覚提示デバイスによる刺激提示を連動させるには、事前に触覚情報を編集することができないことから、リアルタイムで映像コンテンツの映像解析を行い、触覚メタデータを生成することが要求される。

近年、スポーツ映像解析技術は、目覚ましい成長を遂げている。ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラ映像をセンサとしてテニスボールを３次元的に追跡し、ジャッジに絡むＩＮ／ＯＵＴの判定を行っている。また２０１４年のＦＩＦＡワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。更に、サッカースタジアムへ多数のステレオカメラを設置し、フィールド内の全選手をリアルタイムに追跡するＴＲＡＣＡＢシステム等、スポーツにおけるリアルタイム映像解析技術の高度化が進んでいる。

一方で、動的な人物オブジェクトとして選手の姿勢を計測するには、従来、マーカー式のモーションキャプチャー方式を用いた計測が一般的である。しかし、この方式は、選手の体に多数のマーカーを装着する必要があり、実試合には適用できない。そこで、近年では、選手の体に投光されている赤外線パターンを読み取り、その赤外線パターンの歪みから深度情報を得る深度センサを用いることで、マーカーレスでの人物姿勢計測が可能になっている。また、マーカー式ではなく、光学式のモーションキャプチャー方式を応用した種々の技術が開示されている（例えば、特許文献１，２参照）。

例えば、特許文献１では、立体視を用いた仮想現実システムにおいて他者の模範動作映像を表示することにより使用者に対して動作を教示する際に、光学式のモーションキャプチャー方式により、計測対象者の骨格の３次元位置を計測する装置が開示されている。また、特許文献２には、光学式のモーションキャプチャー方式を利用してプレイヤーの動作を測定し、測定したデータとモデルのフォームに関するデータとに基づいて同プレイヤーのフォームを評価するトレーニング評価装置について開示されている。しかし、これらの技術は、モーションキャプチャー方式を利用するため、実際の試合に適用できず、汎用的なカメラ映像から人物のプレー動作を計測することは難しい。

また、モーションキャプチャー方式によらず、一人又は二人が一組となってバドミントンの試合やバドミントン練習を撮影したカメラ映像のみから、人物の動きをシミュレートする装置が開示されている（例えば、特許文献３参照）。特許文献３の技術では、撮影したカメラ映像から、ショットなどの動作を検出するものとなっているが、専用に設置したカメラによる撮影映像から処理することを前提としており、汎用的な放送カメラ映像から人物のプレー動作を計測することは難しい。

ところで、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっている。この深層学習技術を用いることで、通常のカメラ映像から静止画像を抽出し、その静止画像に含まれる選手の姿勢を自動計測することが可能となっている。

特開２００２−８０６３号公報特開２００２−２５３７１８号公報特開２０１８−１８７３８３号公報

上述したように、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。

しかし、従来技術では、リアルタイムで映像コンテンツの映像解析のみから、触覚メタデータを生成することが困難である。即ち、映像のみから触覚メタデータを生成する場合には、カメラ映像からリアルタイムで人物オブジェクトの動きを解析する必要がある。リアルタイムのスポーツ競技では、その競技に影響を与えることは好ましくないため、マーカー装着によるモーションキャプチャー方式や、撮影距離に制限のある深度センサなどを用いずに、撮影条件に制限の無い汎用的な放送カメラ映像のみから触覚メタデータを生成することが望ましい。

つまり、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト（選手等）の動きに関する触覚メタデータを生成する技法が望まれる。

尚、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっているが、これに代表される骨格検出アルゴリズムは基本的に静止画単位で骨格位置を検出するものである。このため、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト（選手等）の動きに関する触覚メタデータを生成するには、更なる工夫が必要になる。

本発明の目的は、上述の問題に鑑みて、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供することにある。

本発明の触覚メタデータ生成装置は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、入力された映像について、現フレーム画像を含む複数フレーム分の過去のフレーム画像を抽出する複数フレーム抽出手段と、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第１の骨格座標集合を生成する人物骨格抽出手段と、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、前記第１の骨格座標集合を基に、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物ＩＤを付与した第２の骨格座標集合を生成する人物識別手段と、前記現フレーム画像を基準に、前記複数フレーム分のフレーム画像における前記第２の骨格座標集合を時系列に連結し、人物オブジェクト毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合を生成する軌跡特徴量生成手段と、前記骨格軌跡集合の軌跡特徴量を基に、機械学習により前記触覚提示デバイスを作動させるための情報を検出する人物動作認識手段と、前記現フレーム画像に対応して触覚提示デバイスを作動させるための触覚メタデータを生成し、フレーム単位で外部出力するメタデータ生成手段と、を備えることを特徴とする。

また、本発明の触覚メタデータ生成装置において、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち全ての人物オブジェクトの前記骨格軌跡集合を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する動オブジェクト検出手段を更に備え、前記人物動作認識手段は、前記動オブジェクト情報を基に、全ての人物オブジェクトの前記骨格軌跡集合のうち前記触覚提示デバイスを作動させるための骨格軌跡集合を選定し、選定した骨格軌跡集合の軌跡特徴量を基に、機械学習により前記触覚提示デバイスを作動させるための情報を検出することを特徴とする。

また、本発明の触覚メタデータ生成装置において、前記人物動作認識手段は、前記現フレーム画像に対応して、前記現フレーム画像内の各人物オブジェクトの識別、位置座標、及び分類、並びに、前記機械学習により前記触覚提示デバイスを作動させるタイミング及び速さを示す情報を前記触覚メタデータの生成のために検出することを特徴とする。

更に、本発明の映像触覚連動システムは、本発明の触覚メタデータ生成装置と、触覚刺激を提示する触覚提示デバイスと、前記触覚メタデータ生成装置から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、を備えることを特徴とする。

更に、本発明のプログラムは、コンピュータを、本発明の触覚メタデータ生成装置として機能させるためのプログラムとして構成する。

本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができる。これにより、スポーツ映像のリアルタイム視聴時での触覚刺激の提示が可能となる。つまり、視覚・聴覚への情報提供のみならず、触覚にも訴えることで、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。さらに、視覚に障害を持つ方々にスポーツの状況を分かりやすく伝えることが可能となる。

特に、スポーツ映像視聴に際し、各選手の識別、位置座標、及び分類（チーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む触覚メタデータを生成することで、触覚提示デバイスにより、プレーの種類、タイミング、強度などに関する触覚刺激をユーザに提示できるようになる。触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外でも、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能になる。

本発明による一実施形態の触覚メタデータ生成装置を備える映像触覚連動システムの概略構成を示すブロック図である。本発明による一実施形態の触覚メタデータ生成装置の処理例を示すフローチャートである。本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する説明図である。（ａ）は１フレーム画像を例示する図であり、（ｂ）は本発明による一実施形態の触覚メタデータ生成装置における１フレーム画像における人物骨格抽出例を示す図である。本発明による一実施形態の触覚メタデータ生成装置における軌跡特徴量の説明図である。本発明による一実施形態の触覚メタデータ生成装置における動オブジェクト検出のために生成する差分画像例を示す図である。本発明による一実施形態の映像触覚連動システムにおける制御ユニットの概略構成を示すブロック図である。

（システム構成）
以下、図面を参照して、本発明による一実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１について詳細に説明する。図１は、本発明による一実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１の概略構成を示すブロック図である。

図１に示す映像触覚連動システム１は、カメラや記録装置等の映像出力装置１０から映像を入力し、入力された映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置１２と、生成した触覚メタデータを基に、本例では２台の触覚提示デバイス１４Ｌ，１４Ｒと、各触覚提示デバイス１４Ｌ，１４Ｒを個別に駆動制御する制御ユニット１３と、を備える。

まず、映像出力装置１０が出力する映像は、本例ではチームＡ，Ｂのダブルスのバドミントン競技をリアルタイムで撮影されたものとしてディスプレイ１１に表示され、ユーザＵによって視覚されるものとする。

バドミントン競技は、ネットを挟んで自陣・敵陣に分かれ、シャトルをラケットで打ち合う競技であり、ラケットでシャトルを打つ瞬間に触覚提示デバイス１４Ｌ，１４Ｒにより触覚刺激をユーザＵに提示することで、より臨場感を高め、また視覚障害者にも試合状況を伝えることが可能である。

そこで、ユーザＵは、左手ＨＬで触覚提示デバイス１４Ｌを把持し、右手ＨＲで触覚提示デバイス１４Ｒを把持して、本例では映像解析に同期した振動刺激が提示されるものとする。尚、制御ユニット１３は、１台の触覚提示デバイスに対してのみ駆動制御する形態でもよいし、３台以上の触覚提示デバイスに対して個別に駆動制御する形態でもよい。また、限定するものではないが、本例の制御ユニット１３は、チームＡの人物オブジェクトの動きに対応した振動刺激は触覚提示デバイス１４Ｌで、チームＢの人物オブジェクトの動きに対応した振動刺激は触覚提示デバイス１４Ｒで提示するように分類して制御するものとする。

触覚提示デバイス１４Ｌ，１４Ｒは、球状のケース１４１内に、制御ユニット１３の制御によって振動刺激を提示可能な振動アクチュエーター１４２が収容されている。尚、触覚提示デバイス１４Ｌ，１４Ｒは、振動刺激の他、電磁気パルス刺激を提示するものでもよい。本例では、制御ユニット１３と各触覚提示デバイス１４Ｌ，１４Ｒとの間は有線接続され、触覚メタデータ生成装置１２と制御ユニット１３との間も有線接続されている形態を例に説明するが、それぞれ近距離無線通信で無線接続されている形態としてもよい。

触覚メタデータ生成装置１２は、複数フレーム抽出部１２１、人物骨格抽出部１２２、人物識別部１２３、軌跡特徴量生成部１２４、動オブジェクト検出部１２５、人物動作認識部１２６、及びメタデータ生成部１２７を備える。

複数フレーム抽出部１２１は、入力された映像について、現フレーム画像を含むＴ（Ｔは２以上の整数）フレーム分の過去のフレーム画像を抽出し、人物骨格抽出部１２２及び動オブジェクト検出部１２５に出力する。

人物骨格抽出部１２２は、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクト（以下、単に「人物」とも称する。）の骨格座標集合Ｐ^ｎ _ｂ（ｎ：検出人数、ｂ：骨格ＩＤ）を生成し、現フレーム画像を含むＴフレーム分のフレーム画像とともに、人物識別部１２３に出力する。

人物識別部１２３は、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂを基に、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成し、軌跡特徴量生成部１２４に出力する。

軌跡特徴量生成部１２４は、現フレーム画像を基準に、Ｔフレーム分のフレーム画像における骨格座標集合Ｐ^ｉ _ｂを時系列に連結し、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合Ｔ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成し、動オブジェクト検出部１２５及び人物動作認識部１２６に出力する。

動オブジェクト検出部１２５は、現フレーム画像を含むＴフレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち軌跡特徴量生成部１２４から得られる全ての人物の骨格軌跡集合Ｔ^ｉ _ｂを用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成し、人物動作認識部１２６に出力する。

人物動作認識部１２６は、動オブジェクト情報を基に、全ての人物の骨格軌跡集合Ｔ^ｉ _ｂのうち、触覚提示デバイスを作動させるための骨格軌跡集合Ｔ^ｉ _ｂを選定し、選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量を基に、機械学習（サポートベクターマシン、又はニューラルネットワーク等）により触覚提示デバイスを作動させるタイミング及び速さを示す情報を検出し、メタデータ生成部１２７に出力する。

メタデータ生成部１２７は、現フレーム画像に対応して、現フレーム画像内の各人物の識別、位置座標、及び分類（チーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む触覚メタデータを生成し、フレーム単位で制御ユニット１３に出力する。

以下、より具体に、図２を基に、図３乃至図６を参照しながら、触覚メタデータ生成装置１２における触覚メタデータ生成処理について説明する。

（触覚メタデータ生成処理）
図２は、本発明による一実施形態の触覚メタデータ生成装置１２の処理例を示すフローチャートである。そして、図３は、触覚メタデータ生成装置１２における人物骨格抽出処理に関する説明図である。また、図４（ａ）は１フレーム画像を例示する図であり、図４（ｂ）は触覚メタデータ生成装置１２における１フレーム画像における人物骨格抽出例を示す図である。図５は、触覚メタデータ生成装置１２における軌跡特徴量の説明図である。そして、図６は、触覚メタデータ生成装置１２における動オブジェクト検出のために生成する差分画像例を示す図である。

図２に示すように、触覚メタデータ生成装置１２は、まず、複数フレーム抽出部１２１により、入力された映像について、現フレーム画像を含むＴ（Ｔは２以上の整数）フレーム分の過去のフレーム画像を抽出する（ステップＳ１）。

続いて、触覚メタデータ生成装置１２は、人物骨格抽出部１２２により、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物の骨格座標集合Ｐ^ｎ _ｂ（ｎ：検出人数、ｂ：骨格ＩＤ）を生成する（ステップＳ２）。

近年の深層学習技術の発展により、通常の画像から人物の骨格位置を推定することが可能となった。OpenPoseやVisionPose（NextSystem社）に代表されるように、骨格検出アルゴリズムをオープンソースで公開しているものも存在する。そこで、本例の人物骨格抽出部１２２は、VisionPoseを用いて、図３に示すように、フレーム画像毎に人物の骨格３０点を検出し、その位置座標を示す骨格座標集合Ｐ^ｎ _ｂを生成する。

VisionPoseでは、図３において、Ｐ^ｎ _１：“頭”、Ｐ^ｎ _２：“鼻”、Ｐ^ｎ _３：“左目”、Ｐ^ｎ _４：“右目”、Ｐ^ｎ _５：“左耳”、Ｐ^ｎ _６：“右耳”、Ｐ^ｎ _７：“首”、Ｐ^ｎ _８：“背骨（肩）”、Ｐ^ｎ _９：“左肩”、Ｐ^ｎ _１０：“右肩”、Ｐ^ｎ _１１：“左肘”、Ｐ^ｎ _１２：“右肘”、Ｐ^ｎ _１３：“左手首”、Ｐ^ｎ _１４：“右手首”、Ｐ^ｎ _１５：“左手”、Ｐ^ｎ _１６：“右手”、Ｐ^ｎ _１７：“左親指”、Ｐ^ｎ _１８：“右親指”、Ｐ^ｎ _１９：“左指先”、Ｐ^ｎ _２０：“右指先”、Ｐ^ｎ _２１：“背骨（中央）”、Ｐ^ｎ _２２：“背骨（基端部）”、Ｐ^ｎ _２３：“左尻部”、Ｐ^ｎ _２４：“右尻部”、Ｐ^ｎ _２５：“左膝”、Ｐ^ｎ _２６：“右膝”、Ｐ^ｎ _２７：“左足首”、Ｐ^ｎ _２８：“右足首”、Ｐ^ｎ _２９：“左足”、及び、Ｐ^ｎ _３０：“右足”、についての座標位置と、各座標位置を図示するような線で連結した描画が可能である。

このVisionPoseの骨格検出アルゴリズムに基づき、図４（ａ）に示すチームＡ，Ｂのダブルスのバドミントン競技の１フレーム画像Ｆに対して、人物の骨格抽出を行ったフレーム画像Ｆａを図４（ｂ）に示している。図４（ａ）に示すフレーム画像Ｆには、チームＡの人物オブジェクトＯｐ１，Ｏｐ２と、チームＢの人物オブジェクトＯｐ３，Ｏｐ４と、人物以外の動オブジェクトＯｍ１，Ｏｍ２，Ｏｍ３，Ｏｍ４，Ｏｍ５（ラケットやシャトル）が写り込んでいるが、VisionPoseの骨格検出アルゴリズムを適用すると、図４（ｂ）に示すように、人物オブジェクトＯｐ１，Ｏｐ２，Ｏｐ３，ＯＰ４にそれぞれ対応する骨格座標集合Ｐ^１ _ｂ，Ｐ^２ _ｂ，Ｐ^３ _ｂ，Ｐ^４ _ｂを推定して生成することができる。図４（ｂ）からも理解されるように、激しい動きを伴うバドミントン競技においても、比較的精度よく各人物の骨格を推定できている。尚、骨格検出アルゴリズムは、静止画単位での推定に留まるので、触覚メタデータ生成装置１２は、後続する処理として、人物の識別を行い、各人物の骨格位置の推移を軌跡特徴量として定量化し、時間軸を考慮した高精度な動作認識を行う。

続いて、触覚メタデータ生成装置１２は、人物識別部１２３により、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂを基に、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する（ステップＳ３）。

前述した人物骨格抽出部１２２により、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂとして、１以上の人物の骨格の検出が可能となる。しかし、各フレーム画像の骨格座標集合Ｐ^ｎ _ｂでは、「誰」の情報は存在しないため、各人物の骨格を識別する必要がある。この識別には、各フレーム画像における各骨格座標集合Ｐ^ｎ _ｂの座標付近の画像情報を利用する。即ち、人物識別部１２３は、骨格座標集合Ｐ^ｎ _ｂを基に、各人物の骨格の位置及びサイズと、その周辺画像情報（色情報、及び顔又は背付近のテクスチャ情報）を抽出することにより、人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する。

例えば、バドミントン競技では、コートを縦に構えた画角で撮影される場合に、各骨格座標集合Ｐ^ｎ _ｂの骨格の位置がフレーム画像Ｆにおける画面上側であれば奥の選手、画面下側であれば手前の選手、として識別することができる。また、柔道では白と青の道着で試合が行われるが、各骨格座標集合Ｐ^ｎ _ｂの骨格の位置付近の画像情報として、フレーム画像Ｆにおける色情報を参照することで、選手の識別が可能になる。

尚、前述した人物骨格抽出部１２２では、選手以外にも審判や観客など、触覚刺激の提示対象としない他の人物の骨格を検出してしまうことも多い。審判は選手と別の衣服を着用することが多いため、色情報で識別できる。また、観客は選手に比べて遠くにいることが多いため、骨格のサイズで識別が可能である。このように、各競技のルールや撮影状況を考慮し、人物識別に適切な周辺画像情報（色情報、及び顔又は背付近のテクスチャ情報）を設定することにより、触覚刺激の提示対象とする選手の識別が可能となる。

続いて、触覚メタデータ生成装置１２は、軌跡特徴量生成部１２４により、現フレーム画像を基準に、Ｔフレーム分のフレーム画像における骨格座標集合Ｐ^ｉ _ｂを時系列に連結し、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合Ｔ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する（ステップＳ４）。

ここで、骨格軌跡集合Ｔ^ｉ _ｂの生成にあたって、まず、任意のフレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（ｔ）とし、現フレーム画像をｔ＝０として現フレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（０）で表し、過去Ｔフレームのフレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（Ｔ）で表す。つまり、軌跡特徴量生成部１２４は、現フレーム画像のフレーム番号をｔ＝０として、過去Ｔフレームまでのフレーム番号をｔ＝Ｔで表すと、現フレーム画像を基準に、ｔ＝０，１，…，Ｔの各フレーム画像Ｆを用いて、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合Ｔ^ｉ _ｂを生成することができる。

尚、骨格軌跡集合Ｔ^ｉ _ｂの生成に用いる骨格座標は、必ずしも図３に示す３０点全てを用いる必要はなく、予め定めた特定の骨格軌跡のみを使用して、処理速度を向上させる構成とすることもできる。また、骨格軌跡集合Ｔ^ｉ _ｂとしては、骨格座標集合Ｐ^ｉ _ｂの座標表現そのものを連結したものとしてもよいが、人物毎の骨格の軌跡を示すものであればよいことから、各競技のルールや撮影状況を考慮し、軌跡特徴を表わすのに適切な情報（動き量や移動加速度等）に変換したものとしてもよい。

例えば、バドミントン競技では、ラケットを振る際に腕や体の移動加速度が上がるため、各骨格の移動量の二階微分を作成し、加速度に相当する軌跡特徴量に変換するのが好適である。そこで、骨格座標集合Ｐ^ｉ _ｂの軌跡として、加速度に相当する骨格軌跡集合Ｔ^ｉ _ｂで表すことで、後段の人物動作認識部１２６における動作認識の精度を向上させることができる。

まず、式（１）に示すように、隣接する画像フレーム間で、対応する骨格座標集合Ｐ^ｉ _ｂ（ｔ），Ｐ^ｉ _ｂ（ｔ＋１）の位置座標の差（ユークリッド距離）を取り、その移動量Ｄ^ｉ _ｂ（ｔ）を求める。

ここで、Ｐ^ｉ _ｂ（ｔ），ｘはＰ^ｉ _ｂ（ｔ）におけるｘ座標、Ｐ^ｉ _ｂ（ｔ），ｙはＰ^ｉ _ｂ（ｔ）におけるｙ座標を表す。

Ｄ^ｉ _ｂ（ｔ）は、各座標点の速度に相当する特徴量となるが、式（２）に示すように、更にその差の絶対値をとることで、加速度に相当する特徴量Ａ^ｉ _ｂ（ｔ）が得られる。ここで、abs()は、絶対値を返す関数である。

この加速度に相当する特徴量Ａ^ｉ _ｂ（ｔ）を用いて各人物の動作を追跡した軌跡を示す骨格軌跡集合Ｔ^ｉ _ｂを生成することができ、図５には、或るフレーム画像における人物オブジェクトＯｐ１，Ｏｐ３にそれぞれ対応する骨格座標集合の軌跡特徴量Ｔ^１ _ｂ，Ｔ^３ _ｂを分かり易く描画したフレーム画像Ｆｂを示している。

続いて、触覚メタデータ生成装置１２は、動オブジェクト検出部１２５により、現フレーム画像を含むＴフレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち軌跡特徴量生成部１２４から得られる全ての人物の骨格軌跡集合Ｔ^ｉ _ｂを用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する（ステップＳ５）。

後段の人物動作認識部１２６では、骨格軌跡集合Ｔ^ｉ _ｂを用いて人物の動作認識を行うことが可能であるが、人物（選手）の動作は多種多様であり、誤検出や検出漏れが発生するケースも少なくない。そこで、動オブジェクト検出部１２５は、現フレーム画像を含むＴフレーム分のフレーム画像の各々を用いて、人物の動き以外にもラケットやシャトルなどの動オブジェクトの位置や動きに関する情報を抽出する。この情報を利用することで、後段の人物動作認識部１２６は、動作認識の精度をより向上させることができる。

バドミントン競技においては、例えばシャトルの位置、移動方向を考慮することで、次にシャトルを打つチームの選手の解析のみに集中でき、誤検出や検出漏れを抑制できる。そこで、動オブジェクト検出部１２５は、まず、シャトルの動き追跡においては、図６に示すような隣接フレーム間の差分画像Ｆｃを作成することでフレーム画像から動オブジェクトの領域のみを抽出する。

図６に示す差分画像Ｆｃに示されているように、人物オブジェクトＯｐ１’，Ｏｐ３’、人物以外の動オブジェクト（ラケット又はシャトル）Ｏｍ１’，Ｏｍ３’，Ｏｍ５’が検出できていることが分かる。このように差分画像Ｆｃでは、シャトル以外の動オブジェクトも検出されるが、軌跡特徴量生成部１２４から得られる骨格軌跡集合Ｔ^ｉ _ｂを用いて、差分画像Ｆｃ上で人物（選手）領域をマスクしてシャトルの検出を行うことができる。即ち、軌跡特徴量生成部１２４から得られる骨格軌跡集合Ｔ^ｉ _ｂを用いて、差分画像Ｆｃから人物（選手）領域のノイズを除外した差分画像を作成することが可能となり、人物の動きに係わる動オブジェクト（特にシャトル）を安定して検出することができる。

より具体的には、動オブジェクト検出部１２５は、作成した差分画像Ｆｃにおいて、ラベリング処理を施して人物以外の動オブジェクトにＩＤを与え、軌跡特徴量生成部１２４から得られる骨格軌跡集合Ｔ^ｉ _ｂを用いて各差分画像から、各動オブジェクトの色情報やサイズ、動き情報から最もシャトルらしいオブジェクトを選定する。続いて、動オブジェクト検出部１２５は、隣接フレーム間の差分画像Ｆｃから得られた特定の動オブジェクト（シャトル）の座標位置、大きさ、移動方向を要素とし、Ｎフレーム分を連結した動オブジェクト情報を生成する。

続いて、触覚メタデータ生成装置１２は、人物動作認識部１２６により、動オブジェクト情報を基に、全ての人物の骨格軌跡集合Ｔ^ｉ _ｂのうち、触覚提示デバイスを作動させるための骨格軌跡集合Ｔ^ｉ _ｂを選定し、選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量を基に、機械学習（サポートベクターマシン、又はニューラルネットワーク等）により触覚提示デバイス１４Ｒ，１４Ｌを作動させるタイミング及び速さを示す情報を検出する（ステップＳ６）。

機械学習（サポートベクターマシン、又はニューラルネットワーク等）時には、事前に学習用の軌跡特徴量を作成して学習させておく。例えば、サポートベクターマシンを利用するときは、シャトルを打つ瞬間の軌跡特徴量を正例、それ以外の軌跡特徴量を負例として学習することで、人物動作認識部１２６は、触覚提示デバイス１４Ｒ，１４Ｌを作動させるタイミング及び速さを示す情報を動作認識として検出することが可能となる。更に、人物動作認識部１２６は、選定した骨格軌跡集合Ｔ^ｉ _ｂからシャトルの位置座標を考慮することで、動作認識の精度を高めるとともに、どの選手がシャトルを打ったか等、現フレーム画像内の各人物の識別、位置座標、及び分類（チーム分類）の情報も検出することも可能である。

最終的に、触覚メタデータ生成装置１２は、メタデータ生成部１２７により、現フレーム画像に対応して、現フレーム画像内の各人物の識別、位置座標、及び分類（チーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む触覚メタデータを生成し、フレーム単位で制御ユニット１３に出力する（ステップＳ７）。

そして、触覚メタデータ生成装置１２は、映像出力装置１０から映像のフレーム画像が入力される度に、ステップＳ１乃至Ｓ７の処理を繰り返す。

（制御ユニット）
図７は、本発明による一実施形態の映像触覚連動システム１における制御ユニット１３の概略構成を示すブロック図である。制御ユニット１３は、メタデータ受信部１３１、解析部１３２、記憶部１３３、及び駆動部１３４‐１，１３４‐２を備える。

メタデータ受信部１３１は、触覚メタデータ生成装置１２から触覚メタデータを入力し、解析部１３２に出力する機能部である。触覚メタデータは、現フレーム画像内の各人物の識別、位置座標、及び分類（チーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む。

解析部１３２は、触覚メタデータ生成装置１２から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、駆動部１３４‐１，１３４‐２を介して、対応する各触覚提示デバイス１４Ｌ，１４Ｒの振動アクチュエーター１４２を駆動するよう制御する機能部である。例えば、解析部１３２は、チームＡのいずれか一方がシャトルを打つときは、触覚メタデータにおける人物の識別、位置座標、及び分類（チーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さから、予め定めた駆動基準データを参照して、触覚提示デバイス１４Ｌの振動アクチュエーター１４２の作動タイミング、強さ、及び動作時間を決定して駆動制御する。

記憶部１３３は、触覚メタデータに基づいた駆動部１３４‐１，１３４‐２の駆動を制御するための予め定めた駆動基準データを記憶している。駆動基準データは、触覚メタデータに対応付けられた触覚刺激としての振動アクチュエーター１４２の作動タイミング、強さ、及び動作時間について、予め定めたテーブル又は関数で表されている。また、記憶部１３３は、制御ユニット１３の機能を実現するためのプログラムを記憶している。即ち、制御ユニット１３を構成するコンピュータにより当該プログラムを読み出して実行することで、制御ユニット１３の機能を実現する。

駆動部１３４‐１，１３４‐２は、各触覚提示デバイス１４Ｌ，１４Ｒの振動アクチュエーター１４２を駆動するドライバである。

このように、本実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させることができるようになる。特に、スポーツ映像視聴に際し、各選手の識別、位置座標、及び分類（チーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む触覚メタデータを生成することで、１台以上の触覚提示デバイスにより、プレーの種類、タイミング、強度などに関する触覚刺激をユーザＵに提示できるようになる。

（実験検証）
本実施形態の触覚メタデータ生成装置１２により生成した触覚メタデータから抽出されるショットタイミングの検出に関する実験結果を表１に示す。尚、表１は、リオデジャネイロ五輪映像２０ショット分の映像で評価し、選手別のショットタイミングを計測（±５フレームを許容）した時の実験結果であり、適合率とは検出精度を示し、再現率とは検出感度を示す。Ｆ値とは、適合率と再現率の調和平均を取った値である。

表１において、触覚メタデータのリアルタイム抽出に向けて、７割を超える一定の有効性を確認することができた。

尚、上述した一実施形態の触覚メタデータ生成装置１２をコンピュータとして機能させることができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリに記憶される。コンピュータに備えられる中央演算処理装置（ＣＰＵ）などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、本実施形態のオブジェクト追跡装置１の各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主としてバドミントン競技の映像解析を例に説明したが、柔道や卓球、その他の様々なスポーツ種目、及びスポーツ以外の映像にも広く応用可能である。例えば、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外の例として、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能である。従って、本発明は、前述の実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。

本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させる用途に有用である。

１映像触覚連動システム
１０映像出力装置
１１ディスプレイ
１２触覚メタデータ生成装置
１３制御ユニット
１４Ｌ，１４Ｒ触覚提示デバイス
１２１複数フレーム抽出部
１２２人物骨格抽出部
１２３人物識別部
１２４軌跡特徴量生成部
１２５動オブジェクト検出部
１２６人物動作認識部
１２７メタデータ生成部
１３１メタデータ受信部
１３２解析部
１３３記憶部
１３４‐１，１３４‐２駆動部
１４１ケース
１４２振動アクチュエーター

Claims

映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、
入力された映像について、現フレーム画像を含む複数フレーム分の過去のフレーム画像を抽出する複数フレーム抽出手段と、
前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第１の骨格座標集合を生成する人物骨格抽出手段と、
前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、前記第１の骨格座標集合を基に、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物ＩＤを付与した第２の骨格座標集合を生成する人物識別手段と、
前記現フレーム画像を基準に、前記複数フレーム分のフレーム画像における前記第２の骨格座標集合を時系列に連結し、人物オブジェクト毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合を生成する軌跡特徴量生成手段と、
前記骨格軌跡集合の軌跡特徴量を基に、機械学習により触覚提示デバイスを作動させるための情報を検出する人物動作認識手段と、
前記現フレーム画像に対応して前記触覚提示デバイスを作動させるための触覚メタデータを生成し、フレーム単位で外部出力するメタデータ生成手段と、
を備えることを特徴とする触覚メタデータ生成装置。
前記現フレーム画像を含む複数フレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち全ての人物オブジェクトの前記骨格軌跡集合を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する動オブジェクト検出手段を更に備え、
前記人物動作認識手段は、前記動オブジェクト情報を基に、全ての人物オブジェクトの前記骨格軌跡集合のうち前記触覚提示デバイスを作動させるための骨格軌跡集合を選定し、選定した骨格軌跡集合の軌跡特徴量を基に、機械学習により前記触覚提示デバイスを作動させるための情報を検出することを特徴とする、請求項１に記載の触覚メタデータ生成装置。
前記人物動作認識手段は、前記現フレーム画像に対応して、前記現フレーム画像内の各人物オブジェクトの識別、位置座標、及び分類、並びに、前記機械学習により前記触覚提示デバイスを作動させるタイミング及び速さを示す情報を前記触覚メタデータの生成のために検出することを特徴とする、請求項１又は２に記載の触覚メタデータ生成装置。
請求項１から３のいずれか一項に記載の触覚メタデータ生成装置と、
触覚刺激を提示する触覚提示デバイスと、
前記触覚メタデータ生成装置から得られる触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、
を備えることを特徴とする映像触覚連動システム。
コンピュータを、請求項１から３のいずれか一項に記載の触覚メタデータ生成装置として機能させるためのプログラム。