JP7488704B2 - 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム - Google Patents

触覚メタデータ生成装置、映像触覚連動システム、及びプログラム Download PDF

Info

Publication number
JP7488704B2
JP7488704B2 JP2020105700A JP2020105700A JP7488704B2 JP 7488704 B2 JP7488704 B2 JP 7488704B2 JP 2020105700 A JP2020105700 A JP 2020105700A JP 2020105700 A JP2020105700 A JP 2020105700A JP 7488704 B2 JP7488704 B2 JP 7488704B2
Authority
JP
Japan
Prior art keywords
haptic
skeleton
human
person
trajectory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020105700A
Other languages
English (en)
Other versions
JP2021197110A (ja
Inventor
正樹 高橋
真希子 東
拓也 半田
雅規 佐野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2020105700A priority Critical patent/JP7488704B2/ja
Publication of JP2021197110A publication Critical patent/JP2021197110A/ja
Application granted granted Critical
Publication of JP7488704B2 publication Critical patent/JP7488704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Description

本発明は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムに関する。
放送映像等の一般的なカメラ映像の映像コンテンツは、視覚と聴覚の2つの感覚に訴える情報を提供するメディアである。しかし、視覚障害者や聴覚障害者に対しては視聴覚情報だけでは不十分であり、番組コンテンツの状況を正確に伝えることができない。そのため、テレビを持っていない、若しくは持っていても視聴しない障害者も多い。そこで、映像コンテンツに対し、視覚・聴覚以外の“触覚”で感じられる情報を提示することで、視覚又は聴覚の障害者もテレビ放送を理解できるシステムの構築が望まれる。
また、視覚・聴覚の感覚を有する健常者にとっても、また、触覚刺激を提示することにより放送番組の視聴時の臨場感や没入感の向上が期待できる。特に、スポーツコンテンツにおける人物の動きは重要な情報であり、これを触覚刺激で提示することにより、コンテンツ視聴における臨場感が高まる。
例えば、野球映像を視聴する際、ボールがバットに当たるタイミングで触覚提示デバイスを介して視聴者に刺激を与えることで、バッターのヒッティングの感覚を疑似体験できる。また、視覚に障害のある方々に触覚刺激を提供することで、スポーツの試合状況を理解させることにも繋がると考えられる。このように、触覚は映像視聴における第3の感覚として期待されている。
特に、スポーツはリアルタイムでの映像視聴が重要視されるため、映像に対する触覚刺激の提示は、自動、且つリアルタイムで行われる必要がある。そこで、プレーの種類、タイミング、状況などに関する選手の動きに同期した触覚刺激の提示が、触覚を併用した映像コンテンツの映像視聴に効果的な場合が多い。そして、視覚又は聴覚に障害を持つ方々にもスポーツの状況を伝えることが可能となる。
このため、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。
しかし、従来の触覚メタデータの生成法では、触覚を併用した映像視聴を実現するとしても、触覚提示デバイスにより、どのようなタイミングで、またどのような刺激をユーザに提示するかを示す触覚メタデータを、映像と同期した態様で人手により編集する必要があった。
収録番組の場合、人手で時間をかけて触覚メタデータを編集することが可能である。しかし、生放送映像に対して触覚提示デバイスによる刺激提示を連動させるには、事前に触覚情報を編集することができないことから、リアルタイムで映像コンテンツの映像解析を行い、触覚メタデータを生成することが要求される。
近年、スポーツ映像解析技術は、目覚ましい成長を遂げている。ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラ映像をセンサとしてテニスボールを3次元的に追跡し、ジャッジに絡むIN/OUTの判定を行っている。また2014年のFIFAワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。更に、サッカースタジアムへ多数のステレオカメラを設定し、フィールド内の全選手をリアルタイムに追跡するTRACABシステム等、スポーツにおけるリアルタイム映像解析技術の高度化が進んでいる。
一方で、動的な人物オブジェクトとして選手の姿勢を計測するには、従来、マーカー式のモーションキャプチャー方式を用いた計測が一般的である。しかし、この方式は、選手の体に多数のマーカーを装着する必要があり、実試合には適用できない。そこで、近年では、選手の体に投光されている赤外線パターンを読み取り、その赤外線パターンの歪みから深度情報を得る深度センサを用いることで、マーカーレスでの人物姿勢計測が可能になっている。また、マーカー式ではなく、光学式のモーションキャプチャー方式を応用した種々の技術が開示されている(例えば、特許文献1,2参照)。
例えば、特許文献1では、立体視を用いた仮想現実システムにおいて他者の模範動作映像を表示することにより使用者に対して動作を教示する際に、光学式のモーションキャプチャー方式により、計測対象者の骨格の3次元位置を計測する装置が開示されている。また、特許文献2には、光学式のモーションキャプチャー方式を利用してプレイヤーの動作を測定し、測定したデータとモデルのフォームに関するデータとに基づいて同プレイヤーのフォームを評価するトレーニング評価装置について開示されている。しかし、これらの技術は、モーションキャプチャー方式を利用するため、実際の試合に適用できず、汎用的なカメラ映像から人物のプレー動作を計測することは難しい。
また、モーションキャプチャー方式によらず、一人又は二人が一組となってバドミントンの試合やバドミントン練習を撮影したカメラ映像のみから、人物の動きをシミュレートする装置が開示されている(例えば、特許文献3参照)。特許文献3の技術では、撮影したカメラ映像から、ショットなどの動作を検出するものとなっているが、専用に設定したカメラによる撮影映像から処理することを前提としており、汎用的な放送カメラ映像から人物のプレー動作を計測することは難しい。
ところで、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっている。この深層学習技術を用いることで、通常のカメラ映像から静止画像を抽出し、その静止画像に含まれる選手の姿勢を自動計測することが可能となっている。
特開2002-8063号公報 特開2002-253718号公報 特開2018-187383号公報
上述したように、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。
しかし、従来技術では、リアルタイムで映像コンテンツの映像解析のみから、触覚メタデータを生成することが困難である。即ち、映像のみから触覚メタデータを生成する場合には、カメラ映像からリアルタイムで人物オブジェクトの動きを解析する必要がある。リアルタイムのスポーツ競技では、その競技に影響を与えることは好ましくないため、マーカー装着によるモーションキャプチャー方式や、撮影距離に制限のある深度センサなどを用いずに、撮影条件に制限の無い汎用的な放送カメラ映像のみから触覚メタデータを生成することが望ましい。
つまり、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト(選手等)の動きに関する触覚メタデータを生成する技法が望まれる。
また、人物オブジェクトの動きを高精度に検出するために、人物以外の動オブジェクト(例えば、バドミントン競技であればシャトル、ラケット)を参考する技法も考えられるが、参考とする人物以外の動オブジェクトが存在しない競技(例えば、柔道やレスリング等)においても、人物オブジェクトの動きを高精度に検出する技法が望まれる。
尚、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっているが、これに代表される骨格検出アルゴリズムは基本的に静止画単位で骨格位置を検出するものである。このため、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト(選手等)の動きに関する触覚メタデータを生成するには、更なる工夫が必要になる。
本発明の目的は、上述の問題に鑑みて、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供することにある。
本発明の触覚メタデータ生成装置は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、入力された映像について、現フレーム画像を含む複数フレーム分の過去のフレーム画像を抽出する複数フレーム抽出手段と、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第1の骨格座標集合を生成する人物骨格抽出手段と、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、前記第1の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、当該各人物オブジェクトの骨格の位置及びサイズを示す領域の周辺画像情報を抽出することにより人物オブジェクトを識別し、人物IDを付与した第2の骨格座標集合を生成する人物識別手段と、前記現フレーム画像を基準に、前記複数フレーム分のフレーム画像における前記第2の骨格座標集合を時系列に連結し、人物オブジェクト毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合を生成する軌跡特徴量生成手段と、前記現フレーム画像を基準に、当該複数フレーム分のフレーム画像における骨格軌跡集合を基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量を算出するとともに、骨格検出の成否、人物骨格の重心の移動量、及び前記探索範囲を表す骨格外接矩形のアスペクト比の変化量を算出し、これらを要素とする特徴ベクトルを、動作状況を表す動作状況特徴量として生成する動作状況計測手段と、前記骨格軌跡集合の軌跡特徴量と、当該骨格軌跡集合の軌跡特徴量に対応する動作状況特徴量とを基に、機械学習により、触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、前記現フレーム画像に対応して、前記人物動作認識手段から得られる当該触覚提示デバイスを作動させる衝撃提示用の情報を含む第1の触覚メタデータを生成し、フレーム単位で外部出力する第1のメタデータ生成手段と、前記現フレーム画像に対応して、前記動作状況計測手段から得られる各人物オブジェクトの人物動きの状況変化量を示す動作状況提示用の情報を含む第2の触覚メタデータを生成し、フレーム単位で外部出力する第2のメタデータ生成手段と、を備えることを特徴とする。
また、本発明の触覚メタデータ生成装置において、前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする。
また、本発明の触覚メタデータ生成装置において、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち全ての人物オブジェクトの前記骨格軌跡集合を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する動オブジェクト検出手段を更に備え、前記人物動作認識手段は、前記動オブジェクト情報を基に、全ての人物オブジェクトの前記骨格軌跡集合のうち前記触覚提示デバイスを作動させるための骨格軌跡集合を選定し、選定した骨格軌跡集合の軌跡特徴量と、その選定した骨格軌跡集合に対応する動作状況特徴量とを基に、機械学習により、人物オブジェクト毎の衝撃提示用のタイミング及び速さを示す情報を検出することを特徴とする。
また、本発明の映像触覚連動システムは、本発明の触覚メタデータ生成装置と、触覚刺激を提示する触覚提示デバイスと、前記触覚メタデータ生成装置から得られる第1及び第2の触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、を備えることを特徴とする。
更に、本発明のプログラムは、コンピュータを、本発明の触覚メタデータ生成装置として機能させるためのプログラムとして構成する。
本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができる。そして、人物オブジェクトに生じる「衝撃の種類とタイミング」を表す第1の触覚メタデータだけでなく、人物オブジェクトに係る連続的な「動作状況」を表す第2の触覚メタデータをも自動生成できるようになる。これにより、スポーツ映像のリアルタイム視聴時での触覚刺激の提示が可能となり、更には、人物オブジェクトの重なりやオクルージョンが生じやすい柔道等の試合映像での詳細な触覚提示も可能となる。つまり、視覚・聴覚への情報提供のみならず、触覚にも訴えることで、視覚や聴覚に障害を持つ方々へもスポーツの状況を分かりやすく伝えることが可能となる。さらに、視覚・聴覚の感覚を有する健常者の方々にとっても、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。
特に、スポーツ映像視聴に際し、各選手の識別、位置座標、及びチーム競技であればその分類、並びに、触覚提示デバイスを作動させる種類(衝撃強度の種類)とタイミング(速さを含む)、並びに動作状況を示す情報を含む触覚メタデータを生成することで、触覚提示デバイスにより、動作の状況変化とともに、プレーの種類、タイミング、強度などに関する触覚刺激をユーザに提示できるようになる。これにより、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外でも、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能になる。
本発明による一実施形態の触覚メタデータ生成装置を備える映像触覚連動システムの概略構成を示すブロック図である。 本発明による一実施形態の触覚メタデータ生成装置の処理例を示すフローチャートである。 本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する説明図である。 (a)は1フレーム画像を例示する図であり、(b)は本発明による一実施形態の触覚メタデータ生成装置における1フレーム画像における人物骨格抽出例を示す図である。 (a),(b)は、それぞれ本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。 本発明による一実施形態の触覚メタデータ生成装置における軌跡特徴量の説明図である。 本発明による一実施形態の触覚メタデータ生成装置における動オブジェクト検出のために生成する差分画像例を示す図である。 (a)乃至(c)は、それぞれ本発明による一実施形態の触覚メタデータ生成装置における動作状況検出処理に関する人物動きの状況変化量の説明図である。 本発明による一実施形態の映像触覚連動システムにおける制御ユニットの概略構成を示すブロック図である。
(システム構成)
以下、図面を参照して、本発明による一実施形態の触覚メタデータ生成装置12を備える映像触覚連動システム1について詳細に説明する。図1は、本発明による一実施形態の触覚メタデータ生成装置12を備える映像触覚連動システム1の概略構成を示すブロック図である。
図1に示す映像触覚連動システム1は、カメラや記録装置等の映像出力装置10から映像を入力し、入力された映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータ(第1の触覚メタデータと第2の触覚メタデータの2種類)を同期して自動生成する触覚メタデータ生成装置12と、生成した触覚メタデータを基に、本例では2台の触覚提示デバイス14L,14Rと、各触覚提示デバイス14L,14Rを個別に駆動制御する制御ユニット13と、を備える。
まず、映像出力装置10が出力する映像は、一例として柔道競技をリアルタイムで撮影されたものとしてディスプレイ11に表示され、ユーザUによって視覚されるものとする。
柔道競技は、二人の選手が組み合って、「抑え込み」や「投げ」などの技を競うスポーツであり、各人物に衝撃が生じた瞬間や各人物の動きの状況変化を触覚提示デバイス14L,14Rにより触覚刺激としてユーザUに提示することで、より臨場感を高め、また視聴覚障害者にも試合状況を伝えることが可能である。
特に、柔道競技では、映像上で選手同士の重なりやオクルージョンが多数生じるため、各選手に生じる衝撃の種類に応じたタイミングと速さ以外にも、各選手の押し引きなどの組み合い、投げ等に係る動作状況を連続的に触覚提示できるようにすることで、視覚や聴覚の障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。
そこで、ユーザUは、左手HLで触覚提示デバイス14Lを把持し、右手HRで触覚提示デバイス14Rを把持して、本例では映像解析に同期した振動刺激が提示されるものとする。制御ユニット13は、触覚メタデータ生成装置12から得られる各人物オブジェクトOp1,Op2に生じる衝撃の種類に応じたタイミングと速さを示す衝撃提示用の情報を含む第1の触覚メタデータと、各人物オブジェクトOp1,Op2に係る連続的な「動作状況」を表す動作状況提示用の情報を含む第2の触覚メタデータを基に、各人物オブジェクトOp1,Op2に対応付けられた2台の触覚提示デバイス14L,14Rの触覚提示を個別に制御する。ただし、制御ユニット13は、1台の触覚提示デバイスに対してのみ駆動制御する形態でもよいし、3台以上の触覚提示デバイスに対して個別に駆動制御する形態でもよい。また、限定するものではないが、本例の制御ユニット13は、映像内の人物オブジェクトOp1(選手)の動きに対応した振動刺激は触覚提示デバイス14Lで、人物オブジェクトOp2(選手)の動きに対応した振動刺激は触覚提示デバイス14Rで提示するように分類して制御するものとする。
触覚提示デバイス14L,14Rは、球状のケース141内に、制御ユニット13の制御によって振動刺激を提示可能な振動アクチュエーター142が収容されている。尚、触覚提示デバイス14L,14Rは、振動刺激の他、電磁気パルス刺激を提示するものでもよい。本例では、制御ユニット13と各触覚提示デバイス14L,14Rとの間は有線接続され、触覚メタデータ生成装置12と制御ユニット13との間も有線接続されている形態を例に説明するが、それぞれ近距離無線通信で無線接続されている形態としてもよい。
触覚メタデータ生成装置12は、複数フレーム抽出部121、人物骨格抽出部122、人物識別部123、軌跡特徴量生成部124、動オブジェクト検出部125、人物動作認識部126、第1のメタデータ生成部127、動作状況計測部128、及び第2のメタデータ生成部129を備える。
複数フレーム抽出部121は、入力された映像について、現フレーム画像を含むT(Tは2以上の整数)フレーム分の過去のフレーム画像を抽出し、人物骨格抽出部122及び動オブジェクト検出部125に出力する。
人物骨格抽出部122は、現フレーム画像を含むTフレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクト(以下、単に「人物」とも称する。)Op1,Op2の骨格座標集合P (n:検出人数、b:骨格ID)を生成し、現フレーム画像を含むTフレーム分のフレーム画像とともに、人物識別部123に出力する。
人物識別部123は、現フレーム画像を含むTフレーム分のフレーム画像の各々について、骨格座標集合P を基に探索範囲(詳細は後述する。)を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成し、軌跡特徴量生成部124に出力する。
軌跡特徴量生成部124は、現フレーム画像を基準に、Tフレーム分のフレーム画像における骨格座標集合P を時系列に連結し、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合T (i:人物ID、b:骨格ID)を生成し、動オブジェクト検出部125、人物動作認識部126、及び動作状況計測部128に出力する。
動オブジェクト検出部125は、現フレーム画像を含むTフレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち軌跡特徴量生成部124から得られる全ての人物の骨格軌跡集合T を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成し、人物動作認識部126に出力する。
動作状況計測部128は、現フレーム画像を基準に、Tフレーム分のフレーム画像における骨格軌跡集合T を基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量K(t)を算出して第2のメタデータ生成部129に出力するとともに、骨格検出の成否D(t)、人物骨格の重心の移動量(縦Gv(t)、横Gh(t))、及び当該探索範囲を表す骨格外接矩形のアスペクト比の変化量S(t)を算出し、これらのK(t),D(t),Gv(t),Gh(t),S(t)を要素とする特徴ベクトルを、動作状況を表す動作状況特徴量M (i:人物ID、b:骨格ID)として生成し、人物動作認識部126に出力する。
人物動作認識部126は、動オブジェクト情報を基に、全ての人物の骨格軌跡集合T のうち、触覚提示デバイスを作動させるための骨格軌跡集合T を選定し、選定した骨格軌跡集合T の軌跡特徴量と、その選定した骨格軌跡集合T の軌跡特徴量に対応する動作状況特徴量M とを基に、機械学習(サポートベクターマシン、又はニューラルネットワーク等)により、現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を検出し、第1のメタデータ生成部127に出力する。
第1のメタデータ生成部127は、現フレーム画像に対応して、人物動作認識部126から得られる、現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む第1の触覚メタデータ(衝撃提示用)を生成し、フレーム単位で制御ユニット13に出力する。
第2のメタデータ生成部129は、現フレーム画像に対応して、動作状況計測部128から得られる各人物オブジェクトの人物動きの状況変化量K(t)を示す動作状況提示用の情報を含む第2の触覚メタデータ(動作状況提示用)を生成し、フレーム単位で制御ユニット13に出力する。
以下、より具体的に、図2を基に、図3乃至図8を参照しながら、触覚メタデータ生成装置12における触覚メタデータ生成処理について説明する。
(触覚メタデータ生成処理)
図2は、本発明による一実施形態の触覚メタデータ生成装置12の処理例を示すフローチャートである。そして、図3は、触覚メタデータ生成装置12における人物骨格抽出処理に関する説明図である。また、図4(a)は1フレーム画像を例示する図であり、図4(b)は触覚メタデータ生成装置12における1フレーム画像における人物骨格抽出例を示す図である。図5(a),(b)は、それぞれ本発明による一実施形態の触覚メタデータ生成装置12における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。図6は、触覚メタデータ生成装置12における軌跡特徴量の説明図である。図7は、本発明による一実施形態の触覚メタデータ生成装置12における動オブジェクト検出のために生成する差分画像例を示す図である。そして、図8(a)乃至(c)は、それぞれ本発明による一実施形態の触覚メタデータ生成装置12における動作状況検出処理に関する人物動きの状況変化量の説明図である。
図2に示すように、触覚メタデータ生成装置12は、まず、複数フレーム抽出部121により、入力された映像について、現フレーム画像を含むT(Tは2以上の整数)フレーム分の過去のフレーム画像を抽出する(ステップS1)。
続いて、触覚メタデータ生成装置12は、人物骨格抽出部122により、現フレーム画像を含むTフレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトOp1,Op2の骨格座標集合P (n:検出人数、b:骨格ID)を生成する(ステップS2)。
近年の深層学習技術の発展により、通常の画像から人物の骨格位置を推定することが可能となった。OpenPoseやVisionPose(NextSystem社)に代表されるように、骨格検出アルゴリズムをオープンソースで公開しているものも存在する。そこで、本例の人物骨格抽出部122は、VisionPoseを用いて、図3に示すように、フレーム画像毎に人物の骨格30点を検出し、その位置座標を示す骨格座標集合P を生成する。
VisionPoseでは、図3において、P :“頭”、P :“鼻”、P :“左目”、P :“右目”、P :“左耳”、P :“右耳”、P :“首”、P :“背骨(肩)”、P :“左肩”、P 10:“右肩”、P 11:“左肘”、P 12:“右肘”、P 13:“左手首”、P 14:“右手首”、P 15:“左手”、P 16:“右手”、P 17:“左親指”、P 18:“右親指”、P 19:“左指先”、P 20:“右指先”、P 21:“背骨(中央)”、P 22:“背骨(基端部)”、P 23:“左尻部”、P 24:“右尻部”、P 25:“左膝”、P 26:“右膝”、P 27:“左足首”、P 28:“右足首”、P 29:“左足”、及び、P 30:“右足”、についての座標位置と、各座標位置を図示するような線で連結した描画が可能である。
このVisionPoseの骨格検出アルゴリズムに基づき、図4(a)に示す柔道競技の1フレーム画像Fに対して、人物の骨格抽出を行ったフレーム画像Faを図4(b)に示している。図4(a)に示すフレーム画像Fには、各人物オブジェクトOp1,Op2(選手)のみが映り込んでいる様子を示しているが、その他の人物オブジェクトである審判の動オブジェクトが映り込むことや、別のスポーツ競技であれば人物以外の動オブジェクト(バドミントン競技であればラケットやシャトル等)、或いは観客等のオブジェクト(実質的には、静オブジェクト)が写り込むことがある。しかし、VisionPoseの骨格検出アルゴリズムを適用すると、選手及び審判の人物オブジェクトの人物についてのみ人物の骨格抽出を抽出することができる。本例では、図4(b)に示すように、人物オブジェクトOp1,Op2にそれぞれ対応する骨格座標集合P ,P を推定して生成することができる。図4(b)からも理解されるように、柔道競技においても、比較的精度よく各人物の骨格を推定できる。尚、骨格検出アルゴリズムは、静止画単位での推定に留まるので、触覚メタデータ生成装置12は、後続する処理として、人物の識別を行い、各人物の骨格位置の推移を軌跡特徴量として定量化し、時間軸を考慮した高精度な動作認識を行う。
続いて、触覚メタデータ生成装置12は、人物識別部123により、現フレーム画像を含むTフレーム分のフレーム画像の各々について、骨格座標集合P を基に探索範囲を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成する(ステップS3)。
前述した人物骨格抽出部122により、現フレーム画像を含むTフレーム分のフレーム画像の各々について、骨格座標集合P として、1以上の人物の骨格の検出が可能となる。しかし、各フレーム画像の骨格座標集合P では、「誰」の情報は存在しないため、各人物の骨格を識別する必要がある。この識別には、各フレーム画像における各骨格座標集合P の座標付近の画像情報を利用する。即ち、人物識別部123は、骨格座標集合P を基に、各人物の骨格の位置及びサイズと、その周辺画像情報(色情報、及び顔又は背付近のテクスチャ情報)を抽出することにより、人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成する。
例えば、柔道では白と青の道着で試合が行われるが、各骨格座標集合P の骨格の位置付近の画像情報として、フレーム画像Fにおける色情報を参照することで、選手の識別が可能になる。また、バドミントン競技では、コートを縦に構えた画角で撮影される場合に、各骨格座標集合P の骨格の位置がフレーム画像Fにおける画面上側であれば奥の選手、画面下側であれば手前の選手、として識別することができる。
従って、人物骨格抽出部122における骨格検出アルゴリズムは静止画単位での推定に留まるが、骨格座標集合P を基に動オブジェクトとしての人物を認識することができ、各骨格位置の推移を軌跡特徴として扱うことで、時間軸を考慮した高精度な動作認識を可能となる。
尚、前述した人物骨格抽出部122では、選手以外にも審判や観客など、触覚刺激の提示対象としない他の人物の骨格を検出してしまうことも多い。審判は選手と別の衣服を着用することが多いため、色情報で識別できる。また、観客は選手に比べて遠くにいることが多いため、骨格のサイズで識別が可能である。このように、各競技のルールや撮影状況を考慮し、人物識別に適切な周辺画像情報(色情報、及び顔又は背付近のテクスチャ情報)を設定することにより、触覚刺激の提示対象とする選手の識別が可能となる。
ところで、本実施形態の人物識別部123は、各人物の重なりやオクルージョンにも対応するため、フレーム画像単位で探索範囲(人物探索範囲R及び注目探索範囲Rb)を可変設定する。例えば、図5(a)に示す人物オブジェクトOp1,Op2(選手)と、人物オブジェクトOp3(審判)について、人物骨格抽出部122により各骨格座標集合P (図示略)の抽出が行われると、人物識別部123は、フレーム画像単位で人物探索範囲R及び注目探索範囲Rbを可変設定することができる。この探索範囲Rは、図5(a)において、人物ID(i)ごとに設定し、フレーム画像の画像座標上での人物の位置座標、及び人物の大きさ(幅及び高さ)を有するものとして外接矩形で表している。また、各人物の腰領域(P 22,P 23,P 24)を囲む領域を注目探索範囲Rbとして表している。
より具体的には、本実施形態の人物識別部123は、各フレーム画像で人物の探索範囲を、最大で人物骨格の全体を囲む人物探索範囲Rに限定し、最小で人物骨格のうち所定領域(本例では腰領域(P 22,P 23,P 24)を囲む領域)を注目探索範囲Rbとして定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Rbを含むように探索範囲を決定して、当該人物オブジェクトを識別する処理を行う。これにより、例えば図5(b)に示すように各人物の動作が変化した場合やフレーム画像に対する相対的な人物の大きさが変化した場合でも、他の人物の誤認識を防ぎ、また処理速度も向上できる。特に、柔道のように識別対象の人物の重なりが激しく、背景も複雑な映像から精度よく選手を識別するには探索範囲の利用が有効である。
つまり、本実施形態の人物識別部123は、各選手及び審判の人物オブジェクトのOp1,Op2,Op3における各骨格座標集合P のうち、色識別を可能とする所定範囲(本例では腰領域(P 22,P 23,P 24)の色(青、白、茶色))を注目探索範囲Rbとして予め定めているので、検出した複数の人物の骨格座標集合P が重なる場合には注目探索範囲Rbに絞って探索することで、各フレーム画像で精度よく人物を抽出・追跡できる。尚、背景に解析対象以外の骨格を検出する場合もあるため、解析対象の人物の骨格には、人物ID(i)を付与して判別することで、追跡対象の人物の骨格座標P を識別できる。
そして、探索範囲(人物探索範囲R及び注目探索範囲Rb)の広さや形の決定は、カルマンフィルタやパーティクルフィルタなどの状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Rb(本例では、各人物の腰領域)を含むように決定する。
そして、探索範囲(人物探索範囲R及び注目探索範囲Rb)の安定検出時には範囲を狭め、検出が不安定な際には範囲を広げることができ、例えば、人物ID(i)ごとに人物の骨格の状態遷移推定値に基づいて定めた探索範囲を設定し、その状態遷移推定値が直前フレームから所定値以内であれば安定とし、そうでなければ不安定とすることや、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、Tフレーム分の時間窓間に、検出に成功した割合を計算し、その割合が所定値以上であれば安定とし、当該所定値を下回った場合に不安定とすることで、探索範囲を可変設定することができる。
続いて、触覚メタデータ生成装置12は、軌跡特徴量生成部124により、現フレーム画像を基準に、Tフレーム分のフレーム画像における骨格座標集合P を時系列に連結し、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合T (i:人物ID、b:骨格ID)を生成する(ステップS4)。
ここで、骨格軌跡集合T の生成にあたって、まず、任意のフレーム画像における骨格座標集合P をP (t)とし、現フレーム画像をt=0として現フレーム画像における骨格座標集合P をP (0)で表し、過去Tフレームのフレーム画像における骨格座標集合P をP (T)で表す。つまり、軌跡特徴量生成部124は、現フレーム画像のフレーム番号をt=0として、過去Tフレームまでのフレーム番号をt=Tで表すと、現フレーム画像を基準に、t=0,1,…,Tの各フレーム画像Fを用いて、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合T を生成することができる。尚、骨格軌跡集合T は、人物探索範囲R及び注目探索範囲Rbのそれぞれについて分けて軌跡を算出できる。
尚、骨格軌跡集合T の生成に用いる骨格座標は、必ずしも図3に示す30点全てを用いる必要はなく、予め定めた特定の骨格軌跡のみを使用して、処理速度を向上させる構成とすることもできる。また、骨格軌跡集合T としては、骨格座標集合P の座標表現そのものを連結したものとしてもよいが、人物毎の骨格の軌跡を示すものであればよいことから、各競技のルールや撮影状況を考慮し、軌跡特徴を表わすのに適切な情報(動き量や移動加速度等)に変換したものとしてもよい。
例えば、骨格軌跡集合T は、各骨格の移動量の二階微分を作成し、加速度に相当する値に変換するのが好適である。そこで、骨格座標集合P の軌跡として、加速度に相当する骨格軌跡集合T で表すことで、後段の人物動作認識部126における動作認識の精度を向上させることができる。
まず、式(1)に示すように、隣接する画像フレーム間で、対応する骨格座標集合P (t),P (t+1)の位置座標の差(ユークリッド距離)を取り、その移動量D (t)を求める。
Figure 0007488704000001
ここで、P (t),xはP (t)におけるx座標、P (t),yはP (t)におけるy座標を表す。
(t)は、各座標点の速度に相当する特徴量となるが、式(2)に示すように、更にその差の絶対値をとることで、加速度に相当する特徴量A (t)が得られる。ここで、abs()は、絶対値を返す関数である。
Figure 0007488704000002
この加速度に相当する特徴量A (t)を用いて各人物の動作を追跡した軌跡を示す骨格軌跡集合T を生成することができ、図6には、或るフレーム画像における人物オブジェクトOp1,Op2にそれぞれ対応する骨格座標集合の軌跡特徴量T ,T を分かり易く描画したフレーム画像Fbを示している。
続いて、触覚メタデータ生成装置12は、動作状況計測部128により、現フレーム画像を基準に、Tフレーム分のフレーム画像における骨格軌跡集合T を基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量K(t)を算出して第2のメタデータ生成部129に出力するとともに、骨格検出の成否D(t)、人物骨格の重心の移動量(縦Gv(t)、横Gh(t))、及び当該探索範囲を表す骨格外接矩形のアスペクト比の変化量S(t)を算出し、これらのK(t),D(t),Gv(t),Gh(t),S(t)を要素とする特徴ベクトルを、動作状況を表す動作状況特徴量M (i:人物ID、b:骨格ID)として生成し、人物動作認識部126に出力する(ステップS5)。
例えば柔道では、組手の状態から相手の隙を伺い、急激に投げの動作に入ることが多い。この閑から急に至る状況を触覚刺激として提示することで、映像コンテンツ視聴における臨場感を高めることができる。Tフレーム分のフレーム画像における骨格軌跡集合T を基準とした各人物オブジェクト(選手)間の距離、及び人物オブジェクト(選手)毎の各関節のオプティカルフロー量から各各人物オブジェクト(選手)の人物動きの状況変化量K(t)を算出できる。
より具体的には、人物動きの状況変化量K(t)を以下に示す式(3)のように定義する。この人物動きの状況変化量K(t)は、第2のメタデータ生成部129により、第2の第2の触覚メタデータ(動作状況提示用)として外部出力される。
Figure 0007488704000003
ここで、d(t)は各人物オブジェクト(選手)間の距離を表し、F(t)は、現フレーム画像の時刻tと直前フレームの時刻t-1における人物オブジェクトごとの骨格30点のオプティカルフローの平均値を表す。d(t)を算出する際のgは、重心(本例では、腰の位置であるP 22,P 23,P 24の中央値座標)を表している。従って、P (t)は、現フレーム画像の時刻tにおけるi=1の人物IDの人物オブジェクトOp1の重心位置を表し、P (t)は、そのフレーム画像の時刻tにおけるi=2の人物IDの人物オブジェクトOp2の重心位置を表す。また、Lは双方の人物オブジェクトOp1,Op2の骨格30点のうち両選手の首から腰までの距離の平均値であり、Lで正規化することにより各選手の撮影サイズによる影響を排除できる。
一方、動作状況を表す動作状況特徴量M (i:人物ID、b:骨格ID)は、それぞれ式(4)、式(5)、式(6)、式(7)に示すように、骨格検出の成否D(t)、人物骨格の重心の移動量(縦Gv(t)、横Gh(t))、及び骨格外接矩形(人物探索範囲)のアスペクト比の変化量S(t)を算出し、人物動きの状況変化量K(t)に加えて、D(t),Gv(t),Gh(t),S(t)を要素として生成する。
Figure 0007488704000004
Figure 0007488704000005
Figure 0007488704000006
Figure 0007488704000007
ここで、R(t)は、時刻tのフレーム画像F(t)における人物オブジェクトOp1の当該探索範囲を表す骨格外接矩形を表し、その左上座標(x,y)と、幅(width)及び高さ(height)の情報を有し、“aaa.bbb”は、aaaのbbb成分を表す。
柔道の「投げ」動作時は、急に重心が下がり、画像上で横長のアスペクト比になることが多い。また不自然な体勢になることも多く、しばしば骨格検出に失敗する。さらに、関節の移動量が全体的に増加する。そこで、人物動きの状況変化量K(t)に加えて、D(t),Gv(t),Gh(t),S(t)の要素からなる動作状況を表す動作状況特徴量M を、後段の人物動作認識部126における機械学習の識別器に用いることで、例えば「投げ」動作を精度よく検出できる。
続いて、触覚メタデータ生成装置12は、動オブジェクト検出部125により、現フレーム画像を含むTフレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち軌跡特徴量生成部124から得られる全ての人物の骨格軌跡集合T を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する(ステップS6)。図7に示す差分画像Fcに示されているように、人物オブジェクトOp1’,Op2’が検出できていることが分かる。
後段の人物動作認識部126では、骨格軌跡集合T を用いて人物の動作認識を行うことが可能であるが、人物(選手)の動作は多種多様であり、誤検出や検出漏れが発生するケースも少なくない。そこで、動オブジェクト検出部125は、現フレーム画像を含むTフレーム分のフレーム画像の各々を用いて、解析対象とする人物の動オブジェクトの位置や動きに関する情報を抽出する(尚、バドミントン競技などの人物以外のラケットやシャトル等の動オブジェクトも参考とすることができるときは、その動オブジェクトも利用できる。)。この情報を利用することで、後段の人物動作認識部126は、動作認識の精度をより向上させることができる。
続いて、触覚メタデータ生成装置12は、人物動作認識部126により、動オブジェクト情報を基に、全ての人物の骨格軌跡集合T のうち、触覚提示デバイスを作動させるための骨格軌跡集合T を選定し、選定した骨格軌跡集合T の軌跡特徴量と、その選定した骨格軌跡集合T の軌跡特徴量に対応する動作状況特徴量M とを基に、機械学習(サポートベクターマシン、又はニューラルネットワーク等)により触覚提示デバイス14R,14Lを作動させる衝撃提示用の情報を検出する(ステップS7)。衝撃提示用の情報には、現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報が含まれる。
機械学習(サポートベクターマシン、又はニューラルネットワーク等)時には、事前に学習用の軌跡特徴量を作成して学習させておく。例えば、サポートベクターマシンを利用するときは、衝撃を表す瞬間の軌跡特徴量を正例、それ以外の軌跡特徴量を負例として学習することで、人物動作認識部126は、触覚提示デバイス14R,14Lを作動させるタイミング及び速さを示す情報を動作認識として検出することが可能となる。更に、人物動作認識部126は、選定した骨格軌跡集合T の軌跡特徴量から、動作認識の精度を高めるとともに、どの選手がどのような衝撃を受けているか等、現フレーム画像内の各人物の識別、位置座標、(及びチーム分類)の情報も検出することも可能である。
更に、動作状況特徴量M を機械学習の識別器に加えることで、柔道などでの投げ動作などの動きに応じて生じる衝撃を認識することが可能となる。従って、人物動作認識部126は、その動作認識において、人物以外の動オブジェクトの情報を参照する技法もあるが、本例では人物以外の動オブジェクトを参照できない場合でも、高精度に柔道競技等の人物を認識するため、動作状況特徴量M を用いるようにしている。この動作状況特徴量M を加味することで、人物の動きの検出精度や動きの種類の判別を向上させている。
ただし、これらの選定した骨格軌跡集合T の軌跡特徴量及び動作状況特徴量M の各特徴量の変化は、その全特徴量が同時刻に変化するように発生するとは限らない。そこで、T=15フレームなど一定時間の時間窓を設けた特徴量とする。一定時間内の各特徴量を用いてSVMなどで機械学習を行うことで、各特徴量の変化に時間的なズレが生じても頑健な識別器を構成することができる。
最終的に、触覚メタデータ生成装置12は、第1のメタデータ生成部127により、現フレーム画像に対応して、各人物の識別、位置座標、(及びチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む第1の触覚メタデータ(衝撃提示用)を生成し、フレーム単位で制御ユニット13に出力する(ステップS8)。
また、触覚メタデータ生成装置12は、第2のメタデータ生成部129により、現フレーム画像に対応して、各人物オブジェクトの人物動きの状況変化量を示す動作状況提示用の情報を含む第2の触覚メタデータ(動作状況提示用)を生成し、フレーム単位で制御ユニット13に出力する(ステップS9)。
そして、触覚メタデータ生成装置12は、映像出力装置10から映像のフレーム画像が入力される度に、ステップS1乃至S9の処理を繰り返す。
人物動きの状況変化量K(t)による第2の触覚メタデータに応じて制御ユニット13が触覚提示デバイス14L,14Rを制御することで、各選手が組み合った際の近接時、且つ投げようと体が大きく動いた際に対応する触覚提示デバイスを大きく振動させることができる。制御ユニット13は、第1の触覚メタデータについては衝撃を表す単発的な刺激を与えるに留まるが、動作状況を示す第2の触覚メタデータを併せて取得し、対応する触覚提示デバイスを制御することで、映像コンテンツの状況を連続値で恒常的に提示することができ、ユーザUは、常に各人物オブジェクトOp1,Op2の動作状況を把握することができるようになる。
人物動きの状況変化量K(t)を可視化した例を図8に示している。図8(a)の左図は、人物オブジェクトOp1,Op2(選手)と人物オブジェクトOp3(審判)の動作状況“組み合い”の様子が見て取れる現フレームのフレーム画像Fであり、図8(a)の右図は、過去のフレーム画像の時刻tpから現フレーム画像の時刻tcまで(15フレームの経過期間)の最大値100で正規化した人物動きの状況変化量K(t)の大きさを表している。図8(a)の右図から理解されるように、“組み合い”の動作状況時(投げの動作状況時も同様)には人物動きの状況変化量K(t)が時間経過とともに大きくなり、各人物の動作量が増えていることが判別できる。
また、図8(b)の左図は、人物オブジェクトOp1,Op2(選手)と人物オブジェクトOp3(審判)の動作状況“抑え込み”の様子が見て取れる現フレームのフレーム画像Fであり、図8(b)の右図は、過去のフレーム画像の時刻tpから現フレーム画像の時刻tcまで(15フレームの経過期間)の最大値100で正規化した人物動きの状況変化量K(t)の大きさを表している。図8(b)の右図から理解されるように、“抑え込み”の動作状況時には人物動きの状況変化量K(t)が時間経過とともに小さくなり、各人物の動作量が減少していることが判別できる。
また、図8(c)の左図は、人物オブジェクトOp1,Op2(選手)と人物オブジェクトOp3(審判)の動作状況“待て”の様子が見て取れる現フレームのフレーム画像Fであり、図8(c)の右図は、過去のフレーム画像の時刻tpから現フレーム画像の時刻tcまで(15フレームの経過期間)の最大値100で正規化した人物動きの状況変化量K(t)の大きさを表している。図8(c)の右図から理解されるように、“待て”の動作状況時(試合開始前、両選手の距離が離れている際も同様)には人物動きの状況変化量K(t)が時間経過を経ても小さく、各人物の動作量がほとんどないことが判別できる。
また、人物動きの状況変化量K(t)は動作状況特徴量M に含まれる要素であり、この動作状況特徴量M を用いることで、式(4)に示すようなif-thenルールを用いても各人物の動作認識を高精度に行うことができるようになる。即ち、図8(c)に示すように、選手2人と審判を独立に認識し、各人の関節の推移を軌跡特徴量から判別することで、審判が手を挙げて「待て」の動作を自動認識することが可能となる。触覚メタデータ生成装置12が、「待て」の動作に応じた第1及び第2の触覚メタデータを触覚提示デバイス14L,14Rに出力することで、触覚提示デバイス14L,14Rを利用するユーザUは、連続した一定量の刺激提示からほぼゼロの刺激提示に強制的に示すことが可能となり、「待て」の前後の動作で、試合開始前であるかのような試合状況を誤解させるおそれも少なくなる。従って、本実施形態の触覚メタデータ生成装置12は、スポーツ映像のリアルタイム視聴時でも触覚刺激を人物の動きに応じて提示することが可能となる。
(制御ユニット)
図9は、本発明による一実施形態の映像触覚連動システム1における制御ユニット13の概略構成を示すブロック図である。制御ユニット13は、メタデータ受信部131、解析部132、記憶部133、及び駆動部134‐1,134‐2を備える。
メタデータ受信部131は、触覚メタデータ生成装置12から第1の触覚メタデータ(衝撃提示用)及び第2の触覚メタデータ(動作状況提示用)を入力し、解析部132に出力する機能部である。第1の触覚メタデータは、現フレーム画像内の各人物の識別、位置座標、(及びチーム競技であればそのチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む。第2の触覚メタデータは、図8に例示した動作状況の情報を含む。
解析部132は、触覚メタデータ生成装置12から得られる第1及び第2の触覚メタデータを基に、予め定めた駆動基準データを参照し、駆動部134‐1,134‐2を介して、対応する各触覚提示デバイス14L,14Rの振動アクチュエーター142を駆動するよう制御する機能部である。例えば、解析部132は、一方の選手が組合から投げ動作に移行するときは、第2の触覚メタデータにおける動作状況に応じた振動提示に加えて、第1の触覚メタデータにおける人物の識別、位置座標、(及びチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さから、予め定めた駆動基準データを参照して、触覚提示デバイス14Lの振動アクチュエーター142の作動タイミング、強さ、及び動作時間を決定して駆動制御する。
記憶部133は、第1及び第2の触覚メタデータに基づいた駆動部134‐1,134‐2の駆動を制御するための予め定めた駆動基準データを記憶している。駆動基準データは、第1及び第2の触覚メタデータに対応付けられた触覚刺激としての振動アクチュエーター142の作動タイミング、強さ、及び動作時間について、予め定めたテーブル又は関数で表されている。また、記憶部133は、制御ユニット13の機能を実現するためのプログラムを記憶している。即ち、制御ユニット13を構成するコンピュータにより当該プログラムを読み出して実行することで、制御ユニット13の機能を実現する。
駆動部134‐1,134‐2は、各触覚提示デバイス14L,14Rの振動アクチュエーター142を駆動するドライバである。
このように、本実施形態の触覚メタデータ生成装置12を備える映像触覚連動システム1によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させることができるようになる。そして、人物オブジェクトに生じる「衝撃の種類とタイミング」を表す第1の触覚メタデータだけでなく、人物オブジェクトに係る連続的な「動作状況」を表す第2の触覚メタデータをも自動生成できるようになる。これにより、スポーツ映像のリアルタイム視聴時での触覚刺激の提示が可能となり、更には、人物オブジェクトの重なりやオクルージョンが生じやすい柔道等の試合映像での詳細な触覚提示も可能となる。つまり、視覚・聴覚への情報提供のみならず、触覚にも訴えることで、より詳細に、視覚や聴覚に障害を持つ方々へもスポーツの状況を分かりやすく伝えることが可能となる。さらに、視覚・聴覚の感覚を有する健常者の方々にとっても、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。特に、スポーツ映像視聴に際し、各選手の識別、位置座標、(及びチーム分類)、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む触覚メタデータを生成することで、より精度よく、より詳細に、1台以上の触覚提示デバイスにより、プレーの種類、タイミング、強度などに関する触覚刺激をユーザUに提示できるようになる。
尚、上述した一実施形態の触覚メタデータ生成装置12をコンピュータとして機能させることができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリに記憶される。コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、本実施形態の触覚メタデータ生成装置12の各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。
以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主としてバドミントン競技の映像解析を例に説明したが、柔道や卓球、その他の様々なスポーツ種目、及びスポーツ以外の映像にも広く応用可能である。例えば、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外の例として、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能である。従って、本発明は、前述の実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。
本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させる用途に有用である。
1 映像触覚連動システム
10 映像出力装置
11 ディスプレイ
12 触覚メタデータ生成装置
13 制御ユニット
14L,14R 触覚提示デバイス
121 複数フレーム抽出部
122 人物骨格抽出部
123 人物識別部
124 軌跡特徴量生成部
125 動オブジェクト検出部
126 人物動作認識部
127 第1のメタデータ生成部
128 動作状況計測部
129 第2のメタデータ生成部
131 メタデータ受信部
132 解析部
133 記憶部
134‐1,134‐2 駆動部
141 ケース
142 振動アクチュエーター

Claims (5)

  1. 映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、
    入力された映像について、現フレーム画像を含む複数フレーム分の過去のフレーム画像を抽出する複数フレーム抽出手段と、
    前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第1の骨格座標集合を生成する人物骨格抽出手段と、
    前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、前記第1の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、当該各人物オブジェクトの骨格の位置及びサイズを示す領域の周辺画像情報を抽出することにより人物オブジェクトを識別し、人物IDを付与した第2の骨格座標集合を生成する人物識別手段と、
    前記現フレーム画像を基準に、前記複数フレーム分のフレーム画像における前記第2の骨格座標集合を時系列に連結し、人物オブジェクト毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合を生成する軌跡特徴量生成手段と、
    前記現フレーム画像を基準に、当該複数フレーム分のフレーム画像における骨格軌跡集合を基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量を算出するとともに、骨格検出の成否、人物骨格の重心の移動量、及び前記探索範囲を表す骨格外接矩形のアスペクト比の変化量を算出し、これらを要素とする特徴ベクトルを、動作状況を表す動作状況特徴量として生成する動作状況計測手段と、
    前記骨格軌跡集合の軌跡特徴量と、当該骨格軌跡集合の軌跡特徴量に対応する動作状況特徴量とを基に、機械学習により、触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、
    前記現フレーム画像に対応して、前記人物動作認識手段から得られる当該触覚提示デバイスを作動させる衝撃提示用の情報を含む第1の触覚メタデータを生成し、フレーム単位で外部出力する第1のメタデータ生成手段と、
    前記現フレーム画像に対応して、前記動作状況計測手段から得られる各人物オブジェクトの人物動きの状況変化量を示す動作状況提示用の情報を含む第2の触覚メタデータを生成し、フレーム単位で外部出力する第2のメタデータ生成手段と、
    を備えることを特徴とする触覚メタデータ生成装置。
  2. 前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする、請求項1に記載の触覚メタデータ生成装置。
  3. 前記現フレーム画像を含む複数フレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち全ての人物オブジェクトの前記骨格軌跡集合を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する動オブジェクト検出手段を更に備え、
    前記人物動作認識手段は、前記動オブジェクト情報を基に、全ての人物オブジェクトの前記骨格軌跡集合のうち前記触覚提示デバイスを作動させるための骨格軌跡集合を選定し、選定した骨格軌跡集合の軌跡特徴量と、その選定した骨格軌跡集合に対応する動作状況特徴量とを基に、機械学習により、人物オブジェクト毎の衝撃提示用のタイミング及び速さを示す情報を検出することを特徴とする、請求項1又は2に記載の触覚メタデータ生成装置。
  4. 請求項1から3のいずれか一項に記載の触覚メタデータ生成装置と、
    触覚刺激を提示する触覚提示デバイスと、
    前記触覚メタデータ生成装置から得られる第1及び第2の触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、
    を備えることを特徴とする映像触覚連動システム。
  5. コンピュータを、請求項1から3のいずれか一項に記載の触覚メタデータ生成装置として機能させるためのプログラム。
JP2020105700A 2020-06-18 2020-06-18 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム Active JP7488704B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020105700A JP7488704B2 (ja) 2020-06-18 2020-06-18 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020105700A JP7488704B2 (ja) 2020-06-18 2020-06-18 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

Publications (2)

Publication Number Publication Date
JP2021197110A JP2021197110A (ja) 2021-12-27
JP7488704B2 true JP7488704B2 (ja) 2024-05-22

Family

ID=79195767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020105700A Active JP7488704B2 (ja) 2020-06-18 2020-06-18 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

Country Status (1)

Country Link
JP (1) JP7488704B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117079664A (zh) * 2023-08-16 2023-11-17 北京百度网讯科技有限公司 口型驱动及其模型训练方法、装置、设备和介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013008869A1 (ja) 2011-07-14 2013-01-17 株式会社ニコン 電子機器及びデータ生成方法
JP2020031406A (ja) 2018-08-24 2020-02-27 独立行政法人日本スポーツ振興センター 判定システム、及び判定方法
JP2020042476A (ja) 2018-09-10 2020-03-19 国立大学法人 東京大学 関節位置の取得方法及び装置、動作の取得方法及び装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013008869A1 (ja) 2011-07-14 2013-01-17 株式会社ニコン 電子機器及びデータ生成方法
JP2020031406A (ja) 2018-08-24 2020-02-27 独立行政法人日本スポーツ振興センター 判定システム、及び判定方法
JP2020042476A (ja) 2018-09-10 2020-03-19 国立大学法人 東京大学 関節位置の取得方法及び装置、動作の取得方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高橋 正樹、外4名,"人物の姿勢解析に基づくスポーツ映像からの触覚提示情報抽出",映像情報メディア学会 2019年冬季大会講演予稿集,日本,一般社団法人映像情報メディア学会,2019年11月28日,pp.1-2

Also Published As

Publication number Publication date
JP2021197110A (ja) 2021-12-27

Similar Documents

Publication Publication Date Title
US11132533B2 (en) Systems and methods for creating target motion, capturing motion, analyzing motion, and improving motion
US11638853B2 (en) Augmented cognition methods and apparatus for contemporaneous feedback in psychomotor learning
US11941915B2 (en) Golf game video analytic system
KR100772497B1 (ko) 골프 클리닉 시스템 및 그것의 운용방법
WO2019130527A1 (ja) 抽出プログラム、抽出方法および情報処理装置
US20060204045A1 (en) System and method for motion performance improvement
CN111444890A (zh) 一种基于机器学习的体育数据分析系统和方法
US9418470B2 (en) Method and system for selecting the viewing configuration of a rendered figure
US20070021207A1 (en) Interactive combat game between a real player and a projected image of a computer generated player or a real player with a predictive method
KR102320960B1 (ko) 사용자 신체 맞춤형 홈 트레이닝 동작 안내 및 교정 시스템
CN104353240A (zh) 基于Kinect的跑步机系统
CN102947777A (zh) 用户跟踪反馈
KR100907704B1 (ko) 인공지능형 캐디를 이용한 골퍼자세교정시스템 및 이를이용한 골퍼자세교정방법
CN113709411B (zh) 一种mr智能眼镜基于眼动追踪技术的体育辅助训练系统
KR102593654B1 (ko) 3d 캐릭터 리타게팅 기반 인공지능 골프 스윙 분석/교정 시스템 및 방법
JP7078577B2 (ja) 動作類似度評価装置、方法およびプログラム
CN111672089B (zh) 一种针对多人对抗类项目的电子计分系统及实现方法
CN106504283A (zh) 信息播放方法、装置及系统
CN116328279A (zh) 一种基于视觉人体姿势估计的实时辅助训练方法及设备
KR20100033205A (ko) 골프연습 보조 시스템 및 그 방법
JP7488704B2 (ja) 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム
KR101864039B1 (ko) 증강현실을 이용한 격투기 스포츠의 공정심사 솔루션 제공용 빅데이터 분석처리 시스템 및 그 구동방법
Pai et al. Home Fitness and Rehabilitation Support System Implemented by Combining Deep Images and Machine Learning Using Unity Game Engine.
JP7344096B2 (ja) 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム
JP7502957B2 (ja) 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230518

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240326

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240329

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240416

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240510

R150 Certificate of patent or registration of utility model

Ref document number: 7488704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150